#solr #indexing
#solr #индексирование
Вопрос:
После обхода веб-страницы с помощью Apache Nutch 2.2.1 содержимое этой страницы передается в Solr. Solr хранит содержимое целых веб-страниц в поле «содержимое», поэтому данные в этом поле обычно очень большие. Итак, вот мои опасения:
Должен ли я индексировать поле «содержимое» в Solr? Индексирование такого большого поля увеличит размер индекса. В Solr schema.xml файл Я нашел следующую рекомендацию:
NOTE: This field is not indexed by default, since it is also copied to "text"
using copyField below. This is to save space. Use this field for returning and
highlighting document content. Use the "text" field to search the content.
<field name="content" type="text_general" indexed="false" stored="true" multiValued="true"/>
Однако, если я оставлю это поле неиндексированным, это значительно увеличит время отклика поиска?
Я был бы очень признателен за любую информацию, которая поможет мне понять преимущества отказа от индексации этого большого поля или преимущества его индексации.
Ответ №1:
Если вы собираетесь выполнять поиск по полю, оно должно быть проиндексировано. Пример в схеме предполагает, что, поскольку вы собираетесь выполнять поиск по text
вместо content
, нет необходимости создавать индекс дважды. Однако они хотят сохранить ссылку на content
отдельно, чтобы ее можно было отображать в приложении или использовать для выделения (для чего требуется, чтобы все содержимое поля было доступно).
Если вы не видели какой-либо ситуации, когда вам понадобится поле для запроса, нет необходимости создавать индекс для поля.