#solr #lucene #full-text-search #apache-tika #solr-cell
#solr #lucene #полнотекстовый поиск #apache-tika #solr-ячейка
Вопрос:
Я индексирую форматированные текстовые документы в SOLR 3.4 с помощью ExtractingRequestHandler
, и у меня возникли проблемы с тем, чтобы заставить его вести себя так, как я хочу.
Я хотел бы сохранить дату создания в качестве поля, которое позже будет использоваться для фасетного поиска, и определил следующее в schema.xml
:
<field name="creation_date" type="date" indexed="true" stored="true"/>
Я индексирую вот так:
curl -s "http://localhost:8983/solr/update/extract?literal.id=myidamp;resource.name=myfile.xlsamp;commit=true" -F myfile=@/path/to/myfile.xls
Я получаю динамическое поле attr_creation_date
(это гарантируют другие правила), но я не получаю его как creation_date
. Я также безуспешно пытался использовать copyField
вот так:
<copyField source="attr_creation_date" dest="creation_date"/>
Еще одна попытка заключалась в том, чтобы вставить это solrconfig.xml
, но безуспешно:
<str name="fmap.Creation-Date">creation_date</str>
Я почти уверен, что мне здесь не хватает чего-то основного. Любая помощь приветствуется!
Настройки для ExtractingRequestHandler
в solrconfig.xml
:
<requestHandler name="/update/extract" startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="fmap.content">text</str>
<str name="fmap.Last-Save-Date">last_save_date</str>
<str name="fmap.Creation-Date">creation_date</str>
<str name="fmap.Content-Type">content_type</str>
<str name="lowernames">true</str>
<str name="uprefix">attr_</str>
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
</lst>
</requestHandler>
Мой schema.xml
файл (множество файлов по умолчанию): https://gist.github.com/1358002
Комментарии:
1. Должно сработать, если в файле указана дата создания. Можете ли вы опубликовать свои настройки ExtractingRequestHandler и schema.xml ?
2. отлично работал с Solr 3.3 <имя даты=»creation_date»>2007-09-15T09:02:31Z</date>, если возвращены все поля (fl=*). Есть ли у документа дата?
3. Да, дата содержится как
attr_creation_date
, но не так явноcreation_date
, как хотелось бы.