Отображение полей в SOLR для фасетирования

#solr #lucene #full-text-search #apache-tika #solr-cell

#solr #lucene #полнотекстовый поиск #apache-tika #solr-ячейка

Вопрос:

Я индексирую форматированные текстовые документы в SOLR 3.4 с помощью ExtractingRequestHandler , и у меня возникли проблемы с тем, чтобы заставить его вести себя так, как я хочу.

Я хотел бы сохранить дату создания в качестве поля, которое позже будет использоваться для фасетного поиска, и определил следующее в schema.xml :

 <field name="creation_date" type="date" indexed="true" stored="true"/>
  

Я индексирую вот так:

 curl -s "http://localhost:8983/solr/update/extract?literal.id=myidamp;resource.name=myfile.xlsamp;commit=true" -F myfile=@/path/to/myfile.xls
  

Я получаю динамическое поле attr_creation_date (это гарантируют другие правила), но я не получаю его как creation_date . Я также безуспешно пытался использовать copyField вот так:

 <copyField source="attr_creation_date" dest="creation_date"/>
  

Еще одна попытка заключалась в том, чтобы вставить это solrconfig.xml , но безуспешно:

 <str name="fmap.Creation-Date">creation_date</str>
  

Я почти уверен, что мне здесь не хватает чего-то основного. Любая помощь приветствуется!

Настройки для ExtractingRequestHandler в solrconfig.xml :

 <requestHandler name="/update/extract" startup="lazy" 
    class="solr.extraction.ExtractingRequestHandler" >
    <lst name="defaults">

        <str name="fmap.content">text</str>
        <str name="fmap.Last-Save-Date">last_save_date</str>
        <str name="fmap.Creation-Date">creation_date</str>
        <str name="fmap.Content-Type">content_type</str>
        <str name="lowernames">true</str>
        <str name="uprefix">attr_</str>

        <str name="captureAttr">true</str>
        <str name="fmap.a">links</str>
    </lst>
</requestHandler>
  

Мой schema.xml файл (множество файлов по умолчанию): https://gist.github.com/1358002

Комментарии:

1. Должно сработать, если в файле указана дата создания. Можете ли вы опубликовать свои настройки ExtractingRequestHandler и schema.xml ?

2. отлично работал с Solr 3.3 <имя даты=»creation_date»>2007-09-15T09:02:31Z</date>, если возвращены все поля (fl=*). Есть ли у документа дата?

3. Да, дата содержится как attr_creation_date , но не так явно creation_date , как хотелось бы.