#lucene #chm
#lucene #chm
Вопрос:
Кто-нибудь, пожалуйста, может предложить мне метод, с помощью которого файл chm может быть проиндексирован, например, в pdfbox для pdf.
Комментарии:
1. Apache Tika чаще используется с Lucene, я просто не знал об их поддержке CHM. Итак, примите ответ Дити, пожалуйста.
Ответ №1:
Если у вас есть и другие форматы документов, которые вам нужно индексировать, вы можете найти лучшее и более общее решение в Apache Tika
Они только недавно добавили анализатор CHM (для справки: Поддержка формата CHM), и это будет в следующей версии.
Ответ №2:
Если вы говорите о скомпилированных Microsoft файлах справки HTML, вы можете просто извлечь текст из них с помощью JChm, а затем проиндексировать его обычным способом.
Комментарии:
1. Будьте осторожны. Могут существовать двоичный и текстовый индексы (.xml, сохраненный как .hhk), и они могут содержать разные элементы.
2. Я использовал ChmParser, amd использовала его файл для извлечения и применила некоторое обходное решение. Кажется, это работает хорошо, и проблема с .hhc решена . Снова спасибо