Есть ли способ индексировать CHM-файлы в Lucene?

#lucene #chm

Вопрос:

Кто-нибудь, пожалуйста, может предложить мне метод, с помощью которого файл chm может быть проиндексирован, например, в pdfbox для pdf.

Ответ №1:

Если у вас есть и другие форматы документов, которые вам нужно индексировать, вы можете найти лучшее и более общее решение в Apache Tika

Они только недавно добавили анализатор CHM (для справки: Поддержка формата CHM), и это будет в следующей версии.

Ответ №2:

Если вы говорите о скомпилированных Microsoft файлах справки HTML, вы можете просто извлечь текст из них с помощью JChm, а затем проиндексировать его обычным способом.

1. Будьте осторожны. Могут существовать двоичный и текстовый индексы (.xml, сохраненный как .hhk), и они могут содержать разные элементы.

2. Я использовал ChmParser, amd использовала его файл для извлечения и применила некоторое обходное решение. Кажется, это работает хорошо, и проблема с .hhc решена . Снова спасибо