#solr #metadata
#solr #метаданные
Вопрос:
Я хотел бы сделать текст книги доступным для поиска в SOLR, и я хотел бы включить номера страниц, на которых соответствующий текст можно найти в оригинальной книге.
Мне интересно, какие механизмы могут потребоваться SOLR для связывания номера страницы со словами текста, доступными для поиска? (Чтобы было понятно, я говорю о номере страницы исходного исходного текста, а не о разбивке результатов SOLR на страницы.)
Итак, по сути, мне в основном нужен структурированный текст, в котором каждое слово с возможностью поиска (в идеале каждая буква на самом деле, потому что мой реальный вариант использования — это скорее гигантская подстрока, которая может начинаться в любом месте слова), имеет некоторые связанные метаданные. При необходимости я мог бы поместить эту информацию во внешнее хранилище данных, но подумал, есть ли у SOLR способ сделать это изначально.
Если нет, есть ли другой инструмент, более подходящий для этой цели, чем SOLR?
Комментарии:
1. Полезные нагрузки позволяют прикреплять метаданные к самим токенам: смотрите следующую статью Lucidworks для примера: lucidworks.com/post/solr-payloads — это может сработать для того, что тебе нужно. К сожалению, сейчас у меня нет времени, чтобы привести более полный пример того, как это может работать.
2. Не прямой ответ, следовательно, комментарий. Если вы заинтересованы в создании полного текста книги, ознакомьтесь с блогом Hathi Trust об этом. Возможно, в некоторых частях устаревшие, но концепции должны быть верными.