Как связать метаданные подраздела в тексте с возможностью поиска SOLR

#solr #metadata

#solr #метаданные

Вопрос:

Я хотел бы сделать текст книги доступным для поиска в SOLR, и я хотел бы включить номера страниц, на которых соответствующий текст можно найти в оригинальной книге.

Мне интересно, какие механизмы могут потребоваться SOLR для связывания номера страницы со словами текста, доступными для поиска? (Чтобы было понятно, я говорю о номере страницы исходного исходного текста, а не о разбивке результатов SOLR на страницы.)

Итак, по сути, мне в основном нужен структурированный текст, в котором каждое слово с возможностью поиска (в идеале каждая буква на самом деле, потому что мой реальный вариант использования — это скорее гигантская подстрока, которая может начинаться в любом месте слова), имеет некоторые связанные метаданные. При необходимости я мог бы поместить эту информацию во внешнее хранилище данных, но подумал, есть ли у SOLR способ сделать это изначально.

Если нет, есть ли другой инструмент, более подходящий для этой цели, чем SOLR?

Комментарии:

1. Полезные нагрузки позволяют прикреплять метаданные к самим токенам: смотрите следующую статью Lucidworks для примера: lucidworks.com/post/solr-payloads — это может сработать для того, что тебе нужно. К сожалению, сейчас у меня нет времени, чтобы привести более полный пример того, как это может работать.

2. Не прямой ответ, следовательно, комментарий. Если вы заинтересованы в создании полного текста книги, ознакомьтесь с блогом Hathi Trust об этом. Возможно, в некоторых частях устаревшие, но концепции должны быть верными.