Справка по дизайну для статического контента с фиксированными ключевыми словами платформа поиска

#python

#python

Вопрос:

Я пытаюсь разработать решение для обнаружения прослеживаемости между исходным кодом и документацией. Наиболее важным вариантом использования является то, что пользователю необходимо увидеть коллекцию токенов исходного кода (отсортированных по релевантности документации), которые можно отследить до документации. Она не будет беспокоиться о формате кода, но почему-то должна увидеть сопоставление «идентификатор- документация», чтобы получить представление об отслеживаемости.

Я беру токены из файлов исходного кода — каким-то образом разделяю объединенные идентификаторы (SimpleMAXAnalyzer становится «simple max analyzer»), которые затем действуют как условия поиска в документации. Платформы поиска лучше всего подходят для выполнения этой конкретной задачи — детализации документов для поиска материала с использованием мощных алгоритмов поиска информации. Whoosh выглядел действительно отличным поиском в python… с несколькими анализаторами и фильтрами.

Хотя проблема похожа на поиск — она отличается тем, что пользователь физически не выполняет никакого поиска. Итак, правильно ли я решаю проблему? Учитывая, что все статично и должно вычисляться только один раз — я использую неправильный инструмент (поисковую платформу) для работы?

Ответ №1:

Я не уверен, правильно ли я понимаю ваш вариант использования. Пользователь видит исходный код и имеет некоторые способы перехода от токена к соответствующей части или списку возможных частей документации, верно?

Тогда инструмент поиска кажется подходящим инструментом для работы, хотя вы могли бы предварительно скомпилировать каждый возможный поиск (в исходном коде есть только ограниченное количество идентификаторов, поэтому вы можете заранее рассчитать все возможные ссылки на документы).

Или есть какие-либо «канонические» части документации для каждого идентификатора? Тогда, возможно, какой-то индекс был бы лучшим выбором.

Возможно, вы могли бы немного подробнее разъяснить свой вариант использования.

Редактировать: Возможно, алфавитный указатель документации мог бы стать шагом к решению. Затем вы можете просмотреть страницы / главы / разделы для каждого токена исходного кода, где упоминаются все или большинство его компонентов.

Комментарии:

1. Большое вам спасибо за ответ. Ваше понимание абсолютно правильное — единственное, что пользователь не видит исходный код в формате code — ему просто интересно увидеть коллекцию идентификаторов, представленных с учетом документации. Для каждого идентификатора должен быть показан «список возможных частей документации». К сожалению, в документации нет «канонических» частей — целью является ее создание. Надеюсь, это объясняет вещи немного больше… Можете ли вы объяснить «предварительную компиляцию каждого возможного поиска»? кажется интересным