#elasticsearch #pdf #google-cloud-platform #fscrawler
#elasticsearch #PDF #google-облачная платформа #fscrawler
Вопрос:
Проекту, над которым я сейчас работаю, требуется поисковая система для поиска пары файлов 10.000 pdf. Когда пользователь выполняет поиск по определенному ключевому слову на веб-сайте, поисковая система возвращает фрагмент PDF-файлов, соответствующих его критериям поиска. Затем пользователь может нажать на кнопку, чтобы просмотреть весь PDF-файл.
Я решил, что лучший способ сделать это — использовать elasticsearch fscrawler (https://fscrawler.readthedocs.io/en/fscrawler-2.7 /). Сегодня я провел несколько тестов и смог перейти к папке на моем локальном компьютере.
Для обслуживания файлов PDF (через веб-сайт) я решил, что могу хранить файлы PDF в облачном хранилище Google, а затем использовать ссылку на облачное хранилище Google, чтобы пользователи могли просматривать файлы PDF. Однако FS Crawler, похоже, не может получить доступ к корзине. Любые советы или идеи о том, как решить эту проблему. Не стесняйтесь критиковать метод работы, описанный выше. Если есть лучшие способы заставить пользователей веб-сайта получить доступ к файлам PDF, я хотел бы это услышать.
Заранее спасибо и с уважением!
Комментарии:
1. Вам следует связаться с fscrawler, чтобы запросить внедрение облачного хранилища в будущей версии.
Ответ №1:
Вы можете использовать s3fs-fuse для подключения корзины s3 к вашей файловой системе, а затем использовать обычный локальный FS crawler.
Кроме того, вы можете разветвить fscrawler и внедрить обходчик для s3, аналогичный обходчику-ftp.