Доступ к облачной корзине Google с помощью FS Crawler (elasticsearch)

#elasticsearch #pdf #google-cloud-platform #fscrawler

#elasticsearch #PDF #google-облачная платформа #fscrawler

Вопрос:

Проекту, над которым я сейчас работаю, требуется поисковая система для поиска пары файлов 10.000 pdf. Когда пользователь выполняет поиск по определенному ключевому слову на веб-сайте, поисковая система возвращает фрагмент PDF-файлов, соответствующих его критериям поиска. Затем пользователь может нажать на кнопку, чтобы просмотреть весь PDF-файл.

Я решил, что лучший способ сделать это — использовать elasticsearch fscrawler (https://fscrawler.readthedocs.io/en/fscrawler-2.7 /). Сегодня я провел несколько тестов и смог перейти к папке на моем локальном компьютере.

Для обслуживания файлов PDF (через веб-сайт) я решил, что могу хранить файлы PDF в облачном хранилище Google, а затем использовать ссылку на облачное хранилище Google, чтобы пользователи могли просматривать файлы PDF. Однако FS Crawler, похоже, не может получить доступ к корзине. Любые советы или идеи о том, как решить эту проблему. Не стесняйтесь критиковать метод работы, описанный выше. Если есть лучшие способы заставить пользователей веб-сайта получить доступ к файлам PDF, я хотел бы это услышать.

Заранее спасибо и с уважением!

Комментарии:

1. Вам следует связаться с fscrawler, чтобы запросить внедрение облачного хранилища в будущей версии.

Ответ №1:

Вы можете использовать s3fs-fuse для подключения корзины s3 к вашей файловой системе, а затем использовать обычный локальный FS crawler.

Кроме того, вы можете разветвить fscrawler и внедрить обходчик для s3, аналогичный обходчику-ftp.