Извлечение текста из документа Google и получение определенной страницы

#google-api #html-parsing #google-docs #python-docx #pypdf

Вопрос:

На данный момент я экспортирую свои документы Google, получая содержимое по этой ссылке:

https://docs.google.com/feeds/download/documents/export/Exportid=DOCUMENT_IDamp;exportFormat=EXPORT_FORMAT

Это прекрасно работает, на самом деле я экспортирую свой документ в формат HTML, а затем читаю из него, но нет никакого способа узнать, когда начинается или заканчивается страница.

Вот все форматы экспорта, о которых я знаю:

HTML, PDF, ODT, TXT, RTF и DOCX

PDF, ODT, RTF и DOCX-все они указывают на отдельные страницы при открытии в средстве визуализации. Однако после поиска бесчисленных API для всех форматов (python-docx, PyPDF4, pyRTF и т. Д.) Я не смог найти рабочий способ чтения документа Google страница за страницей.

Есть какие-нибудь предложения?

Ответ №1:

Вы можете использовать скрипт приложений, с помощью которого вы можете воспользоваться приложением DocumentApp, где вы можете получать взломы страниц.

Затем вы можете использовать свой индивидуальный контент в качестве веб-приложения.