#google-api #html-parsing #google-docs #python-docx #pypdf
Вопрос:
На данный момент я экспортирую свои документы Google, получая содержимое по этой ссылке:
https://docs.google.com/feeds/download/documents/export/Exportid=DOCUMENT_IDamp;exportFormat=EXPORT_FORMAT
Это прекрасно работает, на самом деле я экспортирую свой документ в формат HTML, а затем читаю из него, но нет никакого способа узнать, когда начинается или заканчивается страница.
Вот все форматы экспорта, о которых я знаю:
HTML, PDF, ODT, TXT, RTF и DOCX
PDF, ODT, RTF и DOCX-все они указывают на отдельные страницы при открытии в средстве визуализации. Однако после поиска бесчисленных API для всех форматов (python-docx, PyPDF4, pyRTF и т. Д.) Я не смог найти рабочий способ чтения документа Google страница за страницей.
Есть какие-нибудь предложения?
Ответ №1:
Вы можете использовать скрипт приложений, с помощью которого вы можете воспользоваться приложением DocumentApp, где вы можете получать взломы страниц.
Затем вы можете использовать свой индивидуальный контент в качестве веб-приложения.