#go #ms-word #docx #doc
#Вперед #ms-word #docx #doc
Вопрос:
Как я могу проанализировать документы word «.doc», «.docx», чтобы получить весь текст с помощью golang?
Комментарии:
1. Почему это было отклонено? это первый результат от Google..
Ответ №1:
Вы можете черпать вдохновение из этих проектов:
https://github.com/nguyenthenguyen/docx
https://github.com/opencontrol/doc-template
По сути, DOCX — это Zip-файл с XML-файлами в нем. Все тексты находятся внутри document.xml
Что делают оба проекта, так это удаляют все теги XML, оставляя нетронутым только текст. Вы должны посмотреть, подходит ли вам такой подход.