Разобрать .doc

#go #ms-word #docx #doc

#Вперед #ms-word #docx #doc

Вопрос:

Как я могу проанализировать документы word «.doc», «.docx», чтобы получить весь текст с помощью golang?

Комментарии:

1. Почему это было отклонено? это первый результат от Google..

Ответ №1:

Вы можете черпать вдохновение из этих проектов:

https://github.com/nguyenthenguyen/docx
https://github.com/opencontrol/doc-template

По сути, DOCX — это Zip-файл с XML-файлами в нем. Все тексты находятся внутри document.xml

Что делают оба проекта, так это удаляют все теги XML, оставляя нетронутым только текст. Вы должны посмотреть, подходит ли вам такой подход.