Обнаружение поврежденных файлов документов с помощью python-docx

#python #python-docx

#python #python-docx

Вопрос:

Не могли бы вы помочь мне разобраться в этом. При чтении файла .docx из python-docx (docx.Document (file_name)), как я могу определить, является ли файл docx правильным или поврежденным.

У меня есть несколько случаев, когда эти входные файлы docx либо пусты, либо повреждены. Как я могу пометить эти случаи, используя эту библиотеку

Ответ №1:

В . Такой функции нет python-docx . Отчасти причина в том, что, хотя файл может быть определен как действительный или недействительный в соответствии со схемой в спецификации ISO, каждый клиент допускает множество небольших расхождений. То, что разрешено, зависит от клиентов; например, некоторые вещи, которые принимает LibreOffice, приводят к ошибке исправления в Microsoft Word.

Единственный надежный способ определить это — попытаться открыть файл с помощью целевого клиента, возможно, используя автоматизацию, такую как VBA в случае Microsoft Word.