Извлечение подчеркнутого текста из pdf

#python #pandas #pdf #ocr

#python #панды #PDF #распознавание текста

Вопрос:

Я пытаюсь извлечь данные из PDF, который находится в таблице. Я могу извлечь данные с помощью pandas и прочитать данные.

Недавно данные были изменены, и теперь я предполагаю извлекать только те значения, которые подчеркнуты в таблице, которая находится в формате PDF. Структура таблицы такая же. Но данные для извлечения были underlined.bi пробовал OCR, tessaract для извлечения данных, но безуспешно, поскольку они извлекли все данные. Но мне нужны только подчеркнутые данные.

Если это помогает, подчеркивание всегда выполняется красным цветом.

Я использую Python в качестве языка программирования.

Комментарии:

1. вы пробовали просматривать tabular? Это может помочь

Ответ №1:

 for run in para.runs:
    if run.font.underline :
        underline.append(run.text)
  

Комментарии:

1. напишите мне er.sawant@gmail.com необходимо добавить четкий код, поскольку я не могу загрузить с отступами stackflow