#r #ocr #tesseract #text-processing #pdftools
Вопрос:
Я хотел бы прочитать отсканированный PDF-документ в R с помощью tesseract. В общем, это уже работает довольно хорошо, но у меня возникают проблемы, когда документы имеют табличную структуру. После некоторого времени исследований я обнаружил, что существует параметр для настройки Метода сегментации страниц (PSM). Фактически, значение по умолчанию предназначено для страниц книг, поэтому изменение этого параметра должно привести к повышению производительности.
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html#page-segmentation-method
Теперь я хотел бы установить этот параметр PSM, но я не знаю, где его найти. Большинство инструкций и руководств предназначены для Python, но для моего проекта я использую R. Я уже читал, что вы можете передать именованный список в параметр options, но я не могу найти подходящий метод.
Ваша помощь была бы очень признательна, я не знаю, где еще искать.
Заранее спасибо!