Как изменить метод сегментации страниц тессеракта (PSM) с помощью R?

#r #ocr #tesseract #text-processing #pdftools

Вопрос:

Я хотел бы прочитать отсканированный PDF-документ в R с помощью tesseract. В общем, это уже работает довольно хорошо, но у меня возникают проблемы, когда документы имеют табличную структуру. После некоторого времени исследований я обнаружил, что существует параметр для настройки Метода сегментации страниц (PSM). Фактически, значение по умолчанию предназначено для страниц книг, поэтому изменение этого параметра должно привести к повышению производительности.

https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html#page-segmentation-method

Теперь я хотел бы установить этот параметр PSM, но я не знаю, где его найти. Большинство инструкций и руководств предназначены для Python, но для моего проекта я использую R. Я уже читал, что вы можете передать именованный список в параметр options, но я не могу найти подходящий метод.

Ваша помощь была бы очень признательна, я не знаю, где еще искать.

Заранее спасибо!