Как я могу сгенерировать PDF-файл из выходных данных Amazon Textract?

#amazon-web-services #pdf #pdf-generation #tcpdf #fpdf

#amazon-веб-сервисы #PDF #pdf-генерация #tcpdf #fpdf

Вопрос:

Я использую Amazon Textract для извлечения данных из отсканированного документа. Теперь я хочу преобразовать выходные данные в PDF-файл. Ниже приведен пример выходных данных Textract:

 [1] => Array
                    (
                        [BlockType] => LINE
                        [Confidence] => 99.4744720459
                        [Text] => Hello
                        [Geometry] => Array
                            (
                                [BoundingBox] => Array
                                    (
                                        [Width] => 0.243866533041
                                        [Height] => 0.0134594505653
                                        [Left] => 0.176409825683
                                        [Top] => 0.0463116429746
                                    )

                                [Polygon] => Array
                                    (
                                        [0] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0463116429746
                                            )

                                        [1] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0463116429746
                                            )

                                        [2] => Array
                                            (
                                                [X] => 0.420276373625
                                                [Y] => 0.0597710944712
                                            )

                                        [3] => Array
                                            (
                                                [X] => 0.176409825683
                                                [Y] => 0.0597710944712
                                            )

                                    )

                            )

                        [Id] => 75e8917d-701e-4e26-bade-f00bde9d87db
                        [Relationships] => Array
                            (
                                [0] => Array
                                    (
                                        [Type] => CHILD
                                        [Ids] => Array
                                            (
                                                [0] => 46f44500-4960-4405-99f3-fa43101bc2ca
                                            )

                                    )

                            )

                    )
  

Как вы можете видеть, выходные данные содержат текст, высоту, ширину и его координаты XY. Как я могу поместить текст с теми же координатами в PDF-файл?

Комментарии:

1. Вы хотите наложить текст на существующий PDF-файл или хотите создать PDF-файл с нуля, используя эту информацию? Другой способ задать этот вопрос — заполняете ли вы форму с этими данными или создаете совершенно новые документы.

2. @user1153660 Я пытаюсь создать PDF-файл с нуля с использованием этих данных.

3. @Sreeraj ты это сделал?

Ответ №1:

Предполагая, что вы можете преобразовать вышеуказанное в JSON, вы можете использовать jsPDF или PDFKit для создания PDF. Функциональность довольно хорошо отображается на основе опубликованных вами ограниченных данных, но я не видел полной структуры Textract, поскольку она все еще находится в бета-версии, и я не получил приглашения в программу. Оба этих проекта могут использовать Node для создания серверного решения, но они также работают в браузере.

На момент написания этой статьи в Google Cloud есть компонент распознавания текста в их функции Vision — Document Text Detection. В отличие от Textract, он подходит к задаче, просто сообщая, какие визуальные элементы есть в документе, и создавая всеобъемлющую (и большую) структуру данных, которая описывает то, что он «видит». Textract, согласно Amazon, использует машинное обучение для организации данных в более понятной для человека форме, которая стремится отличить форму от данных, составляющих заполненную часть формы. Если вы пытаетесь создать относительно полный PDF-файл, продукт Google хорошо подходит. Textract тоже может быть, но я пока не знаю.

Ответ №2:

Этот репозиторий содержит примеры кода (на Java), показывающие, как вы можете сгенерировать PDF-файл с возможностью поиска с помощью AWS Textract. Если вы не используете Java, вы также можете развернуть его как функцию AWS Lambda, а затем вызвать ее через AWS SDK или как вызов REST API с использованием AWS API Gateway.

Также здесь есть соответствующая запись в блоге.