Компьютерное зрение 2.0 PDF в текст не работает

#azure #pdf #computer-vision #azure-cognitive-services

#azure #PDF #компьютерное зрение #azure-cognitive-services

Вопрос:

Я пытаюсь проанализировать текст из файла PDF с помощью Computer Vision 2.0. Я следую примеру и изменил значение MediaTypeHeaderValue на «application / pdf». Я получаю сообщение об ошибке, что тип контента не поддерживается. Я меняю его на «multipart / form-data» и получаю ошибку при обработке. Как мне использовать Computer-Vision для обработки файлов PDF?

1. Не могли бы вы, пожалуйста, добавить более подробную информацию об ошибке, которую вы получаете, когда она изменяется на «multipart / form-data». Требования к вводу для распознавания текста computer vision 2.0: Поддерживаемые форматы изображений: JPEG, PNG, GIF, BMP. Размер файла изображения должен быть меньше 4 МБ. Размеры изображения должны составлять от 50 x 50 до 4200 x 4200 пикселей, и изображение не может быть больше 10 мегапикселей.

2. Служба Azure, которая может извлекать (распознавать) текст на изображениях и переводить его в документы (pdf, docx), — это Azure Cognitive Search. learn.microsoft.com/en-us/azure/search/… PDF-файлы с комбинированным изображением и текстом. Текст в PDF-файлах может быть извлечен во время индексации без использования этапов обогащения, но добавление обработки изображений и естественного языка часто может дать лучший результат, чем обеспечивает стандартное индексирование.

3. Сообщение об ошибке было для составных данных / формы — данные были: Response: { "code": "BadArgument", "requestId": "08a0d362-ad3c-49c4-8dd6-5c13d3029563", "message": "Error processing Http request" }

4. Спасибо Ram-msft за предложение Azure Cognitive Search. Есть ли где-нибудь, что сравнивает две службы. Похоже, что оба должны делать одно и то же и сделаны одной и той же компанией. Я полагаю, что одно исчезнет в пользу другого.

Ответ №1:

Кевин, ты используешь устаревший API «OCR», который не поддерживает ввод PDF. Пожалуйста, используйте новую технологию распознавания, доступную в качестве API «Чтения» — см. Обзор для обработки документов PDF. Версия 3.0 доступна в GA с мая. Read поддерживает большие изображения и многостраничные документы на разных языках объемом до 2000 страниц. Пожалуйста, ознакомьтесь с кратким описанием REST API в C #.

Обратите внимание, что средство распознавания форм отлично подходит, если вы хотите извлекать из форм не только текст, но и сведения о макете, такие как таблицы, флажки и пары ключ-значение, использовать готовые модели и создавать пользовательские модели для обработки ваших документов. Теперь это в GA.

Ответ №2:

Взгляните на службу распознавания форм для извлечения данных из PDF. https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer /

1. Это действительно выглядит как интересный продукт, и я планирую поиграть с ним. Прямо сейчас это общедоступный предварительный просмотр, и его скидка довольно высока. Я представляю, как только он попадет в GA, это будет астрономическим.