#python #text #nlp
#python #текст #НЛП
Вопрос:
Есть ли способ восстановить предложения из разбитых слов? Например, у меня есть текст ниже:
THIS IS
A TITLE
hello my
name
is Sam
Some of the text is formatted.
But others
are
not
Что я делаю прямо сейчас, так это придаю ему некоторую структуру.
- Если я вижу символы верхнего регистра, я предполагаю, что это заголовок, а затем я получаю все буквы верхнего регистра в последовательности и формирую заголовок.
- Если я увижу символ верхнего регистра, а через несколько символов — точку, то это будет одно полное предложение.
Результат, который я хотел бы получить из приведенного выше, таков:
THIS IS A TITLE
----
hello my name is Sam
----
Some of the text is formatted.
----
But others are not
----
Где выше ‘—-‘ — это предложение. (Форматирование)
Однако, похоже, есть много угловых случаев, которые мне пришлось бы учитывать. Есть ли обработка естественного языка, которую я мог бы сделать, чтобы упростить это?
Комментарии:
1. Что такое document_text_detection(), откуда оно? в нем должна быть некоторая информация о выходных данных
2. Это из Google Vision API. Я проверил информацию, она может форматировать ее только так, поскольку она считывает текст из файла изображения и выводит его. Он не может понять, что означает текст.
3. Я удалил нерелевантную информацию (например, API Google vision).