Создание предложений из слов

#python #text #nlp

#python #текст #НЛП

Вопрос:

Есть ли способ восстановить предложения из разбитых слов? Например, у меня есть текст ниже:

 THIS IS
A TITLE
hello my 
name
is Sam
Some of the text is formatted.
But others
are
not
  

Что я делаю прямо сейчас, так это придаю ему некоторую структуру.

  • Если я вижу символы верхнего регистра, я предполагаю, что это заголовок, а затем я получаю все буквы верхнего регистра в последовательности и формирую заголовок.
  • Если я увижу символ верхнего регистра, а через несколько символов — точку, то это будет одно полное предложение.

Результат, который я хотел бы получить из приведенного выше, таков:

 THIS IS A TITLE
----
hello my name is Sam
----
Some of the text is formatted.
----
But others are not
----
  

Где выше ‘—-‘ — это предложение. (Форматирование)

Однако, похоже, есть много угловых случаев, которые мне пришлось бы учитывать. Есть ли обработка естественного языка, которую я мог бы сделать, чтобы упростить это?

Комментарии:

1. Что такое document_text_detection(), откуда оно? в нем должна быть некоторая информация о выходных данных

2. Это из Google Vision API. Я проверил информацию, она может форматировать ее только так, поскольку она считывает текст из файла изображения и выводит его. Он не может понять, что означает текст.

3. Я удалил нерелевантную информацию (например, API Google vision).