Какова единственная наиболее универсальная библиотека сегментации предложений?

#nlp

Вопрос:

Я обнаружил, что функция NLTK.sent_tokenize() не всегда идеально сегментирует предложения. Я думаю, что он основан на правилах и предназначен для чисто отформатированного естественного языка, а не для более нетрадиционно отформатированного текста, который вы можете найти с помощью программного извлечения где-нибудь в Интернете.

Существует ли какой-либо современный универсальный сегментатор предложений, который использует машинное обучение для более разумного понимания того, что представляют собой отдельные полные группы связанных слов, т. Е. Предложений?

Вопрос:

Вам также может понравиться

Разница между s[s].index и s.index, где s — серия

Попытка удалить JDK в Arch Linux

Создать новую страницу в подкаталоге — Laravel 8