#nlp
Вопрос:
Я обнаружил, что функция NLTK.sent_tokenize() не всегда идеально сегментирует предложения. Я думаю, что он основан на правилах и предназначен для чисто отформатированного естественного языка, а не для более нетрадиционно отформатированного текста, который вы можете найти с помощью программного извлечения где-нибудь в Интернете.
Существует ли какой-либо современный универсальный сегментатор предложений, который использует машинное обучение для более разумного понимания того, что представляют собой отдельные полные группы связанных слов, т. Е. Предложений?