#machine-learning #nltk #readability
#машинное обучение #nltk #удобочитаемость
Вопрос:
Моя цель — иметь возможность обнаруживать сгенерированный компьютером скрученный контент. Вот несколько примеров скрученного текста:
«Как явное искусство, модное для рекламной организации, вы будете работать, чтобы помочь выставить на аукцион урожай и / или вооруженные силы клиентов на их целевой рынок с помощью ваших оригинальных навыков и технологических способностей».
«Настоящий магазин приложений Apple для iphone, безусловно, является обильным хранилищем полезных приложений».
По сути, компьютер заменил слова различными синонимами в попытке сделать контент уникальным, чтобы обойти обнаружение плагиата. Моя цель — создать систему, которая может обнаруживать этот тарабарский текст. Какими способами это может быть достигнуто?
Ответ №1:
Что вы хотите сделать, так это создать языковую модель ngram. Языковая модель ngram представляет собой статистическое представление встречаемости пар слов в языке и используется в задачах машинного перевода, анализа настроений и классификации, таких как прогнозирование положительной или отрицательной рецензии на фильм. Ваша задача классификации будет заключаться в том, содержит ли каждое предложение развернутый контент или нет.
Модель классификации, подобная наивной байесовской (реализованной в NLTK), может помочь с вашей проблемой. При обучении он создает языковую модель, а затем использует модель для прогнозирования. Для обучения модели вам понадобятся ваши примеры содержимого и куча обычного текста на английском языке. Чем больше у вас обоих, тем лучше! Все документы (вы можете рассматривать каждое предложение как документ) должны быть помечены, чтобы указать, являются ли они развернутым контентом или нет.
Вот список английских корпусов для вас, не связанных с текстом.
Более сложные модели могут работать лучше, и вы можете очень легко сравнивать их бок о бок. Мне нравится использовать scikit-learn для такого рода вещей.