как использовать теги Nlp Pos на других языках, таких как синдхи / урду

#python #nlp #python-requests #stanford-nlp

#python #nlp #python-запросы #stanford-nlp

Вопрос:

Я работаю над исследовательской работой по тегированию pos в NLP, но мой вопрос заключается в том, как реализовать теги pos на другом местном языке, пожалуйста, помогите мне поблагодарить вас.

Ответ №1:

Это зависит от используемого вами POS-теггера. Обычно (вероятностный) теггер имеет два языковых компонента: языковую модель и словарь.

Словарь содержит все слова с их возможными тегами, аннотированными по частоте. Это может быть создано и отредактировано вручную или получено из обучающих данных. Если ваш язык имеет богатую морфологию, вы можете использовать морфологический анализатор для поддержки этого, или вы могли бы просто иметь все изменяемые формы в качестве самостоятельных словарных статей.

Языковая модель содержит последовательности тегов и их частоты, обычно триграммы (последовательности из трех элементов). Он извлекается из обучающих данных и отражает грамматические ограничения на распределение классов слов.

Итак, для адаптации существующего теггера для нового языка есть два основных шага:

  1. создайте набор тегов для вашего языка. Хотя наборы тегов для разных языков частично совпадают (обычно все они имеют существительные или глаголы), вам могут понадобиться специальные маркеры для падежей или времен, поскольку они могут помочь в устранении неоднозначности.

  2. аннотируйте данные обучения. Вам нужно несколько текстов для создания языковой модели (и, возможно, также словаря). Эти данные вы вводите в алгоритм обучения для создания файлов ресурсов, специфичных для конкретного языка.

Аннотирование вручную довольно утомительно, но вы можете использовать итеративный процесс: аннотировать небольшой текст, прогонять его через механизм обучения и использовать теггер для аннотирования более длинного текста. В этом будет много ошибок, но исправить ошибки проще, чем комментировать текст с нуля. Затем добавьте этот текст в свои обучающие данные и повторите. Вы обнаружите, что производительность теггера будет постепенно улучшаться по мере накопления большего количества обучающих данных,

Комментарии:

1. Спасибо Оливеру Мейсону. И, пожалуйста, объясните мне, как работает этот процесс. На английском языке, если я могу сделать на английском языке, чтобы я мог легко сделать это на своем целевом языке. Спасибо.

2. @TECHNICALHUB Это зависит от того, какой теггер вы используете. У каждого из них есть свои собственные процедуры обучения; обычно это описано в документации.