Дамп английского словаря для анализа текста

#python-3.x

#python-3.x

Вопрос:

Я ищу дамп английского словаря для некоторого анализа текста в Python. Это будет включать слово и некоторые его атрибуты (существительное / глагол, его формы, времена и, возможно, происхождение!). Итак, я представляю их как столбцы фрейма данных. Я просмотрел множество тем, в которых люди предлагали некоторые источники, но я считаю, что ни один из них не соответствует вышеуказанным требованиям (некоторые из них представляют собой просто списки слов, другие — слова только со значениями). Более того, они выглядят неисчерпывающими (очень маленький корпус, тогда как я нацелен на ~ 500000 слов). Есть ли дамп, доступный из авторитетных источников, таких как Oxford или Merriam Webster? Также есть модуль PyDictionary. Возможно ли извлечь такой дамп из этого модуля?

Ответ №1:

WordNet представляет собой свод слов, их синонимов, гипонимов и меронимов, сгруппированных по наборам синтаксиса и доступных бесплатно при условии соблюдения их лицензии. https://wordnet.princeton.edu /. Поскольку это популярный выбор, вы можете найти этот корпус практически в любом формате данных с небольшим поиском. База данных содержит 155 327 слов.

BabelNet — это еще один корпус, который объединил WordNet, Википедию и многие другие источники в базу данных из 91 218,220 определений глоссария, охватывающих многие языки. https://babelnet.org/

Если вы хотите использовать Оксфордский словарь и Merriam Webster, это коммерческие продукты, которые не разбрасываются своей базой данных с неограниченным доступом. Оба имеют интерфейсы API, к которым вы можете получить доступ с помощью зарегистрированного ключа API.