#nlp #corpus #tagged-corpus
#nlp #corpus #tagged-corpus
Вопрос:
Я знаю, что nltk
он содержит корпус VerbNet, однако унифицированный индекс глаголов объединяет информацию из него и 3 других полезных источников. Есть ли какой-либо способ использовать этот корпус в Python?
Ответ №1:
Через NLTK вы, безусловно, можете получить доступ к FrameNet, VerbNet и PropBank. Я не проводил никакой работы с группировками смыслов OntoNotes.
Посмотрите на приведенное ниже представление о том, как получить информацию из этих трех ресурсов. Каждый из них возвращает список, чтобы вы могли захватывать элементы списка по отдельности и изучать их так подробно, как вам нужно.
from nltk.corpus import verbnet as vn
from nltk.corpus import framenet as fn
from nltk.corpus import propbank as pb
input = 'take'
vn_results = vn.classids(lemma=input)
if not vn_results:
print input ' not in verbnet.'
else:
print 'verbnet:'
print vn_results
fn_results = fn.frames_by_lemma(input)
if not fn_results:
print input ' not in framenet.'
else:
print 'framenet:'
print fn_results
pb_results = []
try:
pb_results = pb.rolesets(input)
except ValueError:
print input ' not in propbank.'
if pb_results:
print 'propbank:'
print pb_results