#nlp #stanford-nlp #gensim #word-embedding
#нлп #stanford-nlp #gensim #встраивание слов
Вопрос:
Я работаю над назначением NLP и загрузил векторы перчаток, предоставленные Gensim:
import gensim.downloader
glove_vectors = gensim.downloader.load('glove-twitter-25')
Я пытаюсь получить встраивание слов для каждого слова в предложении, но некоторых из них нет в словаре.
Каков наилучший способ справиться с этим, работая с API Gensim?
Спасибо!
Комментарии:
1. Afaik обычный способ работы со словами OOV — это просто игнорировать их. В противном случае вам пришлось бы обучать свои собственные вложения из собственного корпуса.
2. Как вы эффективно их игнорируете? тогда возникает вопрос, поскольку у меня есть текст, и мне нужно преобразовать его с помощью vectors.word_vec( WORD) если WORD отсутствует в vocab, я получаю сообщение об ошибке.
3. Я не знаком с Gensim, но, безусловно, есть способ проверить, существует ли слово в модели. Я предполагаю, что это может быть что-то вроде этого :
if (word in model.wv.key_to_index) ...
4. Можете ли вы использовать другие вложения слов (FastText, BERT …), Которые могут представлять также OOV-слова?
5. Спасибо, да, есть способы проверить это, но для запуска требуется много времени. иначе говоря, очень неэффективно (по крайней мере, то, что я делал до сих пор). Альтернатива другим встраиваниям слов привлекательна, но я считаю, что KeyedVector из Gensim все равно не сможет извлечь из этого выгоду
Ответ №1:
Загрузите модель:
import gensim.downloader as api
model = api.load("glove-twitter-25") # load glove vectors
# model.most_similar("cat") # show words that similar to word 'cat'
Существует очень простой способ выяснить, существуют ли слова в словаре модели.
result = print('Word exists') if word in model.wv.vocab else print('Word does not exist")
Кроме того, я использовал следующую логику для создания встраивания предложений (25 dim) с N токенами:
from __future__ import print_function, division
import os
import re
import sys
import regex
import numpy as np
from functools import partial
from fuzzywuzzy import process
from Levenshtein import ratio as lev_ratio
import gensim
import tempfile
def vocab_check(model, word):
similar_words = model.most_similar(word)
match_ratio = 0.
match_word = ''
for sim_word, sim_score in similar_words:
ratio = lev_ratio(word, sim_word)
if ratio > match_ratio:
match_word = sim_word
if match_word == '':
return similar_words[0][1]
return model.similarity(word, match_word)
def sentence2vector(model, sent, dim=25):
words = sent.split(' ')
emb = [model[w.strip()] for w in words]
weights = [1. if w in model.wv.vocab else vocab_check(model, w) for w in words]
if len(emb) == 0:
sent_vec = np.zeros(dim, dtype=np.float16)
else:
sent_vec = np.dot(weights, emb)
sent_vec = sent_vec.astype("float16")
return sent_vec
Комментарии:
1. Спасибо, я все еще хотел бы заставить его работать с предварительно подготовленными вложениями в перчатках, но это, безусловно, отличная альтернатива. Спасибо, что поделились.
2. Я обновил код до универсального подхода. Дайте мне знать, если это сработает для вас.