Обучение нейронной сети для встраивания слов

#keras #deep-learning #nlp #word-embedding

#keras #глубокое обучение #nlp #встраивание слов

Вопрос:

Прилагается файл ссылки для объектов. Я хочу обучить нейронную сеть представлять каждый объект в виде вектора. Прикрепите мой код для обучения

 import pandas as pd
import numpy as np

from numpy import array
from keras.preprocessing.text import one_hot

from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.models import Model
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers import Input


from keras.layers.embeddings import Embedding
from sklearn.model_selection import train_test_split 

file_path = '/content/drive/My Drive/Colab Notebooks/Deep Learning/NLP/Data/entities.txt'
df = pd.read_csv(file_path, delimiter = 't', engine='python', quoting = 3, header = None)
df.columns = ['Entity']
Entity = df['Entity']

X_train, X_test = train_test_split(Entity, test_size = 0.10)
print('Total Entities: {}'.format(len(Entity)))
print('Training Entities: {}'.format(len(X_train)))
print('Test Entities: {}'.format(len(X_test)))
vocab_size = len(Entity)
X_train_encode = [one_hot(d, vocab_size,lower=True, split=' ') for d in X_train]
X_test_encode = [one_hot(d, vocab_size,lower=True, split=' ') for d in X_test]
model = Sequential()
model.add(Embedding(input_length=1,input_dim=vocab_size, output_dim=100))
model.add(Flatten())
model.add(Dense(vocab_size, activation='softmax'))

model.compile(optimizer='adam', loss='mse', metrics=['acc'])
print(model.summary())

model.fit(X_train_encode, X_train_encode, epochs=20, batch_size=1000, verbose=1)
  

Следующая ошибка, возникшая при попытке выполнить код.

Ошибка при проверке ввода модели: список массивов Numpy, которые вы передаете в свою модель, не соответствует размеру, ожидаемому моделью. Ожидалось увидеть 1 массив (ы), но вместо этого получил следующий список из 34826 массивов:

Ответ №1:

Вы передаете список массивов numpy для model.fit. Следующий код создает список массивов для x_train_encode и X_test_encode.

 X_train_encode = [one_hot(d, vocab_size,lower=True, split=' ') for d in X_train]
X_test_encode = [one_hot(d, vocab_size,lower=True, split=' ') for d in X_test]
  

Измените эти списки на массив numpy при переходе к модели.метод подгонки.

 X_train_encode = np.array(X_train_encode)
X_test_encode = np.array(X_test_encode)
  

И я не вижу необходимости в том, чтобы one_hot кодировал X_train и X_test, уровень встраивания ожидает целое число (в вашем случае индексы слов), а не одно значение в горячем кодировании индексов слов. Итак, если X_train и X_test являются массивом индексов слов, то вы можете напрямую передать это в модель.метод подгонки.

Редактировать:

В настоящее время используется потеря ‘mse’. Поскольку последним слоем является слой softmax, здесь более применима потеря перекрестной энтропии. А также выходные данные представляют собой целочисленные значения класса (слова), которые следует использовать для потери разреженной категории.

 model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['acc'])
  

Комментарии:

1. Я отредактировал ваше предложение, но при проверке цели появляется следующая ошибка: ожидаемая плотность_16 должна иметь форму (38696,), но получен массив с формой (1,)

2. Вы должны использовать потерю sparse_categorical_crossentopy. Я отредактировал ответ, чтобы отразить это.