дистилляционная модель не работает в ktrain

#distilbert #ktrain

#distilbert #ktrain

Вопрос:

Я пытался использовать классификатор distilbert. но я получаю следующую ошибку.

Это мой код

 (X_train,y_train),(X_test,y_test),prepro 
=text.texts_from_df(train_df=data_train,text_column="Cleaned",label_columns=col

,val_df=data_test,maxlen=500,preprocess_mode="distilbert")
  

и вот ошибка

 OSError: Model name 'distilbert-base-uncased' was not found in tokenizers model name list (distilbert-base-uncased, distilbert-base-uncased-distilled-squad, distilbert-base-cased, distilbert-base-cased-distilled-squad, distilbert-base-&erman-cased, distilbert-base-multilin&ual-cased). We assumed 'distilbert-base-uncased' was a path, a model identifier, or url to a directory containin& vocabulary files named ['vocab.txt'] but couldn't find such vocabulary files at this path or url._
  

Из-за текущей проблемы с окружающей средой в моем офисе я могу работать только на tf 2.2 и python 3.8. Прямо сейчас я использую 0.19.

Как вы думаете, повлияет ли это на мою текущую среду, если я понижу ее до 0.16?

Ответ №1:

Эта ошибка может возникнуть, если существует проблема с сетью или брандмауэром, препятствующая загрузке файлов tokenizer. Смотрите эту запись часто задаваемых вопросов для устранения неполадок.

Кроме того, при использовании preprocess_mode='distilbert' texts_from* функции возвращают TransformerDataset экземпляры, а не массивы. Вам нужно будет заменить, (X_train, y_train) на train_data , например. Смотрите этот пример ноутбука.