T5 Huggingface — Исключение: Невозможно угадать, какой токенизатор использовать

#python #nlp #huggingface-transformers #huggingface-tokenizers

Вопрос:

Я пытаюсь обобщить текст с помощью huggingface T5. Я запускаю аналогичный код для БАРТА без проблем.

С T5 я получаю :

Исключение: Невозможно угадать, какой токенизатор использовать. Пожалуйста, укажите предварительно обученный класс токенизатора или путь/идентификатор к предварительно обученному токенизатору.

Кажется, я уже предоставил токенизатор : t5-маленький. Я пробовал и другие токенизаторы t5, но получил ту же ошибку. У меня нет этой проблемы с другими трансформаторами или токенизаторами.

Что может быть причиной этого?

 from transformers import pipeline from transformers import T5Tokenizer, TFT5ForConditionalGeneration  pip install sentencepiece  mt5 = TFT5ForConditionalGeneration.from_pretrained('t5-small') tokenizer = T5Tokenizer.from_pretrained('t5-small')  t5_summarizer = pipeline(  task="summarization",  model=mt5,  tokenizer=tokenizer,  framework='pt' )  conversation_summary = [] for row_index, row in text.iterrows():  conversation = text.iloc[row_index, 1]  t5_summary = t5_summarizer(conversation, max_length=100)  print(t5_summary)  conversation_summary.append(t5_summary)  text["conversation_t5"] = conversation_summary