#python #nlp #huggingface-transformers #huggingface-tokenizers
Вопрос:
Я пытаюсь обобщить текст с помощью huggingface T5. Я запускаю аналогичный код для БАРТА без проблем.
С T5 я получаю :
Исключение: Невозможно угадать, какой токенизатор использовать. Пожалуйста, укажите предварительно обученный класс токенизатора или путь/идентификатор к предварительно обученному токенизатору.
Кажется, я уже предоставил токенизатор : t5-маленький. Я пробовал и другие токенизаторы t5, но получил ту же ошибку. У меня нет этой проблемы с другими трансформаторами или токенизаторами.
Что может быть причиной этого?
from transformers import pipeline from transformers import T5Tokenizer, TFT5ForConditionalGeneration pip install sentencepiece mt5 = TFT5ForConditionalGeneration.from_pretrained('t5-small') tokenizer = T5Tokenizer.from_pretrained('t5-small') t5_summarizer = pipeline( task="summarization", model=mt5, tokenizer=tokenizer, framework='pt' ) conversation_summary = [] for row_index, row in text.iterrows(): conversation = text.iloc[row_index, 1] t5_summary = t5_summarizer(conversation, max_length=100) print(t5_summary) conversation_summary.append(t5_summary) text["conversation_t5"] = conversation_summary