Проблема с большим текстом в предварительно подготовленной модели — t5-большой

#python-3.x #nlp #huggingface-transformers #summarization #huggingface-tokenizers

Вопрос:

Приведенный ниже код не может обрабатывать текстовый файл размером 70 МБ. Есть ли альтернатива?

 
original_text="My text Here from large File"


from transformers import AutoTokenizer, AutoModelWithLMHead  
tokenizer = AutoTokenizer.from_pretrained("t5-large")
model = AutoModelWithLMHead.from_pretrained("t5-large")

text = "summarize:"   original_text
input_ids=tokenizer.encode(text, return_tensors='pt', max_length=512)

summary_ids = model.generate(input_ids=input_ids, min_length = 10, max_length = 200, early_stopping=False)

t5_summary = tokenizer.decode(summary_ids[0])
'''