#python #list #huggingface-transformers #huggingface-tokenizers
Вопрос:
Интересно, есть ли простой способ использовать токенизатор с 3D-списком, поскольку я следую этому уроку: https://huggingface.co/transformers/preprocessing.html
На самом деле в моем случае у меня есть 3D-список, подобный этому:
example_list = [[['drinking water systems']], [['irrigation systems'], ['irrigation networks'], ['irrigation ditches']]]
Я пробовал это, но это не сработало хорошо, это просто работает для одного элемента, я думаю:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')
for i in ex_list:
encoded_inputs = tokenizer(i[0], padding=True, truncation='longest_first', return_tensors="pt", max_length=512)
Есть ли простой способ сделать это?
Ожидаемый результат должен быть того же размера, что и исходный список, просто замените строку идентификаторами токенов.
tensor([[[token_ids]],
[[token_ids], [token_ids], [token_ids]]])