Как использовать токенизатор для 3D-списка с помощью transformers python?

#python #list #huggingface-transformers #huggingface-tokenizers

Вопрос:

Интересно, есть ли простой способ использовать токенизатор с 3D-списком, поскольку я следую этому уроку: https://huggingface.co/transformers/preprocessing.html

На самом деле в моем случае у меня есть 3D-список, подобный этому:

 example_list = [[['drinking water systems']], [['irrigation systems'], ['irrigation networks'], ['irrigation ditches']]]

Я пробовал это, но это не сработало хорошо, это просто работает для одного элемента, я думаю:

 from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')
for i in ex_list:
  encoded_inputs = tokenizer(i[0], padding=True, truncation='longest_first', return_tensors="pt", max_length=512)

Есть ли простой способ сделать это?

Ожидаемый результат должен быть того же размера, что и исходный список, просто замените строку идентификаторами токенов.

 tensor([[[token_ids]],
 [[token_ids], [token_ids], [token_ids]]])

Вопрос:

Вам также может понравиться

присвоить значение переменной javascript в C # CodeBehind

Разрывы таблицы печати HTML при увеличении высоты экрана или Tfoot

Максимальная кодировка, безопасная для строки lua?