#deep-learning #tokenize #vocabulary #trax
#глубокое обучение #токенизировать #запас слов #trax
Вопрос:
Как создать файл vocab_file, такой как ende_32k.подслово в следующем примере
# Tokenize a sentence. sentence = 'It is nice to learn new things today!' tokenized = list(trax.data.tokenize(iter([sentence]), # Operates on streams. vocab_dir='gs://trax-ml/vocabs/', vocab_file='ende_32k.subword'))[0]
поскольку я работаю над текстовыми файлами на арабском языке, я хочу создать свой собственный подсловный вокаб, подобный тому, который используется в deeplearning.ai . как мне создать свои собственные файлы подсловов, относящиеся к набору данных и словарю арабского языка? с уважением