Как создать файл подслова vocab, такой как ende_32k.подслово

#deep-learning #tokenize #vocabulary #trax

#глубокое обучение #токенизировать #запас слов #trax

Вопрос:

Как создать файл vocab_file, такой как ende_32k.подслово в следующем примере

 # Tokenize a sentence. sentence = 'It is nice to learn new things today!' tokenized = list(trax.data.tokenize(iter([sentence]), # Operates on streams.  vocab_dir='gs://trax-ml/vocabs/',  vocab_file='ende_32k.subword'))[0]  

поскольку я работаю над текстовыми файлами на арабском языке, я хочу создать свой собственный подсловный вокаб, подобный тому, который используется в deeplearning.ai . как мне создать свои собственные файлы подсловов, относящиеся к набору данных и словарю арабского языка? с уважением