#nlp #torchtext #huggingface-datasets
Вопрос:
from joblib import Parallel, delayed
from collections import OrderedDict
from torchtext.data import Dataset, Example, RawField, Field, NestedField
self.raw_content = RawField()
self.id = RawField()
self.raw_abstract = RawField(is_target=True)
self.content = NestedField(Field(fix_length=80), fix_length=50)
self.abstract = NestedField(Field())
self.abstract.is_target = True
self.fields = { "article": [("raw_content", self.raw_content) ("content", self.content)],
"abstract": [ ("raw_abstract", self.raw_abstract)("abstract", self.abstract),],
"id": [("id", self.id)]}
def load_fname(fname, reading_path, fields):
fpath = os.path.join(reading_path, fname)
with open(fpath, "r") as data:
ex = Example.fromJSON(data.read(), fields)
return (ex, fpath)
Что эквивалентно Example.fromJSON(data.read(), fields)
, но с обнимающим лицом (https://github.com/huggingface)? Мне нужно изменить некоторые lstm в модели машинного обучения с помощью некоторых трансформаторов. Теперь нужно выполнить предварительную обработку данных с помощью трансформаторов.
Редактировать
>>> from datasets import load_dataset
>>> dataset = load_dataset('json', data_files='my_file.json', field='data')
источник : https://huggingface.co/docs/datasets/loading_datasets.html
Я думаю, что мне придется использовать приведенный выше код, но все еще не уверен.
Комментарии:
1. Нет необходимости заменять что-то подобное
Example
только потому, что вы переключаетесь на библиотеку transformers. Библиотека transformers построена поверх pytorch и полностью совместима.2. @cronoik Да, спасибо за информацию. Однако ради моей работы это является обязательным требованием.
3. Вы могли бы, например, использовать библиотеку nlp для загрузки файла JSON и создания чего-либо случайным образом.