#machine-learning #nlp #fast-ai #data-preprocessing
Вопрос:
Я изо всех сил пытаюсь написать правильный метод: get_items()
для DataBlock
. Это учебник, которому я следую.
question_label_path = 'text_label.csv'
def getTextLabels(arg):
df = pd.read_csv(arg)
return df[['text', 'label']].to_numpy()
textBlock = (TextBlock.from_df(text_cols = ['text'], vocab=dls_lm.vocab),CategoryBlock)
dls_clas = DataBlock(
blocks=textBlock,
get_x = ColReader(cols='text'),
get_y = ColReader(cols = "label"),
get_items= getTextLabels,
splitter = TrainTestSplitter(test_size = 0.2, random_state = 21, stratify=["label"])
).dataloaders(question_label_path, bs=64)
Из-за характера моей работы я не могу предоставить полный набор данных, но он выглядит так: