#python #pickle #gridsearchcv
Вопрос:
Я новичок в моделировании данных. И я пытаюсь изучить GridSearchCV. У меня есть около 26000 строк данных. Вот мой объект трубопровода:
pipeline = Pipeline([
('vect', CountVectorizer(tokenizer=tokenize)),
('tfidf', TfidfTransformer()),
('clf', MultiOutputClassifier(RandomForestClassifier()))
])
Вот мой объект параметров
parameters = {
'vect__max_df': ([0.75]),
'tfidf__use_idf': ([False]),
}
И моя декларация GridSearchCV выглядит так:
cv = GridSearchCV(pipeline, param_grid=parameters, cv=3)
Проблема в том, что даже при наличии всего 2 параметров и отсутствии значений для итерации мой файл рассола классификатора занимает около 930 МБ.
Это нормально? Есть ли какой-либо способ оптимизировать код или уменьшить размер файла?
Спасибо