Способ уменьшить размер файла: слишком большой файл рассола модели GridSearchCV ~900 МБ

#python #pickle #gridsearchcv

Вопрос:

Я новичок в моделировании данных. И я пытаюсь изучить GridSearchCV. У меня есть около 26000 строк данных. Вот мой объект трубопровода:

 pipeline = Pipeline([
    ('vect', CountVectorizer(tokenizer=tokenize)),
    ('tfidf', TfidfTransformer()),
    ('clf', MultiOutputClassifier(RandomForestClassifier()))
])
 

Вот мой объект параметров

 parameters = {
    'vect__max_df': ([0.75]),
    'tfidf__use_idf': ([False]),
}
 

И моя декларация GridSearchCV выглядит так:

 cv = GridSearchCV(pipeline, param_grid=parameters, cv=3)
 

Проблема в том, что даже при наличии всего 2 параметров и отсутствии значений для итерации мой файл рассола классификатора занимает около 930 МБ.
Это нормально? Есть ли какой-либо способ оптимизировать код или уменьшить размер файла?
Спасибо