Способ уменьшить размер файла: слишком большой файл рассола модели GridSearchCV ~900 МБ

#python #pickle #gridsearchcv

Вопрос:

Я новичок в моделировании данных. И я пытаюсь изучить GridSearchCV. У меня есть около 26000 строк данных. Вот мой объект трубопровода:

 pipeline = Pipeline([
    ('vect', CountVectorizer(tokenizer=tokenize)),
    ('tfidf', TfidfTransformer()),
    ('clf', MultiOutputClassifier(RandomForestClassifier()))
])

Вот мой объект параметров

 parameters = {
    'vect__max_df': ([0.75]),
    'tfidf__use_idf': ([False]),
}

И моя декларация GridSearchCV выглядит так:

 cv = GridSearchCV(pipeline, param_grid=parameters, cv=3)

Проблема в том, что даже при наличии всего 2 параметров и отсутствии значений для итерации мой файл рассола классификатора занимает около 930 МБ.
Это нормально? Есть ли какой-либо способ оптимизировать код или уменьшить размер файла?
Спасибо

Вопрос:

Вам также может понравиться

Как отобразить ввод и вывод в том же графическом интерфейсе для tkinter в Python

Что означает RT в исходном коде clojure?

оптимизируйте производительность при создании фрейма данных из словаря