#pandas #machine-learning #jupyter
#pandas #машинное обучение #jupyter
Вопрос:
Я запускаю некоторые регрессионные модели в jupyter / python, чтобы предсказать время цикла определенных проектов. Я использовал train_test_split из sklearn для случайного разделения моего набора данных.
Модели, как правило, довольно хорошо работают для проектов с большим временем цикла (от 150 до 300 дней), но меня больше волнует меньшее время цикла от 0 до 50 дней.
Я считаю, что модель более точна для более высокого диапазона, потому что большинство проектов (около 60-70%) имеют время цикла более 100 дней. Я хочу, чтобы моя модель в основном правильно использовала меньшее время цикла, потому что для целей того, что я делаю, проект со временем цикла 120 дней совпадает с проектом со временем цикла 300 дней.
На мой взгляд, мне нужно больше тренироваться в проектах с более коротким временем цикла? Я чувствую, что это может помочь?
- Есть ли способ разделить данные менее случайным образом? Он же тренируется в более высоком соотношении проектов с более коротким циклом
- Есть ли лучший или другой подход, который я должен рассмотреть?