Я хочу, чтобы train_test_split обучался в основном в одном определенном диапазоне чисел

#pandas #machine-learning #jupyter

#pandas #машинное обучение #jupyter

Вопрос:

Я запускаю некоторые регрессионные модели в jupyter / python, чтобы предсказать время цикла определенных проектов. Я использовал train_test_split из sklearn для случайного разделения моего набора данных.

Модели, как правило, довольно хорошо работают для проектов с большим временем цикла (от 150 до 300 дней), но меня больше волнует меньшее время цикла от 0 до 50 дней.

Я считаю, что модель более точна для более высокого диапазона, потому что большинство проектов (около 60-70%) имеют время цикла более 100 дней. Я хочу, чтобы моя модель в основном правильно использовала меньшее время цикла, потому что для целей того, что я делаю, проект со временем цикла 120 дней совпадает с проектом со временем цикла 300 дней.

На мой взгляд, мне нужно больше тренироваться в проектах с более коротким временем цикла? Я чувствую, что это может помочь?

  1. Есть ли способ разделить данные менее случайным образом? Он же тренируется в более высоком соотношении проектов с более коротким циклом
  2. Есть ли лучший или другой подход, который я должен рассмотреть?