Добавление данных в обучающий набор данных после разделения теста на обучение

#python #scikit-learn #pytorch #train-test-split

Вопрос:

Я разделил свои обучающие и тестовые наборы данных, используя библиотеку разделения тестов train

 lengths = [int(len(supervised_data)*0.8),int(len(supervised_data)*0.2) 1]
train_data, test_data = torch.utils.data.random_split(supervised_data, lengths)

Теперь я пытаюсь добавить дополнительные данные в train_data.

Потому что я пытаюсь провести несколько экспериментов (добавляя больше данных для обучения, используя одни и те же данные test_data для всех экспериментов).

Возможно ли это?

1. Какие данные вы пытаетесь добавить для обучения данным? Если он имеет тот же формат, вы можете добавить его в train_data. случайное разделение просто разделит все данные, которые вы предоставляете, на две части — данные о поездах и тестовые данные в зависимости от предоставленного вами коэффициента разделения, и разделит их случайным образом. Если у вас есть дополнительные данные в том же формате, что и исходные данные, вы можете добавить их в обучающие данные и обучить свою модель.

2. Почему? Просто используйте исходный фрейм данных, который вы разделили.

3. @GedasMiksenas Я пытаюсь проводить эксперименты, вот почему, но я хочу, чтобы тестовые данные были одинаковыми для всех экспериментов

4. @RishabhMishra, это тот же формат, что и данные, которые я уже разделил

5. Вы определенно можете объединить дополнительные данные с данными обучения. Это похоже на объединение данных о поездах и тестовых данных, чтобы supervised_data в вашем случае получить полную информацию. Итак, вы будете обучать свою модель с помощью (train_data additional_data) и тестировать ее на test_data.

Ответ №1:

Если вы хотите объединить два кадра данных (train_data, test_data), то вы можете сделать это с помощью:

 joined_df = pd.concat([train_data, test_data])

Вопрос:

Комментарии:

Ответ №1:

Вам также может понравиться

Pentaho — миграция из хранилища базы данных в хранилище файлов

Рекурсивный MySQL — получение всех дочерних и родительских элементов с заданным идентификатором

Суммирование подгруппы в R и вычисление процентов