#python #python-3.x #pandas #data-generation #msdatasetgenerator
#python #python-3.x #pandas #генерация данных #msdatasetgenerator
Вопрос:
У меня есть файл с 5 строками и несколькими столбцами, и при чтении программой он должен генерировать, например, 100 записей, которые затем могут быть загружены в базу данных. Формат может быть excel или csv
Комментарии:
1. Попробуйте взглянуть на алгоритм SMOTE, который создает новые данные из ваших существующих. (честно говоря, 5 может быть немного низким)
Ответ №1:
Давайте сохраним у вас файл file.csv
. Прочитайте это в dataframe и извлекайте из него столько раз, сколько вам нужно. Запишите результат в новый фрейм данных или csv.
import pandas as pd
df = pd.read_csv('file.csv')
new_df = df.sample(n=100, replace=True) # n could be as big as you want
# new df can now be exported
new_df.to_csv('new_df.csv')
Комментарии:
1. Но я не хочу дублировать одни и те же данные. Можно использовать какой-либо пакет и генерировать новые данные, аналогичные данным в этом столбце