Как я могу начать писать программу на python, где она считывает файл Excel с небольшим количеством записей и генерирует больше записей для целей тестирования

#python #python-3.x #pandas #data-generation #msdatasetgenerator

#python #python-3.x #pandas #генерация данных #msdatasetgenerator

Вопрос:

У меня есть файл с 5 строками и несколькими столбцами, и при чтении программой он должен генерировать, например, 100 записей, которые затем могут быть загружены в базу данных. Формат может быть excel или csv

Комментарии:

1. Попробуйте взглянуть на алгоритм SMOTE, который создает новые данные из ваших существующих. (честно говоря, 5 может быть немного низким)

Ответ №1:

Давайте сохраним у вас файл file.csv . Прочитайте это в dataframe и извлекайте из него столько раз, сколько вам нужно. Запишите результат в новый фрейм данных или csv.

 import pandas as pd

df = pd.read_csv('file.csv')
new_df = df.sample(n=100, replace=True) # n could be as big as you want

# new df can now be exported
new_df.to_csv('new_df.csv')
  

Комментарии:

1. Но я не хочу дублировать одни и те же данные. Можно использовать какой-либо пакет и генерировать новые данные, аналогичные данным в этом столбце