#python #pandas #dataset
#python #pandas #набор данных
Вопрос:
Я создаю программу aut-ml для школьного конкурса.
Я столкнулся с проблемой, при которой при загрузке наборов данных по какой-то причине изменяется их размер. Из-за этого я не могу использовать их в алгоритмах машинного обучения.
Реальный размер 1.csv равен (515, 12), реальный размер 2.csv равен (31, 12).
data = pd.read_csv('1.csv')
X = pd.DataFrame(data)
data_predict = pd.read_csv('2.csv')
X_predict = pd.DataFrame(data_predict)
X_s = X.shape # output (515, 986)
X_predict_s = X_predict.shape # output (31, 136)
Я много пробовал, включая это:
pd.concat([X[i] for i in X.columns]).dropna()
pd.concat([X_predict[i] for i in X_predict.columns]).dropna()
X.dropna(inplace=True)
indices_to_keep = X.isin([np.nan, np.inf, -np.inf])
X_predict.dropna(inplace=True)
indices_to_keep = X_predict.isin([np.nan, np.inf, -np.inf])
Я также попытался записать набор данных в файл Excel (используя pd.read_excel
)
Комментарии:
1. можете ли вы показать нам несколько строк файлов cvs? Кстати
X = pd.read_csv('1.csv')
уже создал бы фрейм данных из файла CSV.2. Добавлено 2 скриншота. Игнорируйте 13-й столбец в первом файле
3. можете ли вы открыть файлы в текстовом редакторе (не в Excel)? Я подозреваю, что при сохранении файла в Excel в каждой строке добавляется много запятых.
4. Нет, маловероятно, что в этом виноват excel. Я также попробовал использовать LibreOffice Calc.
5. Я заменил 1.csv и 2.csv на классический набор данных пассажиров Титаника. Размер наборов данных стал нормальным. Возможно, проблема именно в этом наборе данных, хотя я воссоздавал его много раз, даже в разных версиях Excel