По какой-то причине наборы данных меняют размер

#python #pandas #dataset

#python #pandas #набор данных

Вопрос:

Я создаю программу aut-ml для школьного конкурса.

Я столкнулся с проблемой, при которой при загрузке наборов данных по какой-то причине изменяется их размер. Из-за этого я не могу использовать их в алгоритмах машинного обучения.

Реальный размер 1.csv равен (515, 12), реальный размер 2.csv равен (31, 12).

 data = pd.read_csv('1.csv')
X = pd.DataFrame(data)
data_predict = pd.read_csv('2.csv')
X_predict = pd.DataFrame(data_predict)
X_s = X.shape                     # output (515, 986)
X_predict_s = X_predict.shape     # output (31, 136)
  

Я много пробовал, включая это:

 pd.concat([X[i] for i in X.columns]).dropna()
pd.concat([X_predict[i] for i in X_predict.columns]).dropna()

X.dropna(inplace=True)
indices_to_keep = X.isin([np.nan, np.inf, -np.inf])
X_predict.dropna(inplace=True)
indices_to_keep = X_predict.isin([np.nan, np.inf, -np.inf])
  

Я также попытался записать набор данных в файл Excel (используя pd.read_excel )

1-й файл
2-й файл
3-й файл

Комментарии:

1. можете ли вы показать нам несколько строк файлов cvs? Кстати X = pd.read_csv('1.csv') уже создал бы фрейм данных из файла CSV.

2. Добавлено 2 скриншота. Игнорируйте 13-й столбец в первом файле

3. можете ли вы открыть файлы в текстовом редакторе (не в Excel)? Я подозреваю, что при сохранении файла в Excel в каждой строке добавляется много запятых.

4. Нет, маловероятно, что в этом виноват excel. Я также попробовал использовать LibreOffice Calc.

5. Я заменил 1.csv и 2.csv на классический набор данных пассажиров Титаника. Размер наборов данных стал нормальным. Возможно, проблема именно в этом наборе данных, хотя я воссоздавал его много раз, даже в разных версиях Excel