Как импортировать «грязный» csv-файл в pandas и plot?

#python #python-3.x #pandas #csv #matplotlib

это код, который я пробовал. В файле .csv есть столбец, содержащий даты (дд-мм-гггг).Я хочу создать такой график. Это файл .csv, который содержит только 2 столбца!

     from pandas import read_csv
    from matplotlib import pyplot
    series = read_csv(r'C:UsersHPDesktoparchivedaily-minimum-temperatures-in-me.csv', header=0, index_col=0)

ошибка, которую я получаю, заключается в следующем :
отсутствие числовых данных для построения
графика должно быть связано с тем, что в файле .csv всего 2 столбца (дата, температура), и поскольку он не может прочитать дату, он учитывает только 1 столбец и выдает мне эту ошибку.

Пожалуйста, помогите мне показать дату, поскольку на этом графике у меня есть .csv-файл и график с этого веб-сайта, пожалуйста, обратитесь к нему, если это необходимо, и помогите мне


ParserError: Error tokenizing data. C error: Expected 2 fields in line 3653, saw 3


  • Верхняя и нижняя части файла
 "Date","Daily minimum temperatures in Melbourne, Australia, 1981-1990"

Daily minimum temperatures in Melbourne, Australia, 1981-1990


Ответ №1:

  • Есть некоторые проблемы с данными, которые требуют очистки
  • Дополнительная строка текста в конце файла, которую можно пропустить с помощью skiprows
  • Попытка построить данные приводит к TypeError: no numeric data to plot , что означает, что столбец данных не был преобразован в числа
  • Попытка преобразовать столбец данных в значение с плавающей запятой приводит к ValueError: could not convert string to float: '?0.2' , который сообщает, что столбец данных содержит a '?' , который не может быть преобразован в значение с плавающей запятой.
    • df[df.min_temp.str.contains('?')] показывает 3 строки с '?'
    • df[df.index.isin(pd.date_range('1982-07-17', '1982-07-24')) | df.index.isin(pd.date_range('1984-07-12', '1984-07-17'))] покажет раздел фрейма данных, окружающий проблемные строки.
 import pandas as pd

# read the file, parse dates and set as index, skip rows with issues
df = pd.read_csv('data/archive/daily-minimum-temperatures-in-me.csv', parse_dates=['Date'], skiprows=[3652, 3653], index_col=['Date'])

# rename column
df.columns = ['min_temp']

# replace strings in the column and then convert to floats
df.min_temp = df.min_temp.str.replace('?', '').astype(float)

# plot the dataframe
df.plot(figsize=(8, 5))

