Pandas: игнорировать определенные (плохие) ячейки при выполнении операций sum (), mean()

#python-3.x #pandas #dataframe

#python-3.x #pandas #фрейм данных

Вопрос:

Я хочу выполнить операции sum, mean для столбца ‘number’, используя библиотеку pandas в python, но некоторые ячейки содержат неправильные данные (2020-05-30) или они пусты. Как можно игнорировать эти ячейки?

 number
25
1
12
2020-05-30

6
7
...
  

Спасибо.

Ответ №1:

Преобразуйте неправильные значения в пропущенные значения NaN s, для которых по умолчанию используются pandas sum , mean опустите их:

 df['number'] = pd.to_numeric(df.number, errors='coerce')
  

Или затем удалите строки с пропущенными значениями с помощью DataFrame.dropna :

 df['number'] = pd.to_numeric(df.number, errors='coerce')
df = df.dropna(subset=['number'])
  

Комментарии:

1. Я получаю сообщение об ошибке: df[‘number’] = pd.to_numeric(df.number, error=’принудительное’) Ошибка TypeError: to_numeric() получил неожиданный аргумент ключевого слова «ошибка»