You are currently viewing Работа с файлами Excel с использованием Pandas

Работа с файлами Excel с использованием Pandas

Лист Excel — одна из самых распространенных форм файлов в ИТ-индустрии. Все, кто в то или иное время пользовался компьютером, сталкивались с электронными таблицами Excel и работали с ними. Такая популярность excel обусловлена его широким спектром приложений в области хранения и обработки данных в табличной и систематизированной форме. Кроме того, листы Excel очень интуитивно понятны и удобны в использовании, что делает их идеальными для работы с большими наборами данных даже для менее технических специалистов. Если вы ищете места, где можно научиться манипулировать и автоматизировать файлы Excel с помощью Python, не ищите больше. Вы находитесь в нужном месте.

В этой статье вы узнаете, как использовать Pandas для работы с электронными таблицами Excel. В конце статьи вы получите знания of:

  • Необходимые для этого модули и как их настроить в вашей системе.
  • Чтение данных из файла Excel в панды с помощью Python.
  • Изучение данных из файлов Excel в Панд.
  • Использование функций для управления и изменения формы данных в Панд.

Установка

Чтобы установить pandas в Anaconda, мы можем использовать следующую команду в терминале Anaconda:

conda install pandas

Чтобы установить pandas на обычный Python (не Anaconda), мы можем использовать следующую команду в командной строке:

pip install pandas 

Приступая к работе

Прежде всего, нам нужно импортировать модуль pandas, что можно сделать, выполнив команду:

import pandas as pds

Входной файл: Предположим, файл excel выглядит следующим образом

Лист 1:

Лист 2:

Теперь мы можем импортировать файл excel с помощью функции read_excel в pandas, как показано ниже:

file =('path_of_excel_file')
newData = pds.read_excel(file)
newData

Выход:

Второй оператор считывает данные из excel и сохраняет их в фрейме данных pandas, который представлен переменной newData. Если в книге Excel несколько листов, команда импортирует данные первого листа. Чтобы создать фрейм данных со всеми листами в книге, самый простой способ-создать разные фреймы данных отдельно, а затем объединить их. Метод read_excel принимает аргумент sheet_name и index_col где мы можем указать лист, из которого должен быть сделан фрейм данных, и index_col указывает столбец заголовка.

Пример:

sheet1 = pds.read_excel(file,
						sheet_name = 0,
						index_col = 0)

sheet2 = pds.read_excel(file,
						sheet_name = 1,
						index_col = 0)

newData = pds.concat([sheet1, sheet2])

Третье утверждение объединяет оба листа. Теперь, чтобы проверить весь фрейм данных, мы можем просто выполнить следующую команду:

newData

Выход:

Чтобы просмотреть 5 столбцов сверху и снизу фрейма данных, мы можем выполнить команду:

newData.head()
newData.tail()

Выход:

Это head() и tail() метод также принимают аргументы в качестве чисел для отображения количества столбцов.
Этот shape() метод можно использовать для просмотра количества строк и столбцов во фрейме данных следующим образом:

newData.shape

Выход:

Если какой-либо столбец содержит числовые данные, мы можем отсортировать этот столбец с помощью sort_values() метода в pandas следующим образом:

sorted_column = newData.sort_values(['Height'], ascending = False)

Теперь предположим, что нам нужны 5 лучших значений отсортированного столбца, мы можем использовать head() метод здесь:

sorted_column['Height'].head(5)

Выход:

Мы можем сделать это с любым числовым столбцом фрейма данных, как показано ниже:

newData['Weight'].head()

Выход:

Теперь предположим, что наши данные в основном числовые. Мы можем получить статистическую информацию, такую как среднее, максимальное, минимальное и т. д., О фрейме данных, Используя метод, как показано ниже: describe()

newData.describe()

Выход:

Это также можно сделать отдельно для всех числовых столбцов, используя следующую команду:

newData['Weight'].mean()

Выход:

Другая статистическая информация также может быть рассчитана с использованием соответствующих методов.
Как и в Excel, формулы также могут быть применены, а вычисляемые столбцы могут быть созданы следующим образом:

newData['calculated_column']= newData[“Height”] + newData[“Weight”]
newData['calculated_column'].head()

Выход:

После обработки данных во фрейме данных мы можем экспортировать данные обратно в файл Excel с помощью этого метода to_excel. Для этого нам нужно указать выходной файл excel, в который должны быть записаны преобразованные данные, как показано ниже:

newData.to_excel('Output File.xlsx')

Выход: