Гистограмма для данных csv

#python #pandas #histogram

#python #панды #гистограмма

Вопрос:

У меня есть файл csv, где один из столбцов обозначает, сколько подписчиков у пользователя Twitter:

введите описание изображения здесь

Файл csv содержит около 1 000 000 строк. Я хотел бы создать график, показывающий распределение числа подписчиков по всем данным. Поскольку диапазон количества подписчиков довольно большой (от 0 подписчиков до сотен тысяч), возможно, данные на графике должны быть довольно приблизительными, это может быть график, где каждая строка представляет 1000 подписчиков или даже больше (так, 1-й будет 0-1000, затем 1000-2000 и т.д.). Надеюсь, я ясно выражаюсь.

Я пробовал простой код, но он дает странный результат.

 df = pd.read_csv(".csv", encoding='utf8', delimiter=',')

df["user.followers_count"].hist()
  

Вот результат:
введите описание изображения здесь

Имеет ли это какое-либо отношение к размеру и большому диапазону моих данных?

Ответ №1:

В вызванной вами функции hist есть аргумент bins. Вам просто нужно обновить его более разумным значением.

Чтобы понять: если диапазон равен 1-10000, и вы установили ячейки = 10, то 1-1000 — это одна ячейка, 1000-2000 — другая и так далее. Увеличение количества ячеек (и, следовательно, уменьшение размера этого диапазона) поможет вам получить более плавную кривую распределения и получить то, чего вы пытаетесь достичь с помощью этого кода / набора данных.

Ссылка на документацию: https://matplotlib.org/3.1.0/api/_as_gen/matplotlib.pyplot.hist.html

Ответ №2:

Учитывая ваши данные, у меня есть следующий вывод введите описание изображения здесь

Комментарии:

1. Да, я тоже. Но если я применю его ко всему набору данных, у меня будет результат, который я прикрепил.

2. Это похоже на комментарий, а не на ответ.