#python #pandas #histogram
#python #панды #гистограмма
Вопрос:
У меня есть файл csv, где один из столбцов обозначает, сколько подписчиков у пользователя Twitter:
Файл csv содержит около 1 000 000 строк. Я хотел бы создать график, показывающий распределение числа подписчиков по всем данным. Поскольку диапазон количества подписчиков довольно большой (от 0 подписчиков до сотен тысяч), возможно, данные на графике должны быть довольно приблизительными, это может быть график, где каждая строка представляет 1000 подписчиков или даже больше (так, 1-й будет 0-1000, затем 1000-2000 и т.д.). Надеюсь, я ясно выражаюсь.
Я пробовал простой код, но он дает странный результат.
df = pd.read_csv(".csv", encoding='utf8', delimiter=',')
df["user.followers_count"].hist()
Имеет ли это какое-либо отношение к размеру и большому диапазону моих данных?
Ответ №1:
В вызванной вами функции hist есть аргумент bins. Вам просто нужно обновить его более разумным значением.
Чтобы понять: если диапазон равен 1-10000, и вы установили ячейки = 10, то 1-1000 — это одна ячейка, 1000-2000 — другая и так далее. Увеличение количества ячеек (и, следовательно, уменьшение размера этого диапазона) поможет вам получить более плавную кривую распределения и получить то, чего вы пытаетесь достичь с помощью этого кода / набора данных.
Ссылка на документацию: https://matplotlib.org/3.1.0/api/_as_gen/matplotlib.pyplot.hist.html
Ответ №2:
Комментарии:
1. Да, я тоже. Но если я применю его ко всему набору данных, у меня будет результат, который я прикрепил.
2. Это похоже на комментарий, а не на ответ.