#python #probability #normal-distribution #probability-density
Вопрос:
Пытаясь понять значения y графика нормального распределения, я использую этот код:
%reset -f
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt
data = [10,10,20,40,50,60,70,80,90,100]
# Fit a normal distribution to the data:
mu, std = norm.fit(data)
# Plot the histogram.
plt.hist(data, bins=10, density=True, alpha=0.6, color='g')
# Plot the PDF.
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = norm.pdf(x, mu, std)
plt.plot(x, p, 'k', linewidth=2)
title = "Fit results: mu = %.2f, std = %.2f" % (mu, std)
plt.title(title)
plt.show()
чтобы сгенерировать этот сюжет:
Данные представляют собой возраст в годах людей в группе: [10,10,20,40,50,60,70,80,90,100]
Как интерпретировать значения y сгенерированного графика pdf? Например, как следует интерпретировать бар с игрой, приблизительно равной 0,027?
Я читал различные сообщения, такие как :
https://stats.stackexchange.com/questions/332984/interpreting-a-pdf-plot
Но не могу найти информацию, которая подробно описывает интерпретацию значений оси y на графике.
Является 0.027
ли вероятность того, что возраст находится в диапазоне от 0 до приблизительно 20 лет ?
Ответ №1:
Область под кривой pdf между двумя возрастами x_0 и x_1 представляет вероятность P(x_0 <= X
Для гистограммы каждый столбик представляет интервал, а высота столбика равна количеству выборок, принадлежащих этому интервалу, нормализованному таким образом, чтобы общая площадь ячеек гистограммы равнялась 1. Аналогично кривой pdf, площадь ячейки дает оценку вероятности того, что случайная выборка принадлежит интервалу, определяемому ячейкой.
Если нормальное распределение действительно является хорошим выбором для моделирования вашей случайной величины, можно было бы ожидать, что гистограмма и соответствующий pdf-файл будут становиться все ближе и ближе по мере добавления точек в набор данных (для правильно выбранного количества ячеек).