Как определить минимальные выборки для рассмотрения, чтобы получить почти такое же среднее значение, как у всех выборок?

#statistics #logic #average

#Статистика #Логические #среднее

Вопрос:

Я хотел бы знать, существует ли какой-либо стандартный алгоритм или статистический параметр, который можно использовать для определения того, сколько минимальных выборок следует учитывать с самого начала, среднее значение которого почти совпадает со средним значением всех выборок.

Например: если присутствует 2000 выборок, а среднее значение равно 20, допустимый средний диапазон составляет 20 -0,01. Если мы начнем брать среднее значение из первой выборки, то, взяв среднее значение из X выборок, мы можем получить среднее значение в пределах 20 -0,01

Проблема заключается в том, чтобы найти значение X, просто нужно руководство с логической точки зрения [Процедура или алгоритм для рассмотрения] Заранее спасибо

Комментарии:

1. Есть, но я думаю, нам нужно больше информации о том, как распределяются значения в вашей совокупности. Является ли распределение стандартным распределением со средним значением 20? Если да, то каково стандартное отклонение? Это равномерное распределение? Если да, то в каком диапазоне значений? Как только распределение будет указано полностью, процедура будет заключаться в выборе доверительного интервала… например, 95%… и найдите размер выборки N таким образом, чтобы вероятность того, что среднее значение N особей из популяции находится в диапазоне [19.99, 20.01], составляла не менее 95%. К сожалению, 100% достоверность нереальна.

2. Вы можете учитывать общее отклонение для всех выборок в пределах от 19 до 21

3. Можете ли вы предложить рассмотреть стандартное распределение точек выборки с 95-процентной достоверностью?

4. Итак, если вы просто хотите, чтобы я выбрал стандартное отклонение для целей иллюстрации, это нормально — я могу выбрать 1, что будет означать, что 68% выборок находятся в диапазоне 19-21, 95% находятся в диапазоне 18-22 и 99,7% находятся в диапазоне 17-23. Вычисления будут выглядеть одинаково с другим стандартным отклонением, просто с разными числами.

Ответ №1:

Хорошо, итак, если стандартное отклонение известно, то для 95% уверенности в том, что среднее значение выборки будет в пределах 0,01 от истинного среднего для нормального распределения со стандартным отклонением, равным s, мы требуем, чтобы:

 0.01 = z95 x s / sqrt(n)
 

Здесь z95 — двусторонний CDF нормального распределения и составляет около 1,96 (из таблиц), s — стандартное отклонение, а n — количество требуемых выборок. Мы можем решить для n в терминах s:

     0.01 = 1.96 x s / sqrt(n)
<=> sqrt(n) = 196s
<=> n = 38416s
 

Итак, если s = 1, вам потребуется около 38,5 тыс. выборок, чтобы получить 95% уверенность в том, что среднее значение выборки будет в пределах 0,01 от истинного среднего. Количество выборок, необходимых для достижения заданной точности, прямо пропорционально истинному стандартному отклонению выборки.

Если стандартное отклонение истинной совокупности неизвестно, вычисление выполняется аналогичным образом, за исключением того, что вы будете использовать CDF из T-распределения Стьюдента (поэтому вместо z95 вы бы использовали t95), и вы бы использовали стандартное отклонение выборки.

Если вам нужен другой доверительный интервал — больший или меньший — вы должны найти соответствующий двусторонний CDF для любого используемого вами распределения и использовать соответствующее значение (так что-то помимо 1.96).

Обсуждение в Википедии, раздел «Основные шаги», поучительно: https://en.wikipedia.org/wiki/Confidence_interval