#statistics #dataset #data-science
Вопрос:
У меня есть монитор, который измеряет концентрацию пыли в нашем районе, и на основе этого набора данных я разделяю его на три сценария, чтобы увидеть, какие сценарии создают наибольшее количество пыли. Однако, когда я это делаю, подмножества имеют разные размеры выборки (т. Е. разное количество часов, когда происходили эти действия, что ожидается). Как мне сравнить, какой сценарий с большей вероятностью вызовет высокий уровень пыли?
Пример ниже:
Recorded data has sample size of 1000 hours. Subset 1 (General car movements only) - 700 hours Subset 2 (Construction vehicles movement general car movement) - 200 hours Subset 3 (Road closure with no vehicle movement) - 100 hours Number of hours exceeded dust concentration X amount which I set to determine if the activity is dusty: Subset 1 - 100 hours Subset 2 - 50 hours Subset 3 - 10 hours The % of exceedance occurrence for each subset is: Subset 1 - 100/160*100 = 63% Subset 2 - 50/160*100 = 31% Subset 3 - 10/160*100 = 6%
Но я не думаю, что могу сказать, что подмножество 1 с большей вероятностью вызовет большое количество пыли, поскольку его размер выборки на 500 часов больше, чем у подмножества 2… У меня очень минимальные статистические знания, и я был бы очень признателен за любые рекомендации о том, как решить эту проблему
Спасибо!