Определите вероятность возникновения той или иной деятельности

#statistics #dataset #data-science

Вопрос:

У меня есть монитор, который измеряет концентрацию пыли в нашем районе, и на основе этого набора данных я разделяю его на три сценария, чтобы увидеть, какие сценарии создают наибольшее количество пыли. Однако, когда я это делаю, подмножества имеют разные размеры выборки (т. Е. разное количество часов, когда происходили эти действия, что ожидается). Как мне сравнить, какой сценарий с большей вероятностью вызовет высокий уровень пыли?

Пример ниже:

 Recorded data has sample size of 1000 hours.   Subset 1 (General car movements only) - 700 hours   Subset 2 (Construction vehicles movement   general car movement) - 200 hours   Subset 3 (Road closure with no vehicle movement) - 100 hours  Number of hours exceeded dust concentration X amount which I set to determine if the activity  is dusty:   Subset 1 - 100 hours   Subset 2 - 50 hours   Subset 3 - 10 hours  The % of exceedance occurrence for each subset is:  Subset 1 - 100/160*100 = 63%  Subset 2 - 50/160*100 = 31%  Subset 3 - 10/160*100 = 6%  

Но я не думаю, что могу сказать, что подмножество 1 с большей вероятностью вызовет большое количество пыли, поскольку его размер выборки на 500 часов больше, чем у подмножества 2… У меня очень минимальные статистические знания, и я был бы очень признателен за любые рекомендации о том, как решить эту проблему 🙂

Спасибо!