статистика вероятностной логики

#statistics #probability

#Статистика #вероятность

Вопрос:

Я не уверен, что это подходящее место, чтобы задать этот вопрос. Поскольку это больше похоже на логический вопрос.. но, эй, не повредит спросить. Предположим, у меня есть огромный список данных (клиентов), и у всех них есть data_id, теперь я хочу выбрать, допустим, разделить данные в соотношении, скажем, 10: 90. Теперь вместо указания условия, которое (пример)

 the sum of digits is even...go to bin 1
the sum of digits is odd.. go to bin 2
or sum of last three digits are x then go to bin 1
sum of last three digits is not x then go to bin 2
  

Теперь это может привести к неравномерному сбору данных .. иногда он может быть в состоянии найти данные .. больше (что нормально), но иногда он может быть не в состоянии найти достаточное количество данных

Есть ли способ (с точки зрения вероятности), который говорит .. размер выборки всегда больше x%

Спасибо

Ответ №1:

Вы хотите разделить свои данные по равномерно распределенному объекту. Хэш-функции разработаны с учетом этого свойства … итак, если вы вычислите хэш вашего идентификатора клиента, а затем разделите на первые n битов, чтобы получить 2 ^ n ячеек, в каждой ячейке должно быть примерно одинаковое количество элементов. (Затем вы можете выбрать, скажем, 90% ваших ячеек, чтобы получить 90% данных.) Надеюсь, это поможет.