Почему random() * random() отличается от random() ** 2?

#python #random #random-sample

#python #Случайный

Вопрос:

Есть ли разница между random() * random() и random() ** 2 ? random() возвращает значение от 0 до 1 из равномерного распределения.

При тестировании обеих версий случайных квадратных чисел я заметил небольшую разницу. Я создал 100000 случайных квадратных чисел и подсчитал, сколько чисел находится в каждом интервале 0,01 (от 0,00 до 0,01, от 0,01 до 0,02, …). Похоже, что эти версии генерации случайных чисел в квадрате отличаются.

Возведение в квадрат случайного числа вместо умножения двух случайных чисел приводит к повторному использованию случайного числа, но я думаю, что распределение должно оставаться неизменным. Действительно ли есть разница? Если нет, то почему мой тест показывает разницу?


Я генерирую два случайных распределенных распределения для и одно для примерно так random() * random() random() ** 2 :

 from random import random

lst = [0 for i in range(100)]
lst2, lst3 = list(lst), list(lst)

#create two random distributions for random() * random()
for i in range(100000):
    lst[int(100 * random() * random())]  = 1

for i in range(100000):
    lst2[int(100 * random() * random())]  = 1

for i in range(100000):
    lst3[int(100 * random() ** 2)]  = 1
  

что дает

 >>> lst
[
    5626, 4139, 3705, 3348, 3085, 2933, 2725, 2539, 2449, 2413,
    2259, 2179, 2116, 2062, 1961, 1827, 1754, 1743, 1719, 1753,
    1522, 1543, 1513, 1361, 1372, 1290, 1336, 1274, 1219, 1178,
    1139, 1147, 1109, 1163, 1060, 1022, 1007,  952,  984,  957,
     906,  900,  843,  883,  802,  801,  710,  752,  705,  729,
     654,  668,  628,  633,  615,  600,  566,  551,  532,  541,
     511,  493,  465,  503,  450,  394,  405,  405,  404,  332,
     369,  369,  332,  316,  272,  284,  315,  257,  224,  230,
     221,  175,  209,  188,  162,  156,  159,  114,  131,  124,
     96,   94,   80,   73,   54,   45,   43,   23,   18,     3
]

>>> lst2
[
    5548, 4218, 3604, 3237, 3082, 2921, 2872, 2570, 2479, 2392,
    2296, 2205, 2113, 1990, 1901, 1814, 1801, 1714, 1660, 1591,
    1631, 1523, 1491, 1505, 1385, 1329, 1275, 1308, 1324, 1207,
    1209, 1208, 1117, 1136, 1015, 1080, 1001,  993,  958,  948,
     903,  843,  843,  849,  801,  799,  748,  729,  705,  660,
     701,  689,  676,  656,  632,  581,  564,  537,  517,  525,
     483,  478,  473,  494,  457,  422,  412,  390,  384,  352,
     350,  323,  322,  308,  304,  275,  272,  256,  246,  265,
     227,  204,  171,  191,  191,  136,  145,  136,  108,  117,
      93,   83,   74,   77,   55,   38,   32,   25,   21,    1
]

>>> lst3
[
    10047, 4198, 3214, 2696, 2369, 2117, 2010, 1869, 1752, 1653,
     1552, 1416, 1405, 1377, 1328, 1293, 1252, 1245, 1121, 1146,
     1047, 1051, 1123, 1100,  951,  948,  967,  933,  939,  925,
      940,  893,  929,  874,  824,  843,  868,  800,  844,  822,
      746,  733,  808,  734,  740,  682,  713,  681,  675,  686,
      689,  730,  707,  677,  645,  661,  645,  651,  649,  672,
      679,  593,  585,  622,  611,  636,  543,  571,  594,  593,
      629,  624,  593,  567,  584,  585,  610,  549,  553,  574,
      547,  583,  582,  553,  536,  512,  498,  562,  536,  523,
      553,  485,  503,  502,  518,  554,  485,  482,  470,  516
]
  

Ожидаемая случайная ошибка — это разница в первых двух:

 [
    78,  79, 101, 111,   3,  12, 147,  31,  30,  21,
    37,  26,   3,  72,  60,  13,  47,  29,  59, 162,
   109,  20,  22, 144,  13,  39,  61,  34, 105,  29,
    70,  61,   8,  27,  45,  58,   6,  41,  26,   9,
     3,  57,   0,  34,   1,   2,  38,  23,   0,  69,
    47,  21,  48,  23,  17,  19,   2,  14,  15,  16,
    28,  15,   8,   9,   7,  28,   7,  15,  20,  20,
    19,  46,  10,   8,  32,   9,  43,   1,  22,  35,
     6,  29,  38,   3,  29,  20,  14,  22,  23,   7,
     3,  11,   6,   4,   1,   7,  11,   2,   3,   2
]
  

Но разница между первым и третьим намного больше, намекая на то, что распределения разные:

 [
    4421,   59,  491,  652,  716,  816,  715,  670,  697,  760,
     707,  763,  711,  685,  633,  534,  502,  498,  598,  607,
     475,  492,  390,  261,  421,  342,  369,  341,  280,  253,
     199,  254,  180,  289,  236,  179,  139,  152,  140,  135,
     160,  167,   35,  149,   62,  119,    3,   71,   30,   43,
      35,   62,   79,   44,   30,   61,   79,  100,  117,  131,
     168,  100,  120,  119,  161,  242,  138,  166,  190,  261,
     260,  255,  261,  251,  312,  301,  295,  292,  329,  344,
     326,  408,  373,  365,  374,  356,  339,  448,  405,  399,
     457,  391,  423,  429,  464,  509,  442,  459,  452,  513
]
  

Комментарии:

1. вызывая random() дважды, вы получаете 2 разных номера. где as random()^2 является квадратным — я не вижу путаницы

2. Вы ответили на свой собственный вопрос: «возводя случайное число в квадрат вместо умножения двух случайных чисел, вы повторно используете случайное число». Как вы думаете, почему «результат должен быть одинаковым»?

3. Это неплохой вопрос, но, возможно, он был бы более актуальным в математике .

4. Упростите это: предположим random() , что возвращается либо 0.0, либо 1.0, и ничего больше, каждую половину времени. Затем pow(random(), 2) вернет 0.0 или 1.0, каждый раз в половине случаев. Но random() * random() будет возвращать 0.0 в 75% случаев и 1.0 в 25% случаев. Распределения сильно отличаются даже в этом очень простом случае. Теперь повторите этот анализ, предполагая random() , что возвращает 0.0, 0.5 или 1.0 равномерно случайным образом. И т.д. Повторяйте, пока не забрезжит свет 😉

5. Я думаю, что это вопрос, который он задает — если X и Y являются однородными случайными величинами на [0,1], почему распределение X ^ 2 отличается от распределения X * Y. После редактирования следует перейти к математике, но я чувствую себя менее комфортно с таким серьезным редактированием

Ответ №1:

Вот несколько графиков:

Все возможности для random() * random() :

2D тепловая карта с наибольшей интенсивностью в правом верхнем углу.

Ось x — это одна случайная величина, увеличивающаяся вправо, а ось y — это другая, увеличивающаяся вверх.

Вы можете видеть, что если значение любого из них низкое, результат будет низким, и оба должны быть высокими, чтобы получить высокий результат.

Когда единственным решающим фактором является одна ось, как в random() ** 2 случае, вы получаете

2D тепловая карта, которая квадратично увеличивается снизу вверх и инвариантна по оси x

В этом случае гораздо больше шансов получить очень темное (большое) значение, так как вся верхняя часть темная, а не только угол.

Когда вы делаете оба линеаризованными, random() * random() сверху:

Линеаризация первого графика
Линеаризация второго графика

Вы видите, что распределения действительно разные.

Код:

 import numpy
import matplotlib
from matplotlib import pyplot
import matplotlib.cm

def make_fig(name, data):
    figure = matplotlib.pyplot.figure()
    print(data.shape)
    figure.set_size_inches(data.shape[1]//100, data.shape[0]//100)

    axes = matplotlib.pyplot.Axes(figure, [0, 0, 1, 1])
    axes.set_axis_off()
    figure.add_axes(axes)

    axes.imshow(data, origin="lower", cmap=matplotlib.cm.Greys, aspect="auto")
    figure.savefig(name, dpi=200)

xs, ys = numpy.mgrid[:1000, :1000]
two_random = xs * ys

make_fig("two_random.png", two_random)

two_random_flat = two_random.flatten()
two_random_flat.sort()
two_random_flat = two_random_flat[::1000]

make_fig("two_random_1D.png", numpy.tile(two_random_flat, (100, 1)))

one_random = xs * xs

make_fig("one_random.png", one_random)

one_random_flat = one_random.flatten()
one_random_flat.sort()
one_random_flat = one_random_flat[::1000]

make_fig("one_random_1D.png", numpy.tile(one_random_flat, (100, 1)))
  

Вы также можете подойти к этому математически. Вероятность получения значения меньше, чем x , с 0 ≤ x ≤ 1 равна

Для random()² :

 √x
  

вероятность того, что случайное значение будет меньше, чем x вероятность того, что random()² < x .

Для random() · random() :

Учитывая, что первая случайная переменная r равна, а вторая равна R , мы можем найти вероятность того, что Rr < x с фиксированным R :

 P(Rr < x)
= P(r < x/R)
= 1 if x > R (and so x/R > 1)
or
= x/R otherwise
  

Итак, мы хотим

 ∫ P(Rr < x) dR from R=0 to R=1

= ∫ 1   dR from R=0 to R=x
  ∫ x/R dR from R=x to R=1

= x(1 - ln R)
  

Как мы видим, √x ≠ x(1 - ln R) .

Эти распределения отображаются как:

Вероятность того, что функция меньше заданного значения

Ось y дает вероятность того, что строка ( random()² или random() · random() ) меньше оси x.

Мы видим, что для random() · random() , вероятность больших чисел значительно меньше.

Функции плотности

Я думаю, самое показательное — это дифференцировать ( ½x ^ -½ и - ln x ) и построить функции плотности вероятности:

Вероятности появления каждого числа

Это показывает вероятность каждого x в относительном выражении. Таким образом, вероятность, которая x велика ( > 0.5 ), примерно в два раза больше для random()² варианта.

Комментарии:

1. Очень хорошее и подробное объяснение. Сколько времени вам потребовалось, чтобы создать этот ответ? (Мне любопытно)

2. @Sirac 1-2 часа. Однако большая часть этого была переучиванием matplotlib (и математикой).

Ответ №2:

Давайте несколько упростим проблему. Подумайте о том, чтобы бросить две кости и умножить результат на бросание одного кубика и возведение его в квадрат. В первом случае у вас есть 1 шанс из 36 выбросить double 1, следовательно, 1 шанс из 36, что произведение равно 1. С другой стороны, второй случай, очевидно, имеет шанс 1 из 6, что квадрат равен 1. То же самое относится и к двойному 6, поэтому экстремумы гораздо более вероятны при возведении в квадрат.

То же самое следует, когда вы используете случайные числа с плавающей запятой: у вас гораздо меньше шансов получить два случайных значения в крайних значениях, чем получить одно значение, поэтому очень маленькие или очень большие значения будут появляться гораздо чаще при возведении в квадрат, чем при умножении двух независимых значений.

Комментарии:

1. Вот почему в середине списка вы видите более похожее распределение. Поскольку random потенциально возвращает ноль, вы также получите искаженные результаты и там — обратите внимание, что в lst3 много нулей.

2. Хорошо, я думаю, что теперь я понял. Мне все еще нужно подумать об этом, но теперь это становится более понятным. Я никогда не думал, что такой простой вопрос так сложно понять.