#python #random #random-sample
#python #Случайный
Вопрос:
Есть ли разница между random() * random()
и random() ** 2
? random()
возвращает значение от 0 до 1 из равномерного распределения.
При тестировании обеих версий случайных квадратных чисел я заметил небольшую разницу. Я создал 100000 случайных квадратных чисел и подсчитал, сколько чисел находится в каждом интервале 0,01 (от 0,00 до 0,01, от 0,01 до 0,02, …). Похоже, что эти версии генерации случайных чисел в квадрате отличаются.
Возведение в квадрат случайного числа вместо умножения двух случайных чисел приводит к повторному использованию случайного числа, но я думаю, что распределение должно оставаться неизменным. Действительно ли есть разница? Если нет, то почему мой тест показывает разницу?
Я генерирую два случайных распределенных распределения для и одно для примерно так random() * random()
random() ** 2
:
from random import random
lst = [0 for i in range(100)]
lst2, lst3 = list(lst), list(lst)
#create two random distributions for random() * random()
for i in range(100000):
lst[int(100 * random() * random())] = 1
for i in range(100000):
lst2[int(100 * random() * random())] = 1
for i in range(100000):
lst3[int(100 * random() ** 2)] = 1
что дает
>>> lst
[
5626, 4139, 3705, 3348, 3085, 2933, 2725, 2539, 2449, 2413,
2259, 2179, 2116, 2062, 1961, 1827, 1754, 1743, 1719, 1753,
1522, 1543, 1513, 1361, 1372, 1290, 1336, 1274, 1219, 1178,
1139, 1147, 1109, 1163, 1060, 1022, 1007, 952, 984, 957,
906, 900, 843, 883, 802, 801, 710, 752, 705, 729,
654, 668, 628, 633, 615, 600, 566, 551, 532, 541,
511, 493, 465, 503, 450, 394, 405, 405, 404, 332,
369, 369, 332, 316, 272, 284, 315, 257, 224, 230,
221, 175, 209, 188, 162, 156, 159, 114, 131, 124,
96, 94, 80, 73, 54, 45, 43, 23, 18, 3
]
>>> lst2
[
5548, 4218, 3604, 3237, 3082, 2921, 2872, 2570, 2479, 2392,
2296, 2205, 2113, 1990, 1901, 1814, 1801, 1714, 1660, 1591,
1631, 1523, 1491, 1505, 1385, 1329, 1275, 1308, 1324, 1207,
1209, 1208, 1117, 1136, 1015, 1080, 1001, 993, 958, 948,
903, 843, 843, 849, 801, 799, 748, 729, 705, 660,
701, 689, 676, 656, 632, 581, 564, 537, 517, 525,
483, 478, 473, 494, 457, 422, 412, 390, 384, 352,
350, 323, 322, 308, 304, 275, 272, 256, 246, 265,
227, 204, 171, 191, 191, 136, 145, 136, 108, 117,
93, 83, 74, 77, 55, 38, 32, 25, 21, 1
]
>>> lst3
[
10047, 4198, 3214, 2696, 2369, 2117, 2010, 1869, 1752, 1653,
1552, 1416, 1405, 1377, 1328, 1293, 1252, 1245, 1121, 1146,
1047, 1051, 1123, 1100, 951, 948, 967, 933, 939, 925,
940, 893, 929, 874, 824, 843, 868, 800, 844, 822,
746, 733, 808, 734, 740, 682, 713, 681, 675, 686,
689, 730, 707, 677, 645, 661, 645, 651, 649, 672,
679, 593, 585, 622, 611, 636, 543, 571, 594, 593,
629, 624, 593, 567, 584, 585, 610, 549, 553, 574,
547, 583, 582, 553, 536, 512, 498, 562, 536, 523,
553, 485, 503, 502, 518, 554, 485, 482, 470, 516
]
Ожидаемая случайная ошибка — это разница в первых двух:
[
78, 79, 101, 111, 3, 12, 147, 31, 30, 21,
37, 26, 3, 72, 60, 13, 47, 29, 59, 162,
109, 20, 22, 144, 13, 39, 61, 34, 105, 29,
70, 61, 8, 27, 45, 58, 6, 41, 26, 9,
3, 57, 0, 34, 1, 2, 38, 23, 0, 69,
47, 21, 48, 23, 17, 19, 2, 14, 15, 16,
28, 15, 8, 9, 7, 28, 7, 15, 20, 20,
19, 46, 10, 8, 32, 9, 43, 1, 22, 35,
6, 29, 38, 3, 29, 20, 14, 22, 23, 7,
3, 11, 6, 4, 1, 7, 11, 2, 3, 2
]
Но разница между первым и третьим намного больше, намекая на то, что распределения разные:
[
4421, 59, 491, 652, 716, 816, 715, 670, 697, 760,
707, 763, 711, 685, 633, 534, 502, 498, 598, 607,
475, 492, 390, 261, 421, 342, 369, 341, 280, 253,
199, 254, 180, 289, 236, 179, 139, 152, 140, 135,
160, 167, 35, 149, 62, 119, 3, 71, 30, 43,
35, 62, 79, 44, 30, 61, 79, 100, 117, 131,
168, 100, 120, 119, 161, 242, 138, 166, 190, 261,
260, 255, 261, 251, 312, 301, 295, 292, 329, 344,
326, 408, 373, 365, 374, 356, 339, 448, 405, 399,
457, 391, 423, 429, 464, 509, 442, 459, 452, 513
]
Комментарии:
1. вызывая
random()
дважды, вы получаете 2 разных номера. где asrandom()^2
является квадратным — я не вижу путаницы2. Вы ответили на свой собственный вопрос: «возводя случайное число в квадрат вместо умножения двух случайных чисел, вы повторно используете случайное число». Как вы думаете, почему «результат должен быть одинаковым»?
3. Это неплохой вопрос, но, возможно, он был бы более актуальным в математике .
4. Упростите это: предположим
random()
, что возвращается либо 0.0, либо 1.0, и ничего больше, каждую половину времени. Затемpow(random(), 2)
вернет 0.0 или 1.0, каждый раз в половине случаев. Ноrandom() * random()
будет возвращать 0.0 в 75% случаев и 1.0 в 25% случаев. Распределения сильно отличаются даже в этом очень простом случае. Теперь повторите этот анализ, предполагаяrandom()
, что возвращает 0.0, 0.5 или 1.0 равномерно случайным образом. И т.д. Повторяйте, пока не забрезжит свет 😉5. Я думаю, что это вопрос, который он задает — если X и Y являются однородными случайными величинами на [0,1], почему распределение X ^ 2 отличается от распределения X * Y. После редактирования следует перейти к математике, но я чувствую себя менее комфортно с таким серьезным редактированием
Ответ №1:
Вот несколько графиков:
Все возможности для random() * random()
:
Ось x — это одна случайная величина, увеличивающаяся вправо, а ось y — это другая, увеличивающаяся вверх.
Вы можете видеть, что если значение любого из них низкое, результат будет низким, и оба должны быть высокими, чтобы получить высокий результат.
Когда единственным решающим фактором является одна ось, как в random() ** 2
случае, вы получаете
В этом случае гораздо больше шансов получить очень темное (большое) значение, так как вся верхняя часть темная, а не только угол.
Когда вы делаете оба линеаризованными, random() * random()
сверху:
Вы видите, что распределения действительно разные.
Код:
import numpy
import matplotlib
from matplotlib import pyplot
import matplotlib.cm
def make_fig(name, data):
figure = matplotlib.pyplot.figure()
print(data.shape)
figure.set_size_inches(data.shape[1]//100, data.shape[0]//100)
axes = matplotlib.pyplot.Axes(figure, [0, 0, 1, 1])
axes.set_axis_off()
figure.add_axes(axes)
axes.imshow(data, origin="lower", cmap=matplotlib.cm.Greys, aspect="auto")
figure.savefig(name, dpi=200)
xs, ys = numpy.mgrid[:1000, :1000]
two_random = xs * ys
make_fig("two_random.png", two_random)
two_random_flat = two_random.flatten()
two_random_flat.sort()
two_random_flat = two_random_flat[::1000]
make_fig("two_random_1D.png", numpy.tile(two_random_flat, (100, 1)))
one_random = xs * xs
make_fig("one_random.png", one_random)
one_random_flat = one_random.flatten()
one_random_flat.sort()
one_random_flat = one_random_flat[::1000]
make_fig("one_random_1D.png", numpy.tile(one_random_flat, (100, 1)))
Вы также можете подойти к этому математически. Вероятность получения значения меньше, чем x
, с 0 ≤ x ≤ 1
равна
Для random()²
:
√x
вероятность того, что случайное значение будет меньше, чем x
вероятность того, что random()² < x
.
Для random() · random()
:
Учитывая, что первая случайная переменная r
равна, а вторая равна R
, мы можем найти вероятность того, что Rr < x
с фиксированным R
:
P(Rr < x)
= P(r < x/R)
= 1 if x > R (and so x/R > 1)
or
= x/R otherwise
Итак, мы хотим
∫ P(Rr < x) dR from R=0 to R=1
= ∫ 1 dR from R=0 to R=x
∫ x/R dR from R=x to R=1
= x(1 - ln R)
Как мы видим, √x ≠ x(1 - ln R)
.
Эти распределения отображаются как:
Ось y дает вероятность того, что строка ( random()²
или random() · random()
) меньше оси x.
Мы видим, что для random() · random()
, вероятность больших чисел значительно меньше.
Функции плотности
Я думаю, самое показательное — это дифференцировать ( ½x ^ -½
и - ln x
) и построить функции плотности вероятности:
Это показывает вероятность каждого x
в относительном выражении. Таким образом, вероятность, которая x
велика ( > 0.5
), примерно в два раза больше для random()²
варианта.
Комментарии:
1. Очень хорошее и подробное объяснение. Сколько времени вам потребовалось, чтобы создать этот ответ? (Мне любопытно)
2. @Sirac 1-2 часа. Однако большая часть этого была переучиванием
matplotlib
(и математикой).
Ответ №2:
Давайте несколько упростим проблему. Подумайте о том, чтобы бросить две кости и умножить результат на бросание одного кубика и возведение его в квадрат. В первом случае у вас есть 1 шанс из 36 выбросить double 1, следовательно, 1 шанс из 36, что произведение равно 1. С другой стороны, второй случай, очевидно, имеет шанс 1 из 6, что квадрат равен 1. То же самое относится и к двойному 6, поэтому экстремумы гораздо более вероятны при возведении в квадрат.
То же самое следует, когда вы используете случайные числа с плавающей запятой: у вас гораздо меньше шансов получить два случайных значения в крайних значениях, чем получить одно значение, поэтому очень маленькие или очень большие значения будут появляться гораздо чаще при возведении в квадрат, чем при умножении двух независимых значений.
Комментарии:
1. Вот почему в середине списка вы видите более похожее распределение. Поскольку random потенциально возвращает ноль, вы также получите искаженные результаты и там — обратите внимание, что в lst3 много нулей.
2. Хорошо, я думаю, что теперь я понял. Мне все еще нужно подумать об этом, но теперь это становится более понятным. Я никогда не думал, что такой простой вопрос так сложно понять.