Пентадекатлон мечты

wrest · 18.04.2026, 13:13

Я посмотрел что даёт расчёт по паттерну [98, 75, 44, 3757, 18, 10051]
А именно: сколько чисел получилось с нужным количеством делителей на каких местах, сколько получилось цепочек с 0..6 valids и т.п.
В результате я вижу, что valids в диапазоне 0..5 в точности соответсвует тому как если бы вероятности иметь нужное количество делителей по местам были независимы. То есть корреляции между местами нет. По мере увеличения количества цепочек вероятности по местам медленно падают, а с ними и valids=0..5, как и должно быть.
Но вот valids=6 ведёт себя совершенно иначе. В начале (на первом десятке тысяч цепочек) реальный valids превышает ожидаемый в 1,86 раза, а по мере накопления, накопленным этот коэффициент падает до 0,9

Вы на это тоже натыкались?

=== Финальная статистика по 300 000 цепочек ===
Частоты: [95719, 89716, 54442, 102771, 73682, 108596]
Вероятности: [0.319, 0.299, 0.181, 0.343, 0.246, 0.362]
Совпадения: [36725, 94226, 97649, 52973, 15796, 2487, 144]
Ожидаемые (незав.): [37087, 93865, 97454, 53030, 15915, 2491, 158]
Ожидаемые valids=0..5 тютелька в тютельку совпадают с реальными. А вот valids=6 ожидается 158 при реальном 144.

А вот статистика на первых десятках тысяч:
Модули: [98, 75, 44, 3757, 18, 10051]
k = 10000
s: [1080, 3036, 3209, 1953, 617, 91, 13]
p: [0.326, 0.318, 0.190, 0.368, 0.252, 0.379]
exp: [1095, 2969, 3298, 1916, 613, 102, 7]
k = 20000
s: [2254, 6024, 6514, 3779, 1210, 197, 21]
p: [0.328, 0.315, 0.188, 0.362, 0.250, 0.374]
exp: [2239, 5996, 6579, 3780, 1196, 197, 13]
k = 30000
s: [3388, 9081, 9822, 5635, 1766, 280, 27]
p: [0.328, 0.310, 0.187, 0.359, 0.252, 0.372]
exp: [3402, 9043, 9854, 5623, 1768, 290, 19]
k = 40000
s: [4546, 12144, 13159, 7426, 2311, 379, 34]
p: [0.329, 0.310, 0.186, 0.356, 0.250, 0.371]
exp: [4579, 12109, 13126, 7451, 2330, 380, 25]
k = 50000
s: [5763, 15239, 16417, 9192, 2882, 471, 35]
p: [0.327, 0.307, 0.186, 0.355, 0.249, 0.370]
exp: [5785, 15207, 16388, 9248, 2876, 466, 31]
k = 60000
s: [6988, 18377, 19672, 10955, 3410, 558, 39]
p: [0.326, 0.306, 0.184, 0.353, 0.248, 0.370]
exp: [7016, 18335, 19641, 11019, 3406, 548, 36]
k = 70000
s: [8172, 21470, 22973, 12727, 3954, 661, 42]
p: [0.326, 0.306, 0.185, 0.352, 0.248, 0.369]
exp: [8214, 21420, 22902, 12826, 3959, 637, 42]
Видно что до 70 тыс. реально находится больше чем ожидается в предположении независимости по местам. На 70 тыс сравнивается и потом уже находится valids=6 меньше ожидаемого.
Выше s это сколько было valids, p вероятность по каждому месту (количество совпавших на этом месте к общему количеству) exp - ожидаемое количество совпавших, по Бернулли в предположении независимости мест.

Yadryara · 18.04.2026, 13:28

wrest в сообщении #1722645 писал(а):

Но вот valids=6 ведёт себя совершенно иначе. В начале (на первом десятке тысяч цепочек) реальный valids превышает ожидаемый в 1,86 раза, а по мере накопления, накопленным этот коэффициент падает до 0,9

Смотря сколько цепочек нашли. Лучше делать вывод по миллионам найденных цепочек. Ежели столько не нашлось — по тысячам, на крайняк хотя бы по сотням.

А вы деталей в достаточном количестве почему-то не сообщили.

wrest в сообщении #1722645 писал(а):

реальный valids превышает ожидаемый в 1,86 раза

И ни слова не сказано ведь, как посчитали ожидаемый и чему он равен.

wrest · 18.04.2026, 13:35

Yadryara в сообщении #1722647 писал(а):

Лучше делать вывод по миллионам найденных цепочек. Ежели столько не нашлось — по тысячам, на крайняк хотя бы по сотням.

Ну это к разговору о том, что искать надо только в нескольких первых цепочках по каждому паттерну, а не миллионами :)

-- 18.04.2026, 13:53 --

Yadryara в сообщении #1722647 писал(а):

А вы деталей в достаточном количестве почему-то не сообщили.

Форматировал долго. Дополнил.

EUgeneUS · 18.04.2026, 13:55

wrest
1.

wrest в сообщении #1722645 писал(а):

что valids...

"valids" - это обозначение в программах Дмитрия, которое обозначает количество совпавших мест в цепочке после фильтрации (например, ускорителями).
Если Вы под "valids" понимаете количество совпавших мест в цепочке без какой-то фильтрации, то лучше бы об этом делать оговорку, прямое указание, чтобы не было недоразумений.

2. Если Вы считаете частоты с итератором "от нуля", то большие искажения вносит асимптотика вероятностей, так как порядок чисел меняется очень сильно в этом случае.
Для уменьшения этого влияния рекомендую выбирать начальное значение "итератора" на порядок (лучше - на два порядка), чем количество цепочек, которые Вы хотите иметь в статистике.
Например, Вы хотите иметь в статистике

10^6

цепочек, тогда выбирайте начальное значение итератора

10^7

, а лучше -

10^8

.

3. Для оценки вероятности, через частотность,
а) для ожидаемых чисел

pq, pqr, pqrs

достаточно тысяч попаданий, или около

10^4 ... 10^5

цепочек в статистике
б) а вот для сбора статистики для ожидаемых простых, тоже нужно тысячи попаданий, но это требует

10^5 ... 10^6

цепочек в статистике. Потому что вероятность попадания в простое в несколько раз меньше.

Если в статистике меньше тысяч попаданий в каждом месте, то будет заметный "расколбас" в значениях.
Подозреваю, что Вы наткнулись именно на это.

wrest · 18.04.2026, 14:07

EUgeneUS в сообщении #1722649 писал(а):

Если Вы под "valids" понимаете количество совпавших мест в цепочке без какой-то фильтрации, то лучше бы об этом делать оговорку, прямое указание, чтобы не было недоразумений.

Да, у вас тут терминология... Это вектор s в

Dmitriy40 в сообщении #1722405 писал(а):

? q=vector(6); s=vector(7); for(k=1,1e5, n=502923550+7214407200*k; q+=(w=[numdiv(n+t)==24|t<-[0..5]]); s[vecsum(w)+1]++; ); print(q); print(s)
[31282, 27147, 9138, 26769, 33966, 26317]
[16094, 35256, 30919, 13856, 3438, 417, 20]
time = 6,490 ms.

Вероятности по местам, это компоненты вектора q поделить на количество просчитанных цепочек.

-- 18.04.2026, 14:13 --

EUgeneUS в сообщении #1722649 писал(а):

Например, Вы хотите иметь в статистике

10^6

цепочек, тогда выбирайте начальное значение итератора

10^7

, а лучше -

10^8

.

Вы же ранее писали что искать надо вблизи n0 (результата КТО) чуть ли не первые десятки :) Но не миллионы :)
Так вот выяснилось что не только вероятности по каждому месту падают (это то понятно), но и вероятность нахождения цепочки целиком падает относительно ожидаемой (с учётом падения вероятностей по местам)
По всей цепочке, ожидаемая вероятность равна произведению вероятностей по местам. А в реальности не равна, а сначала больше почти в два раза, а потом быстро падает до 0.9 от ожидаемой (просчитано до 300 000 цепочек)

EUgeneUS · 18.04.2026, 14:29

wrest в сообщении #1722651 писал(а):

Вы же ранее писали что искать надо вблизи n0 (результата КТО) чуть ли не первые десятки

Так это смотря с какой целью искать :wink:

Если с целью - найти цепочку, то чем ближе, к n0, тем лучше. Там вероятности больше.
А если с целью оценить вероятности через частоты, то лучше бы там, где разные побочные эффекты меньше.

wrest в сообщении #1722651 писал(а):

Так вот выяснилось что не только вероятности по каждому месту падают (это то понятно), но и вероятность нахождения цепочки целиком падает относительно ожидаемой (с учётом падения вероятностей по местам)

Не выяснилось это. На малой статистике это всё можно флуктуациями объяснить.

wrest в сообщении #1722651 писал(а):

(просчитано до 300 000 цепочек)

И сколько цепочек нашлось? Несколько десятков? Это мало. Плюс искажения из-за того, что асимптотика ползет.

wrest · 18.04.2026, 14:42

EUgeneUS в сообщении #1722655 писал(а):

И сколько цепочек нашлось? Несколько десятков? Это мало.

Аномалия только в количестве полных цепочек (все числа имеют нужное количество делителей).
Остальные ожидания (каким должен быть вектор s если известен вектор q) совпалои в полном соответствии с тервером в предположении независимости мест. Всё кроме последнего компонента вектора s, т.е. количества полных цепочек.

Код: [ скачать ] [ спрятать ]

Используется синтаксис Text

=== Финальная статистика по 300 000 цепочек ===

Частоты реальные по местам:[95719, 89716, 54442, 102771, 73682, 108596]

Вероятности по местам:     [0.319, 0.299, 0.181, 0.343,  0.246, 0.362]

Совпадения   реальные:     [36725, 94226, 97649, 52973,  15796, 2487,  144]

Совпадения  ожидаемые:     [37087, 93865, 97454, 53030,  15915, 2491,  158]

Совп. реальные/ожидаемые:  [0.990, 1.003, 1.002, 0.998,  0.992, 0.998, 0.911]

Yadryara · 18.04.2026, 15:16

EUgeneUS в сообщении #1722649 писал(а):

"valids" - это обозначение в программах Дмитрия, которое обозначает количество совпавших мест в цепочке после фильтрации (например, ускорителями).

Чего голову-то морочить? :-)

Уважаемый wrest правильно понимает что такое valids.

wrest в сообщении #1722645 писал(а):

А вот valids=6 ожидается 158 при реальном 144.

Это хорошее совпадение. Вот если бы расчётное значение было 158 тысяч, а нашлись 144 тысячи кортежей, тогда да, стоило бы поискать ошибку.

Об остальном позже.

wrest · 18.04.2026, 15:51

Yadryara
Смотрите, имеем следующее.
Допустим, есть шесть нумерованных равновероятных кубиков о шести гранях.
Мы их кидаем 1 000 000 раз и считаем, сколько раз шестерка выпала на 1-м, 2-м кубиках и так далее.
Получаем, что на каждом она выпадала 166667 раз.
Затем мы спрашиваем: а сколько раз выпало 0,1,2..5 шестерок.
Делаем теоретический расчёт исходя из практических частот (равных 166667) и получаем что должно было бы выпасть шестерок:
ноль 334898
одна 401878
две 200939
три 53584
четыре 8038
пять 643

Затем спрашиваем: а сколько же было на самом деле, и получаем ответ:
ноль 334898
одна 401878
две 200939
три 53584
четыре 8038
пять 643

И наконец, считаем сколько раз теоретически должны были выпасть все шестёрки, получаем 21.
А на самом деле оказывается, что выпало 18.

То есть совпадает всё кроме последнего расчёта. Как так-то?

Dmitriy40 · 18.04.2026, 16:09

wrest в сообщении #1722645 писал(а):

А вот valids=6 ожидается 158 при реальном 144.

Это хорошее совпадение. Для такого малого количества.
Если не ошибаюсь, для оценки можно использовать критерий "вероятность что разброс не превысит корня из числа (1 сигму) составляет 68%". Корень из 158 это 12.57, разброс оказался 14 или 1.114 сигмы, вероятность уложиться в них 73% - вот и уложились.
На 1e6 ожидание 478.7 при реальных 457, разница уменьшилась до 4.7%.
На 3e6 ожидание 1310.5 при реальных 1294, разница уменьшилась до 1.3%.
При дальнейшем увеличении объёма совпадение будет улучшаться дальше.

wrest · 18.04.2026, 16:17

Dmitriy40 в сообщении #1722663 писал(а):

Это хорошее совпадение. Для такого малого количества.

Вы, возможно, не улавливаете мысль. У нас уже есть результаты измерений по всем местам (частоты). Из них, предполагая независимость результатов по каждому месту, мы вычисляем вектор s. А потом сравниваем с измеренным вектором s. И оказывается, что отклонение теории от практики по всем компонентам вектора s менее процента. А по последнему комполненту - 10 процентов.

Dmitriy40 · 18.04.2026, 16:22

wrest в сообщении #1722661 писал(а):

И наконец, считаем сколько раз теоретически должны были выпасть все шестёрки, получаем 21.
А на самом деле оказывается, что выпало 18.

С вероятностью 68% будет получено число

21.43\pm\sqrt{21.43}=21.43\pm4.63

, получили даже немного лучше, в чём проблема.

wrest в сообщении #1722664 писал(а):

Вы, возможно, не улавливаете мысль.

Это Вы не улавливаете что величина q[7] слишком мала чтобы совпадать точнее. Насчитайте 10млн цепочек чтобы ожидаемое значение q[7] стало в тысячах как остальные значения q[] - и будет вам хорошее совпадение. Оно вон уже на 3млн хорошее, менее полутора процентов.
Статистика дело такое, любит большие цифры. ;-)

-- 18.04.2026, 16:26 --

wrest в сообщении #1722664 писал(а):

И оказывается, что отклонение теории от практики по всем компонентам вектора s менее процента. А по последнему комполненту - 10 процентов.

Объём выборки решает! Будет ожидаемое значение q[7]>10000 (впрочем и пары-тройки тысяч видимо хватит) - и будет Вам менее процента разница. А то Вы сравниваете флуктуации для тысяч и десятков тысяч с сотнями и десятками - а вероятности и статистика так не работают.

-- 18.04.2026, 16:27 --

Данные для 1e6:
[314386, 293578, 178111, 337181, 243059, 355307]
[127886, 318802, 323587, 171752, 49932, 7584, 457]
И для 3e6:
[930043, 866905, 526352, 994999, 718725, 1049321]
[398672, 971348, 964028, 500466, 143181, 21011, 1294]

wrest · 18.04.2026, 16:52

Dmitriy40
Хорошо. Но странно, что мы видим не случайные флуктуации, а плавное изменение.

Dmitriy40 · 18.04.2026, 16:56

Это и есть случайная флуктуация.
Вполне возможно что на каком-то другом паттерне будет наоборот.

Случайные флуктуации - это не только про "расколбас", но и что можно получить любое конкретное число в некотором диапазоне (задаваемом вероятностью). В том числе и вот так плавно меняющееся, почему нет.

-- 18.04.2026, 17:04 --

Возьмите не один интервал, а 100 интервалов длиной 1e5 в разных местах числового ряда и посчитайте что будет в них. По идее примерно в половине (35-65) будет меньше ожидаемого, в половине больше. Это и есть случайные флуктуации. А что в конкретном интервале оказалось меньше - так случайности сложились, тем более в интервале от нуля, там вообще много чего странного может быть.

-- 18.04.2026, 17:55 --

wrest
Смотрите какая статистика по фактически и предсказанию, для интервала 1e5 начиная с:

Код: [ скачать ] [ спрятать ]

Используется синтаксис Text

0e5:

[32360, 30335, 18436, 34984, 24779, 36817]

[11856, 30800, 32650, 18175, 5560, 908, 51]

57.759157420576824492705920000000000000

1e5:

[31795, 29888, 17976, 33969, 24376, 35917]

[12368, 31558, 32639, 17498, 5135, 761, 41]

50.803543058025495560030208000000000000

2e5:

[31564, 29493, 18030, 33818, 24527, 35862]

[12501, 31868, 32360, 17300, 5101, 818, 52]

49.926781376694617461299792000000000000

3e5:

[31461, 29230, 17846, 33568, 24358, 35387]

[12868, 31927, 32362, 17046, 4988, 745, 64]

47.484630777179710616244864000000000000

4e5:

[31466, 29258, 17843, 33807, 24459, 35471]

[12913, 31728, 32180, 17346, 5045, 730, 58]

48.180667485174710656425469200000000000

5e5:

[31044, 29420, 17600, 33644, 24217, 35470]

[12777, 32145, 32459, 16988, 4828, 762, 41]

46.453898375558359116288000000000000000

6e5:

[31156, 29071, 17677, 33592, 23990, 35285]

[13033, 32166, 32162, 17060, 4832, 709, 38]

45.526730184538104836894560000000000000

7e5:

[31166, 29171, 17659, 33347, 24277, 35012]

[13151, 31965, 32389, 16878, 4863, 721, 33]

45.505846527890597086064807200000000000

8e5:

[31181, 28866, 17567, 33222, 24113, 35136]

[13105, 32288, 32303, 16811, 4750, 700, 43]

44.504465171905699455719347200000000000

9e5:

[31192, 28846, 17477, 33229, 23963, 34951]

[13314, 32358, 32082, 16650, 4830, 730, 36]

43.763673886840610184575732800000000000

10e5:

[31051, 28936, 17636, 33309, 23903, 34994]

[13284, 32161, 32285, 16755, 4774, 709, 32]

44.149091453234560520667244800000000000

11e5:

[31081, 28659, 17643, 33073, 24168, 34967]

[13317, 32373, 32042, 16745, 4774, 691, 58]

43.923923511889153749646773600000000000

12e5:

[30758, 28779, 17294, 33050, 23743, 35135]

[13437, 32624, 32038, 16356, 4777, 725, 43]

42.206200783215791569856700000000000000

13e5:

[31022, 28885, 17563, 33001, 24038, 34931]

[13340, 32349, 32104, 16732, 4734, 695, 46]

43.609119336582804349967258000000000000

14e5:

[30679, 28713, 17577, 33046, 23712, 34772]

[13521, 32581, 31985, 16493, 4681, 689, 50]

42.187256052523857075978777600000000000

15e5:

[30839, 28794, 17476, 32829, 23755, 34788]

[13492, 32532, 32070, 16594, 4582, 681, 49]

42.100424360262035525072016000000000000

16e5:

[30798, 28685, 17433, 33108, 23898, 35034]

[13312, 32510, 32190, 16600, 4714, 634, 40]

42.690744429293691768898224000000000000

Видите как колбасит то туда, то сюда, натуральные случайные флуктуации. :-)

Yadryara · 18.04.2026, 18:53

wrest в сообщении #1722648 писал(а):

Ну это к разговору о том, что искать надо только в нескольких первых цепочках по каждому паттерну, а не миллионами :)

А я вот чувствую что вам, для обретения уверенности, похоже и правда надо бы ещё более короткие цепочки посмотреть, для них действительно речь может пойти о миллионах находок.

Ну а так выше про якобы "аномалию" очень подробно Дмитрий написал, добавить вроде нечего.

Научный форум dxdy

Пентадекатлон мечты