2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 302, 303, 304, 305, 306
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 13:13 
Я посмотрел что даёт расчёт по паттерну [98, 75, 44, 3757, 18, 10051]
А именно: сколько чисел получилось с нужным количеством делителей на каких местах, сколько получилось цепочек с 0..6 valids и т.п.
В результате я вижу, что valids в диапазоне 0..5 в точности соответсвует тому как если бы вероятности иметь нужное количество делителей по местам были независимы. То есть корреляции между местами нет. По мере увеличения количества цепочек вероятности по местам медленно падают, а с ними и valids=0..5, как и должно быть.
Но вот valids=6 ведёт себя совершенно иначе. В начале (на первом десятке тысяч цепочек) реальный valids превышает ожидаемый в 1,86 раза, а по мере накопления, накопленным этот коэффициент падает до 0,9

Вы на это тоже натыкались?

=== Финальная статистика по 300 000 цепочек ===
Частоты: [95719, 89716, 54442, 102771, 73682, 108596]
Вероятности: [0.319, 0.299, 0.181, 0.343, 0.246, 0.362]
Совпадения: [36725, 94226, 97649, 52973, 15796, 2487, 144]
Ожидаемые (незав.): [37087, 93865, 97454, 53030, 15915, 2491, 158]

Ожидаемые valids=0..5 тютелька в тютельку совпадают с реальными. А вот valids=6 ожидается 158 при реальном 144.

А вот статистика на первых десятках тысяч:
Модули: [98, 75, 44, 3757, 18, 10051]
k = 10000
s: [1080, 3036, 3209, 1953, 617, 91, 13]
p: [0.326, 0.318, 0.190, 0.368, 0.252, 0.379]
exp: [1095, 2969, 3298, 1916, 613, 102, 7]
k = 20000
s: [2254, 6024, 6514, 3779, 1210, 197, 21]
p: [0.328, 0.315, 0.188, 0.362, 0.250, 0.374]
exp: [2239, 5996, 6579, 3780, 1196, 197, 13]
k = 30000
s: [3388, 9081, 9822, 5635, 1766, 280, 27]
p: [0.328, 0.310, 0.187, 0.359, 0.252, 0.372]
exp: [3402, 9043, 9854, 5623, 1768, 290, 19]
k = 40000
s: [4546, 12144, 13159, 7426, 2311, 379, 34]
p: [0.329, 0.310, 0.186, 0.356, 0.250, 0.371]
exp: [4579, 12109, 13126, 7451, 2330, 380, 25]
k = 50000
s: [5763, 15239, 16417, 9192, 2882, 471, 35]
p: [0.327, 0.307, 0.186, 0.355, 0.249, 0.370]
exp: [5785, 15207, 16388, 9248, 2876, 466, 31]
k = 60000
s: [6988, 18377, 19672, 10955, 3410, 558, 39]
p: [0.326, 0.306, 0.184, 0.353, 0.248, 0.370]
exp: [7016, 18335, 19641, 11019, 3406, 548, 36]
k = 70000
s: [8172, 21470, 22973, 12727, 3954, 661, 42]
p: [0.326, 0.306, 0.185, 0.352, 0.248, 0.369]
exp: [8214, 21420, 22902, 12826, 3959, 637, 42]

Видно что до 70 тыс. реально находится больше чем ожидается в предположении независимости по местам. На 70 тыс сравнивается и потом уже находится valids=6 меньше ожидаемого.
Выше s это сколько было valids, p вероятность по каждому месту (количество совпавших на этом месте к общему количеству) exp - ожидаемое количество совпавших, по Бернулли в предположении независимости мест.

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 13:28 
Аватара пользователя
wrest в сообщении #1722645 писал(а):
Но вот valids=6 ведёт себя совершенно иначе. В начале (на первом десятке тысяч цепочек) реальный valids превышает ожидаемый в 1,86 раза, а по мере накопления, накопленным этот коэффициент падает до 0,9

Смотря сколько цепочек нашли. Лучше делать вывод по миллионам найденных цепочек. Ежели столько не нашлось — по тысячам, на крайняк хотя бы по сотням.

А вы деталей в достаточном количестве почему-то не сообщили.

wrest в сообщении #1722645 писал(а):
реальный valids превышает ожидаемый в 1,86 раза

И ни слова не сказано ведь, как посчитали ожидаемый и чему он равен.

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 13:35 
Yadryara в сообщении #1722647 писал(а):
Лучше делать вывод по миллионам найденных цепочек. Ежели столько не нашлось — по тысячам, на крайняк хотя бы по сотням.

Ну это к разговору о том, что искать надо только в нескольких первых цепочках по каждому паттерну, а не миллионами :)

-- 18.04.2026, 13:53 --

Yadryara в сообщении #1722647 писал(а):
А вы деталей в достаточном количестве почему-то не сообщили.

Форматировал долго. Дополнил.

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 13:55 
Аватара пользователя
wrest
1.
wrest в сообщении #1722645 писал(а):
что valids...


"valids" - это обозначение в программах Дмитрия, которое обозначает количество совпавших мест в цепочке после фильтрации (например, ускорителями).
Если Вы под "valids" понимаете количество совпавших мест в цепочке без какой-то фильтрации, то лучше бы об этом делать оговорку, прямое указание, чтобы не было недоразумений.

2. Если Вы считаете частоты с итератором "от нуля", то большие искажения вносит асимптотика вероятностей, так как порядок чисел меняется очень сильно в этом случае.
Для уменьшения этого влияния рекомендую выбирать начальное значение "итератора" на порядок (лучше - на два порядка), чем количество цепочек, которые Вы хотите иметь в статистике.
Например, Вы хотите иметь в статистике $10^6$ цепочек, тогда выбирайте начальное значение итератора $10^7$, а лучше - $10^8$.

3. Для оценки вероятности, через частотность,
а) для ожидаемых чисел $pq, pqr, pqrs$ достаточно тысяч попаданий, или около $10^4 ... 10^5$ цепочек в статистике
б) а вот для сбора статистики для ожидаемых простых, тоже нужно тысячи попаданий, но это требует $10^5 ... 10^6$ цепочек в статистике. Потому что вероятность попадания в простое в несколько раз меньше.

Если в статистике меньше тысяч попаданий в каждом месте, то будет заметный "расколбас" в значениях.
Подозреваю, что Вы наткнулись именно на это.

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 14:07 
EUgeneUS в сообщении #1722649 писал(а):
Если Вы под "valids" понимаете количество совпавших мест в цепочке без какой-то фильтрации, то лучше бы об этом делать оговорку, прямое указание, чтобы не было недоразумений.

Да, у вас тут терминология... Это вектор s в
Dmitriy40 в сообщении #1722405 писал(а):
? q=vector(6); s=vector(7); for(k=1,1e5, n=502923550+7214407200*k; q+=(w=[numdiv(n+t)==24|t<-[0..5]]); s[vecsum(w)+1]++; ); print(q); print(s)
[31282, 27147, 9138, 26769, 33966, 26317]
[16094, 35256, 30919, 13856, 3438, 417, 20]
time = 6,490 ms.

Вероятности по местам, это компоненты вектора q поделить на количество просчитанных цепочек.

-- 18.04.2026, 14:13 --

EUgeneUS в сообщении #1722649 писал(а):
Например, Вы хотите иметь в статистике $10^6$ цепочек, тогда выбирайте начальное значение итератора $10^7$, а лучше - $10^8$.

Вы же ранее писали что искать надо вблизи n0 (результата КТО) чуть ли не первые десятки :) Но не миллионы :)
Так вот выяснилось что не только вероятности по каждому месту падают (это то понятно), но и вероятность нахождения цепочки целиком падает относительно ожидаемой (с учётом падения вероятностей по местам)
По всей цепочке, ожидаемая вероятность равна произведению вероятностей по местам. А в реальности не равна, а сначала больше почти в два раза, а потом быстро падает до 0.9 от ожидаемой (просчитано до 300 000 цепочек)

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 14:29 
Аватара пользователя
wrest в сообщении #1722651 писал(а):
Вы же ранее писали что искать надо вблизи n0 (результата КТО) чуть ли не первые десятки


Так это смотря с какой целью искать :wink:
Если с целью - найти цепочку, то чем ближе, к n0, тем лучше. Там вероятности больше.
А если с целью оценить вероятности через частоты, то лучше бы там, где разные побочные эффекты меньше.

wrest в сообщении #1722651 писал(а):
Так вот выяснилось что не только вероятности по каждому месту падают (это то понятно), но и вероятность нахождения цепочки целиком падает относительно ожидаемой (с учётом падения вероятностей по местам)


Не выяснилось это. На малой статистике это всё можно флуктуациями объяснить.

wrest в сообщении #1722651 писал(а):
(просчитано до 300 000 цепочек)


И сколько цепочек нашлось? Несколько десятков? Это мало. Плюс искажения из-за того, что асимптотика ползет.

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 14:42 
EUgeneUS в сообщении #1722655 писал(а):
И сколько цепочек нашлось? Несколько десятков? Это мало.

Аномалия только в количестве полных цепочек (все числа имеют нужное количество делителей).
Остальные ожидания (каким должен быть вектор s если известен вектор q) совпалои в полном соответствии с тервером в предположении независимости мест. Всё кроме последнего компонента вектора s, т.е. количества полных цепочек.

Используется синтаксис Text
=== Финальная статистика по 300 000 цепочек ===
Частоты по местам:       [95719, 89716, 54442, 102771, 73682, 108596]
Вероятности по местам:   [0.319, 0.299, 0.181, 0.343,  0.246, 0.362]
Совпадения   реальные:   [36725, 94226, 97649, 52973,  15796, 2487, 144]
Совпадения ожидаемые:    [37087, 93865, 97454, 53030,  15915, 2491, 158]
Совп. реальные/ожидаемые:[0.990, 1.003, 1.002, 0.998,  0.992, 0.998, 0.911]

 
 
 
 Re: Пентадекатлон мечты
Сообщение18.04.2026, 15:16 
Аватара пользователя
EUgeneUS в сообщении #1722649 писал(а):
"valids" - это обозначение в программах Дмитрия, которое обозначает количество совпавших мест в цепочке после фильтрации (например, ускорителями).

Чего голову-то морочить? :-) Уважаемый wrest правильно понимает что такое valids.

wrest в сообщении #1722645 писал(а):
А вот valids=6 ожидается 158 при реальном 144.

Это хорошее совпадение. Вот если бы расчётное значение было 158 тысяч, а нашлись 144 тысячи кортежей, тогда да, стоило бы поискать ошибку.

Об остальном позже.

 
 
 [ Сообщений: 4583 ]  На страницу Пред.  1 ... 302, 303, 304, 305, 306


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group