2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4  След.
 
 Re: Можно ли вычислить " саботажника"
Сообщение01.07.2024, 19:55 
Заслуженный участник
Аватара пользователя


01/09/13
4676
stalvoron в сообщении #1644632 писал(а):
какие то предварительные выводы сделать можно.

48 тестов на 18 генераторов? - нет.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение01.07.2024, 23:44 


17/10/16
4911
stalvoron
Тут тоже полезно посмотреть, а что можно ожидать от такого одиночного эксперимента?
Представим, что испытание 18 генераторов 48 раз подряд - это один опыт. Он дает нам некоторую плотность вероятности, которая колеблется от опыта к опыту. Проведем этот опыт тысячи раз и посмотрим, как рассеяны полученные кривые плотности вероятности:
Изображение
Отсюда, например, видно, что в таком опыте (48 испытаний 18 генераторов) самое вероятное количество выпадения суммы 6 - это 9 раз. Но и 7 и 11 раз тоже очень вероятно. А вот чтобы два раза в этом опыте выпала сумма 2 - это очень маловероятно.
Аналогично и количества других сумм имеют вероятностный разброс. Можно прикинуть, какова вероятность того, что точки полученной на опыте кривой принадлежат "правильному" распределению.

У вас какая-то странная кривая. Может еще быть так, что генераторы не независимы. Скажем, одни повторяют поведение других или как-то иначе взаимосвязаны и синхронизированы. Каждый из них в отдельности работает совершенно правильно, но из-за взаимной зависимости, когда они вместе влияют друг на друга, общая сумма может вести себя довольно странно.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение02.07.2024, 11:30 
Аватара пользователя


11/12/16
14035
уездный город Н
sergey zhukov в сообщении #1644642 писал(а):
У вас какая-то странная кривая. Может еще быть так, что генераторы не независимы. Скажем, одни повторяют поведение других или как-то иначе взаимосвязаны и синхронизированы.


Если Вам не лень, то примените к данным ТС какой-нибудь статистический критерий, специально предназначенный для таких случаев.
Критерий хи-квадрат, он же критерий Пирсона, вполне подойдет.
А гадание по форме кривой - это даже не нумерология, это апофения.

-- 02.07.2024, 12:25 --

Покрутил данные ТС в екселе.
У меня, почему-то получилось не 48, а 44 измерения. Может какие-то округления роль сыграли.
По критерию хи-квадрат вероятность, что выборка имеет ожидаемое биномиальное распределение $B(18, 1/3)$ крайне мала и равна около $8 \cdot 10^{-29}$
Разбиение, которое требуется в критерии хи-квадрат, "естественное" - по натуральным числам от $0$ до $18$

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение02.07.2024, 20:55 


17/03/20
272
sergey zhukov в сообщении #1644642 писал(а):
У вас какая-то странная кривая. Может еще быть так, что генераторы не независимы. Скажем, одни повторяют поведение других или как-то иначе взаимосвязаны и синхронизированы. Каждый из них в отдельности работает совершенно правильно, но из-за взаимной зависимости, когда они вместе влияют друг на друга, общая сумма может вести себя довольно странно.
. Ну насчёт странности, как говорится, что вижу то и пою. А насчёт связанности генераторов м взаимовлияния точно - нет. Дело в том, что я заношу данные в таблицу экселя на предмет определения среднеарифметического показателя и хорошо вижу на графике, что во первых, в начале был резкий " провал", потом пошёл относительно плавный рост . Провал инициировал у меня вопрос по "саботажниками" , но теперь мне больше интересует какая же в конце концов выйдет вероятность выдачи успехов. У меня есть подозрение, что вероятность не будет соответствовать заявленной поставщиком генераторов. Для этого надо, что бы процесс стал стабильным более менее, а для этого надо ещё набирать статистику. Действительно очень большой разброс . Сейчас после "роста ", более менее начинает выравниваться показания суммы от сессии к сессии. Уважаемый Geen подсказал, что количество имеющихся испытаний, это ни о чём. Я продолжаю .
EUgeneUS в сообщении #1644682 писал(а):
У меня, почему-то получилось не 48, а 44 измерения.
. Вы безусловно правы , я чуток накосорезил. Я с экселем как микроскопом гвозди, выбирал вручную, ну и зрение подвело, не досчитал количество некоторых позиций. Сорри. В принципе кардинально график не поменялся, но за поправку спасибо.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение02.07.2024, 21:06 
Аватара пользователя


11/12/16
14035
уездный город Н
stalvoron в сообщении #1644779 писал(а):
Уважаемый Geen подсказал, что количество имеющихся испытаний, это ни о чём.


критерий хи-квадрат (если нигде не накосячил в его применении в екселе) говорит, что достаточно для того, чтобы сделать вывод, что Ваша выборка с ооочень малой вероятностью может быть получена при теоретическом распределении.

На таком размере выборок бывает (делал выч. эксперименты), что некоторые выборки полученные "честным" способом, критерий хи-квадрат считает сомнительными. Но не настолько сильно.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 02:05 


03/07/24

8
По теме - вряд ли, т.к. сумма достаточно большого числа генераторов (допустим 19 штук) даст номальное распределение, у которого можно вычислить только средние и дисперсию. Если среднее допустим будет 1/3, то дисперсия может быть любая, ничего о генераторах сказать нельзя
sergey zhukov в сообщении #1644406 писал(а):
Например, если первая половина генераторов работает с вероятностью $p$, а вторая - с вероятностью $q$, то сумма каждой половины подчиняется своему индивидуальному биномиальному распределению, а распределение суммы этих сумм (то, что мы имеем) - это некоторая свертка этих двух распределений. Это уже не биномиальное распределение.

При достаточно большом числе генераторов там будет нормальное распределение во всех случаях :-)

-- 03.07.2024, 05:07 --

EUgeneUS в сообщении #1644682 писал(а):
А гадание по форме кривой - это даже не нумерология, это апофения.

Смешно. Тем более при желании можно что угодно назвать апофенией, бессодержательный манипулятивный термин без определения :P

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 08:15 
Аватара пользователя


11/12/16
14035
уездный город Н
DimitriyMozer

У Вас очень приблизительные знания по теме.

DimitriyMozer в сообщении #1644811 писал(а):
По теме - вряд ли, т.к. сумма достаточно большого числа генераторов (допустим 19 штук) даст номальное распределение, у которого можно вычислить только средние и дисперсию.

1. Не "даст нормальное распределение". Там всегда, при любом количестве генераторов будет биномиальное распределение. Но да, предел биномиального распределения при $n \to \infty$ - нормальное распределение.

2. Среднее у распределения вычислить нельзя. Его просто нет у распределения. У распределения есть математическое ожидание. А среднее - это статистика посчитанная по выборке.
И наоборот, дисперсия - это параметр распределения, а у выборки нет дисперсии. Есть смещенная или несмещенная оценка дисперсии.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 10:54 


17/10/16
4911
EUgeneUS в сообщении #1644682 писал(а):
У меня, почему-то получилось не 48, а 44 измерения

Да, там что-то не сходится. Сумма всех вероятностей на гистограмме не равна 1. Если предположить, что просто не на ту сумму экспериментов поделили, и найти ближайшую подходящую, то получим 44 эксперимента. Только при этом количество каждой суммы окажется дробным. Я бы сказал, что было 47 экспериментов, и при этом данные трех из них забыли нанести на график. Это дает хорошее совпадение.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 11:48 
Аватара пользователя


11/12/16
14035
уездный город Н
stalvoron
Покрутил ещё немного.
Оказалось, что основная проблема, из-за которой реальная выборка оказывается практически невероятной (при теоретическом распределении) - это значение 2 в нуле.
Если эту двойку "перекинуть" в более вероятную позицию, где не хватает, то хи-квадрат тест дает уже не $10^{-25}$, а десятые доли процента.

Вторая проблема - это большие "осцилляции", перепады в плюс или минус от ожидаемого значения.

Вы можете сделать еще один опыт, например, из 50 измерений, и выложить его тут? Никакой предобработки делать не надо.
Просто таблица - значения, получившеся в каждом из 50 измерений.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 13:04 


17/10/16
4911
Можно вычислить вероятность получения такого распределения и сравнить ее с вероятностью получения самого вероятного распределения. Т.к. данные тут немного противоречивые, то добавим три измерения в самые главные провалы (на места 3, 5 и 8) чтобы распределение точно стало более вероятным, и примем 47 испытаний.

Распределение вероятностей разных сумм для 18 генераторов в одном испытании легко посчитать. В нашем случае выпадало 11 разных сумм, некоторые несколько раз. Нетрудно посчитать число размещений с повторениями для 47 элементов 11 разных типов, и умножить его на произведение вероятностей этих 47 элементов, которые мы вычислили ранее. Получим вероятность получения этого распределения в опыте с 18 генераторами при 47 экспериментах: $6,88*10^{-17}$.

Тем же способом подсчитаем вероятность получения самой вероятной комбинации, в которой число выпадения каждой суммы просто пропорционально ее вероятности. Это будет $0,00579$. Отношение этих вероятностей $~8*10^{13}$, т.е. полученная комбинация в $~10^{13}$ раз менее вероятна, чем самая вероятная.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 13:36 
Аватара пользователя


11/12/16
14035
уездный город Н
sergey zhukov
Это все изобретение велосипедов.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 18:41 


17/03/20
272
EUgeneUS в сообщении #1644878 писал(а):
Оказалось, что основная проблема, из-за которой реальная выборка оказывается практически невероятной (при теоретическом распределении) - это значение 2 в нуле.
. Есть ещё более невероятное , как раз ноль, ещё один, я и пропустил, их 3 ноля было и ещё "8-ку" и "9- ку" пропустил. Там в таблице 47 позиций было.
EUgeneUS в сообщении #1644878 писал(а):
Вы можете сделать еще один опыт, например, из 50 измерений, и выложить его тут?
. Если Вы имеете ввиду, что бы было 50 позиций, с предыдущими ,то завтра. А если ещё 50, то, то же смогу (если форс- мажор не нарисуется), но надо будет подождать. Ускорить не могу, у меня режим, от меня не зависит, увы.
sergey zhukov в сообщении #1644897 писал(а):
то добавим три измерения в самые главные провалы (на места 3, 5 и 8
Вообще-то, я "прозевал" "0","8", "9". Я исправил.Вот как было на самом делеИзображение

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 19:05 
Аватара пользователя


11/12/16
14035
уездный город Н
stalvoron в сообщении #1644979 писал(а):
А если ещё 50, то, то же смогу (если форс- мажор не нарисуется), но надо будет подождать. Ускорить не могу, у меня режим, от меня не зависит, увы.


Новые. Как сделаете, так сделаете.
Только просьба - не надо приводить к частотам.
1. Либо сырую таблицу:
Испытание 1 - 0 генераторов
Испытание 2 - 6 генераторов
....
Испытание 50 - 11 генераторов

2. Либо с группировкой по исходам:

0 генераторов - 0 раз
1 генератор - 3 раза
...
6 генераторов - 11 раз
...
18 генераторов - 0 раз.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 19:29 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1644878 писал(а):
Оказалось, что основная проблема, из-за которой реальная выборка оказывается практически невероятной (при теоретическом распределении) - это значение 2 в нуле.

Вы что-то не то считаете...
Используется синтаксис Python
n=18;m=48;k=1000;res=[[] for _ in range(n+1)];len([[res[_[0]].append(_[1]) for _ in histf(sum(random()<1/3 for i in range(18)) for i in range(48))] for _ in range(k)]);len([print(i,histf(_)) for i,_ in enumerate(res)])

(histf возвращает "частоту встречаемости элементов массива")
Результат:
код: [ скачать ] [ спрятать ]
Используется синтаксис Text
0 [[1, 27], [2, 2]]
1 [[1, 198], [2, 36], [3, 2]]
2 [[1, 374], [2, 228], [3, 89], [4, 30], [5, 7], [6, 2]]
3 [[1, 123], [2, 211], [3, 226], [4, 180], [5, 127], [6, 57], [7, 27], [8, 8], [9, 6], [10, 2]]
4 [[1, 9], [2, 26], [3, 60], [4, 117], [5, 165], [6, 179], [7, 162], [8, 120], [9, 77], [10, 41], [11, 30], [12, 10], [13, 3], [14, 1]]
5 [[1, 2], [2, 9], [3, 17], [4, 30], [5, 54], [6, 116], [7, 96], [8, 156], [9, 129], [10, 123], [11, 100], [12, 74], [13, 47], [14, 22], [15, 16], [16, 5], [17, 1], [18, 3]]
6 [[3, 8], [4, 20], [5, 37], [6, 80], [7, 115], [8, 133], [9, 152], [10, 121], [11, 115], [12, 86], [13, 59], [14, 38], [15, 21], [16, 6], [17, 5], [18, 2], [19, 2]]
7 [[2, 10], [3, 22], [4, 53], [5, 103], [6, 113], [7, 138], [8, 148], [9, 142], [10, 95], [11, 76], [12, 47], [13, 33], [14, 8], [15, 7], [16, 4], [18, 1]]
8 [[1, 19], [2, 53], [3, 102], [4, 158], [5, 166], [6, 169], [7, 131], [8, 92], [9, 51], [10, 33], [11, 16], [12, 4], [13, 1], [14, 1]]
9 [[1, 150], [2, 213], [3, 218], [4, 179], [5, 101], [6, 64], [7, 22], [8, 8], [9, 3]]
10 [[1, 332], [2, 235], [3, 117], [4, 37], [5, 17]]
11 [[1, 322], [2, 66], [3, 11], [4, 2]]
12 [[1, 108], [2, 12]]
13 [[1, 32]]
14 [[1, 3]]
15 [[1, 1]]
16 []
17 []
18 []
 

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 16:10 


17/03/20
272
в слабой попытке более менее освоиться. и пока набирается статистика прошу немножечко ликбеза. Подскажите правильно ли я посчитал для $n=18$, по аналогии для $n=3$, (если я правильно понял, что $P_{n}(1)=P (X(1)_{1}X(1)_{2}...X(1)_{n})$ ), для $n=18$ , будет равно $p=( \frac 1 3) 
^{18}=\frac 1 {387420489}$ . Значит ли это, что для выпадения одновременного 18 " бинго" при ожидании "успеха" от одного генератора, $ \frac 1 3$, вероятно понадобится порядка 387 миллионов сессий?, а для одновременного выпадения 18 "зерpо"- при $ P_{i}(0)={\frac 2 3}^{18}$ понадобится порядка 1580 сессий?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 55 ]  На страницу Пред.  1, 2, 3, 4  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group