2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4  След.
 
 Re: Можно ли вычислить " саботажника"
Сообщение01.07.2024, 19:55 
Заслуженный участник
Аватара пользователя


01/09/13
4656
stalvoron в сообщении #1644632 писал(а):
какие то предварительные выводы сделать можно.

48 тестов на 18 генераторов? - нет.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение01.07.2024, 23:44 


17/10/16
4759
stalvoron
Тут тоже полезно посмотреть, а что можно ожидать от такого одиночного эксперимента?
Представим, что испытание 18 генераторов 48 раз подряд - это один опыт. Он дает нам некоторую плотность вероятности, которая колеблется от опыта к опыту. Проведем этот опыт тысячи раз и посмотрим, как рассеяны полученные кривые плотности вероятности:
Изображение
Отсюда, например, видно, что в таком опыте (48 испытаний 18 генераторов) самое вероятное количество выпадения суммы 6 - это 9 раз. Но и 7 и 11 раз тоже очень вероятно. А вот чтобы два раза в этом опыте выпала сумма 2 - это очень маловероятно.
Аналогично и количества других сумм имеют вероятностный разброс. Можно прикинуть, какова вероятность того, что точки полученной на опыте кривой принадлежат "правильному" распределению.

У вас какая-то странная кривая. Может еще быть так, что генераторы не независимы. Скажем, одни повторяют поведение других или как-то иначе взаимосвязаны и синхронизированы. Каждый из них в отдельности работает совершенно правильно, но из-за взаимной зависимости, когда они вместе влияют друг на друга, общая сумма может вести себя довольно странно.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение02.07.2024, 11:30 
Аватара пользователя


11/12/16
13812
уездный город Н
sergey zhukov в сообщении #1644642 писал(а):
У вас какая-то странная кривая. Может еще быть так, что генераторы не независимы. Скажем, одни повторяют поведение других или как-то иначе взаимосвязаны и синхронизированы.


Если Вам не лень, то примените к данным ТС какой-нибудь статистический критерий, специально предназначенный для таких случаев.
Критерий хи-квадрат, он же критерий Пирсона, вполне подойдет.
А гадание по форме кривой - это даже не нумерология, это апофения.

-- 02.07.2024, 12:25 --

Покрутил данные ТС в екселе.
У меня, почему-то получилось не 48, а 44 измерения. Может какие-то округления роль сыграли.
По критерию хи-квадрат вероятность, что выборка имеет ожидаемое биномиальное распределение $B(18, 1/3)$ крайне мала и равна около $8 \cdot 10^{-29}$
Разбиение, которое требуется в критерии хи-квадрат, "естественное" - по натуральным числам от $0$ до $18$

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение02.07.2024, 20:55 


17/03/20
256
sergey zhukov в сообщении #1644642 писал(а):
У вас какая-то странная кривая. Может еще быть так, что генераторы не независимы. Скажем, одни повторяют поведение других или как-то иначе взаимосвязаны и синхронизированы. Каждый из них в отдельности работает совершенно правильно, но из-за взаимной зависимости, когда они вместе влияют друг на друга, общая сумма может вести себя довольно странно.
. Ну насчёт странности, как говорится, что вижу то и пою. А насчёт связанности генераторов м взаимовлияния точно - нет. Дело в том, что я заношу данные в таблицу экселя на предмет определения среднеарифметического показателя и хорошо вижу на графике, что во первых, в начале был резкий " провал", потом пошёл относительно плавный рост . Провал инициировал у меня вопрос по "саботажниками" , но теперь мне больше интересует какая же в конце концов выйдет вероятность выдачи успехов. У меня есть подозрение, что вероятность не будет соответствовать заявленной поставщиком генераторов. Для этого надо, что бы процесс стал стабильным более менее, а для этого надо ещё набирать статистику. Действительно очень большой разброс . Сейчас после "роста ", более менее начинает выравниваться показания суммы от сессии к сессии. Уважаемый Geen подсказал, что количество имеющихся испытаний, это ни о чём. Я продолжаю .
EUgeneUS в сообщении #1644682 писал(а):
У меня, почему-то получилось не 48, а 44 измерения.
. Вы безусловно правы , я чуток накосорезил. Я с экселем как микроскопом гвозди, выбирал вручную, ну и зрение подвело, не досчитал количество некоторых позиций. Сорри. В принципе кардинально график не поменялся, но за поправку спасибо.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение02.07.2024, 21:06 
Аватара пользователя


11/12/16
13812
уездный город Н
stalvoron в сообщении #1644779 писал(а):
Уважаемый Geen подсказал, что количество имеющихся испытаний, это ни о чём.


критерий хи-квадрат (если нигде не накосячил в его применении в екселе) говорит, что достаточно для того, чтобы сделать вывод, что Ваша выборка с ооочень малой вероятностью может быть получена при теоретическом распределении.

На таком размере выборок бывает (делал выч. эксперименты), что некоторые выборки полученные "честным" способом, критерий хи-квадрат считает сомнительными. Но не настолько сильно.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 02:05 


03/07/24

8
По теме - вряд ли, т.к. сумма достаточно большого числа генераторов (допустим 19 штук) даст номальное распределение, у которого можно вычислить только средние и дисперсию. Если среднее допустим будет 1/3, то дисперсия может быть любая, ничего о генераторах сказать нельзя
sergey zhukov в сообщении #1644406 писал(а):
Например, если первая половина генераторов работает с вероятностью $p$, а вторая - с вероятностью $q$, то сумма каждой половины подчиняется своему индивидуальному биномиальному распределению, а распределение суммы этих сумм (то, что мы имеем) - это некоторая свертка этих двух распределений. Это уже не биномиальное распределение.

При достаточно большом числе генераторов там будет нормальное распределение во всех случаях :-)

-- 03.07.2024, 05:07 --

EUgeneUS в сообщении #1644682 писал(а):
А гадание по форме кривой - это даже не нумерология, это апофения.

Смешно. Тем более при желании можно что угодно назвать апофенией, бессодержательный манипулятивный термин без определения :P

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 08:15 
Аватара пользователя


11/12/16
13812
уездный город Н
DimitriyMozer

У Вас очень приблизительные знания по теме.

DimitriyMozer в сообщении #1644811 писал(а):
По теме - вряд ли, т.к. сумма достаточно большого числа генераторов (допустим 19 штук) даст номальное распределение, у которого можно вычислить только средние и дисперсию.

1. Не "даст нормальное распределение". Там всегда, при любом количестве генераторов будет биномиальное распределение. Но да, предел биномиального распределения при $n \to \infty$ - нормальное распределение.

2. Среднее у распределения вычислить нельзя. Его просто нет у распределения. У распределения есть математическое ожидание. А среднее - это статистика посчитанная по выборке.
И наоборот, дисперсия - это параметр распределения, а у выборки нет дисперсии. Есть смещенная или несмещенная оценка дисперсии.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 10:54 


17/10/16
4759
EUgeneUS в сообщении #1644682 писал(а):
У меня, почему-то получилось не 48, а 44 измерения

Да, там что-то не сходится. Сумма всех вероятностей на гистограмме не равна 1. Если предположить, что просто не на ту сумму экспериментов поделили, и найти ближайшую подходящую, то получим 44 эксперимента. Только при этом количество каждой суммы окажется дробным. Я бы сказал, что было 47 экспериментов, и при этом данные трех из них забыли нанести на график. Это дает хорошее совпадение.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 11:48 
Аватара пользователя


11/12/16
13812
уездный город Н
stalvoron
Покрутил ещё немного.
Оказалось, что основная проблема, из-за которой реальная выборка оказывается практически невероятной (при теоретическом распределении) - это значение 2 в нуле.
Если эту двойку "перекинуть" в более вероятную позицию, где не хватает, то хи-квадрат тест дает уже не $10^{-25}$, а десятые доли процента.

Вторая проблема - это большие "осцилляции", перепады в плюс или минус от ожидаемого значения.

Вы можете сделать еще один опыт, например, из 50 измерений, и выложить его тут? Никакой предобработки делать не надо.
Просто таблица - значения, получившеся в каждом из 50 измерений.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 13:04 


17/10/16
4759
Можно вычислить вероятность получения такого распределения и сравнить ее с вероятностью получения самого вероятного распределения. Т.к. данные тут немного противоречивые, то добавим три измерения в самые главные провалы (на места 3, 5 и 8) чтобы распределение точно стало более вероятным, и примем 47 испытаний.

Распределение вероятностей разных сумм для 18 генераторов в одном испытании легко посчитать. В нашем случае выпадало 11 разных сумм, некоторые несколько раз. Нетрудно посчитать число размещений с повторениями для 47 элементов 11 разных типов, и умножить его на произведение вероятностей этих 47 элементов, которые мы вычислили ранее. Получим вероятность получения этого распределения в опыте с 18 генераторами при 47 экспериментах: $6,88*10^{-17}$.

Тем же способом подсчитаем вероятность получения самой вероятной комбинации, в которой число выпадения каждой суммы просто пропорционально ее вероятности. Это будет $0,00579$. Отношение этих вероятностей $~8*10^{13}$, т.е. полученная комбинация в $~10^{13}$ раз менее вероятна, чем самая вероятная.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 13:36 
Аватара пользователя


11/12/16
13812
уездный город Н
sergey zhukov
Это все изобретение велосипедов.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 18:41 


17/03/20
256
EUgeneUS в сообщении #1644878 писал(а):
Оказалось, что основная проблема, из-за которой реальная выборка оказывается практически невероятной (при теоретическом распределении) - это значение 2 в нуле.
. Есть ещё более невероятное , как раз ноль, ещё один, я и пропустил, их 3 ноля было и ещё "8-ку" и "9- ку" пропустил. Там в таблице 47 позиций было.
EUgeneUS в сообщении #1644878 писал(а):
Вы можете сделать еще один опыт, например, из 50 измерений, и выложить его тут?
. Если Вы имеете ввиду, что бы было 50 позиций, с предыдущими ,то завтра. А если ещё 50, то, то же смогу (если форс- мажор не нарисуется), но надо будет подождать. Ускорить не могу, у меня режим, от меня не зависит, увы.
sergey zhukov в сообщении #1644897 писал(а):
то добавим три измерения в самые главные провалы (на места 3, 5 и 8
Вообще-то, я "прозевал" "0","8", "9". Я исправил.Вот как было на самом делеИзображение

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 19:05 
Аватара пользователя


11/12/16
13812
уездный город Н
stalvoron в сообщении #1644979 писал(а):
А если ещё 50, то, то же смогу (если форс- мажор не нарисуется), но надо будет подождать. Ускорить не могу, у меня режим, от меня не зависит, увы.


Новые. Как сделаете, так сделаете.
Только просьба - не надо приводить к частотам.
1. Либо сырую таблицу:
Испытание 1 - 0 генераторов
Испытание 2 - 6 генераторов
....
Испытание 50 - 11 генераторов

2. Либо с группировкой по исходам:

0 генераторов - 0 раз
1 генератор - 3 раза
...
6 генераторов - 11 раз
...
18 генераторов - 0 раз.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение03.07.2024, 19:29 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1644878 писал(а):
Оказалось, что основная проблема, из-за которой реальная выборка оказывается практически невероятной (при теоретическом распределении) - это значение 2 в нуле.

Вы что-то не то считаете...
Используется синтаксис Python
n=18;m=48;k=1000;res=[[] for _ in range(n+1)];len([[res[_[0]].append(_[1]) for _ in histf(sum(random()<1/3 for i in range(18)) for i in range(48))] for _ in range(k)]);len([print(i,histf(_)) for i,_ in enumerate(res)])

(histf возвращает "частоту встречаемости элементов массива")
Результат:
код: [ скачать ] [ спрятать ]
Используется синтаксис Text
0 [[1, 27], [2, 2]]
1 [[1, 198], [2, 36], [3, 2]]
2 [[1, 374], [2, 228], [3, 89], [4, 30], [5, 7], [6, 2]]
3 [[1, 123], [2, 211], [3, 226], [4, 180], [5, 127], [6, 57], [7, 27], [8, 8], [9, 6], [10, 2]]
4 [[1, 9], [2, 26], [3, 60], [4, 117], [5, 165], [6, 179], [7, 162], [8, 120], [9, 77], [10, 41], [11, 30], [12, 10], [13, 3], [14, 1]]
5 [[1, 2], [2, 9], [3, 17], [4, 30], [5, 54], [6, 116], [7, 96], [8, 156], [9, 129], [10, 123], [11, 100], [12, 74], [13, 47], [14, 22], [15, 16], [16, 5], [17, 1], [18, 3]]
6 [[3, 8], [4, 20], [5, 37], [6, 80], [7, 115], [8, 133], [9, 152], [10, 121], [11, 115], [12, 86], [13, 59], [14, 38], [15, 21], [16, 6], [17, 5], [18, 2], [19, 2]]
7 [[2, 10], [3, 22], [4, 53], [5, 103], [6, 113], [7, 138], [8, 148], [9, 142], [10, 95], [11, 76], [12, 47], [13, 33], [14, 8], [15, 7], [16, 4], [18, 1]]
8 [[1, 19], [2, 53], [3, 102], [4, 158], [5, 166], [6, 169], [7, 131], [8, 92], [9, 51], [10, 33], [11, 16], [12, 4], [13, 1], [14, 1]]
9 [[1, 150], [2, 213], [3, 218], [4, 179], [5, 101], [6, 64], [7, 22], [8, 8], [9, 3]]
10 [[1, 332], [2, 235], [3, 117], [4, 37], [5, 17]]
11 [[1, 322], [2, 66], [3, 11], [4, 2]]
12 [[1, 108], [2, 12]]
13 [[1, 32]]
14 [[1, 3]]
15 [[1, 1]]
16 []
17 []
18 []
 

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 16:10 


17/03/20
256
в слабой попытке более менее освоиться. и пока набирается статистика прошу немножечко ликбеза. Подскажите правильно ли я посчитал для $n=18$, по аналогии для $n=3$, (если я правильно понял, что $P_{n}(1)=P (X(1)_{1}X(1)_{2}...X(1)_{n})$ ), для $n=18$ , будет равно $p=( \frac 1 3) 
^{18}=\frac 1 {387420489}$ . Значит ли это, что для выпадения одновременного 18 " бинго" при ожидании "успеха" от одного генератора, $ \frac 1 3$, вероятно понадобится порядка 387 миллионов сессий?, а для одновременного выпадения 18 "зерpо"- при $ P_{i}(0)={\frac 2 3}^{18}$ понадобится порядка 1580 сессий?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 55 ]  На страницу Пред.  1, 2, 3, 4  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: DariaRychenkova


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group