2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Как выявить манипуляции на совокупности биномиальных серий?
Сообщение26.02.2022, 11:07 


21/02/22
6
Пусть есть 1000 серий по 1001 бросков монеты. Выигрыш / проигрыш определяется в целом за серию: какой стороной в ней чаще выпадала монета. Хочется установить нет ли подтасовок со стороны исполнителя, поскольку он также может делать неафишируемые ставки. Стоит заметить, что в каждой серии бросающий может иметь разный интерес и поэтому может "подкручивать" результат в разные стороны (например, в первой серии он сам ставил на орла, а во второй- на решку). Пожалуйста, проверьте верно ли я рассуждаю.

Решение
п.1 Для каждой отдельной серии.
Одну из сторон монеты определим как успех. Так как все броски независимы и вероятность не меняется (монета, бросающий и пол теже самые), то распределение количества успехов имеет биномиальное распределение. Так как в каждой серии достаточно большое количество бросков, то мы можем апроксимировать распределение количества успехов нормальным (приведя его к стандартному виду с помощью сдвига и растяжения).

$$H_0: p=0.5$$
$$H_a: p \ne 0.5$$

Альтернативная гипотеза двусторонняя, поскольку мы не знаем ставку бросающего. Задаемся уровнем значимости $а = 0.05$, поэтому по таблицам нормального распределения находим граничные значения количества успехов для квантилей 0.025 и 0.975. Таким образом доверительная область находится в границах $(-1.96; +1.96)$. Теперь устанавливаем попадание количества успехов (преобразованное в нормальное) в этой серии в доверительную область.

п.2 Объединение результатов всех серий.
При большом количестве серий (100 штук) скорее всего будут те, что вышли за границы уровня значимости (5%), поэтому пугаться этого не стоит. Необходимо повторно использовать биномиальное распределение для количества вышедших за границы серий из п.1. Успехом определим попаданием серии в границы диапазона в п.1. В этом случае:
$$H_0: p = 0.05$$
Вероятность равна 0.05, поскольку именно таким уровнем значимости мы задавались в п.1.

$$H_a: p > 0.05$$
Т.е. альтернатива односторонняя, поскольку никто не будет специально "подкручивать" себе в убыток.

Опять апроксимируем нормальным распределением (с необходимым преобразованием сдвига и растяжения) и смотрим на расположение количества успехов относительно квантили 0.95 нормального распределения (поскольку опять задались уровнем значимости 0.05). Получаем доверительный интервал $(-\inf; +1.645)$. Если преобразованное количество успехов лежит в доверительной области, то подтасовки не выявлены, в противном случае- требуем вернуть деньги :)

В моем рассуждении есть ошибки?

 Профиль  
                  
 
 Posted automatically
Сообщение26.02.2022, 12:17 
Заслуженный участник


09/05/12
25179
 i  Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
по следующим причинам:

- неправильно набраны формулы (краткие инструкции: «Краткий FAQ по тегу [math]» и видеоролик Как записывать формулы).

Исправьте все Ваши ошибки и сообщите об этом в теме Сообщение в карантине исправлено.
Настоятельно рекомендуется ознакомиться с темами Что такое карантин и что нужно делать, чтобы там оказаться и Правила научного форума.

 Профиль  
                  
 
 Posted automatically
Сообщение26.02.2022, 13:10 
Заслуженный участник


09/05/12
25179
 i  Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)»

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение26.02.2022, 14:49 


21/02/22
6
Меня смущает то, что не учитывается "сила отклонения" в каждой серии. Т.е. в одной из серий может быть супер редкое событие (например, все броски монеты выпали одной стороной), а я в п.2 при расчете подлога учту эту серию всего- навсего как одно из отклонений от 95% доверительного интервала. Очевидно, что такое событие должно вносить более весомый вклад в сторону подлога.

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение26.02.2022, 17:13 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Если Ваш "подозрительный банкомёт" во всех сериях обеспечивает одинаковую подтасовку $p= \operatorname{const}\ne 0.5$, то стоит объединить результаты всех серий и для этой объединённой посчитать доверительный интервал.
Интереснее варианты, когда он мошенничает не во всех и когда искусственно выравнивает вероятности, выбирая то $p<0.5$, то $p>0.5$. Определённая польза могла бы быть от построения графика исходов на вероятностной бумаге (или на обычной, преобразовав в $x_i=\Phi(\frac{m_i-np}{\sqrt{np(1-p)}})$, где n - число испытаний в серии, $m_i$ - успехов в i-той серии, $p=0.5$ - вероятность успеха в "честном" случае, $\Phi()$ - функция стандартного нормального распределения, если число испытаний в серии будет мало, надо использовать функцию биномиального распределения, но для 1001 нормальное вполне). На графике упорядоченных значений точки должны ложиться на прямую (на краях имеет право быть "вихляние", а вот "ступеньки" это уже в пользу гипотезы о мошенничестве).

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение26.02.2022, 18:55 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Вычислительный эксперимент в порядке примера использования.
Сгенерировано 100 серий нормально распределённых величин с матожиданием и дисперсией, соответствующим 1001 биномиальному испытанию в каждой серии с вероятностью p, причём наш "банкомёт" не только мошенник, но и хитрый. В некоторых сериях он играет честно, в некоторых $p<0.5$, в некоторых $p>0.5$ (выбирается случайно, но для эксперимента это неважно, результаты для построения графика упорядочиваются по возрастанию). Разумеется, он знает, куда смещает вероятность и, соответственно, меняет свою ставку (ставит на "орла", если вероятность "орла" больше половины, на "решку" если меньше, не ставит или ставит по минимуму, если честно). Отклонения он, быв осторожен, берёт небольшими. В представленной на рисунке серии в 30 из ста вероятность выбиралась 0.46, также в 30 из ста 0.54, в оставшихся 40 "честная игра" с вероятностями по 0.5).

Изображение

Видно, что на графике есть наклонный участок, соответствующий "честной игре", две "ступеньки", соответствующие мошенничеству (если только в одном направлении искажение - одна, если вовсе нет "честных" - кривая изгибается) и сомнительные участки на границах указанных. Чем более искажены вероятности - тем сильнее отклонения от прямой линии.

Для сравнения - график для "честной игры".
Изображение

Видно, что график приблизительно прямой, хотя есть и отклонения. Задать формальный критерий "прямизны" затрудняюсь, скорее это, как и вообще графические методы, "информация к размышлению", и выявив подозрительные серии, стоит от чисто математических манипуляций со статистикой исходов перейти к содержательным, скажем, посмотреть, на что ставил наш "банкомёт" в этих подозрительных сериях, не помогало ли "искусство щастию"?

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение26.02.2022, 20:06 


21/02/22
6
Евгений Машеров в сообщении #1549603 писал(а):
Если Ваш "подозрительный банкомёт" во всех сериях обеспечивает одинаковую подтасовку $p\ne 0.5$, то стоит объединить результаты всех серий и для этой объединённой посчитать доверительный интервал.
Интереснее варианты, когда он мошенничает не во всех и когда искусственно выравнивает вероятности, выбирая то $p<0.5$, то $p>0.5$. Определённая польза могла бы быть от построения графика исходов на вероятностной бумаге (или на обычной, преобразовав в $x_i=\Phi(\frac{m_i-np}{\sqrt{np(1-p)}})$, где n - число испытаний в серии, $m_i$ - успехов в i-той серии, $p=0.5$ - вероятность успеха в "честном" случае, $\Phi()$ - функция стандартного нормального распределения, если число испытаний в серии будет мало, надо использовать функцию биномиального распределения, но для 1001 нормальное вполне). На графике упорядоченных значений точки должны ложиться на прямую (на краях имеет право быть "вихляние", а вот "ступеньки" это уже в пользу гипотезы о мошенничестве).


Спасибо за участие!
1. Тут возникает вопрос как объединять серии: все орлы с орлами, а решки с решками? Но ведь в разных сериях исполнитель может делать ставки на разные стороны монеты и в итоге общие суммы не будут содержать серьезных отклонений. Если же серии объединять по принципу превышения / недостатка выборочной вероятности относительно 0.5, то тут непонятен критерий, ведь даже при случайном характере всегда веротяность одних исходов будет превышать, а других недотягивать до 0.5
2. Да, пока у меня тоже на уме только сравнение с нормальным распределением (после преобразований сдвига на МО и сжатия в сигму раз). Для этого можно использовать критерий Колмогорова- Смирнова.
Хотя после построения графика можно на нем увидеть оптимальный уровень ошибки первого рода, при котором будет очевидна подтасовка (например, много результатов серий лежит возле границы доверительной области для $a = 0.1$, т.е. достаточно сильно отклонились от центра распределения), и использовать методику из топика для этого уровня ошибки первого рода. Но так удастся поймать не все подтасовки, т.е. вариант не надежный.

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение26.02.2022, 20:32 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Если у нас есть основания считать, что искажение вероятности одинаково во всех сериях - то просто объединять. Если есть подозрение в "хитрой тактике" - анализ усложняется, и что-то вроде предложенного выше может ситуацию прояснить.

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение27.02.2022, 12:44 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Для построения формальной процедуры надо чётко определить "модель искажения". Без этого математические методы будут давать лишь "информацию к размышлению", которую надо интерпретировать, привлекая дополнительные сведения (скажем, выявив подмножества серий игр, в которых вероятность заведомо выше или же ниже "справедливой", выяснять, делал ли в них "банкомёт" ставки и на что).
Интерес представляет также вопрос о тактике злоумышленника, затрудняющей его поимку. Мне представляется, что он может выбирать отклонение от вероятности, как нормально распределённую величину. Тогда число успехов в сериях также будет иметь близкое к нормальному распределение. Но при этом дисперсия будет отлична от теоретической.

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение27.02.2022, 13:29 


21/02/22
6
Евгений Машеров в сообщении #1549623 писал(а):
Для построения формальной процедуры надо чётко определить "модель искажения". Без этого математические методы будут давать лишь "информацию к размышлению", которую надо интерпретировать, привлекая дополнительные сведения (скажем, выявив подмножества серий игр, в которых вероятность заведомо выше или же ниже "справедливой", выяснять, делал ли в них "банкомёт" ставки и на что).
Интерес представляет также вопрос о тактике злоумышленника, затрудняющей его поимку. Мне представляется, что он может выбирать отклонение от вероятности, как нормально распределённую величину. Тогда число успехов в сериях также будет иметь близкое к нормальному распределение. Но при этом дисперсия будет отлична от теоретической.


спасибо!

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение28.02.2022, 09:16 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Ну, и вариант со случайным выбором вероятности тоже выявляем. S-образность лезет, хотя вариация вероятности совсем мала. Текст экселевского теста могу выслать, но он простенький.

 Профиль  
                  
 
 Re: Как выявить манипуляции на совокупности биномиальных серий?
Сообщение01.03.2022, 09:51 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Колмогоров-Смирнов, пожалуй, именно то. Преобразовать данные по "правильной модели" и посчитать значимость отклонений.
Ну и касательно тактики мошенника - покамест я не вижу ничего невыявляемого, кроме задержки (то есть бросает честно, но успевает сделать ставку, когда уже знает итог). Тогда вероятности не будут отличаться от истинных. Только сопоставлять выигрыши и ставки.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group