2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2, 3, 4  След.
 
 Применимость статистических тестов к задаче про саботажника
Сообщение04.07.2024, 08:10 
Аватара пользователя


11/12/16
13854
уездный город Н
 i  Ende
Выделено из темы «Можно ли вычислить " саботажника"»


Geen в сообщении #1644995 писал(а):
Вы что-то не то считаете...


Конечно, не то.
1. У меня было 44 испытания в эксперименте, такие данные были у ТС до недавних уточнений. А у Вас - 48.
2. Я считаю p-value методом хи-квадрат (функция ХИ2ТЕСТ в Excel), а Вы - какую-то гистограмму, зачем-то.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 08:45 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1645068 писал(а):
какую-то гистограмму, зачем-то.

Я запустил тест 1000 раз и два раза выпало 2 нуля...

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:04 
Аватара пользователя


11/12/16
13854
уездный город Н
Geen
И что? Как это соотносится с посчитанным мной p-value?

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:08 


17/10/16
4815
Geen
Если миллион раз запустить, то, наверное, и 10 раз может выпасть два нуля.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:17 
Аватара пользователя


11/12/16
13854
уездный город Н
Теперь результаты по уточненным данным.
Проверялось на нескольких типах группировок значений:
Гр1 - как есть, 19 точек.
Гр2 - группиррвка по три значения, последнее - четыре.
Гр3 - группировка по два значения, последнее три
Гр4 - группировка хвостов: нижний хвост три значения, верхний хвост - 9 значений, между хвостами - как есть.

P-value методом хи-квадрат на исходных уточненных данных:
Гр1 - $1.22 \cdot 10^{-57}$
Гр2 - $5.43 \cdot 10^{-13}$
Гр3 - $7.79 \cdot 10^{-14}$
Гр4 - $8.61 \cdot 10^{-13}$

Как видим, нулевая гипотеза отвергается с очень хорошей уверенностью.

Теперь проведем такой экспериент: отнимем $3$ из нулевой позиции и добавим $3$ в позицию семь.
Тогда:
P-value методом хи-квадрат:
Гр1 - $0.00088$
Гр2 - $4.27 \cdot 10^{-6}$
Гр3 - $0.034$
Гр4 - $3.12 \cdot 10^{-6}$

P-value резко вырос, а при третьем варианте группировок так и вовсе стал больше 0.01, хотя и меньше 0.05.
Upd: исправил техническую ошибку в четвертом варианте группировки

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:21 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1645078 писал(а):
Как видим, нулевая гипотеза отвергается с очень хорошей уверенностью.

Нет.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:59 
Аватара пользователя


11/12/16
13854
уездный город Н
Geen в сообщении #1645079 писал(а):
Нет

Чей-та?

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 12:12 
Аватара пользователя


11/12/16
13854
уездный город Н
Кстати, в одном букваре (хелпе по ХИ2.ТЕСТ) сказано, что критерий хи-квадрат не очень хорошо работает при малых ожидаемых значениях. И рекомендовано использовать там, где ожидаемые значения не меньше 3, а лучше 5-ти.
Тогда сделаем еще один вариант группировки хвостов:
1. В нижнем хвосте сгруппируем первые четыре отсчета (получим ожидаемое значение $4.778$
2. В верхнем хвосте сгруппируем последние 10 остчетов (получим ожидаемое значение $5.057$
3. В середине оставим как есть, там ожидаемые значения больше 5.

Ну и получим p-value $7.32 \cdot 10^{-5}$.
На графике видно, в чем "проблема" у фактической выборки - у неё тяжелые хвосты, оба.
Как не натягивай сову на глобус, нулевая гипотеза отвергается с очень хорошей уверенностью / статистической значимостью.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 12:16 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1645106 писал(а):
что критерий хи-квадрат не очень хорошо работает при малых ожидаемых значениях

Он тут вообще не работает - не выполнены условия применения.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 12:35 
Аватара пользователя


11/12/16
13854
уездный город Н
Geen в сообщении #1645107 писал(а):
Он тут вообще не работает - не выполнены условия применения.


И какие же условия не выполняются?
Количество наблюдений больше 20 (47)
Ожидаемые частоты должны быть бошьше 5, нуок, сгруппируем так, чтобы были больше 5.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 13:36 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1645111 писал(а):
И какие же условия не выполняются?

Нормальность распределений. И равенство их дисперсий 1.

Но вообще, тут это уже оффтоп.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 17:01 
Аватара пользователя


11/12/16
13854
уездный город Н
Geen в сообщении #1645118 писал(а):
Нормальность распределений. И равенство их дисперсий 1.


Да ладно :wink: (Подробнее несколько позже отвечу).

Geen в сообщении #1645118 писал(а):
Но вообще, тут это уже оффтоп.

Есть прикладная задача, с которой попросил помочь разобраться ТС
И есть обсуждение - какие методы применимы для её решения. Не вижу тут оффтопика.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 17:58 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1645138 писал(а):
какие методы применимы для её решения

Проверьте свой "метод" на "истинно-биномальных" сериях....

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 19:50 
Аватара пользователя


11/12/16
13854
уездный город Н
Geen в сообщении #1645118 писал(а):
Нормальность распределений. И равенство их дисперсий 1.


1. Пусть $X_i \sim N(\mu_i, \sigma_i^2), i = 1, ..., k$
Тогда $Y = \sum\limits_{i=1}^{k} (\frac{X_i - \mu_i}{\sigma_i})^2$ имеет распределение хи-квадрат.
Никакого равенства дисперсий единице не требуется.

2. Нормальность распределений обеспечивается теоремой Пирсона, которая в свою очередь обеспечивается ЦПТ.
Как описано, например, тут

Таким образом, условия применимости критерия хи-квадрат описываются требованиями:
а) на минимальное количество элементов в выборке
б) на минимальное количество элементов "в кучке", на которые разбиваем носитель.
Никаких дополнительных требований и предположений не требуется.

-- 04.07.2024, 19:54 --

Определение этих требований - вопрос, конечно, непростой и тонкий. Но чтобы не уходить в дебри, обратимся к рекомендациям лучших собаководов специалистов.
По приведенной выше ссылке приведена и обосновывается рекомендация, чтобы ожидаемые частоты в каждой кучке были не менее "5-6".
Для данного $n=47$ и для ожидаемого распределения этого можно достичь разбиением на 6 кучек.

Таким образом, условия применимости выполняются.

-- 04.07.2024, 19:57 --

Geen в сообщении #1645140 писал(а):
Проверьте свой "метод" на "истинно-биномальных" сериях....


Давно проверил. Прекрасно работает. Можете попробовать самостоятельно.
UPD. Метод не мой, а Пирсона.

(Оффтоп)

А если Вы сделаете 100500 серий и получите 3.5 анонимуса серии, где p-value окажется меньше $0.01$, то я Вам скажу, что у Вас множественные сравнения, на которые нужно делать поправку :wink:

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 20:10 
Заслуженный участник
Аватара пользователя


01/09/13
4656
EUgeneUS в сообщении #1645149 писал(а):
Можете попробовать самостоятельно.

Не могу - Вы алгоритм не описали.

EUgeneUS в сообщении #1645149 писал(а):
А если Вы сделаете 100500 серий и получите 3.5 анонимуса серии, где p-value окажется меньше $0.01$

Меньше $10^{-10}$ не хотите ли? (правда, "Ваш метод" пришлось угадывать...)

EUgeneUS в сообщении #1645149 писал(а):
Нормальность распределений обеспечивается теоремой Пирсона, которая в свою очередь обеспечивается ЦПТ.
Как описано, например, тут

И как давно для применимости ЦПТ достаточно 5 значений? Особенно для случая ярко выраженной ассиметрии распределения?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 46 ]  На страницу 1, 2, 3, 4  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group