2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу 1, 2, 3, 4  След.
 
 Применимость статистических тестов к задаче про саботажника
Сообщение04.07.2024, 08:10 
Аватара пользователя


11/12/16
14035
уездный город Н
 i  Ende
Выделено из темы «Можно ли вычислить " саботажника"»


Geen в сообщении #1644995 писал(а):
Вы что-то не то считаете...


Конечно, не то.
1. У меня было 44 испытания в эксперименте, такие данные были у ТС до недавних уточнений. А у Вас - 48.
2. Я считаю p-value методом хи-квадрат (функция ХИ2ТЕСТ в Excel), а Вы - какую-то гистограмму, зачем-то.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 08:45 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1645068 писал(а):
какую-то гистограмму, зачем-то.

Я запустил тест 1000 раз и два раза выпало 2 нуля...

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:04 
Аватара пользователя


11/12/16
14035
уездный город Н
Geen
И что? Как это соотносится с посчитанным мной p-value?

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:08 


17/10/16
4911
Geen
Если миллион раз запустить, то, наверное, и 10 раз может выпасть два нуля.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:17 
Аватара пользователя


11/12/16
14035
уездный город Н
Теперь результаты по уточненным данным.
Проверялось на нескольких типах группировок значений:
Гр1 - как есть, 19 точек.
Гр2 - группиррвка по три значения, последнее - четыре.
Гр3 - группировка по два значения, последнее три
Гр4 - группировка хвостов: нижний хвост три значения, верхний хвост - 9 значений, между хвостами - как есть.

P-value методом хи-квадрат на исходных уточненных данных:
Гр1 - $1.22 \cdot 10^{-57}$
Гр2 - $5.43 \cdot 10^{-13}$
Гр3 - $7.79 \cdot 10^{-14}$
Гр4 - $8.61 \cdot 10^{-13}$

Как видим, нулевая гипотеза отвергается с очень хорошей уверенностью.

Теперь проведем такой экспериент: отнимем $3$ из нулевой позиции и добавим $3$ в позицию семь.
Тогда:
P-value методом хи-квадрат:
Гр1 - $0.00088$
Гр2 - $4.27 \cdot 10^{-6}$
Гр3 - $0.034$
Гр4 - $3.12 \cdot 10^{-6}$

P-value резко вырос, а при третьем варианте группировок так и вовсе стал больше 0.01, хотя и меньше 0.05.
Upd: исправил техническую ошибку в четвертом варианте группировки

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:21 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1645078 писал(а):
Как видим, нулевая гипотеза отвергается с очень хорошей уверенностью.

Нет.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 09:59 
Аватара пользователя


11/12/16
14035
уездный город Н
Geen в сообщении #1645079 писал(а):
Нет

Чей-та?

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 12:12 
Аватара пользователя


11/12/16
14035
уездный город Н
Кстати, в одном букваре (хелпе по ХИ2.ТЕСТ) сказано, что критерий хи-квадрат не очень хорошо работает при малых ожидаемых значениях. И рекомендовано использовать там, где ожидаемые значения не меньше 3, а лучше 5-ти.
Тогда сделаем еще один вариант группировки хвостов:
1. В нижнем хвосте сгруппируем первые четыре отсчета (получим ожидаемое значение $4.778$
2. В верхнем хвосте сгруппируем последние 10 остчетов (получим ожидаемое значение $5.057$
3. В середине оставим как есть, там ожидаемые значения больше 5.

Ну и получим p-value $7.32 \cdot 10^{-5}$.
На графике видно, в чем "проблема" у фактической выборки - у неё тяжелые хвосты, оба.
Как не натягивай сову на глобус, нулевая гипотеза отвергается с очень хорошей уверенностью / статистической значимостью.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 12:16 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1645106 писал(а):
что критерий хи-квадрат не очень хорошо работает при малых ожидаемых значениях

Он тут вообще не работает - не выполнены условия применения.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 12:35 
Аватара пользователя


11/12/16
14035
уездный город Н
Geen в сообщении #1645107 писал(а):
Он тут вообще не работает - не выполнены условия применения.


И какие же условия не выполняются?
Количество наблюдений больше 20 (47)
Ожидаемые частоты должны быть бошьше 5, нуок, сгруппируем так, чтобы были больше 5.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 13:36 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1645111 писал(а):
И какие же условия не выполняются?

Нормальность распределений. И равенство их дисперсий 1.

Но вообще, тут это уже оффтоп.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 17:01 
Аватара пользователя


11/12/16
14035
уездный город Н
Geen в сообщении #1645118 писал(а):
Нормальность распределений. И равенство их дисперсий 1.


Да ладно :wink: (Подробнее несколько позже отвечу).

Geen в сообщении #1645118 писал(а):
Но вообще, тут это уже оффтоп.

Есть прикладная задача, с которой попросил помочь разобраться ТС
И есть обсуждение - какие методы применимы для её решения. Не вижу тут оффтопика.

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 17:58 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1645138 писал(а):
какие методы применимы для её решения

Проверьте свой "метод" на "истинно-биномальных" сериях....

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 19:50 
Аватара пользователя


11/12/16
14035
уездный город Н
Geen в сообщении #1645118 писал(а):
Нормальность распределений. И равенство их дисперсий 1.


1. Пусть $X_i \sim N(\mu_i, \sigma_i^2), i = 1, ..., k$
Тогда $Y = \sum\limits_{i=1}^{k} (\frac{X_i - \mu_i}{\sigma_i})^2$ имеет распределение хи-квадрат.
Никакого равенства дисперсий единице не требуется.

2. Нормальность распределений обеспечивается теоремой Пирсона, которая в свою очередь обеспечивается ЦПТ.
Как описано, например, тут

Таким образом, условия применимости критерия хи-квадрат описываются требованиями:
а) на минимальное количество элементов в выборке
б) на минимальное количество элементов "в кучке", на которые разбиваем носитель.
Никаких дополнительных требований и предположений не требуется.

-- 04.07.2024, 19:54 --

Определение этих требований - вопрос, конечно, непростой и тонкий. Но чтобы не уходить в дебри, обратимся к рекомендациям лучших собаководов специалистов.
По приведенной выше ссылке приведена и обосновывается рекомендация, чтобы ожидаемые частоты в каждой кучке были не менее "5-6".
Для данного $n=47$ и для ожидаемого распределения этого можно достичь разбиением на 6 кучек.

Таким образом, условия применимости выполняются.

-- 04.07.2024, 19:57 --

Geen в сообщении #1645140 писал(а):
Проверьте свой "метод" на "истинно-биномальных" сериях....


Давно проверил. Прекрасно работает. Можете попробовать самостоятельно.
UPD. Метод не мой, а Пирсона.

(Оффтоп)

А если Вы сделаете 100500 серий и получите 3.5 анонимуса серии, где p-value окажется меньше $0.01$, то я Вам скажу, что у Вас множественные сравнения, на которые нужно делать поправку :wink:

 Профиль  
                  
 
 Re: Можно ли вычислить " саботажника"
Сообщение04.07.2024, 20:10 
Заслуженный участник
Аватара пользователя


01/09/13
4676
EUgeneUS в сообщении #1645149 писал(а):
Можете попробовать самостоятельно.

Не могу - Вы алгоритм не описали.

EUgeneUS в сообщении #1645149 писал(а):
А если Вы сделаете 100500 серий и получите 3.5 анонимуса серии, где p-value окажется меньше $0.01$

Меньше $10^{-10}$ не хотите ли? (правда, "Ваш метод" пришлось угадывать...)

EUgeneUS в сообщении #1645149 писал(а):
Нормальность распределений обеспечивается теоремой Пирсона, которая в свою очередь обеспечивается ЦПТ.
Как описано, например, тут

И как давно для применимости ЦПТ достаточно 5 значений? Особенно для случая ярко выраженной ассиметрии распределения?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 46 ]  На страницу 1, 2, 3, 4  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Stratim


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group