2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 11:37 


09/11/19
146
alisa-lebovski в сообщении #1584956 писал(а):
Нет, имелся в виду сдвиг распределения целиком, по формуле $F(x-\theta)$, а не отдельных его параметров.
Рассмотрим ситуацию. Вот есть у нас "несдвигаемые" функции распределения F(x) и G(x). Но мы не знаем о том, что они "несдвигаемы". Находясь в неведении, мы формулируем гипотезы $H_0$: $F(x)=G(x)$ и $H_1$: $F(x)=G(x-\theta)$. Выходит, мы получили некорректно поставленную задачу, и в этой ситуации что-либо говорить о состоятельности, мощности и т.п. критерия нельзя?

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 12:10 


21/03/11
200
igor_ivanov
В определении всякого двухвыборочного статистического критерия фигурирует семейство допустимых распределений $\mathcal{F}$, которое можно разделить на два непересекающихся множества $\mathcal{F}_0$ и $\mathcal{F}_1$: $\mathcal{F} = \mathcal{F}_0 \sqcup \mathcal{F}_1$, гипотезы же имеют вид $H_0: (F_{\text{true}}, G_{\text{true}})\in \mathcal{F}_0,  ~~ H_1: (F_{\text{true}}, G_{\text{true}})\in \mathcal{F}_1$. В случае указанных вами гипотез $H_0$ и $H_1$ семейство $\mathcal{F}$ состоит лишь из тех распределений, которые либо совпадают друг с другом ($\mathcal{F}_0 = \{(F,G) \in \mathcal{F}: F(x) = G(x)\}$), либо отличаются друг от сдруга сдвигом функции распределения ($\mathcal{F}_1 = \{(F,G)\in \mathcal{F}: F(x) = G(x - \theta)\}$). То есть при использовании таких гипотез вы делаете предположение, что другие распределения невозможны. Если же у вас нет оснований делать это предположение, то применение критерия Манна-Уитни в рамках данной перспективы (для проверки указанных вами гипотез $H_0$ и $H_1$) будет некорректным.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 12:58 


09/11/19
146
give_up в сообщении #1584958 писал(а):
Я некоторое время назад интересовался состоятельностью критерия Манна-Уитни при различных постановках гипотез, и мне очень помогла вот эта статья https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/, чтобы с этим разобраться. Там описывается 15 популярных "перспектив" (формулировок гипотез) критерия Манна-Уитни
Являются ли альтернативные гипотезы, приведённые в данной статье, частными случаями гипотезы $P(X<Y) \ne 1/2$? Например, неравенство матожиданий $E[X] \ne E[Y]$ - частный случай гипотезы $P(X<Y) \ne 1/2$ (насколько я понимаю, если $E[X] \ne E[Y]$, то $P(X<Y) \ne 1/2$ всегда).

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 13:36 


21/03/11
200
igor_ivanov в сообщении #1584969 писал(а):
Являются ли альтернативные гипотезы, приведённые в данной статье, частными случаями гипотезы $P(X<Y) \ne 1/2$?

В случае альтернативы $P(X < Y) \neq 1/2$ нужно сначала посмотреть, какая у вас нулевая гипотеза, чтобы понять, какое семейство допустимых распределений вы используете. Если нулевая гипотеза $P(X < Y) = 1/2$ - то это одна ситуация (в ней допустимое семейство содержит все возможные пары распределений), если нулевая гипотеза имеет вид $F = G$ - то другая ситуация (это перспектива 3 из статьи, в ней допустимое семейство уже не содержит все возможные пары распределений, так как оно не содержит те пары, для которых $P(X < Y) = 1/2$ и $F \neq G$; в этом случае альтернатива $F \neq G$ при нулевой гипотезе $F = G$ - перспектива 4 из статьи - будет "шире" альтернативы $P(X < Y) \neq 1/2$ при той же нулевой гипотезе (в том смысле что семейство $\mathcal{F}_1$, построенное по первой альтернативе будет включать в себя больше распределений, чем семейство $\mathcal{F}_1$, построенное по второй альтернативе)).

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 14:43 


09/11/19
146
Рассмотрим "перспективу 1" из статьи $H_0$: $F=G$ и $H_1$: $E_F(Y)=E_G(Y)$. Насколько я понял, это означает, что функции распределения тождественны или отличаются только матожиданиями. Подходят ли под данную постановку задачи функции распределения Norm(0, 1) и Norm(1, 1) и если нет, то почему?

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 15:20 


21/03/11
200
igor_ivanov в сообщении #1584980 писал(а):
Рассмотрим "перспективу 1" из статьи $H_0$: $F=G$ и $H_1$: $E_F(Y)=E_G(Y)$.

В альтернативе там неравенство.
igor_ivanov в сообщении #1584980 писал(а):
Насколько я понял, это означает, что функции распределения тождественны или отличаются только матожиданиями.

В семейство $\mathcal{F}_1$ входят распределения, у которых матожидания не равны. Но при этом у них также могут быть еще неравные дисперсии, или другие вещи.
В статье там прямо написано, какие распределения не входят в допустимое семейство распределений $\mathcal{F}$ (там оно обозначено буквой $\mathrm{P}$, но я лучше буду использовать обозначение $\mathcal{F}$) перспективы 1:
Цитата:
$\mathcal{F}$ is the strange set of all distributions $F$ and $G$ except those that have equal means but are not equal.

То есть в него входят все пары распределений $(F,G)$, за исключением тех, у которых одинаковые матожидания $E_F(X)=E_G(Y)$, и одновременно с этим у которых $F \neq G$.
igor_ivanov в сообщении #1584980 писал(а):
Подходят ли под данную постановку задачи функции распределения Norm(0, 1) и Norm(1, 1) и если нет, то почему?

У этих распределений разные матожидания, а значит они принадлежат семейству $\mathcal{F}_1$. Тем не менее, в статье сказано
Цитата:
This is not a consistent perspective.

Так что на практике никто "перспективу 1" не проверяет критерием Манна-Уитни, раз она не состоятельна. Ее даже в таблице в середине статьи нет.
Лучше не тратьте свое (и мое) время на несостоятельные/невалидные перспективы, никто с ними на практике не работает. Вместо этого посмотрите те перспективы, которые в таблице в столбце WMW помечены буквами "yy" (это валидные состоятельные перспективы для критерия Манна-Уитни)

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 00:54 


09/11/19
146
Рассмотрим перспективы 2, 3, 6 из статьи. Гипотезы там сформулированы для двухвыборочного критерия Манна-Уитни. Нулевая гипотеза везде одинаковая $H_0$: $F = G, F \in \Psi_C$ , то есть функции распределения тождественны и непрерывны.
Перспектива 2 (стохастический порядок) $H_1: F <_{st} G$ или $G <_{st} F$, то есть речь идёт о стохастическом доминировании первого порядка. Запись $F <_{st} G$ означает, что $F(x) \geqslant G(x)$, причём по крайней мере для одного значения $x$ выполняется неравенство $F(x) > G(x)$. Запись $F(x) > G(x)$ означает, что $P(X_F < X_G) > 1/2$. Таким образом, гипотеза $H_1$ означает $P(X_F < X_G) \ne 1/2$.
Перспектива 3 (функционал Манна-Уитни) $H_1$: $\Phi(F, G) \ne 1/2$. Не понял, что это означает, но вроде бы это не очень реалистичная перспектива.
Перспектива 6 (сдвиг) $H_1$: $F(x) = G(x+\theta)$, где $\theta \ne 0$.

Вопросы:
1. Функция «несдвигаема», если значения $x$ ограничены сверху-снизу, например, как в бета-распределении?
2. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta \ne 0$, это значит, что для имеющихся функций распределения $F(x)\ne G(x)$ можно подобрать такое $\theta \ne 0$, что $F(x) = G(x+\theta)$?
3. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta > 0$, что можно сказать о случайной величине $X_G$ или о параметрах $G(x)$ в сравнении с $F(x)$?
4. Можно ли в перспективах 2, 3, 6 вместо двухвыборочного критерия применять одновыборочный?
5. Если нулевую гипотезу $F = G$ заменить на $P(X<Y)=1/2$, а альтернативные гипотезы из перспектив 2, 3, 6 оставить прежними, критерий по-прежнему будет состоятельным и критические значения останутся теми же?
6. Правильно ли я понимаю, что статистика «заканчивается» расчётом критических значений для разных уровней значимости и объёмов выборки, а дальше начинаются внестатистические решения: а) ситуацию, при которой $U_{test}$ находится вне доверительного интервала для заданного уровня значимости и объёма выборки, назовём «$H_0$ отвергнута»; б) если $H_0$ отвергнута, считаем, что условие, сформулированное в $H_1$, (скорее всего) верно, а значит, у нас есть веские основания для неких выводов или принятия неких решений. Если в данном рассуждении есть ошибки, прошу указать в чём именно.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 07:15 
Заслуженный участник
Аватара пользователя


11/03/08
9490
Москва
igor_ivanov в сообщении #1584969 писал(а):
насколько я понимаю, если $E[X] \ne E[Y]$, то $P(X<Y) \ne 1/2$ всегда


Нет. Простой контрпример. Элементы X принимают с равной вероятностью значения 1 и 2, элементы Y - 0 и 100.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 09:22 


21/03/11
200
igor_ivanov в сообщении #1585141 писал(а):
1. Функция «несдвигаема», если значения $x$ ограничены сверху-снизу, например, как в бета-распределении?

Думаю если у вас есть априорная информация, что носитель распределений $F$ и $G$ совпадает и имеет вид отрезка $[a,b]$, то перспективу 6 рассматривать не стоит.
igor_ivanov в сообщении #1585141 писал(а):
2. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta \ne 0$, это значит, что для имеющихся функций распределения $F(x)\ne G(x)$ можно подобрать такое $\theta \ne 0$, что $F(x) = G(x+\theta)$?

Фраза "для имеющихся функция распределения $F(x)\ne G(x)$" мне не нравится. На этапе выдвижения гипотез вы этого не знаете. В перспективе 6 вы знаете (точнее, предполагаете с достаточно большой степенью уверенности) лишь то, что распределения $F,G$ либо совпадают, либо отличаются друг от друга сдвигом.
igor_ivanov в сообщении #1585141 писал(а):
3. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta > 0$, что можно сказать о случайной величине $X_G$ или о параметрах $G(x)$ в сравнении с $F(x)$?

В этом случае $\theta$ есть разница между медианами распределений $F$ и $G$. Она же одновременно является разницей между их матожиданиями, разницей между их модами, разницей между их p-ми перцентилями (для любого $p \in (0,100)$)
igor_ivanov в сообщении #1585141 писал(а):
4. Можно ли в перспективах 2, 3, 6 вместо двухвыборочного критерия применять одновыборочный?

Если вы сольете две выборки в одну, то тогда и критерий и гипотезы другие будут - это ведь совсем другая ситуация
igor_ivanov в сообщении #1585141 писал(а):
5. Если нулевую гипотезу $F = G$ заменить на $P(X<Y)=1/2$, а альтернативные гипотезы из перспектив 2, 3, 6 оставить прежними, критерий по-прежнему будет состоятельным и критические значения останутся теми же?

Нет.
igor_ivanov в сообщении #1585141 писал(а):
6. Правильно ли я понимаю, что статистика «заканчивается» расчётом критических значений для разных уровней значимости и объёмов выборки

Что значит для разных объемов выборки? У вас обычно есть две выборки, объемы которых фиксированы

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 09:47 


09/11/19
146
give_up в сообщении #1585154 писал(а):
Что значит для разных объемов выборки? У вас обычно есть две выборки, объемы которых фиксированы
Имеется ввиду стандартная постановка задачи, что есть две выборки $x_1, ..., x_N$ и $y_1, ..., y_M$, а границы доверительного интервала зависят от уровня значимости $\alpha$, $N$ и $M$.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 10:33 


21/03/11
200
igor_ivanov в сообщении #1585141 писал(а):
при которой $U_{test}$ находится вне доверительного интервала для заданного уровня значимости и объёма выборки, назовём «$H_0$ отвергнута»

Здесь тоже непонятно, что за доверительный интервал вы имеете в виду. Гипотеза $H_0$ отвергается, если значение тестовой статистики попало в так называемую критическую область (границы которой зависят от $\alpha, N, M$). А доверительные интервалы строятся для параметров распределения, это уже другая тема.
Почитайте на досуге в книге Ивченко "Введение в математическую статистику" параграф "§4.1. Основные понятия и общие принципы теории проверки гипотез" и вот этот раздел из википедии: https://en.wikipedia.org/wiki/Statistic ... ng_process. Тогда процедура проверки гипотез станет яснее. А я пока вынужден до завтрашнего дня отойти от компа, все-таки выходной день.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 10:39 


09/11/19
146
give_up в сообщении #1585158 писал(а):
Здесь тоже непонятно, что за доверительный интервал вы имеете в виду. Гипотеза $H_0$ отвергается, если значение тестовой статистики попало в так называемую критическую область (границы которой зависят от $\alpha, N, M$).
Приношу извинения. Я неправильно использовал термин "доверительный интервал". Я имел ввиду критическую область.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение18.03.2023, 14:33 


09/11/19
146
Рассчитаем мощность одностороннего критерия Манна-Уитни и одностороннего критерия Омега-квадрат (Смирнова-Крамера-фон Мизеса) для случая:
объёмы выборок $N = M = 7$;
уровень значимости $\alpha \approx 0,05$;
$H_0$: $F(x) = G(x)$, где $F(x)$ - функция распределения нормального распределения с параметрами $\mu = 100$ и $\sigma = 2$;
$H_1$: $F(x) = G(x+\theta)$, где $\theta = 1$.

Методика определения мощности критериев:
1. Генерируем две выборки объёмами $N = M = 7$ из нормальных распределений $Normal(100, 2)$ и $Normal(101, 2)$. Рассчитываем статистику Манна-Уитни $U$ и проверяем выполнение неравенства $U \geqslant 38$, где 38 – критическое значение для $N = M = 7$ и $\alpha = 0,048660 \approx 0,05$. Повторяем описанный алгоритм 1 млн раз. Результат: неравенство $U \geqslant 38$ выполняется в 21,1 % случаев; таким образом, мощность критерия Манна-Уитни равна 21,1 %.
2. Генерируем две выборки объёмами $N = M = 7$ из нормальных распределений $Normal(100, 2)$ и $Normal(101, 2)$. Рассчитываем статистику Омега-квадрат $O$ и проверяем выполнение неравенства $O \geqslant 1925$, где 1925 – критическое значение для $N = M = 7$ и $\alpha = 0,048951 \approx 0,05$. Повторяем описанный алгоритм 1 млн раз. Результат: неравенство $O \geqslant 1925$ выполняется в 12,9 % случаев; таким образом, мощность критерия Омега-квадрат равна 12,9 %.

Вопросы:
1. Правильно ли я рассчитал мощность критериев и если неправильно, то в чём ошибка?
2. Если $H_0$: $F(x) = G(x)$, какие альтернативные гипотезы можно проверить с помощью критерия Омега-квадрат?
3. Можно ли применять критерий Омега-квадрат к выборкам из дискретных распределений и если можно, то как?
4. Для нормального и равномерного распределения сдвиг функции распределения $F(x+\theta)$ эквивалентен увеличению матожидания и медианы на ту же величину?
5. Если к значениям любой случайной величины добавить величину $\theta$, то это эквивалентно увеличению матожидания и медианы на ту же величину?

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение18.03.2023, 15:49 


27/06/20
337
igor_ivanov в сообщении #1585858 писал(а):
критерия Манна-Уитни равна 21,1 %.
Побольше, если ничего не "округлять".
Мощнее, чем тест Стьюдента, на таких вводных.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 74 ]  На страницу Пред.  1, 2, 3, 4, 5

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Mikhail_K


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group