2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3, 4, 5
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 11:37 


09/11/19
146
alisa-lebovski в сообщении #1584956 писал(а):
Нет, имелся в виду сдвиг распределения целиком, по формуле $F(x-\theta)$, а не отдельных его параметров.
Рассмотрим ситуацию. Вот есть у нас "несдвигаемые" функции распределения F(x) и G(x). Но мы не знаем о том, что они "несдвигаемы". Находясь в неведении, мы формулируем гипотезы $H_0$: $F(x)=G(x)$ и $H_1$: $F(x)=G(x-\theta)$. Выходит, мы получили некорректно поставленную задачу, и в этой ситуации что-либо говорить о состоятельности, мощности и т.п. критерия нельзя?

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 12:10 


21/03/11
200
igor_ivanov
В определении всякого двухвыборочного статистического критерия фигурирует семейство допустимых распределений $\mathcal{F}$, которое можно разделить на два непересекающихся множества $\mathcal{F}_0$ и $\mathcal{F}_1$: $\mathcal{F} = \mathcal{F}_0 \sqcup \mathcal{F}_1$, гипотезы же имеют вид $H_0: (F_{\text{true}}, G_{\text{true}})\in \mathcal{F}_0,  ~~ H_1: (F_{\text{true}}, G_{\text{true}})\in \mathcal{F}_1$. В случае указанных вами гипотез $H_0$ и $H_1$ семейство $\mathcal{F}$ состоит лишь из тех распределений, которые либо совпадают друг с другом ($\mathcal{F}_0 = \{(F,G) \in \mathcal{F}: F(x) = G(x)\}$), либо отличаются друг от сдруга сдвигом функции распределения ($\mathcal{F}_1 = \{(F,G)\in \mathcal{F}: F(x) = G(x - \theta)\}$). То есть при использовании таких гипотез вы делаете предположение, что другие распределения невозможны. Если же у вас нет оснований делать это предположение, то применение критерия Манна-Уитни в рамках данной перспективы (для проверки указанных вами гипотез $H_0$ и $H_1$) будет некорректным.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 12:58 


09/11/19
146
give_up в сообщении #1584958 писал(а):
Я некоторое время назад интересовался состоятельностью критерия Манна-Уитни при различных постановках гипотез, и мне очень помогла вот эта статья https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/, чтобы с этим разобраться. Там описывается 15 популярных "перспектив" (формулировок гипотез) критерия Манна-Уитни
Являются ли альтернативные гипотезы, приведённые в данной статье, частными случаями гипотезы $P(X<Y) \ne 1/2$? Например, неравенство матожиданий $E[X] \ne E[Y]$ - частный случай гипотезы $P(X<Y) \ne 1/2$ (насколько я понимаю, если $E[X] \ne E[Y]$, то $P(X<Y) \ne 1/2$ всегда).

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 13:36 


21/03/11
200
igor_ivanov в сообщении #1584969 писал(а):
Являются ли альтернативные гипотезы, приведённые в данной статье, частными случаями гипотезы $P(X<Y) \ne 1/2$?

В случае альтернативы $P(X < Y) \neq 1/2$ нужно сначала посмотреть, какая у вас нулевая гипотеза, чтобы понять, какое семейство допустимых распределений вы используете. Если нулевая гипотеза $P(X < Y) = 1/2$ - то это одна ситуация (в ней допустимое семейство содержит все возможные пары распределений), если нулевая гипотеза имеет вид $F = G$ - то другая ситуация (это перспектива 3 из статьи, в ней допустимое семейство уже не содержит все возможные пары распределений, так как оно не содержит те пары, для которых $P(X < Y) = 1/2$ и $F \neq G$; в этом случае альтернатива $F \neq G$ при нулевой гипотезе $F = G$ - перспектива 4 из статьи - будет "шире" альтернативы $P(X < Y) \neq 1/2$ при той же нулевой гипотезе (в том смысле что семейство $\mathcal{F}_1$, построенное по первой альтернативе будет включать в себя больше распределений, чем семейство $\mathcal{F}_1$, построенное по второй альтернативе)).

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 14:43 


09/11/19
146
Рассмотрим "перспективу 1" из статьи $H_0$: $F=G$ и $H_1$: $E_F(Y)=E_G(Y)$. Насколько я понял, это означает, что функции распределения тождественны или отличаются только матожиданиями. Подходят ли под данную постановку задачи функции распределения Norm(0, 1) и Norm(1, 1) и если нет, то почему?

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение10.03.2023, 15:20 


21/03/11
200
igor_ivanov в сообщении #1584980 писал(а):
Рассмотрим "перспективу 1" из статьи $H_0$: $F=G$ и $H_1$: $E_F(Y)=E_G(Y)$.

В альтернативе там неравенство.
igor_ivanov в сообщении #1584980 писал(а):
Насколько я понял, это означает, что функции распределения тождественны или отличаются только матожиданиями.

В семейство $\mathcal{F}_1$ входят распределения, у которых матожидания не равны. Но при этом у них также могут быть еще неравные дисперсии, или другие вещи.
В статье там прямо написано, какие распределения не входят в допустимое семейство распределений $\mathcal{F}$ (там оно обозначено буквой $\mathrm{P}$, но я лучше буду использовать обозначение $\mathcal{F}$) перспективы 1:
Цитата:
$\mathcal{F}$ is the strange set of all distributions $F$ and $G$ except those that have equal means but are not equal.

То есть в него входят все пары распределений $(F,G)$, за исключением тех, у которых одинаковые матожидания $E_F(X)=E_G(Y)$, и одновременно с этим у которых $F \neq G$.
igor_ivanov в сообщении #1584980 писал(а):
Подходят ли под данную постановку задачи функции распределения Norm(0, 1) и Norm(1, 1) и если нет, то почему?

У этих распределений разные матожидания, а значит они принадлежат семейству $\mathcal{F}_1$. Тем не менее, в статье сказано
Цитата:
This is not a consistent perspective.

Так что на практике никто "перспективу 1" не проверяет критерием Манна-Уитни, раз она не состоятельна. Ее даже в таблице в середине статьи нет.
Лучше не тратьте свое (и мое) время на несостоятельные/невалидные перспективы, никто с ними на практике не работает. Вместо этого посмотрите те перспективы, которые в таблице в столбце WMW помечены буквами "yy" (это валидные состоятельные перспективы для критерия Манна-Уитни)

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 00:54 


09/11/19
146
Рассмотрим перспективы 2, 3, 6 из статьи. Гипотезы там сформулированы для двухвыборочного критерия Манна-Уитни. Нулевая гипотеза везде одинаковая $H_0$: $F = G, F \in \Psi_C$ , то есть функции распределения тождественны и непрерывны.
Перспектива 2 (стохастический порядок) $H_1: F <_{st} G$ или $G <_{st} F$, то есть речь идёт о стохастическом доминировании первого порядка. Запись $F <_{st} G$ означает, что $F(x) \geqslant G(x)$, причём по крайней мере для одного значения $x$ выполняется неравенство $F(x) > G(x)$. Запись $F(x) > G(x)$ означает, что $P(X_F < X_G) > 1/2$. Таким образом, гипотеза $H_1$ означает $P(X_F < X_G) \ne 1/2$.
Перспектива 3 (функционал Манна-Уитни) $H_1$: $\Phi(F, G) \ne 1/2$. Не понял, что это означает, но вроде бы это не очень реалистичная перспектива.
Перспектива 6 (сдвиг) $H_1$: $F(x) = G(x+\theta)$, где $\theta \ne 0$.

Вопросы:
1. Функция «несдвигаема», если значения $x$ ограничены сверху-снизу, например, как в бета-распределении?
2. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta \ne 0$, это значит, что для имеющихся функций распределения $F(x)\ne G(x)$ можно подобрать такое $\theta \ne 0$, что $F(x) = G(x+\theta)$?
3. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta > 0$, что можно сказать о случайной величине $X_G$ или о параметрах $G(x)$ в сравнении с $F(x)$?
4. Можно ли в перспективах 2, 3, 6 вместо двухвыборочного критерия применять одновыборочный?
5. Если нулевую гипотезу $F = G$ заменить на $P(X<Y)=1/2$, а альтернативные гипотезы из перспектив 2, 3, 6 оставить прежними, критерий по-прежнему будет состоятельным и критические значения останутся теми же?
6. Правильно ли я понимаю, что статистика «заканчивается» расчётом критических значений для разных уровней значимости и объёмов выборки, а дальше начинаются внестатистические решения: а) ситуацию, при которой $U_{test}$ находится вне доверительного интервала для заданного уровня значимости и объёма выборки, назовём «$H_0$ отвергнута»; б) если $H_0$ отвергнута, считаем, что условие, сформулированное в $H_1$, (скорее всего) верно, а значит, у нас есть веские основания для неких выводов или принятия неких решений. Если в данном рассуждении есть ошибки, прошу указать в чём именно.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 07:15 
Заслуженный участник
Аватара пользователя


11/03/08
10007
Москва
igor_ivanov в сообщении #1584969 писал(а):
насколько я понимаю, если $E[X] \ne E[Y]$, то $P(X<Y) \ne 1/2$ всегда


Нет. Простой контрпример. Элементы X принимают с равной вероятностью значения 1 и 2, элементы Y - 0 и 100.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 09:22 


21/03/11
200
igor_ivanov в сообщении #1585141 писал(а):
1. Функция «несдвигаема», если значения $x$ ограничены сверху-снизу, например, как в бета-распределении?

Думаю если у вас есть априорная информация, что носитель распределений $F$ и $G$ совпадает и имеет вид отрезка $[a,b]$, то перспективу 6 рассматривать не стоит.
igor_ivanov в сообщении #1585141 писал(а):
2. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta \ne 0$, это значит, что для имеющихся функций распределения $F(x)\ne G(x)$ можно подобрать такое $\theta \ne 0$, что $F(x) = G(x+\theta)$?

Фраза "для имеющихся функция распределения $F(x)\ne G(x)$" мне не нравится. На этапе выдвижения гипотез вы этого не знаете. В перспективе 6 вы знаете (точнее, предполагаете с достаточно большой степенью уверенности) лишь то, что распределения $F,G$ либо совпадают, либо отличаются друг от друга сдвигом.
igor_ivanov в сообщении #1585141 писал(а):
3. Если $H_1$: $F(x) = G(x+\theta)$ и $\theta > 0$, что можно сказать о случайной величине $X_G$ или о параметрах $G(x)$ в сравнении с $F(x)$?

В этом случае $\theta$ есть разница между медианами распределений $F$ и $G$. Она же одновременно является разницей между их матожиданиями, разницей между их модами, разницей между их p-ми перцентилями (для любого $p \in (0,100)$)
igor_ivanov в сообщении #1585141 писал(а):
4. Можно ли в перспективах 2, 3, 6 вместо двухвыборочного критерия применять одновыборочный?

Если вы сольете две выборки в одну, то тогда и критерий и гипотезы другие будут - это ведь совсем другая ситуация
igor_ivanov в сообщении #1585141 писал(а):
5. Если нулевую гипотезу $F = G$ заменить на $P(X<Y)=1/2$, а альтернативные гипотезы из перспектив 2, 3, 6 оставить прежними, критерий по-прежнему будет состоятельным и критические значения останутся теми же?

Нет.
igor_ivanov в сообщении #1585141 писал(а):
6. Правильно ли я понимаю, что статистика «заканчивается» расчётом критических значений для разных уровней значимости и объёмов выборки

Что значит для разных объемов выборки? У вас обычно есть две выборки, объемы которых фиксированы

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 09:47 


09/11/19
146
give_up в сообщении #1585154 писал(а):
Что значит для разных объемов выборки? У вас обычно есть две выборки, объемы которых фиксированы
Имеется ввиду стандартная постановка задачи, что есть две выборки $x_1, ..., x_N$ и $y_1, ..., y_M$, а границы доверительного интервала зависят от уровня значимости $\alpha$, $N$ и $M$.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 10:33 


21/03/11
200
igor_ivanov в сообщении #1585141 писал(а):
при которой $U_{test}$ находится вне доверительного интервала для заданного уровня значимости и объёма выборки, назовём «$H_0$ отвергнута»

Здесь тоже непонятно, что за доверительный интервал вы имеете в виду. Гипотеза $H_0$ отвергается, если значение тестовой статистики попало в так называемую критическую область (границы которой зависят от $\alpha, N, M$). А доверительные интервалы строятся для параметров распределения, это уже другая тема.
Почитайте на досуге в книге Ивченко "Введение в математическую статистику" параграф "§4.1. Основные понятия и общие принципы теории проверки гипотез" и вот этот раздел из википедии: https://en.wikipedia.org/wiki/Statistic ... ng_process. Тогда процедура проверки гипотез станет яснее. А я пока вынужден до завтрашнего дня отойти от компа, все-таки выходной день.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение12.03.2023, 10:39 


09/11/19
146
give_up в сообщении #1585158 писал(а):
Здесь тоже непонятно, что за доверительный интервал вы имеете в виду. Гипотеза $H_0$ отвергается, если значение тестовой статистики попало в так называемую критическую область (границы которой зависят от $\alpha, N, M$).
Приношу извинения. Я неправильно использовал термин "доверительный интервал". Я имел ввиду критическую область.

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение18.03.2023, 14:33 


09/11/19
146
Рассчитаем мощность одностороннего критерия Манна-Уитни и одностороннего критерия Омега-квадрат (Смирнова-Крамера-фон Мизеса) для случая:
объёмы выборок $N = M = 7$;
уровень значимости $\alpha \approx 0,05$;
$H_0$: $F(x) = G(x)$, где $F(x)$ - функция распределения нормального распределения с параметрами $\mu = 100$ и $\sigma = 2$;
$H_1$: $F(x) = G(x+\theta)$, где $\theta = 1$.

Методика определения мощности критериев:
1. Генерируем две выборки объёмами $N = M = 7$ из нормальных распределений $Normal(100, 2)$ и $Normal(101, 2)$. Рассчитываем статистику Манна-Уитни $U$ и проверяем выполнение неравенства $U \geqslant 38$, где 38 – критическое значение для $N = M = 7$ и $\alpha = 0,048660 \approx 0,05$. Повторяем описанный алгоритм 1 млн раз. Результат: неравенство $U \geqslant 38$ выполняется в 21,1 % случаев; таким образом, мощность критерия Манна-Уитни равна 21,1 %.
2. Генерируем две выборки объёмами $N = M = 7$ из нормальных распределений $Normal(100, 2)$ и $Normal(101, 2)$. Рассчитываем статистику Омега-квадрат $O$ и проверяем выполнение неравенства $O \geqslant 1925$, где 1925 – критическое значение для $N = M = 7$ и $\alpha = 0,048951 \approx 0,05$. Повторяем описанный алгоритм 1 млн раз. Результат: неравенство $O \geqslant 1925$ выполняется в 12,9 % случаев; таким образом, мощность критерия Омега-квадрат равна 12,9 %.

Вопросы:
1. Правильно ли я рассчитал мощность критериев и если неправильно, то в чём ошибка?
2. Если $H_0$: $F(x) = G(x)$, какие альтернативные гипотезы можно проверить с помощью критерия Омега-квадрат?
3. Можно ли применять критерий Омега-квадрат к выборкам из дискретных распределений и если можно, то как?
4. Для нормального и равномерного распределения сдвиг функции распределения $F(x+\theta)$ эквивалентен увеличению матожидания и медианы на ту же величину?
5. Если к значениям любой случайной величины добавить величину $\theta$, то это эквивалентно увеличению матожидания и медианы на ту же величину?

 Профиль  
                  
 
 Re: Вопросы по критерию Манна-Уитни
Сообщение18.03.2023, 15:49 


27/06/20
337
igor_ivanov в сообщении #1585858 писал(а):
критерия Манна-Уитни равна 21,1 %.
Побольше, если ничего не "округлять".
Мощнее, чем тест Стьюдента, на таких вводных.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 74 ]  На страницу Пред.  1, 2, 3, 4, 5

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group