Вопросы по критерию Манна-Уитни

ipgmvq · 08.03.2023, 18:56

igor_ivanov в сообщении #1584853 писал(а):

Если нулевая гипотеза не опровергается на уровне значимости p<0.05, следует ли из этого, что вероятность отсутствия сдвига в распределениях случайных величин больше вероятности наличия сдвига?

Цитирую: НЕТЪ

Евгений Машеров · 08.03.2023, 19:01

Вообще-то Вы не мою модель проверяли. В моей не случайно выбирается, будет ли значение в (0,1) или (2,3), а ровно половина таких, половина таких. И безо всякого Монте-Карло получаем значения U-статистик. У Вас добавлен случайный выбор "половинок". Это и делает "зубчатость" кривой.

alisa-lebovski · 08.03.2023, 19:20

Евгений Машеров в сообщении #1584862 писал(а):

В моей не случайно выбирается

Так то вообще нарушается случайность выборки! Такое не считается.

ipgmvq · 08.03.2023, 19:21

Евгений Машеров в сообщении #1584862 писал(а):

В моей не случайно выбирается, будет ли значение в (0,1) или (2,3), а ровно половина таких, половина таких.

Извините, не понял Вас сразу.
Тогда Ваш пример за пределами добра и зла. Всё-таки эти тесты для выборок (каждая из которых) из одинаково распределенных случайных величин. А тут я вижу неслучайную выборку. Можно ли Ваш контр-пример с U(0,1) & U(2,3) сформулировать в виде случайной выборки из какой-то случайной величины c единой для всех элементов выборки функцией распределения. Иначе его ну очень сложно принять как контр-аргумент. :-)

Евгений Машеров · 08.03.2023, 19:26

Можно, конечно. См. 2 том Кнута. Как получить при случайном отборе ровно нужное количество элементов выборки, но при этом каждый выбирается случайно и с равной вероятностью.
Хотя, конечно, пример несколько утрированный.
Но если брать "просто случайный", как в Вашей модели, то доля элементов из "верхней" и "нижней" частей будет по мере роста объёма выборки стремиться к 50%, и способность Манна-Уитни различить распределения будет стремиться к нулю.
Увы, универсальных инструментов нет, и хотя Манн-Уитни в ряде задач удобен - он тоже для частной задачи.

igor_ivanov · 08.03.2023, 19:40

Евгений Машеров в сообщении #1584860 писал(а):

Мы можем говорить о вероятностях ошибок I и II рода

$H_0$ – гипотеза об отсутствии сдвига в функциях распределения (вроде, такую гипотезу мы проверяем). Ошибка I рода – $H_0$ неверно принята. Ошибка II рода – $H_0$ неверно отвергнута.
Верны ли следующие утверждения:
1. Если нулевая гипотеза не опровергается на уровне значимости $p<0.05$ , вероятность наличия сдвига в функциях распределения менее 5 %.
2. Если нулевая гипотеза опровергается на уровне значимости $p<0.05$ , вероятность отсутствия сдвига в функциях распределения менее 5 %.

alisa-lebovski · 08.03.2023, 20:22

Возникает еще вопрос: существуют ли такие распределения $F\ne G$ для $X,Y$ , что распределение статистики $U$ имеет те же среднее и дисперсию (по которым и считаются критические точки при достаточно больших $n$ ), что при равенстве распределений? Это сводится к следующим условиям:
$\int_RF\,dG(x)=\frac12,\quad \int_RF^2\,dG(x)=\frac13,\quad \int_RG^2\,dF(x)=\frac13$ (первое условие относится к среднему, вторые два - к дисперсии). Не берусь с ходу привести решения, но подозреваю, что они есть, потому что условий конечное число, а пространство функций распределения бесконечномерно.

ipgmvq · 09.03.2023, 01:11

alisa-lebovski в сообщении #1584876 писал(а):

Возникает еще вопрос: существуют ли такие распределения $F\ne G$ для $X,Y$ , что распределение статистики $U$ имеет те же среднее и дисперсию (по которым и считаются критические точки при достаточно больших $n$ ), что при равенстве распределений?

Да, интересный вопрос!

igor_ivanov
1. НЕТЪ
2. НЕТЪ :-)

Евгений Машеров в сообщении #1584868 писал(а):

Но если брать "просто случайный", как в Вашей модели, то доля элементов из "верхней" и "нижней" частей будет по мере роста объёма выборки стремиться к 50%, и способность Манна-Уитни различить распределения будет стремиться к нулю.

Увы, я сразу тоже посмотрел и этот случай. Как и в случае с нормальным распределением с разными дисперсиями, при увеличении размера выборки со 100 до 1000 и до 10 000 нет никаких признаков схождения.
В Вашем случае (с моим его "случайным" пониманием) то же: при увеличении выборки до 10 000 (с сохранением количества повторов в Монте-Карло на уровне 100 000) зигзаги уменьшаются, а ухмылка QQ плота для значений p сохраняется. Более того, в Вашем случае частота отвержения нулевой гипотезы на концах 0.025 даже нарастает:
0.05483 (ДИ Клоппера-Пирсона 0.05343-0.05626, значение p для отличия от теоретических 0.025 очень близко к нулю (floating point точность ноутбука не позволяет отличить его от нуля)) и в 0.05403 (ДИ Клоппера-Пирсона 0.05264-0.05545, значение p для отличия от теоретических 0.025 очень близко к нулю (floating point точность ноутбука не позволяет отличить его от нуля))).

Ниже код и реальный QQ-plot для значений p.

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

import matplotlib.pyplot as plt

from scipy.stats import mannwhitneyu, binomtest, uniform, randint

import gc

размер_выборки = 10000

размер_выборки_MC = 1000

значения_p = []

for _ in range(100):

    gc.collect()

    U1 = uniform.rvs(size=(размер_выборки, размер_выборки_MC)) + 2 * randint.rvs(low=0, high=2, size=(размер_выборки, размер_выборки_MC))

    U2 = uniform.rvs(size=(размер_выборки, размер_выборки_MC)) + 1

    значения_p_10000 = mannwhitneyu(U1,

                                    U2,

                                    alternative='greater').pvalue

    значения_p.append(значения_p_10000)

значения_p = np.concatenate(значения_p)

значения_p = np.sort(значения_p)

plt.plot(np.linspace(0.0,1.0,размер_выборки_MC*100),значения_p)

plt.xlabel('Теоретические квантили', fontsize=18)

plt.ylabel('Эмпирические квантили', fontsize=18)

plt.title('p-value to p-value plot', fontsize=28)

plt.xlim(0.0,1.0)

plt.ylim(0.0,1.0)

plt.show()

print(binomtest((значения_p < 0.025).sum(), размер_выборки_MC*100, p=0.025).proportion_ci())

print(binomtest((значения_p < 0.025).sum(), размер_выборки_MC*100, p=0.025))

print(binomtest((значения_p > 0.975).sum(), размер_выборки_MC*100, p=0.025).proportion_ci())

print(binomtest((значения_p > 0.975).sum(), размер_выборки_MC*100, p=0.025))

Причины асимптотического несхождения
Но Ваш утрированный пример (в моем "случайном" понимании) помог мне сообразить сегодня, почему они асимптотически не сходятся и вообще почему этот утрированный случай не дает распределение U неасимптотически и асимптотически тоже.
Ниже я рассматриваю вариант только двух равных по размеру выборок (где размер каждой из них — n).
Как известно (из публикации Манна и Уитни):
$\mathop{\mathbb{E}} (U) = \frac{n^2}{2}$
$Var(U) = \frac{n^2(2n+1)}{12}$
Представим процесс получения U на двух выборках размером n, по очереди получая пары случайных величин (по одной на выборку) от 1-й до n-нной.
Получаем 1-й элемент 2-й выборки: его значение предсказуемо от 1 до 2. Если 1-й элемент 1-й выборки окажется больше, т.е. примет значение от 2 до 3, то при равенстве функций распределения мы могли бы сразу констатировать только то, что он больше 1-го элемента 2-й выборки (который принял значение от 1 до 2) и добавили бы в U единицу. Но в Вашем утрированном случае, получив 1-й элемент 1-й выборки больше 1-го элемента 2-й выборки, мы точно знаем, что он будет больше вообще всех n элементов 2-й выборки. Поэтому смело можем добавить n в U. Если бы 1-й элемент 1-й выборки принял значение от 0 до 1 и был бы меньше 1-го элемента 2-й выборки, то его отношение к последующим элементам 2-й выборки в случае равенства функций распределения оставалось бы интригой, но в Вашем утрированном случае мы можем сразу быть уверенными, что он внесет ноль в U для всех своих соотношений с n элементами 2-й выборки.
Иными словами U в Вашем утрированном случае имеет распределение $n \cdot binom(n, p=0.5)$ .
Матожидание биномиального распределения c p=0.5 равно $\frac{n}{2}$ , а дисперсия $\frac{n}{4}$ .
Соответственно матожидания такого U в Вашем утрированном случае будет $\frac{n^2}{2}$ (что совпадает с матожиданием U при равенстве функций распределения), а его дисперсия $\frac{n^3}{4}$ (что асимптотически в полтора раза больше, чем дисперсия U при равенстве функций распределения). Поэтому когда тест Манна-Уитни при больших выборках нормирует U и использует нормальную аппроксимацию, мы на конце, где должно быть 0.025 значений, получаем около 0.0548, как в Монте-Карло выше и в Питоне ниже:

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

from scipy.stats import norm

ξ1 = norm(loc=0, scale=1)

ξ2 = norm(loc=0, scale=np.sqrt(1.5))

print(1.0 - ξ2.cdf(ξ1.ppf(1.0 - 0.025)))

Код:

0.05476559192618757

ipgmvq · 10.03.2023, 02:10

alisa-lebovski в сообщении #1584746 писал(а):

По-видимому, тут есть проблема в терминологии. Что значит, что какой-то критерий проверяет гипотезу или применим для проверки гипотез. Это можно говорить в том смысле, что если применять критерий при верной гипотезе, то критические точки для таких-то значений ошибок первого рода (уровней значимости) считаются по такой-то формуле или таблице. А можно говорить в том смысле, что при какой-то альтернативе (или наборе альтернатив) с ростом числа наблюдений вероятность отклонить гипотезу стремится к единице.

Согласен — вопрос о терминологии.
Авторы не очень эксплицитно одобрили [1] для нулевой гипотезы $f=g$ подмножество альтернатив, где одна из случайных величин имеет "строгое" стохастическое доминирование 1-го порядка над второй.

В главе 5 Consistency of the U test:

Цитата:

The alternatives admitted are f(a) > g(a) for every a.

В главе 6 Comparison with other tests:

Цитата:

The test by Wald and Wolfowitz is consistent with respect to every alternative g. However in the case considered we are only interested in the alternative hypothesis that measurements in the group receiving treatment are stochastically larger that in the control group.

Без всяких сомнений setup'ы с изменением параметра "несдвигаемых" распределений (типа бета-распределения)†, которые неизбежно приводят к "строгому" стохастическому доминированию 1-го порядка и исключают промежуточную ситуацию, при которой f(x) и g(x) пересекаются или касаются не будучи тождественными, (примеры которых я привел выше), не нарушая состоятельности, полностью подпадают под нулевую и принимаемое авторами подмножество альтернативных гипотез.
Социалогически мне очень интересно, как эта неверная более строгая интерпретация теста в виде истории со сдвигом просочилась в учебники, энциклопедии на правах "классической".
Wilcoxon, который опубликовал этот критерий в 1945 году [2] и на которого авторы ссылаются, был очень краток и тоже не говорил ни о каком сдвиге.

The annals of mathematical statistics

Полный текст

Biom Bull

Полный текст

† Представьте, что вмешательство (токсин, лекарство, прибор) влияет на оксигенацию крови. Она измеряется в процентах (допустим, в исследовании прибор измеряет её с точностью не до процента, но с точностью в несколько знаков после запятой) и, варьируясь в пределах, скажем, трёх процентов в норме, тесно прилежит к правому краю допустимых значений. Ни о каком сдвиге тут речи идти не может.

igor_ivanov · 10.03.2023, 08:15

ipgmvq в сообщении #1584944 писал(а):

setup'ы с изменением параметра "несдвигаемых" распределений (типа бета-распределения)

Насколько я понимаю, "сдвигаемость" означает, что у функций распределения F(x) и G(x) разные параметры сдвига, например, матожидания. В частности, у бета распределений Beta(1, 1) и Beta(1, 3) матожидания равны 1/2 и 1/4 соответственно. Таким образом, бета-распределение "сдвигаемо".

ipgmvq в сообщении #1584944 писал(а):

Представьте, что вмешательство (токсин, лекарство, прибор) влияет на оксигенацию крови. Она измеряется в процентах (допустим, в исследовании прибор измеряет её с точностью не до процента, но с точностью в несколько знаков после запятой) и, варьируясь в пределах, скажем, трёх процентов в норме, тесно прилежит к правому краю допустимых значений. Ни о каком сдвиге тут речи идти не может.

А по-моему, может. Допустим, есть случайная величина $X \leqslant 100$ с медианой 95. Данную случайную величину можно "сдвинуть" вправо, поменяв её параметры распределения так, чтобы $X \leqslant 100$ , а медиана была 96.

Евгений Машеров · 10.03.2023, 08:18

Потому, что это более востребованная постановка, чем о стохастическом доминировании. Собственно, практически интересен прежде всего "сдвиг", и тест на практике используется, как "не требующий нормального распределения Стьюдент".

igor_ivanov · 10.03.2023, 09:23

Верно ли что, критерий Манна-Уитни при нулевой гипотезой $F(x) = G(x)$ несостоятелен против гипотезы $H_1$ , заключающейся в том, что случайные величины X и Y таковы, что $F(x) \ne G(x)$ и $P(X < Y) = 1/2$ ? Насколько мне известно, состоятельный критерий – критерий, для которого с ростом размера выборки вероятность отвергнуть нулевую гипотезу стремится к 1, если верна альтернативная гипотеза.

alisa-lebovski · 10.03.2023, 10:07

igor_ivanov в сообщении #1584950 писал(а):

Насколько я понимаю, "сдвигаемость" означает, что у функций распределения F(x) и G(x) разные параметры сдвига, например, матожидания. В частности, у бета распределений Beta(1, 1) и Beta(1, 3) матожидания равны 1/2 и 1/4 соответственно. Таким образом, бета-распределение "сдвигаемо".

Нет, имелся в виду сдвиг распределения целиком, по формуле $F(x-\theta)$ , а не отдельных его параметров.

Другое дело, что даже классическая формулировка со сдвигом может учитывать непрерывные возрастающие преобразования случайных величин. Например, если есть положительные величины, отличающиеся не сдвигом, а масштабным множителем, то логарифмом они приводятся к отличию сдвигом, а отношение больше-меньше сохраняется. Но бета и сюда не подходит, насколько я понимаю.

igor_ivanov в сообщении #1584953 писал(а):

Верно ли что, критерий Манна-Уитни при нулевой гипотезой $F(x) = G(x)$ несостоятелен против гипотезы $H_1$ , заключающейся в том, что случайные величины X и Y таковы, что $F(x) \ne G(x)$ и $P(X < Y) = 1/2$ ?

Да, вот это верно.

give_up · 10.03.2023, 10:37

igor_ivanov
Я некоторое время назад интересовался состоятельностью критерия Манна-Уитни при различных постановках гипотез, и мне очень помогла вот эта статья https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/, чтобы с этим разобраться. Там описывается 15 популярных "перспектив" (формулировок гипотез) критерия Манна-Уитни, и в середине статьи в разделе 5.3.1 есть таблица, в которой указано, какие перспективы состоятельны. Советую с ней ознакомиться, если вы ее еще не видели. Конкретно той перспективы, что вы указали, там нет. Но я тоже думаю что она будет несостоятельна (в противном случае ее наверняка указали бы в таблице как представляющую интерес).
И да, среди этих 15 перспектив есть те, которые в этой теме выше обсуждались (с альтернативой стохастического доминирования, с альтернативой сдвига и другие).

Евгений Машеров · 10.03.2023, 10:39

igor_ivanov в сообщении #1584953 писал(а):

Верно ли что, критерий Манна-Уитни при нулевой гипотезой $F(x) = G(x)$ несостоятелен против гипотезы $H_1$ , заключающейся в том, что случайные величины X и Y таковы, что $F(x) \ne G(x)$ и $P(X < Y) = 1/2$ ?

Он не просто "несостоятелен". Он вообще для проверки этой гипотезы не предназначен. Сам по себе он предназначен для проверки гипотезы об отсутствии стохастического доминирования. Но поскольку практическая востребованность именно такой гипотезы невелика, а вот вопрос "действительно ли есть разница в параметре положения" представляет весьма частый интерес, постулируется совпадение распределений с точностью до сдвига и проверяется гипотеза, что сдвиг отсутствует.

Научный форум dxdy

Вопросы по критерию Манна-Уитни