Вопросы по критерию Манна-Уитни

ipgmvq · 07.03.2023, 21:46

igor_ivanov в сообщении #1584764 писал(а):

Какая из моих интерпретаций верная

В чём Вы видите принципиальную разницу?
Если Вы изучаете логику авторов, ход их мыслей, то (переведите, если нужно, и) прочитайте их статью. Я вижу, Вам интересна внутренность этого теста и история его открытия. Лучше этой публикации об этом никто не расскажет.

igor_ivanov · 07.03.2023, 22:51

ipgmvq в сообщении #1584766 писал(а):

В чём Вы видите принципиальную разницу?

В первом случае рассматриваемое утверждение подлежит проверке тестом Манна-Уитни, а значит, работа, на которую Вы ссылаетесь, должна содержать доказательство того, что данный тест проверяет именно это утверждение, а не более слабое; однако в работе, на которую Вы ссылаетесь, я не нашёл доказательства. Во втором случае рассматриваемое утверждение дано в условии задачи, а значит, верно без всяких проверок и доказательств.

alisa-lebovski · 07.03.2023, 23:40

С точки зрения нормального человека, работающая сигнализация - это та, которая включается, если что-то не так, а не та, которая редко включается, если все в порядке. К сожалению, в математике все сложнее.

ipgmvq · 08.03.2023, 01:08

igor_ivanov
я совсем запутался. Пожалуйста, очень конкретно:

igor_ivanov в сообщении #1584772 писал(а):

что данный тест проверяет именно это утверждение

какое это?

igor_ivanov в сообщении #1584772 писал(а):

а не более слабое

какое более слабое?

igor_ivanov в сообщении #1584772 писал(а):

я не нашёл доказательства

доказательство чего?

Евгений Машеров · 08.03.2023, 08:22

Тест Манна-Уитни тождественность функций распределения проверить не может. В качестве примера - случайная величиня Х принимает с равной вероятностью значение из интервала (0,1) или (2,3), а величина Y из интервала (1,2). Распределения разные, суммы рангов одинаковые.
Сам по себе он проверяет то, что для случайного элемента первой выборки вероятность того, что он будет больше случайного элемента второй выборки, равен 1/2. Большого практического значения такая проверка не имеет.
Практическое значение тест получает, когда мы из внестатистических соображений предполагаем, что распределения совпадают с точностью до параметра сдвига и проверяем гипотезу, что он равен нулю.

igor_ivanov · 08.03.2023, 11:54

Рассмотрим постановку задачи из [1, с. 454]. Пусть $x_1, …, x_n$ и $y_1, …, y_m$ – выборки. U – число пар значений $x_i$ и $y_j$ , для которых $x_i < y_j$ . Если $U_1(\alpha) \leqslant U \leqslant U_2(\alpha)$ , гипотеза сдвига отклоняется. $U_1(\alpha)$ и $U_2(\alpha)$ – критические значения статистики Манна-Уитни.
Правильно ли я понимаю, что в данной задаче есть, но явным образом не прописаны, следующие условия:
1. X и Y – независимые непрерывные случайные величины.
2. F(x) и G(x) – функции распределения X и Y тождественны или отличаются только сдвигом.
3. Априорная вероятность того, что F(x) и G(x) тождественны, равна априорной вероятности того, что F(x) и G(x) отличаются только сдвигом.
4. Других неявных условий, вроде, нет.

Список используемой литературы:
1. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМАТЛИТ, 2006. - 816 с. - ISBN 5-9221-0707-0.

Евгений Машеров · 08.03.2023, 12:39

1а. Вообще применительно к тестам под "зависимыми величинами" понимают возможность сопоставить значения из первой и второй выборки, чтобы некие "общие параметры" не мешали бы (скажем, измерения давления у одних и тех же пациентов до и после приёма препарата, можем игнорировать индивидуальные особенности давления). В этом смысле "независимы".
1б. Работает и с дискретными (хотя возможность совпадения значений несколько усложняет ранжирование).
1в. А что, статистика это не про случайные?
2. Если мы хотим сделать выводы о сдвиге - то надо постулировать одинаковость распределений с точностью до сдвига. Применение теста вне этого предположения бывает, но это "на неимением гербовой пишем на простой, за неимением горничной любим дворника". Но обычно полагают, что механизм одинаков, стало быть, и распределение одинаково.
3. Нет. Или даже НЕТЪ!. Априорные вероятности из другого мира, мира байесовского оценивания. Здесь вообще не делается никаких предположений о вероятностях гипотез.

igor_ivanov · 08.03.2023, 13:08

Евгений Машеров в сообщении #1584828 писал(а):

3. Нет. Или даже НЕТЪ!. Априорные вероятности из другого мира, мира байесовского оценивания. Здесь вообще не делается никаких предположений о вероятностях гипотез.

А какова тогда "внутренняя логика" отклонения гипотезы сдвига при $U_1(\alpha) \leqslant U \leqslant U_2(\alpha)$ ? Мой ход мыслей: 1) если сдвига нет, значит, доля значений U, принадлежащих указанному интервалу, равна $\alpha$ ; 2) если сдвиг есть, значит, доля значений U, принадлежащих указанному интервалу, меньше $\alpha$ ; 3) если априорные вероятности гипотез о наличии и отсутствии сдвига равны и значение U конкретной выборки принадлежит указанному интервалу, значит, более вероятна гипотеза об отсутствии сдвига.

ipgmvq · 08.03.2023, 14:50

Евгений Машеров в сообщении #1584813 писал(а):

В качестве примера - случайная величиня Х принимает с равной вероятностью значение из интервала (0,1) или (2,3), а величина Y из интервала (1,2). Распределения разные, суммы рангов одинаковые.

Этот подобен случаю выше с двумя нормальными распределениями с одинаковым матожиданием и очень разной дисперсией. Распределение критерия искажено даже на больших выборках и нулевая гипотеза отвергается почти в два раза чаще, чем положено. Но да, работает из рук вон плохо.

Евгений Машеров в сообщении #1584813 писал(а):

Практическое значение тест получает, когда мы из внестатистических соображений предполагаем, что распределения совпадают с точностью до параметра сдвига и проверяем гипотезу, что он равен нулю.

Не все распределения можно "двигать". К примеру, логнормальное двигается только в одну сторону. Бета вообще не двигается. Представим, что у нас есть некая случайная величина с распределением beta(3,4). Некое экспериментальное вмешательство изменяет его параметр b с 4 на 5 (стохастически уменьшая эту случайную величину). Мы получаем в контролируемом эксперименте два распределения beta(3,5) для вмешательства и beta(3,4) для контроля. Чем не практический setup для использования Манна-Уитни...

И ещё один пример, чтобы не было оптических иллюзий, что что-то куда-то двигается, с beta(1,1) и beta(1,2):

Евгений Машеров · 08.03.2023, 15:55

igor_ivanov в сообщении #1584829 писал(а):

А какова тогда "внутренняя логика" отклонения гипотезы сдвига при $U_1(\alpha) \leqslant U \leqslant U_2(\alpha)$ ? Мой ход мыслей: 1) если сдвига нет, значит, доля значений U, принадлежащих указанному интервалу, равна $\alpha$ ; 2) если сдвиг есть, значит, доля значений U, принадлежащих указанному интервалу, меньше $\alpha$ ; 3) если априорные вероятности гипотез о наличии и отсутствии сдвига равны и значение U конкретной выборки принадлежит указанному интервалу, значит, более вероятна гипотеза об отсутствии сдвига.

Простая. Даже если распределения совершенно одинаковы, в силу случайности элементы одной выборки могут оказаться в общей совокупности не равномерно перемешаны с элементами другой, а кучковаться в начале или конце выборки. Что оценивает предложенный критерий. Но можно рассчитать вероятность такой ситуации. Вероятность того, что случайно при одинаковости распределений в выборках значение критерия окажется равным наблюдаемому или "хуже". Если эта вероятность p достаточно мала - говорим, что "на 5% уровне" или "1% уровне значимости", соответственно $p<0.05$ или $p<0.01$ нулевая гипотеза не опровергается. О "вероятностях гипотез" не говорим. Чтобы имел смысл говорить о вероятностях - надо перейти к байесовскому оцениванию, а для этого гипотезы сформулировать не в терминах "нулевой сдвиг"/"ненулевой сдвиг", а рассмотреть разные варианты сдвига (возможно, континуум) и для каждого привести априорную вероятность, оценить вероятность наблюдаемой статистики для каждой гипотезы, перейти к апостериорным и указать апостериорную вероятность для выбранной.

-- 08 мар 2023, 16:12 --

ipgmvq в сообщении #1584832 писал(а):

Этот подобен случаю выше с двумя нормальными распределениями с одинаковым матожиданием и очень разной дисперсией. Распределение критерия искажено даже на больших выборках и нулевая гипотеза отвергается почти в два раза чаще, чем положено. Но да, работает из рук вон плохо.

В Вашем примере "работает из рук вон плохо", в моём не работает принципиально. А почему - потому, что статистика в критерии Манна-Уитни подогнана под задачу проверки наличия сдвига. Она выражается через сумму рангов элементов данной выборки в объединённой совокупности. Если одна выборка сдвинута, в смысле её параметр сдвига отличен от другой, то её элементы, упорядоченные по возрастанию, будут на столько же сдвинуты по сравнению с упорядоченными по возрастанию элементами другой, а значит, в объединённой выборке их ранги будут систематически сдвинуты в соответствующую сторону. И хотя для отдельных элементов выборки их ранги будут сдвинуты не в соответствии с общим сдвигом распределений, сумма будет сдвинута в нужную сторону и покажет наличие сдвига.
Если задача именно проверить, одинаковы ли распределения - двухвыборочный Колмогоров-Смирнов, $\omega^2$ -тест, $\chi^2$ -тест.

-- 08 мар 2023, 16:34 --

igor_ivanov в сообщении #1584491 писал(а):

Вопросы:
1. В чём проблема одностороннего теста?
2. Есть ли смысл использовать тест на основе «оси значимости»?

1. Односторонний тест - когда нас интересует только одно возможное направление сдвига. Двусторонний - когда любое отклонение.
Если мы проверяем гипотезу, что препарат Х как-то влияет на давление - двусторонний тест, поскольку мы напишем статью и в том случае, если увидели гипотензивное, и если гипертензивное действие. Если мы требует уровня значимости в 5%, то есть в 1 публикации из 20 согласны быть обмануты игрой случайностей, то, значит, надо допускать такой афронт в 2.5% случаях для повышения и 2.5% для понижения давления (обычно поровну, но в принципе можно делить и 2%+3% или 1% и 4%). Это "двусторонний критерий"
Если мы проверяем гипотезу, что препарат Х понижает давление, сдвиг в сторону повышения давления нас не интересует, то берём уровень значимости 5% и для него считаем критическое значение статистики. Это "односторонний критерий".
Выбор подчинён прикладной задаче.
2. Насколько я понял идею "оси значимости" - автор предлагает не выбирать волевым решением между "общепринятыми" уровнями 5% и 1% (а некоторые авторы даже предлагают использовать 10%, но указывать не на значимость, а на "тенденцию", имея в виду, что при увеличении объёма выборки либо получим значимость, либо окончательно убедимся в отсутствии, и есть смысл продолжать эксперименты), а при 1% значимости объявлять о значимом различии, при отсутствии хотя бы 5% - говорить об отсутствии значимости, а в промежутке 1...5% "оставлять в подозрении". Особого смысла не усматриваю, но, может, где-то и оправдано.

ipgmvq · 08.03.2023, 16:49

Евгений Машеров в сообщении #1584835 писал(а):

В Вашем примере "работает из рук вон плохо", в моём не работает принципиально.

Не вижу разницы вообще с точки зрения того теста, который опубликован Манном и Уитни.

Евгений Машеров в сообщении #1584835 писал(а):

А почему - потому, что статистика в критерии Манна-Уитни подогнана под задачу проверки наличия сдвига.

Если там видится подгоднка, то очевидно, что её делали не Манн и не Уитни. У их теста иное фокусное подмножество альтернатив. Даже название их публикации говорит об этом.

Евгений Машеров · 08.03.2023, 18:09

Ну, давайте посмотрим сперва на мой пример. В котором тест Манна-Уитни вообще не видит разницы между распределениями. Для него суммы рангов (принимая равенство объёмов; обобщить пример на неравные объёмы тоже несложно) в точности равны. При том, что распределения не просто неравнопараметрические, они даже области значений имеют непересекающиеся. Другой тест увидел бы - но не Манн-Уитни, поскольку его тестовая статистика опирается на сумму рангов. А ранг есть мера положения для отдельного элемента выборки относительно прочих. И, соответственно, ранговые статистики хорошо видят сдвиги положения. При этом ранги отдельных точек усредняются, то есть значение общего для всех сдвига выходит на передний план, а возможные различия при усреднегии угашаются. Колмогоров-Смирнов увидел бы, или омега-квадрат, для которых ранги это способ оценки эмпирической функции распределения, и сравниваемы функции распределения. Хи-квадрат увидел бы, что-то потеряв на группировке. А Манн-Уитни такие вещи не видит.
Вообще статистика в определённом смысле есть искусство избавления от данных. Чтобы, выбросив почти весь цифровой материал, оставить немногие числа, которые можно попытаться понять. А такое выбрасывание неизбежно ведёт к потерям. Манн-Уитни популярен не потому, что лучше всех сравнивает различие распределений вообще, а потому, что в практических задачах часта ситуация, когда распределения в двух выборках естественно признать одинаковыми с точностью до сдвига, но при этом в их нормальность не верится. Тут-то он и работает. Если ставится более общая задача - различны ли распределения - это не его вахта.

igor_ivanov · 08.03.2023, 18:36

Евгений Машеров в сообщении #1584835 писал(а):

Если эта вероятность p достаточно мала - говорим, что "на 5% уровне" или "1% уровне значимости", соответственно $p<0.05$ или $p<0.01$ нулевая гипотеза не опровергается.

Если нулевая гипотеза не опровергается на уровне значимости p<0.05, следует ли из этого, что вероятность отсутствия сдвига в распределениях случайных величин больше вероятности наличия сдвига?

ipgmvq · 08.03.2023, 18:54

Евгений Машеров в сообщении #1584851 писал(а):

Ну, давайте посмотрим сперва на мой пример. В котором тест Манна-Уитни вообще не видит разницы между распределениями.

я обожаю мадам Монтекарлу, поэтому я протестил отвержение нулевой гипотезы в Вашем примере, перед тем, как в самый первый раз написать, что примеры похожи. :-)

Для размеров выборок по 100 в точном двустороннем тесте на концах отвергается нулевая гипотеза в 0.04484 (ДИ Клоппера-Пирсона 0.04357-0.04614, значение p для отличия от теоретических 0.025 равно $2.77 \cdot 10^{-287}$ ) и в 0.04380 (ДИ Клоппера-Пирсона 0.04254-0.04509, значение p для отличия от теоретических 0.025 равно $1.72 \cdot 10^{-260}$ )

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

import matplotlib.pyplot as plt

from scipy.stats import mannwhitneyu, binomtest, uniform, randint

размер_выборки = 100

размер_выборки_MC = 100000

U1 = uniform.rvs(size=(размер_выборки, размер_выборки_MC)) + 2 * randint.rvs(low=0, high=2, size=(размер_выборки, размер_выборки_MC))

U2 = uniform.rvs(size=(размер_выборки, размер_выборки_MC)) + 1

значения_p = mannwhitneyu(U1, 

                          U2, 

                          alternative='greater',

                          method='exact').pvalue

значения_p = np.sort(значения_p)

plt.plot(np.linspace(0.0,1.0,размер_выборки_MC),значения_p)

plt.xlabel('Теоретические квантили', fontsize=18)

plt.ylabel('Эмпирические квантили', fontsize=18)

plt.title('p-value to p-value plot', fontsize=28)

plt.xlim(0.0,1.0)

plt.ylim(0.0,1.0)

plt.show()

print(binomtest((значения_p < 0.025).sum(), размер_выборки_MC, p=0.025).proportion_ci())

print(binomtest((значения_p < 0.025).sum(), размер_выборки_MC, p=0.025))

print(binomtest((значения_p > 0.975).sum(), размер_выборки_MC, p=0.025).proportion_ci())

print(binomtest((значения_p > 0.975).sum(), размер_выборки_MC, p=0.025))

Когда тест ничего не видит, кривая выглядит так:

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

import matplotlib.pyplot as plt

from scipy.stats import mannwhitneyu, binomtest, uniform, randint

размер_выборки = 100

размер_выборки_MC = 100000

U1 = uniform.rvs(size=(размер_выборки, размер_выборки_MC)) + 1

U2 = uniform.rvs(size=(размер_выборки, размер_выборки_MC)) + 1

значения_p = mannwhitneyu(U1, 

                          U2, 

                          alternative='greater',

                          method='exact').pvalue

значения_p = np.sort(значения_p)

plt.plot(np.linspace(0.0,1.0,размер_выборки_MC),значения_p)

plt.xlabel('Теоретические квантили', fontsize=18)

plt.ylabel('Эмпирические квантили', fontsize=18)

plt.title('p-value to p-value plot', fontsize=28)

plt.xlim(0.0,1.0)

plt.ylim(0.0,1.0)

plt.show()

print(binomtest((значения_p < 0.025).sum(), размер_выборки_MC, p=0.025).proportion_ci())

print(binomtest((значения_p < 0.025).sum(), размер_выборки_MC, p=0.025))

print(binomtest((значения_p > 0.975).sum(), размер_выборки_MC, p=0.025).proportion_ci())

print(binomtest((значения_p > 0.975).sum(), размер_выборки_MC, p=0.025))

Евгений Машеров · 08.03.2023, 18:55

Нет. Не следует, поскольку о вероятностях гипотез мы вообще не говорим. Мы можем говорить о вероятностях ошибок I и II рода, причём для оценки мощности критерия надо не просто определить альтернативную гипотезу, как отрицание нулевой, а конкретизировать её, например, проверяя "препарат Х понижает давление" для оценки мощности критерия задаться величиной снижения (скажем, "не менее чем на 10 мм рт.ст.") и тогда сделать вывод, что вероятность заметить это снижение, если оно не ниже выбранной величины, скажем, 80%.

Научный форум dxdy

Вопросы по критерию Манна-Уитни