Практическая суть уровня значимости

_hum_ · 27.05.2018, 01:00

Господа спецы, поправьте мое текущее понимание практической сути уровня значимости (все никак не получалось в голове получить непротиворечивую картину, и вот, наконец, что-то началось вырисовываться).
Итак, уровень значимости (здесь и далее - ошибка первого рода при тестировании двух гипотез), как видится, в общем случае используется на практике двояким образом:
- чтобы получить свидетельства в пользу непротиворечивости данных гипотезе H1. В этом случае чем выше достигаемый уровень значимости (p-value), тем весомее свидетельство: "тест, который при справедливости гипотезы H1 очень щепетильно относится к принятию гипотезы H1 (отбрасывает p-value x 100 % случаев), все равно говорит, что данные соответствуют H1. Значит, они в значительной мере не противоречат H1 (хотя это все еще не дает никаких гарантий справедливости H1)";
- чтобы получить доказательства справедливости гипотезы H2. В этом случае чем меньше достигаемый уровень значимости, тем больше гарантия справедливости гипотезы H2. Действительно, если верна H1, то вероятность ошибки в принятии H2 меньше p-value, если же верна H2, то ошибки в принятии H2 вовсе нет. Таким образом, вероятность несправедливости утверждения "гипотеза H2 верна" меньше p-value.

С учетом этого мне становится наконец-таки понятным, почему в одних источниках хорошим считается большой уровень значимости (типа, "больше 0.05"), а в других - наоборот, чем меньше, тем лучше (меньше 0.05).

Спасибо.

--mS-- · 27.05.2018, 13:19

Реально достигнутый уровень значимости ( $p$ -value) - это совсем не есть вероятность ошибки первого рода.
Вероятность ошибки первого рода - это вероятность при верной $H_1$ её отвергнуть. Это - характеристика критерия. Она никак не зависит от тестируемой выборки. Она есть уже потому, что есть критерий.

Например, при проверке гипотезы $H_1=\{p=1/2\}$ по выборке объёмом $100$ из распределения Бернулли критерием с критической областью $|\overline X-\frac12|>0.1$ вероятность ошибки 1-го рода есть вероятность
$\mathsf P_{p=\frac12}\left(|\overline X-\frac12|>0.1\right) \approx 0.0455.$

$p$ -value равно вероятности получить по абстрактной выборке, отвечающей $H_1$ , худшее согласие с $H_1$ , чем получено по данной выборке. Или, иначе, это наибольшая из вероятностей ошибок первого рода всех тех критериев, которые по данной числовой выборке будут принимать $H_1$ . И характеризует он, в отличие от вероятности ошибки первого рода, не столько критерий, сколько данную числовую выборку и степень её согласия с проверяемой гипотезой.

Чтобы в примере выше найти $p$ -value, надо взять конкретную числовую выборку. Например, пусть для неё $|\overline x-\frac12|=0.02$ . Тогда $p$ -value будет
$\mathsf P_{p=\frac12}\left(|\overline X-\frac12|>0.02\right) \approx 0.6892.$

Если увеличивать критическую область у критерия, заменяя $0.1$ на меньшие значения, или - равносильно - увеличивать ошибку первого рода, то пока эта ошибка не дорастёт до $0.6892$ (или граница с $0.1$ не уменьшится до $0.02$ ), критерий по данной числовой выборке будет принимать $H_1$ .

Так что с Вашей трактовкой реально достигнутого уровня значимости я согласна во всём, кроме последнего предложения

_hum_ в сообщении #1315216 писал(а):

Таким образом, вероятность несправедливости утверждения "гипотеза H2 верна" меньше p-value.

Чтобы говорить о вероятности того, что гипотеза верна, нужно иметь эксперимент, в котором "гипотеза H_1 верна" и "гипотеза H_2 верна" являются событиями, имеющими вероятности. Это совсем иная байесовская постановка вопроса (отчего у меня дежавю?). Просто если шансы по типичной выборке из $H_1$ получить худшее согласие с $H_1$ , чем получено по проверяемой числовой выборке, очень малы, то согласие последней с $H_1$ очень плохое и гипотезу по ней отвергают.

_hum_ в сообщении #1315216 писал(а):

С учетом этого мне становится наконец-таки понятным, почему в одних источниках хорошим считается большой уровень значимости (типа, "больше 0.05"), а в других - наоборот, чем меньше, тем лучше (меньше 0.05).

Естественно: если Вы проверяете гипотезу, которую хотите принять, то "хорошо" для этих целей иметь большое значение $p$ -value. Если же основная гипотеза - нежелательна (кормили-кормили пациентов лекарствами, а средние у этой и контрольной выборок одинаковы), то Ваша надежда - её отвергнуть, и тогда хорошим значением $p$ -value для Вас будет число, меньшее $0.05$ .

Евгений Машеров · 27.05.2018, 14:18

Дело в том, что фраза "получено статистически значимое отклонение, уровень значимости больше 0.05" вовсе не означает, что вычисленное значение p>0.05. Здесь "больше" надо понимать, как "более значимо, чем", а численно полученная величина меньше. То есть это есть не совсем ловко выраженная фраза "p<0.05, но больше 0.01, так что об 1% значимости говорить не вправе, но есть надежда, что по мере накопления материала объём выборки вырастет настолько, что и на 1% уровне значимость появится". Обычно такой оборот употребителен, когда получили что-то вроде p=0.02, так что уверенности больше, чем при 5% уровне, но до 1% не дотянули.

_hum_ · 27.05.2018, 15:27

--mS-- в сообщении #1315256 писал(а):

Реально достигнутый уровень значимости ( $p$ -value) - это совсем не есть вероятность ошибки первого рода.

ммм...а я разве говорил обратное?

--mS-- в сообщении #1315256 писал(а):

Чтобы говорить о вероятности того, что гипотеза верна, нужно иметь эксперимент, в котором "гипотеза H_1 верна" и "гипотеза H_2 верна" являются событиями, имеющими вероятности. Это совсем иная байесовская постановка вопроса (отчего у меня дежавю?).

так я и хотел заострить внимание, что эти случаи применения уровня значимости не совсем симметричны. В первом - классическая постановка, которая не дает никаких количественных гарантий на справедливость $H_1$ , тогда как во втором, кажется, можно было бы выудить какую-то гарантию, оценивая вероятность $P(H_2 | \text{ p-value} \leq \varepsilon)$ - то есть, вероятность того, насколько мы часто не будем ошибаться, когда будем выбирать гипотезу $H_2$ в ситуациях, когда p-value теста дал значение, не выше $\varepsilon$ . И мне казалось, что эта вероятность больше $1-\varepsilon$ . Но теперь, если начать более строго выводить, получается

$P(H_2 | A_\varepsilon) = 1 - P(H_1 | A_\varepsilon) =1 - \dfrac{P(H_1)P(A_\varepsilon|H_1) }{P(H_1)P(A_\varepsilon |H_1) + P(H_2)P(A_\varepsilon |H_2)}= 1 - \dfrac{P(H_1)\varepsilon }{P(H_1)\varepsilon + P(H_2)P(A_\varepsilon |H_2)} .$
И как бы все. Ну, можно еще сослаться на состоятельность критерия и взять асимптотическую оценку, тогда:
$P(H_2 | A_\varepsilon) \sim 1 - \dfrac{P(H_1)\varepsilon }{P(H_1)\varepsilon + P(H_2)}, \quad n\rightarrow \infty .$
Ну и, чтобы получить мою изначальную оценку, нужно еще предположить равновероятность гипотез и малость $\varepsilon$ . Но все эти предположения наверное в значительной мере обесценивают исходную идею...

Евгений Машеров · 27.05.2018, 16:45

Дело в том, что есть ещё одна асимметрия. Гипотезы могут быть простыми и сложными.
И в подавляющем большинстве практических случаев оказывается, что нулевая гипотеза простая, а альтернативная - сложная. Это не статистический принцип, а просто складывающаяся потребность. Нулевая гипотеза - лекарство не снижает давления, альтернативная - на сколько-то снизит, пусть и не знаем, на сколько. А говорить о "вероятности гипотезы" можно лишь применительно к простой, для сложной нет вероятности, как числа, а есть функция от неизвестного параметра (-ов).

--mS-- · 28.05.2018, 02:44

_hum_ в сообщении #1315307 писал(а):

--mS-- в сообщении #1315256 писал(а):

Реально достигнутый уровень значимости ( $p$ -value) - это совсем не есть вероятность ошибки первого рода.

ммм...а я разве говорил обратное?

А разве нет?

_hum_ в сообщении #1315216 писал(а):

Итак, уровень значимости (здесь и далее - ошибка первого рода при тестировании двух гипотез), как видится, в общем случае используется на практике двояким образом:
- чтобы получить свидетельства в пользу непротиворечивости данных гипотезе H1. В этом случае чем выше достигаемый уровень значимости (p-value),

_hum_ · 28.05.2018, 11:46

--mS-- в сообщении #1315447 писал(а):

А разве нет?

нет. Я писал, что уровень значимости - это ошибка первого рода, и что p-value - это достигаемый уровень значимости. Из этого никак не вытекает, что я отождествлял p-value и уровень значимости :)

Кстати, --mS--, так все-таки, имеет смысл опираться на то, что
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$ при априорных равновероятноых гипотезах (интересно, насколько на практике это предположение верно), или нет?

Евгений Машеров, как мне видится, сказанное Вами все-таки напрямую не касается моего вопроса (тестирование сложных и простых гипотез основано на одних и тех же принципах)

dsge · 28.05.2018, 11:59

(Оффтоп)

В литературе стандартом считается обозначать нулевую гипотезу (null hypotheses) $H_0$ , а альтернативу $H_1$ . Цель статистических выводов - отвергнуть $H_0$ ; если она не отвергнута, то это не означает, что она верна.

Евгений Машеров · 28.05.2018, 13:00

Боюсь, что Вы не поняли, о чём я говорил. Если бы поняли - не манипулировали бы Вашей формулой
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$
Она для простых альтернативных гипотез неверна, а для сложных бессмысленна.

_hum_ · 28.05.2018, 13:29

Евгений Машеров в сообщении #1315510 писал(а):

Боюсь, что Вы не поняли, о чём я говорил. Если бы поняли - не манипулировали бы Вашей формулой
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$
Она для простых альтернативных гипотез неверна, а для сложных бессмысленна.

Я думал, при такого рода высказываниях на научном форуме принято приводить обоснования справедливости своего утверждения. Нет? :)

dsge
я специально ввел $H_1$ , $H_2$ , чтобы не наводить тень на плетень изначальной асимметрией, где уже при постановке есть "основная" и "альтернативная" гипотезы.

Евгений Машеров · 28.05.2018, 13:44

То, что Вы не поняли, а не троллите сознательно - не более чем моё предположение, которое доказать не могу, но только в предположении его справедливости имеет смысл дальнейшее обсуждение.
А что Ваша формула либо ложна, либо бессмысленна, в зависимости от того, какого рода гипотеза, простая или сложная, вполне очевидно.
В неё не входит никакая информация об альтернативной гипотезе. Которая, очевидно, должна как-то учитываться при оценке "вероятности гипотез" (кавычки - потому, что вероятностями в строгом смысле можно будет оперировать в байесовской модели, здесь не вероятность, а некое "вероятие" или "удобосбытность" без численного значения). Рассмотрим пример.
Мы испытываем некое новое средство от опасной болезни. Нулевая гипотеза очевидна - средство не помогает, это простая гипотеза. Альтернативная - что помогает. Возьмём, помимо обычного случая, когда альтернативная гипотеза сложная - "помогает, даёт снижение смертности, точным значением не задаёмся", также вариант альтернативной гипотезы, как простой - "смертность падает до среднего по популяции уровня". У нас смертность без лечения 10%, при лечении 7%. Будет ли зависеть наша вера в лекарство, в справедливость альтернативной гипотезы от того, смертность по здоровой популяции 1% или 5%? Очевидно, будет, а как Ваша формула это учтёт? По всей видимости, для простых гипотез она не работает.
А для сложных отвергнуть её просто - она настаивает на одном числе, выражающем "вероятность", тогда как в сложной гипотезе у нас семейство вариантов, и для каждого ответ свой.

--mS-- · 28.05.2018, 14:29

_hum_ в сообщении #1315496 писал(а):

Кстати, --mS--, так все-таки, имеет смысл опираться на то, что
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$ при априорных равновероятноых гипотезах (интересно, насколько на практике это предположение верно), или нет?

Я уже ответила на этот вопрос до того, как он был задан. В небайесовской постановке нет и не может быть никаких вероятностей у гипотез. Выборка взята либо из $H_1$ , либо из $H_2$ , и это не результат случайного эксперимента. Просто мы не знаем, из какого она распределения, поэтому считаться вынуждены сразу с двумя вероятностями ошибок. Соответственно, существуют лишь два варианта вероятностей: вероятность чего-то там, если верна $H_1$ , и вероятность чего угодно при верной $H_2$ . Именно они дают вероятности ошибочных решений: ошибиться, если верна $H_1$ и ошибиться, если верна $H_2$ . Если же модель байесовская, то качество критерия меряется совсем иначе, и реально достигнутый уровень значимости тут ни при чём.

Ну давайте представим, что мы в байесовских условиях, с одинаковыми априорными вероятностями гипотез. Чтобы не говорить о критериях "вообще", продолжим на примере $n$ испытаний и монетки, которая хочет быть симметричной для гипотезы $H_1$ , и несимметричной - для $H_2$ .

И пусть для нашей выборки объёмом в $10^4$ (много) случилось страшное: число единичек в ней отличается от половины на $516$ . Т.е. реально достигнутый уровень значимости есть $0.01$ (грубо, по ЦПТ). Вы хотите найти вероятность, что монетка была симметричной (или несимметричной, всё равно) при этом условии. Но $\mathsf P(|\overline X-0.5|>0.0516~|~H_2)$ совершенно не обязательно близка к единице: сложная гипотеза $H_2$ может содержать простые альтернативы с вероятностью герба настолько близкой к половине, что эта вероятность будет мала. Более того, она просто не определена до тех пор, пока в дополнение к розыгрышу $H_1$ и $H_2$ Вы не определите, каким образом выбирается простая гипотеза в рамках выпавшей сложной, т.е. в данном случае, если выборка из $H_2$ , то как выбирается, с каким она будет $p$ . Априорное распределение параметра, по-русски :).

Если Вы хотите рассматривать асимптотику при $n\to\infty$ , то тогда теряют всякий смысл слова "когда p-value теста дал значение, не выше $\varepsilon$ ": для любой фиксированной выборки её объём конечен, и предыдущий абзац работает. Если же совсем уйти от жизни, то можно задать критерий с критической областью $\{ |\overline X-0.5|>\frac{2\cdot \tau_{1-\varepsilon/2}}{\sqrt{n}}\}$ , где $\Phi_{0,1}(\tau_{1-\varepsilon/2})=1-\varepsilon/2$ , событием $A_{\varepsilon}$ назвать попадание выборки в эту критическую область, тогда при $n\to\infty$ для любого $p_2\neq \frac12$
$\mathsf P(A_\varepsilon | p=p_2) \to 1,$
но это никак не то же самое, что $\mathsf P(A_\varepsilon | H_2)\to 1$ ! Например, если при каждом $n$ я буду разыгрывать $p_2$ равномерно на $\left(\frac12-\frac1n,0\right)\cup \left(0,\frac12+\frac1n\right)$ , то $\mathsf P(A_\varepsilon | H_2)\to \varepsilon$ .

Так что сложная альтернатива делает обсуждаемое равенство неверным, Евгений Машеров полностью прав.

_hum_ · 28.05.2018, 14:37

Евгений Машеров в сообщении #1315523 писал(а):

А что Ваша формула либо ложна, либо бессмысленна, в зависимости от того, какого рода гипотеза, простая или сложная, вполне очевидно.
В неё не входит никакая информация об альтернативной гипотезе.

ну как же не входит, если входит. Изначальная формула (см. выше) в обычном предположении состоятельности критерия ( $P(A_\varepsilon |H_2)\rightarrow 1$ , $n\rightarrow \infty$ ) дает

$P(H_2 | A_\varepsilon) \sim 1 - \dfrac{\varepsilon }{\varepsilon + \frac{P(H_2)}{P(H_1)}},\quad n\rightarrow \infty .$
Просто при дополнительном предположении равновероятности гипотез ( $P(H_1)=P(H_2)$ ) отсюда еще и вытекает тот вариант, который и обсуждаем.

Евгений Машеров в сообщении #1315523 писал(а):

Которая, очевидно, должна как-то учитываться при оценке "вероятности гипотез" (кавычки - потому, что вероятностями в строгом смысле можно будет оперировать в байесовской модели, здесь не вероятность, а некое "вероятие" или "удобосбытность" без численного значения)

Не знаю, о чем Вы, но здесь четкая вероятность для конкретных событий - вероятность столкнуться при тестировании с гипотезой 1, гипотезой 2 (это $P(H_1)$ , $P(H_2)$ ), и вероятность, что при достигнутом уровне значимости, меньшем $\varepsilon$ , будет справедлива гипотеза $H_2$ (это $P(H_2 | A_\varepsilon)$ ).
Остальные Ваши рассуждения мне сложно читать без мало-мальской математической формализации :(

Евгений Машеров · 28.05.2018, 14:44

В общем, почитайте про мощность.

(Оффтоп)

Уровень значимости и мощность - близнецы-братья, разлучённые объёмом выборки. Тут Sankhyā: The Indian Journal of Statistics начинает петь и танцевать...

_hum_ · 28.05.2018, 14:52

--mS-- в сообщении #1315532 писал(а):

В небайесовской постановке нет и не может быть никаких вероятностей у гипотез.

Обращаю внимание, что речь шла о практической сути понятия уровня значимости. Никаких ограничений на то, в какой формальной постановке легче его содержательно объяснить (в байесовской или нет) - не было.

По поводу дальнейших рассуждений - не совсем хорошо, что в контоаргументации сразу смешано и сложные гипотезы, и рассуждения про бессмысленность асимптотического рассмотрения - в таких условиях мне сложно уследить за ходом Вашей мысли.
Не могли бы Вы начать с простого - например, с двух простых - $H_1$ = "монетка c $p=1/2$ " и $H_2$ = "монетка c $p=3/4$ " в предположении, что эти гипотезы равновероятны, и показать, в чем ошибочность моих рассуждений?

Евгений Машеров в сообщении #1315535 писал(а):

В общем, почитайте про мощность.

что, кроме того, что про нее написано в Боровкове, мне еще нужно знать?

Научный форум dxdy

Практическая суть уровня значимости