2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Практическая суть уровня значимости
Сообщение27.05.2018, 01:00 


23/12/07
1763
Господа спецы, поправьте мое текущее понимание практической сути уровня значимости (все никак не получалось в голове получить непротиворечивую картину, и вот, наконец, что-то началось вырисовываться).
Итак, уровень значимости (здесь и далее - ошибка первого рода при тестировании двух гипотез), как видится, в общем случае используется на практике двояким образом:
- чтобы получить свидетельства в пользу непротиворечивости данных гипотезе H1. В этом случае чем выше достигаемый уровень значимости (p-value), тем весомее свидетельство: "тест, который при справедливости гипотезы H1 очень щепетильно относится к принятию гипотезы H1 (отбрасывает p-value x 100 % случаев), все равно говорит, что данные соответствуют H1. Значит, они в значительной мере не противоречат H1 (хотя это все еще не дает никаких гарантий справедливости H1)";
- чтобы получить доказательства справедливости гипотезы H2. В этом случае чем меньше достигаемый уровень значимости, тем больше гарантия справедливости гипотезы H2. Действительно, если верна H1, то вероятность ошибки в принятии H2 меньше p-value, если же верна H2, то ошибки в принятии H2 вовсе нет. Таким образом, вероятность несправедливости утверждения "гипотеза H2 верна" меньше p-value.

С учетом этого мне становится наконец-таки понятным, почему в одних источниках хорошим считается большой уровень значимости (типа, "больше 0.05"), а в других - наоборот, чем меньше, тем лучше (меньше 0.05).


Спасибо.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 13:19 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Реально достигнутый уровень значимости ($p$-value) - это совсем не есть вероятность ошибки первого рода.
Вероятность ошибки первого рода - это вероятность при верной $H_1$ её отвергнуть. Это - характеристика критерия. Она никак не зависит от тестируемой выборки. Она есть уже потому, что есть критерий.

Например, при проверке гипотезы $H_1=\{p=1/2\}$ по выборке объёмом $100$ из распределения Бернулли критерием с критической областью $|\overline X-\frac12|>0.1$ вероятность ошибки 1-го рода есть вероятность
$$
\mathsf P_{p=\frac12}\left(|\overline X-\frac12|>0.1\right) \approx 0.0455.
$$

$p$-value равно вероятности получить по абстрактной выборке, отвечающей $H_1$, худшее согласие с $H_1$, чем получено по данной выборке. Или, иначе, это наибольшая из вероятностей ошибок первого рода всех тех критериев, которые по данной числовой выборке будут принимать $H_1$. И характеризует он, в отличие от вероятности ошибки первого рода, не столько критерий, сколько данную числовую выборку и степень её согласия с проверяемой гипотезой.

Чтобы в примере выше найти $p$-value, надо взять конкретную числовую выборку. Например, пусть для неё $|\overline x-\frac12|=0.02$. Тогда $p$-value будет
$$
\mathsf P_{p=\frac12}\left(|\overline X-\frac12|>0.02\right) \approx 0.6892.
$$

Если увеличивать критическую область у критерия, заменяя $0.1$ на меньшие значения, или - равносильно - увеличивать ошибку первого рода, то пока эта ошибка не дорастёт до $0.6892$ (или граница с $0.1$ не уменьшится до $0.02$), критерий по данной числовой выборке будет принимать $H_1$.

Так что с Вашей трактовкой реально достигнутого уровня значимости я согласна во всём, кроме последнего предложения
_hum_ в сообщении #1315216 писал(а):
Таким образом, вероятность несправедливости утверждения "гипотеза H2 верна" меньше p-value.

Чтобы говорить о вероятности того, что гипотеза верна, нужно иметь эксперимент, в котором "гипотеза H_1 верна" и "гипотеза H_2 верна" являются событиями, имеющими вероятности. Это совсем иная байесовская постановка вопроса (отчего у меня дежавю?). Просто если шансы по типичной выборке из $H_1$ получить худшее согласие с $H_1$, чем получено по проверяемой числовой выборке, очень малы, то согласие последней с $H_1$ очень плохое и гипотезу по ней отвергают.

_hum_ в сообщении #1315216 писал(а):
С учетом этого мне становится наконец-таки понятным, почему в одних источниках хорошим считается большой уровень значимости (типа, "больше 0.05"), а в других - наоборот, чем меньше, тем лучше (меньше 0.05).

Естественно: если Вы проверяете гипотезу, которую хотите принять, то "хорошо" для этих целей иметь большое значение $p$-value. Если же основная гипотеза - нежелательна (кормили-кормили пациентов лекарствами, а средние у этой и контрольной выборок одинаковы), то Ваша надежда - её отвергнуть, и тогда хорошим значением $p$-value для Вас будет число, меньшее $0.05$.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 14:18 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Дело в том, что фраза "получено статистически значимое отклонение, уровень значимости больше 0.05" вовсе не означает, что вычисленное значение p>0.05. Здесь "больше" надо понимать, как "более значимо, чем", а численно полученная величина меньше. То есть это есть не совсем ловко выраженная фраза "p<0.05, но больше 0.01, так что об 1% значимости говорить не вправе, но есть надежда, что по мере накопления материала объём выборки вырастет настолько, что и на 1% уровне значимость появится". Обычно такой оборот употребителен, когда получили что-то вроде p=0.02, так что уверенности больше, чем при 5% уровне, но до 1% не дотянули.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 15:27 


23/12/07
1763
--mS-- в сообщении #1315256 писал(а):
Реально достигнутый уровень значимости ($p$-value) - это совсем не есть вероятность ошибки первого рода.

ммм...а я разве говорил обратное?
--mS-- в сообщении #1315256 писал(а):
Чтобы говорить о вероятности того, что гипотеза верна, нужно иметь эксперимент, в котором "гипотеза H_1 верна" и "гипотеза H_2 верна" являются событиями, имеющими вероятности. Это совсем иная байесовская постановка вопроса (отчего у меня дежавю?).

так я и хотел заострить внимание, что эти случаи применения уровня значимости не совсем симметричны. В первом - классическая постановка, которая не дает никаких количественных гарантий на справедливость $H_1$, тогда как во втором, кажется, можно было бы выудить какую-то гарантию, оценивая вероятность $P(H_2 | \text{ p-value} \leq \varepsilon)$ - то есть, вероятность того, насколько мы часто не будем ошибаться, когда будем выбирать гипотезу $H_2$ в ситуациях, когда p-value теста дал значение, не выше $\varepsilon$. И мне казалось, что эта вероятность больше $1-\varepsilon$. Но теперь, если начать более строго выводить, получается

$$P(H_2 | A_\varepsilon) = 1 -  P(H_1 | A_\varepsilon) =1 -  \dfrac{P(H_1)P(A_\varepsilon|H_1) }{P(H_1)P(A_\varepsilon |H_1) + P(H_2)P(A_\varepsilon |H_2)}= 1 -  \dfrac{P(H_1)\varepsilon }{P(H_1)\varepsilon  + P(H_2)P(A_\varepsilon |H_2)} . 
$$
И как бы все. Ну, можно еще сослаться на состоятельность критерия и взять асимптотическую оценку, тогда:
$$P(H_2 | A_\varepsilon) \sim 1 -  \dfrac{P(H_1)\varepsilon }{P(H_1)\varepsilon  + P(H_2)}, \quad n\rightarrow \infty . 
$$
Ну и, чтобы получить мою изначальную оценку, нужно еще предположить равновероятность гипотез и малость $\varepsilon $. Но все эти предположения наверное в значительной мере обесценивают исходную идею...

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 16:45 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Дело в том, что есть ещё одна асимметрия. Гипотезы могут быть простыми и сложными.
И в подавляющем большинстве практических случаев оказывается, что нулевая гипотеза простая, а альтернативная - сложная. Это не статистический принцип, а просто складывающаяся потребность. Нулевая гипотеза - лекарство не снижает давления, альтернативная - на сколько-то снизит, пусть и не знаем, на сколько. А говорить о "вероятности гипотезы" можно лишь применительно к простой, для сложной нет вероятности, как числа, а есть функция от неизвестного параметра (-ов).

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 02:44 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_ в сообщении #1315307 писал(а):
--mS-- в сообщении #1315256 писал(а):
Реально достигнутый уровень значимости ($p$-value) - это совсем не есть вероятность ошибки первого рода.

ммм...а я разве говорил обратное?

А разве нет?
_hum_ в сообщении #1315216 писал(а):
Итак, уровень значимости (здесь и далее - ошибка первого рода при тестировании двух гипотез), как видится, в общем случае используется на практике двояким образом:
- чтобы получить свидетельства в пользу непротиворечивости данных гипотезе H1. В этом случае чем выше достигаемый уровень значимости (p-value),

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 11:46 


23/12/07
1763
--mS-- в сообщении #1315447 писал(а):
А разве нет?

нет. Я писал, что уровень значимости - это ошибка первого рода, и что p-value - это достигаемый уровень значимости. Из этого никак не вытекает, что я отождествлял p-value и уровень значимости :)

Кстати, --mS--, так все-таки, имеет смысл опираться на то, что
$$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$$ при априорных равновероятноых гипотезах (интересно, насколько на практике это предположение верно), или нет?

Евгений Машеров, как мне видится, сказанное Вами все-таки напрямую не касается моего вопроса (тестирование сложных и простых гипотез основано на одних и тех же принципах)

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 11:59 
Заслуженный участник


05/08/14
1564

(Оффтоп)

В литературе стандартом считается обозначать нулевую гипотезу (null hypotheses) $H_0$, а альтернативу $H_1$. Цель статистических выводов - отвергнуть $H_0$; если она не отвергнута, то это не означает, что она верна.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 13:00 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Боюсь, что Вы не поняли, о чём я говорил. Если бы поняли - не манипулировали бы Вашей формулой
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$
Она для простых альтернативных гипотез неверна, а для сложных бессмысленна.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 13:29 


23/12/07
1763
Евгений Машеров в сообщении #1315510 писал(а):
Боюсь, что Вы не поняли, о чём я говорил. Если бы поняли - не манипулировали бы Вашей формулой
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$
Она для простых альтернативных гипотез неверна, а для сложных бессмысленна.

Я думал, при такого рода высказываниях на научном форуме принято приводить обоснования справедливости своего утверждения. Нет? :)

dsge
я специально ввел $H_1$, $H_2$, чтобы не наводить тень на плетень изначальной асимметрией, где уже при постановке есть "основная" и "альтернативная" гипотезы.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 13:44 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
То, что Вы не поняли, а не троллите сознательно - не более чем моё предположение, которое доказать не могу, но только в предположении его справедливости имеет смысл дальнейшее обсуждение.
А что Ваша формула либо ложна, либо бессмысленна, в зависимости от того, какого рода гипотеза, простая или сложная, вполне очевидно.
В неё не входит никакая информация об альтернативной гипотезе. Которая, очевидно, должна как-то учитываться при оценке "вероятности гипотез" (кавычки - потому, что вероятностями в строгом смысле можно будет оперировать в байесовской модели, здесь не вероятность, а некое "вероятие" или "удобосбытность" без численного значения). Рассмотрим пример.
Мы испытываем некое новое средство от опасной болезни. Нулевая гипотеза очевидна - средство не помогает, это простая гипотеза. Альтернативная - что помогает. Возьмём, помимо обычного случая, когда альтернативная гипотеза сложная - "помогает, даёт снижение смертности, точным значением не задаёмся", также вариант альтернативной гипотезы, как простой - "смертность падает до среднего по популяции уровня". У нас смертность без лечения 10%, при лечении 7%. Будет ли зависеть наша вера в лекарство, в справедливость альтернативной гипотезы от того, смертность по здоровой популяции 1% или 5%? Очевидно, будет, а как Ваша формула это учтёт? По всей видимости, для простых гипотез она не работает.
А для сложных отвергнуть её просто - она настаивает на одном числе, выражающем "вероятность", тогда как в сложной гипотезе у нас семейство вариантов, и для каждого ответ свой.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:29 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_ в сообщении #1315496 писал(а):
Кстати, --mS--, так все-таки, имеет смысл опираться на то, что
$$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$$ при априорных равновероятноых гипотезах (интересно, насколько на практике это предположение верно), или нет?

Я уже ответила на этот вопрос до того, как он был задан. В небайесовской постановке нет и не может быть никаких вероятностей у гипотез. Выборка взята либо из $H_1$, либо из $H_2$, и это не результат случайного эксперимента. Просто мы не знаем, из какого она распределения, поэтому считаться вынуждены сразу с двумя вероятностями ошибок. Соответственно, существуют лишь два варианта вероятностей: вероятность чего-то там, если верна $H_1$, и вероятность чего угодно при верной $H_2$. Именно они дают вероятности ошибочных решений: ошибиться, если верна $H_1$ и ошибиться, если верна $H_2$. Если же модель байесовская, то качество критерия меряется совсем иначе, и реально достигнутый уровень значимости тут ни при чём.

Ну давайте представим, что мы в байесовских условиях, с одинаковыми априорными вероятностями гипотез. Чтобы не говорить о критериях "вообще", продолжим на примере $n$ испытаний и монетки, которая хочет быть симметричной для гипотезы $H_1$, и несимметричной - для $H_2$.

И пусть для нашей выборки объёмом в $10^4$ (много) случилось страшное: число единичек в ней отличается от половины на $516$. Т.е. реально достигнутый уровень значимости есть $0.01$ (грубо, по ЦПТ). Вы хотите найти вероятность, что монетка была симметричной (или несимметричной, всё равно) при этом условии. Но $\mathsf P(|\overline X-0.5|>0.0516~|~H_2)$ совершенно не обязательно близка к единице: сложная гипотеза $H_2$ может содержать простые альтернативы с вероятностью герба настолько близкой к половине, что эта вероятность будет мала. Более того, она просто не определена до тех пор, пока в дополнение к розыгрышу $H_1$ и $H_2$ Вы не определите, каким образом выбирается простая гипотеза в рамках выпавшей сложной, т.е. в данном случае, если выборка из $H_2$, то как выбирается, с каким она будет $p$. Априорное распределение параметра, по-русски :).

Если Вы хотите рассматривать асимптотику при $n\to\infty$, то тогда теряют всякий смысл слова "когда p-value теста дал значение, не выше $\varepsilon$": для любой фиксированной выборки её объём конечен, и предыдущий абзац работает. Если же совсем уйти от жизни, то можно задать критерий с критической областью $\{ |\overline X-0.5|>\frac{2\cdot \tau_{1-\varepsilon/2}}{\sqrt{n}}\}$, где $\Phi_{0,1}(\tau_{1-\varepsilon/2})=1-\varepsilon/2$, событием $A_{\varepsilon}$ назвать попадание выборки в эту критическую область, тогда при $n\to\infty$ для любого $p_2\neq \frac12$
$$
\mathsf P(A_\varepsilon | p=p_2) \to 1,
$$
но это никак не то же самое, что $\mathsf P(A_\varepsilon | H_2)\to 1$! Например, если при каждом $n$ я буду разыгрывать $p_2$ равномерно на $\left(\frac12-\frac1n,0\right)\cup \left(0,\frac12+\frac1n\right)$, то $\mathsf P(A_\varepsilon | H_2)\to \varepsilon$.

Так что сложная альтернатива делает обсуждаемое равенство неверным, Евгений Машеров полностью прав.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:37 


23/12/07
1763
Евгений Машеров в сообщении #1315523 писал(а):
А что Ваша формула либо ложна, либо бессмысленна, в зависимости от того, какого рода гипотеза, простая или сложная, вполне очевидно.
В неё не входит никакая информация об альтернативной гипотезе.

ну как же не входит, если входит. Изначальная формула (см. выше) в обычном предположении состоятельности критерия ($P(A_\varepsilon |H_2)\rightarrow 1$, $n\rightarrow \infty$) дает

$$P(H_2 | A_\varepsilon) \sim 1 -  \dfrac{\varepsilon }{\varepsilon  + \frac{P(H_2)}{P(H_1)}},\quad n\rightarrow \infty . 
$$
Просто при дополнительном предположении равновероятности гипотез ($P(H_1)=P(H_2)$) отсюда еще и вытекает тот вариант, который и обсуждаем.

Евгений Машеров в сообщении #1315523 писал(а):
Которая, очевидно, должна как-то учитываться при оценке "вероятности гипотез" (кавычки - потому, что вероятностями в строгом смысле можно будет оперировать в байесовской модели, здесь не вероятность, а некое "вероятие" или "удобосбытность" без численного значения)

Не знаю, о чем Вы, но здесь четкая вероятность для конкретных событий - вероятность столкнуться при тестировании с гипотезой 1, гипотезой 2 (это $P(H_1)$, $P(H_2)$), и вероятность, что при достигнутом уровне значимости, меньшем $\varepsilon$, будет справедлива гипотеза $H_2$ (это $P(H_2 | A_\varepsilon) $).
Остальные Ваши рассуждения мне сложно читать без мало-мальской математической формализации :(

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:44 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
В общем, почитайте про мощность.

(Оффтоп)

Уровень значимости и мощность - близнецы-братья, разлучённые объёмом выборки. Тут Sankhyā: The Indian Journal of Statistics начинает петь и танцевать...

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:52 


23/12/07
1763
--mS-- в сообщении #1315532 писал(а):
В небайесовской постановке нет и не может быть никаких вероятностей у гипотез.

Обращаю внимание, что речь шла о практической сути понятия уровня значимости. Никаких ограничений на то, в какой формальной постановке легче его содержательно объяснить (в байесовской или нет) - не было.

По поводу дальнейших рассуждений - не совсем хорошо, что в контоаргументации сразу смешано и сложные гипотезы, и рассуждения про бессмысленность асимптотического рассмотрения - в таких условиях мне сложно уследить за ходом Вашей мысли.
Не могли бы Вы начать с простого - например, с двух простых - $H_1$ = "монетка c $p=1/2$" и $H_2$ = "монетка c $p=3/4$" в предположении, что эти гипотезы равновероятны, и показать, в чем ошибочность моих рассуждений?

Евгений Машеров в сообщении #1315535 писал(а):
В общем, почитайте про мощность.


что, кроме того, что про нее написано в Боровкове, мне еще нужно знать?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group