2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Практическая суть уровня значимости
Сообщение27.05.2018, 01:00 


23/12/07
1757
Господа спецы, поправьте мое текущее понимание практической сути уровня значимости (все никак не получалось в голове получить непротиворечивую картину, и вот, наконец, что-то началось вырисовываться).
Итак, уровень значимости (здесь и далее - ошибка первого рода при тестировании двух гипотез), как видится, в общем случае используется на практике двояким образом:
- чтобы получить свидетельства в пользу непротиворечивости данных гипотезе H1. В этом случае чем выше достигаемый уровень значимости (p-value), тем весомее свидетельство: "тест, который при справедливости гипотезы H1 очень щепетильно относится к принятию гипотезы H1 (отбрасывает p-value x 100 % случаев), все равно говорит, что данные соответствуют H1. Значит, они в значительной мере не противоречат H1 (хотя это все еще не дает никаких гарантий справедливости H1)";
- чтобы получить доказательства справедливости гипотезы H2. В этом случае чем меньше достигаемый уровень значимости, тем больше гарантия справедливости гипотезы H2. Действительно, если верна H1, то вероятность ошибки в принятии H2 меньше p-value, если же верна H2, то ошибки в принятии H2 вовсе нет. Таким образом, вероятность несправедливости утверждения "гипотеза H2 верна" меньше p-value.

С учетом этого мне становится наконец-таки понятным, почему в одних источниках хорошим считается большой уровень значимости (типа, "больше 0.05"), а в других - наоборот, чем меньше, тем лучше (меньше 0.05).


Спасибо.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 13:19 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Реально достигнутый уровень значимости ($p$-value) - это совсем не есть вероятность ошибки первого рода.
Вероятность ошибки первого рода - это вероятность при верной $H_1$ её отвергнуть. Это - характеристика критерия. Она никак не зависит от тестируемой выборки. Она есть уже потому, что есть критерий.

Например, при проверке гипотезы $H_1=\{p=1/2\}$ по выборке объёмом $100$ из распределения Бернулли критерием с критической областью $|\overline X-\frac12|>0.1$ вероятность ошибки 1-го рода есть вероятность
$$
\mathsf P_{p=\frac12}\left(|\overline X-\frac12|>0.1\right) \approx 0.0455.
$$

$p$-value равно вероятности получить по абстрактной выборке, отвечающей $H_1$, худшее согласие с $H_1$, чем получено по данной выборке. Или, иначе, это наибольшая из вероятностей ошибок первого рода всех тех критериев, которые по данной числовой выборке будут принимать $H_1$. И характеризует он, в отличие от вероятности ошибки первого рода, не столько критерий, сколько данную числовую выборку и степень её согласия с проверяемой гипотезой.

Чтобы в примере выше найти $p$-value, надо взять конкретную числовую выборку. Например, пусть для неё $|\overline x-\frac12|=0.02$. Тогда $p$-value будет
$$
\mathsf P_{p=\frac12}\left(|\overline X-\frac12|>0.02\right) \approx 0.6892.
$$

Если увеличивать критическую область у критерия, заменяя $0.1$ на меньшие значения, или - равносильно - увеличивать ошибку первого рода, то пока эта ошибка не дорастёт до $0.6892$ (или граница с $0.1$ не уменьшится до $0.02$), критерий по данной числовой выборке будет принимать $H_1$.

Так что с Вашей трактовкой реально достигнутого уровня значимости я согласна во всём, кроме последнего предложения
_hum_ в сообщении #1315216 писал(а):
Таким образом, вероятность несправедливости утверждения "гипотеза H2 верна" меньше p-value.

Чтобы говорить о вероятности того, что гипотеза верна, нужно иметь эксперимент, в котором "гипотеза H_1 верна" и "гипотеза H_2 верна" являются событиями, имеющими вероятности. Это совсем иная байесовская постановка вопроса (отчего у меня дежавю?). Просто если шансы по типичной выборке из $H_1$ получить худшее согласие с $H_1$, чем получено по проверяемой числовой выборке, очень малы, то согласие последней с $H_1$ очень плохое и гипотезу по ней отвергают.

_hum_ в сообщении #1315216 писал(а):
С учетом этого мне становится наконец-таки понятным, почему в одних источниках хорошим считается большой уровень значимости (типа, "больше 0.05"), а в других - наоборот, чем меньше, тем лучше (меньше 0.05).

Естественно: если Вы проверяете гипотезу, которую хотите принять, то "хорошо" для этих целей иметь большое значение $p$-value. Если же основная гипотеза - нежелательна (кормили-кормили пациентов лекарствами, а средние у этой и контрольной выборок одинаковы), то Ваша надежда - её отвергнуть, и тогда хорошим значением $p$-value для Вас будет число, меньшее $0.05$.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 14:18 
Заслуженный участник
Аватара пользователя


11/03/08
9489
Москва
Дело в том, что фраза "получено статистически значимое отклонение, уровень значимости больше 0.05" вовсе не означает, что вычисленное значение p>0.05. Здесь "больше" надо понимать, как "более значимо, чем", а численно полученная величина меньше. То есть это есть не совсем ловко выраженная фраза "p<0.05, но больше 0.01, так что об 1% значимости говорить не вправе, но есть надежда, что по мере накопления материала объём выборки вырастет настолько, что и на 1% уровне значимость появится". Обычно такой оборот употребителен, когда получили что-то вроде p=0.02, так что уверенности больше, чем при 5% уровне, но до 1% не дотянули.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 15:27 


23/12/07
1757
--mS-- в сообщении #1315256 писал(а):
Реально достигнутый уровень значимости ($p$-value) - это совсем не есть вероятность ошибки первого рода.

ммм...а я разве говорил обратное?
--mS-- в сообщении #1315256 писал(а):
Чтобы говорить о вероятности того, что гипотеза верна, нужно иметь эксперимент, в котором "гипотеза H_1 верна" и "гипотеза H_2 верна" являются событиями, имеющими вероятности. Это совсем иная байесовская постановка вопроса (отчего у меня дежавю?).

так я и хотел заострить внимание, что эти случаи применения уровня значимости не совсем симметричны. В первом - классическая постановка, которая не дает никаких количественных гарантий на справедливость $H_1$, тогда как во втором, кажется, можно было бы выудить какую-то гарантию, оценивая вероятность $P(H_2 | \text{ p-value} \leq \varepsilon)$ - то есть, вероятность того, насколько мы часто не будем ошибаться, когда будем выбирать гипотезу $H_2$ в ситуациях, когда p-value теста дал значение, не выше $\varepsilon$. И мне казалось, что эта вероятность больше $1-\varepsilon$. Но теперь, если начать более строго выводить, получается

$$P(H_2 | A_\varepsilon) = 1 -  P(H_1 | A_\varepsilon) =1 -  \dfrac{P(H_1)P(A_\varepsilon|H_1) }{P(H_1)P(A_\varepsilon |H_1) + P(H_2)P(A_\varepsilon |H_2)}= 1 -  \dfrac{P(H_1)\varepsilon }{P(H_1)\varepsilon  + P(H_2)P(A_\varepsilon |H_2)} . 
$$
И как бы все. Ну, можно еще сослаться на состоятельность критерия и взять асимптотическую оценку, тогда:
$$P(H_2 | A_\varepsilon) \sim 1 -  \dfrac{P(H_1)\varepsilon }{P(H_1)\varepsilon  + P(H_2)}, \quad n\rightarrow \infty . 
$$
Ну и, чтобы получить мою изначальную оценку, нужно еще предположить равновероятность гипотез и малость $\varepsilon $. Но все эти предположения наверное в значительной мере обесценивают исходную идею...

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение27.05.2018, 16:45 
Заслуженный участник
Аватара пользователя


11/03/08
9489
Москва
Дело в том, что есть ещё одна асимметрия. Гипотезы могут быть простыми и сложными.
И в подавляющем большинстве практических случаев оказывается, что нулевая гипотеза простая, а альтернативная - сложная. Это не статистический принцип, а просто складывающаяся потребность. Нулевая гипотеза - лекарство не снижает давления, альтернативная - на сколько-то снизит, пусть и не знаем, на сколько. А говорить о "вероятности гипотезы" можно лишь применительно к простой, для сложной нет вероятности, как числа, а есть функция от неизвестного параметра (-ов).

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 02:44 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_ в сообщении #1315307 писал(а):
--mS-- в сообщении #1315256 писал(а):
Реально достигнутый уровень значимости ($p$-value) - это совсем не есть вероятность ошибки первого рода.

ммм...а я разве говорил обратное?

А разве нет?
_hum_ в сообщении #1315216 писал(а):
Итак, уровень значимости (здесь и далее - ошибка первого рода при тестировании двух гипотез), как видится, в общем случае используется на практике двояким образом:
- чтобы получить свидетельства в пользу непротиворечивости данных гипотезе H1. В этом случае чем выше достигаемый уровень значимости (p-value),

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 11:46 


23/12/07
1757
--mS-- в сообщении #1315447 писал(а):
А разве нет?

нет. Я писал, что уровень значимости - это ошибка первого рода, и что p-value - это достигаемый уровень значимости. Из этого никак не вытекает, что я отождествлял p-value и уровень значимости :)

Кстати, --mS--, так все-таки, имеет смысл опираться на то, что
$$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$$ при априорных равновероятноых гипотезах (интересно, насколько на практике это предположение верно), или нет?

Евгений Машеров, как мне видится, сказанное Вами все-таки напрямую не касается моего вопроса (тестирование сложных и простых гипотез основано на одних и тех же принципах)

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 11:59 
Заслуженный участник


05/08/14
1564

(Оффтоп)

В литературе стандартом считается обозначать нулевую гипотезу (null hypotheses) $H_0$, а альтернативу $H_1$. Цель статистических выводов - отвергнуть $H_0$; если она не отвергнута, то это не означает, что она верна.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 13:00 
Заслуженный участник
Аватара пользователя


11/03/08
9489
Москва
Боюсь, что Вы не поняли, о чём я говорил. Если бы поняли - не манипулировали бы Вашей формулой
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$
Она для простых альтернативных гипотез неверна, а для сложных бессмысленна.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 13:29 


23/12/07
1757
Евгений Машеров в сообщении #1315510 писал(а):
Боюсь, что Вы не поняли, о чём я говорил. Если бы поняли - не манипулировали бы Вашей формулой
$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$
Она для простых альтернативных гипотез неверна, а для сложных бессмысленна.

Я думал, при такого рода высказываниях на научном форуме принято приводить обоснования справедливости своего утверждения. Нет? :)

dsge
я специально ввел $H_1$, $H_2$, чтобы не наводить тень на плетень изначальной асимметрией, где уже при постановке есть "основная" и "альтернативная" гипотезы.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 13:44 
Заслуженный участник
Аватара пользователя


11/03/08
9489
Москва
То, что Вы не поняли, а не троллите сознательно - не более чем моё предположение, которое доказать не могу, но только в предположении его справедливости имеет смысл дальнейшее обсуждение.
А что Ваша формула либо ложна, либо бессмысленна, в зависимости от того, какого рода гипотеза, простая или сложная, вполне очевидно.
В неё не входит никакая информация об альтернативной гипотезе. Которая, очевидно, должна как-то учитываться при оценке "вероятности гипотез" (кавычки - потому, что вероятностями в строгом смысле можно будет оперировать в байесовской модели, здесь не вероятность, а некое "вероятие" или "удобосбытность" без численного значения). Рассмотрим пример.
Мы испытываем некое новое средство от опасной болезни. Нулевая гипотеза очевидна - средство не помогает, это простая гипотеза. Альтернативная - что помогает. Возьмём, помимо обычного случая, когда альтернативная гипотеза сложная - "помогает, даёт снижение смертности, точным значением не задаёмся", также вариант альтернативной гипотезы, как простой - "смертность падает до среднего по популяции уровня". У нас смертность без лечения 10%, при лечении 7%. Будет ли зависеть наша вера в лекарство, в справедливость альтернативной гипотезы от того, смертность по здоровой популяции 1% или 5%? Очевидно, будет, а как Ваша формула это учтёт? По всей видимости, для простых гипотез она не работает.
А для сложных отвергнуть её просто - она настаивает на одном числе, выражающем "вероятность", тогда как в сложной гипотезе у нас семейство вариантов, и для каждого ответ свой.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:29 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_ в сообщении #1315496 писал(а):
Кстати, --mS--, так все-таки, имеет смысл опираться на то, что
$$P(H_2|p\text{-value} \leq \varepsilon) \sim 1-\frac{\varepsilon}{\varepsilon + 1}, n\rightarrow \infty$$ при априорных равновероятноых гипотезах (интересно, насколько на практике это предположение верно), или нет?

Я уже ответила на этот вопрос до того, как он был задан. В небайесовской постановке нет и не может быть никаких вероятностей у гипотез. Выборка взята либо из $H_1$, либо из $H_2$, и это не результат случайного эксперимента. Просто мы не знаем, из какого она распределения, поэтому считаться вынуждены сразу с двумя вероятностями ошибок. Соответственно, существуют лишь два варианта вероятностей: вероятность чего-то там, если верна $H_1$, и вероятность чего угодно при верной $H_2$. Именно они дают вероятности ошибочных решений: ошибиться, если верна $H_1$ и ошибиться, если верна $H_2$. Если же модель байесовская, то качество критерия меряется совсем иначе, и реально достигнутый уровень значимости тут ни при чём.

Ну давайте представим, что мы в байесовских условиях, с одинаковыми априорными вероятностями гипотез. Чтобы не говорить о критериях "вообще", продолжим на примере $n$ испытаний и монетки, которая хочет быть симметричной для гипотезы $H_1$, и несимметричной - для $H_2$.

И пусть для нашей выборки объёмом в $10^4$ (много) случилось страшное: число единичек в ней отличается от половины на $516$. Т.е. реально достигнутый уровень значимости есть $0.01$ (грубо, по ЦПТ). Вы хотите найти вероятность, что монетка была симметричной (или несимметричной, всё равно) при этом условии. Но $\mathsf P(|\overline X-0.5|>0.0516~|~H_2)$ совершенно не обязательно близка к единице: сложная гипотеза $H_2$ может содержать простые альтернативы с вероятностью герба настолько близкой к половине, что эта вероятность будет мала. Более того, она просто не определена до тех пор, пока в дополнение к розыгрышу $H_1$ и $H_2$ Вы не определите, каким образом выбирается простая гипотеза в рамках выпавшей сложной, т.е. в данном случае, если выборка из $H_2$, то как выбирается, с каким она будет $p$. Априорное распределение параметра, по-русски :).

Если Вы хотите рассматривать асимптотику при $n\to\infty$, то тогда теряют всякий смысл слова "когда p-value теста дал значение, не выше $\varepsilon$": для любой фиксированной выборки её объём конечен, и предыдущий абзац работает. Если же совсем уйти от жизни, то можно задать критерий с критической областью $\{ |\overline X-0.5|>\frac{2\cdot \tau_{1-\varepsilon/2}}{\sqrt{n}}\}$, где $\Phi_{0,1}(\tau_{1-\varepsilon/2})=1-\varepsilon/2$, событием $A_{\varepsilon}$ назвать попадание выборки в эту критическую область, тогда при $n\to\infty$ для любого $p_2\neq \frac12$
$$
\mathsf P(A_\varepsilon | p=p_2) \to 1,
$$
но это никак не то же самое, что $\mathsf P(A_\varepsilon | H_2)\to 1$! Например, если при каждом $n$ я буду разыгрывать $p_2$ равномерно на $\left(\frac12-\frac1n,0\right)\cup \left(0,\frac12+\frac1n\right)$, то $\mathsf P(A_\varepsilon | H_2)\to \varepsilon$.

Так что сложная альтернатива делает обсуждаемое равенство неверным, Евгений Машеров полностью прав.

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:37 


23/12/07
1757
Евгений Машеров в сообщении #1315523 писал(а):
А что Ваша формула либо ложна, либо бессмысленна, в зависимости от того, какого рода гипотеза, простая или сложная, вполне очевидно.
В неё не входит никакая информация об альтернативной гипотезе.

ну как же не входит, если входит. Изначальная формула (см. выше) в обычном предположении состоятельности критерия ($P(A_\varepsilon |H_2)\rightarrow 1$, $n\rightarrow \infty$) дает

$$P(H_2 | A_\varepsilon) \sim 1 -  \dfrac{\varepsilon }{\varepsilon  + \frac{P(H_2)}{P(H_1)}},\quad n\rightarrow \infty . 
$$
Просто при дополнительном предположении равновероятности гипотез ($P(H_1)=P(H_2)$) отсюда еще и вытекает тот вариант, который и обсуждаем.

Евгений Машеров в сообщении #1315523 писал(а):
Которая, очевидно, должна как-то учитываться при оценке "вероятности гипотез" (кавычки - потому, что вероятностями в строгом смысле можно будет оперировать в байесовской модели, здесь не вероятность, а некое "вероятие" или "удобосбытность" без численного значения)

Не знаю, о чем Вы, но здесь четкая вероятность для конкретных событий - вероятность столкнуться при тестировании с гипотезой 1, гипотезой 2 (это $P(H_1)$, $P(H_2)$), и вероятность, что при достигнутом уровне значимости, меньшем $\varepsilon$, будет справедлива гипотеза $H_2$ (это $P(H_2 | A_\varepsilon) $).
Остальные Ваши рассуждения мне сложно читать без мало-мальской математической формализации :(

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:44 
Заслуженный участник
Аватара пользователя


11/03/08
9489
Москва
В общем, почитайте про мощность.

(Оффтоп)

Уровень значимости и мощность - близнецы-братья, разлучённые объёмом выборки. Тут Sankhyā: The Indian Journal of Statistics начинает петь и танцевать...

 Профиль  
                  
 
 Re: Практическая суть уровня значимости
Сообщение28.05.2018, 14:52 


23/12/07
1757
--mS-- в сообщении #1315532 писал(а):
В небайесовской постановке нет и не может быть никаких вероятностей у гипотез.

Обращаю внимание, что речь шла о практической сути понятия уровня значимости. Никаких ограничений на то, в какой формальной постановке легче его содержательно объяснить (в байесовской или нет) - не было.

По поводу дальнейших рассуждений - не совсем хорошо, что в контоаргументации сразу смешано и сложные гипотезы, и рассуждения про бессмысленность асимптотического рассмотрения - в таких условиях мне сложно уследить за ходом Вашей мысли.
Не могли бы Вы начать с простого - например, с двух простых - $H_1$ = "монетка c $p=1/2$" и $H_2$ = "монетка c $p=3/4$" в предположении, что эти гипотезы равновероятны, и показать, в чем ошибочность моих рассуждений?

Евгений Машеров в сообщении #1315535 писал(а):
В общем, почитайте про мощность.


что, кроме того, что про нее написано в Боровкове, мне еще нужно знать?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Gg322


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group