2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 мощность коэффициента корреляции
Сообщение13.12.2017, 04:39 


07/10/15

2400
Как известно, мощность статистического критерия, представляет собой вероятность верного принятия альтернативной гипотезы. Применительно к коэффициенту корреляции $H_0: \rho=0; H_1: \rho\ne 0$.
Как правило, проверяется только нулевая гипотеза. Каким образом в таких условиях можно оценить ошибки второго рода, не совсем понятно. Хотя очевидно, что задаваемому уровню значимости $\alpha$ всегда соответствует вполне определённая мощность $1-\beta$. Причём, по мере уменьшения $\alpha$, $1-\beta$ так же уменьшается, т.е. с увеличением специфичности, чувствительность теста всегда падает. Возникает справедливый вопрос о выборе оптимального соотношения $\alpha$ и $1-\beta$.
Особенно остро он встаёт, например, при отборе признаков. Моя личная практика показывает, что при этом, наилучшие результаты получаются при $\alpha=0.05$, хотя теоретического обоснования этому никакого у меня нет. О мощности коэффициента корреляции информации нигде найти не удаётся, за исключением, пожалуй того, что корреляция Пирсона мощнее ранговых корреляций.
Интуиция показывает, что для нахождения мощности необходимо оценить вероятность сложной альтернативной гипотезы $ H_1: \rho\ne 0$, но как это сделать, я к сожалению не знаю. Но, по крайней мере для корреляций Пирсона, это видимо возможно. Так как известны законы распределения вероятностей для любых её значений.

Буду рад любой помощи по данному вопросу. В частности - ссылкам на полезную литературу, или другую информацию. А так же другим полезным советам.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 12:39 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
А тупо преобразованием Фишера привести к нормальности?
$z=\frac 1 2 \ln \frac {1+r}{1-r}$
И дальше работать с мощностями критериев для значений нормальных величин?

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 13:38 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
Andrey_Kireew в сообщении #1274525 писал(а):
для нахождения мощности необходимо оценить вероятность сложной альтернативной гипотезы $ H_1: \rho\ne 0$, но как это сделать, я к сожалению не знаю.
И правильно делаете, что не знаете :D
Для такого рода гипотез невозможно ничего сказать об ошибке второго рода.
Сами подумайте: ведь, например, $\rho = 10^{-100}$ — это тоже $H_1$.

-- Ср дек 13, 2017 15:41:45 --

Другое дело, если бы у нас была $H_0: |\rho| \leqslant \varepsilon$, $H_1: |\rho| > \varepsilon$, где $\varepsilon > 0$ заранее задано. Но тут посоветовать ничего конкретного не могу.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 13:59 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Ну, так мощность зависит и от величины ожидаемого эффекта. То есть если мы оцениваем непрерывную величину, нам надо задать, какое значение мы боимся пропустить.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 15:45 


07/10/15

2400
Евгений Машеров в сообщении #1274585 писал(а):
А тупо преобразованием Фишера привести к нормальности?
$z=\frac 1 2 \ln \frac {1+r}{1-r}$
И дальше работать с мощностями критериев для значений нормальных величин?


Да, можно через $z$ - преобразование, можно через $t$ - критерий. Вопрос то всё равно остаётся. Нужно найти вероятность $Н_1$.

-- 13.12.2017, 17:01 --

worm2 в сообщении #1274598 писал(а):
И правильно делаете, что не знаете :D
Для такого рода гипотез невозможно ничего сказать об ошибке второго рода.


Если невозможно ничего сказать, то на каком основании вообще делаются выводы о мощности корреляций? А в литературе я такие рассуждения встречал неоднократно.

Но я не уверен, что это невозможно. Водить пороговое значение - значит менять альтернативную гипотезу. Можно конечно, но не хотелось бы. Было бы очень не плохо посмотреть какую нибудь литературу, освещающую данный вопрос.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 16:48 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
Andrey_Kireew в сообщении #1274624 писал(а):
Если невозможно ничего сказать, то на каком основании вообще делаются выводы о мощности корреляций?
Скорее всего, берут несколько конкретных альтернатив и уже для них вычисляют мощность. Для другого набора альтернатив будет другая мощность. Но, вероятно, альтернативы подбирают из каких-то практических соображений, которые, фактически, конкретизируют гипотезу $H_1$. Если это не так, то я тогда присоединяюсь к вашему вопросу.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 22:52 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
Как вариант. Для любой гипотезы вида $H_1:\rho=\rho_1\neq 0$ вычислить мощность, далее усреднить по значениям величины $\rho_1$, считая ее равномерно распределенной на $[-1,1]$.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение15.12.2017, 21:58 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Как правило, если интересующая величина непрерывна, гипотезы оказываются "несимметричны". $H_0$ может быть "точкой" - $\mu=0$, а $H_1$ - всем, кроме этой точки. Для дискретных величин можно надеяться на равноправие - $H_0$ "здоров", $H_1$ "болен", а для непрерывных надо альтернативную гипотезу конкретизовать. Не "какова вероятность ложноотрицательной диагностики, если матожидание не ноль", а "...если матожидание больше 0.5", скажем. И вместо мощности-числа получаем мощность-функцию от заданного уровня интересующего параметра.
Скажем, в Большеве-Смирнове таблицы (на самом деле там номограммы) 4.10-4.12 как раз позволяют оценить мощность для заданной альтернативной гипотезы. Не задав её - о мощности говорить бессмысленно.
Задать распределение возможных значений, рассчитать для каждого и получить среднее - путь возможный, правда, равномерное распределение выглядит неубедительно (и если волевым решением принять равномерное для r, то будет неравномерное для $r^2$ или z)

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение16.12.2017, 05:18 


07/10/15

2400
Евгений Машеров Спасибо за подсказку, скачал этот справочник, почитал кое что. Получается мощность критерия зависит от параметра "нецентральности распределения". Задавшись некоторым порогом $\rho$ можно найти параметр "нецентральности" соответствующего нецентрального распределения Стьюдента, а потом найти мощность.

В итоге, я себе представляю всё так: имеется выборочное значение корреляции $\tilde{\rho}$, значимое на уровне $\alpha_{max}$. Выбираем параметр нецентральности распределения Стьюдента и находим соответствующую мощность. Для определённости подбираем так, чтобы $\alpha=1-\beta$. Тогда, с вероятностью $1-\alpha$ генеральный коэффициент корреляции находится в диапазоне $\rho\in[\rho_{min}; \tilde{\rho}]$, где $\rho_{min} $ пороговое значение коэффициента корреляции, соответствующее выбранному параметру нецентральности.

Другими словами, всё что мы можем - это найти диапазон, в котором находится генеральный коэффициент корреляции и вероятность, с которой он в этом диапазоне находится.
Как Вы думаете Евгений Машеров правильно ли я всё понимаю?


По поводу идеи alisa-lebovski я думал долго, но так ничего и не придумал. Непонятно почему принимать равномерное распределение $\rho$ для $H_1$. Получается, необходимо ввести ещё какое то априорное распределение, и не понятно, почему именно такое. Сам сейчас склоняюсь к тому, что от сложной альтернативной гипотезы, всё же, необходимо перейти к простой. Тем более, что судя по литературным данным, делается именно так.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение16.12.2017, 12:38 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Если говорят, что один критерий мощнее другого, то имеют в виду, что он мощнее для любых допускаемых альтернативной гипотезой значений.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 00:48 


07/10/15

2400
Евгений Машеров в сообщении #1275368 писал(а):
Если говорят, что один критерий мощнее другого, то имеют в виду, что он мощнее для любых допускаемых альтернативной гипотезой значений.


Такое возможно только в одном случае - если вероятность принятия сложной альтернативной гипотезы $H_1:\rho\ne0$ можно найти безо всяких пороговых значений. Но это противоречит Вашим же доводам,с которыми я уже практически согласился.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 10:31 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Нет. Задаются значением параметра (нецентральности для Стьюдента, отношения дисперсий для F-отношения и т.п.), конкретизующего альтернативную гипотезу, и, зафиксировав уровень значимости, считают мощность сравниваемых критериев. Если для всех возможных значений параметра мощность одного выше (вернее, не ниже, а хотя бы для одного выше), говорят, что он мощнее другого. Если при разных значениях параметра более мощен то один, то другой критерий, то сравнивать их мощность, как критериев, а не для конкретных значений, нельзя.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 11:03 


07/10/15

2400
Я конечно извиняюсь, но функция мощности определяется уровнем значимости, числом степеней свободы и параметром нецентральности. Если их все зафиксировать - то получится один и тот же результат, одинаковая мощность (для конкретики - если сравнивать корреляции Спирмена и Пирсона по t - критерию).
Максимальный уровень значимости, на котором отвергается нуль - гипотеза, при этом будет разный. Может уровень значимости не фиксируется, а берётся максимальный уровень значимости и считается соответствующая ему мощность?

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 13:01 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Извинения приняты.
Повторяю схему сравнения.
Задаёмся объёмом выборки и уровнем значимости (просто введя обозначения или, при численном эксперименте, задав конкретные значения). Исходя из этого, находим для сравниваемых критериев критические значения, обеспечивающие заданный уровень значимости. Затем предполагаем, что в действительности нуль-гипотеза неверна, и задаёмся величиной, показывающей степень нарушения её (параметр нецентральности для Стьюдента). В этих условиях, используя критические значения для выбранного уровня значимости, проверяем гипотезу, находя долю "ложноотрицательных диагнозов" и, соответственно, мощность. У нас получаются две (или больше, по числу сравниваемых критериев) функции зависимости мощности от нецентральности (или иного соответствующего параметра). Если для одного критерия мощность при всех значениях параметра выше (не ниже, и хотя бы для одного значения выше), чем для второго, первый критерий считают более мощным. Если для одних значений параметра мощнее один критерий, для других другой - они несравнимы.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение18.04.2018, 04:15 


07/10/15

2400
Почитал тут - немного разобрался. Здесь не то что бы просто задаются пороговым значением параметра. Есть понятие наблюдаемый эффект - это измеренное значение. Если для него $H_0$ отвергается на требуемом уровне значимости, то вопросов о мощности не возникает, так как различия достоверно обнаружены. Вопрос о мощности возникает, когда $H_0$ принимается. Параметр нецентральности вычисляется как раз из наблюдаемого эффекта (путём деления на дисперсию). А уж потом оценивается и мощность критерия, позволившею принять $H_0$. Если она 80% и больше, то можно делать достоверные выводы, если нет - то скорее всего есть ошибка 2-рода. Нужно либо менять критерий, либо увеличивать выборку.

В [С.Гланц Медико-биологическая статистика, 1999г.] есть графики мощности критерия Стьюдента
Изображение

Этот график worm2 противоречит вашему утверждению, так как даже нулевым различиям соответствует вполне определённая мощность, хотя и не большая. Сам я пока не понимаю, почему так получается. Возможно права alisa-lebovski, и при нахождении вероятности $H_1$ выполняется какое то усреднение.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 15 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Mikhail_K


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group