2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 мощность коэффициента корреляции
Сообщение13.12.2017, 04:39 


07/10/15

2400
Как известно, мощность статистического критерия, представляет собой вероятность верного принятия альтернативной гипотезы. Применительно к коэффициенту корреляции $H_0: \rho=0; H_1: \rho\ne 0$.
Как правило, проверяется только нулевая гипотеза. Каким образом в таких условиях можно оценить ошибки второго рода, не совсем понятно. Хотя очевидно, что задаваемому уровню значимости $\alpha$ всегда соответствует вполне определённая мощность $1-\beta$. Причём, по мере уменьшения $\alpha$, $1-\beta$ так же уменьшается, т.е. с увеличением специфичности, чувствительность теста всегда падает. Возникает справедливый вопрос о выборе оптимального соотношения $\alpha$ и $1-\beta$.
Особенно остро он встаёт, например, при отборе признаков. Моя личная практика показывает, что при этом, наилучшие результаты получаются при $\alpha=0.05$, хотя теоретического обоснования этому никакого у меня нет. О мощности коэффициента корреляции информации нигде найти не удаётся, за исключением, пожалуй того, что корреляция Пирсона мощнее ранговых корреляций.
Интуиция показывает, что для нахождения мощности необходимо оценить вероятность сложной альтернативной гипотезы $ H_1: \rho\ne 0$, но как это сделать, я к сожалению не знаю. Но, по крайней мере для корреляций Пирсона, это видимо возможно. Так как известны законы распределения вероятностей для любых её значений.

Буду рад любой помощи по данному вопросу. В частности - ссылкам на полезную литературу, или другую информацию. А так же другим полезным советам.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 12:39 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
А тупо преобразованием Фишера привести к нормальности?
$z=\frac 1 2 \ln \frac {1+r}{1-r}$
И дальше работать с мощностями критериев для значений нормальных величин?

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 13:38 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
Andrey_Kireew в сообщении #1274525 писал(а):
для нахождения мощности необходимо оценить вероятность сложной альтернативной гипотезы $ H_1: \rho\ne 0$, но как это сделать, я к сожалению не знаю.
И правильно делаете, что не знаете :D
Для такого рода гипотез невозможно ничего сказать об ошибке второго рода.
Сами подумайте: ведь, например, $\rho = 10^{-100}$ — это тоже $H_1$.

-- Ср дек 13, 2017 15:41:45 --

Другое дело, если бы у нас была $H_0: |\rho| \leqslant \varepsilon$, $H_1: |\rho| > \varepsilon$, где $\varepsilon > 0$ заранее задано. Но тут посоветовать ничего конкретного не могу.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 13:59 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Ну, так мощность зависит и от величины ожидаемого эффекта. То есть если мы оцениваем непрерывную величину, нам надо задать, какое значение мы боимся пропустить.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 15:45 


07/10/15

2400
Евгений Машеров в сообщении #1274585 писал(а):
А тупо преобразованием Фишера привести к нормальности?
$z=\frac 1 2 \ln \frac {1+r}{1-r}$
И дальше работать с мощностями критериев для значений нормальных величин?


Да, можно через $z$ - преобразование, можно через $t$ - критерий. Вопрос то всё равно остаётся. Нужно найти вероятность $Н_1$.

-- 13.12.2017, 17:01 --

worm2 в сообщении #1274598 писал(а):
И правильно делаете, что не знаете :D
Для такого рода гипотез невозможно ничего сказать об ошибке второго рода.


Если невозможно ничего сказать, то на каком основании вообще делаются выводы о мощности корреляций? А в литературе я такие рассуждения встречал неоднократно.

Но я не уверен, что это невозможно. Водить пороговое значение - значит менять альтернативную гипотезу. Можно конечно, но не хотелось бы. Было бы очень не плохо посмотреть какую нибудь литературу, освещающую данный вопрос.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 16:48 
Заслуженный участник
Аватара пользователя


01/08/06
3140
Уфа
Andrey_Kireew в сообщении #1274624 писал(а):
Если невозможно ничего сказать, то на каком основании вообще делаются выводы о мощности корреляций?
Скорее всего, берут несколько конкретных альтернатив и уже для них вычисляют мощность. Для другого набора альтернатив будет другая мощность. Но, вероятно, альтернативы подбирают из каких-то практических соображений, которые, фактически, конкретизируют гипотезу $H_1$. Если это не так, то я тогда присоединяюсь к вашему вопросу.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение13.12.2017, 22:52 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
Как вариант. Для любой гипотезы вида $H_1:\rho=\rho_1\neq 0$ вычислить мощность, далее усреднить по значениям величины $\rho_1$, считая ее равномерно распределенной на $[-1,1]$.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение15.12.2017, 21:58 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Как правило, если интересующая величина непрерывна, гипотезы оказываются "несимметричны". $H_0$ может быть "точкой" - $\mu=0$, а $H_1$ - всем, кроме этой точки. Для дискретных величин можно надеяться на равноправие - $H_0$ "здоров", $H_1$ "болен", а для непрерывных надо альтернативную гипотезу конкретизовать. Не "какова вероятность ложноотрицательной диагностики, если матожидание не ноль", а "...если матожидание больше 0.5", скажем. И вместо мощности-числа получаем мощность-функцию от заданного уровня интересующего параметра.
Скажем, в Большеве-Смирнове таблицы (на самом деле там номограммы) 4.10-4.12 как раз позволяют оценить мощность для заданной альтернативной гипотезы. Не задав её - о мощности говорить бессмысленно.
Задать распределение возможных значений, рассчитать для каждого и получить среднее - путь возможный, правда, равномерное распределение выглядит неубедительно (и если волевым решением принять равномерное для r, то будет неравномерное для $r^2$ или z)

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение16.12.2017, 05:18 


07/10/15

2400
Евгений Машеров Спасибо за подсказку, скачал этот справочник, почитал кое что. Получается мощность критерия зависит от параметра "нецентральности распределения". Задавшись некоторым порогом $\rho$ можно найти параметр "нецентральности" соответствующего нецентрального распределения Стьюдента, а потом найти мощность.

В итоге, я себе представляю всё так: имеется выборочное значение корреляции $\tilde{\rho}$, значимое на уровне $\alpha_{max}$. Выбираем параметр нецентральности распределения Стьюдента и находим соответствующую мощность. Для определённости подбираем так, чтобы $\alpha=1-\beta$. Тогда, с вероятностью $1-\alpha$ генеральный коэффициент корреляции находится в диапазоне $\rho\in[\rho_{min}; \tilde{\rho}]$, где $\rho_{min} $ пороговое значение коэффициента корреляции, соответствующее выбранному параметру нецентральности.

Другими словами, всё что мы можем - это найти диапазон, в котором находится генеральный коэффициент корреляции и вероятность, с которой он в этом диапазоне находится.
Как Вы думаете Евгений Машеров правильно ли я всё понимаю?


По поводу идеи alisa-lebovski я думал долго, но так ничего и не придумал. Непонятно почему принимать равномерное распределение $\rho$ для $H_1$. Получается, необходимо ввести ещё какое то априорное распределение, и не понятно, почему именно такое. Сам сейчас склоняюсь к тому, что от сложной альтернативной гипотезы, всё же, необходимо перейти к простой. Тем более, что судя по литературным данным, делается именно так.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение16.12.2017, 12:38 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Если говорят, что один критерий мощнее другого, то имеют в виду, что он мощнее для любых допускаемых альтернативной гипотезой значений.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 00:48 


07/10/15

2400
Евгений Машеров в сообщении #1275368 писал(а):
Если говорят, что один критерий мощнее другого, то имеют в виду, что он мощнее для любых допускаемых альтернативной гипотезой значений.


Такое возможно только в одном случае - если вероятность принятия сложной альтернативной гипотезы $H_1:\rho\ne0$ можно найти безо всяких пороговых значений. Но это противоречит Вашим же доводам,с которыми я уже практически согласился.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 10:31 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Нет. Задаются значением параметра (нецентральности для Стьюдента, отношения дисперсий для F-отношения и т.п.), конкретизующего альтернативную гипотезу, и, зафиксировав уровень значимости, считают мощность сравниваемых критериев. Если для всех возможных значений параметра мощность одного выше (вернее, не ниже, а хотя бы для одного выше), говорят, что он мощнее другого. Если при разных значениях параметра более мощен то один, то другой критерий, то сравнивать их мощность, как критериев, а не для конкретных значений, нельзя.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 11:03 


07/10/15

2400
Я конечно извиняюсь, но функция мощности определяется уровнем значимости, числом степеней свободы и параметром нецентральности. Если их все зафиксировать - то получится один и тот же результат, одинаковая мощность (для конкретики - если сравнивать корреляции Спирмена и Пирсона по t - критерию).
Максимальный уровень значимости, на котором отвергается нуль - гипотеза, при этом будет разный. Может уровень значимости не фиксируется, а берётся максимальный уровень значимости и считается соответствующая ему мощность?

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение17.12.2017, 13:01 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Извинения приняты.
Повторяю схему сравнения.
Задаёмся объёмом выборки и уровнем значимости (просто введя обозначения или, при численном эксперименте, задав конкретные значения). Исходя из этого, находим для сравниваемых критериев критические значения, обеспечивающие заданный уровень значимости. Затем предполагаем, что в действительности нуль-гипотеза неверна, и задаёмся величиной, показывающей степень нарушения её (параметр нецентральности для Стьюдента). В этих условиях, используя критические значения для выбранного уровня значимости, проверяем гипотезу, находя долю "ложноотрицательных диагнозов" и, соответственно, мощность. У нас получаются две (или больше, по числу сравниваемых критериев) функции зависимости мощности от нецентральности (или иного соответствующего параметра). Если для одного критерия мощность при всех значениях параметра выше (не ниже, и хотя бы для одного значения выше), чем для второго, первый критерий считают более мощным. Если для одних значений параметра мощнее один критерий, для других другой - они несравнимы.

 Профиль  
                  
 
 Re: мощность коэффициента корреляции
Сообщение18.04.2018, 04:15 


07/10/15

2400
Почитал тут - немного разобрался. Здесь не то что бы просто задаются пороговым значением параметра. Есть понятие наблюдаемый эффект - это измеренное значение. Если для него $H_0$ отвергается на требуемом уровне значимости, то вопросов о мощности не возникает, так как различия достоверно обнаружены. Вопрос о мощности возникает, когда $H_0$ принимается. Параметр нецентральности вычисляется как раз из наблюдаемого эффекта (путём деления на дисперсию). А уж потом оценивается и мощность критерия, позволившею принять $H_0$. Если она 80% и больше, то можно делать достоверные выводы, если нет - то скорее всего есть ошибка 2-рода. Нужно либо менять критерий, либо увеличивать выборку.

В [С.Гланц Медико-биологическая статистика, 1999г.] есть графики мощности критерия Стьюдента
Изображение

Этот график worm2 противоречит вашему утверждению, так как даже нулевым различиям соответствует вполне определённая мощность, хотя и не большая. Сам я пока не понимаю, почему так получается. Возможно права alisa-lebovski, и при нахождении вероятности $H_1$ выполняется какое то усреднение.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 15 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group