2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Условия достоверности корреляции Пирсона
Сообщение09.09.2017, 12:46 
Известно, что доверительные интервалы для выборочного коэффициента корреляции Пирсона корректны только при условии нормального распределения сравниваемых величин.
Возникает вопрос, будут ли они оставаться корректными при условии что сравниваемые величины распределены нормально, а совместное распределение этих величин отличается от нормального.
Есть подозрение, что в этих условиях выборочная оценка корреляции уже не будет иметь нормальное распределение, и это не позволит правильно определить доверительные интервалы, а соответственно и значимость корреляции.

Бывает так, что на одной подвыборке корреляции вроде бы значимы, а на другой - уже нет. Может в этом вся причина?

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 00:19 
Если случайные величины $X$ и $Y$ имеют совместное нормальное распределение (не ограничивая общность можно считать, что м.о. $X$ и $Y$ равны нулю) с плотностью
$$f_{X, Y} (x,y)= \frac 1 {2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} 
e^{  - \frac 1 {2 (1-\rho^2)} \left( \frac {x^2} {\sigma_1^2} - \frac {2\rho xy}{\sigma_1 \sigma_2} + \frac {y^2} {\sigma _2^2} \right) },$$то выборочный коэффициент корреляции $r = \frac 1 n \sum (X_i - \bar X) (Y_i - \bar Y) / (s_1 s_2)$ имеет плотность, не выражающуюся через элементарные функции (см., например, п. 29.7 в книге Г. Крамера «Математические методы статистики», 1976). В приложениях опираются на два факта
1. Обозначим $$ z = \frac 1 2 \ln \frac {1+r} {1-r}, \quad \zeta = \frac 1 2 \ln \frac {1+ \rho} {1- \rho}.$$ При достаточно больших $n$ распределение величины $z$ приблизительно нормальное с $$\mathsf E z = \zeta + \frac {\rho} {2(n-1)}, \quad  \mathsf D z = \frac 1 {n-3}.$$
(При помощи $z$ и строят приближённые доверительные интервалы для $r$.)
2. Если $\rho = 0$, то $t=\sqrt {n-2} \frac r {\sqrt {1-r^2}}$ имеет распределение Стьюдента с $n-2$ степенями свободы.

Если о совместном распределении величин ничего не известно, то о выборочном коэффициенте корреляции распределении $r$ ничего сказать нельзя, тем более о нормальности распределения $r$.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 01:22 
Большое спасибо за ответ, со всем вышеизложенным, кроме последнего, я достаточно хорошо знаком.

GAA в сообщении #1246572 писал(а):
Если о совместном распределении величин ничего не известно, то о выборочном коэффициенте корреляции о распределении $r$ ничего сказать нельзя, тем более о нормальности распределения $r$.


Получается моё подозрение Вы разделяете. Всё дело в том, что при вычислении корреляций проводятся тесты на нормальность одномерных распределений сравниваемых величин, и постулируется нормальность совместного распределения. Но это строго говоря неправильно, так как о нормальности здесь можно лишь предполагать.
Следовательно результаты корреляционного анализа могут быть совершенно неверными.

Но у меня есть идея, как выйти из этого положения.
Нужно выполнить декоррелирующее преобразование сравниваемых величин и проверить нормальность найденных главных компонент. Если компоненты нормально распределены, то они статистически независимы, и любая их линейная комбинация будет нормально распределённой. Следовательно и совместное распределение нормальное.

Если нет, то корреляции Пирсона использовать нельзя.
Можно перейти к ранговым корреляциям, но там похожая проблема.

Требуется однородность выборки,иначе результаты будут некорректны (ложные корреляции).
Проверяется однородность сравниваемых величин по отдельности и постулируется однородность распределения двухмерного вектора. Но как и в предыдущем случае, об этом можно только предполагать. В общем случае, результаты корреляционного анализа тоже могут быть некорректными. Но как проверить однородность распределения двухмерной величины не знаю. Слышал есть тест Чоу, но он для проверки регрессионной однородности, причём для МНК регрессии, т.е. использует гипотезу нормальности. Для ранговых корреляций он наверное не подойдёт.

Не посоветуете что нибудь по этому поводу?

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 02:57 
Andrey_Kireew в сообщении #1246587 писал(а):
Но у меня есть идея, как выйти из этого положения.
Нужно выполнить декоррелирующее преобразование сравниваемых величин и проверить нормальность найденных главных компонент. Если компоненты нормально распределены, то они статистически независимы, и любая их линейная комбинация будет нормально распределённой. Следовательно и совместное распределение нормальное.
Приведите, пожалуйста, "декоррелирующее преобразование сравниваемых величин" и докажите утверждение (или дайте ссылку на доказательство).

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 05:46 
Пусть
$a_1, a_2$- исходные сравниваемые величины,

$ C=\begin{pmatrix}
 k_1 & k_2   \\
 k_3 & k_4  \\
\end{pmatrix} \cdot
\begin{pmatrix}
 s_1 & 0   \\
 0 & s_2  \\
\end{pmatrix} \cdot
\begin{pmatrix}
 k_1 & k_3   \\
 k_2 & k_4  \\
\end{pmatrix}

$ - сингулярное разложение из ковариационной матрицы.

Тогда декоррелируюшее преобразование можно записать так
$\begin{pmatrix}
 b_1   \\
 b_2   \\
\end{pmatrix}=
\begin{pmatrix}
 k_1 & k_2   \\
 k_3 & k_4  \\
\end{pmatrix} \cdot
\begin{pmatrix}
 a_1   \\
a_2  \\
\end{pmatrix} 
 $

Если $ b_1 \sim N($\mu_1, \sigma_1)  \wedge  b_2  \sim N($\mu_2, \sigma_2)$ $,
то $ b_1$ и $b_2$ статистически независимы (так как $R_{b1,b2}=0$), и любая их линейная комбинация нормально распределена (об этом обсуждалось в http://dxdy.ru/topic72764.html, встречал я и в литературе, но не помню точно где). Следовательно и совместное распределение тоже тогда будет нормальное.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 13:23 
Для большей ясности хотелось бы пояснить, что мой вопрос восходит к прошлой теме http://dxdy.ru/topic108571.html

Вкратце: На разных подвыборках одной и той же выборки корреляции очень сильно различаются. Эти различия не согласуются ни с какими мыслимыми доверительными интервалами, учитывая, что выборка и подвыборки весьма большие (порядка тысячи наблюдений). Сам собой напрашивается вывод, что полученные мной оценки корреляций несостоятельны. Но какие предпосылки корреляционного анализа нарушены? Этого я пока понять не могу.

С корреляциями Пирсона у меня возникла такая идея, изложенная в настоящем посте.
С ранговыми корреляциями, предполагаю, нужно проверять однородность совместного распределения.

Где вообще об этом можно почитать. В имеющейся у меня литературе по статистике эти вопросы не затрагиваются. В одной книге правда вскользь упоминается, что неоднородность выборки может привести к ложным корреляциям, а может даже "затушевывать" истинные корреляции. Это есть вот тут http://stu.sernam.ru/book_fan2.php?id=95.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 13:27 
Аватара пользователя
Рассмотрим систему из двух случайных величин $x\sim N(0,1)$ и
$y=\begin{cases}
x,&\text{если $|x|>t$}\\
-x,&\text{если $|x|\le t$}
\end{cases}$
где порог t выбран так, чтобы корреляция между x и y была бы нулевой.
Тогда ортогонализирующее преобразование - умножение на единичную матрицу и ничего не меняет. То есть распределение ортогонализованных будет тоже нормально. И что?

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 15:02 
Что то я сомневаюсь, что распределение $ y $ ,будет нормальным. В этом случае предпосылка параметрического корреляционного анализа нарушена изначально. В этом случае декоррелирующее преобразование проводить бессмысленно, даже если бы вычисленное значение $R_{x,y}$ отличалось от нуля. Тут сразу понятно, что применение корреляций Пирсона будет некорректным, так как построить для неё достоверные доверительные интервалы не получится. Вот и то.

-- 10.09.2017, 16:12 --

Хотя, сейчас смоделировал Ваше переменные, с разными порогами. $ y $ остаётся нормальной.

-- 10.09.2017, 16:15 --

Тогда непонятно в чём вообще вопрос.
Если они нормальны и не коррелированы, то и совместное распределение их тоже нормально. И распределение ортогонализованых будет нормально, так как после ортогонализации они по сути не меняются. Как были нормальными, так нормальными и остались.

-- 10.09.2017, 16:20 --

Вы вообще с какой целью привели этот пример? Если как контрпример, то чего?

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 15:46 
Andrey_Kireew в сообщении #1246687 писал(а):
Если как контрпример, то чего?
Andrey_Kireew в сообщении #1246607 писал(а):
Если $ b_1 \sim N($\mu_1, \sigma_1)  \wedge  b_2  \sim N($\mu_2, \sigma_2)$ $,
то $ b_1$ и $b_2$ статистически независимы (так как $R_{b_1,b_2}=0$)
Это пример того, что из некоррелированности двух нормально распределённых случайных величин не следует их независимость. Именно в этом смысле приводила этот пример Н.И. Чернова. [upd](Именно этот пример я впервые видел в её изложении, но можно построить и другие примеры. Историю примеров я не знаю.)[/upd] В данном случае Вы утверждаете, что раз случайные величины $b_1$ и $b_2$ нормально распределены и некоррелированные, то они независимы. Формально в утверждении чего-то не хватает.

-- Вс 10.09.2017 14:55:32 --

Andrey_Kireew в сообщении #1246607 писал(а):
и любая их линейная комбинация нормально распределена (об этом обсуждалось в http://dxdy.ru/topic72764.html, встречал я и в литературе, но не помню точно где). Следовательно и совместное распределение тоже тогда будет нормальное.
Линейная комбинация двух одномерных нормально распределённых случайных величин будет нормально распределённой случайной величиной (если считать частным случаем нормального вырожденное распределение). Эта теорема доказана Г. Крамером и доказательство близкое к оригинальному приведено в книге Г. Крамер «Случайные величины и распределения вероятностей», 1947. (см исправление в сообщении post1246861.html#p1246861) В теме по ссылке разговор о том, что из двух независимых одномерных нормально распределённых случайных величин можно построить двумерную нормальную случайную величину. Нельзя ли подробней пояснить: как обсуждение той ветки относится к данной теме.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 19:11 
Аватара пользователя
Andrey_Kireew в сообщении #1246687 писал(а):
Если они нормальны и не коррелированы, то и совместное распределение их тоже нормально.


Это утверждение неверно. Верное - если две нормально распределённые величины независимы, то их совместное распределение двумерное нормальное. Но "некоррелированы" равно "независимы", только если совместное распределение нормальное. Это был пример двух величин, которые некоррелированы, каждая из них имеет нормальное распределение (это легко показать точно, не только вычислительным экспериментом), но они не просто зависимы, по одной из них (зная t) однозначно определяется вторая. У них точная функциональная связь.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 21:13 
Аватара пользователя
А теперь к вопросу о подвыборках. Пусть икс и игрек получены указанным способом, их корреляция нулевая. Назовём величины x и y, по абсолютной величине меньшие t "минорами", а большие "мажорами" ("мажоры" совпадают в точности, "миноры" отличаются знаком). Средняя доля "миноров" и "мажоров" в подвыборках будет равно их доле в генеральной совокупности, но в каждой конкретной подвыборке будет сильный разброс. Вплоть до формирования подвыборки из одних "мажоров" с r=1 и одних "миноров" с r=-1, значениями, совершенно невозможными в предположении о совместном нормальном распределении и нулевой корреляции.

-- 10 сен 2017, 21:36 --

По грубой прикидке - порог t примерно 1.5, и будет 12% "мажоров" и 88% "миноров". То есть в выборке из 10 элементов вероятность получить одних "миноров" будет около 28%, и на этой подвыборке будет корреляция -1. Зато будут подвыборки с избытком "мажоров" и существенно положительной корреляцией, большей, чем предлагает доверительный интервал, исходящий из презупмции нормальности.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 22:08 
GAA в сообщении #1246693 писал(а):
... из некоррелированности двух нормально распределённых случайных величин не следует их независимость


Честно говоря - это для меня открытие ...
Тогда может условием независимости является некоррелированность и совместное нормальное распределение?

GAA в сообщении #1246693 писал(а):
Линейная комбинация двух одномерных нормально распределённых случайных величин будет нормально распределённой случайной величиной (если считать частным случаем нормального вырожденное распределение). Эта теорема доказана Г. Крамером и доказательство близкое к оригинальному приведено в книге Г. Крамер «Случайные величины и распределения вероятностей», 1947.


С этим мне всё ясно. Получается никакие декоррелирующие преобразование не нужны.

GAA в сообщении #1246693 писал(а):
В теме по ссылке разговор о том, что из двух независимых одномерных нормально распределённых случайных величин можно построить двумерную нормальную случайную величину. Нельзя ли подробней пояснить: как обсуждение той ветки относится к данной теме.


Ну как же, этим я хотел подтвердить, что линейная комбинация независимых, нормально распределённых величин, есть нормально распределённая величина. И что совместное распределение будет тоже нормальным.
Но, в свете вышеизложенного, получается, что условие независимости не обязательно. Зато, что то мне стало подсказывать, что если даже любая линейная комбинация нормальных величин нормально распределена, это ещё не значит, что их совместное распределение тоже нормально.

Другими словами - это была неудачная попытка доказать, по Вашему предложению, доказать своё утверждение ...

-- 10.09.2017, 23:25 --

Евгений Машеров
Извиняюсь, я сначала то не сообразил для чего этот пример. Потом уже в течение дня до меня дошло, Что переменные функционально связаны, так как одна получается из другой. Но я подумал, что это из за того, что связь нелинейная и немонотонная. А даже ранговые корреляции "ловят" только монотонные зависимости.

Оказывается всё ещё серьёзнее. Здесь нужно проводить тест на нормальность двумерного распределения. Никакие декорреляции, как я уже писал, не помогут. Это было моё заблуждение.

-- 10.09.2017, 23:33 --

Евгений Машеров в сообщении #1246830 писал(а):
По грубой прикидке - порог t примерно 1.5, и будет 12% "мажоров" и 88% "миноров". То есть в выборке из 10 элементов вероятность получить одних "миноров" будет около 28%, и на этой подвыборке будет корреляция -1. Зато будут подвыборки с избытком "мажоров" и существенно положительной корреляцией, большей, чем предлагает доверительный интервал, исходящий из презупмции нормальности.


Это хорошее объяснение! Спасибо! Не знаю как на самом деле, но мне оно очень нравится, так как хорошо объясняет мои результаты. У меня правда и с ранговыми корреляциями такая же ерунда была, но тут по аналогии нужно видимо тестировать однородность двухмерного распределения.

В принципе путь мне ясен. Посмотрю в сети как тестируется многомерная нормальность, если честно - то никогда этим вопросом раньше не задавался.

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 22:35 
GAA в сообщении #1246693 писал(а):
Линейная комбинация двух одномерных нормально распределённых случайных величин будет нормально распределённой случайной величиной (если считать частным случаем нормального вырожденное распределение). Эта теорема доказана Г. Крамером...
Упс. Собственно Крамером доказано обратное утверждение: если сумма независимых величин распределена нормально, то каждое из слагаемых распределено нормально. (В обратную сторону, конечно, элементарно.)

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение11.09.2017, 08:47 
Аватара пользователя
К сожалению, теста на нормальность двумерного распределения предложить не могу.
Визуальный анализ графика - выявит что-то подобное описанному сразу, но без числовых оценок, а для более тонкого случая нужны именно они.
$\chi^2$ работает хорошо, но для двух, тем более - более чем двух измерений либо слишком много ячеек и слишком мало точек в них, либо слишком грубая шкала.
Ещё вариант - строим линейную регрессию и исследуем остатки, прежде всего зависимость их значений (линейная отсутствует по построению, но вот нелинейная...) и квадратов их значений (а тут и линейная возможна) от "независимой переменной".

 
 
 
 Re: Условия достоверности корреляции Пирсона
Сообщение11.09.2017, 12:37 
Существуют многомерные обобщения теста Jarque-Bera на нормальность: 1. Lütkepohl 1991; 2. Doornik and Hansen 1994; 3. Urzua 1997. Отличаются друг от друга разной факторизацией ковариационной матрицы.

 
 
 [ Сообщений: 17 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group