2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Условия достоверности корреляции Пирсона
Сообщение09.09.2017, 12:46 


07/10/15

2400
Известно, что доверительные интервалы для выборочного коэффициента корреляции Пирсона корректны только при условии нормального распределения сравниваемых величин.
Возникает вопрос, будут ли они оставаться корректными при условии что сравниваемые величины распределены нормально, а совместное распределение этих величин отличается от нормального.
Есть подозрение, что в этих условиях выборочная оценка корреляции уже не будет иметь нормальное распределение, и это не позволит правильно определить доверительные интервалы, а соответственно и значимость корреляции.

Бывает так, что на одной подвыборке корреляции вроде бы значимы, а на другой - уже нет. Может в этом вся причина?

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 00:19 
Заслуженный участник


12/07/07
4460
Если случайные величины $X$ и $Y$ имеют совместное нормальное распределение (не ограничивая общность можно считать, что м.о. $X$ и $Y$ равны нулю) с плотностью
$$f_{X, Y} (x,y)= \frac 1 {2\pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} 
e^{  - \frac 1 {2 (1-\rho^2)} \left( \frac {x^2} {\sigma_1^2} - \frac {2\rho xy}{\sigma_1 \sigma_2} + \frac {y^2} {\sigma _2^2} \right) },$$то выборочный коэффициент корреляции $r = \frac 1 n \sum (X_i - \bar X) (Y_i - \bar Y) / (s_1 s_2)$ имеет плотность, не выражающуюся через элементарные функции (см., например, п. 29.7 в книге Г. Крамера «Математические методы статистики», 1976). В приложениях опираются на два факта
1. Обозначим $$ z = \frac 1 2 \ln \frac {1+r} {1-r}, \quad \zeta = \frac 1 2 \ln \frac {1+ \rho} {1- \rho}.$$ При достаточно больших $n$ распределение величины $z$ приблизительно нормальное с $$\mathsf E z = \zeta + \frac {\rho} {2(n-1)}, \quad  \mathsf D z = \frac 1 {n-3}.$$
(При помощи $z$ и строят приближённые доверительные интервалы для $r$.)
2. Если $\rho = 0$, то $t=\sqrt {n-2} \frac r {\sqrt {1-r^2}}$ имеет распределение Стьюдента с $n-2$ степенями свободы.

Если о совместном распределении величин ничего не известно, то о выборочном коэффициенте корреляции распределении $r$ ничего сказать нельзя, тем более о нормальности распределения $r$.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 01:22 


07/10/15

2400
Большое спасибо за ответ, со всем вышеизложенным, кроме последнего, я достаточно хорошо знаком.

GAA в сообщении #1246572 писал(а):
Если о совместном распределении величин ничего не известно, то о выборочном коэффициенте корреляции о распределении $r$ ничего сказать нельзя, тем более о нормальности распределения $r$.


Получается моё подозрение Вы разделяете. Всё дело в том, что при вычислении корреляций проводятся тесты на нормальность одномерных распределений сравниваемых величин, и постулируется нормальность совместного распределения. Но это строго говоря неправильно, так как о нормальности здесь можно лишь предполагать.
Следовательно результаты корреляционного анализа могут быть совершенно неверными.

Но у меня есть идея, как выйти из этого положения.
Нужно выполнить декоррелирующее преобразование сравниваемых величин и проверить нормальность найденных главных компонент. Если компоненты нормально распределены, то они статистически независимы, и любая их линейная комбинация будет нормально распределённой. Следовательно и совместное распределение нормальное.

Если нет, то корреляции Пирсона использовать нельзя.
Можно перейти к ранговым корреляциям, но там похожая проблема.

Требуется однородность выборки,иначе результаты будут некорректны (ложные корреляции).
Проверяется однородность сравниваемых величин по отдельности и постулируется однородность распределения двухмерного вектора. Но как и в предыдущем случае, об этом можно только предполагать. В общем случае, результаты корреляционного анализа тоже могут быть некорректными. Но как проверить однородность распределения двухмерной величины не знаю. Слышал есть тест Чоу, но он для проверки регрессионной однородности, причём для МНК регрессии, т.е. использует гипотезу нормальности. Для ранговых корреляций он наверное не подойдёт.

Не посоветуете что нибудь по этому поводу?

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 02:57 
Заслуженный участник


12/07/07
4460
Andrey_Kireew в сообщении #1246587 писал(а):
Но у меня есть идея, как выйти из этого положения.
Нужно выполнить декоррелирующее преобразование сравниваемых величин и проверить нормальность найденных главных компонент. Если компоненты нормально распределены, то они статистически независимы, и любая их линейная комбинация будет нормально распределённой. Следовательно и совместное распределение нормальное.
Приведите, пожалуйста, "декоррелирующее преобразование сравниваемых величин" и докажите утверждение (или дайте ссылку на доказательство).

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 05:46 


07/10/15

2400
Пусть
$a_1, a_2$- исходные сравниваемые величины,

$ C=\begin{pmatrix}
 k_1 & k_2   \\
 k_3 & k_4  \\
\end{pmatrix} \cdot
\begin{pmatrix}
 s_1 & 0   \\
 0 & s_2  \\
\end{pmatrix} \cdot
\begin{pmatrix}
 k_1 & k_3   \\
 k_2 & k_4  \\
\end{pmatrix}

$ - сингулярное разложение из ковариационной матрицы.

Тогда декоррелируюшее преобразование можно записать так
$\begin{pmatrix}
 b_1   \\
 b_2   \\
\end{pmatrix}=
\begin{pmatrix}
 k_1 & k_2   \\
 k_3 & k_4  \\
\end{pmatrix} \cdot
\begin{pmatrix}
 a_1   \\
a_2  \\
\end{pmatrix} 
 $

Если $ b_1 \sim N($\mu_1, \sigma_1)  \wedge  b_2  \sim N($\mu_2, \sigma_2)$ $,
то $ b_1$ и $b_2$ статистически независимы (так как $R_{b1,b2}=0$), и любая их линейная комбинация нормально распределена (об этом обсуждалось в http://dxdy.ru/topic72764.html, встречал я и в литературе, но не помню точно где). Следовательно и совместное распределение тоже тогда будет нормальное.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 13:23 


07/10/15

2400
Для большей ясности хотелось бы пояснить, что мой вопрос восходит к прошлой теме http://dxdy.ru/topic108571.html

Вкратце: На разных подвыборках одной и той же выборки корреляции очень сильно различаются. Эти различия не согласуются ни с какими мыслимыми доверительными интервалами, учитывая, что выборка и подвыборки весьма большие (порядка тысячи наблюдений). Сам собой напрашивается вывод, что полученные мной оценки корреляций несостоятельны. Но какие предпосылки корреляционного анализа нарушены? Этого я пока понять не могу.

С корреляциями Пирсона у меня возникла такая идея, изложенная в настоящем посте.
С ранговыми корреляциями, предполагаю, нужно проверять однородность совместного распределения.

Где вообще об этом можно почитать. В имеющейся у меня литературе по статистике эти вопросы не затрагиваются. В одной книге правда вскользь упоминается, что неоднородность выборки может привести к ложным корреляциям, а может даже "затушевывать" истинные корреляции. Это есть вот тут http://stu.sernam.ru/book_fan2.php?id=95.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 13:27 
Заслуженный участник
Аватара пользователя


11/03/08
9586
Москва
Рассмотрим систему из двух случайных величин $x\sim N(0,1)$ и
$y=\begin{cases}
x,&\text{если $|x|>t$}\\
-x,&\text{если $|x|\le t$}
\end{cases}$
где порог t выбран так, чтобы корреляция между x и y была бы нулевой.
Тогда ортогонализирующее преобразование - умножение на единичную матрицу и ничего не меняет. То есть распределение ортогонализованных будет тоже нормально. И что?

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 15:02 


07/10/15

2400
Что то я сомневаюсь, что распределение $ y $ ,будет нормальным. В этом случае предпосылка параметрического корреляционного анализа нарушена изначально. В этом случае декоррелирующее преобразование проводить бессмысленно, даже если бы вычисленное значение $R_{x,y}$ отличалось от нуля. Тут сразу понятно, что применение корреляций Пирсона будет некорректным, так как построить для неё достоверные доверительные интервалы не получится. Вот и то.

-- 10.09.2017, 16:12 --

Хотя, сейчас смоделировал Ваше переменные, с разными порогами. $ y $ остаётся нормальной.

-- 10.09.2017, 16:15 --

Тогда непонятно в чём вообще вопрос.
Если они нормальны и не коррелированы, то и совместное распределение их тоже нормально. И распределение ортогонализованых будет нормально, так как после ортогонализации они по сути не меняются. Как были нормальными, так нормальными и остались.

-- 10.09.2017, 16:20 --

Вы вообще с какой целью привели этот пример? Если как контрпример, то чего?

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 15:46 
Заслуженный участник


12/07/07
4460
Andrey_Kireew в сообщении #1246687 писал(а):
Если как контрпример, то чего?
Andrey_Kireew в сообщении #1246607 писал(а):
Если $ b_1 \sim N($\mu_1, \sigma_1)  \wedge  b_2  \sim N($\mu_2, \sigma_2)$ $,
то $ b_1$ и $b_2$ статистически независимы (так как $R_{b_1,b_2}=0$)
Это пример того, что из некоррелированности двух нормально распределённых случайных величин не следует их независимость. Именно в этом смысле приводила этот пример Н.И. Чернова. [upd](Именно этот пример я впервые видел в её изложении, но можно построить и другие примеры. Историю примеров я не знаю.)[/upd] В данном случае Вы утверждаете, что раз случайные величины $b_1$ и $b_2$ нормально распределены и некоррелированные, то они независимы. Формально в утверждении чего-то не хватает.

-- Вс 10.09.2017 14:55:32 --

Andrey_Kireew в сообщении #1246607 писал(а):
и любая их линейная комбинация нормально распределена (об этом обсуждалось в http://dxdy.ru/topic72764.html, встречал я и в литературе, но не помню точно где). Следовательно и совместное распределение тоже тогда будет нормальное.
Линейная комбинация двух одномерных нормально распределённых случайных величин будет нормально распределённой случайной величиной (если считать частным случаем нормального вырожденное распределение). Эта теорема доказана Г. Крамером и доказательство близкое к оригинальному приведено в книге Г. Крамер «Случайные величины и распределения вероятностей», 1947. (см исправление в сообщении post1246861.html#p1246861) В теме по ссылке разговор о том, что из двух независимых одномерных нормально распределённых случайных величин можно построить двумерную нормальную случайную величину. Нельзя ли подробней пояснить: как обсуждение той ветки относится к данной теме.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 19:11 
Заслуженный участник
Аватара пользователя


11/03/08
9586
Москва
Andrey_Kireew в сообщении #1246687 писал(а):
Если они нормальны и не коррелированы, то и совместное распределение их тоже нормально.


Это утверждение неверно. Верное - если две нормально распределённые величины независимы, то их совместное распределение двумерное нормальное. Но "некоррелированы" равно "независимы", только если совместное распределение нормальное. Это был пример двух величин, которые некоррелированы, каждая из них имеет нормальное распределение (это легко показать точно, не только вычислительным экспериментом), но они не просто зависимы, по одной из них (зная t) однозначно определяется вторая. У них точная функциональная связь.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 21:13 
Заслуженный участник
Аватара пользователя


11/03/08
9586
Москва
А теперь к вопросу о подвыборках. Пусть икс и игрек получены указанным способом, их корреляция нулевая. Назовём величины x и y, по абсолютной величине меньшие t "минорами", а большие "мажорами" ("мажоры" совпадают в точности, "миноры" отличаются знаком). Средняя доля "миноров" и "мажоров" в подвыборках будет равно их доле в генеральной совокупности, но в каждой конкретной подвыборке будет сильный разброс. Вплоть до формирования подвыборки из одних "мажоров" с r=1 и одних "миноров" с r=-1, значениями, совершенно невозможными в предположении о совместном нормальном распределении и нулевой корреляции.

-- 10 сен 2017, 21:36 --

По грубой прикидке - порог t примерно 1.5, и будет 12% "мажоров" и 88% "миноров". То есть в выборке из 10 элементов вероятность получить одних "миноров" будет около 28%, и на этой подвыборке будет корреляция -1. Зато будут подвыборки с избытком "мажоров" и существенно положительной корреляцией, большей, чем предлагает доверительный интервал, исходящий из презупмции нормальности.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 22:08 


07/10/15

2400
GAA в сообщении #1246693 писал(а):
... из некоррелированности двух нормально распределённых случайных величин не следует их независимость


Честно говоря - это для меня открытие ...
Тогда может условием независимости является некоррелированность и совместное нормальное распределение?

GAA в сообщении #1246693 писал(а):
Линейная комбинация двух одномерных нормально распределённых случайных величин будет нормально распределённой случайной величиной (если считать частным случаем нормального вырожденное распределение). Эта теорема доказана Г. Крамером и доказательство близкое к оригинальному приведено в книге Г. Крамер «Случайные величины и распределения вероятностей», 1947.


С этим мне всё ясно. Получается никакие декоррелирующие преобразование не нужны.

GAA в сообщении #1246693 писал(а):
В теме по ссылке разговор о том, что из двух независимых одномерных нормально распределённых случайных величин можно построить двумерную нормальную случайную величину. Нельзя ли подробней пояснить: как обсуждение той ветки относится к данной теме.


Ну как же, этим я хотел подтвердить, что линейная комбинация независимых, нормально распределённых величин, есть нормально распределённая величина. И что совместное распределение будет тоже нормальным.
Но, в свете вышеизложенного, получается, что условие независимости не обязательно. Зато, что то мне стало подсказывать, что если даже любая линейная комбинация нормальных величин нормально распределена, это ещё не значит, что их совместное распределение тоже нормально.

Другими словами - это была неудачная попытка доказать, по Вашему предложению, доказать своё утверждение ...

-- 10.09.2017, 23:25 --

Евгений Машеров
Извиняюсь, я сначала то не сообразил для чего этот пример. Потом уже в течение дня до меня дошло, Что переменные функционально связаны, так как одна получается из другой. Но я подумал, что это из за того, что связь нелинейная и немонотонная. А даже ранговые корреляции "ловят" только монотонные зависимости.

Оказывается всё ещё серьёзнее. Здесь нужно проводить тест на нормальность двумерного распределения. Никакие декорреляции, как я уже писал, не помогут. Это было моё заблуждение.

-- 10.09.2017, 23:33 --

Евгений Машеров в сообщении #1246830 писал(а):
По грубой прикидке - порог t примерно 1.5, и будет 12% "мажоров" и 88% "миноров". То есть в выборке из 10 элементов вероятность получить одних "миноров" будет около 28%, и на этой подвыборке будет корреляция -1. Зато будут подвыборки с избытком "мажоров" и существенно положительной корреляцией, большей, чем предлагает доверительный интервал, исходящий из презупмции нормальности.


Это хорошее объяснение! Спасибо! Не знаю как на самом деле, но мне оно очень нравится, так как хорошо объясняет мои результаты. У меня правда и с ранговыми корреляциями такая же ерунда была, но тут по аналогии нужно видимо тестировать однородность двухмерного распределения.

В принципе путь мне ясен. Посмотрю в сети как тестируется многомерная нормальность, если честно - то никогда этим вопросом раньше не задавался.

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение10.09.2017, 22:35 
Заслуженный участник


12/07/07
4460
GAA в сообщении #1246693 писал(а):
Линейная комбинация двух одномерных нормально распределённых случайных величин будет нормально распределённой случайной величиной (если считать частным случаем нормального вырожденное распределение). Эта теорема доказана Г. Крамером...
Упс. Собственно Крамером доказано обратное утверждение: если сумма независимых величин распределена нормально, то каждое из слагаемых распределено нормально. (В обратную сторону, конечно, элементарно.)

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение11.09.2017, 08:47 
Заслуженный участник
Аватара пользователя


11/03/08
9586
Москва
К сожалению, теста на нормальность двумерного распределения предложить не могу.
Визуальный анализ графика - выявит что-то подобное описанному сразу, но без числовых оценок, а для более тонкого случая нужны именно они.
$\chi^2$ работает хорошо, но для двух, тем более - более чем двух измерений либо слишком много ячеек и слишком мало точек в них, либо слишком грубая шкала.
Ещё вариант - строим линейную регрессию и исследуем остатки, прежде всего зависимость их значений (линейная отсутствует по построению, но вот нелинейная...) и квадратов их значений (а тут и линейная возможна) от "независимой переменной".

 Профиль  
                  
 
 Re: Условия достоверности корреляции Пирсона
Сообщение11.09.2017, 12:37 
Заслуженный участник


05/08/14
1564
Существуют многомерные обобщения теста Jarque-Bera на нормальность: 1. Lütkepohl 1991; 2. Doornik and Hansen 1994; 3. Urzua 1997. Отличаются друг от друга разной факторизацией ковариационной матрицы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group