2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение01.08.2020, 21:23 
Аватара пользователя


01/01/18
3
Сам Пирсон в статье 1896 г. вывел коэффициент линейной корреляции в предположении, что исследуемые данные распределены по нормальному закону. Очень редко (!) говорится в некоторых справочниках также о том, что данные должны быть распределены нормально.

Возникает вопрос: а что будет не так с этим коэффициентом, если одна из СВ распределена не по нормальному закону?

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение02.08.2020, 10:01 
Заслуженный участник


09/05/13
8904
∞⠀⠀⠀⠀
У него было наполовину прикладное исследование, в котором можно было допустить, что закон распределения - нормальный. Он и допустил. Закон распределения не использовался для определения к-та корреляции, а только для статистических расчетов.

Там, где речь идет о теоретическом к-те корреляции, соображения нормальности у Пирсона не привлекаются.
Где речь о выборочных моментах - никакой "одна из с.в. распределена по другому закону" быть не может.

Это одна из первых работ, посвященных вопросу (первая, кстати, не его, и он это упоминает), потому простительно, что с тех пор многое изменилось.
Для современного определения распределение значения не имеет.

Какие справочники и с какой целью требуют нормальности (возможно, в рамках другой задачи?) - затрудняюсь сориентироваться.

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение02.08.2020, 17:19 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Мы не сможем определить его статистическую значимость. Как эмпирический показатель он работать сможет. Но никаких вероятностных выводов, максимум - "информация к размышлению".

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение02.08.2020, 17:35 
Аватара пользователя


01/01/18
3
Otta, Евгений Машеров большое вам спасибо!

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение02.08.2020, 17:38 


10/03/16
4444
Aeroport
Евгений Машеров в сообщении #1477022 писал(а):
Мы не сможем определить его статистическую значимость.

Там же получаются всякие суммы в числителе и знаменателе. Если всё хорошо (т.е. стационарно и независимо) и прецедентов много, суммы же по-любому будут распределены нормально вследствие ЦПТ, можно будет посчитать распределение КК при скажем нулевой гипотезе и посчитать значимость. Или я не прав?

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение05.08.2020, 15:25 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
С этим связаны парадоксальные вещи. В книге P. Embrechts, C. Kluppelberg, T. Mikosh, Modelling extremal events for insurance and finance. Springer, 2003. есть раздел 7.3, посвященный оценке автокорреляционной функции для временных рядов с тяжелыми хвостами. В том числе, рассматривается случай устойчивых распределений c $\alpha<2$. Тогда теоретического коэффициента корреляции Пирсона вообще не существует (потому что нет дисперсий). А выборочный отлично сходится по вероятности к нужному пределу, и даже быстрее, чем в классическом случае.

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение05.08.2020, 21:33 


10/03/16
4444
Aeroport
alisa-lebovski в сообщении #1477398 писал(а):
Тогда теоретического коэффициента корреляции Пирсона вообще не существует (потому что нет дисперсий).

alisa-lebovski в сообщении #1477398 писал(а):
выборочный отлично сходится по вероятности к нужному пределу

Какому такому нужному пределу, если согласно вышенаписанному его не существует? :shock:

-- 05.08.2020, 21:35 --

alisa-lebovski
ПыСы: я не сомневаюсь что там есть сходимость по вер-ти к ЧЕМУ-ТО, но вот какой этот предел имеет "хвизический смысел"?

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение05.08.2020, 21:46 
Заслуженный участник
Аватара пользователя


05/12/09
1813
Москва
Смысл есть.
Почитайте сами, книга лежит например здесь (номер 1) - https://istina.msu.ru/courses/teachings/175541465/

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение06.08.2020, 09:45 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
ozheredov в сообщении #1477027 писал(а):
Там же получаются всякие суммы в числителе и знаменателе. Если всё хорошо (т.е. стационарно и независимо) и прецедентов много, суммы же по-любому будут распределены нормально вследствие ЦПТ, можно будет посчитать распределение КК при скажем нулевой гипотезе и посчитать значимость. Или я не прав?


В общем-то, ситуации асимптотической нормальности величин в числителе и знаменателе вполне возможны. Но тут два препятствия.
1. Асимптотическая - для бесконечности, а с прикладной точки зрения - для очень больших выборок. И как раз для корреляции они ну очень большие должны быть, для нормального приближения.
2. Отношение двух нормальных величин не обязано быть нормально распределённым. Может даже Коши получиться, или ещё что-то некошерное.

-- 06 авг 2020, 09:49 --

ozheredov в сообщении #1477491 писал(а):
Какому такому нужному пределу, если согласно вышенаписанному его не существует? :shock:


Ну, коэффициент корреляции это частное. И если мы пытаемся посчитать числитель и знаменатель, а потом делить - может оказаться, что у нас бесконечность. А если считать частные по конечным выборкам, устремляя их объём к бесконечности - может получиться. С учётом того, что "выбросы", делающие несуществующей дисперсию и не дающие найти предел знаменателя, лишь уменьшают частное (в числителе они тоже есть, и в какой-то степени гасятся ростом знаменателя).

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение12.08.2020, 13:22 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
В статье 1895 (не 1896) года Пирсон не выводит этот коэффициент, а приписывает его Гальтону. Предположение, что закон распределения "следует или близок к нормальному" там есть, но там это существенно постольку, поскольку приводится оценка "вероятной ошибки".
https://royalsocietypublishing.org/doi/ ... .1895.0041
Вообще же отыскали, что сама по себе формула коэффициента была предложена в 1844 кристаллографом Огюстом Браве.

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение12.08.2020, 14:19 
Заслуженный участник


09/05/13
8904
∞⠀⠀⠀⠀
Евгений Машеров в сообщении #1478576 писал(а):
В статье 1895 (не 1896) года Пирсон не выводит этот коэффициент, а приписывает его Гальтону.

У Пирсона в статье, кстати, есть история вопроса. И про Браве он тоже там упоминает, так что отыскать вряд ли было трудно. В общем доступе последняя работа тоже есть.

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение12.08.2020, 14:46 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Но там он оговаривает, что именует "коэффициент Гальтона". Видимо, работа Браве было забыта, и о ней вспомнили лишь после начала массового использования этого коэффициента.
И касательно "связи с нормальным распределением" - если величина имеет двумерное нормальное распределение, то пять параметров это два матожидания, две дисперсии и корреляция. Для прочих распределений можно лишь утверждать, что это косинус угла между векторами.

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение12.08.2020, 15:05 
Заслуженный участник


09/05/13
8904
∞⠀⠀⠀⠀
Евгений Машеров
Евгений Машеров в сообщении #1478602 писал(а):
Но там он оговаривает, что именует "коэффициент Гальтона".

Мне кажется, это логично: работа Гальтона была примерно лет за 10 опубликована до работы Пирсона. (Там, кстати, совсем маленькая заметочка.) И Пирсон - ученик Гальтона. Про работу Браве лет 50 до того не вспоминали, и собственно, кажется, Пирсон выволок ее на свет божий из забвения. Первые несколько страниц статьи он регулярно про Браве вспоминает. А использование к-та началось все-таки после работы Пирсона, такое ощущение, раз уж он под его именем и закрепился.

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение23.06.2022, 14:21 


05/01/20
10
коэффициент Пирсона часто используют в естественнонаучных исследованиях, иногда делают выводы на его основе. В связи с этим хотелось бы понять, как относиться к этим числам. Допустим, есть эталонный набор Х значений СВ и два набора сравнения - Y и Z. Пусть, например, для набора Y $r_{p} = 0.90$, а для набора Z $r_{p} = 0.60$ по отношению к набору Х. Можно ли что-то утверждать на основе этих чисел, и какие дополнительные параметры (объём, нормальность распределения,...) выборок X,Y,Z важны для обоснованности утверждений? Буду благодарен за советы, или наводку на источники, где об этом хорошо написано.
Также иногда используют коэффициент корреляции Спирмена, который, как пишут, устойчив к выбросам и не требует нормальности распределения СВ. Значит ли это, что ему можно больше доверять?

 Профиль  
                  
 
 Re: Коэффициент линейной корреляции (Пирсона) и распределение СВ
Сообщение23.06.2022, 17:07 
Заслуженный участник
Аватара пользователя


11/03/08
9906
Москва
Можно, например, проверить гипотезу, что коэффициент корреляции отличен от нуля. Или что два коэффициента различны. Частый инструмент - преобразование Фишера.
http://statistica.ru/theory/znachimost- ... relyatsii/
Сам по себе коэффициент корреляции может и вводить в заблуждение, полезно дополнять его графическим анализом.
Изображение
"Квартет Анскомба" - коэффициенты корреляции Пирсона во всех 4 случаях равны 0.816.
Что до Спирмэна (и других непараметрических) - у них, как правило, мощность меньше, но они меньше зависят от нарушения предположений. Единственный выброс может совершенно исказить коэффициент Пирсона, но мало изменить Спирмэна.
Для первой картинки Спирмэн даёт 0.818, близко к Пирсону. Для второй 0.691. Для третьей 0.991. Для четвёртой 0.5.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 17 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: talash


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group