2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Соотношение доверительных интервалов выборочных корреляций
Сообщение05.12.2017, 12:24 
Аватара пользователя


07/10/15
1067
Для выборки из n наблюдений t - статистика выборочного коэффициента корреляции Пирсона определяется как
$\sqrt{\frac{1-r^2}{n-2}}\sim t_{n-2}$

Для подвыборки из m наблюдений, она определяется как
$\sqrt{\frac{1-r'^2}{m-2}}\sim t_{m-2}$

Доверительный интервал для $r'$ шире чем для $r$, а значение $r'$ зависит от выбора конкретной подвыборки.

Верно ли что для произвольной заданной доверительной вероятности верхняя граница доверительного интервала $r$ никогда не будет превышать верхней границы доверительного интервала $r'$, при условии, что совместное распределение сравниваемых случайных величин $(x,y)\sim N$?

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение05.12.2017, 19:47 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Нет. Неверно. Тривиальный контрпример:
X и Y нормально распределённые независимые величины. В подвыборку попали лишь те X и Y, у которых знак противоположен.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 02:32 
Аватара пользователя


07/10/15
1067
Для проверки сгенерировал двухмерную нормальную выборку, выборочная корреляция получилась
$ r_{1000}=0.0059 \pm 0.041$, т.е. корреляция незначимая.
Отобрал наблюдения с разными знаками при переменных (их нашлось 493 - почти половина). Для этих наблюдений выборочная корреляция получается
$ r_{493}=-0.631 \pm 0.045$.

Ни сказать, что я этому рад, но Вы Евгений Машеров убедительно правы.

А как Вы думаете, если из исходной выборки я выбираю с повтором, случайным образом (bootstrap), например, 100 подвыборок. То верно ли будет, что для 90 из них, верхние границы 90%-х доверительных интервалов коэффициентов корреляции будут не меньше верхней границы 90% доверительного интервала коэффициента корреляции, вычисленного для всей выборки?

-- 06.12.2017, 03:37 --

Верно ли, что эти 100 "подвыборочных" коэффициентов корреляции распределяются нормально, только если совместное распределение сравниваемых величин подчиняется нормальному закону?

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 08:51 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Для начала замечу, что ответ без знания n и m не получится. Скажем, если предадимся складоножеству, и подвыборки будем брать объёмом (n-1), границы будут очень близки по ширине к таковым для полной выборки, и почти половина окажется в силу случайности за пределами границ для полной. С другой стороны, очень маленькие подвыборки будут давать огромные значения корреляций. Соответственно, может оказаться, что даже при очень широких для такой малой выборки границах интервала корреляция настолько отлична от корреляции для полной выборки, что "забросов" окажется много.
Для грубой оценки положим, что объёмы и выборки и подвыборок достаточно велики, и $m=\frac n 2$
Тогда корреляции в подвыборках можно рассматривать, как нормально распределённые случайные величины со среднеквадратичным отклонением $\sqrt 2 \sigma$, где сигма это СКО для полной выборки. Положим, что истинная корреляция=0, и что корреляции по подвыборкам имеют матожидание равное рассчитанному по полной выборке значению корреляции. Тогда вопрос сводится к тому, какова вероятность, что случайная величина с СКО $\sqrt 2 \sigma$, к которой прибавлена константа $1.813 \sigma$ (полученная умножением 90% квантиля 1.282 на корень из двух) окажется меньше $1.282 \sigma$, что сводится к тому, какова вероятность, что стандартная нормальная величина меньше -0.53, а она равна 29.8%.
На второй вопрос замечу, что нормально распределены они не будут никогда. Просто в силу того, что нормальное распределение сосредоточено не на конечном отрезке, как коэффициенты корреляции. Они будут иметь распределение, с практической точки зрения аппроксимируемое нормальным. При этом аппроксимация возможна, и если исходные величины имели иное распределение. Насколько быстро будет сходиться - не могу сказать. Была бы практическая потребность, боюсь, довольствовался бы численным экспериментом.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 15:57 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Ну вот и численный эксперимент. Сгенерировал 1000 пар независимых стандартных нормальных величин, разбил на подвыборки по 10 штук, для одной верхняя граница -0.36 при верхней границе для полной 0.076.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 19:01 
Аватара пользователя


07/10/15
1067
Я тут опробовал jackknife. Распределение получается почему то островершинное, похожее на распределение Лаплса, и для самих "подвыборочных" корреляций, и для статистики $ \frac{r}{\sqrt{1-r^2}}$,
вот так оно выглядит
Изображение
исходное распределение было нормальное.

Значит получается закон распределения выборочных корреляций не совпадает с распределением "подвыборочных" корреляций?

-- 06.12.2017, 20:04 --

Может дело в том, что в jackknife просто полный перебор, а не случайный выбор с возвратом?

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение07.12.2017, 05:23 
Аватара пользователя


07/10/15
1067
Попробовал делать случайный выбор. Распределение, всё равно, получается такое же как и раньше - островершинное.
Евгений Машеров если Вас не затруднит, подскажите пожалуйста, почему так получается? Ведь, насколько я знаю, распределение выборочных корреляций, ну если точнее, то статистики $\frac{r}{\sqrt{1-r^2}}$, должно быть нормальным.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение07.12.2017, 09:11 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
А объём выборки какой?
Асимптотически нормальное и нормальное - не синонимы...

-- 07 дек 2017, 10:03 --

Вообще оно и теоретически не нормальное. Стьюдент с (n-2) степенями свободы для случая нулевой корреляции (что стремится к нормальному с ростом n, но всё же не нормальное), но если ненулевая корреляция - там значительно более сложный вид.
http://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.html

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение08.12.2017, 01:13 
Аватара пользователя


07/10/15
1067
Объём выборки N=1000, при таком объёме распределение Стьюдента почти не отличается от нормального, корреляция нулевая, так что тут всё очень непонятно. Форму распределения Вы видите, она даже в первом приближении не похожа на нормальный закон.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение08.12.2017, 10:01 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Точно нулевая? График явно сдвинут вправо.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение08.12.2017, 11:58 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Да, похоже на то, что эксцесс больше, чем у нормального. Возможно, тут проблема в том, что для подвыборок, полученных выбрасыванием одной точки, корреляция между отдельными наблюдениями высока.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 11:39 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Во всяком случае, для независимо сгенерированных такого отклонения не наблюдается.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 13:03 
Аватара пользователя


07/10/15
1067
Что значит не наблюдается? Я генерировал выборку именно независимых нормально распределённых случайных величин. То, что там небольшая корреляция - так это ошибка выборки, и она не выходит за положенные ей пределы. Вот ещё раз проверил, тоже самое лаплассово распределение. Генерировал 2 вектора отдельно друг от друга - всё то же самое. А должно то быть хоть примерно похоже на нормальное. И смещение почему то не уменьшается, хотя этот метод и был разработан для уменьшения смещения.

Такое впечатление, что всё хорошо работает на реальных данных, которые, как правило, не соответствуют нормальному распределению. В этом случае, все наблюдаемые отклонения можно легко списать на отклонение от нормальности. Но в моём случае такое объяснение не проходит, так как данные заведомо нормальные.

-- 11.12.2017, 14:22 --

Если же я просто делю выборку на равные части, получая тем самым независимые подвыборки, и вычисляю корреляции - то они распределяются примерно по нормальному закону.

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 16:16 
Заслуженный участник
Аватара пользователя


11/03/08
5946
Москва
Имеется в виду, что набор подвыборок из одной выборки, пусть и из независимых X и Y, уже не независимые величины. Независимые - когда каждый раз генерируется новая пара иксов и игреков. Вот их корреляции выглядят куда более "теоретичными".

 Профиль  
                  
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 23:57 
Аватара пользователя


07/10/15
1067
Евгений Машеров в сообщении #1274034 писал(а):
Независимые - когда каждый раз генерируется новая пара иксов и игреков. Вот их корреляции выглядят куда более "теоретичными".


Это очевидно. Только для анализа реальных данных использовать не получится. Поэтому ресамплинг и придумали.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 18 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group