2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2  След.
 
 Соотношение доверительных интервалов выборочных корреляций
Сообщение05.12.2017, 12:24 
Для выборки из n наблюдений t - статистика выборочного коэффициента корреляции Пирсона определяется как
$\sqrt{\frac{1-r^2}{n-2}}\sim t_{n-2}$

Для подвыборки из m наблюдений, она определяется как
$\sqrt{\frac{1-r'^2}{m-2}}\sim t_{m-2}$

Доверительный интервал для $r'$ шире чем для $r$, а значение $r'$ зависит от выбора конкретной подвыборки.

Верно ли что для произвольной заданной доверительной вероятности верхняя граница доверительного интервала $r$ никогда не будет превышать верхней границы доверительного интервала $r'$, при условии, что совместное распределение сравниваемых случайных величин $(x,y)\sim N$?

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение05.12.2017, 19:47 
Аватара пользователя
Нет. Неверно. Тривиальный контрпример:
X и Y нормально распределённые независимые величины. В подвыборку попали лишь те X и Y, у которых знак противоположен.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 02:32 
Для проверки сгенерировал двухмерную нормальную выборку, выборочная корреляция получилась
$ r_{1000}=0.0059 \pm 0.041$, т.е. корреляция незначимая.
Отобрал наблюдения с разными знаками при переменных (их нашлось 493 - почти половина). Для этих наблюдений выборочная корреляция получается
$ r_{493}=-0.631 \pm 0.045$.

Ни сказать, что я этому рад, но Вы Евгений Машеров убедительно правы.

А как Вы думаете, если из исходной выборки я выбираю с повтором, случайным образом (bootstrap), например, 100 подвыборок. То верно ли будет, что для 90 из них, верхние границы 90%-х доверительных интервалов коэффициентов корреляции будут не меньше верхней границы 90% доверительного интервала коэффициента корреляции, вычисленного для всей выборки?

-- 06.12.2017, 03:37 --

Верно ли, что эти 100 "подвыборочных" коэффициентов корреляции распределяются нормально, только если совместное распределение сравниваемых величин подчиняется нормальному закону?

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 08:51 
Аватара пользователя
Для начала замечу, что ответ без знания n и m не получится. Скажем, если предадимся складоножеству, и подвыборки будем брать объёмом (n-1), границы будут очень близки по ширине к таковым для полной выборки, и почти половина окажется в силу случайности за пределами границ для полной. С другой стороны, очень маленькие подвыборки будут давать огромные значения корреляций. Соответственно, может оказаться, что даже при очень широких для такой малой выборки границах интервала корреляция настолько отлична от корреляции для полной выборки, что "забросов" окажется много.
Для грубой оценки положим, что объёмы и выборки и подвыборок достаточно велики, и $m=\frac n 2$
Тогда корреляции в подвыборках можно рассматривать, как нормально распределённые случайные величины со среднеквадратичным отклонением $\sqrt 2 \sigma$, где сигма это СКО для полной выборки. Положим, что истинная корреляция=0, и что корреляции по подвыборкам имеют матожидание равное рассчитанному по полной выборке значению корреляции. Тогда вопрос сводится к тому, какова вероятность, что случайная величина с СКО $\sqrt 2 \sigma$, к которой прибавлена константа $1.813 \sigma$ (полученная умножением 90% квантиля 1.282 на корень из двух) окажется меньше $1.282 \sigma$, что сводится к тому, какова вероятность, что стандартная нормальная величина меньше -0.53, а она равна 29.8%.
На второй вопрос замечу, что нормально распределены они не будут никогда. Просто в силу того, что нормальное распределение сосредоточено не на конечном отрезке, как коэффициенты корреляции. Они будут иметь распределение, с практической точки зрения аппроксимируемое нормальным. При этом аппроксимация возможна, и если исходные величины имели иное распределение. Насколько быстро будет сходиться - не могу сказать. Была бы практическая потребность, боюсь, довольствовался бы численным экспериментом.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 15:57 
Аватара пользователя
Ну вот и численный эксперимент. Сгенерировал 1000 пар независимых стандартных нормальных величин, разбил на подвыборки по 10 штук, для одной верхняя граница -0.36 при верхней границе для полной 0.076.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение06.12.2017, 19:01 
Я тут опробовал jackknife. Распределение получается почему то островершинное, похожее на распределение Лаплса, и для самих "подвыборочных" корреляций, и для статистики $ \frac{r}{\sqrt{1-r^2}}$,
вот так оно выглядит
Изображение
исходное распределение было нормальное.

Значит получается закон распределения выборочных корреляций не совпадает с распределением "подвыборочных" корреляций?

-- 06.12.2017, 20:04 --

Может дело в том, что в jackknife просто полный перебор, а не случайный выбор с возвратом?

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение07.12.2017, 05:23 
Попробовал делать случайный выбор. Распределение, всё равно, получается такое же как и раньше - островершинное.
Евгений Машеров если Вас не затруднит, подскажите пожалуйста, почему так получается? Ведь, насколько я знаю, распределение выборочных корреляций, ну если точнее, то статистики $\frac{r}{\sqrt{1-r^2}}$, должно быть нормальным.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение07.12.2017, 09:11 
Аватара пользователя
А объём выборки какой?
Асимптотически нормальное и нормальное - не синонимы...

-- 07 дек 2017, 10:03 --

Вообще оно и теоретически не нормальное. Стьюдент с (n-2) степенями свободы для случая нулевой корреляции (что стремится к нормальному с ростом n, но всё же не нормальное), но если ненулевая корреляция - там значительно более сложный вид.
http://mathworld.wolfram.com/CorrelationCoefficientBivariateNormalDistribution.html

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение08.12.2017, 01:13 
Объём выборки N=1000, при таком объёме распределение Стьюдента почти не отличается от нормального, корреляция нулевая, так что тут всё очень непонятно. Форму распределения Вы видите, она даже в первом приближении не похожа на нормальный закон.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение08.12.2017, 10:01 
Аватара пользователя
Точно нулевая? График явно сдвинут вправо.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение08.12.2017, 11:58 
Аватара пользователя
Да, похоже на то, что эксцесс больше, чем у нормального. Возможно, тут проблема в том, что для подвыборок, полученных выбрасыванием одной точки, корреляция между отдельными наблюдениями высока.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 11:39 
Аватара пользователя
Во всяком случае, для независимо сгенерированных такого отклонения не наблюдается.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 13:03 
Что значит не наблюдается? Я генерировал выборку именно независимых нормально распределённых случайных величин. То, что там небольшая корреляция - так это ошибка выборки, и она не выходит за положенные ей пределы. Вот ещё раз проверил, тоже самое лаплассово распределение. Генерировал 2 вектора отдельно друг от друга - всё то же самое. А должно то быть хоть примерно похоже на нормальное. И смещение почему то не уменьшается, хотя этот метод и был разработан для уменьшения смещения.

Такое впечатление, что всё хорошо работает на реальных данных, которые, как правило, не соответствуют нормальному распределению. В этом случае, все наблюдаемые отклонения можно легко списать на отклонение от нормальности. Но в моём случае такое объяснение не проходит, так как данные заведомо нормальные.

-- 11.12.2017, 14:22 --

Если же я просто делю выборку на равные части, получая тем самым независимые подвыборки, и вычисляю корреляции - то они распределяются примерно по нормальному закону.

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 16:16 
Аватара пользователя
Имеется в виду, что набор подвыборок из одной выборки, пусть и из независимых X и Y, уже не независимые величины. Независимые - когда каждый раз генерируется новая пара иксов и игреков. Вот их корреляции выглядят куда более "теоретичными".

 
 
 
 Re: Соотношение доверительных интервалов выборочных корреляций
Сообщение11.12.2017, 23:57 
Евгений Машеров в сообщении #1274034 писал(а):
Независимые - когда каждый раз генерируется новая пара иксов и игреков. Вот их корреляции выглядят куда более "теоретичными".


Это очевидно. Только для анализа реальных данных использовать не получится. Поэтому ресамплинг и придумали.

 
 
 [ Сообщений: 20 ]  На страницу 1, 2  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group