2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2
 
 Re: корреляция при известных параметрах распределений
Сообщение14.11.2012, 20:25 
Тогда получается так:
оценка коэффициента корреляции в любом случае:
$$r = \frac{ \sum_{i=1}^n (x_i - {M_x}) (y_i - {M_y}))} {\sqrt{\sum_{i=1}^n (x_i - {M_x}))^2 \sum_{i=1}^n (y_i - {M_y})^2} }$$
где $M_x$ и $M_y$ - центры распределений, известные или их оценки.
1) если оба центра неизвестны, то статистика $t=\sqrt{n-2}\frac{r}{\sqrt{1-r^2}}$ подчиняется распределению Стьюдента с $n-2$ степенями свободы.
2) если оба центра известны, то статистика $t=\sqrt{n-1}\frac{r}{\sqrt{1-r^2}}$ подчиняется распределению Стьюдента с $n-1$ степенями свободы.
3) если известен только один центр, то точная статистика и ее закон распределения в общем случае неизвестны, но на практике можно считать, что статистика $t=\sqrt{n-1}\frac{r}{\sqrt{1-r^2}}$ подчиняется распределению Стьюдента с $n-1$ степенями свободы.

Правильно ли я все понял?

 
 
 
 Re: корреляция при известных параметрах распределений
Сообщение16.11.2012, 12:51 
Предыдущее сообщение писал в спешке после работы и грубо ошибся при вычислении интеграла для случая B. Всё вы написали правильно, за исключением случая, когда оценивается один центр по выборке. Точное распределение статистики $t$ в этом случае совпадает с распределением статистики, когда ни один из центров не оценивается по выборке.

Распределение статистики, когда один центр известен, а второй оценивается по выборке.
Не ограничивая общности можно считать, что $\sigma_1=\sigma_2=1$.
$F_n(u) =\int_D \frac{1}{(2\pi)^n} e^{-\frac{1}{2} \sum_{i=1}^n \xi_i^2 - \frac{1}{2} \sum_{i=1}^n \eta_i^2 } d \xi_1 \ldots d \xi_n d \eta_1 \ldots d\eta_n,$
$D = \frac{ \sum_{i=2}^n \xi_i \eta_i} {\sqrt{\sum_{i=2}^n \xi_i^2 \sum_{i=1}^n \eta_i^2} } < u.$
«Разделим» переменные так, чтобы во «внутреннем» интеграле выполнялось интегрирование по $\eta$, а во внешнем по $\xi$. Выполнив во «внутреннем» интеграле замену при которой $v_1=\eta_1$, а остальные $\eta_i$ преобразуются при помощи ортогонального преобразования с «первой» строкой $v_2=\frac{\sum_{i=2}^n \xi_i \eta_i}{\sqrt{\sum_{i=2}^n \xi_i^2}}$, получим
$F(u)= \frac{1}{(2\pi)^n} \int_D e^{-\frac{1}{2}\sum_{i=1}^n \xi_i^2} d\xi_1 \ldots d\xi_n \int_D e^{-\frac{1}{2}\sum_{i=1}^n v_i^2} dv_1 \ldots dv_n,$
$D=\frac{v_2}{\sqrt{\sum_{i=1}^n v_i^2}} < u.$
Не будем отслеживать в дальнейшем постоянные, выносимые за интеграл в виде множителей, поскольку получающуюся на последнем шаге постоянную можно восстановить из «условия нормировки». Внешний интеграл не зависит от переменных внутреннего интеграла, следовательно, он некоторая постоянная. Вводя переменную $z^2=v_1^2 + v_3^2 + \ldots v_n^2$, получим
$F(u)= C \int_D e^{-v_2^2/2 - z^2/2} z^{n-2}dv_2dz,$
$D= \frac{v_2}{\sqrt{v_2^2 + z^2}} < u.$
Переходя к координатам $v_2 = \rho \cos \phi$, $z = \rho \sin \phi$ получим
$F(u)= C \int_{\cos \phi < u} e^{-\rho^2/2} (\rho \sin \phi)^{n-2}\rho d\rho d\phi.$
Переходя к переменной $t=\cos \phi$, получим $F(u) = C \int_{-1}^u (1-t^2)^{\frac{n-3}{2}} dt.$
Дифференцируя по $u$, получаем плотность $f (u) = C(1-u^2)^{\frac{n-3}{2}}$. После восстановления постоянной из условия нормировки, видим, что плотность совпадает с плотностью распределения $r$, для случая, когда ни один из центров не оценивается по выборке.

P.S. На бумаге я немного другим способом искал плотность, поэтому в сообщении возможны опечатки. Как освобожусь, постараюсь проверить, и если найду ошибки или опечатки, то напишу.

 
 
 
 Re: корреляция при известных параметрах распределений
Сообщение16.11.2012, 14:55 
Andrew Gubarev в сообщении #645301 писал(а):
Предыдущее сообщение писал в спешке после работы и грубо ошибся при вычислении интеграла для случая B. Всё вы написали правильно, за исключением случая, когда оценивается один центр по выборке. Точное распределение статистики $t$ в этом случае совпадает с распределением статистики, когда ни один из центров не оценивается по выборке.
Вот еще бы понять, почему так, ведь оценивается разное количество параметров, а статистика и распределение одинаковые. И откуда $n-1$, если ни один центр не оценивается, ведь тогда обе дисперсии под корнем подчиняются распределению Пирсона с $n$ степенями свободы. Хотя для практического использования ответы на эти вопросы не сильно принципиальны.

 
 
 
 Re: корреляция при известных параметрах распределений
Сообщение18.11.2012, 19:49 
[По моей просьбе модератор исправил многочисленные очевидные опечатки в предыдущем (моём) сообщении.]

Причина совпадения распределений статистик хорошо видна, если вы повторите выкладки, приведенные в моём предыдущем сообщении для случая, когда ни один из «центров» не оценивается. Совпадению распределений можно дать геометрическое объяснение (см. изложение на «геометрическом языке» в [1] или [2, n. 16.24]). Однако, на мой взгляд, такой подход требует знаний анализа, а для не владеющего им человека не дает никаких преимуществ. При желании можно дать геометрическую трактовку заменам, выполняемым в предыдущем сообщении.

Оценивание разного количества параметров приводит к изменению совместной плотности статистик. Действительно, пусть по выборке оценивается ожидание $\alpha_{10}= \mathsf E x$ (тогда как $\alpha_{01}= \mathsf E y$ известно) Тогда, при $\rho = 0$ (при нулевом коэффициенте корреляции) плотность распределения четырех статистик $\bar x = \frac{1}{n} \sum_1^n x_i$, $ns_1^2 = \sum_1^n (x_i - \bar x)^2$, $ns_2^2 = \sum_1^n y_i^2$, $ r= \frac{\sum_1^n (x_i- \bar x) y_i}{\sqrt{ns_1^2 ns_2^2}}$ имеет вид
$$f_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = \phi_{0, \frac {1} {\sqrt n}}(u_1) k_{n-1}(u_{20}) g_r (u_{11}) k_n (u_{02}),$$
где $\phi_{0, \frac 1 {\sqrt {n}}}$ — плотность нормального распределения с нулевым ожиданием и стандартным отклонением $\sigma = 1/\sqrt n$, $k_m$ — плотность распределения $\chi^2$ с m-степенями свободы, а $g_r$ — плотность случайной величины $r$, которая после преобразования $t=\sqrt {n-1} \frac{r}{\sqrt {1-r^2}}$ приводит к плотности распределения Стьюдента с n-1-ой степенью свободы.

(Вывод, основанный на определении функции распределения и ортогональных преобразованиях)

Как и выше, можно не ограничивая общности считать, что $\alpha_{10}=\alpha_{01}=0$, $\sigma_1=\sigma_2=1$.
Для нахождения функции распределения $F_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = \mathsf P \{\bar x < u_1, ns_1^2 < u_{20}, r < u_{11}, ns_2^2 < u_{20}\}$ выполним ортогональное преобразование $\xi_1=\sqrt {n} \bar x$, $\eta_1 = \sqrt{n} \bar y$, … Тогда $\bar x = \xi_1 / \sqrt {n}$, $ns_1^2 = \sum_2^n \xi_i^2$, $ns_2^2 = \sum_1^n \eta_i^2$, $r = \frac {\sum_2^n \xi_i \eta_i} {\sqrt{ns_1^2 ns_2^2}}$.
Как и выше не будем точно выписывать нормировочную постоянную. По мере выполнения преобразований она будет постоянно изменяться. Оговаривать это не будем.
\begin{multline*}F_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = \\
=C \int\limits_{\xi_1/\sqrt{n} < u_1} e^{-\frac 1 2 \xi_1^2}d\xi_1  \int\limits_{\sum_2^n \xi_i^2 < u_{20}} e^{- \frac 1 2 \sum_2^n \xi_i^2} d\xi_2 \ldots d\xi_n \int\limits_{\frac{\sum_2^n \xi_i \eta_i}{\sqrt {\sum_2^n \xi_i^2 \sum_1^n \eta_i^2}} < u_{11}, \quad \sum_1^n \eta_i^2 < u_{02}} e^{- \frac 1 2 \sum_1^n \eta_i^2} d\eta_1\ldots d\eta_n \end{multline*}.
Т. обр. $F_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = F_{\bar x}(u_1) F_{ns_1^2, r, ns_2^2}(u_{20}, u_{11}, u_{02})$, где $F_{\bar x}(u_1) = C \int_{-\infty}^{u_1} e^{-\frac 1 2 n\xi_1^2} d \xi_1$ — функция нормального распределения с нулевым ожиданием и дисперсией $1/n$. Выполнив, как и в предыдущем, сообщении замену $v_1 = \eta_1$, $v_2= \frac { \sum_2^n \xi_i \eta_i} {\sqrt {\sum_2^n \xi_i^2}}$, …, получим
$F_{ns_1^2, r, ns_2^2}(u_{20}, u_{11}, u_{02}) = \int\limits_{\sum_2^n \xi_i^2 < u_{20}} e^{-\frac 1 2 \sum_2^n \xi_i^2} d\xi_2 \ldots d\xi_n \int\limits_{\frac {v_2}{\sum_1^n v_i^2} < u_{11}, \quad \sum_1^n v_i^2 < u_{02}} e^{- \frac 1 2 \sum_1^n v_i^2} dv_1 \ldots dv_n$
Т. обр. $F_{ns_1^2, r, ns_2^2}(u_{20}, u_{11}, u_{02}) = F_{ns_1^2}(u_{20}) F_{r, ns_2^2}(u_{11}, u_{02})$,
где $F_{ns_1^2}(u_{20}) = C \int_0^{\sqrt {u_{20}}} e^{-z^2/2}z^{n-2} dz = C \int_0^{u_{20}} e^{-t/2}t^{\frac{n-1} 2 - 1} dt$ — функция распределения $\chi^2$ с n-1-ой степенью свободы.
Далее, для краткости, в отличие от предыдущего сообщения, перейдем сразу в сферическую систему координат $z^2 = \sum_1^n v_i^2$, $v_2 = z\cos \theta$, ...
$F_{r, ns_2^2}(u_{11}, u_{02}) = C \int\limits_{\cos \theta < u_{11}} \sin^{n-2}\theta d \theta \int\limits_0^{\sqrt{u_{02}}} e^{-z^2/2}z^{n-1} dz.$
Т. обр. $F_{r, ns_2^2}(u_{11}, u_{02}) = F_{r}(u_{11}) F_{ns_2^2}(u_{02})$, где $F_{ns_2^2}(u_{02}) = C\int_0^{u_{02}} e^{-t/2}t^{\frac n 2 -1}dt$ — функция распределения $\chi^2$ с n степенями свободы, $F_r(u_{11}) = C\int_{-1}^{u_{11}} (1-t^2)^{\frac {n-3} 2} dt$.


1. R. A. Fisher “Frequency Distribution of the Values of the Correlation Coefficient in Samples from an Indefinitely Large Population” // Biometrika, Vol. 10, No. 4, pp. 507-521 (1915) ( копия файла pdf).
2. Кендалл М., Стьюарт А. Теория распределений. — М.: Наука, 1966. (pdf).

 
 
 
 Re: корреляция при известных параметрах распределений
Сообщение18.11.2012, 20:33 
Спасибо огромное! Трехтомник Кендалл & Стьюарт у меня есть, но Вы правы, не самые простые книжки.
Тем не менее, ответ найден (хотя и не очень ожиданный) и объяснение такому ответу есть.

Следующие вопросы связаны с тем же коэффициентом корреляции, но при условии, что известны дисперсии маргинальных распределений. Как получить оценку коэффициента корреляции и как будет выглядеть критерий его значимости, если известны одна или обе дисперсии маргинальных распределений? Вот тут я, честно говоря, и не знаю, как подступиться, поскольку та формула оценки, которой мы до сих пор пользовались, гарантировала, что оценка коэффициента корреляции будет находиться в диапазоне $-1\leq r\leq 1$. При простой замене знаменателя на известные значения такая гарантия исчезает. Как быть в этих случаях?

 
 
 
 Re: корреляция при известных параметрах распределений
Сообщение19.11.2012, 13:42 
В [3] методом статистических испытаний сравниваются различные оценки коэффициента корреляции, когда ожидания и дисперсии предполагаются известными. Также сравниваются различные критерии равенства коэффициента корреляции нулю. Критические значения статистик находятся, опять же, методом статистических испытаний.

[3] Fosdick B.K., Raftery A.E. Estimating the Correlation in Bivariate Normal Data with Known Variances and Small Sample Sizes. // The American Statistician, Vol 66, (Issue 1) pp. 34-41 (2012). [Cкачать «допечатную» версию статьи можно с домашней страницы Reftery.]

 
 
 
 Re: корреляция при известных параметрах распределений
Сообщение19.11.2012, 17:09 
Большое Спасибо! Значит не одного меня заинтересовала задача. И точного решения, насколько я понимаю, пока нет.

 
 
 [ Сообщений: 22 ]  На страницу Пред.  1, 2


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group