2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: корреляция при известных параметрах распределений
Сообщение14.11.2012, 20:25 


27/10/09
602
Тогда получается так:
оценка коэффициента корреляции в любом случае:
$$r = \frac{ \sum_{i=1}^n (x_i - {M_x}) (y_i - {M_y}))} {\sqrt{\sum_{i=1}^n (x_i - {M_x}))^2 \sum_{i=1}^n (y_i - {M_y})^2} }$$
где $M_x$ и $M_y$ - центры распределений, известные или их оценки.
1) если оба центра неизвестны, то статистика $t=\sqrt{n-2}\frac{r}{\sqrt{1-r^2}}$ подчиняется распределению Стьюдента с $n-2$ степенями свободы.
2) если оба центра известны, то статистика $t=\sqrt{n-1}\frac{r}{\sqrt{1-r^2}}$ подчиняется распределению Стьюдента с $n-1$ степенями свободы.
3) если известен только один центр, то точная статистика и ее закон распределения в общем случае неизвестны, но на практике можно считать, что статистика $t=\sqrt{n-1}\frac{r}{\sqrt{1-r^2}}$ подчиняется распределению Стьюдента с $n-1$ степенями свободы.

Правильно ли я все понял?

 Профиль  
                  
 
 Re: корреляция при известных параметрах распределений
Сообщение16.11.2012, 12:51 
Заморожен


14/09/10
72
Предыдущее сообщение писал в спешке после работы и грубо ошибся при вычислении интеграла для случая B. Всё вы написали правильно, за исключением случая, когда оценивается один центр по выборке. Точное распределение статистики $t$ в этом случае совпадает с распределением статистики, когда ни один из центров не оценивается по выборке.

Распределение статистики, когда один центр известен, а второй оценивается по выборке.
Не ограничивая общности можно считать, что $\sigma_1=\sigma_2=1$.
$F_n(u) =\int_D \frac{1}{(2\pi)^n} e^{-\frac{1}{2} \sum_{i=1}^n \xi_i^2 - \frac{1}{2} \sum_{i=1}^n \eta_i^2 } d \xi_1 \ldots d \xi_n d \eta_1 \ldots d\eta_n,$
$D = \frac{ \sum_{i=2}^n \xi_i \eta_i} {\sqrt{\sum_{i=2}^n \xi_i^2 \sum_{i=1}^n \eta_i^2} } < u.$
«Разделим» переменные так, чтобы во «внутреннем» интеграле выполнялось интегрирование по $\eta$, а во внешнем по $\xi$. Выполнив во «внутреннем» интеграле замену при которой $v_1=\eta_1$, а остальные $\eta_i$ преобразуются при помощи ортогонального преобразования с «первой» строкой $v_2=\frac{\sum_{i=2}^n \xi_i \eta_i}{\sqrt{\sum_{i=2}^n \xi_i^2}}$, получим
$F(u)= \frac{1}{(2\pi)^n} \int_D e^{-\frac{1}{2}\sum_{i=1}^n \xi_i^2} d\xi_1 \ldots d\xi_n \int_D e^{-\frac{1}{2}\sum_{i=1}^n v_i^2} dv_1 \ldots dv_n,$
$D=\frac{v_2}{\sqrt{\sum_{i=1}^n v_i^2}} < u.$
Не будем отслеживать в дальнейшем постоянные, выносимые за интеграл в виде множителей, поскольку получающуюся на последнем шаге постоянную можно восстановить из «условия нормировки». Внешний интеграл не зависит от переменных внутреннего интеграла, следовательно, он некоторая постоянная. Вводя переменную $z^2=v_1^2 + v_3^2 + \ldots v_n^2$, получим
$F(u)= C \int_D e^{-v_2^2/2 - z^2/2} z^{n-2}dv_2dz,$
$D= \frac{v_2}{\sqrt{v_2^2 + z^2}} < u.$
Переходя к координатам $v_2 = \rho \cos \phi$, $z = \rho \sin \phi$ получим
$F(u)= C \int_{\cos \phi < u} e^{-\rho^2/2} (\rho \sin \phi)^{n-2}\rho d\rho d\phi.$
Переходя к переменной $t=\cos \phi$, получим $F(u) = C \int_{-1}^u (1-t^2)^{\frac{n-3}{2}} dt.$
Дифференцируя по $u$, получаем плотность $f (u) = C(1-u^2)^{\frac{n-3}{2}}$. После восстановления постоянной из условия нормировки, видим, что плотность совпадает с плотностью распределения $r$, для случая, когда ни один из центров не оценивается по выборке.

P.S. На бумаге я немного другим способом искал плотность, поэтому в сообщении возможны опечатки. Как освобожусь, постараюсь проверить, и если найду ошибки или опечатки, то напишу.

 Профиль  
                  
 
 Re: корреляция при известных параметрах распределений
Сообщение16.11.2012, 14:55 


27/10/09
602
Andrew Gubarev в сообщении #645301 писал(а):
Предыдущее сообщение писал в спешке после работы и грубо ошибся при вычислении интеграла для случая B. Всё вы написали правильно, за исключением случая, когда оценивается один центр по выборке. Точное распределение статистики $t$ в этом случае совпадает с распределением статистики, когда ни один из центров не оценивается по выборке.
Вот еще бы понять, почему так, ведь оценивается разное количество параметров, а статистика и распределение одинаковые. И откуда $n-1$, если ни один центр не оценивается, ведь тогда обе дисперсии под корнем подчиняются распределению Пирсона с $n$ степенями свободы. Хотя для практического использования ответы на эти вопросы не сильно принципиальны.

 Профиль  
                  
 
 Re: корреляция при известных параметрах распределений
Сообщение18.11.2012, 19:49 
Заморожен


14/09/10
72
[По моей просьбе модератор исправил многочисленные очевидные опечатки в предыдущем (моём) сообщении.]

Причина совпадения распределений статистик хорошо видна, если вы повторите выкладки, приведенные в моём предыдущем сообщении для случая, когда ни один из «центров» не оценивается. Совпадению распределений можно дать геометрическое объяснение (см. изложение на «геометрическом языке» в [1] или [2, n. 16.24]). Однако, на мой взгляд, такой подход требует знаний анализа, а для не владеющего им человека не дает никаких преимуществ. При желании можно дать геометрическую трактовку заменам, выполняемым в предыдущем сообщении.

Оценивание разного количества параметров приводит к изменению совместной плотности статистик. Действительно, пусть по выборке оценивается ожидание $\alpha_{10}= \mathsf E x$ (тогда как $\alpha_{01}= \mathsf E y$ известно) Тогда, при $\rho = 0$ (при нулевом коэффициенте корреляции) плотность распределения четырех статистик $\bar x = \frac{1}{n} \sum_1^n x_i$, $ns_1^2 = \sum_1^n (x_i - \bar x)^2$, $ns_2^2 = \sum_1^n y_i^2$, $ r= \frac{\sum_1^n (x_i- \bar x) y_i}{\sqrt{ns_1^2 ns_2^2}}$ имеет вид
$$f_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = \phi_{0, \frac {1} {\sqrt n}}(u_1) k_{n-1}(u_{20}) g_r (u_{11}) k_n (u_{02}),$$
где $\phi_{0, \frac 1 {\sqrt {n}}}$ — плотность нормального распределения с нулевым ожиданием и стандартным отклонением $\sigma = 1/\sqrt n$, $k_m$ — плотность распределения $\chi^2$ с m-степенями свободы, а $g_r$ — плотность случайной величины $r$, которая после преобразования $t=\sqrt {n-1} \frac{r}{\sqrt {1-r^2}}$ приводит к плотности распределения Стьюдента с n-1-ой степенью свободы.

(Вывод, основанный на определении функции распределения и ортогональных преобразованиях)

Как и выше, можно не ограничивая общности считать, что $\alpha_{10}=\alpha_{01}=0$, $\sigma_1=\sigma_2=1$.
Для нахождения функции распределения $F_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = \mathsf P \{\bar x < u_1, ns_1^2 < u_{20}, r < u_{11}, ns_2^2 < u_{20}\}$ выполним ортогональное преобразование $\xi_1=\sqrt {n} \bar x$, $\eta_1 = \sqrt{n} \bar y$, … Тогда $\bar x = \xi_1 / \sqrt {n}$, $ns_1^2 = \sum_2^n \xi_i^2$, $ns_2^2 = \sum_1^n \eta_i^2$, $r = \frac {\sum_2^n \xi_i \eta_i} {\sqrt{ns_1^2 ns_2^2}}$.
Как и выше не будем точно выписывать нормировочную постоянную. По мере выполнения преобразований она будет постоянно изменяться. Оговаривать это не будем.
\begin{multline*}F_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = \\
=C \int\limits_{\xi_1/\sqrt{n} < u_1} e^{-\frac 1 2 \xi_1^2}d\xi_1  \int\limits_{\sum_2^n \xi_i^2 < u_{20}} e^{- \frac 1 2 \sum_2^n \xi_i^2} d\xi_2 \ldots d\xi_n \int\limits_{\frac{\sum_2^n \xi_i \eta_i}{\sqrt {\sum_2^n \xi_i^2 \sum_1^n \eta_i^2}} < u_{11}, \quad \sum_1^n \eta_i^2 < u_{02}} e^{- \frac 1 2 \sum_1^n \eta_i^2} d\eta_1\ldots d\eta_n \end{multline*}.
Т. обр. $F_{\bar x, ns_1^2, r, ns_2^2} (u_1, u_{20}, u_{11}, u_{02}) = F_{\bar x}(u_1) F_{ns_1^2, r, ns_2^2}(u_{20}, u_{11}, u_{02})$, где $F_{\bar x}(u_1) = C \int_{-\infty}^{u_1} e^{-\frac 1 2 n\xi_1^2} d \xi_1$ — функция нормального распределения с нулевым ожиданием и дисперсией $1/n$. Выполнив, как и в предыдущем, сообщении замену $v_1 = \eta_1$, $v_2= \frac { \sum_2^n \xi_i \eta_i} {\sqrt {\sum_2^n \xi_i^2}}$, …, получим
$F_{ns_1^2, r, ns_2^2}(u_{20}, u_{11}, u_{02}) = \int\limits_{\sum_2^n \xi_i^2 < u_{20}} e^{-\frac 1 2 \sum_2^n \xi_i^2} d\xi_2 \ldots d\xi_n \int\limits_{\frac {v_2}{\sum_1^n v_i^2} < u_{11}, \quad \sum_1^n v_i^2 < u_{02}} e^{- \frac 1 2 \sum_1^n v_i^2} dv_1 \ldots dv_n$
Т. обр. $F_{ns_1^2, r, ns_2^2}(u_{20}, u_{11}, u_{02}) = F_{ns_1^2}(u_{20}) F_{r, ns_2^2}(u_{11}, u_{02})$,
где $F_{ns_1^2}(u_{20}) = C \int_0^{\sqrt {u_{20}}} e^{-z^2/2}z^{n-2} dz = C \int_0^{u_{20}} e^{-t/2}t^{\frac{n-1} 2 - 1} dt$ — функция распределения $\chi^2$ с n-1-ой степенью свободы.
Далее, для краткости, в отличие от предыдущего сообщения, перейдем сразу в сферическую систему координат $z^2 = \sum_1^n v_i^2$, $v_2 = z\cos \theta$, ...
$F_{r, ns_2^2}(u_{11}, u_{02}) = C \int\limits_{\cos \theta < u_{11}} \sin^{n-2}\theta d \theta \int\limits_0^{\sqrt{u_{02}}} e^{-z^2/2}z^{n-1} dz.$
Т. обр. $F_{r, ns_2^2}(u_{11}, u_{02}) = F_{r}(u_{11}) F_{ns_2^2}(u_{02})$, где $F_{ns_2^2}(u_{02}) = C\int_0^{u_{02}} e^{-t/2}t^{\frac n 2 -1}dt$ — функция распределения $\chi^2$ с n степенями свободы, $F_r(u_{11}) = C\int_{-1}^{u_{11}} (1-t^2)^{\frac {n-3} 2} dt$.


1. R. A. Fisher “Frequency Distribution of the Values of the Correlation Coefficient in Samples from an Indefinitely Large Population” // Biometrika, Vol. 10, No. 4, pp. 507-521 (1915) ( копия файла pdf).
2. Кендалл М., Стьюарт А. Теория распределений. — М.: Наука, 1966. (pdf).

 Профиль  
                  
 
 Re: корреляция при известных параметрах распределений
Сообщение18.11.2012, 20:33 


27/10/09
602
Спасибо огромное! Трехтомник Кендалл & Стьюарт у меня есть, но Вы правы, не самые простые книжки.
Тем не менее, ответ найден (хотя и не очень ожиданный) и объяснение такому ответу есть.

Следующие вопросы связаны с тем же коэффициентом корреляции, но при условии, что известны дисперсии маргинальных распределений. Как получить оценку коэффициента корреляции и как будет выглядеть критерий его значимости, если известны одна или обе дисперсии маргинальных распределений? Вот тут я, честно говоря, и не знаю, как подступиться, поскольку та формула оценки, которой мы до сих пор пользовались, гарантировала, что оценка коэффициента корреляции будет находиться в диапазоне $-1\leq r\leq 1$. При простой замене знаменателя на известные значения такая гарантия исчезает. Как быть в этих случаях?

 Профиль  
                  
 
 Re: корреляция при известных параметрах распределений
Сообщение19.11.2012, 13:42 
Заморожен


14/09/10
72
В [3] методом статистических испытаний сравниваются различные оценки коэффициента корреляции, когда ожидания и дисперсии предполагаются известными. Также сравниваются различные критерии равенства коэффициента корреляции нулю. Критические значения статистик находятся, опять же, методом статистических испытаний.

[3] Fosdick B.K., Raftery A.E. Estimating the Correlation in Bivariate Normal Data with Known Variances and Small Sample Sizes. // The American Statistician, Vol 66, (Issue 1) pp. 34-41 (2012). [Cкачать «допечатную» версию статьи можно с домашней страницы Reftery.]

 Профиль  
                  
 
 Re: корреляция при известных параметрах распределений
Сообщение19.11.2012, 17:09 


27/10/09
602
Большое Спасибо! Значит не одного меня заинтересовала задача. И точного решения, насколько я понимаю, пока нет.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 22 ]  На страницу Пред.  1, 2

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group