2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Уравнение регрессии
Сообщение18.10.2012, 21:07 
В таблице приведены данные по ключевым индикаторам уровня жизни для 11 стран:

(ТАБЛИЦА)

Изображение


Известно, что матрица парных коэффициентов корреляции имеет вид:

$\begin{pmatrix} 1 & &  \\ c & 1 &  \\ -0,06 & 0,19 & 1  \end{pmatrix}  $

Найдите $c$ и постройте уравнение регрессии (уравнение корреляционной зависимости), выбрав факторы

Я посчитал одно значение $\rho_{XY}=0,84=c$ воспользовался симметрией.

$\begin{pmatrix} 1 & 0,84 &-0,06  \\ 0,84 & 1 &0,19  \\ -0,06 & 0,19 & 1  \end{pmatrix}  $

А из каких принципов выбирать факторы?

-- 18.10.2012, 21:12 --

А еще - что такое метод приведения параллельных данных? Где про это почитать?

-- 18.10.2012, 21:54 --

Можно ли так записать уравнение регрессии? $z=\beta_0+\beta_1x+\beta_2y+\varepsilon$

 
 
 
 Re: Уравнение регрессии
Сообщение18.10.2012, 23:39 
Хотя не, мне кажется, что $y$ и $z$ - факторы. Нужно ли при такой постановке вопроса - оценивать коэффициенты?

$x=\beta_0+\beta_1y+\beta_2z+\varepsilon$

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 00:41 
Нужно тут методом наименьших квадратов искать оценку коэффициентов по формуле?

$\hat\beta_{OLS}=(X'X)^{-1}X'y$

Не, что-то мне кажется, что нужно сделать что-то другое, так как $X'X$ - матрица $11\times 11$ :plusomet:

-- 19.10.2012, 01:36 --

Нашел вот такую информацию в википедии

Линейный коэффициент корреляции связан с коэффициентом регрессии в виде следующей зависимости:

$\mathbf{r}_{XY} = \mathbf{a}_{i} \frac{{\sigma}_{Xi}}{{\sigma}_{Y}}$

Можно ли тогда по этой формуле будет найти?

$\mathbf{a}_{i}=\dfrac{\mathbf{r}_{XY}\cdot {\sigma}_{Y}}{{\sigma}_{Xi}}$

$\beta_1=\dfrac{\mathbf{\rho}_{XY}\cdot {\sigma}_{X}}{{\sigma}_{Y}}$

$\beta_2=\dfrac{\mathbf{\rho}_{XZ}\cdot {\sigma}_{X}}{{\sigma}_{Z}}$

А как найти $\beta_0$?

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 02:10 
Еще есть идея найти в лоб методом МНК

$L=\displaystyle\sum_{i=1}^n(x_i-\beta_0-\beta_1y_i-\beta_2z_i)^2$

А потом, найдя $L'_{\beta_i}\;\;\;i=0,1,2$, получаем систему уравнений $3\times 3$:

$\begin{cases}
\displaystyle\sum_{i=1}^nx_i=n\beta_0+ \displaystyle\sum_{i=1}^ny_i+\beta_1\displaystyle\sum_{i=1}^ny_i+\beta_2\displaystyle\sum_{i=1}^nz_i\\
\\
\displaystyle\sum_{i=1}^nx_iy_i=\beta_0\displaystyle\sum_{i=1}^ny_i+\beta_1\displaystyle\sum_{i=1}^ny_i^2+\beta_2\displaystyle\sum_{i=1}^ny_iz_i\\
\\
\displaystyle\sum_{i=1}^nx_iz_i=\beta_0\displaystyle\sum_{i=1}^nz_i+\beta_1\displaystyle\sum_{i=1}^ny_iz_i+\beta_2\displaystyle\sum_{i=1}^nz_i^2\\

\end{cases}$

Остается ее решить. Какой метод самый рациональный в данном случае?

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 10:07 
Аватара пользователя
Выбор того, что зависимая переменная (регрессанд), а что независимые (регрессор, фактор) лежит вне статистики и определяется задачами исследования. Скажем, для этого набора данных функционер Всемирной Организации Здравоохранения поинтересуется зависимостью продолжительности жизни от прочих факторов, клерк Всемирного Банка - зависимостью ВВП, а эксперт Юнеско - процента грамотных от прочих переменных. Так что либо спросить указаний, либо надо выбирать произвольно (в некоторых случаях причинно-следственные связи ясны, и выбор очевиден, но не тут).
Если у нас есть матрица корреляций всех переменных, то, выбрав зависимую, можно из неё выбрать матрицу корреляций независимых переменных меж собой и вектор корреляций зависимой с независимыми. После чего можно использовать матричное выражение для коэффициентов регрессии (которое даст коэффициенты для нормированных переменных, так что для исходных переменных понадобится вернуть обратно размерности, домножив на СКО зависимой и разделив на СКО соответствующих независимых). Последним темпом надо вычислить свободный член, зная средние всех переменных и оценки коэффициентов регрессии.

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 12:08 
Евгений Машеров в сообщении #632744 писал(а):
Так что либо спросить указаний, либо надо выбирать произвольно (в некоторых случаях причинно-следственные связи ясны, и выбор очевиден, но не тут).

Спасибо. Допустим, что мы выбрали произвольно. Пусть $x$ -регрессанд, $y,z$ - регрессоры.
Евгений Машеров в сообщении #632744 писал(а):
Если у нас есть матрица корреляций всех переменных, то, выбрав зависимую, можно из неё выбрать матрицу корреляций независимых переменных меж собой и вектор корреляций зависимой с независимыми.

Матрица корреляций всех переменных $(x,y,z):\;\;\;\;\;\;\;\;\;\begin{pmatrix} 1 & 0,84 &-0,06  \\ 0,84 & 1 &0,19  \\ -0,06 & 0,19 & 1  \end{pmatrix}  $
Матрица корреляций независимых переменных меж собой - это вот такая? Если $x$ - регрессанд.

$X=\begin{pmatrix}   1 &0,19  \\ 0,19 & 1  \end{pmatrix}  $

Вектор корреляций с зависимой -это такой? $\vec{x}=\begin{pmatrix} 0,84   \\ -0,06\\  \end{pmatrix}  $

Евгений Машеров в сообщении #632744 писал(а):
После чего можно использовать матричное выражение для коэффициентов регрессии .

Это вот это? $\hat\beta_{OLS}=(X'X)^{-1}X'\vec{x}$, где $X'$ - транспонированная $X$
Евгений Машеров в сообщении #632744 писал(а):
(которое даст коэффициенты для нормированных переменных, так что для исходных переменных понадобится вернуть обратно размерности, домножив на СКО зависимой и разделив на СКО соответствующих независимых). Последним темпом надо вычислить свободный член, зная средние всех переменных и оценки коэффициентов регрессии.

Это вы имеете ввиду, что для $\hat\beta_{OLS}=(\hat\beta_1,\hat\beta_2)'$ нужно домножить вот так? $\hat\beta_1^*=\dfrac{\hat\beta_1\cdot \sigma_X}{\sigma_Y};\;\;\;\;\;\;\;\hat\beta_2^*=\dfrac{\hat\beta_2\cdot \sigma_X}{\sigma_Z}$

А свободный член $\beta_0^*$ искать отсюда? $\overline{x}=\hat\beta_0^*+\hat\beta_1^*\overline{y}+\hat\beta_2^*\overline{z}$

Есть ли в моем сообщение что-то похожее на правду. Есть ли конфликт обозначений?

А то, что я писал до этого - бред?

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 12:41 
Аватара пользователя
Последнее - всё правильно. Хотя я как-то успел за последние лет 35-40 привыкнуть, что ищем зависимость y от $x_1, x_2,,x_n$. Но, в конце-концов, это лишь условное соглашение.

Сообщение от 19 окт 2012, 02:10 в принципе верно, просто это трудоёмкий подход. Там матрица получается 3х3, решать дольше. С другой стороны, матричное выражение - оно именно из этого получается, упрощением.

В сообщении от 19 окт 2012, 00:41 матрица Х не тем боком повёрнута. На самом деле $X'X$ матрица 3х3, а если упростить обработку свободного члена (вычтя изо всего средние, а потом посчитав свободный член, зная коэффициенты) , то 2х2.
Далее там же - это соотношение между коэффициентом корреляции и коэффициентом парной регрессии. Для множественной оно уже не работает, одни переменные влияют на другие, разве что все регрессоры ортогональны. Для парной других попросту нет.

-- 19 окт 2012, 12:42 --

Да, и
Цитата:
Метод приведения параллельных рядов
Приводится ряд данных по одному признаку и параллельно с ним – по другому
признаку, связь с которым предполагается. По вариации признака в первом и
втором ряду судят о наличии связи признаков. Такой метод позволяет вывести
только направление связи, но не измерить ее.

Подробнее, видимо, в лекциях. И похоже, это для "глазомерного анализа".

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 13:39 
Спасибо большое, понятно :D

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 14:50 
Только у меня разные результаты получились.

Методом, который вы предложили получилось

$\hat\beta_1*=1,831667058\;\;\;\;\;\;\;\hat\beta_2*=-0,766258059$

Через решение системы уравнений

$\hat\beta_1*=0,000574878\;\;\;\;\;\;\;\hat\beta_2*=-0,002549592$

Свободный член не оценивал. Какой результат более правдоподобный? (вероятно, что я где-то напутал в арифметике, потому так вышло)

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 15:21 
Аватара пользователя
Похоже, что у Вас и там, и там ошибки. Полученное мною решение есть
1.822 и -0.138, и я ему верю. Первый коэффициент совпадает с Вашим (по "моему способу") с ошибкой в третьем знаке (что может объясняться ошибками округления 0.837299 до 0.84 и 0.185398 до 0.19, как раз возмущение в третьем знаке, второй отличается в разы.
"Ваш способ", видимо, содержит грубые ошибки в вычислениях.

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 17:59 
Евгений Машеров в сообщении #632836 писал(а):
Похоже, что у Вас и там, и там ошибки. Полученное мною решение есть
1.822 и -0.138, и я ему верю. Первый коэффициент совпадает с Вашим (по "моему способу") с ошибкой в третьем знаке (что может объясняться ошибками округления 0.837299 до 0.84 и 0.185398 до 0.19, как раз возмущение в третьем знаке, второй отличается в разы.
"Ваш способ", видимо, содержит грубые ошибки в вычислениях.


Спасибо :-)

Пересчитал через решение системы уравнений, получилось

$\hat\beta_0*=-107,555615 \;\;\;\;\;\ \hat\beta_1*=1,822095923 \;\;\;\;\;\;\;\hat\beta_2*=-0,137585474
$

Может ли быть такой большой $\hat\beta_0^*$ - он у вас такой же или другой?

 
 
 
 Re: Уравнение регрессии
Сообщение19.10.2012, 20:09 
Аватара пользователя
Не помню, и быстро проверить не могу. Но выглядит правдоподобно.

 
 
 [ Сообщений: 12 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group