2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Дисперсия регрессионных коэффициентов (матстат)
Сообщение18.02.2018, 22:27 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero

(Оффтоп)

Я когда-то давно задавал вопрос о том, как считается погрешность коэффициентов линейной регрессии. Однозначных ответов я тогда не получил, видимо, потому что задавал плохой вопрос, и нужно было поучиться, чтобы задать вопрос хороший.


Итак, есть выборка измеренных величин $x_i$. Хотим получить оценку по методу наименьших квадратов: $y_i = a + b x_i + \varepsilon_i$, где ошибка $\varepsilon$ (величины $\varepsilon_i$ — реализации случайной величины $\varepsilon$), как $\mathcal N(0, \sigma^2)$. Лемма о коэффициентах линейной регрессии утверждает:

1) величины $\sqrt n \dfrac{\hat a - a}{\sigma}, \sqrt n \dfrac{\hat b - b}{\sigma} S \sim \mathcal N(0, 1)$;
2) величины $\hat a, \hat b, \sigma^2_*$ независимы;
3) величина $\dfrac{n \sigma^2_*}{\sigma^2} \sim \chi^2_{n - 2}$;
4) величины $\sqrt{n - 2} \dfrac{\hat a - a}{\sigma_*}, \sqrt{n - 2} \dfrac{\hat b - b}{\sigma_*} S \sim T_{n - 2}$,

где обозначения такие: $\hat a = \langle y \rangle$, $\hat b = \dfrac{\langle xy \rangle - \langle x \rangle \langle y \rangle}{S^2}$, $\sigma^2_* = \sigma^2(y) + \hat b^2 \sigma^2(x) - 2 \hat b \operatorname{cov}(x, y)$, угловые скобки - выборочное среднее, $\sigma^2(x)$ — выборочная дисперсия величины $x$ (может быть коллизия, но $\sigma^2$ без аргументов есть дисперсия нормально распределённой ошибки, как условлено вначале), $\operatorname{cov}(\cdot, \cdot)$ — выборочная ковариация, $T_n$ ($\chi^2_n$) — распределение Стьюдента (Пирсона) с $n$ степенями свободы.

Из утверждения 4) легко вытащить доверительные интервалы для $\hat a$ и $\hat b$ (для к-тов регрессии). Как оценить дисперсии $\mathcal Da$ и $\mathcal Db$ истинных значений коэффициентов, которые выражаются через $\sigma^2$, которую мы не знаем? Из третьего утверждения, скажем, можно вытащить равенство типа такого:
$$
\alpha = \mathbb P\left(0 < \dfrac{n \sigma^2}{\sigma^2_*} < q_\alpha \right) = \mathbb P \left( 0 < \sigma^2 < \dfrac{q_\alpha \sigma^2_*}{n} \right),
$$
где $q_\alpha$ --- $\alpha$-квантиль распределения Пирсона с $n-2$ степенями свободы. Из этого равенства можно верхнюю оценку получить, а уточнить как-то можно?

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение19.02.2018, 03:27 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Вопрос непонятен. Дисперсии истинных значений коэффициентов равны нулю, поскольку истинные значения коэффициентов суть неизвестные постоянные.

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение19.02.2018, 11:44 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero
--mS-- в сообщении #1293168 писал(а):
Дисперсии истинных значений коэффициентов равны нулю

Да, чушь написал и не заметил. Имелись ввиду, конечно, выражения $\mathcal D \hat a$ и $\mathcal D \hat b$.

-- 19.02.2018, 11:48 --

Собственно, проблема вот в чём. В результате опыта задавались величины $x_i$ и измерялись величины $y_i$, между которыми предполагается линейная зависимость $y = a + bx$. Как уже сказано, доверительные интервалы для $\hat a$ и $\hat b$, которыми мы оцениваем $a$ и $b$, можно вычислить и без знания $\sigma^2$, поэтому мне не ясно даже то, насколько полезна, например, приведённая оценка:
StaticZero в сообщении #1293146 писал(а):
$$
\alpha = \mathbb P\left(0 < \dfrac{n \sigma^2}{\sigma^2_*} < q_\alpha \right) = \mathbb P \left( 0 < \sigma^2 < \dfrac{q_\alpha \sigma^2_*}{n} \right),
$$

то есть не понятно, нам что-то даёт знание интервала, который накроет $\sigma^2$ с некоторой вероятностью?

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение19.02.2018, 15:59 
Заслуженный участник
Аватара пользователя


11/03/08
9575
Москва
Истинная сигма нам неизвестна. Но имеется оценка. Обычно используется несмещённая оценка, с делением на $(n-k-1)$. Распределение выражается через $\chi^2$, соответственно если истинное значение дисперсии заменяется ошибкой, коэффициенты распределены не нормально, а по Стьюденту.

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение25.02.2018, 17:18 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero
Ну вроде разобрался, нужно было просто вникнуть в доказательство самой леммы. Спасибо.

-- 25.02.2018, 17:19 --

StaticZero в сообщении #1293146 писал(а):
Лемма о коэффициентах линейной регрессии

Кстати говоря, в учебниках она называется как-нибудь единообразно? Через гугл по такому запросу находится всякий хлам.

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение26.02.2018, 04:24 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Гаусса - Маркова? (Только это сочетание и слышала)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: lantza


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group