2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Дисперсия регрессионных коэффициентов (матстат)
Сообщение18.02.2018, 22:27 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero

(Оффтоп)

Я когда-то давно задавал вопрос о том, как считается погрешность коэффициентов линейной регрессии. Однозначных ответов я тогда не получил, видимо, потому что задавал плохой вопрос, и нужно было поучиться, чтобы задать вопрос хороший.


Итак, есть выборка измеренных величин $x_i$. Хотим получить оценку по методу наименьших квадратов: $y_i = a + b x_i + \varepsilon_i$, где ошибка $\varepsilon$ (величины $\varepsilon_i$ — реализации случайной величины $\varepsilon$), как $\mathcal N(0, \sigma^2)$. Лемма о коэффициентах линейной регрессии утверждает:

1) величины $\sqrt n \dfrac{\hat a - a}{\sigma}, \sqrt n \dfrac{\hat b - b}{\sigma} S \sim \mathcal N(0, 1)$;
2) величины $\hat a, \hat b, \sigma^2_*$ независимы;
3) величина $\dfrac{n \sigma^2_*}{\sigma^2} \sim \chi^2_{n - 2}$;
4) величины $\sqrt{n - 2} \dfrac{\hat a - a}{\sigma_*}, \sqrt{n - 2} \dfrac{\hat b - b}{\sigma_*} S \sim T_{n - 2}$,

где обозначения такие: $\hat a = \langle y \rangle$, $\hat b = \dfrac{\langle xy \rangle - \langle x \rangle \langle y \rangle}{S^2}$, $\sigma^2_* = \sigma^2(y) + \hat b^2 \sigma^2(x) - 2 \hat b \operatorname{cov}(x, y)$, угловые скобки - выборочное среднее, $\sigma^2(x)$ — выборочная дисперсия величины $x$ (может быть коллизия, но $\sigma^2$ без аргументов есть дисперсия нормально распределённой ошибки, как условлено вначале), $\operatorname{cov}(\cdot, \cdot)$ — выборочная ковариация, $T_n$ ($\chi^2_n$) — распределение Стьюдента (Пирсона) с $n$ степенями свободы.

Из утверждения 4) легко вытащить доверительные интервалы для $\hat a$ и $\hat b$ (для к-тов регрессии). Как оценить дисперсии $\mathcal Da$ и $\mathcal Db$ истинных значений коэффициентов, которые выражаются через $\sigma^2$, которую мы не знаем? Из третьего утверждения, скажем, можно вытащить равенство типа такого:
$$
\alpha = \mathbb P\left(0 < \dfrac{n \sigma^2}{\sigma^2_*} < q_\alpha \right) = \mathbb P \left( 0 < \sigma^2 < \dfrac{q_\alpha \sigma^2_*}{n} \right),
$$
где $q_\alpha$ --- $\alpha$-квантиль распределения Пирсона с $n-2$ степенями свободы. Из этого равенства можно верхнюю оценку получить, а уточнить как-то можно?

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение19.02.2018, 03:27 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Вопрос непонятен. Дисперсии истинных значений коэффициентов равны нулю, поскольку истинные значения коэффициентов суть неизвестные постоянные.

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение19.02.2018, 11:44 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero
--mS-- в сообщении #1293168 писал(а):
Дисперсии истинных значений коэффициентов равны нулю

Да, чушь написал и не заметил. Имелись ввиду, конечно, выражения $\mathcal D \hat a$ и $\mathcal D \hat b$.

-- 19.02.2018, 11:48 --

Собственно, проблема вот в чём. В результате опыта задавались величины $x_i$ и измерялись величины $y_i$, между которыми предполагается линейная зависимость $y = a + bx$. Как уже сказано, доверительные интервалы для $\hat a$ и $\hat b$, которыми мы оцениваем $a$ и $b$, можно вычислить и без знания $\sigma^2$, поэтому мне не ясно даже то, насколько полезна, например, приведённая оценка:
StaticZero в сообщении #1293146 писал(а):
$$
\alpha = \mathbb P\left(0 < \dfrac{n \sigma^2}{\sigma^2_*} < q_\alpha \right) = \mathbb P \left( 0 < \sigma^2 < \dfrac{q_\alpha \sigma^2_*}{n} \right),
$$

то есть не понятно, нам что-то даёт знание интервала, который накроет $\sigma^2$ с некоторой вероятностью?

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение19.02.2018, 15:59 
Заслуженный участник
Аватара пользователя


11/03/08
9541
Москва
Истинная сигма нам неизвестна. Но имеется оценка. Обычно используется несмещённая оценка, с делением на $(n-k-1)$. Распределение выражается через $\chi^2$, соответственно если истинное значение дисперсии заменяется ошибкой, коэффициенты распределены не нормально, а по Стьюденту.

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение25.02.2018, 17:18 
Заслуженный участник
Аватара пользователя


22/06/12
2129
/dev/zero
Ну вроде разобрался, нужно было просто вникнуть в доказательство самой леммы. Спасибо.

-- 25.02.2018, 17:19 --

StaticZero в сообщении #1293146 писал(а):
Лемма о коэффициентах линейной регрессии

Кстати говоря, в учебниках она называется как-нибудь единообразно? Через гугл по такому запросу находится всякий хлам.

 Профиль  
                  
 
 Re: Дисперсия регрессионных коэффициентов (матстат)
Сообщение26.02.2018, 04:24 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Гаусса - Маркова? (Только это сочетание и слышала)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group