Дисперсия регрессионных коэффициентов (матстат)

StaticZero · 18.02.2018, 22:27

(Оффтоп)

Я когда-то давно задавал вопрос о том, как считается погрешность коэффициентов линейной регрессии. Однозначных ответов я тогда не получил, видимо, потому что задавал плохой вопрос, и нужно было поучиться, чтобы задать вопрос хороший.

Итак, есть выборка измеренных величин $x_i$ . Хотим получить оценку по методу наименьших квадратов: $y_i = a + b x_i + \varepsilon_i$ , где ошибка $\varepsilon$ (величины $\varepsilon_i$ — реализации случайной величины $\varepsilon$ ), как $\mathcal N(0, \sigma^2)$ . Лемма о коэффициентах линейной регрессии утверждает:

1) величины $\sqrt n \dfrac{\hat a - a}{\sigma}, \sqrt n \dfrac{\hat b - b}{\sigma} S \sim \mathcal N(0, 1)$ ;
2) величины $\hat a, \hat b, \sigma^2_*$ независимы;
3) величина $\dfrac{n \sigma^2_*}{\sigma^2} \sim \chi^2_{n - 2}$ ;
4) величины $\sqrt{n - 2} \dfrac{\hat a - a}{\sigma_*}, \sqrt{n - 2} \dfrac{\hat b - b}{\sigma_*} S \sim T_{n - 2}$ ,

где обозначения такие: $\hat a = \langle y \rangle$ , $\hat b = \dfrac{\langle xy \rangle - \langle x \rangle \langle y \rangle}{S^2}$ , $\sigma^2_* = \sigma^2(y) + \hat b^2 \sigma^2(x) - 2 \hat b \operatorname{cov}(x, y)$ , угловые скобки - выборочное среднее, $\sigma^2(x)$ — выборочная дисперсия величины $x$ (может быть коллизия, но $\sigma^2$ без аргументов есть дисперсия нормально распределённой ошибки, как условлено вначале), $\operatorname{cov}(\cdot, \cdot)$ — выборочная ковариация, $T_n$ ( $\chi^2_n$ ) — распределение Стьюдента (Пирсона) с $n$ степенями свободы.

Из утверждения 4) легко вытащить доверительные интервалы для $\hat a$ и $\hat b$ (для к-тов регрессии). Как оценить дисперсии $\mathcal Da$ и $\mathcal Db$ истинных значений коэффициентов, которые выражаются через $\sigma^2$ , которую мы не знаем? Из третьего утверждения, скажем, можно вытащить равенство типа такого:
$\alpha = \mathbb P\left(0 < \dfrac{n \sigma^2}{\sigma^2_*} < q_\alpha \right) = \mathbb P \left( 0 < \sigma^2 < \dfrac{q_\alpha \sigma^2_*}{n} \right),$
где $q_\alpha$ --- $\alpha$ -квантиль распределения Пирсона с $n-2$ степенями свободы. Из этого равенства можно верхнюю оценку получить, а уточнить как-то можно?

--mS-- · 19.02.2018, 03:27

Вопрос непонятен. Дисперсии истинных значений коэффициентов равны нулю, поскольку истинные значения коэффициентов суть неизвестные постоянные.

StaticZero · 19.02.2018, 11:44

--mS-- в сообщении #1293168 писал(а):

Дисперсии истинных значений коэффициентов равны нулю

Да, чушь написал и не заметил. Имелись ввиду, конечно, выражения $\mathcal D \hat a$ и $\mathcal D \hat b$ .

-- 19.02.2018, 11:48 --

Собственно, проблема вот в чём. В результате опыта задавались величины $x_i$ и измерялись величины $y_i$ , между которыми предполагается линейная зависимость $y = a + bx$ . Как уже сказано, доверительные интервалы для $\hat a$ и $\hat b$ , которыми мы оцениваем $a$ и $b$ , можно вычислить и без знания $\sigma^2$ , поэтому мне не ясно даже то, насколько полезна, например, приведённая оценка:

StaticZero в сообщении #1293146 писал(а):

$\alpha = \mathbb P\left(0 < \dfrac{n \sigma^2}{\sigma^2_*} < q_\alpha \right) = \mathbb P \left( 0 < \sigma^2 < \dfrac{q_\alpha \sigma^2_*}{n} \right),$

то есть не понятно, нам что-то даёт знание интервала, который накроет $\sigma^2$ с некоторой вероятностью?

Евгений Машеров · 19.02.2018, 15:59

Истинная сигма нам неизвестна. Но имеется оценка. Обычно используется несмещённая оценка, с делением на $(n-k-1)$ . Распределение выражается через $\chi^2$ , соответственно если истинное значение дисперсии заменяется ошибкой, коэффициенты распределены не нормально, а по Стьюденту.

StaticZero · 25.02.2018, 17:18

Ну вроде разобрался, нужно было просто вникнуть в доказательство самой леммы. Спасибо.

-- 25.02.2018, 17:19 --

StaticZero в сообщении #1293146 писал(а):

Лемма о коэффициентах линейной регрессии

Кстати говоря, в учебниках она называется как-нибудь единообразно? Через гугл по такому запросу находится всякий хлам.

--mS-- · 26.02.2018, 04:24

Гаусса - Маркова? (Только это сочетание и слышала)

Научный форум dxdy

Дисперсия регрессионных коэффициентов (матстат)