интервальная оценка линии регрессии

AndreyL · 27/10/09 606

Дамы и Господа! Чего-то я запутался, в разных учебниках для интервальной оценки линии регрессии даются разные формулы, однако ни одну из этих формул я не могу подтвердить.
Задача простая: есть многомерная выборка, размерность случайного вектора $m$ , при этом первые $m-1$ компонентов этого вектора являются предикторами (назовем их $x_i, i=1..m-1$ ), последний - отклик (назовем его $y$ ). Еще введем линейное уравнение с коэффициентами $b_i, i=1..m-1$ и $b_0$ - свободный. Тогда каждый $y_k$ может быть записан как $y_k=\sum_{i=1}^{m-1}b_i x_{ki}+b_0+\epsilon _k$ , где $\epsilon$ подчиняется нормальному распределению с центром 0 и стандартом $\sigma$ . При этом, зная значения $b_i, i=1..m-1$ и $b_0$ для каждого $x_k$ можем записать расчетное значение $f(x_k)=\sum_{i=1}^{m-1}b_i x_{ki}+b_0$ - величина неслучайная. Если же значения коэффициентов неизвестны, то оцениваем их по выборке, используя МНК- назовем оценки $\hat{b}_i$ . Тогда оценка $\hat{f}(x_k)=\sum_{i=1}^{m-1}\hat{b}_i x_{ki}+\hat{b}_0$ будет случайной величиной.
Основной вопрос - какому распределению подчиняется $\hat{f}(x_k)$ ? Один из вариантов был, например, такой $\frac{\hat{f}(x_k)-f(x_k)}{\sigma / \sqrt{n}}\frac{1}{\sqrt{1+(x_k-\bar x)^{T}cov_{xx}^{-1}(x_k-\bar x)}}$ подчиняется нормализованному нормальному распределению. Здесь $n$ - объем выборки, $\bar x$ - вектор средних предикторов, $cov_{xx}^{-1}$ - обратная ковариационная матрица предикторов. Однако моделирование Монте-Карлой показало, что это справедливо только для $x_k=\bar x$ , при удалении же от центра дисперсия этой статистики немного отличается от 1. Похоже, ошибка где-то во втором множителе, отвечающем за увеличение дисперсии при удалении предиктора от центра. Как он на самом деле должен выглядеть?

--mS-- · 23/11/06 4171

Пусть $Z(m\times n)$ - матрица плана, составленная из векторов-столбцов предикторов (с первой единичкой в роли множителя при $b_0$ ), а вектор $\vec{\beta}=(b_0,b_1,\ldots,b_{m-1})^T$ - вектор параметров регрессии, и $n$ - число наблюдений. Иными словами, вектор наблюдений $vec y=(y_1,\ldots,y_n)^T$ есть просто $\vec y = Z^T\beta +\vec \varepsilon$ .

Тогда для матриц $Z$ ранга $m$ ОМНК равна $\hat{\vec \beta} = A^{-1}Z\vec y$ , где $A=Z\cdot Z^T$ .

Дальше,
$\hat{\vec y} = Z^T\hat{\vec \beta} = Z^T A^{-1} Z \vec y =$
$=Z^T A^{-1} Z (Z^T\beta +\vec \varepsilon)=Z^T\vec\beta+Z^T A^{-1} Z \vec \varepsilon.$

Если вектор ошибок $\vec \varepsilon$ имеет многомерное нормальное распределение с нулевым вектором средних и матрицей ковариаций $\sigma^2 E_n$ , где $E_n$ - единичная матрица, то вектор $\hat{\vec y}$ тоже имеет многомерное нормальное распределение со средним $Z^T\vec\beta = (f(x_1), \ldots, f(x_n))^T$ и матрицей ковариаций
$\Sigma = Z^T A^{-1} Z \sigma^2 E_n (Z^T A^{-1} Z )^T = \sigma^2 Z^T A^{-1} Z.$

Если в матрице $\sigma^2\Pi = \sigma^2 Z^T A^{-1} Z$ взять $k$ -й элемент главной диагонали, то он и будет дисперсией $\hat y_k$ , т.е.
$\dfrac{\hat y_k - f(x_k)}{\sigma\sqrt{\Pi_{kk}}} \ \sim \ N(0,1).$

AndreyL · 27/10/09 606

Спасибо за ответ! Две недели не мог найти ошибку, только сегодня нашел. У меня ковариационная матрица считалась с делителем $n-1$ , т.е. все по правилам. Когда я домножил ее на $\frac{n-1}{n}$ , то все начало получатся.

Научный форум dxdy

Правила форума

интервальная оценка линии регрессии

Кто сейчас на конференции