2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 интервальная оценка линии регрессии
Сообщение21.11.2012, 23:24 
Дамы и Господа! Чего-то я запутался, в разных учебниках для интервальной оценки линии регрессии даются разные формулы, однако ни одну из этих формул я не могу подтвердить.
Задача простая: есть многомерная выборка, размерность случайного вектора $m$, при этом первые $m-1$ компонентов этого вектора являются предикторами (назовем их $x_i, i=1..m-1$), последний - отклик (назовем его $y$). Еще введем линейное уравнение с коэффициентами $b_i, i=1..m-1$ и $b_0$ - свободный. Тогда каждый $y_k$ может быть записан как $y_k=\sum_{i=1}^{m-1}b_i x_{ki}+b_0+\epsilon _k$, где $\epsilon$ подчиняется нормальному распределению с центром 0 и стандартом $\sigma$. При этом, зная значения $b_i, i=1..m-1$ и $b_0$ для каждого $x_k$ можем записать расчетное значение $f(x_k)=\sum_{i=1}^{m-1}b_i x_{ki}+b_0$ - величина неслучайная. Если же значения коэффициентов неизвестны, то оцениваем их по выборке, используя МНК- назовем оценки $\hat{b}_i$. Тогда оценка $\hat{f}(x_k)=\sum_{i=1}^{m-1}\hat{b}_i x_{ki}+\hat{b}_0$ будет случайной величиной.
Основной вопрос - какому распределению подчиняется $\hat{f}(x_k)$? Один из вариантов был, например, такой $$\frac{\hat{f}(x_k)-f(x_k)}{\sigma / \sqrt{n}}\frac{1}{\sqrt{1+(x_k-\bar x)^{T}cov_{xx}^{-1}(x_k-\bar x)}}$$ подчиняется нормализованному нормальному распределению. Здесь $n$ - объем выборки, $\bar x$ - вектор средних предикторов, $cov_{xx}^{-1}$ - обратная ковариационная матрица предикторов. Однако моделирование Монте-Карлой показало, что это справедливо только для $x_k=\bar x$, при удалении же от центра дисперсия этой статистики немного отличается от 1. Похоже, ошибка где-то во втором множителе, отвечающем за увеличение дисперсии при удалении предиктора от центра. Как он на самом деле должен выглядеть?

 
 
 
 Re: интервальная оценка линии регрессии
Сообщение22.11.2012, 16:50 
Аватара пользователя
Пусть $Z(m\times n)$ - матрица плана, составленная из векторов-столбцов предикторов (с первой единичкой в роли множителя при $b_0$), а вектор $\vec{\beta}=(b_0,b_1,\ldots,b_{m-1})^T$ - вектор параметров регрессии, и $n$ - число наблюдений. Иными словами, вектор наблюдений $vec y=(y_1,\ldots,y_n)^T$ есть просто $\vec y = Z^T\beta +\vec \varepsilon$.

Тогда для матриц $Z$ ранга $m$ ОМНК равна $\hat{\vec \beta} = A^{-1}Z\vec y$, где $A=Z\cdot Z^T$.

Дальше,
$$\hat{\vec y} = Z^T\hat{\vec \beta} = Z^T A^{-1} Z \vec y =  $$
$$=Z^T A^{-1} Z (Z^T\beta +\vec \varepsilon)=Z^T\vec\beta+Z^T A^{-1} Z \vec \varepsilon.$$

Если вектор ошибок $\vec \varepsilon$ имеет многомерное нормальное распределение с нулевым вектором средних и матрицей ковариаций $\sigma^2 E_n$, где $E_n$ - единичная матрица, то вектор $\hat{\vec y}$ тоже имеет многомерное нормальное распределение со средним $Z^T\vec\beta = (f(x_1), \ldots, f(x_n))^T$ и матрицей ковариаций
$$\Sigma = Z^T A^{-1} Z \sigma^2 E_n (Z^T A^{-1} Z )^T = \sigma^2 Z^T A^{-1} Z. $$

Если в матрице $\sigma^2\Pi = \sigma^2 Z^T A^{-1} Z$ взять $k$-й элемент главной диагонали, то он и будет дисперсией $\hat y_k$, т.е.
$$ \dfrac{\hat y_k - f(x_k)}{\sigma\sqrt{\Pi_{kk}}} \ \sim \ N(0,1).$$

 
 
 
 Re: интервальная оценка линии регрессии
Сообщение22.11.2012, 17:17 
Спасибо за ответ! Две недели не мог найти ошибку, только сегодня нашел. У меня ковариационная матрица считалась с делителем $n-1$, т.е. все по правилам. Когда я домножил ее на $\frac{n-1}{n}$, то все начало получатся.

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group