2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 интервальная оценка линии регрессии
Сообщение21.11.2012, 23:24 


27/10/09
602
Дамы и Господа! Чего-то я запутался, в разных учебниках для интервальной оценки линии регрессии даются разные формулы, однако ни одну из этих формул я не могу подтвердить.
Задача простая: есть многомерная выборка, размерность случайного вектора $m$, при этом первые $m-1$ компонентов этого вектора являются предикторами (назовем их $x_i, i=1..m-1$), последний - отклик (назовем его $y$). Еще введем линейное уравнение с коэффициентами $b_i, i=1..m-1$ и $b_0$ - свободный. Тогда каждый $y_k$ может быть записан как $y_k=\sum_{i=1}^{m-1}b_i x_{ki}+b_0+\epsilon _k$, где $\epsilon$ подчиняется нормальному распределению с центром 0 и стандартом $\sigma$. При этом, зная значения $b_i, i=1..m-1$ и $b_0$ для каждого $x_k$ можем записать расчетное значение $f(x_k)=\sum_{i=1}^{m-1}b_i x_{ki}+b_0$ - величина неслучайная. Если же значения коэффициентов неизвестны, то оцениваем их по выборке, используя МНК- назовем оценки $\hat{b}_i$. Тогда оценка $\hat{f}(x_k)=\sum_{i=1}^{m-1}\hat{b}_i x_{ki}+\hat{b}_0$ будет случайной величиной.
Основной вопрос - какому распределению подчиняется $\hat{f}(x_k)$? Один из вариантов был, например, такой $$\frac{\hat{f}(x_k)-f(x_k)}{\sigma / \sqrt{n}}\frac{1}{\sqrt{1+(x_k-\bar x)^{T}cov_{xx}^{-1}(x_k-\bar x)}}$$ подчиняется нормализованному нормальному распределению. Здесь $n$ - объем выборки, $\bar x$ - вектор средних предикторов, $cov_{xx}^{-1}$ - обратная ковариационная матрица предикторов. Однако моделирование Монте-Карлой показало, что это справедливо только для $x_k=\bar x$, при удалении же от центра дисперсия этой статистики немного отличается от 1. Похоже, ошибка где-то во втором множителе, отвечающем за увеличение дисперсии при удалении предиктора от центра. Как он на самом деле должен выглядеть?

 Профиль  
                  
 
 Re: интервальная оценка линии регрессии
Сообщение22.11.2012, 16:50 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Пусть $Z(m\times n)$ - матрица плана, составленная из векторов-столбцов предикторов (с первой единичкой в роли множителя при $b_0$), а вектор $\vec{\beta}=(b_0,b_1,\ldots,b_{m-1})^T$ - вектор параметров регрессии, и $n$ - число наблюдений. Иными словами, вектор наблюдений $vec y=(y_1,\ldots,y_n)^T$ есть просто $\vec y = Z^T\beta +\vec \varepsilon$.

Тогда для матриц $Z$ ранга $m$ ОМНК равна $\hat{\vec \beta} = A^{-1}Z\vec y$, где $A=Z\cdot Z^T$.

Дальше,
$$\hat{\vec y} = Z^T\hat{\vec \beta} = Z^T A^{-1} Z \vec y =  $$
$$=Z^T A^{-1} Z (Z^T\beta +\vec \varepsilon)=Z^T\vec\beta+Z^T A^{-1} Z \vec \varepsilon.$$

Если вектор ошибок $\vec \varepsilon$ имеет многомерное нормальное распределение с нулевым вектором средних и матрицей ковариаций $\sigma^2 E_n$, где $E_n$ - единичная матрица, то вектор $\hat{\vec y}$ тоже имеет многомерное нормальное распределение со средним $Z^T\vec\beta = (f(x_1), \ldots, f(x_n))^T$ и матрицей ковариаций
$$\Sigma = Z^T A^{-1} Z \sigma^2 E_n (Z^T A^{-1} Z )^T = \sigma^2 Z^T A^{-1} Z. $$

Если в матрице $\sigma^2\Pi = \sigma^2 Z^T A^{-1} Z$ взять $k$-й элемент главной диагонали, то он и будет дисперсией $\hat y_k$, т.е.
$$ \dfrac{\hat y_k - f(x_k)}{\sigma\sqrt{\Pi_{kk}}} \ \sim \ N(0,1).$$

 Профиль  
                  
 
 Re: интервальная оценка линии регрессии
Сообщение22.11.2012, 17:17 


27/10/09
602
Спасибо за ответ! Две недели не мог найти ошибку, только сегодня нашел. У меня ковариационная матрица считалась с делителем $n-1$, т.е. все по правилам. Когда я домножил ее на $\frac{n-1}{n}$, то все начало получатся.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group