Дамы и Господа! Чего-то я запутался, в разных учебниках для интервальной оценки линии регрессии даются разные формулы, однако ни одну из этих формул я не могу подтвердить.
Задача простая: есть многомерная выборка, размерность случайного вектора

, при этом первые

компонентов этого вектора являются предикторами (назовем их

), последний - отклик (назовем его

). Еще введем линейное уравнение с коэффициентами

и

- свободный. Тогда каждый

может быть записан как

, где

подчиняется нормальному распределению с центром 0 и стандартом

. При этом, зная значения

и

для каждого

можем записать расчетное значение

- величина неслучайная. Если же значения коэффициентов неизвестны, то оцениваем их по выборке, используя МНК- назовем оценки

. Тогда оценка

будет случайной величиной.
Основной вопрос - какому распределению подчиняется

? Один из вариантов был, например, такой

подчиняется нормализованному нормальному распределению. Здесь

- объем выборки,

- вектор средних предикторов,

- обратная ковариационная матрица предикторов. Однако моделирование Монте-Карлой показало, что это справедливо только для

, при удалении же от центра дисперсия этой статистики немного отличается от 1. Похоже, ошибка где-то во втором множителе, отвечающем за увеличение дисперсии при удалении предиктора от центра. Как он на самом деле должен выглядеть?