Мультиколлинеарность в регрессионном анализе

prof.uskov · 12/01/14 1127

Правильны ли следующие утверждения:

1. Мультиколлинеарность имеет два проявления:
а) чувствительность элементов обратной матрицы $(\mathbf F^T \mathbf F)^{-1}$ от разрядной сетки вычислений и погрешности элементов матрицы $\mathbf F^T \mathbf F$ , что приводит к неточности или вообще невозможности найти приемлемые решения для вектора параметров $\mathbf b=(\mathbf F^T \mathbf F)^{-1} \mathbf F^T \mathbf y$ ;
б) малое значение $det (\mathbf F^T \mathbf F )$ и как следствие большие элементы ковариационной матрицы $cov(\mathbf b)=\sigma^2(\mathbf F^T \mathbf F)^{-1}$ , т.е. большая дисперсия оценок коэффициентов регрессии.

а) и б) могут проявляться как отдельно, так и вместе.

2. Несмотря на то, что существует большое количество критериев мультиколлинеарности при использовании современных пакетов компьютерной математики целесообразно для выявления мультиколлинеарности идти следующим путем:
определяется число обусловленности матрицы $\mathbf F^T \mathbf F$ , в зависимости от результата выбирается соответствующая размерность разрядной сетки вычислений или вообще отказываются от вычислений данным методом, в виду их принципиальной неточности.
Если вычисления проводить целесообразно, то определяется ковариационная матрица $cov(\mathbf b)=\sigma^2(\mathbf F^T \mathbf F)^{-1}$ , на основе которой делается вывод о точности оценки коэффициентов регрессии.

Евгений Машеров · 11/03/08 9540 Москва

Не то, чтобы было сказано что-то неверное...
Но с точки зрения грубой практики ситуация, когда нужно использовать повышенную точность, встречается редко и почти всегда знаменует либо ошибку в алгоритме, либо неверный набор регрессоров. Как правило, double precision IEEE вполне достаточна, а это стандартный выбор для вычислений. Если матрица такова, что погрешности в последнем знаке влияют на результат, то ошибки в регрессанде вообще сделают коэффициенты бессмысленными.
Что до ковариационной матрицы для оценок, то её вычисление вообще стандартный промежуточный этап, поскольку она отличается от обратной к корреляционной лишь множителем. Хотя выдаётся обычно только её диагональная часть или корни из неё, стандартные ошибки оценок.

prof.uskov · 12/01/14 1127

Евгений Машеров, спасибо, еще пара вопросов:
1. Нужны ли теперь, когда у нас есть компьютер, все эти методы проверки мультиколлинеарности, ведь мы легко можем найти число обусловленности матрицы $\mathbf F^T \mathbf F$ или даже вообще провести имитационное моделирование, выяснив как погрешность регрессоров влияет на точность оценок.
2. Связаны ли два проявления мультиколлинеарности между собой, т.е. влечет ли плохая обусловленность матрицы $\mathbf F^T \mathbf F$ автоматически "взрыв" дисперсии оценок... и наоборот... или эти два явления могут проявляться независимо?

prof.uskov · 12/01/14 1127

prof.uskov в сообщении #1171186 писал(а):

2. Связаны ли два проявления мультиколлинеарности между собой, т.е. влечет ли плохая обусловленность матрицы $\mathbf F^T \mathbf F$ автоматически "взрыв" дисперсии оценок... и наоборот... или эти два явления могут проявляться независимо?

Кое-что придумал
Дисперсия параметров модели определяется формулой
$cov(\mathbf b)=\sigma^2(\mathbf F^T \mathbf F)^{-1}=\sigma^2 \mathbf A^{-1}=\sigma^2 \dfrac {A^{*T}}{det A}$
Для размерности 2

$\det A= \lambda_{\min}\lambda_{\max}$

А число обусловленности

$cond(A)= \lambda_{\max}/\lambda_{\min}$

Таким образом, вроде как, число обусловленности и величина определителя (а следовательно и $cov(\mathbf b)$ ) между собой прямой связи не имеют.

Научный форум dxdy

Правила форума

Мультиколлинеарность в регрессионном анализе

Кто сейчас на конференции