теор. дисперсия взаимных корреляций главных компонент

Andrey_Kireew · 02.05.2018, 15:11

Известно, что метод главных компонент "обнуляет" выборочные взаимные корреляции. Но это только на выборке, на генеральной совокупности, остаточные взаимные корреляции всё же остаются, и это легко проверить по контрольной выборке, что я и сделал.
По моим соображениям, так как главная компонента есть линейное преобразование исходных признаков, а коэффициенты этого преобразования определяются по той же выборке, то число степеней свободы для неё меньше, чем для исходных признаков. Учитывая это, теоретическую оценку дисперсии взаимной корреляции главных компонент можно записать как
$\sigma^2_R=\frac{1}{N-m-1}$ , где $m$ - размерность исходного признакового пространства.

Согласно этому, при приближении размерности $m$ к объёму выборки $N$ дисперсия оценок $R$ увеличивается. Эффективность декорреляции снижается.

Однако численные эксперименты полностью этому противоречат. В соответствии с ними, теоретическая оценка дисперсии взвамных корреляций определяется как
$\sigma^2_R=\frac{1}{N-2}$ и вообще не зависит от размерности исходного признакового пространства.

Как всё это можно объяснить?

Andrey_Kireew · 06.05.2018, 17:40

В действительности выводы неверны. Дело в том, что в численном эксперименте использовался смоделированный белый шум. Очевидно, что никакое ортогонально преобразование не способно вызвать у него взаимные корреляции выше предела, определяемого $\sigma_R=\frac{1}{\sqrt{N-2}}$ .

При исследовании реальных данных всё по другому. Соотношение объёма наблюдений и числа признаков имеет значение. Так, если признаков больше чем наблюдений, то корреляция наблюдается только у самых мощных главных компонент, а у остальных - нет.

Получается, доверительные интервалы взаимных корреляций зависят от соотношения мощностей главных компонент, но как это выразить не совсем понятно.

Вообще, задача сводится к анализу теоретической дисперсии скалярных произведений собственных векторов, так как они и определяют корреляции главных компонент.
У Айвазяна есть раздел про статистики главных компонент, где сказано, что собственные векторы распределены нормально с дисперсией
$var(v_i)=\lambda_i\sum\limits_{j=1}^{p}\frac{\lambda_j}{(\lambda_j-\lambda_i)^2}v_jv_j^T, \forall i \ne j$

Можно ли на основании этого получить выражение для $var(v_i^Tv_j)$ , т.е. для дисперсии скалярного произведения?

Научный форум dxdy

теор. дисперсия взаимных корреляций главных компонент