2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 теор. дисперсия взаимных корреляций главных компонент
Сообщение02.05.2018, 15:11 
Известно, что метод главных компонент "обнуляет" выборочные взаимные корреляции. Но это только на выборке, на генеральной совокупности, остаточные взаимные корреляции всё же остаются, и это легко проверить по контрольной выборке, что я и сделал.
По моим соображениям, так как главная компонента есть линейное преобразование исходных признаков, а коэффициенты этого преобразования определяются по той же выборке, то число степеней свободы для неё меньше, чем для исходных признаков. Учитывая это, теоретическую оценку дисперсии взаимной корреляции главных компонент можно записать как
$\sigma^2_R=\frac{1}{N-m-1}$, где $m$ - размерность исходного признакового пространства.

Согласно этому, при приближении размерности $m$ к объёму выборки $N$ дисперсия оценок $R$ увеличивается. Эффективность декорреляции снижается.

Однако численные эксперименты полностью этому противоречат. В соответствии с ними, теоретическая оценка дисперсии взвамных корреляций определяется как
$\sigma^2_R=\frac{1}{N-2}$ и вообще не зависит от размерности исходного признакового пространства.

Как всё это можно объяснить?

 
 
 
 Re: теор. дисперсия взаимных корреляций главных компонент
Сообщение06.05.2018, 17:40 
В действительности выводы неверны. Дело в том, что в численном эксперименте использовался смоделированный белый шум. Очевидно, что никакое ортогонально преобразование не способно вызвать у него взаимные корреляции выше предела, определяемого $\sigma_R=\frac{1}{\sqrt{N-2}}$.

При исследовании реальных данных всё по другому. Соотношение объёма наблюдений и числа признаков имеет значение. Так, если признаков больше чем наблюдений, то корреляция наблюдается только у самых мощных главных компонент, а у остальных - нет.

Получается, доверительные интервалы взаимных корреляций зависят от соотношения мощностей главных компонент, но как это выразить не совсем понятно.

Вообще, задача сводится к анализу теоретической дисперсии скалярных произведений собственных векторов, так как они и определяют корреляции главных компонент.
У Айвазяна есть раздел про статистики главных компонент, где сказано, что собственные векторы распределены нормально с дисперсией
$var(v_i)=\lambda_i\sum\limits_{j=1}^{p}\frac{\lambda_j}{(\lambda_j-\lambda_i)^2}v_jv_j^T,           \forall      i \ne j$

Можно ли на основании этого получить выражение для $var(v_i^Tv_j)$, т.е. для дисперсии скалярного произведения?

 
 
 [ Сообщений: 2 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group