2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 теор. дисперсия взаимных корреляций главных компонент
Сообщение02.05.2018, 15:11 


07/10/15

2400
Известно, что метод главных компонент "обнуляет" выборочные взаимные корреляции. Но это только на выборке, на генеральной совокупности, остаточные взаимные корреляции всё же остаются, и это легко проверить по контрольной выборке, что я и сделал.
По моим соображениям, так как главная компонента есть линейное преобразование исходных признаков, а коэффициенты этого преобразования определяются по той же выборке, то число степеней свободы для неё меньше, чем для исходных признаков. Учитывая это, теоретическую оценку дисперсии взаимной корреляции главных компонент можно записать как
$\sigma^2_R=\frac{1}{N-m-1}$, где $m$ - размерность исходного признакового пространства.

Согласно этому, при приближении размерности $m$ к объёму выборки $N$ дисперсия оценок $R$ увеличивается. Эффективность декорреляции снижается.

Однако численные эксперименты полностью этому противоречат. В соответствии с ними, теоретическая оценка дисперсии взвамных корреляций определяется как
$\sigma^2_R=\frac{1}{N-2}$ и вообще не зависит от размерности исходного признакового пространства.

Как всё это можно объяснить?

 Профиль  
                  
 
 Re: теор. дисперсия взаимных корреляций главных компонент
Сообщение06.05.2018, 17:40 


07/10/15

2400
В действительности выводы неверны. Дело в том, что в численном эксперименте использовался смоделированный белый шум. Очевидно, что никакое ортогонально преобразование не способно вызвать у него взаимные корреляции выше предела, определяемого $\sigma_R=\frac{1}{\sqrt{N-2}}$.

При исследовании реальных данных всё по другому. Соотношение объёма наблюдений и числа признаков имеет значение. Так, если признаков больше чем наблюдений, то корреляция наблюдается только у самых мощных главных компонент, а у остальных - нет.

Получается, доверительные интервалы взаимных корреляций зависят от соотношения мощностей главных компонент, но как это выразить не совсем понятно.

Вообще, задача сводится к анализу теоретической дисперсии скалярных произведений собственных векторов, так как они и определяют корреляции главных компонент.
У Айвазяна есть раздел про статистики главных компонент, где сказано, что собственные векторы распределены нормально с дисперсией
$var(v_i)=\lambda_i\sum\limits_{j=1}^{p}\frac{\lambda_j}{(\lambda_j-\lambda_i)^2}v_jv_j^T,           \forall      i \ne j$

Можно ли на основании этого получить выражение для $var(v_i^Tv_j)$, т.е. для дисперсии скалярного произведения?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group