2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Метод главных компонент
Сообщение03.07.2011, 13:48 


25/06/11
7
Хочется его понять. Можно начать с интуитивного подхода, с двумя переменными. Рисунок на плоскости.

Изображение

Вот текст, в котором то что не понятно, я выделил синим.

Каждой строке исходной таблицы (т.е. образцу) соответствует точка на плоскости с соответствующими координатами. Они обозначены пустыми кружками на Рис. 2. Проведем через них прямую, так, чтобы вдоль нее происходило максимальное изменение данных. На рисунке эта прямая выделена синим цветом; она называется первой главной компонентой - PC1. Затем спроецируем все исходные точки на эту ось. Получившиеся точки закрашены красным цветом. Теперь мы можем предположить, что на самом деле все наши экспериментальные точки и должны были лежать на этой новой оси. Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место. Тогда все отклонения от новой оси можно считать шумом, т.е. ненужной нам информацией. Правда, мы должны быть в этом уверены. Проверить шум ли это, или все еще важная часть данных, можно поступив с этими остатками так же, как мы поступили с исходными данными - найти в них ось максимальных изменений. Она называется второй главной компонентой (PC2). И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин.

А как дальше так действовать -- не понятно. Как мы вообще убедимся -- шум это или важная часть данных?

(Оффтоп)


 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение03.07.2011, 18:40 
Заблокирован
Аватара пользователя


17/06/09

2213
Замечательные перлы! Интересно, где вы таких "авторов" раскапываете? Почитайте про МНК, регрессию и коэффициент детерминации.

-- Вс июл 03, 2011 19:41:46 --

(Оффтоп)

econ_best в сообщении #464668 писал(а):
Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место.
:lol:

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение03.07.2011, 19:40 


25/06/11
7
age в сообщении #464771 писал(а):
Замечательные перлы! Интересно, где вы таких "авторов" раскапываете? Почитайте про МНК, регрессию и коэффициент детерминации.

-- Вс июл 03, 2011 19:41:46 --

(Оффтоп)

econ_best в сообщении #464668 писал(а):
Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место.
:lol:


Хорошо, спасибо) Я прочитал, имею представление о "МНК, регрессии и коэффициенте детерминации".
Есть ли места в интернете, в которых хорошо описан метод главных компонент?)

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение03.07.2011, 21:41 
Заблокирован
Аватара пользователя


17/06/09

2213
econ_best в сообщении #464790 писал(а):
Я прочитал, имею представление о "МНК, регрессии и коэффициенте детерминации".
Тогда вы должны знать, что это и есть т.н. "метод главных компонент" в транскрипции авторов.

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение05.07.2011, 15:03 
Заслуженный участник


15/05/05
3445
USA
econ_best в сообщении #464668 писал(а):
Хочется его понять.

Начните хотя бы отсюда: Метод главных компонент в Википедии

Качественно 2-мерный случай можно рассматривать так:
Пусть Ваши данные представлены облаком точек на плоскости. Если это облако имеет форму круга, то метод применять бесполезно. Но если форма облака - вытянутый эллипсоид, то можно попробовать ввести новую систему координат, привязанную к осям эллипса. Тогда основное изменение данных (дисперсия выборки) будет связано с новой координатой вдоль большой оси эллипса (главная компонента). А изменением вдоль малой оси можно пренебречь.

Важная проблема - интерпретация МГК: если исходные координаты имеют более-менее ясный физический (экономический) смысл, то смысл новых координат нужно как-то объяснить.

Нужно помнить, что МГК - это линейный метод. Если Ваше облако - явно не круг, но и не эллипсоид, а, скажем, "банан", то сначала нужно перейти к другой, криволинейной системе координат, в которой "банан" станет эллипсом, а потом уже применять МГК (получится нелинейный МГК).

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение05.07.2011, 20:51 


25/06/11
7
Yuri Gendelman

Спасибо!

В Википедии сложно написано, там пишется "через многообразия".

Я понял ваше объяснение, но не понял -- чем МНК отличается от МГК?

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение05.07.2011, 22:02 
Заслуженный участник


15/05/05
3445
USA
econ_best в сообщении #465529 писал(а):
Я понял ваше объяснение, но не понял -- чем МНК отличается от МГК?
То есть мое объяснение Вы на самом деле не поняли.

Кратко: в 2-мерном случае
- цель МНК - найти формулу связи между $X$ и $Y$, с помощью которой можно достаточно точно вычислять $Y$ по известному $X$.
- цель МГК - найти новые параметры $X^{new}, Y^{new}$, которые можно определить по известным $X, Y$, такие, что для данного набора точек значения Y^{new}$ будут практически одними и теми же, а все различия будут сосредоточены в параметре $X^{new}$ - главной компоненте.

В статье из Википедии есть ссылка на онлайн-руководство Алексея Померанцева по МГК. Попробуйте в нем разобраться.

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение06.07.2011, 22:25 


25/06/11
7
Yuri Gendelman в сообщении #465575 писал(а):
econ_best в сообщении #465529 писал(а):
Я понял ваше объяснение, но не понял -- чем МНК отличается от МГК?
То есть мое объяснение Вы на самом деле не поняли.

Кратко: в 2-мерном случае
- цель МНК - найти формулу связи между $X$ и $Y$, с помощью которой можно достаточно точно вычислять $Y$ по известному $X$.
- цель МГК - найти новые параметры $X^{new}, Y^{new}$, которые можно определить по известным $X, Y$, такие, что для данного набора точек значения Y^{new}$ будут практически одними и теми же, а все различия будут сосредоточены в параметре $X^{new}$ - главной компоненте.

В статье из Википедии есть ссылка на онлайн-руководство Алексея Померанцева по МГК. Попробуйте в нем разобраться.


Спасибо, как раз по этому руководству я и задал вопрос в начале темы! Допустим мы мы выбрали первую главную компоненту и вторую. Но что значит "И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин." - это я не понял. Нужно минимизировать отклонение от первой главной компоненты?!

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение06.07.2011, 23:05 
Заслуженный участник


15/05/05
3445
USA
econ_best в сообщении #465907 писал(а):
Допустим мы мы выбрали первую главную компоненту и вторую. Но что значит "И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин." - это я не понял. Нужно минимизировать отклонение от первой главной компоненты?!
Находите 1-ю ГК. Затем строите отклонения от прямой ГК1. Если эти отклонения - не шум, то строите 2-ю ГК, перпендикулярную ГК1, и отклонения от плоскости ГК1-ГК2. Если и эти отклонения - не шум, то строите 3-ю ГК, перпендикулярную ГК1 и ГК2, и отклонения от подпространства ГК1-ГК2-ГК3.
И т.д.

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение07.07.2011, 15:39 


22/09/09
374
econ_best
Используйте МНК.
Взяли коэффициент корреляции исходных данных, если он значим (есть критерии для проверки значимости), то строим один тренд. Потом берем остатки, опять смотрим на коэффициент корреляции и т.д. до незначимости коэффициента корреляции.
А вообще, для качественного анализа нужно еще рассматривать зависимость одного например одного отклонения (из остатков) от другого. нелинейные тренды проверять и еще очень много чего. Все зависит от ситуации.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group