2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Метод главных компонент
Сообщение03.07.2011, 13:48 


25/06/11
7
Хочется его понять. Можно начать с интуитивного подхода, с двумя переменными. Рисунок на плоскости.

Изображение

Вот текст, в котором то что не понятно, я выделил синим.

Каждой строке исходной таблицы (т.е. образцу) соответствует точка на плоскости с соответствующими координатами. Они обозначены пустыми кружками на Рис. 2. Проведем через них прямую, так, чтобы вдоль нее происходило максимальное изменение данных. На рисунке эта прямая выделена синим цветом; она называется первой главной компонентой - PC1. Затем спроецируем все исходные точки на эту ось. Получившиеся точки закрашены красным цветом. Теперь мы можем предположить, что на самом деле все наши экспериментальные точки и должны были лежать на этой новой оси. Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место. Тогда все отклонения от новой оси можно считать шумом, т.е. ненужной нам информацией. Правда, мы должны быть в этом уверены. Проверить шум ли это, или все еще важная часть данных, можно поступив с этими остатками так же, как мы поступили с исходными данными - найти в них ось максимальных изменений. Она называется второй главной компонентой (PC2). И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин.

А как дальше так действовать -- не понятно. Как мы вообще убедимся -- шум это или важная часть данных?

(Оффтоп)


 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение03.07.2011, 18:40 
Заблокирован
Аватара пользователя


17/06/09

2213
Замечательные перлы! Интересно, где вы таких "авторов" раскапываете? Почитайте про МНК, регрессию и коэффициент детерминации.

-- Вс июл 03, 2011 19:41:46 --

(Оффтоп)

econ_best в сообщении #464668 писал(а):
Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место.
:lol:

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение03.07.2011, 19:40 


25/06/11
7
age в сообщении #464771 писал(а):
Замечательные перлы! Интересно, где вы таких "авторов" раскапываете? Почитайте про МНК, регрессию и коэффициент детерминации.

-- Вс июл 03, 2011 19:41:46 --

(Оффтоп)

econ_best в сообщении #464668 писал(а):
Просто какие-то неведомые силы отклонили их от правильного, идеального положения, а мы вернули их на место.
:lol:


Хорошо, спасибо) Я прочитал, имею представление о "МНК, регрессии и коэффициенте детерминации".
Есть ли места в интернете, в которых хорошо описан метод главных компонент?)

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение03.07.2011, 21:41 
Заблокирован
Аватара пользователя


17/06/09

2213
econ_best в сообщении #464790 писал(а):
Я прочитал, имею представление о "МНК, регрессии и коэффициенте детерминации".
Тогда вы должны знать, что это и есть т.н. "метод главных компонент" в транскрипции авторов.

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение05.07.2011, 15:03 
Заслуженный участник


15/05/05
3445
USA
econ_best в сообщении #464668 писал(а):
Хочется его понять.

Начните хотя бы отсюда: Метод главных компонент в Википедии

Качественно 2-мерный случай можно рассматривать так:
Пусть Ваши данные представлены облаком точек на плоскости. Если это облако имеет форму круга, то метод применять бесполезно. Но если форма облака - вытянутый эллипсоид, то можно попробовать ввести новую систему координат, привязанную к осям эллипса. Тогда основное изменение данных (дисперсия выборки) будет связано с новой координатой вдоль большой оси эллипса (главная компонента). А изменением вдоль малой оси можно пренебречь.

Важная проблема - интерпретация МГК: если исходные координаты имеют более-менее ясный физический (экономический) смысл, то смысл новых координат нужно как-то объяснить.

Нужно помнить, что МГК - это линейный метод. Если Ваше облако - явно не круг, но и не эллипсоид, а, скажем, "банан", то сначала нужно перейти к другой, криволинейной системе координат, в которой "банан" станет эллипсом, а потом уже применять МГК (получится нелинейный МГК).

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение05.07.2011, 20:51 


25/06/11
7
Yuri Gendelman

Спасибо!

В Википедии сложно написано, там пишется "через многообразия".

Я понял ваше объяснение, но не понял -- чем МНК отличается от МГК?

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение05.07.2011, 22:02 
Заслуженный участник


15/05/05
3445
USA
econ_best в сообщении #465529 писал(а):
Я понял ваше объяснение, но не понял -- чем МНК отличается от МГК?
То есть мое объяснение Вы на самом деле не поняли.

Кратко: в 2-мерном случае
- цель МНК - найти формулу связи между $X$ и $Y$, с помощью которой можно достаточно точно вычислять $Y$ по известному $X$.
- цель МГК - найти новые параметры $X^{new}, Y^{new}$, которые можно определить по известным $X, Y$, такие, что для данного набора точек значения Y^{new}$ будут практически одними и теми же, а все различия будут сосредоточены в параметре $X^{new}$ - главной компоненте.

В статье из Википедии есть ссылка на онлайн-руководство Алексея Померанцева по МГК. Попробуйте в нем разобраться.

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение06.07.2011, 22:25 


25/06/11
7
Yuri Gendelman в сообщении #465575 писал(а):
econ_best в сообщении #465529 писал(а):
Я понял ваше объяснение, но не понял -- чем МНК отличается от МГК?
То есть мое объяснение Вы на самом деле не поняли.

Кратко: в 2-мерном случае
- цель МНК - найти формулу связи между $X$ и $Y$, с помощью которой можно достаточно точно вычислять $Y$ по известному $X$.
- цель МГК - найти новые параметры $X^{new}, Y^{new}$, которые можно определить по известным $X, Y$, такие, что для данного набора точек значения Y^{new}$ будут практически одними и теми же, а все различия будут сосредоточены в параметре $X^{new}$ - главной компоненте.

В статье из Википедии есть ссылка на онлайн-руководство Алексея Померанцева по МГК. Попробуйте в нем разобраться.


Спасибо, как раз по этому руководству я и задал вопрос в начале темы! Допустим мы мы выбрали первую главную компоненту и вторую. Но что значит "И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин." - это я не понял. Нужно минимизировать отклонение от первой главной компоненты?!

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение06.07.2011, 23:05 
Заслуженный участник


15/05/05
3445
USA
econ_best в сообщении #465907 писал(а):
Допустим мы мы выбрали первую главную компоненту и вторую. Но что значит "И так надо действовать, до тех пор, пока шум уже не станет действительно шумом, т.е. случайным хаотическим набором величин." - это я не понял. Нужно минимизировать отклонение от первой главной компоненты?!
Находите 1-ю ГК. Затем строите отклонения от прямой ГК1. Если эти отклонения - не шум, то строите 2-ю ГК, перпендикулярную ГК1, и отклонения от плоскости ГК1-ГК2. Если и эти отклонения - не шум, то строите 3-ю ГК, перпендикулярную ГК1 и ГК2, и отклонения от подпространства ГК1-ГК2-ГК3.
И т.д.

 Профиль  
                  
 
 Re: Метод главных компонент
Сообщение07.07.2011, 15:39 


22/09/09
374
econ_best
Используйте МНК.
Взяли коэффициент корреляции исходных данных, если он значим (есть критерии для проверки значимости), то строим один тренд. Потом берем остатки, опять смотрим на коэффициент корреляции и т.д. до незначимости коэффициента корреляции.
А вообще, для качественного анализа нужно еще рассматривать зависимость одного например одного отклонения (из остатков) от другого. нелинейные тренды проверять и еще очень много чего. Все зависит от ситуации.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group