2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Кластеризация данных до и после PCA
Сообщение06.12.2012, 00:40 
Аватара пользователя


24/10/05
400
Всем привет! Подскажите, кто в курсе.
В чем разница в кластеризации данных до и после примения алгоритма PCA (Principal component analysis -метод главных компонент) к данным??
Для примера рассмотрим 2 случая.
Первый случай
Есть точки в трехнерном пространстве,
xAxi yAxis zAxis
3 5 4
5 6 4
4 5 4
4 6 4
3 7 4
5 5 4
3 6 4
4 7 4
применяя алгоритм K-Means кластеризации (пусть к = 3), получаем 3 кластера, то есть например
xAxis yAxis zAxis Cluster
3 5 4 1
5 6 4 2
4 5 4 1
4 6 4 1
3 7 4 2
5 5 4 3
3 6 4 3
4 7 4 3
Делаем проекцию данных xAxis yAxis zAxis на 2D, получаем новые дынные, используем уже найденный столбец Cluster, то есть получаем.
PC1 PC2 Cluster
2 3 1
2 3 2
2 5 1
4 6 1
3 7 2
5 5 3
6 3 3
6 7 3

Второй случай.
Имеем 3d даные
xAxis yAxis zAxis
3 5 4
5 6 4
4 5 4
4 6 4
3 7 4
5 5 4
3 6 4
4 7 4
Делаем проекцию данных xAxis yAxis zAxis на 2D, получаем новые дынные на плоскости,
PC1 PC2
2 3
2 3
2 5
4 6
3 7
5 5
6 3
6 7
К последним данным применяем алгоритм K-means (пусть k равно 4).
то есть
PC11 PC21 Cluster1
2 3 1
2 3 2
2 5 1
4 6 1
3 7 2
5 5 3
6 3 3
6 7 3
Таким образом, в последнем случае мы применили алгоритм кластеризации к данным, которые уже находятся в 2D простаранстве.

 Профиль  
                  
 
 Re: Кластеризация данных до и после PCA
Сообщение06.12.2012, 10:37 
Аватара пользователя


31/10/08
1244
Цитата:
В чем разница в кластеризации данных до и после примения алгоритма PCA (Principal component analysis -метод главных компонент) к данным??

Уменьшаем число параметров, мы теряем информацию, но выигрываем в скорости.
Для примера возьми два кластера линейно не различимых, но различимых кусочно линейно.
И алгоритм кластеризации на основе Boost.

Тогда если мы применим метод главных компонент вначале, то не сможем сделать 100% разделение на кассеты. В отличии от второго варианта.

 Профиль  
                  
 
 Re: Кластеризация данных до и после PCA
Сообщение06.12.2012, 14:05 
Аватара пользователя


24/10/05
400
Я там опечатался, в обоих случаях используем k=3 для алгоритма K means.
Я построил картинки, в первом случаем у меня все кластеры имеют одиниковое кол-во элементов, а во втором случае разное

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 3 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group