2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Кластеризация данных до и после PCA
Сообщение06.12.2012, 00:40 
Аватара пользователя
Всем привет! Подскажите, кто в курсе.
В чем разница в кластеризации данных до и после примения алгоритма PCA (Principal component analysis -метод главных компонент) к данным??
Для примера рассмотрим 2 случая.
Первый случай
Есть точки в трехнерном пространстве,
xAxi yAxis zAxis
3 5 4
5 6 4
4 5 4
4 6 4
3 7 4
5 5 4
3 6 4
4 7 4
применяя алгоритм K-Means кластеризации (пусть к = 3), получаем 3 кластера, то есть например
xAxis yAxis zAxis Cluster
3 5 4 1
5 6 4 2
4 5 4 1
4 6 4 1
3 7 4 2
5 5 4 3
3 6 4 3
4 7 4 3
Делаем проекцию данных xAxis yAxis zAxis на 2D, получаем новые дынные, используем уже найденный столбец Cluster, то есть получаем.
PC1 PC2 Cluster
2 3 1
2 3 2
2 5 1
4 6 1
3 7 2
5 5 3
6 3 3
6 7 3

Второй случай.
Имеем 3d даные
xAxis yAxis zAxis
3 5 4
5 6 4
4 5 4
4 6 4
3 7 4
5 5 4
3 6 4
4 7 4
Делаем проекцию данных xAxis yAxis zAxis на 2D, получаем новые дынные на плоскости,
PC1 PC2
2 3
2 3
2 5
4 6
3 7
5 5
6 3
6 7
К последним данным применяем алгоритм K-means (пусть k равно 4).
то есть
PC11 PC21 Cluster1
2 3 1
2 3 2
2 5 1
4 6 1
3 7 2
5 5 3
6 3 3
6 7 3
Таким образом, в последнем случае мы применили алгоритм кластеризации к данным, которые уже находятся в 2D простаранстве.

 
 
 
 Re: Кластеризация данных до и после PCA
Сообщение06.12.2012, 10:37 
Аватара пользователя
Цитата:
В чем разница в кластеризации данных до и после примения алгоритма PCA (Principal component analysis -метод главных компонент) к данным??

Уменьшаем число параметров, мы теряем информацию, но выигрываем в скорости.
Для примера возьми два кластера линейно не различимых, но различимых кусочно линейно.
И алгоритм кластеризации на основе Boost.

Тогда если мы применим метод главных компонент вначале, то не сможем сделать 100% разделение на кассеты. В отличии от второго варианта.

 
 
 
 Re: Кластеризация данных до и после PCA
Сообщение06.12.2012, 14:05 
Аватара пользователя
Я там опечатался, в обоих случаях используем k=3 для алгоритма K means.
Я построил картинки, в первом случаем у меня все кластеры имеют одиниковое кол-во элементов, а во втором случае разное

 
 
 [ Сообщений: 3 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group