2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.



Начать новую тему Ответить на тему
 
 Нормировка данных при кластеризации
Сообщение17.07.2014, 20:58 
Аватара пользователя


20/07/11
8
У нас есть набор наблюдений представленный n-мерной величиной. Столкнулся в частности в библиотеке SciPy с рекомендацией что нужно нормировать каждый столбец относительно стандартного отклонения, до использования алгоритма кластеризации (использую kmeans). Хотел бы узнать с какой целью это делается?
PS
Если кто либо работал с данной библиотекой, имею ввиду сейчас функцию whiten.

 Профиль  
                  
 
 Re: Нормировка данных при кластеризации
Сообщение17.07.2014, 21:21 
Заслуженный участник
Аватара пользователя


11/03/08
10005
Москва
С целью устранить влияние на расстояния между точками выбора единиц измерения, достаточно произвольного.

 Профиль  
                  
 
 Re: Нормировка данных при кластеризации
Сообщение17.07.2014, 23:04 
Аватара пользователя


20/07/11
8
Если я правильно понял, то с целью лучше сформировать кластеры? Могли бы подсказать где можно посмотреть/почитать/узнать по данной теме больше?

 Профиль  
                  
 
 Re: Нормировка данных при кластеризации
Сообщение18.07.2014, 08:56 
Заслуженный участник
Аватара пользователя


11/03/08
10005
Москва
Ну, наверно, в любом учебнике по кластерному анализу.
Расстояния - они не инвариантны к изменениям масштаба отдельных компонентов. Давайте пример рассмотрим. Три барышни, Анна, Белла, Валя, ростом, соответственно, 155, 160 и 175 см и весом 50, 60 и 65 кг. Евклидовы расстояния будут r(А, Б)=11.18, r(А, В)=22.36, r(Б,В)=15.81. Если мы желаем получить два кластера, то, видимо, естественно объединить Анну и Беллу, а Валю считать сильно от них отличающейся.
Данные попадают к иностранному исследователю, первым делом пересчитывающим всё в дюймы и фунты (для простоты примем дюйм 2.5 см и фунт "метрический" 0.5 кг).
Ann - (62, 100), Bell - (64, 120), Val - (70, 130), r(A,B)=25.57, r(A,V)=30.89, r(B,V)=15.36
То есть для него два естественных кластера - Аня отдельно, а Белла и Валя вместе.
Однако выбор единицы измерения - произвол исследователя, но притом зависящий от произвола законодателя, установившего именно эти единицы (от длины ступни британского короля или от прочтённого французскими революционерами научпопа).
Стандартизация - перевод в некие условные единицы измерения, зависящие только от самих данных. Что не гарантирует, что результат правилен, но лишь что он не будет определяться случайностью выбора страны (и с нею национальной системы единиц) и что исследователь не сможет подогнать под ответ, выбрав метры, сантиметры или миллиметры и пр.
В принципе, для такой стандартизации годно не только стандартное отклонение, но и размах, среднее абсолютное отклонение или семиинтерквартильное расстояние. Важно, чтобы было единообразно. При этом размах слишком сильно зависит от единичных сильно отклоняющихся наблюдений, а семиинтерквартильное их вовсе не замечает. Возможно, среднее абсолютное лучше, чем среднеквадратическое, но и менее употребительно, а тут "лучше безобразно, но однообразно".

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 4 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group