2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Нормировка данных при кластеризации
Сообщение17.07.2014, 20:58 
Аватара пользователя
У нас есть набор наблюдений представленный n-мерной величиной. Столкнулся в частности в библиотеке SciPy с рекомендацией что нужно нормировать каждый столбец относительно стандартного отклонения, до использования алгоритма кластеризации (использую kmeans). Хотел бы узнать с какой целью это делается?
PS
Если кто либо работал с данной библиотекой, имею ввиду сейчас функцию whiten.

 
 
 
 Re: Нормировка данных при кластеризации
Сообщение17.07.2014, 21:21 
Аватара пользователя
С целью устранить влияние на расстояния между точками выбора единиц измерения, достаточно произвольного.

 
 
 
 Re: Нормировка данных при кластеризации
Сообщение17.07.2014, 23:04 
Аватара пользователя
Если я правильно понял, то с целью лучше сформировать кластеры? Могли бы подсказать где можно посмотреть/почитать/узнать по данной теме больше?

 
 
 
 Re: Нормировка данных при кластеризации
Сообщение18.07.2014, 08:56 
Аватара пользователя
Ну, наверно, в любом учебнике по кластерному анализу.
Расстояния - они не инвариантны к изменениям масштаба отдельных компонентов. Давайте пример рассмотрим. Три барышни, Анна, Белла, Валя, ростом, соответственно, 155, 160 и 175 см и весом 50, 60 и 65 кг. Евклидовы расстояния будут r(А, Б)=11.18, r(А, В)=22.36, r(Б,В)=15.81. Если мы желаем получить два кластера, то, видимо, естественно объединить Анну и Беллу, а Валю считать сильно от них отличающейся.
Данные попадают к иностранному исследователю, первым делом пересчитывающим всё в дюймы и фунты (для простоты примем дюйм 2.5 см и фунт "метрический" 0.5 кг).
Ann - (62, 100), Bell - (64, 120), Val - (70, 130), r(A,B)=25.57, r(A,V)=30.89, r(B,V)=15.36
То есть для него два естественных кластера - Аня отдельно, а Белла и Валя вместе.
Однако выбор единицы измерения - произвол исследователя, но притом зависящий от произвола законодателя, установившего именно эти единицы (от длины ступни британского короля или от прочтённого французскими революционерами научпопа).
Стандартизация - перевод в некие условные единицы измерения, зависящие только от самих данных. Что не гарантирует, что результат правилен, но лишь что он не будет определяться случайностью выбора страны (и с нею национальной системы единиц) и что исследователь не сможет подогнать под ответ, выбрав метры, сантиметры или миллиметры и пр.
В принципе, для такой стандартизации годно не только стандартное отклонение, но и размах, среднее абсолютное отклонение или семиинтерквартильное расстояние. Важно, чтобы было единообразно. При этом размах слишком сильно зависит от единичных сильно отклоняющихся наблюдений, а семиинтерквартильное их вовсе не замечает. Возможно, среднее абсолютное лучше, чем среднеквадратическое, но и менее употребительно, а тут "лучше безобразно, но однообразно".

 
 
 [ Сообщений: 4 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group