Ну, наверно, в любом учебнике по кластерному анализу. Расстояния - они не инвариантны к изменениям масштаба отдельных компонентов. Давайте пример рассмотрим. Три барышни, Анна, Белла, Валя, ростом, соответственно, 155, 160 и 175 см и весом 50, 60 и 65 кг. Евклидовы расстояния будут r(А, Б)=11.18, r(А, В)=22.36, r(Б,В)=15.81. Если мы желаем получить два кластера, то, видимо, естественно объединить Анну и Беллу, а Валю считать сильно от них отличающейся. Данные попадают к иностранному исследователю, первым делом пересчитывающим всё в дюймы и фунты (для простоты примем дюйм 2.5 см и фунт "метрический" 0.5 кг). Ann - (62, 100), Bell - (64, 120), Val - (70, 130), r(A,B)=25.57, r(A,V)=30.89, r(B,V)=15.36 То есть для него два естественных кластера - Аня отдельно, а Белла и Валя вместе. Однако выбор единицы измерения - произвол исследователя, но притом зависящий от произвола законодателя, установившего именно эти единицы (от длины ступни британского короля или от прочтённого французскими революционерами научпопа). Стандартизация - перевод в некие условные единицы измерения, зависящие только от самих данных. Что не гарантирует, что результат правилен, но лишь что он не будет определяться случайностью выбора страны (и с нею национальной системы единиц) и что исследователь не сможет подогнать под ответ, выбрав метры, сантиметры или миллиметры и пр. В принципе, для такой стандартизации годно не только стандартное отклонение, но и размах, среднее абсолютное отклонение или семиинтерквартильное расстояние. Важно, чтобы было единообразно. При этом размах слишком сильно зависит от единичных сильно отклоняющихся наблюдений, а семиинтерквартильное их вовсе не замечает. Возможно, среднее абсолютное лучше, чем среднеквадратическое, но и менее употребительно, а тут "лучше безобразно, но однообразно".
|