ЗадачаЗдравствуйте. Передо мной стоит задача классификации 613 гидрометеорологических постов по характеру внутригодовых изменений двух определенных показателей. Количество классов заранее неизвестно. На вход подаются среднемесячные величины этих двух показателей, осреднённые за многолетний период. Таким образом, размер входных данных - 613x24.
Графики внутригодовых изменений обеих величин:
Опыт показывает, что для больших территорий обычно удаётся выделить несколько более плотных групп постов со схожим гидрометеорологическим режимом. В связи с этим предпочтение отдаётся
иерархическим методам кластерного анализа. Поскольку методов и метрик много, особое внимание уделяется поиску наиболее оптимального разбиения (классификации).
МетодологияМетоды классификации:
метод Уорда,
метод полной связи (последний - с более чем
двадцатью различными метриками).
Количество классов:
.
Критерий качества классификации: функционал качества
, основанный на общей концепции степенных средних, разработанных А. Н. Колмогоровым (цитируется по
И. Мандель. Кластерный анализ, М.: 1988, с. 90) - комбинация
(средняя степенная мера внутриклассового рассеяния) и
(средняя степенная мера концентрации точек):
где
- показатель степени (принят равным 2),
- общее количество классов в данном разбиении,
- конкретный класс в данном разбиении,
- количество элементов в классе
,
- сумма попарных евклидовых расстояний (возведённых в
) среди элементов конкретного класса.
характеризует внутриклассовое рассеяние и является убывающей функцией от
.
подавляет тенденцию к излишней детализации и увеличивается с
. Эти две противоположных тенденции уравновешиваются в функционале
. Поиск глобального минимума
позволил бы найти наиболее оптимальное количество классов и наиболее оптимальное разбиение.
РезультатыНа рисунке представлены графики
, полученые для различных методов и метрик:
Выводы, которые я могу сделать из этого графика:
1. Метод Уорда показал наихудшие результаты среди всех рассмотренных методов;
2. Глобальный минимум (
, метод полной связи, расстояние Чебышева) соответствует вырожденному случаю классификации (один мегакласс с более чем 600 элементами и ещё 4 микрокласса с 1 элементом в каждом).
3. Глобальный минимум (
, метод полной связи, расстояние Чебышева) очень близок к минимумам подавляющего числа графиков
(
), что, по-видимому, означает, что
наилучшая классификация - это отсутствие какой-либо разбиения вообще?
ВопросВывод о том, что представленные материалы в принципе не поддаются классификации, является для меня неожиданным и противоречит предыдущему опыту. Я хотел бы получить подтверждение этого с помощью альтернативных методов
классификации без учителя. Может быть, иерархический кластерный анализ не применим к этим данным? Пожалуйста, посоветуйте подходящие по Вашему мнению методы. Также я буду очень признателен, если кто-то сможет проанализировать
эти данные самостоятельно и поделиться результатами.