Hi All!
Господа, тут возник такой вопрос.
Хочу выдать на избиение рассуждения посвященные постановке задачи кластеризации.
Причина, в одной из веток
http://dxdy.ru/topic35379.html я поднял тему решения задачи кластеризации методом генетических алгоритмов. Худо бедно, задача была решена, заказчика как говорится все удовлетворило, но не удовлетворило меня.
Фактически все первоисточники посвященные кластерному анализу фокусируются на алгоритмическом подходе к процедуре кластеризации, т.е. формируется алгоритм интуитивно удовлетворяющий понятию разбиения элементов на группы. Все алгоритмы имеют те или иные допуски, скажем о структуре групп, кол-ве кластеров, первичном разбиении и т.д. Фактически, если мы меняем первичные допуски или скажем они ошибочны, относительно данных подлежащих кластеризации, то мы получаем отличный от уже имеющегося результат. Да, до какой-то степени результаты буду схоже, в каком-то приближении даже идентичны. Но они все же будут отличаться. Мне кажется это не правильно.
Любая группа данных, не зависимо от первичных допущений должна иметь одну и туже кластерную структуру, скажем так.
1. Среднее внутрикластерное расстояние должно стремиться к min
2. Среднее межкластерное расстояние должно стремиться к max
где
- расстояние между двумя объектами
- кластера
Т.е. при
будет достигаться "лучшее разбиение" на кластеры
В чем я не прав?
Я не смог найти ни одного алгоритма кластеризации, который бы использовал такую постановку задачи для получения "лучшего варианта" кластеризации ... Возможно плохо искал.