Уважаемые коллеги, мой вопрос лежит на стыке математики и социологии. Т. е. «чистая» математика тут не совсем уместна. Нужно учитывать поправку на социологическую специфику. Т.е. корректность как математическую, так и социологическую.
Обращаюсь к Вам по вопросу применения кластерного анализа и корректности его результатов. Передо мной встала следующая проблема.
Есть 58 суждений измеренных в порядковой 3-х членной шкале (3 – согласен, 2 – сложно сказать, 1 – не согласен). На основе этих суждений необходимо выделить типы респондентов (массив 2019 человек). Обработка данных производится в программе SPSS. Заранее допустить, сколько таких кластеров может быть, не представляется возможным. Поэтому кластеризация сугубо эксплураторная.
Данные суждения почему-то слабо между собой коррелированны, поэтому факторный анализ тут не идёт. Не получается так, чтобы строить кластеры по факторам. Остется следующие способы кластеризации:
1. Провести вначале кластеризацию признаков. Построить по ним индексы (как это делать корректно – отдельный вопрос). А уж потом, по данным индексам строить кластеры респондентов.
2. Строить кластеры непосредственно по всем 58 признакам.
Тут встаёт вопрос о том, каким именно алгоритмом пользоваться - к-минзом или же иерархическим КА?
История моего анализа данных выглядит следующим образом.
Поскольку данные 58 суждений не коррелируют между собой - факторы построить нет никакой возможности. Если брать все суждения – получалось 18 факторов, которые все вместе объясняли 51% дисперсии. Кстати, сами факторы трудно было как-либо объяснить – на каждый из факторов приходилось, в среднем, 2 – 3 признака.
Вернее, факторное решение и можно было бы сделать, но для этого надо было выкинуть половину суждений. Что и сделал один мой коллега. Выбраковывал суждения по результатам корреляционной матрицы. Для факторного решения были отобраны лишь те суждения, которые наиболее сильно друг с другом коррелировали. Самих же факторов получилось 8, интерпретируемых по смыслу только первые 4. Все 8 факторов объясняли 49,5% дисперсии. Но тут встал вопрос – А остальные суждения куда девать? Неужто выкинуть?
Для начала я их выкинул. По получившимся факторам построил кластерное решение. Получилось 4 кластера. Однако… Когда я сделал двумерки (суждения, что вошли в факторы с нагрузкой >= 0.4) то оказалось, что распределение никакое. Т. е. если данный фактор определял лицо кластера, то суждения, в него входившие, почему-то разделялись в другом кластере. Поэтому, такое решения Я забраковал.
Решил строить по сырым признакам. Т.е. по всем 58. К сожалению, я не заметил, что в иерархическом КА можно сохранять кластерные решения. И делал так: делал иерархический КА, по агломиреёшен скедьюл определял число кластеров и выделял их к-минзом. Затем получившиеся кластеры сопоставлял с суждениями. В результате у меня вызрело 5-кластерное решение, которое вполне интерпретируемое. Я уже собирался плясать от этой печки, но, увы, путь познания неизбежен... Я узнал больше о кластерном анализе, и оказалось, что делаю Я всё не правильно. Если Я не знаю оптимального числа кластеров – то должен Я их выделять только КА и никак иначе. Так, во всяком случае, Я понял из некоторой прочитанной мной литературы и советов коллег.
Выделил Я кластеры Иерархическим КА. Пользовался Я Вард-методом и эвклидовым расстоянием. На этом следует остановиться особо. Дело в том, что один мой коллега, с которым Я общался по этому поводу в Интернете, на одном из форумов, сказал, что эвклидово расстояние тут не должно работать. Но почему нет, и какое именно должно тут применять не уточнил. Искренне надеюсь получить у Вас разъяснения по этому вопросу.
В результате, получилось у меня 6 кластеров. 5 из них почти повторяли кластеризацию К-минз, а один, вообще ничем себя не проявлял и ничем не отличался от массива. Причём он у меня появлялся при всех вариантах кластеризации, при иерархическом КА.
Некоторые из моих коллег, говорили, что прежде, чем заниматься кластеризацией, нужно иметь некую структуру данных. Она должна быть либо теоретической, заранее предусмотренной гипотезами, либо эмпирической. Честно говоря, Я не совсем понял этот момент, и очень хотелось бы его прояснить. Что значит - структура данных, и как её получают? Есть ли соответствующие работы, где бы чётко был прояснён данный момент?
Дело в том, что, когда В. А. Ядов проводил своё исследование особенностей функционирования диспозиционной структуры личности (Саморегуляция и прогнозирование социального поведения личности / Под ред. В. А. Ядова. Л., 1979) - типы ценностных ориентаций он выделял по всем 36 ценностям непосредственно (как по терминальным, так и по инструментальным). И, насколько Я понял, никакой такой структуры у него не было. И выделял он кластеры, в принципе, наобум, отбирая только наиболее приемлемое решение (таковым оказалось 8-ми кластерное).
В конце концов, я решил построить кластер по опредёлённым индексам – укрупнённым признакам. Поскольку корреляции не шли, стал кластеризировать признаки, а не респондентов. У меня получилось 4 смысловых кластера. В каждый из кластеров входило разное количество суждений. По каждому из этих кластеров я построил индексы.
Строилось это так: суммировались ответы по суждениям. Получившиеся сырые баллы разбивались на 5-членную шкалу. Границы между баллами определялись в соответствии с площадью кривой нормального распределения. Затем, уже по видоизменённым признакам, строились кластеры.
Тут тоже не обошлось без сюрприза. Самым оптимальным вышло 6-ти кластерное решение. На это раз Я пользовался только иерархическим КА. Так вот, и в этом решении у меня получился «пустой» кластер. По всем 4-м индексам, средние значения были ниже, чем средние по массиву в целом.
Одна из моих коллег говорит, что и этот способ не корректен. И самый точный КА – это КА по сырым признакам.
Один мой коллега, с которым я общался в Интернете, по поводу возникновения «пустого» кластера, говорил, что он в одной статье встретил точку зрения, что кластерные решения всегда должны содержать неклассифицируемый мусор, который надо уметь предварительно сепарировать. К сожалению, данная мысль развития не получила. И я не смог понять, где же граница между нормальным и техническим объединением признаков? И как это распознавать, а распознав – отфильтровывать и получить нормальное кластерное решение?
Как тут быть – Я не знаю. И это самая главная проблема, которая стоит передо мной.
Я хочу получить нормальное кластерное решение: теоретически интерпретируемое и корректное с научной точки зрения.
Что бы Вы могли тут порекомендовать?
Вот, собственно, и всё. Надеюсь, что не сильно растянул.
Хотелось бы услышать Ваши рекомендации и пожелания, уважаемые коллеги.
С уважением. Rebys.
e-mail:
rebys@rambler.ru