2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Корректный кластерный анализ в социологии
Сообщение25.09.2005, 19:02 
Уважаемые коллеги, мой вопрос лежит на стыке математики и социологии. Т. е. «чистая» математика тут не совсем уместна. Нужно учитывать поправку на социологическую специфику. Т.е. корректность как математическую, так и социологическую.
Обращаюсь к Вам по вопросу применения кластерного анализа и корректности его результатов. Передо мной встала следующая проблема.
Есть 58 суждений измеренных в порядковой 3-х членной шкале (3 – согласен, 2 – сложно сказать, 1 – не согласен). На основе этих суждений необходимо выделить типы респондентов (массив 2019 человек). Обработка данных производится в программе SPSS. Заранее допустить, сколько таких кластеров может быть, не представляется возможным. Поэтому кластеризация сугубо эксплураторная.
Данные суждения почему-то слабо между собой коррелированны, поэтому факторный анализ тут не идёт. Не получается так, чтобы строить кластеры по факторам. Остется следующие способы кластеризации:
1. Провести вначале кластеризацию признаков. Построить по ним индексы (как это делать корректно – отдельный вопрос). А уж потом, по данным индексам строить кластеры респондентов.
2. Строить кластеры непосредственно по всем 58 признакам.
Тут встаёт вопрос о том, каким именно алгоритмом пользоваться - к-минзом или же иерархическим КА?
История моего анализа данных выглядит следующим образом.
Поскольку данные 58 суждений не коррелируют между собой - факторы построить нет никакой возможности. Если брать все суждения – получалось 18 факторов, которые все вместе объясняли 51% дисперсии. Кстати, сами факторы трудно было как-либо объяснить – на каждый из факторов приходилось, в среднем, 2 – 3 признака.
Вернее, факторное решение и можно было бы сделать, но для этого надо было выкинуть половину суждений. Что и сделал один мой коллега. Выбраковывал суждения по результатам корреляционной матрицы. Для факторного решения были отобраны лишь те суждения, которые наиболее сильно друг с другом коррелировали. Самих же факторов получилось 8, интерпретируемых по смыслу только первые 4. Все 8 факторов объясняли 49,5% дисперсии. Но тут встал вопрос – А остальные суждения куда девать? Неужто выкинуть?
Для начала я их выкинул. По получившимся факторам построил кластерное решение. Получилось 4 кластера. Однако… Когда я сделал двумерки (суждения, что вошли в факторы с нагрузкой >= 0.4) то оказалось, что распределение никакое. Т. е. если данный фактор определял лицо кластера, то суждения, в него входившие, почему-то разделялись в другом кластере. Поэтому, такое решения Я забраковал.
Решил строить по сырым признакам. Т.е. по всем 58. К сожалению, я не заметил, что в иерархическом КА можно сохранять кластерные решения. И делал так: делал иерархический КА, по агломиреёшен скедьюл определял число кластеров и выделял их к-минзом. Затем получившиеся кластеры сопоставлял с суждениями. В результате у меня вызрело 5-кластерное решение, которое вполне интерпретируемое. Я уже собирался плясать от этой печки, но, увы, путь познания неизбежен... Я узнал больше о кластерном анализе, и оказалось, что делаю Я всё не правильно. Если Я не знаю оптимального числа кластеров – то должен Я их выделять только КА и никак иначе. Так, во всяком случае, Я понял из некоторой прочитанной мной литературы и советов коллег.
Выделил Я кластеры Иерархическим КА. Пользовался Я Вард-методом и эвклидовым расстоянием. На этом следует остановиться особо. Дело в том, что один мой коллега, с которым Я общался по этому поводу в Интернете, на одном из форумов, сказал, что эвклидово расстояние тут не должно работать. Но почему нет, и какое именно должно тут применять не уточнил. Искренне надеюсь получить у Вас разъяснения по этому вопросу.
В результате, получилось у меня 6 кластеров. 5 из них почти повторяли кластеризацию К-минз, а один, вообще ничем себя не проявлял и ничем не отличался от массива. Причём он у меня появлялся при всех вариантах кластеризации, при иерархическом КА.
Некоторые из моих коллег, говорили, что прежде, чем заниматься кластеризацией, нужно иметь некую структуру данных. Она должна быть либо теоретической, заранее предусмотренной гипотезами, либо эмпирической. Честно говоря, Я не совсем понял этот момент, и очень хотелось бы его прояснить. Что значит - структура данных, и как её получают? Есть ли соответствующие работы, где бы чётко был прояснён данный момент?
Дело в том, что, когда В. А. Ядов проводил своё исследование особенностей функционирования диспозиционной структуры личности (Саморегуляция и прогнозирование социального поведения личности / Под ред. В. А. Ядова. Л., 1979) - типы ценностных ориентаций он выделял по всем 36 ценностям непосредственно (как по терминальным, так и по инструментальным). И, насколько Я понял, никакой такой структуры у него не было. И выделял он кластеры, в принципе, наобум, отбирая только наиболее приемлемое решение (таковым оказалось 8-ми кластерное).
В конце концов, я решил построить кластер по опредёлённым индексам – укрупнённым признакам. Поскольку корреляции не шли, стал кластеризировать признаки, а не респондентов. У меня получилось 4 смысловых кластера. В каждый из кластеров входило разное количество суждений. По каждому из этих кластеров я построил индексы.
Строилось это так: суммировались ответы по суждениям. Получившиеся сырые баллы разбивались на 5-членную шкалу. Границы между баллами определялись в соответствии с площадью кривой нормального распределения. Затем, уже по видоизменённым признакам, строились кластеры.
Тут тоже не обошлось без сюрприза. Самым оптимальным вышло 6-ти кластерное решение. На это раз Я пользовался только иерархическим КА. Так вот, и в этом решении у меня получился «пустой» кластер. По всем 4-м индексам, средние значения были ниже, чем средние по массиву в целом.
Одна из моих коллег говорит, что и этот способ не корректен. И самый точный КА – это КА по сырым признакам.
Один мой коллега, с которым я общался в Интернете, по поводу возникновения «пустого» кластера, говорил, что он в одной статье встретил точку зрения, что кластерные решения всегда должны содержать неклассифицируемый мусор, который надо уметь предварительно сепарировать. К сожалению, данная мысль развития не получила. И я не смог понять, где же граница между нормальным и техническим объединением признаков? И как это распознавать, а распознав – отфильтровывать и получить нормальное кластерное решение?
Как тут быть – Я не знаю. И это самая главная проблема, которая стоит передо мной.
Я хочу получить нормальное кластерное решение: теоретически интерпретируемое и корректное с научной точки зрения.
Что бы Вы могли тут порекомендовать?
Вот, собственно, и всё. Надеюсь, что не сильно растянул.
Хотелось бы услышать Ваши рекомендации и пожелания, уважаемые коллеги.
С уважением. Rebys.
e-mail: rebys@rambler.ru

  
                  
 
 Re: Корректный кластерный анализ в социологии
Сообщение26.09.2005, 08:53 
You should try classification by using of the Gaussian mixtures
EM-algorithm. This is the best classification tool to the best of my
knowledge. This tool may be found in Statistica for Windows 7.
If You could not find Statistica 7, please give the data to me and
I will help You.
Regards
Dimiter Tsvetkov
dimiter99@yahoo.com

  
                  
 
 
Сообщение26.09.2005, 21:21 
Экс-модератор


12/06/05
1595
MSU
Много разных мыслей:

Написано много, понятно не все :)

Дендрограммы в СПСС8 не очень наглядные. Реализация в Статистике мне понравилась гораздо больше. Но возможно, в более поздних версиях СПСС по-другому.

Про кластерный анализ написано вот тут:
http://www.statsoft.ru/home/textbook/mo ... cluan.html
Там есть немного про то, как влияют на результаты анализа выбор расстояния и критерия объединения кластеров. Я сам кроме очевидных вещей ("при объединении по методу ближайшего соседа получаются кластеры, вытянутые в цепочки" или "при выборе квадрата евклидова расстояния далеко отстоящие точки не попадают в один кластер") ничего сказать не могу, так как пока что не было времени вплотную заняться сравнением результатов при разных параметрах анализа.

Если у вас параметры не интервальные, а категоризованные (одно значение из нескольких), то евклидово расстояние не подходит. Там есть спец. расстояния для категорий, посмотрите хелп.

Цитата:
кластерные решения всегда должны содержать неклассифицируемый мусор

Да, часто это так. Хорошо, если вы можете откинуть мусор заранее.

Когда параметров много, и визуальное определение числа кластеров невозможно, используют метод К средних. Определяют (по дендрограмме или из общих соображений) или подбирают число кластеров и запускают анализ. Анализ можно признать удовлетворительным, если:
1) Дисперсионный анализ (ANOVA) дает хорошие результаты, внутригрупповая дисперсия мала, межгрупповая велика
2) СПСС умеет сохранять центры кластеров или запускать метод К средних с сохранненными центрами. Если кластеры выделены хорошо, то при изменении начальных центров кластеров (можно в качестве начального центра брать финальный центр или любую точку из кластера, лежащую близко к финальному центру) сами кластеры должны получиться практически такими же. Также при увеличении числа кластеров сами кластеры должны практически не меняться или измельчаться.
Пример: К=3, имеем 3 кластера. Делаем К=4, первый и третий кластеры практически сохраняются, второй разбивается на 2 новых - это хорошо, значит их на самом деле три. А вот если при К=4 получатся совершенно новые кластеры, то все плохо.
В любом случае, всегда надо очень четко контролировать центры кластеров.

Если провести дисперсионный анализ перед кластерным, то можно будет откинуть те переменные, у которых низкая дисперсия - все равно они ничего не определяют.

 Профиль  
                  
 
 классификация
Сообщение08.01.2006, 07:35 
А почему бы не попробовать дискриминантный анализ в том же SPSS

  
                  
 
 ДА
Сообщение08.01.2006, 11:20 


25/07/05
20
Дискриминантным анализом (ДА) воспользоваться вряд ли в данном случае возможно. Во-первых, ДА предполагает, что изначально известны классы, к которым принадлежат наблюдения. Во-вторых, в SPSS реализован ДА только для случая многомерных нормально распределенных классов с одинаковыми ковариационными матрицами. В данном случае ни одно из этих условий не выполняется, т.к. не известна принадлежность наблюдений классам и данные переменные измерены в порядковой шкале (нормальное распределение -соответствует непрерывной шкале).
В последних версиях SPSS (по-моему уже начиная с 12) имеется процедура кластерного анализа (не иерархический и не К-средних) для переменных, измеренных в различных шкалах. Кроме того, этот метод самостоятельно определяет оптимальное количество кластеров.
Также для определения оптимального количества переменных могу только посоветовать использовать функционалы качества разбиения (см. соответствующую литературу по многомерным статистическим методам, включающими в т.ч. кластерный анализ, например, С.А.Айвазян, В.Н.Тамашевич и др.). Сейчас достаточно подобных книг.
По поводу "Gaussian mixtures EM-algorithm" хотел бы сказать, что он также предполагает нормальное распределение (Gaussian :)), хотя некоторые незначительне отклонения от нормальности допустимы.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Модераторы, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group