2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 проверка гипотезы о независимости
Сообщение24.09.2007, 22:19 


19/09/07
8
Прошу подсказать методику проверки гипотезы о независимости при
обработке социологического опроса. Стоит вопрос, зависит ли ответ (да или нет)
от возраста опрашиваемого. Я остановилась на статистике хи-квадрат. Но, может, есть что-то более подходящее в этой сфере?

 Профиль  
                  
 
 
Сообщение24.09.2007, 22:38 
Заслуженный участник
Аватара пользователя


01/03/06
13626
Москва
Елена84 писал(а):
Прошу подсказать методику проверки гипотезы о независимости при
обработке социологического опроса. Стоит вопрос, зависит ли ответ (да или нет)
от возраста опрашиваемого. Я остановилась на статистике хи-квадрат.
Неплохая идея. Почитайте о применении критерия Пирсона здесь: http://www.nsu.ru/mmf/tvims/chernova/ms/lec/node49.html или здесь: http://mschool.kubsu.ru/ms/5.htm .

 Профиль  
                  
 
 
Сообщение25.09.2007, 21:40 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Переношу в корень (как прикладной вопрос)

Добавлено спустя 13 минут 6 секунд:

Разумеется, таблицы сопряженности тут являются хорошим решением. Еще о них можно прочитать здесь
Однако с методом хи-квадрат есть две тонкости. Во-первых, он асимптотический, т.е. обоснован если число наблюдений достаточно велико. Во-вторых, он требует, чтобы наблюдаемые частоты в каждой ячейке не были слишком малы.
Те же таблицы можно обрабатывать точным критерием Фишера, который выдает точный ответ (вероятность) при небольших количествах наблюдений.

Про анализ таблиц 2x2 применительно к психологическим исследованиям можно прочитать здесь (см. задание 7, задание 8 и таблицы).

 Профиль  
                  
 
 
Сообщение26.09.2007, 13:26 


07/02/07
56
По поводу проверки независимости признаков. Если проверяется общая гипотеза о независимости, т.е. функция распределения $F(x)\neq G(x)$, то можно использовать статистику Пирсона $\chi^2$ или, скажем, статистику Колмогорова-Смирнова. Если речь идёт о проверке гипотезы о "специальной" однородности (скажем о сдвиге или масшабе), то можно использовать ранговые критерии проверки независимости (критерий Вилкоксона(гипотеза о сдвиге) или критерий Ансаре-Бредли(гипотеза о масштабе)). Вообще критериев великое множество :) Очень рекомендую ознакомится с книжкой
Кобзарь "Прикладная математическая статистика."

 Профиль  
                  
 
 
Сообщение26.09.2007, 22:42 


19/09/07
8
Благодарю за новые критерии:)
Мне хочется разобраться, чем отличаются на практике их применение.
Нас на ме-мате этому не научили:(

 Профиль  
                  
 
 
Сообщение27.09.2007, 09:18 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
ZheniaM

Что-то я не понимаю, как Вы предлагаете использовать критерий Колмогорова-Смирнова для проверки независимости признаков. Вообще-то этот критерий проверяет гипотезу о том, что неизвестная функция распределения наблюдаемой величины (одной) принадлежит заданному параметрическому семейству. А у нас тут ни семейства нет, да и величин две. Не говоря уже о том, что критерии типа Колмогорова работают с непрерывными функциями распределения, а у нас тут оба признака дискретные (один - так вообще двоичный).

Добавлено спустя 10 минут 10 секунд:

Критерии типа наличия сдвига действительно можно использовать. Для этого нужно разбить все ответы на две группы - те, кто ответил "да", и те, кто ответил "нет". Таким образом, у нас будет две выборки наблюдений (возрастов) и можно проверять их однородность. Правда, это немного жульничество, так как распределение наблюдений по двум выборкам обычно предполагается фиксированным и неслучайным, а у нас тут случайное. Но, возможно, это не очень страшно. Кроме того, эти критерии обычно все-таки предполагают непрерывность наблюдений. Но возраст можно считать с натяжкой непрерывным, если только он известен точно (год), а не разделен на группы типа "до 20", "20-30" и т.д.

 Профиль  
                  
 
 
Сообщение27.09.2007, 12:54 


07/02/07
56
Опс...прошу прощения...неправильно прочитал условие :( перепутал "независимость" и "однородность". Так что снимается :)

А по поводу проверки независимости...Если у вас "возраст" разбит на 2 группы (скажем "молодые" и "взрослые"), то можно примять различные методы (скажем коэффициент ассоциации, контингенции, коллигации Юла и пр.) - но все эти критерии для таблиц 2*2. Если же у Вас балица сопряжённости $r\times c$, то помимо использования статистики \chi^2, имеющёй при независимости признаков $\chi^2((r-1)(c-1))$ можно использовать специальные коэффициенты сопряжённости признаков, скажем коэффициент Чупрова
\begin{equation}
\notag
K_R=\left(\frac{\chi^2}{n[(r-1)(c-1)]^{1/2}}\right)^{1/2},
\end{equation}
Коэффициент $K_R$ становится равным \pm 1 в случае полной связи признаков. (что является более удобным, чем в критерии $\chi^2, который не нормирован)

 Профиль  
                  
 
 
Сообщение27.09.2007, 21:58 


19/09/07
8
Одним словом, хи квадрат for ever :)
Тем более SPSS подсобит при подсчёте :lol:
Ещё вопрос возникает. При проверке совместной независимости уже двух характеристик и
результата (ответа респондента: да или нет) применяется корреляционный анализ, есть что-то
ещё? :roll:

 Профиль  
                  
 
 
Сообщение27.09.2007, 22:12 


07/02/07
56
Не совсем понял вопрос
Цитата:
есть что-то ещё?
.

Корреляционный анализ изучает зависимость между случайными величинами с одновременной количественной оценкой степени неслучайности их совместного изменения. Поэтому, если Вам нужно проверить независимость признаков, то надо применять методы корреляционного анализа. Случай проверки совместной независимости признаков ничем не отличается. Также составляется статистика $\chi^2$, потом нормируется (получается коэффициент сопряженности) и смотрится...чем ближе он к нулю, тем связь минимальнее.

 Профиль  
                  
 
 
Сообщение27.09.2007, 22:19 


19/09/07
8
С меня требуют актуальность примененных методов при обработке данных.
Я знаю только один метод (как-то корреляционный метод, в этом случае). Вряд ли это
аргумент для актуальности...

 Профиль  
                  
 
 
Сообщение27.09.2007, 22:25 


07/02/07
56
По поводу актуальности применяемых методов...почитайте книжку
Кобзарь А.И. "Прикладная математческая статистика"...там приведён сравнительный анализ различных методов и критериев проверки статистических гипотез (в том числе и методы корреляционного анализа). Лично мне неизвестны другие методы (не использующие распределение $\chi^2$) для анализа связи признаков в многоклеточных таблицах сопряжённости (не 2*2).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Someone


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group