2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 проверка гипотезы о независимости
Сообщение24.09.2007, 22:19 
Прошу подсказать методику проверки гипотезы о независимости при
обработке социологического опроса. Стоит вопрос, зависит ли ответ (да или нет)
от возраста опрашиваемого. Я остановилась на статистике хи-квадрат. Но, может, есть что-то более подходящее в этой сфере?

 
 
 
 
Сообщение24.09.2007, 22:38 
Аватара пользователя
Елена84 писал(а):
Прошу подсказать методику проверки гипотезы о независимости при
обработке социологического опроса. Стоит вопрос, зависит ли ответ (да или нет)
от возраста опрашиваемого. Я остановилась на статистике хи-квадрат.
Неплохая идея. Почитайте о применении критерия Пирсона здесь: http://www.nsu.ru/mmf/tvims/chernova/ms/lec/node49.html или здесь: http://mschool.kubsu.ru/ms/5.htm .

 
 
 
 
Сообщение25.09.2007, 21:40 
Аватара пользователя
Переношу в корень (как прикладной вопрос)

Добавлено спустя 13 минут 6 секунд:

Разумеется, таблицы сопряженности тут являются хорошим решением. Еще о них можно прочитать здесь
Однако с методом хи-квадрат есть две тонкости. Во-первых, он асимптотический, т.е. обоснован если число наблюдений достаточно велико. Во-вторых, он требует, чтобы наблюдаемые частоты в каждой ячейке не были слишком малы.
Те же таблицы можно обрабатывать точным критерием Фишера, который выдает точный ответ (вероятность) при небольших количествах наблюдений.

Про анализ таблиц 2x2 применительно к психологическим исследованиям можно прочитать здесь (см. задание 7, задание 8 и таблицы).

 
 
 
 
Сообщение26.09.2007, 13:26 
По поводу проверки независимости признаков. Если проверяется общая гипотеза о независимости, т.е. функция распределения $F(x)\neq G(x)$, то можно использовать статистику Пирсона $\chi^2$ или, скажем, статистику Колмогорова-Смирнова. Если речь идёт о проверке гипотезы о "специальной" однородности (скажем о сдвиге или масшабе), то можно использовать ранговые критерии проверки независимости (критерий Вилкоксона(гипотеза о сдвиге) или критерий Ансаре-Бредли(гипотеза о масштабе)). Вообще критериев великое множество :) Очень рекомендую ознакомится с книжкой
Кобзарь "Прикладная математическая статистика."

 
 
 
 
Сообщение26.09.2007, 22:42 
Благодарю за новые критерии:)
Мне хочется разобраться, чем отличаются на практике их применение.
Нас на ме-мате этому не научили:(

 
 
 
 
Сообщение27.09.2007, 09:18 
Аватара пользователя
ZheniaM

Что-то я не понимаю, как Вы предлагаете использовать критерий Колмогорова-Смирнова для проверки независимости признаков. Вообще-то этот критерий проверяет гипотезу о том, что неизвестная функция распределения наблюдаемой величины (одной) принадлежит заданному параметрическому семейству. А у нас тут ни семейства нет, да и величин две. Не говоря уже о том, что критерии типа Колмогорова работают с непрерывными функциями распределения, а у нас тут оба признака дискретные (один - так вообще двоичный).

Добавлено спустя 10 минут 10 секунд:

Критерии типа наличия сдвига действительно можно использовать. Для этого нужно разбить все ответы на две группы - те, кто ответил "да", и те, кто ответил "нет". Таким образом, у нас будет две выборки наблюдений (возрастов) и можно проверять их однородность. Правда, это немного жульничество, так как распределение наблюдений по двум выборкам обычно предполагается фиксированным и неслучайным, а у нас тут случайное. Но, возможно, это не очень страшно. Кроме того, эти критерии обычно все-таки предполагают непрерывность наблюдений. Но возраст можно считать с натяжкой непрерывным, если только он известен точно (год), а не разделен на группы типа "до 20", "20-30" и т.д.

 
 
 
 
Сообщение27.09.2007, 12:54 
Опс...прошу прощения...неправильно прочитал условие :( перепутал "независимость" и "однородность". Так что снимается :)

А по поводу проверки независимости...Если у вас "возраст" разбит на 2 группы (скажем "молодые" и "взрослые"), то можно примять различные методы (скажем коэффициент ассоциации, контингенции, коллигации Юла и пр.) - но все эти критерии для таблиц 2*2. Если же у Вас балица сопряжённости $r\times c$, то помимо использования статистики \chi^2, имеющёй при независимости признаков $\chi^2((r-1)(c-1))$ можно использовать специальные коэффициенты сопряжённости признаков, скажем коэффициент Чупрова
\begin{equation}
\notag
K_R=\left(\frac{\chi^2}{n[(r-1)(c-1)]^{1/2}}\right)^{1/2},
\end{equation}
Коэффициент $K_R$ становится равным \pm 1 в случае полной связи признаков. (что является более удобным, чем в критерии $\chi^2, который не нормирован)

 
 
 
 
Сообщение27.09.2007, 21:58 
Одним словом, хи квадрат for ever :)
Тем более SPSS подсобит при подсчёте :lol:
Ещё вопрос возникает. При проверке совместной независимости уже двух характеристик и
результата (ответа респондента: да или нет) применяется корреляционный анализ, есть что-то
ещё? :roll:

 
 
 
 
Сообщение27.09.2007, 22:12 
Не совсем понял вопрос
Цитата:
есть что-то ещё?
.

Корреляционный анализ изучает зависимость между случайными величинами с одновременной количественной оценкой степени неслучайности их совместного изменения. Поэтому, если Вам нужно проверить независимость признаков, то надо применять методы корреляционного анализа. Случай проверки совместной независимости признаков ничем не отличается. Также составляется статистика $\chi^2$, потом нормируется (получается коэффициент сопряженности) и смотрится...чем ближе он к нулю, тем связь минимальнее.

 
 
 
 
Сообщение27.09.2007, 22:19 
С меня требуют актуальность примененных методов при обработке данных.
Я знаю только один метод (как-то корреляционный метод, в этом случае). Вряд ли это
аргумент для актуальности...

 
 
 
 
Сообщение27.09.2007, 22:25 
По поводу актуальности применяемых методов...почитайте книжку
Кобзарь А.И. "Прикладная математческая статистика"...там приведён сравнительный анализ различных методов и критериев проверки статистических гипотез (в том числе и методы корреляционного анализа). Лично мне неизвестны другие методы (не использующие распределение $\chi^2$) для анализа связи признаков в многоклеточных таблицах сопряжённости (не 2*2).

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group