2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Статгипотезы о дискретных выборках
Сообщение22.11.2011, 17:56 
Заслуженный участник
Аватара пользователя


22/11/06
1096
Одесса, ОНУ ИМЭМ
Пусть даны две выборки различной длины (приблизительно от 15 до 600) двух различных с. в., принимающих значения 0 и 1. Как оценить следующие величины:

1. Доверительные интервалы матожидания каждой из этих с. в.
2. Вероятность совпадения матожиданий этих с. в.
3. Вероятность того, что матожидание первой с. в. больше матожидания второй с. в.

Можно просто ссылку на нужную книжку - я пробежался по своим учебникам, ничего подходящего не нашел. Насколько я понимаю, в 1 и 2 может сгодиться одно- и двухвыборочный тест Стьюдента, но он же по идее должен применяться к с. в. с нормальным распределением.

Мне это для практических расчетов, если что. Можно ли в данной ситуации с небольшой потерей точности забить на дискретность и предполагать нормальность распределения?

 Профиль  
                  
 
 Re: Статгипотезы о дискретных выборках
Сообщение24.11.2011, 12:27 


17/04/11
70
Да, с 0 и 1 - крайний случай.
2. Как это понимать?
Может разыграть Монте-Карло.

 Профиль  
                  
 
 Re: Статгипотезы о дискретных выборках
Сообщение24.11.2011, 19:38 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Бодигрим в сообщении #506611 писал(а):
Пусть даны две выборки различной длины (приблизительно от 15 до 600) двух различных с. в., принимающих значения 0 и 1. Как оценить следующие величины:

1. Доверительные интервалы матожидания каждой из этих с. в.

http://en.wikipedia.org/wiki/Binomial_p ... e_interval
Бодигрим в сообщении #506611 писал(а):
2. Вероятность совпадения матожиданий этих с. в.
3. Вероятность того, что матожидание первой с. в. больше матожидания второй с. в.


Видимо, имелось в виду, как проверить гипотезу о (2) совпадении матожиданий, (3) и т.д.? Статистические критерии выдают не вероятность справедливости проверяемой гипотезы, а вероятность по выборке(ам), отвечающим проверяемой гипотезе, получить худшее согласие с ней, чем по тестируемой(ым) выборке(ам).

Например, точный критерий Фишера http://en.wikipedia.org/wiki/Fisher's_exact_test - двусторонний для (2) и односторонний для (3). Но для него нужно иметь пакет, считающий вероятность ошибки первого рода.
Или, при достаточно больших объёмах, критерий типа критерия Стьюдента со статистикой
$$
\rho=\sqrt{\frac{n_1n_2}{n_1+n_2}}\dfrac{\frac{k_1}{n_1}-\frac{k_2}{n_2}}{\sqrt{p^*(1-p^*)}},
$$
где $p^*=\dfrac{k_1+k_2}{n_1+n_2}$, $n_1, n_2$ - объёмы выборок, $k_1, k_2$ - количества успехов. Предельное распределение статистики критерия при верной гипотезе однородности - нормальное стандартное, просто по теореме Муавра - Лапласа. Соответственно, критическая область либо двусторонняя - для (2) $|\rho|>\tau_{1-\varepsilon/2}$, либо односторонняя - для (3) $\rho>\tau_{1-\varepsilon}$.

 Профиль  
                  
 
 Re: Статгипотезы о дискретных выборках
Сообщение25.11.2011, 15:15 
Заслуженный участник
Аватара пользователя


22/11/06
1096
Одесса, ОНУ ИМЭМ
--mS-- в сообщении #507457 писал(а):
 http://en.wikipedia.org/wiki/Binomial%20proportion%20confidence%20interval

Ага. Почти для всех моих данных $np > 5$ и $n(1-p)>5$, так что можно, насколько я понял статью, приближать нормальным распределением и использовать критерий Стьюдента.
--mS-- в сообщении #507457 писал(а):
Видимо, имелось в виду, как проверить гипотезу о (2) совпадении матожиданий, (3) и т.д.?

Да, так точно.

Не уверен, что правильно понимаю метод расчета. Я сейчас попробую на примере - проверьте, пожалуйста.

Первая выборка: объем $n_1=80$, успешных испытаний $k_1=18$. Выборочное среднее $p_1=18/80=0.225$
Вторая выборка: объем $n_2=111$, успешных испытаний $k_2=20$. Выборочное среднее $p_2=20/111=0.180$.
Уровень значимости пусть будет $\varepsilon=0.1$ - т. е. я хочу, чтобы нулевая гипотеза ложно отвергалась с вероятностью не более 10%.

Считаю доверительные интервалы, аппроксимируя нормальным распределением. Для первой выборки:
$$ p_1 \pm z_{0.95} \sqrt{ \frac{p_1 ( 1- p_1)}{n_1}}  = 0.225 \pm 0.0467 z_{0.95} = 0.225 \pm 0.077. $$
Для второй выборки:
$$ p_2 \pm z_{0.95} \sqrt{ \frac{p_2 ( 1- p_2)}{n_2}}  = 0.180 \pm 0.0364 z_{0.95} = 0.180 \pm 0.060. $$

Рассмотрим нулевую гипотезу о совпадении матожиданий. Конкурирующая гипотеза - матожидания не совпадают. Рассчитаем статистику:
$$ p^* = {k_1+k_2 \over n_1+n_2} = 0.199, $$
$$\rho = \sqrt{\frac{n_1n_2}{n_1+n_2}} \dfrac{p_1-p_2}{\sqrt{p^*(1-p^*)}} = 0.766. $$
Поскольку $\rho < z_{0.95}=1.645$, то принимаем нулевую гипотезу о совпадении матожиданий.

Дальше мне не совсем понятно. Пусть нулевая гипотеза $H_0$ - это то, что матожидание первой выборки больше матожидания второй выборки. Статистика считается такая же, только сравнивается с $z_{0,9}$? Получим $0.766 < 1.282$. Мы должны отвергнуть гипотезу $H_0$? (Я исхожу из того, если бы выборки были идентичны, то мы получили бы $\rho=0<z_{0,9}$ - тоже со знаком меньше). Или все же принять?

 Профиль  
                  
 
 Re: Статгипотезы о дискретных выборках
Сообщение25.11.2011, 17:47 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Бодигрим в сообщении #507810 писал(а):
Дальше мне не совсем понятно. Пусть нулевая гипотеза $H_0$ - это то, что матожидание первой выборки больше матожидания второй выборки. Статистика считается такая же, только сравнивается с $z_{0,9}$? Получим $0.766 < 1.282$. Мы должны отвергнуть гипотезу $H_0$? (Я исхожу из того, если бы выборки были идентичны, то мы получили бы $\rho=0<z_{0,9}$ - тоже со знаком меньше). Или все же принять?

Если нулевая гипотеза - первое матожидание больше второго, т.е. вероятность успеха в первой выборке больше вероятности успеха для второй выборки, то отвергаться она должна, если $k_1 / n_1$ окажется существенно меньше, чем $k_2/n_2$. Существенно меньше - это не просто разность отрицательна, но и "отрицательна и ещё кусочек". Т.е. если $\rho$ окажется меньше, чем $-\tau_\varepsilon$.

Поэтому сравнивать следует $0,766$ и $-1,282$. Нулевая гипотеза принимается. Выглядит довольно бессмысленно после того, как уже даны выборки и доля успехов в первой превышает долю успехов во второй, что всегда приводит к принятию гипотезы $p_1 > p_2$ для разумных $\varepsilon$.
Таким образом, выборка при данном уровне значимости не противоречит гипотезе о том, что первое матожидание больше второго. Или, если хотите, нет оснований полагать, что второе матожидание больше первого :-)


Однако такая односторонняя гипотеза обычно формулируется до того, как эксперимент проведён. Либо, если уже есть $0,225 > 0,180$, тогда есть смысл проверять обратную гипотезу - о том, что, несмотря на такие данные, второе матожидание больше первого. Вот тогда критическая область будет правосторонней, нулевая гипотеза отвергается при $\rho > \tau_{1-\varepsilon}$.

В Вашем случае она не отвергается, т.е. выборка при данном уровне значимости не противоречит гипотезе о том, что второе матожидание больше первого. Или, если хотите, нет оснований полагать, что первое матожидание больше второго :mrgreen:

 Профиль  
                  
 
 Re: Статгипотезы о дискретных выборках
Сообщение27.11.2011, 14:15 
Заслуженный участник
Аватара пользователя


22/11/06
1096
Одесса, ОНУ ИМЭМ
Спасибо, кажется, начинаю понимать.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group