2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Статгипотезы о дискретных выборках
Сообщение22.11.2011, 17:56 
Аватара пользователя
Пусть даны две выборки различной длины (приблизительно от 15 до 600) двух различных с. в., принимающих значения 0 и 1. Как оценить следующие величины:

1. Доверительные интервалы матожидания каждой из этих с. в.
2. Вероятность совпадения матожиданий этих с. в.
3. Вероятность того, что матожидание первой с. в. больше матожидания второй с. в.

Можно просто ссылку на нужную книжку - я пробежался по своим учебникам, ничего подходящего не нашел. Насколько я понимаю, в 1 и 2 может сгодиться одно- и двухвыборочный тест Стьюдента, но он же по идее должен применяться к с. в. с нормальным распределением.

Мне это для практических расчетов, если что. Можно ли в данной ситуации с небольшой потерей точности забить на дискретность и предполагать нормальность распределения?

 
 
 
 Re: Статгипотезы о дискретных выборках
Сообщение24.11.2011, 12:27 
Да, с 0 и 1 - крайний случай.
2. Как это понимать?
Может разыграть Монте-Карло.

 
 
 
 Re: Статгипотезы о дискретных выборках
Сообщение24.11.2011, 19:38 
Аватара пользователя
Бодигрим в сообщении #506611 писал(а):
Пусть даны две выборки различной длины (приблизительно от 15 до 600) двух различных с. в., принимающих значения 0 и 1. Как оценить следующие величины:

1. Доверительные интервалы матожидания каждой из этих с. в.

http://en.wikipedia.org/wiki/Binomial_p ... e_interval
Бодигрим в сообщении #506611 писал(а):
2. Вероятность совпадения матожиданий этих с. в.
3. Вероятность того, что матожидание первой с. в. больше матожидания второй с. в.


Видимо, имелось в виду, как проверить гипотезу о (2) совпадении матожиданий, (3) и т.д.? Статистические критерии выдают не вероятность справедливости проверяемой гипотезы, а вероятность по выборке(ам), отвечающим проверяемой гипотезе, получить худшее согласие с ней, чем по тестируемой(ым) выборке(ам).

Например, точный критерий Фишера http://en.wikipedia.org/wiki/Fisher's_exact_test - двусторонний для (2) и односторонний для (3). Но для него нужно иметь пакет, считающий вероятность ошибки первого рода.
Или, при достаточно больших объёмах, критерий типа критерия Стьюдента со статистикой
$$
\rho=\sqrt{\frac{n_1n_2}{n_1+n_2}}\dfrac{\frac{k_1}{n_1}-\frac{k_2}{n_2}}{\sqrt{p^*(1-p^*)}},
$$
где $p^*=\dfrac{k_1+k_2}{n_1+n_2}$, $n_1, n_2$ - объёмы выборок, $k_1, k_2$ - количества успехов. Предельное распределение статистики критерия при верной гипотезе однородности - нормальное стандартное, просто по теореме Муавра - Лапласа. Соответственно, критическая область либо двусторонняя - для (2) $|\rho|>\tau_{1-\varepsilon/2}$, либо односторонняя - для (3) $\rho>\tau_{1-\varepsilon}$.

 
 
 
 Re: Статгипотезы о дискретных выборках
Сообщение25.11.2011, 15:15 
Аватара пользователя
--mS-- в сообщении #507457 писал(а):
 http://en.wikipedia.org/wiki/Binomial%20proportion%20confidence%20interval

Ага. Почти для всех моих данных $np > 5$ и $n(1-p)>5$, так что можно, насколько я понял статью, приближать нормальным распределением и использовать критерий Стьюдента.
--mS-- в сообщении #507457 писал(а):
Видимо, имелось в виду, как проверить гипотезу о (2) совпадении матожиданий, (3) и т.д.?

Да, так точно.

Не уверен, что правильно понимаю метод расчета. Я сейчас попробую на примере - проверьте, пожалуйста.

Первая выборка: объем $n_1=80$, успешных испытаний $k_1=18$. Выборочное среднее $p_1=18/80=0.225$
Вторая выборка: объем $n_2=111$, успешных испытаний $k_2=20$. Выборочное среднее $p_2=20/111=0.180$.
Уровень значимости пусть будет $\varepsilon=0.1$ - т. е. я хочу, чтобы нулевая гипотеза ложно отвергалась с вероятностью не более 10%.

Считаю доверительные интервалы, аппроксимируя нормальным распределением. Для первой выборки:
$$ p_1 \pm z_{0.95} \sqrt{ \frac{p_1 ( 1- p_1)}{n_1}}  = 0.225 \pm 0.0467 z_{0.95} = 0.225 \pm 0.077. $$
Для второй выборки:
$$ p_2 \pm z_{0.95} \sqrt{ \frac{p_2 ( 1- p_2)}{n_2}}  = 0.180 \pm 0.0364 z_{0.95} = 0.180 \pm 0.060. $$

Рассмотрим нулевую гипотезу о совпадении матожиданий. Конкурирующая гипотеза - матожидания не совпадают. Рассчитаем статистику:
$$ p^* = {k_1+k_2 \over n_1+n_2} = 0.199, $$
$$\rho = \sqrt{\frac{n_1n_2}{n_1+n_2}} \dfrac{p_1-p_2}{\sqrt{p^*(1-p^*)}} = 0.766. $$
Поскольку $\rho < z_{0.95}=1.645$, то принимаем нулевую гипотезу о совпадении матожиданий.

Дальше мне не совсем понятно. Пусть нулевая гипотеза $H_0$ - это то, что матожидание первой выборки больше матожидания второй выборки. Статистика считается такая же, только сравнивается с $z_{0,9}$? Получим $0.766 < 1.282$. Мы должны отвергнуть гипотезу $H_0$? (Я исхожу из того, если бы выборки были идентичны, то мы получили бы $\rho=0<z_{0,9}$ - тоже со знаком меньше). Или все же принять?

 
 
 
 Re: Статгипотезы о дискретных выборках
Сообщение25.11.2011, 17:47 
Аватара пользователя
Бодигрим в сообщении #507810 писал(а):
Дальше мне не совсем понятно. Пусть нулевая гипотеза $H_0$ - это то, что матожидание первой выборки больше матожидания второй выборки. Статистика считается такая же, только сравнивается с $z_{0,9}$? Получим $0.766 < 1.282$. Мы должны отвергнуть гипотезу $H_0$? (Я исхожу из того, если бы выборки были идентичны, то мы получили бы $\rho=0<z_{0,9}$ - тоже со знаком меньше). Или все же принять?

Если нулевая гипотеза - первое матожидание больше второго, т.е. вероятность успеха в первой выборке больше вероятности успеха для второй выборки, то отвергаться она должна, если $k_1 / n_1$ окажется существенно меньше, чем $k_2/n_2$. Существенно меньше - это не просто разность отрицательна, но и "отрицательна и ещё кусочек". Т.е. если $\rho$ окажется меньше, чем $-\tau_\varepsilon$.

Поэтому сравнивать следует $0,766$ и $-1,282$. Нулевая гипотеза принимается. Выглядит довольно бессмысленно после того, как уже даны выборки и доля успехов в первой превышает долю успехов во второй, что всегда приводит к принятию гипотезы $p_1 > p_2$ для разумных $\varepsilon$.
Таким образом, выборка при данном уровне значимости не противоречит гипотезе о том, что первое матожидание больше второго. Или, если хотите, нет оснований полагать, что второе матожидание больше первого :-)


Однако такая односторонняя гипотеза обычно формулируется до того, как эксперимент проведён. Либо, если уже есть $0,225 > 0,180$, тогда есть смысл проверять обратную гипотезу - о том, что, несмотря на такие данные, второе матожидание больше первого. Вот тогда критическая область будет правосторонней, нулевая гипотеза отвергается при $\rho > \tau_{1-\varepsilon}$.

В Вашем случае она не отвергается, т.е. выборка при данном уровне значимости не противоречит гипотезе о том, что второе матожидание больше первого. Или, если хотите, нет оснований полагать, что первое матожидание больше второго :mrgreen:

 
 
 
 Re: Статгипотезы о дискретных выборках
Сообщение27.11.2011, 14:15 
Аватара пользователя
Спасибо, кажется, начинаю понимать.

 
 
 [ Сообщений: 6 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group