2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 22:15 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Да ни в чём. То, что Вы пишете, очевидно и много раз сказано выше. И никоим образом не оправдывает совет использовать критерии для нормальных выборок в бернуллевском случае.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 22:37 


23/12/07
1763
--mS-- в сообщении #763001 писал(а):
Да ни в чём. То, что Вы пишете, очевидно и много раз сказано выше. И никоим образом не оправдывает совет использовать критерии для нормальных выборок в бернуллевском случае.

Брр.. Если ни в чем я не ошибся, значит, все-таки использовать для больших выборок критерий "П" корректно. Неважно, красиво это или нет - принципиально, что корректно. Так?


И остается еще вопрос, а что делать со случаями малых объемов, ведь тест "И" на них не рассчитан...

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 22:45 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Н-да. Жаль, что Вы читаете только себя.

-- Чт сен 12, 2013 02:47:42 --

Что делать с маленькими выборками - очевидно. Найти распределение разности выборочных средних в предположении нулевой гипотезы, определить численно квантиль нужного уровня, сравнить с ней разницу.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 22:58 


23/12/07
1763
--mS-- в сообщении #763022 писал(а):
Н-да. Жаль, что Вы читаете только себя.


У вас просто специфические посты, по которым дично мне трудно догадаться, о чем конкретно вы хотели сказать. Потому и стараюсь четко сформулировать вопросы. Но вы на них все равно ен отвечаете. Спрашиваю, где ошибка. В чем некорректность. Ответ, ошибки нет, но все равно ошибаетесь...

--mS-- в сообщении #763022 писал(а):
Что делать с маленькими выборками - очевидно. Найти распределение разности выборочных средних в предположении нулевой гипотезы, определить численно квантиль нужного уровня, сравнить с ней разницу.


Разность выборочного среднего будет зависеть от параметра распределения Бернулли (основная гипотеза-то сложная).

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 23:18 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань

(Оффтоп)

дискуссия-то развернулась! Надо будет еще какую-нибудь сомнительную мысль подкинуть. :wink:

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 23:21 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_, догадываться там не о чем, всё предельно конкретно изложено. И даже несколько раз повторено. Могу ещё раз повторить (третий, четвёртый): ЦПТ верна, и речь не об этом.

Ну не для разностей, если неизвестная вероятность мешает, так для полного набора количеств успехов/неуспехов в двух выборках целом: http://en.wikipedia.org/wiki/Fisher's_exact_test.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение12.09.2013, 03:00 


23/12/07
1763

(Оффтоп)

--mS-- в сообщении #763043 писал(а):
_hum_, догадываться там не о чем, всё предельно конкретно изложено.

Да, этого стоило ожидать (потому как в вашем стиле кратко ответить, не слишком заботясь, насколько это понятно спрашивающему, а после на просьбу растолковать ответ, высказать нечто наподобие "выше уже все предельно ясно было изложено", потому разбирайся сам, что я хотела сказать) :)

--mS-- в сообщении #763043 писал(а):
Могу ещё раз повторить (третий, четвёртый): ЦПТ верна, и речь не об этом.

Я спрашивал не это. Еще раз потворяю свой вопрос:
корректно ли использование критерия "П" для бернуллиевских выборок в случае больших объемов. Варианты ответов:
1) да;
2) нет.
(В случае ответа 2) прошу аргументировать.)

--mS-- в сообщении #763043 писал(а):
Ну не для разностей, если неизвестная вероятность мешает, так для полного набора количеств успехов/неуспехов в двух выборках целом: http://en.wikipedia.org/wiki/Fisher's_exact_test .

Какой-то "мутный" тест - строится "на ходу" по полученной выборке. Да и то как-то туманно (отчего именно так рассчитывается p-value?). Кроме того, не совсем очевидно, как с его помощью решать задачу ТС по проверке гипотезы о знаке разности параметров в распределениях Бернулли.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение12.09.2013, 04:28 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Найдите ответ выше. И упражнение: посчитайте, сколько раз он уже дан. Не надоело толочь воду в ступе? И ещё раз: ЦПТ верна, не может быть не верна, и речь абсолютно не об этом.

Совершенно нормальный и совершенно разумный критерий. Более того: никаких иных критериев тут и невозможно предложить. Вам объяснить, что такое реально достигнутый уровень значимости, почему он "строится по полученной выборке", и как с его помощью делать стат. выводы?

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение12.09.2013, 18:33 


23/12/07
1763
--mS-- в сообщении #763069 писал(а):
Найдите ответ выше. И упражнение: посчитайте, сколько раз он уже дан. Не надоело толочь воду в ступе? И ещё раз: ЦПТ верна, не может быть не верна, и речь абсолютно не об этом.

no comments...

--mS-- в сообщении #763069 писал(а):
Вам объяснить, что такое реально достигнутый уровень значимости, почему он "строится по полученной выборке", и как с его помощью делать стат. выводы?

Гораздо полезнее и для меня, и для ТС будет, если вы поясните,
1) как конкретно в данном тесте выглядит статистика (на основе которой он построен), и как в нем определяются критические области;
2) как с использованием данного теста проверить гипотезу ТС: "Значение параметра распределения Бернулли первой выборки меньше такового для второй".

--mS-- в сообщении #763069 писал(а):
Совершенно нормальный и совершенно разумный критерий. Более того: никаких иных критериев тут и невозможно предложить.

А как же:
Цитата:
An alternative exact test, Barnard's exact test, has been developed and proponents of it suggest that this method is more powerful, particularly in 2 × 2 tables. Another alternative is to use maximum likelihood estimates to calculate a p-value from the exact binomial or multinomial distributions and accept or reject based on the p-value.

В принципе, на ум приходит и еще один способ: поскольку множество значений параметра Бернулли ограничено, то можно использовать любую подходящую статистику (ту же разность частот), после чего уровень значимости рассчитать, исходя из максимума/минимума (по всем возможным параметрам) вероятности попадания в критическую область.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение12.09.2013, 21:28 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_ в сообщении #763233 писал(а):
Гораздо полезнее и для меня, и для ТС будет, если вы поясните,
1) как конкретно в данном тесте выглядит статистика (на основе которой он построен), и как в нем определяются критические области;
2) как с использованием данного теста проверить гипотезу ТС: "Значение параметра распределения Бернулли первой выборки меньше такового для второй".

Вот только не нужно кивать на ТС - его тут давно нет и, полагаю, в этой ветке не будет больше. Ему уже всем, чем можно, помогли. Ждите очередных падающих спутников.

Зачем требовать статистику критерия, когда явно выписан реально достигнутый уровень значимости, мне не понять. Ну как угодно, любой каприз за Ваши деньги.

Исходная постановка задачи: рассматриваются две выборки $X_1,\ldots, X_n$ и $Y_1,\ldots, Y_m$, совместное распределение которых совпадает с условным совместным распределением двух независимых бернуллевских выборок $\xi_1,\ldots,\xi_n\sim B(p_1)$ и $\eta_1,\ldots, \eta_m\sim B(p_2)$ при условии $n\overline \xi+m\overline \eta = k$ для заранее заданного произвольного $0\leqslant k\leqslant n+m$. По русски, для произвольного $B\subseteq \mathbb R^{n+m}$,
$$\mathsf P((\vec X, \vec Y)\in B) = \mathsf P((\vec \xi, \vec \eta)\in B \,|\, n\overline \xi+m\overline \eta = k).$$

В классе таких совместных распределений двух выборок проверяется гипотеза $H_0:\, p_1=p_2$ при альтернативе $H_1:\,p_1>p_2$ (или меньше - тогда знаки поменять всюду).

Статистика критерия - самая обычная: $T=\overline X - \overline Y$. При верной основной гипотезе хвост распределения статистики критерия выглядит так:
$$\mathsf P(T\geqslant c)=\mathsf P(\overline X - \overline Y \geqslant c) = \mathsf P(\overline \xi - \overline \eta \geqslant c\,|\, n\overline \xi+m\overline \eta = k) =  \sum \dfrac{C_k^a C_{n+m-k}^{n-a}}{C_{n+m}^n}, $$
где суммирование ведётся по всем $a\in\{0,1,\ldots, n\}$, $b\in \{0,1,\ldots, m\}$ таким, что $a+b=k$ и $\frac{a}{n}-\frac{b}{m}\geqslant c$.

Критическая область определяется выбором $c$ так, чтобы $\mathsf P(T\geqslant c)=\varepsilon$ (или около нужного эпсилон: распределение статистики критерия дискретно, в эпсилон, какое заблагорассудится, можно не попасть).

Отвечаю на второй вопрос. Если непременно хотите проверять гипотезу как в школе - по эпсилон ищем границу критической области и т.п. (чего никто никогда не делает), то как обычно. Находим по выборкам численные значения $n\overline X$, $m\overline Y$, $k$ равное их сумме. Затем по подходящему $\varepsilon$ численно находим $c$. Сравниваем $T=\overline X - \overline Y$ и $c$. Если больше - принимаем альтернативу.

А лучше делать, как принято. Вычисляем по выборкам числовое значение $T_0=\overline X - \overline Y$ (нолик отражает, что это уже число, а не с.в.) и считаем реально достигнутый уровень значимости критерия как (см. выше)
$$\varepsilon^*=\mathsf P_{H_0}(T\geqslant T_0) = \sum \dfrac{C_k^a C_{n+m-k}^{n-a}}{C_{n+m}^n}, $$
где суммирование ведётся по всем $a\in\{0,1,\ldots, n\}$, $b\in \{0,1,\ldots, m\}$ таким, что $a+b=k$ и $\frac{a}{n}-\frac{b}{m}\geqslant T_0$.
Если значение $\varepsilon^*$ (то, что называют 'p-value') оказалось больше $\varepsilon$, которое мы в голове держим в качестве максимально допустимой вероятности ошибки первого рода, то нет оснований отвергать основную гипотезу.

_hum_ в сообщении #763233 писал(а):
А как же:
Цитата:
An alternative exact test, Barnard's exact test, has been developed and proponents of it suggest that this method is more powerful, particularly in 2 × 2 tables. Another alternative is to use maximum likelihood estimates to calculate a p-value from the exact binomial or multinomial distributions and accept or reject based on the p-value.

В принципе, на ум приходит и еще один способ: поскольку множество значений параметра Бернулли ограничено, то можно использовать любую подходящую статистику (ту же разность частот), после чего уровень значимости рассчитать, исходя из максимума/минимума (по всем возможным параметрам) вероятности попадания в критическую область.

Именно это и есть критерий Барнарда. Только максимума, а не минимума. Не знала раньше о таком, спасибо, не права насчёт единственности.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение13.09.2013, 02:12 


23/12/07
1763
Спасибо за изложение теста. Попробую разобраться, как будет время. Но вот сразу же непонятный момент: если я правильно понимаю, вместо рассмотрения выборочного пространства
$$V = \{0,1\}^n \times \{0,1\}^m$$
с семействами распределений на нем
$$\mathcal{P}^{(H_0)} = \Big\{B(p)^{\otimes  (n+m)}\, \big|\, p \in [0,1] \Big\}, \quad
\mathcal{P}^{(H_1)} = \Big\{B(p_1)^{\otimes n} \otimes B(p_2)^{\otimes m}\, \big|\,p_1 \neq p_2,\, p_1,p_2 \in [0,1] \Big\},$$
рассматривается более узкое пространство
$$V_{k} = \bigg\{\mathbf{x} = (x_i)_i \in V \big| \sum_{i = 1}^{m+n} x_i = k\bigg\} $$
с семействами условных распределений на нем
$$\mathcal{P}^{(H_0)}_{V_{k}} = \Big\{P(\,\cdot\, | V_k) \,\,\big|\, P \in \mathcal{P}^{(H_0)}\Big \}, \quad \mathcal{P}^{(H_1)}_{V_{k}} = \Big\{P(\,\cdot\, | V_k)\,\, \big| \,P \in \mathcal{P}^{(H_1)}\Big\}.$$
Идея понятна - раз у нас в выборке уже есть $k$ единиц, то можно поработать в условной вероятностной модели. Но! Тогда и все остальное будет справедливо только для условной модели (уровень значимости, мощность критерия и проч.). Грубо говоря, если мы таким образом построим тест с уровнем значимости $\alpha$, то будем иметь только гарантию, что он будет ошибаться, отбрасывая основную гипотезу, в $\alpha\cdot 100\%$ всех случаев, при которых сумма значений элементов выборки равна $k$. А нам ведь надо гарантию на все случаи, а не только на такие!

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение13.09.2013, 06:31 
Заслуженный участник
Аватара пользователя


23/11/06
4171
"На все случаи жизни" - тем более. Если каждая условная вероятность в формуле полной вероятности не превышает $\alpha$, то и безусловная вероятность ошибки тоже не превысит: $\sum_k \mathsf P_{H_0}(\delta = H_1\,|\,n\overline X+m\overline Y=k)\mathsf P(n\overline X+m\overline Y=k) \leq \alpha$.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение14.09.2013, 00:16 


23/12/07
1763
Да, получается, так... А подобный трюк с переходом к тестированию в условных пространствах имеет какое-нибудь отдельное название? Насколько широко его можно применять? Как-то очень уж напоминает работу с достаточными статистиками...

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение14.09.2013, 16:55 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Без понятия, я не специалист в статистике. Критерий именуется в некоторых местах "условным критерием", может быть, это какой-то тип критериев, где-то описанный в целом.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение14.09.2013, 19:36 


23/12/07
1763
Понятно. Спасибо, буду иметь в виду.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 45 ]  На страницу Пред.  1, 2, 3

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group