Гораздо полезнее и для меня, и для ТС будет, если вы поясните,
1) как конкретно в данном тесте выглядит статистика (на основе которой он построен), и как в нем определяются критические области;
2) как с использованием данного теста проверить гипотезу ТС: "Значение параметра распределения Бернулли первой выборки меньше такового для второй".
Вот только не нужно кивать на ТС - его тут давно нет и, полагаю, в этой ветке не будет больше. Ему уже всем, чем можно, помогли. Ждите очередных падающих спутников.
Зачем требовать статистику критерия, когда явно выписан реально достигнутый уровень значимости, мне не понять. Ну как угодно, любой каприз за Ваши деньги.
Исходная постановка задачи: рассматриваются две выборки
и
, совместное распределение которых совпадает с условным совместным распределением двух независимых бернуллевских выборок
и
при условии
для заранее заданного произвольного
. По русски, для произвольного
,
В классе таких совместных распределений двух выборок проверяется гипотеза
при альтернативе
(или меньше - тогда знаки поменять всюду).
Статистика критерия - самая обычная:
. При верной основной гипотезе хвост распределения статистики критерия выглядит так:
где суммирование ведётся по всем
,
таким, что
и
.
Критическая область определяется выбором
так, чтобы
(или около нужного эпсилон: распределение статистики критерия дискретно, в эпсилон, какое заблагорассудится, можно не попасть).
Отвечаю на второй вопрос. Если непременно хотите проверять гипотезу как в школе - по эпсилон ищем границу критической области и т.п. (чего никто никогда не делает), то как обычно. Находим по выборкам численные значения
,
,
равное их сумме. Затем по подходящему
численно находим
. Сравниваем
и
. Если больше - принимаем альтернативу.
А лучше делать, как принято. Вычисляем по выборкам числовое значение
(нолик отражает, что это уже число, а не с.в.) и считаем реально достигнутый уровень значимости критерия как (см. выше)
где суммирование ведётся по всем
,
таким, что
и
.
Если значение
(то, что называют 'p-value') оказалось больше
, которое мы в голове держим в качестве максимально допустимой вероятности ошибки первого рода, то нет оснований отвергать основную гипотезу.
А как же:
Цитата:
An alternative exact test, Barnard's exact test, has been developed and proponents of it suggest that this method is more powerful, particularly in 2 × 2 tables. Another alternative is to use maximum likelihood estimates to calculate a p-value from the exact binomial or multinomial distributions and accept or reject based on the p-value.
В принципе, на ум приходит и еще один способ: поскольку множество значений параметра Бернулли ограничено, то можно использовать любую подходящую статистику (ту же разность частот), после чего уровень значимости рассчитать, исходя из максимума/минимума (по всем возможным параметрам) вероятности попадания в критическую область.
Именно это и есть критерий Барнарда. Только максимума, а не минимума. Не знала раньше о таком, спасибо, не права насчёт единственности.