Проверка гипотезы (частота признака 1 >= частоты признака 2)

provincialka · 11.09.2013, 00:21

После некоторого количества пересчетов со случайно задаваемыми исходными данными нашла случай, когда два критерия дают разные ответы.
В первой группе 15 успехов из 16
Во второй - 34 из 88

"Критерий И-М" дает значение 2,23901367, "обычный" - значение 3,809927534. Гипотеза - первая вероятность меньше. Находим вероятности того, что нормальная $(0; 1)$ величина принимает значения больше вычисленных. Эти вероятности (критические уровни значимости) равны 0,012577513 и 6,95038E-05 соответственно. При уровне значимости 1% по первому критерию гипотезу принимаем, по второму - отвергаем..

Ну и что кажется более адекватным? Ведь первая частота равна 0,94, а вторая - 0,38. Трудно предположить, что первая - меньше. Хотя, конечно, и отвергать этого полностью мы не можем.

В общем, первый критерий тоже вполне хороший.

_hum_ · 11.09.2013, 00:36

provincialka в сообщении #762630 писал(а):

Так что моя рекомендация не такая уж плохая.

Вы имели в виду эту:

provincialka в сообщении #762278 писал(а):

Вот, нашла такую статью. http://edu.dvgups.ru/METDOC/ENF/PRMATEM/SPEC_GL_PRMATEM/METOD/UP/frame/frame_tema4_3.htm Это? (см. пример 4.7)

?

А какой именно из описанных там критериев вы предлагали использовать?

provincialka · 11.09.2013, 01:00

Первый из тех, который посвящен сравнению вероятностей. Перед примером 4.7. Т.е. просто критерий сравнения средних, но вместо них берутся частоты. (неохота формулы переписывать).
Конечно, там предполагается равенство дисперсий. Но это все настолько условно...

_hum_ · 11.09.2013, 01:13

Дык...Там же

Цитата:

Пусть из каждой из двух нормально распределенных генеральных совокупностей

--mS-- · 11.09.2013, 05:25

provincialka в сообщении #762630 писал(а):

В подавляющем большинстве случаев они дают одинаковые выводы, особенно при не очень маленьких выборках.

Разумеется, ведь ЦПТ никто не отменял. Но кто поручится, что кто-то не станет применять те же критерии при выборках объёмов 3 и 5, ведь для нормальных выборок никаких ограничений на объём нет, размер критерия один и тот же. В отличие от критериев, размер которых приближается к нужному только с ростом объёмов обеих выборок, каковые критерии и должны быть для бернуллиевских выборок.

provincialka · 11.09.2013, 09:38

Ну, теоретически, конечно, это верно. Может, я не ту страницу читала, но у И.-М. вроде критерий только асимптотически распределен нормально. Да и вообще, выборки в 3-5 элементов принципиально не могут дать приличного результата, хотя бы потому, что частота принимает только определенный, весьма ограниченный, набор значений. Если в одной группе искомая вероятность равна 55%, а мы делаем 3 испытания, частота будет либо 33%, либо 67%, что никаким образом не похоже на истинное значение. И никакие, самые изощренные критерии здесь не спасут.

_hum_ · 11.09.2013, 15:30

provincialka
Ну, в принципе, так как изложено в Ивченко (все рассматривается в предельном случае), разница не слишком и заметна. Разве что стоит проверить, какой критерий оказывается все-таки мощнее.
Но по логике, критерий в Ивченко использует более полную информацию о выборке (учитывает, что она из распределения Бернулли), потому при всех прочих условиях, разумно ожидать, что и качество тестирования в нем может быть лучше. Хотя, опять же повторюсь, не мешало бы это проверить.

А насчет бессмысленности тестирования для малых выборок...Кхм...Так в общем случае задача тестирования состоит в том, чтобы по всей доступной информации (какой-бы скудной она ни была) все же сместить шанс угадывания (выигрывания) с 50% в свою пользу. В вашем примере в случае распределения Bernulli(0.55) вероятность появления частоты 33% равна 0.16, а частоты 67% - 0.41. Явная неоднородность, которую можно использовать в свою пользу при игре.

provincialka · 11.09.2013, 15:44

Игра - "оговорка по Фрейду". :-)

Если придется многократно делать выводы по 3 опытам - да, будет заметно. Но на практике-то задачу обычно решают один раз. Это же не тотализатор.

Кстати, о малых выборках. Как-то в интернете прочитала такую рекомендацию: если выборка мала, выпишите ее элементы несколько раз, размер выборки увеличится, а с ним и точность выводов :facepalm:

Это было на полном серьёзе!

(Оффтоп)

Можно дать задание студентам: объяснить, почему здесь не происходит улучшения результата

Александрович · 11.09.2013, 15:50

provincialka в сообщении #762871 писал(а):

Кстати, о малых выборках. Как-то в интернете прочитала такую рекомендацию: если выборка мала, выпишите ее элементы несколько раз, размер выборки увеличится, а с ним и точность выводов :facepalm:

Это было на полном серьёзе!

Бутстреп называется.

Цитата:

Предложен в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году). Суть метода в том, чтобы из имеющейся выборки сформировать достаточно большое количество (5—10 тыс.) псевдовыборок, размер каждой из которых совпадает с исходной, состоящих из случайных комбинаций исходного набора элементов (в результате в одной псевдовыборке некоторые исходные элементы могут встретиться несколько раз, тогда как другие — отсутствовать), и для каждой полученной псевдовыборки определить значения анализируемых статистических характеристик с целью изучить их разброс, устойчивость, распределение.

provincialka · 11.09.2013, 15:55

Наверное, авторы той статьи прочитали про бутстреп, но переврали его.

_hum_ · 11.09.2013, 16:21

provincialka в сообщении #762871 писал(а):

Игра - "оговорка по Фрейду". :-)

Если придется многократно делать выводы по 3 опытам - да, будет заметно. Но на практике-то задачу обычно решают один раз. Это же не тотализатор.

Не оговорка. Я намеренно использовал этот термин, поскольку в самом общем понимании, тестирование - это игра (в смысле понятия теории игр). В зависимости от цели, могут быть разные оптимальные стратегии будь то максимизация среднего выигрыша (если, например, поставили целью выигрыш за год) или минимизации вероятности проигрыша (играете в русскую рулетку на угадывание, однородна выборка или нет).

--mS-- · 11.09.2013, 18:17

_hum_ в сообщении #762865 писал(а):

Но по логике, критерий в Ивченко использует более полную информацию о выборке (учитывает, что она из распределения Бернулли)

Никоим образом. И там, и там используются обычные стьюдентизированные отношения выборочных средних к корню из выборочной дисперсии. ЦПТ - она для любых распределений одинаково работает.

Ещё раз: нельзя рекомендовать для произвольных распределений использовать критерии для нормальных выборок. Эдак и критерии для дисперсий - Фишера и т.п., - возникнет соблазн использовать, наплевав на нормальность. Размер при этом никто контролировать не сможет (а зачем?), а он будет в этих случаях отличаться от предполагаемого существенно (если только у распределений случайно не окажутся такие же эксцессы, как у нормального) вот и будем принимать гипотезы, думая, что ошибаемся в 5% случаев, а какую будем реально нести ошибку - бог весть. Поскольку распределение статистики критерия от такого же распределения при нормальных выборках будет отличаться существенно.

_hum_ · 11.09.2013, 19:15

--mS-- в сообщении #762918 писал(а):

Никоим образом. И там, и там используются обычные стьюдентизированные отношения выборочных средних к корню из выборочной дисперсии. ЦПТ - она для любых распределений одинаково работает.

Да, глянул более внимательно и увидел, что из бернуллиевости используется только дискретность (хи-квадрат статистика нацелена на дискретные или дискретизированные распределения), а в остальном все рассматривают в пределе. Тогда, действительно, непонятно, чем этот подход лучше, чем предложенный provincialka, ведь и в том случае предельное распределение статистики не зависит от распределения выборки (распределение статистики $Z[X_1, X_2] = (M^*_1 - M^*_2)/\sqrt{d^*_1 + d^*_2}$ при нормально распределенных выборках $X_1$ и $X_2$ больших объемов в силу теорем о сходимости не должно сильно отличаться от такового для распределенных по Бернулли).

--mS-- · 11.09.2013, 20:32

Меня вообще слышно, нет? Критерии для нормальных выборок предназначены только для нормальных выборок. Это критерии точного размера. Опираются на точное распределение статистики критерия. Предназначены для выборок любого объёма. Чтобы ими пользоваться для других распределений взамен нормальных, нужно быть в курсе предельных теорем и твёрдо понимать, что и когда делать можно, а что нельзя. А чтобы рекомендовать это делать - тем более. Как, например, опасно использовать к произвольным выборкам критерии, статистики которых построены по одним выборочным дисперсиям. Или использовать критерии, опирающиеся на ЦПТ, для выборки объёма 16 при числе успехов 15 - распределение статистики критерия грозит быть уж очень от нормального (от Стьюдента ли) далеким при столь малых оценках вероятности неудачи.

Критерий из И.-М. бессмысленно обвинять в том, что он устроен не так. Вопрос, напомню, возник из статистики критерия хи-квадрат: можно ли её использовать (а не как без неё проверить то же самое!). Так вот у И.-М. критерий именно из хи-квадрат критерия вырос. Поэтому там нет суммы дисперсий в знаменателе. Уж если на то пошло, см. в параграфе 13 гл.11 (или наоборот) решебника Гмурмана критерий, который принято использовать для этой задачи. Критерии для проверки равенства долей - настолько общее место, что нет никакого смысла предлагать забивать гвозди табуреткой, когда под рукой десяток молотков.

_hum_ · 11.09.2013, 21:29

--mS-- в сообщении #762954 писал(а):

Меня вообще слышно, нет? Критерии для нормальных выборок предназначены только для нормальных выборок. Это критерии точного размера. Опираются на точное распределение статистики критерия. Предназначены для выборок любого объёма.

Это все понятно. Но речь здесь несколько о другом. Пусть мне надо решить задачу ТС. Тогда, рассматривая в качестве кандидатов тест из Ивченко (назову его тестом "И") и тест по ссылке provincialka (назову его тест "П"), я рассуждаю следующим образом:
1) если объем моей выборки мал, то я не смогу корректно применить ни критерий "И" (ибо там используется предельное распределение), ни критерий "П" (ибо у меня не нормально распределенные величины);
2) если объем приличный, то могу напрямую применить критерий "И", к тому же, поскольку предельное распределение статистики $Z$ в критерии "П" не зависит от распределения исходной с.в., то значит, можно утверждать, что распределение статистики $Z$ при нормальном распределении выборки не должно слишком отличаться от такового для бернуллиевских:
$\mathbf{P}_{N}(Z < z) - \mathbf{P}_{B}(Z < z) \rightarrow 0,$
где $\mathbf{P}_{N}, \mathbf{P}_{B}$ - соответственно, вероятностные распределения на выборочном пространстве, отвечающие нормальному и бернуллиевскому распределению.
А значит, при больших объемах выборки тест "П" будет хорошо работать и для выборок, распределение которых отлично от нормальных (хоть изначально он и был нацелен на тестирование нормальных выборок любого размера).
В чем ошибка в рассуждениях?

Научный форум dxdy

Проверка гипотезы (частота признака 1 >= частоты признака 2)