2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 00:21 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
После некоторого количества пересчетов со случайно задаваемыми исходными данными нашла случай, когда два критерия дают разные ответы.
В первой группе 15 успехов из 16
Во второй - 34 из 88

"Критерий И-М" дает значение 2,23901367, "обычный" - значение 3,809927534. Гипотеза - первая вероятность меньше. Находим вероятности того, что нормальная $(0; 1)$ величина принимает значения больше вычисленных. Эти вероятности (критические уровни значимости) равны 0,012577513 и 6,95038E-05 соответственно. При уровне значимости 1% по первому критерию гипотезу принимаем, по второму - отвергаем..

Ну и что кажется более адекватным? Ведь первая частота равна 0,94, а вторая - 0,38. Трудно предположить, что первая - меньше. Хотя, конечно, и отвергать этого полностью мы не можем.

В общем, первый критерий тоже вполне хороший.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 00:36 


23/12/07
1763
provincialka в сообщении #762630 писал(а):
Так что моя рекомендация не такая уж плохая.

Вы имели в виду эту:

provincialka в сообщении #762278 писал(а):
Вот, нашла такую статью. http://edu.dvgups.ru/METDOC/ENF/PRMATEM/SPEC_GL_PRMATEM/METOD/UP/frame/frame_tema4_3.htm Это? (см. пример 4.7)

?

А какой именно из описанных там критериев вы предлагали использовать?

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 01:00 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Первый из тех, который посвящен сравнению вероятностей. Перед примером 4.7. Т.е. просто критерий сравнения средних, но вместо них берутся частоты. (неохота формулы переписывать).
Конечно, там предполагается равенство дисперсий. Но это все настолько условно...

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 01:13 


23/12/07
1763
Дык...Там же
Цитата:
Пусть из каждой из двух нормально распределенных генеральных совокупностей

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 05:25 
Заслуженный участник
Аватара пользователя


23/11/06
4171
provincialka в сообщении #762630 писал(а):
В подавляющем большинстве случаев они дают одинаковые выводы, особенно при не очень маленьких выборках.

Разумеется, ведь ЦПТ никто не отменял. Но кто поручится, что кто-то не станет применять те же критерии при выборках объёмов 3 и 5, ведь для нормальных выборок никаких ограничений на объём нет, размер критерия один и тот же. В отличие от критериев, размер которых приближается к нужному только с ростом объёмов обеих выборок, каковые критерии и должны быть для бернуллиевских выборок.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 09:38 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Ну, теоретически, конечно, это верно. Может, я не ту страницу читала, но у И.-М. вроде критерий только асимптотически распределен нормально. Да и вообще, выборки в 3-5 элементов принципиально не могут дать приличного результата, хотя бы потому, что частота принимает только определенный, весьма ограниченный, набор значений. Если в одной группе искомая вероятность равна 55%, а мы делаем 3 испытания, частота будет либо 33%, либо 67%, что никаким образом не похоже на истинное значение. И никакие, самые изощренные критерии здесь не спасут.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 15:30 


23/12/07
1763
provincialka
Ну, в принципе, так как изложено в Ивченко (все рассматривается в предельном случае), разница не слишком и заметна. Разве что стоит проверить, какой критерий оказывается все-таки мощнее.
Но по логике, критерий в Ивченко использует более полную информацию о выборке (учитывает, что она из распределения Бернулли), потому при всех прочих условиях, разумно ожидать, что и качество тестирования в нем может быть лучше. Хотя, опять же повторюсь, не мешало бы это проверить.

А насчет бессмысленности тестирования для малых выборок...Кхм...Так в общем случае задача тестирования состоит в том, чтобы по всей доступной информации (какой-бы скудной она ни была) все же сместить шанс угадывания (выигрывания) с 50% в свою пользу. В вашем примере в случае распределения Bernulli(0.55) вероятность появления частоты 33% равна 0.16, а частоты 67% - 0.41. Явная неоднородность, которую можно использовать в свою пользу при игре.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 15:44 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Игра - "оговорка по Фрейду". :-) Если придется многократно делать выводы по 3 опытам - да, будет заметно. Но на практике-то задачу обычно решают один раз. Это же не тотализатор.

Кстати, о малых выборках. Как-то в интернете прочитала такую рекомендацию: если выборка мала, выпишите ее элементы несколько раз, размер выборки увеличится, а с ним и точность выводов :facepalm: Это было на полном серьёзе!

(Оффтоп)

Можно дать задание студентам: объяснить, почему здесь не происходит улучшения результата

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 15:50 
Аватара пользователя


21/01/09
3929
Дивногорск
provincialka в сообщении #762871 писал(а):
Кстати, о малых выборках. Как-то в интернете прочитала такую рекомендацию: если выборка мала, выпишите ее элементы несколько раз, размер выборки увеличится, а с ним и точность выводов :facepalm: Это было на полном серьёзе!

Бутстреп называется.
Цитата:
Предложен в 1977 году Брэдли Эфроном (первая публикация относится к 1979 году). Суть метода в том, чтобы из имеющейся выборки сформировать достаточно большое количество (5—10 тыс.) псевдовыборок, размер каждой из которых совпадает с исходной, состоящих из случайных комбинаций исходного набора элементов (в результате в одной псевдовыборке некоторые исходные элементы могут встретиться несколько раз, тогда как другие — отсутствовать), и для каждой полученной псевдовыборки определить значения анализируемых статистических характеристик с целью изучить их разброс, устойчивость, распределение.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 15:55 
Заслуженный участник
Аватара пользователя


18/01/13
12065
Казань
Наверное, авторы той статьи прочитали про бутстреп, но переврали его.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 16:21 


23/12/07
1763
provincialka в сообщении #762871 писал(а):
Игра - "оговорка по Фрейду". :-) Если придется многократно делать выводы по 3 опытам - да, будет заметно. Но на практике-то задачу обычно решают один раз. Это же не тотализатор.

Не оговорка. Я намеренно использовал этот термин, поскольку в самом общем понимании, тестирование - это игра (в смысле понятия теории игр). В зависимости от цели, могут быть разные оптимальные стратегии будь то максимизация среднего выигрыша (если, например, поставили целью выигрыш за год) или минимизации вероятности проигрыша (играете в русскую рулетку на угадывание, однородна выборка или нет).

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 18:17 
Заслуженный участник
Аватара пользователя


23/11/06
4171
_hum_ в сообщении #762865 писал(а):
Но по логике, критерий в Ивченко использует более полную информацию о выборке (учитывает, что она из распределения Бернулли)

Никоим образом. И там, и там используются обычные стьюдентизированные отношения выборочных средних к корню из выборочной дисперсии. ЦПТ - она для любых распределений одинаково работает.

Ещё раз: нельзя рекомендовать для произвольных распределений использовать критерии для нормальных выборок. Эдак и критерии для дисперсий - Фишера и т.п., - возникнет соблазн использовать, наплевав на нормальность. Размер при этом никто контролировать не сможет (а зачем?), а он будет в этих случаях отличаться от предполагаемого существенно (если только у распределений случайно не окажутся такие же эксцессы, как у нормального) вот и будем принимать гипотезы, думая, что ошибаемся в 5% случаев, а какую будем реально нести ошибку - бог весть. Поскольку распределение статистики критерия от такого же распределения при нормальных выборках будет отличаться существенно.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 19:15 


23/12/07
1763
--mS-- в сообщении #762918 писал(а):
Никоим образом. И там, и там используются обычные стьюдентизированные отношения выборочных средних к корню из выборочной дисперсии. ЦПТ - она для любых распределений одинаково работает.

Да, глянул более внимательно и увидел, что из бернуллиевости используется только дискретность (хи-квадрат статистика нацелена на дискретные или дискретизированные распределения), а в остальном все рассматривают в пределе. Тогда, действительно, непонятно, чем этот подход лучше, чем предложенный provincialka, ведь и в том случае предельное распределение статистики не зависит от распределения выборки (распределение статистики $Z[X_1, X_2] = (M^*_1 - M^*_2)/\sqrt{d^*_1 + d^*_2}$ при нормально распределенных выборках $X_1$ и $X_2$ больших объемов в силу теорем о сходимости не должно сильно отличаться от такового для распределенных по Бернулли).

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 20:32 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Меня вообще слышно, нет? Критерии для нормальных выборок предназначены только для нормальных выборок. Это критерии точного размера. Опираются на точное распределение статистики критерия. Предназначены для выборок любого объёма. Чтобы ими пользоваться для других распределений взамен нормальных, нужно быть в курсе предельных теорем и твёрдо понимать, что и когда делать можно, а что нельзя. А чтобы рекомендовать это делать - тем более. Как, например, опасно использовать к произвольным выборкам критерии, статистики которых построены по одним выборочным дисперсиям. Или использовать критерии, опирающиеся на ЦПТ, для выборки объёма 16 при числе успехов 15 - распределение статистики критерия грозит быть уж очень от нормального (от Стьюдента ли) далеким при столь малых оценках вероятности неудачи.

Критерий из И.-М. бессмысленно обвинять в том, что он устроен не так. Вопрос, напомню, возник из статистики критерия хи-квадрат: можно ли её использовать (а не как без неё проверить то же самое!). Так вот у И.-М. критерий именно из хи-квадрат критерия вырос. Поэтому там нет суммы дисперсий в знаменателе. Уж если на то пошло, см. в параграфе 13 гл.11 (или наоборот) решебника Гмурмана критерий, который принято использовать для этой задачи. Критерии для проверки равенства долей - настолько общее место, что нет никакого смысла предлагать забивать гвозди табуреткой, когда под рукой десяток молотков.

 Профиль  
                  
 
 Re: Проверка гипотезы (частота признака 1 >= частоты признака 2)
Сообщение11.09.2013, 21:29 


23/12/07
1763
--mS-- в сообщении #762954 писал(а):
Меня вообще слышно, нет? Критерии для нормальных выборок предназначены только для нормальных выборок. Это критерии точного размера. Опираются на точное распределение статистики критерия. Предназначены для выборок любого объёма.

Это все понятно. Но речь здесь несколько о другом. Пусть мне надо решить задачу ТС. Тогда, рассматривая в качестве кандидатов тест из Ивченко (назову его тестом "И") и тест по ссылке provincialka (назову его тест "П"), я рассуждаю следующим образом:
1) если объем моей выборки мал, то я не смогу корректно применить ни критерий "И" (ибо там используется предельное распределение), ни критерий "П" (ибо у меня не нормально распределенные величины);
2) если объем приличный, то могу напрямую применить критерий "И", к тому же, поскольку предельное распределение статистики $Z$ в критерии "П" не зависит от распределения исходной с.в., то значит, можно утверждать, что распределение статистики $Z$ при нормальном распределении выборки не должно слишком отличаться от такового для бернуллиевских:
$$ \mathbf{P}_{N}(Z < z)  - \mathbf{P}_{B}(Z < z) \rightarrow 0,$$
где $\mathbf{P}_{N},  \mathbf{P}_{B} $ - соответственно, вероятностные распределения на выборочном пространстве, отвечающие нормальному и бернуллиевскому распределению.
А значит, при больших объемах выборки тест "П" будет хорошо работать и для выборок, распределение которых отлично от нормальных (хоть изначально он и был нацелен на тестирование нормальных выборок любого размера).
В чем ошибка в рассуждениях?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 45 ]  На страницу Пред.  1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group