2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение15.06.2013, 08:55 
Аватара пользователя
В зависимости от выбранного количества интервалов гипотеза может быть или принята или отвергнута. И это с одними и теми же данными. Как всё таки корректно поступать?

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение15.06.2013, 17:28 
Аватара пользователя
Ну и вопросик! Думаете, есть общий алгоритм?

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение15.06.2013, 18:38 
Аватара пользователя
(ничего не знаю о критерии Пирсона)
Выбор количества интервалов остается за пользователем, тем самым и ответственность за результат переносится с Пирсона на пользователя. Считаете, что критерий врёт? -- ну а кто вас заставлял брать именно столько интервалов? Вот если бы вы взяли столько-то...

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение15.06.2013, 18:41 
Аватара пользователя
Я как-то ради интереса смоделировал процесс проверки гипотезы .
Брал 150 выборок объемом 100, сгенерированных Random ( равномерные ), и 150 по 100 - сгенерированных RandG ( нормальное ). И разбивал или на 7, или на 8 интервалов.
Итог, при уровне значимости 0,05:
а) по равномерным. в 10,7% случаев при 7 принято, при 8 -нет, в 4% случаев - наоборот, в остальных случаях - совпало,
б) по нормальным. в 12,7% случаев при 7 принято, при 8 -нет, в 5,3% случаев - наоборот, в остальных случаях - совпало.
То есть, при 7 интервалах - более "согласный" критерий.
Правда, малочисленные интервалы ( частоты менее 5) не объединял.
Число степеней свободы, конечно учитывал.

Конечно, разбивка на интервалы - это неизбежный произвол. Кроме того, можно еще по разному разбивать - например, не равной длины, а равной частоты.
PS А если сравнить Пирсона и Колмогорова, то Колмогоров почти всегда - " согласнее".

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение15.06.2013, 18:44 
Аватара пользователя
Критерий Пирсона вообще довольно сомнительный.

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение17.06.2013, 01:21 
ИМХО, критерий Пирсона - для дискретных распределений. Для непрерывных процедура фактически сводится к предварительной "дискретизации" (за счет выбора интервалов), а потому, по сути, осуществляется на классах эквивалентности (критерий не различает непрерывные распределения, имеющие одинаковые "дискретизации"). С этой точки зрения, выбор интервалов должен ложиться на исследователя. (Который к тому же при малых объемах выборки должен еще учитывать тот факт, что критерий Пирсона асимптотически непараметрический, а потому интервалы нужно подбирать так, чтобы обеспечить приемлемую точность аппроксимации предельным распределением).

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение17.06.2013, 22:48 
Аватара пользователя
В собственно критерии Пирсона никаких интервалов, вообще-то, нет. Есть вероятности некоторых событий и наблюдаемые частости. Интервалы появляются, когда мы сводим непрерывное распределение к дискретному, вводя группировку. Это вносит произвол. И приходится пользоваться голимой эмпирикой. Скажем, можно взять формулу Стёрджесса
$n=1+\log_2N=1+3.333\lg N$
При том, что она выводилась для совершенно иной задачи (рисования гистограмм), да и там не слишком обоснована, она может внести единообразие

(Оффтоп)

Хоть и безобразно, но однообразно! (майор Шматов, командуя взводу расстегнуть воротники в жару)


-- 17 июн 2013, 22:55 --

Предлагались и иные формулы для группировки. Скажем, формула Скотта для ширины интервала
$h=3.5\sigma N^{1/3}$, сигма - выборочное стандартное отклонение
или формула Фридмана и Диакониса
$h=2I_QN^{1/3}$, где $I_Q$ - интерквартильное расстояние.
Оснований для предпочтения одной из них другой мало, и скорее надо пользоваться пусть не лучшей, но одинаковой формулой.
Неопределённость вносится также выбором границ интервалов (скажем, простое их округление может давать неожиданно большой эффект), а также объединением интервалов, чтобы получить достаточно большое количество наблюдений в ячейке.

 
 
 
 Re: Критерий Пирсона. Произвол в выборе количества интервалов...
Сообщение17.06.2013, 23:04 
Аватара пользователя
Новосибирский ГТУ, похоже плотно этой проблемой занимался.
Вот http://www.ami.nstu.ru/~headrd/seminar/publik_html/Z_lab_8.htm

 
 
 [ Сообщений: 8 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group