2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 10:10 
Аватара пользователя
Пусть у нас есть выборка объёмом 200 и следует проверить гипотезу на принадлежность её к некому распределению. Критерий Колмогорова работает только с известными (определёнными не по этой выборке) параметрами распределения. Пусть мы проранжировали выборку и разделили её на две, по чётным и нечетным порядковым номерам. По одной выборке объёмом 100 мы находим параметры распределения, а по второй проверяем простую гипотезу о принадлежности её к известному распределению. Можем ли мы принять гипотезу о принадлежности выборки объёмом 200 к гипотетическому распределению, если гипотеза по проверяемой полвыборки была не отвергнута?

 
 
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 10:20 
Аватара пользователя
Скажу банальность. Любой нестандартный метод нужно как-то проверять. Либо искать в точности такой же в публикациях (с невысокими шансами), либо изучать самостоятельно — аналитически (шансов также немного), либо Монте-Карлой. Только так можно получить что-то действительно адекватное. Облегчает задачу то, что размер выборки заранее известен, но если нам нужно для произвольной выборки, то объём исследований (вычислений) возрастает.

 
 
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 10:41 
Аватара пользователя
worm2 в сообщении #755729 писал(а):
Скажу банальность. Любой нестандартный метод нужно как-то проверять.

Про этот метод я где-то уже читал, правда не помню где. Надеюсь что здесь мне дадут ссылку.

 
 
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 19:27 
Александрович в сообщении #755732 писал(а):
Про этот метод я где-то уже читал, правда не помню где

Напоминает некий частный вариант бутстрепа. Не оно?

 
 
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение19.08.2013, 19:39 
В начальном сообщении описывается "почти модификация" Durbin’а.

В [1, с. 59 (несколько строк)] отмечено: из результатов Рао вытекает что, если оценивать параметры по половине выборки, а при вычислении статистики критерия (с оценкой вместо истинного значения параметра) использовать всю выборку, то асимптотически распределение статистики Комогорова — Смирнова будет то же, что и при проверке простой гипотезы. Этот метод получил название “half-sample”. В [2] получено, что предельное распределение статистики критерия “half-sample” метода то же, что и предложенного ранее метода “random substitution”. В [3] для случая нормального и показательного распределений методом Монте-Карло сравниваются мощности критерия использующего для оценки параметров всю выборку и специальные таблицы для критических значений (для удобства ссылки назовем его критерием Лиллиефорса, хотя на самом деле использовалась модификация Стефенса) и критерия “half-sample”. Оказывается: при малых объемах выборки (до 20; в те времена промоделировать выборки большого объёма было невозможно), крайне малом числе выборок (1000) и только одном уровне значимости, мощность критерия “half-sample” меньше мощности критерия Лиллиефорса. Этим и объясняется использование критерия Лиллиефорса несмотря на утомительное моделирование для получения таблицы критических значений. [Другой (субъективный) недостаток методов “half-sample” и “random substitution”: в случае двух проверок (для одной и той же реализации выборки, т.е. на одном и том же экспериментальном материале) в одном случае основная гипотеза может быть отвергнута, а в другом принята.]

(Ссылки на “half-sample” на русском)

На русском ссылки на “half-sample” можно найти в работах А.И. Орлова (например О критериях согласия с параметрическим семейством или Б.Ю. Лемешко:
Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов. // Заводская лаборатория. Диагностика материалов. 1998. Т. 64. - № 3. - С. 61-72 (pdf);
Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров. // Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 7. - С. 62-71.

[1] Durbin J. Distribution theory for tests based on sample distribution function. — Regional Conference Series in applied Mathematics, SIAM publications No. 9, Philadelphia, 1973 (djvu).
[2] Durbin J. Kolmogorov–Smirnov tests when parameters are estimated. // Lecture Notes in Mathematics Vol. 566, 1976, pp 33-44.
[3] Stephens M.A. On the Half-sample Method for Goodness-of-fit. // J. R. Statist. Soc. B (1978), 40, No.1, pp. 64-70.

P.S. Модификации критерия КС для проверки сложной гипотезы обсуждались в сообщении «Сравнение реальных уровней значимости различных модификаций критерия Колмогорова — Смирнова для сложной гипотезы».

--==Добавлено 21.08.2013 ==--

Чтобы получить представление насколько проигрывает в мощности метод “half-sample” критерию Лиллиефорса, я выполнил незамысловатое моделирование, в котором проверялась гипотеза о нормальности, а для генерации данных использовались генераторы нормального и равномерного распределения. В обоих случаях ожидание ($\alpha$) полагалось равным нулю, а стандартное отклонение ($\sigma$) — единице. Результатами расчетов были оценки вероятности ($p^*$)отклонить: (A) верную гипотезу, (табл.1) [для контроля возможности использования асимптотического критерия и «качества» критических значений статистики] и (B) ложную гипотезу, табл.2. Расчеты выполнялись для выборок объёмов $n=100$ и $n=400$. Для каждого объёма выборки для получения $p^*$ было сгенерировано 1 млн. реализаций выборки.

(Детали расчетов)

1. В качестве генератора равномерно распределённых на [0,1] случайных чисел использовался встроенный генератор Delphi. Нормально распределённые случайные числа генерировались при помощи метода полярных координат (Бокс — Мюллер — Марсалья, [Д. Кнут «Искусство программирования», T.2 Получисленные алгоритмы]).
Для каждой реализации выборки $x_1,\ldots, x_n$ рассчитывались значения о.м.п. параметра $\theta \equiv (\alpha, \sigma)$:
$\hat{\theta}\equiv (\bar x, s), \bar x = \frac{1}{n}\sum_1^m x_i, s =\sqrt{\frac{1}{n}\sum_1^m (x_i - \bar x)^2}, $
где $m$ равен $n$ для критерия Лиллиефорса и $n/2$ — для “half-sample”.

2. Далее, используя $\hat{\theta}$ в качестве значения параметра, стандартным образом рассчитывалось значение статистики Колмогорова — Смирнова $D_n$:
2.1 Реализация выборки упорядочивалась по возрастанию: $x_{(1)}, x_{(2)},\ldots, x_{(n)}$, где $x_{(i)} \le x_{(i+1)}$.
2.2 Вычислялись
$D_n^+ = \max\limits_{i=1,\ldots, n} \left(\frac{i}{n} - F(x_{(i)}, \hat{\theta})\right)$, $D_n^- = \max\limits_{i=1,\ldots, n} \left(F(x_{(i)}, \hat{\theta}) - \frac{i-1}{n}\right)$, $D_n = \max(D_n^+, D_n^-)$.
Для вычисления функции нормального распределения использовался модуль из библиотеки alglib.

3. Поскольку критерий “half-sample” асимптотический, для него использовались квантили распределения Колмогорова, а в качестве статистики критерия $S_K = \sqrt n D_n +\frac{1}{6\sqrt n}$.
[Статистика $S_K$ обоснована для случая простой гипотезы. Для асимптотического критерия “half-sample” она использовалась «по аналогии» (без всякого обоснования) в связи с тем, что при использовании в качестве статистики критерия $\sqrt n D_n$ вероятность отклонить верную гипотезу заметно меньше уровня критерия.] Для критерия Лиллиефорса использовалась статистика $S_K = \sqrt n D_n$ и приведенные в работе W. F. Scott a & B. Stewart (2011) критические значения (для соответствующих объёмов выборок).

Для удобства в таблице приведены критические значения для критерия Лиллиефорса и критерия Колмогорова (строка $\infty$)
\small \begin{array}{|c | c | c | c|} 
\hline
n  & \varepsilon = 0.1 & \varepsilon = 0.05 & \varepsilon = 0.01 \\
\hline
100  & 0.8173 & 0.8899 & 1.0372 \\
\hline
400  & 0.8271 & 0.9002 & 1.0490 \\
\hline
$\infty$ & 1.2238 & 1.3581 & 1.6276 \\
\hline
\end{array}

Табл.1 — Оценки вероятности отвергнуть истинную гипотезу «о нормальности»
\small \begin{array}{|c | c | c | c | c|} 
\hline
n & Критерий & \varepsilon = 0.1 & \varepsilon =0.05 & \varepsilon = 0.01 \\
\hline
100 & \text{Колмогоров} & 0.100 & 0.0499 & 0.0099 \\
\hline
100 & \text{“half-sample”} & 0.103 & 0.0520 & 0.0105 \\
\hline
100 & \text{Лиллиефорс} & 0.101 & 0.0502 & 0.0099(7) \\
\hline
400 & \text{Колмогоров} & 0.100 & 0.0503 & 0.0099 \\
\hline
400 & \text{“half-sample”} & 0.101 & 0.0510 & 0.0103 \\ 
\hline
400 & \text{Лиллиефорс} & 0.101 & 0.0506 & 0.0100 \\
\hline
\end{array}
В табл. 1 и 2 в стоках «Колмогоров» приведены результаты для случая проверки простой гипотезы, т.е. параметрам функции нормального распределения присваивались значения 0 и 1 соответственно. Хорошо видно, что для всех значений $\varepsilon$ и объёмов выборки оценка вероятности отклонить верную гипотезу близка к уровню значимости. [Точные совпадения являются, конечно, элементом случайности.]

Табл.2 — Оценки вероятности отвергнуть ложную гипотезу «о нормальности»
\small \begin{array}{|c | c | c | c | c|} 
\hline
n & Критерий & \varepsilon = 0.1 & \varepsilon = 0.05 & \varepsilon = 0.01$ \\
\hline
100 & \text{Колмогоров} & 0.40 & 0.26 & 0.085 \\
\hline
100 & \text{“half-sample”} & 0.35 & 0.20 & 0.047 \\
\hline
100 & \text{Лиллиефорс} & 0.78 & 0.61 & 0.27 \\
\hline
400 & \text{Колмогоров} & 0.94 & 0.85 & 0.54 \\
\hline
400 & \text{“half-sample”} & 0.96 & 0.87 & 0.50 \\ 
\hline
400 & \text{Лиллиефорс} & 1.00 & 0.9999 & 0.997 \\
\hline
\end{array}
Для всех объёмов выборки и уровней значимости оценки вероятности отклонить ложную гипотезу для критерия Лиллиефорса больше, чем для критерия “half-sample”. При уровне значимости 0.01 даже для объёма выборки 400 вероятность отклонить ложную гипотезу «о нормальности» для критерия “half-sample”, когда истинное распределение равномерное, близка к 0.5!

--==Добавлено 23.08.2013 ==--

Дополнительно попробовал оценить вероятность отклонить ложную гипотезу «о нормальности», если элементы выборки имеют распределение Стьюдента. В Табл. 3 в столбце $k$ указано число степеней свободы распределения Стьюдента. Для получения $p^*$ (для каждого объема выборки и каждой степени свободы) было сгенерировано 500 тыс. реализаций выборки. [Для получения случайных чисел с распределением Стьюдента использовалась функция InvStudentTDistribution из библиотеки alglib.]

Табл. 3 — оценки вероятности отклонить ложную гипотезу «о нормальности»
\small \begin{array}{|c | c | c | c| c | c | c|}
\hline
n & \text{Критерий} & k &$\varepsilon = 0.1$ & $\varepsilon = 0.05$ & $\varepsilon = 0.01$ \\
\hline
\hline
100 & \text{Колмогоров} & 1 & 0.952 & 0.872 & 0.553 \\
\hline
100 & \text{“half-sample”} & 1 & 0.991 & 0.984 & 0.959 \\
\hline
100 & \text{Лиллиефорс} & 1 & 1.000 & 1.0000 & 0.9999 \\
\hline
100 & \text{Колмогоров} & 5 & 0.139 & 0.072 & 0.015 \\
\hline
100 & \text{“half-sample”} & 5 & 0.250 & 0.158 & 0.054 \\
\hline
100 & \text{Лиллиефорс} & 5 & 0.434 & 0.320 & 0.155 \\
\hline
\hline
400 & \text{Колмогоров} & 5 & 0.280 & 0.147 & 0.031 \\
\hline
400 & \text{“half-sample”} & 5 & 0.561 & 0.424 & 0.204 \\ 
\hline
400 & \text{Лиллиефорс} & 5 & 0.892 & 0.818 & 0.610 \\
\hline
400 & \text{Колмогоров} & 7 & 0.173 & 0.088 & 0.018 \\
\hline
400 & \text{“half-sample”} & 7 & 0.328 & 0.210 & 0.070 \\ 
\hline
400 & \text{Лиллиефорс} & 7 & 0.617 & 0.480 & 0.239 \\
\hline
\end{array}
И в этом случае оценки вероятностей отклонить ложную гипотезу «о нормальности» в случае применения критерия Лиллиефорса выше, чем в случае применения критерия “half-sample”.

 
 
 [ Сообщений: 5 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group