Проверка сложной гипотезы при помощи критерия Колмогорова.

Александрович · 21/01/09 3948 Дивногорск

Пусть у нас есть выборка объёмом 200 и следует проверить гипотезу на принадлежность её к некому распределению. Критерий Колмогорова работает только с известными (определёнными не по этой выборке) параметрами распределения. Пусть мы проранжировали выборку и разделили её на две, по чётным и нечетным порядковым номерам. По одной выборке объёмом 100 мы находим параметры распределения, а по второй проверяем простую гипотезу о принадлежности её к известному распределению. Можем ли мы принять гипотезу о принадлежности выборки объёмом 200 к гипотетическому распределению, если гипотеза по проверяемой полвыборки была не отвергнута?

worm2 · 01/08/06 3170 Уфа

Скажу банальность. Любой нестандартный метод нужно как-то проверять. Либо искать в точности такой же в публикациях (с невысокими шансами), либо изучать самостоятельно — аналитически (шансов также немного), либо Монте-Карлой. Только так можно получить что-то действительно адекватное. Облегчает задачу то, что размер выборки заранее известен, но если нам нужно для произвольной выборки, то объём исследований (вычислений) возрастает.

Александрович · 21/01/09 3948 Дивногорск

worm2 в сообщении #755729 писал(а):

Скажу банальность. Любой нестандартный метод нужно как-то проверять.

Про этот метод я где-то уже читал, правда не помню где. Надеюсь что здесь мне дадут ссылку.

statistonline · 06/09/12 892

Александрович в сообщении #755732 писал(а):

Про этот метод я где-то уже читал, правда не помню где

Напоминает некий частный вариант бутстрепа. Не оно?

Andrew Gubarev · 14/09/10 72

В начальном сообщении описывается "почти модификация" Durbin’а.

В [1, с. 59 (несколько строк)] отмечено: из результатов Рао вытекает что, если оценивать параметры по половине выборки, а при вычислении статистики критерия (с оценкой вместо истинного значения параметра) использовать всю выборку, то асимптотически распределение статистики Комогорова — Смирнова будет то же, что и при проверке простой гипотезы. Этот метод получил название “half-sample”. В [2] получено, что предельное распределение статистики критерия “half-sample” метода то же, что и предложенного ранее метода “random substitution”. В [3] для случая нормального и показательного распределений методом Монте-Карло сравниваются мощности критерия использующего для оценки параметров всю выборку и специальные таблицы для критических значений (для удобства ссылки назовем его критерием Лиллиефорса, хотя на самом деле использовалась модификация Стефенса) и критерия “half-sample”. Оказывается: при малых объемах выборки (до 20; в те времена промоделировать выборки большого объёма было невозможно), крайне малом числе выборок (1000) и только одном уровне значимости, мощность критерия “half-sample” меньше мощности критерия Лиллиефорса. Этим и объясняется использование критерия Лиллиефорса несмотря на утомительное моделирование для получения таблицы критических значений. [Другой (субъективный) недостаток методов “half-sample” и “random substitution”: в случае двух проверок (для одной и той же реализации выборки, т.е. на одном и том же экспериментальном материале) в одном случае основная гипотеза может быть отвергнута, а в другом принята.]

(Ссылки на “half-sample” на русском)

На русском ссылки на “half-sample” можно найти в работах А.И. Орлова (например О критериях согласия с параметрическим семейством или Б.Ю. Лемешко:
Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов. // Заводская лаборатория. Диагностика материалов. 1998. Т. 64. - № 3. - С. 61-72 (pdf);
Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров. // Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 7. - С. 62-71.

[1] Durbin J. Distribution theory for tests based on sample distribution function. — Regional Conference Series in applied Mathematics, SIAM publications No. 9, Philadelphia, 1973 (djvu).
[2] Durbin J. Kolmogorov–Smirnov tests when parameters are estimated. // Lecture Notes in Mathematics Vol. 566, 1976, pp 33-44.
[3] Stephens M.A. On the Half-sample Method for Goodness-of-fit. // J. R. Statist. Soc. B (1978), 40, No.1, pp. 64-70.

P.S. Модификации критерия КС для проверки сложной гипотезы обсуждались в сообщении «Сравнение реальных уровней значимости различных модификаций критерия Колмогорова — Смирнова для сложной гипотезы».

--==Добавлено 21.08.2013 ==--

Чтобы получить представление насколько проигрывает в мощности метод “half-sample” критерию Лиллиефорса, я выполнил незамысловатое моделирование, в котором проверялась гипотеза о нормальности, а для генерации данных использовались генераторы нормального и равномерного распределения. В обоих случаях ожидание ( $\alpha$ ) полагалось равным нулю, а стандартное отклонение ( $\sigma$ ) — единице. Результатами расчетов были оценки вероятности ( $p^*$ )отклонить: (A) верную гипотезу, (табл.1) [для контроля возможности использования асимптотического критерия и «качества» критических значений статистики] и (B) ложную гипотезу, табл.2. Расчеты выполнялись для выборок объёмов $n=100$ и $n=400$ . Для каждого объёма выборки для получения $p^*$ было сгенерировано 1 млн. реализаций выборки.

(Детали расчетов)

1. В качестве генератора равномерно распределённых на [0,1] случайных чисел использовался встроенный генератор Delphi. Нормально распределённые случайные числа генерировались при помощи метода полярных координат (Бокс — Мюллер — Марсалья, [Д. Кнут «Искусство программирования», T.2 Получисленные алгоритмы]).
Для каждой реализации выборки $x_1,\ldots, x_n$ рассчитывались значения о.м.п. параметра $\theta \equiv (\alpha, \sigma)$ :

$\hat{\theta}\equiv (\bar x, s), \bar x = \frac{1}{n}\sum_1^m x_i, s =\sqrt{\frac{1}{n}\sum_1^m (x_i - \bar x)^2},$

где $m$ равен $n$ для критерия Лиллиефорса и $n/2$ — для “half-sample”.

2. Далее, используя $\hat{\theta}$ в качестве значения параметра, стандартным образом рассчитывалось значение статистики Колмогорова — Смирнова $D_n$ :
2.1 Реализация выборки упорядочивалась по возрастанию: $x_{(1)}, x_{(2)},\ldots, x_{(n)}$ , где $x_{(i)} \le x_{(i+1)}$ .
2.2 Вычислялись
$D_n^+ = \max\limits_{i=1,\ldots, n} \left(\frac{i}{n} - F(x_{(i)}, \hat{\theta})\right)$ , $D_n^- = \max\limits_{i=1,\ldots, n} \left(F(x_{(i)}, \hat{\theta}) - \frac{i-1}{n}\right)$ , $D_n = \max(D_n^+, D_n^-)$ .
Для вычисления функции нормального распределения использовался модуль из библиотеки alglib.

3. Поскольку критерий “half-sample” асимптотический, для него использовались квантили распределения Колмогорова, а в качестве статистики критерия $S_K = \sqrt n D_n +\frac{1}{6\sqrt n}$ .
[Статистика $S_K$ обоснована для случая простой гипотезы. Для асимптотического критерия “half-sample” она использовалась «по аналогии» (без всякого обоснования) в связи с тем, что при использовании в качестве статистики критерия $\sqrt n D_n$ вероятность отклонить верную гипотезу заметно меньше уровня критерия.] Для критерия Лиллиефорса использовалась статистика $S_K = \sqrt n D_n$ и приведенные в работе W. F. Scott a & B. Stewart (2011) критические значения (для соответствующих объёмов выборок).

Для удобства в таблице приведены критические значения для критерия Лиллиефорса и критерия Колмогорова (строка $\infty$ )

$\small \begin{array}{|c | c | c | c|} \hline n & \varepsilon = 0.1 & \varepsilon = 0.05 & \varepsilon = 0.01 \\ \hline 100 & 0.8173 & 0.8899 & 1.0372 \\ \hline 400 & 0.8271 & 0.9002 & 1.0490 \\ \hline $\infty$ & 1.2238 & 1.3581 & 1.6276 \\ \hline \end{array}$

Табл.1 — Оценки вероятности отвергнуть истинную гипотезу «о нормальности»
$\small \begin{array}{|c | c | c | c | c|} \hline n & Критерий & \varepsilon = 0.1 & \varepsilon =0.05 & \varepsilon = 0.01 \\ \hline 100 & \text{Колмогоров} & 0.100 & 0.0499 & 0.0099 \\ \hline 100 & \text{“half-sample”} & 0.103 & 0.0520 & 0.0105 \\ \hline 100 & \text{Лиллиефорс} & 0.101 & 0.0502 & 0.0099(7) \\ \hline 400 & \text{Колмогоров} & 0.100 & 0.0503 & 0.0099 \\ \hline 400 & \text{“half-sample”} & 0.101 & 0.0510 & 0.0103 \\ \hline 400 & \text{Лиллиефорс} & 0.101 & 0.0506 & 0.0100 \\ \hline \end{array}$

В табл. 1 и 2 в стоках «Колмогоров» приведены результаты для случая проверки простой гипотезы, т.е. параметрам функции нормального распределения присваивались значения 0 и 1 соответственно. Хорошо видно, что для всех значений $\varepsilon$ и объёмов выборки оценка вероятности отклонить верную гипотезу близка к уровню значимости. [Точные совпадения являются, конечно, элементом случайности.]

Табл.2 — Оценки вероятности отвергнуть ложную гипотезу «о нормальности»
$\small \begin{array}{|c | c | c | c | c|} \hline n & Критерий & \varepsilon = 0.1 & \varepsilon = 0.05 & \varepsilon = 0.01$ \\ \hline 100 & \text{Колмогоров} & 0.40 & 0.26 & 0.085 \\ \hline 100 & \text{“half-sample”} & 0.35 & 0.20 & 0.047 \\ \hline 100 & \text{Лиллиефорс} & 0.78 & 0.61 & 0.27 \\ \hline 400 & \text{Колмогоров} & 0.94 & 0.85 & 0.54 \\ \hline 400 & \text{“half-sample”} & 0.96 & 0.87 & 0.50 \\ \hline 400 & \text{Лиллиефорс} & 1.00 & 0.9999 & 0.997 \\ \hline \end{array}$

Для всех объёмов выборки и уровней значимости оценки вероятности отклонить ложную гипотезу для критерия Лиллиефорса больше, чем для критерия “half-sample”. При уровне значимости 0.01 даже для объёма выборки 400 вероятность отклонить ложную гипотезу «о нормальности» для критерия “half-sample”, когда истинное распределение равномерное, близка к 0.5!

--==Добавлено 23.08.2013 ==--

Дополнительно попробовал оценить вероятность отклонить ложную гипотезу «о нормальности», если элементы выборки имеют распределение Стьюдента. В Табл. 3 в столбце $k$ указано число степеней свободы распределения Стьюдента. Для получения $p^*$ (для каждого объема выборки и каждой степени свободы) было сгенерировано 500 тыс. реализаций выборки. [Для получения случайных чисел с распределением Стьюдента использовалась функция InvStudentTDistribution из библиотеки alglib.]

Табл. 3 — оценки вероятности отклонить ложную гипотезу «о нормальности»
$\small \begin{array}{|c | c | c | c| c | c | c|} \hline n & \text{Критерий} & k &$\varepsilon = 0.1$ & $\varepsilon = 0.05$ & $\varepsilon = 0.01$ \\ \hline \hline 100 & \text{Колмогоров} & 1 & 0.952 & 0.872 & 0.553 \\ \hline 100 & \text{“half-sample”} & 1 & 0.991 & 0.984 & 0.959 \\ \hline 100 & \text{Лиллиефорс} & 1 & 1.000 & 1.0000 & 0.9999 \\ \hline 100 & \text{Колмогоров} & 5 & 0.139 & 0.072 & 0.015 \\ \hline 100 & \text{“half-sample”} & 5 & 0.250 & 0.158 & 0.054 \\ \hline 100 & \text{Лиллиефорс} & 5 & 0.434 & 0.320 & 0.155 \\ \hline \hline 400 & \text{Колмогоров} & 5 & 0.280 & 0.147 & 0.031 \\ \hline 400 & \text{“half-sample”} & 5 & 0.561 & 0.424 & 0.204 \\ \hline 400 & \text{Лиллиефорс} & 5 & 0.892 & 0.818 & 0.610 \\ \hline 400 & \text{Колмогоров} & 7 & 0.173 & 0.088 & 0.018 \\ \hline 400 & \text{“half-sample”} & 7 & 0.328 & 0.210 & 0.070 \\ \hline 400 & \text{Лиллиефорс} & 7 & 0.617 & 0.480 & 0.239 \\ \hline \end{array}$

И в этом случае оценки вероятностей отклонить ложную гипотезу «о нормальности» в случае применения критерия Лиллиефорса выше, чем в случае применения критерия “half-sample”.

Научный форум dxdy

Правила форума

Проверка сложной гипотезы при помощи критерия Колмогорова.

Кто сейчас на конференции