2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 10:10 
Аватара пользователя


21/01/09
3929
Дивногорск
Пусть у нас есть выборка объёмом 200 и следует проверить гипотезу на принадлежность её к некому распределению. Критерий Колмогорова работает только с известными (определёнными не по этой выборке) параметрами распределения. Пусть мы проранжировали выборку и разделили её на две, по чётным и нечетным порядковым номерам. По одной выборке объёмом 100 мы находим параметры распределения, а по второй проверяем простую гипотезу о принадлежности её к известному распределению. Можем ли мы принять гипотезу о принадлежности выборки объёмом 200 к гипотетическому распределению, если гипотеза по проверяемой полвыборки была не отвергнута?

 Профиль  
                  
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 10:20 
Заслуженный участник
Аватара пользователя


01/08/06
3139
Уфа
Скажу банальность. Любой нестандартный метод нужно как-то проверять. Либо искать в точности такой же в публикациях (с невысокими шансами), либо изучать самостоятельно — аналитически (шансов также немного), либо Монте-Карлой. Только так можно получить что-то действительно адекватное. Облегчает задачу то, что размер выборки заранее известен, но если нам нужно для произвольной выборки, то объём исследований (вычислений) возрастает.

 Профиль  
                  
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 10:41 
Аватара пользователя


21/01/09
3929
Дивногорск
worm2 в сообщении #755729 писал(а):
Скажу банальность. Любой нестандартный метод нужно как-то проверять.

Про этот метод я где-то уже читал, правда не помню где. Надеюсь что здесь мне дадут ссылку.

 Профиль  
                  
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение18.08.2013, 19:27 


06/09/12
890
Александрович в сообщении #755732 писал(а):
Про этот метод я где-то уже читал, правда не помню где

Напоминает некий частный вариант бутстрепа. Не оно?

 Профиль  
                  
 
 Re: Проверка сложной гипотезы при помощи критерия Колмогорова.
Сообщение19.08.2013, 19:39 
Заморожен


14/09/10
72
В начальном сообщении описывается "почти модификация" Durbin’а.

В [1, с. 59 (несколько строк)] отмечено: из результатов Рао вытекает что, если оценивать параметры по половине выборки, а при вычислении статистики критерия (с оценкой вместо истинного значения параметра) использовать всю выборку, то асимптотически распределение статистики Комогорова — Смирнова будет то же, что и при проверке простой гипотезы. Этот метод получил название “half-sample”. В [2] получено, что предельное распределение статистики критерия “half-sample” метода то же, что и предложенного ранее метода “random substitution”. В [3] для случая нормального и показательного распределений методом Монте-Карло сравниваются мощности критерия использующего для оценки параметров всю выборку и специальные таблицы для критических значений (для удобства ссылки назовем его критерием Лиллиефорса, хотя на самом деле использовалась модификация Стефенса) и критерия “half-sample”. Оказывается: при малых объемах выборки (до 20; в те времена промоделировать выборки большого объёма было невозможно), крайне малом числе выборок (1000) и только одном уровне значимости, мощность критерия “half-sample” меньше мощности критерия Лиллиефорса. Этим и объясняется использование критерия Лиллиефорса несмотря на утомительное моделирование для получения таблицы критических значений. [Другой (субъективный) недостаток методов “half-sample” и “random substitution”: в случае двух проверок (для одной и той же реализации выборки, т.е. на одном и том же экспериментальном материале) в одном случае основная гипотеза может быть отвергнута, а в другом принята.]

(Ссылки на “half-sample” на русском)

На русском ссылки на “half-sample” можно найти в работах А.И. Орлова (например О критериях согласия с параметрическим семейством или Б.Ю. Лемешко:
Лемешко Б.Ю., Постовалов С.Н. О распределениях статистик непараметрических критериев согласия при оценивании по выборкам параметров наблюдаемых законов. // Заводская лаборатория. Диагностика материалов. 1998. Т. 64. - № 3. - С. 61-72 (pdf);
Лемешко Б.Ю., Постовалов С.Н. О зависимости распределений статистик непараметрических критериев и их мощности от метода оценивания параметров. // Заводская лаборатория. Диагностика материалов. 2001. Т. 67. - № 7. - С. 62-71.

[1] Durbin J. Distribution theory for tests based on sample distribution function. — Regional Conference Series in applied Mathematics, SIAM publications No. 9, Philadelphia, 1973 (djvu).
[2] Durbin J. Kolmogorov–Smirnov tests when parameters are estimated. // Lecture Notes in Mathematics Vol. 566, 1976, pp 33-44.
[3] Stephens M.A. On the Half-sample Method for Goodness-of-fit. // J. R. Statist. Soc. B (1978), 40, No.1, pp. 64-70.

P.S. Модификации критерия КС для проверки сложной гипотезы обсуждались в сообщении «Сравнение реальных уровней значимости различных модификаций критерия Колмогорова — Смирнова для сложной гипотезы».

--==Добавлено 21.08.2013 ==--

Чтобы получить представление насколько проигрывает в мощности метод “half-sample” критерию Лиллиефорса, я выполнил незамысловатое моделирование, в котором проверялась гипотеза о нормальности, а для генерации данных использовались генераторы нормального и равномерного распределения. В обоих случаях ожидание ($\alpha$) полагалось равным нулю, а стандартное отклонение ($\sigma$) — единице. Результатами расчетов были оценки вероятности ($p^*$)отклонить: (A) верную гипотезу, (табл.1) [для контроля возможности использования асимптотического критерия и «качества» критических значений статистики] и (B) ложную гипотезу, табл.2. Расчеты выполнялись для выборок объёмов $n=100$ и $n=400$. Для каждого объёма выборки для получения $p^*$ было сгенерировано 1 млн. реализаций выборки.

(Детали расчетов)

1. В качестве генератора равномерно распределённых на [0,1] случайных чисел использовался встроенный генератор Delphi. Нормально распределённые случайные числа генерировались при помощи метода полярных координат (Бокс — Мюллер — Марсалья, [Д. Кнут «Искусство программирования», T.2 Получисленные алгоритмы]).
Для каждой реализации выборки $x_1,\ldots, x_n$ рассчитывались значения о.м.п. параметра $\theta \equiv (\alpha, \sigma)$:
$\hat{\theta}\equiv (\bar x, s), \bar x = \frac{1}{n}\sum_1^m x_i, s =\sqrt{\frac{1}{n}\sum_1^m (x_i - \bar x)^2}, $
где $m$ равен $n$ для критерия Лиллиефорса и $n/2$ — для “half-sample”.

2. Далее, используя $\hat{\theta}$ в качестве значения параметра, стандартным образом рассчитывалось значение статистики Колмогорова — Смирнова $D_n$:
2.1 Реализация выборки упорядочивалась по возрастанию: $x_{(1)}, x_{(2)},\ldots, x_{(n)}$, где $x_{(i)} \le x_{(i+1)}$.
2.2 Вычислялись
$D_n^+ = \max\limits_{i=1,\ldots, n} \left(\frac{i}{n} - F(x_{(i)}, \hat{\theta})\right)$, $D_n^- = \max\limits_{i=1,\ldots, n} \left(F(x_{(i)}, \hat{\theta}) - \frac{i-1}{n}\right)$, $D_n = \max(D_n^+, D_n^-)$.
Для вычисления функции нормального распределения использовался модуль из библиотеки alglib.

3. Поскольку критерий “half-sample” асимптотический, для него использовались квантили распределения Колмогорова, а в качестве статистики критерия $S_K = \sqrt n D_n +\frac{1}{6\sqrt n}$.
[Статистика $S_K$ обоснована для случая простой гипотезы. Для асимптотического критерия “half-sample” она использовалась «по аналогии» (без всякого обоснования) в связи с тем, что при использовании в качестве статистики критерия $\sqrt n D_n$ вероятность отклонить верную гипотезу заметно меньше уровня критерия.] Для критерия Лиллиефорса использовалась статистика $S_K = \sqrt n D_n$ и приведенные в работе W. F. Scott a & B. Stewart (2011) критические значения (для соответствующих объёмов выборок).

Для удобства в таблице приведены критические значения для критерия Лиллиефорса и критерия Колмогорова (строка $\infty$)
\small \begin{array}{|c | c | c | c|} 
\hline
n  & \varepsilon = 0.1 & \varepsilon = 0.05 & \varepsilon = 0.01 \\
\hline
100  & 0.8173 & 0.8899 & 1.0372 \\
\hline
400  & 0.8271 & 0.9002 & 1.0490 \\
\hline
$\infty$ & 1.2238 & 1.3581 & 1.6276 \\
\hline
\end{array}

Табл.1 — Оценки вероятности отвергнуть истинную гипотезу «о нормальности»
\small \begin{array}{|c | c | c | c | c|} 
\hline
n & Критерий & \varepsilon = 0.1 & \varepsilon =0.05 & \varepsilon = 0.01 \\
\hline
100 & \text{Колмогоров} & 0.100 & 0.0499 & 0.0099 \\
\hline
100 & \text{“half-sample”} & 0.103 & 0.0520 & 0.0105 \\
\hline
100 & \text{Лиллиефорс} & 0.101 & 0.0502 & 0.0099(7) \\
\hline
400 & \text{Колмогоров} & 0.100 & 0.0503 & 0.0099 \\
\hline
400 & \text{“half-sample”} & 0.101 & 0.0510 & 0.0103 \\ 
\hline
400 & \text{Лиллиефорс} & 0.101 & 0.0506 & 0.0100 \\
\hline
\end{array}
В табл. 1 и 2 в стоках «Колмогоров» приведены результаты для случая проверки простой гипотезы, т.е. параметрам функции нормального распределения присваивались значения 0 и 1 соответственно. Хорошо видно, что для всех значений $\varepsilon$ и объёмов выборки оценка вероятности отклонить верную гипотезу близка к уровню значимости. [Точные совпадения являются, конечно, элементом случайности.]

Табл.2 — Оценки вероятности отвергнуть ложную гипотезу «о нормальности»
\small \begin{array}{|c | c | c | c | c|} 
\hline
n & Критерий & \varepsilon = 0.1 & \varepsilon = 0.05 & \varepsilon = 0.01$ \\
\hline
100 & \text{Колмогоров} & 0.40 & 0.26 & 0.085 \\
\hline
100 & \text{“half-sample”} & 0.35 & 0.20 & 0.047 \\
\hline
100 & \text{Лиллиефорс} & 0.78 & 0.61 & 0.27 \\
\hline
400 & \text{Колмогоров} & 0.94 & 0.85 & 0.54 \\
\hline
400 & \text{“half-sample”} & 0.96 & 0.87 & 0.50 \\ 
\hline
400 & \text{Лиллиефорс} & 1.00 & 0.9999 & 0.997 \\
\hline
\end{array}
Для всех объёмов выборки и уровней значимости оценки вероятности отклонить ложную гипотезу для критерия Лиллиефорса больше, чем для критерия “half-sample”. При уровне значимости 0.01 даже для объёма выборки 400 вероятность отклонить ложную гипотезу «о нормальности» для критерия “half-sample”, когда истинное распределение равномерное, близка к 0.5!

--==Добавлено 23.08.2013 ==--

Дополнительно попробовал оценить вероятность отклонить ложную гипотезу «о нормальности», если элементы выборки имеют распределение Стьюдента. В Табл. 3 в столбце $k$ указано число степеней свободы распределения Стьюдента. Для получения $p^*$ (для каждого объема выборки и каждой степени свободы) было сгенерировано 500 тыс. реализаций выборки. [Для получения случайных чисел с распределением Стьюдента использовалась функция InvStudentTDistribution из библиотеки alglib.]

Табл. 3 — оценки вероятности отклонить ложную гипотезу «о нормальности»
\small \begin{array}{|c | c | c | c| c | c | c|}
\hline
n & \text{Критерий} & k &$\varepsilon = 0.1$ & $\varepsilon = 0.05$ & $\varepsilon = 0.01$ \\
\hline
\hline
100 & \text{Колмогоров} & 1 & 0.952 & 0.872 & 0.553 \\
\hline
100 & \text{“half-sample”} & 1 & 0.991 & 0.984 & 0.959 \\
\hline
100 & \text{Лиллиефорс} & 1 & 1.000 & 1.0000 & 0.9999 \\
\hline
100 & \text{Колмогоров} & 5 & 0.139 & 0.072 & 0.015 \\
\hline
100 & \text{“half-sample”} & 5 & 0.250 & 0.158 & 0.054 \\
\hline
100 & \text{Лиллиефорс} & 5 & 0.434 & 0.320 & 0.155 \\
\hline
\hline
400 & \text{Колмогоров} & 5 & 0.280 & 0.147 & 0.031 \\
\hline
400 & \text{“half-sample”} & 5 & 0.561 & 0.424 & 0.204 \\ 
\hline
400 & \text{Лиллиефорс} & 5 & 0.892 & 0.818 & 0.610 \\
\hline
400 & \text{Колмогоров} & 7 & 0.173 & 0.088 & 0.018 \\
\hline
400 & \text{“half-sample”} & 7 & 0.328 & 0.210 & 0.070 \\ 
\hline
400 & \text{Лиллиефорс} & 7 & 0.617 & 0.480 & 0.239 \\
\hline
\end{array}
И в этом случае оценки вероятностей отклонить ложную гипотезу «о нормальности» в случае применения критерия Лиллиефорса выше, чем в случае применения критерия “half-sample”.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 5 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group