2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 12:54 
Аватара пользователя


21/01/09
3925
Дивногорск
ewert в сообщении #493065 писал(а):
Тем не менее -- словосочетание "критерий Колмогорова-Смирнова" вполне устойчиво (см., например, ссылку PAV).

Согласен. Кто-то просто протаскивает это по неграмотности своей. На самом деле Колмогоров и Смирнов вместе никогда не работали над одним критерием.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 13:01 
Заслуженный участник


11/05/08
32166
Александрович в сообщении #493079 писал(а):
Кто-то просто протаскивает это по неграмотности своей.

В МЭ неграмотных как-то не очень много было.

Александрович в сообщении #493079 писал(а):
На самом деле Колмогоров и Смирнов вместе никогда не работали над одним критерием.

Ну и что?... Коши, скажем, тоже ни разу в жизни не работал вместе с Буняковским над одним и тем же неравенством.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 14:22 
Аватара пользователя


21/01/09
3925
Дивногорск
Всё-таки это два разних критерия. Общего не существует.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 14:32 
Заслуженный участник


11/05/08
32166
Есть критерий существования критерия: критерий существует тогда и только тогда, когда он упоминается в официальной литературе, точка. История вопроса и прочая лирика никакого значения не имеют. Критерий Колмогорова-Смирнова упоминается в МЭ, а уж официальнее МЭ некуда.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 14:42 
Аватара пользователя


21/01/09
3925
Дивногорск
Есть критерии:
1. Колмогорова,
2. Смирнова.
Они известны специалистам. Просветите пожалуйста про критерий Колмогорова-Смирнова.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 15:10 


26/08/11
2100
Александрович в сообщении #493105 писал(а):
Есть критерии:
1. Колмогорова,
2. Смирнова.
Они известны специалистам. Просветите пожалуйста про критерий Колмогорова-Смирнова.

http://machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%9A%D0%BE%D0%BB%D0%BC%D0%BE%D0%B3%D0%BE%D1%80%D0%BE%D0%B2%D0%B0-%D0%A1%D0%BC%D0%B8%D1%80%D0%BD%D0%BE%D0%B2%D0%B0

http://www.fmi.uni-sofia.bg/fmi/statist ... nonpar.htm
Здесь на болгарском. Мне от етого, все равно понетнее не стало

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение16.10.2011, 15:56 
Заслуженный участник


11/05/08
32166
Александрович в сообщении #493105 писал(а):
Есть критерии:
1. Колмогорова,
2. Смирнова.
Они известны специалистам. Просветите пожалуйста про критерий Колмогорова-Смирнова.

Так просвещали же уже: Математическая энциклопедия, т.2, с.959, статья "Колмогорова-Смирнова критерий". Чуть ранее, на с.955 -- просто "Колмогорова критерий"; это действительно модификация предыдущего (вернее, наоборот). Такая терминология вполне естественна, поскольку есть ещё и просто "Смирнова критерий" (там же, т.5, с.52), и вот он-то на совсем другую тему -- на проверку одинаковости для двух выборок.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение18.10.2011, 14:49 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Нет ли резона использовать омега-квадрат? Например, в таком варианте:
http://www.machinelearning.ru/wiki/inde ... 0%B0%D1%82

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение18.10.2011, 20:41 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Еще на критерий Колмогорова-Смирнова есть ссылка в энциклопедии "Вероятность и математическая статистика", 1999 год издания, стр. 244. Там же специально отмечен случай проверки на нормальность; в частности, указаны асимптотические формулы для вычисления уровня значимости без таблиц.

Вообще должен заметить (хотя это возможно вызовет определенное неприятие у ортодоксальных статистков), что во многих прикладных задачах точные таблицы квантилей статистики, по которой принимается решение, не нужны. Достаточно того, что вероятность ошибки монотонно зависит от значения используемой статистики. Во многих ситуациях, когда статистические критерии используются для принятия решений, закзачику предоставляется возможность самому выбрать порог принятия решения (вместе с рекомендациями по этому выбору), и реально он выбирает порог, глядя на ошибку, которая достигается на имеющихся у него тестовых данных, так чтобы она лежала в требуемых ему пределах. А точное указание уровня значимости - это как правило уже изыск, который используется в теоретических статьях, но практически на деле особого смысла не несет. Все равно теоретические предположения, при которых вычислен этот уровень значимости, на деле нередко выполняются лишь приближенно.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение18.10.2011, 21:01 
Заслуженный участник


11/05/08
32166

(Оффтоп)

PAV в сообщении #493949 писал(а):
Все равно теоретические предположения, при которых вычислен этот уровень значимости, на деле нередко выполняются лишь приближенно.

это само собой; но что до меня лично -- так я и вообще не статистик. Мне просто учебные задачки на эту тему доводилось генерировать. Вот и захотелось запрограммировать что-то, что давало бы формально правильный ответ (пусть и практически бесполезный) во всех мыслимых ситуациях. Отчасти -- из чисто спортивного интересу; а отчасти -- потому, что без этого неудобно отлаживать программу генерации.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение19.10.2011, 11:22 
Заслуженный участник
Аватара пользователя


23/11/06
4171
PAV в сообщении #493949 писал(а):
Еще на критерий Колмогорова-Смирнова есть ссылка в энциклопедии "Вероятность и математическая статистика", 1999 год издания, стр. 244. Там же специально отмечен случай проверки на нормальность; в частности, указаны асимптотические формулы для вычисления уровня значимости без таблиц.


Спасибо за ссылку! Теперь интересно, может, кто-нибудь знает: нарисованное там "почти" предельное распределение статистики критерия Колмогорова
$$\mathsf P(\sqrt{n}\sup_y |F_n^*(y) - \Phi_{\overline X, S^2}(y)|\geq  t)  \approx 2\sqrt{\frac{2\pi}{\pi-2}}\exp\left(-\frac{2\pi}{\pi-2}t^2\right) \qquad \text{при больших } n
$$
это и есть то, что используется в так называемом (на западе) критерии Лиллиефорса?

Евгений Машеров в сообщении #493822 писал(а):
Нет ли резона использовать омега-квадрат? Например, в таком варианте:
http://www.machinelearning.ru/wiki/inde ... 0%B0%D1%82

Был бы резон, кабы гипотеза была простая, и кабы по этой ссылке не был бы написан один сплошной бред типа "Приведёт к увеличению количества ошибок второго рода" (и это ещё не самое страшное: самое страшное - это $F\left(x_i - \frac{2i-1}{2n}\right)$ вместо $\left(F(x_{(i)}) - \frac{2i-1}{2n}\right)$. Можете себе представить, какой сюрреализм получится от испоьзования такой статистики). См. ссылку на критерий Андерсона - Дарлинга выше, это хоть и тоже вариант омега-квадрат с другой весовой функцией, но там хоть всё верно изложено.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение19.10.2011, 18:24 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Если это не банальная опечатка, то, видимо, предполагается, что выборка упорядочена ("вариационный ряд").

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение19.10.2011, 20:30 
Заморожен


14/09/10
72
--mS-- в сообщении #494064 писал(а):
Теперь интересно, может, кто-нибудь знает: нарисованное там "почти" предельное распределение статистики критерия Колмогорова
$$\mathsf P(\sqrt{n}\sup_y |F_n^*(y) - \Phi_{\overline X, S^2}(y)|\geq  t)  \approx 2\sqrt{\frac{2\pi}{\pi-2}}\exp\left(-\frac{2\pi}{\pi-2}t^2\right) \qquad \text{при больших } n
$$
это и есть то, что используется в так называемом (на западе) критерии Лиллиефорса?
Нет. Критические значения статистики критерия Лиллиефорса зависят от объема выборки. Таблица из работы H. W. Lilliefors “On the Kolmogorov–Smirnov Test for Normality with Mean and Variance Unknown” // Journal of the American Statistical Association, Vol. 62, No. 318. (1967). Таблица была рассчитана методом Монте-Карло.

-- Ср окт 19, 2011 20:56:02 --

А приведенное приближенное распределение взято из работы Тюрин Ю.Н. О предельном распределении статистик Колмогорова — Смирнова для сложной гипотезы // Известия АН СССР. Серия математическая, том 48, N. 6, c. 1314 (1984).

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение19.10.2011, 22:22 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Евгений Машеров в сообщении #494129 писал(а):
Если это не банальная опечатка, то, видимо, предполагается, что выборка упорядочена ("вариационный ряд").

Ну не может термин "выборка" означать "вариационный ряд" :mrgreen: Бог знает сколько неприятностей произрастёт, если так мешать одно с другим.

Andrew Gubarev в сообщении #494230 писал(а):
Нет. Критические значения статистики критерия Лиллиефорса зависят от объема выборки. Таблица из работы H. W. Lilliefors “On the Kolmogorov–Smirnov Test for Normality with Mean and Variance Unknown” // Journal of the American Statistical Association, Vol. 62, No. 318. (1967). Таблица была рассчитана методом Монте-Карло.

Спасибо за ссылку! Судя по таблице, как раз-таки для $n>30$ критические значения уже не зависят от объёма выборки. Но они меньше, чем вычисленные по приближенной формуле.

 Профиль  
                  
 
 Re: Проверка на нормальное распределение
Сообщение21.10.2011, 10:08 
Заморожен


14/09/10
72
Сравнение реальных уровней значимости различных модификаций критерия Колмогорова — Смирнова для сложной гипотезы

В сообщении методом статистических испытаний находятся оценки уровней значимости трех модификаций: Лиллиефорса, Тюрина, Лемешко Б.Ю., и Лемешко С.Б. [1].
В отличие от работ Лиллиефорса и Тюрина, в работе [1] в качестве статистики критерия используется $S_n = \sqrt n D_n + \frac{1}{6\sqrt n}$.

В таблице приведены критические значения статистик, используемые ниже при тестировании. В первой строке указаны номинальные уровни значимости.
\small \begin{array}{|c | c | c | c |} 
\hline
& 0.1 & 0.05 & 0.01 \\
\hline
\text{Лиллиефорс}, 1967 & 0.805 & 0.886 & 1.031 \\ 
\hline
\text{Лемешко Б.Ю и Лемешко С.Б.}, 2009 & 0.835 & 0.909 & 1.057 \\ 
\hline
\text{Тюрин Ю.Н.,} 1984 & 0.8362 & 0.9084 & 1.05716\\
\hline
\end{array}

Распределение статистики $\sqrt n D_n$ стремится к асимптотической формуле Тюрина при $n \to \infty$, $t \to \infty$.

Для получения оценок выполнялось $N$ испытаний. В каждом испытании генерировалась выборка из нормального распределения с нулевым ожиданием и единичной дисперсией, вычислялись статистики модификаций критерия и сравнивались с соответствующим критическим значением. По результатам $N$ испытаний, находились оценки вероятностей: $p_i^* = \nu_i/N$, где $\nu_i$ — количество случает отвергнуть верную гипотезу.

Для вычисления функции распределения использовалась функция erf в реализации [2]. В качестве генератора равномерного распределения использован стандартный генератор Delphi 5.0.
Для выборок объема 30, 100 число повторений составляло 1 000 000, для выборок объема 200 и 500 — 5 000 000.

Оценки вероятностей отвергнуть гипотезу, когда она верна
\small \begin{array}{|c | c | c | c | c|} 
\hline
n & & 0.1 & 0.05 & 0.01 \\
\hline
30 & \text{Лиллиефорс}, 1967 & 0.098 & 0.044 & 0.0084 \\
30 & \text{Лемешко Б.Ю и Лемешко С.Б.}, 2009 & 0.098 & 0.047 & 0.0089 \\
30 & \text{Тюрин Ю.Н.,} 1984 & 0.072 & 0.035 & 0.0061 \\
\hline
100 & \text{Лиллиефорс}, 1967 & 0.113 & 0.053 & 0.0108 \\
100 & \text{Лемешко Б.Ю и Лемешко С.Б.}, 2009 & 0.100 & 0.049 & 0.0097 \\
100 & \text{Тюрин Ю.Н.,} 1984 & 0.085 & 0.041 & 0.0079 \\
\hline
200 & \text{Лиллиефорс}, 1967 & 0.118 & 0.055 & 0.012 \\
200 & \text{Лемешко Б.Ю и Лемешко С.Б.}, 2009 & 0.100 & 0.050 & 0.00996 \\
200 & \text{Тюрин Ю.Н.,} 1984 & 0.089 & 0.044 & 0.0086 \\
\hline
500 & \text{Лиллиефорс}, 1967 & 0.123 & 0.0583 & 0.0125 \\
500 & \text{Лемешко Б.Ю и Лемешко С.Б.}, 2009 & 0.1007 & 0.05004 & 0.01006 \\
500 & \text{Тюрин Ю.Н.,} 1984 & 0.093 & 0.0467 & 0.0921 \\
\hline
\end{array}

Из таблицы видно, что асимптотическое распределение Тюрина, при использовании статистики $\sqrt n D_n$ , как и ожидалось, хоть как-то применимо только при очень малых уровнях значимости (0.01 и менее) и больших объемах выборки (больше 500). Сравнение критических значений статистик, показывает, что при применении асимптотического распределения Тюрина следует использовать статистику $S_n$. Критические значения, предложенные в работе [1], в широком диапазоне объемов выборок приводят к очень хорошим результатам.

В строках "Тюрин Ю.Н., 1984" приведены оценки ошибок первого рода, полученные методом Монте-Карло, при использовании критических значений найденных по асимптотическому распределению Тюрина и $S_n$ в качестве статистики критерия. Для каждого объема выборки число повторений равно 5 000 000.
\small \begin{array}{|c | c | c | c | c|} 
\hline
n & & 0.1 & 0.05 & 0.01 \\
\hline
100 & \text{Тюрин Ю.Н.,} 1984 & 0.0989 & 0.0496 & 0.00974 \\
\hline
200 & \text{Тюрин Ю.Н.,} 1984 & 0.0992 & 0.0500 & 0.00994 \\
\hline
500 & \text{Тюрин Ю.Н.,} 1984 & 0.0997 & 0.0503 & 0.0100 \\
\hline
1000 & \text{Тюрин Ю.Н.,} 1984 & 0.0996 & 0.0502 & 0.0101 \\
1000 & \text{Лемешко Б.Ю и Лемешко С.Б.}, 2009 & 0.1007 & 0.0499 & 0.0101 \\ 
\hline
\end{array}


Т.к. для конечных объемов выборок таблицы критических значений рассчитываются методом Монте-Карло, то опубликованные таблицы быстро устаревают и имеют скорее историческое значение. Было опубликовано множество таблиц и аппроксимаций. Часть указана в работе Лемешко Б.Ю., Лемешко С.Б., 2009. Вот еще ссылки. В [3] воспроизведены таблицы [4] для проверки нормальности и экспоненциальности, содержащие критические значения для объемов выборок 4–100. В [5] приводится таблица, полученная в результате генерации 100 000 реализаций (повторений) для каждого объема выборки, объемы выборок 4–50. В [6] табулированы критические значения статистики $\sqrt n D_n$ для уровней значимости 0.5, 0.25, 0.1, 0.05, 0.025, 0.01, 0.001, 0.0001 для n = 3–30 с шагом 1, для n = 30–100 c шагом 10 и для n = 200, 400. Для каждого объема выборки было сгенерировано 50 миллионов реализаций. Предельное распределение получено гармонической экстраполяцией (детали в статье не описаны).
Некоторые критические значения $\sqrt n D_n$ для «бесконечно большого» объема выборки [6]:
\small \begin{array}{|c | c | c | c | c | c | }
\hline
& 0.1 & 0.05 & 0.01 & 0.001 & 0.0001 \\
\hline
\text{Scott, Stewart}, 2011 & 0.8319 & 0.9052 & 1.0545 & 1.2371 & 1.3926 \\
\hline
\end{array}
Авторы утверждают, что на основании многочисленных примеров они уверовали, что критерий Крамера — фон Мизеса мощнее Лиллиефорса. Для выборок объемом 30, 500, 100 и уровне значимости 0.05 приводится пример, когда в соответствии с альтернативой предполагается, что данные получены из распределения Стьюдента с двумя степенями свободы. В этом примере с увеличением объема выборки выигрыш в мощности критерия Крамера — фон Мизеса уменьшается.

Судя по документации, mathlab использует таблицу критических значений, охватывающую выборки объемом до 1000.

Я благодарен headrd за указание на форуме работы [1].

[1] Лемешко Б.Ю., Лемешко С.Б. Модели распределений статистик непараметрических критериев согласия при проверке сложных гипотез с использованием оценок максимального правдоподобия. Ч. I // Измерительная техника, 2009, N 6, c. 6. (pdf)
[2] http://alglib.sources.ru/specialfunctio ... normal.php.
[3] J.D. Gibbons, S. Chakraborti “Nonparametric Ststistical inference”, Marcel Dekker, Inc, New York, 2003 (pdf).
[4] R.L. Edgeman, R.C. Scott (1987) “Lilliefors’s test for transformed variables” // Brazilian Journal of Probability and Statistics, 1, 101–112.
[5] P. Molin, H. Abdi “New table and numerical approximations for Kolmogorov—Smirnov / Lilliefors / van Soest normality test”, Technical Report, University of Bourgogne (France) / University of Texas at Dallas (USA), 1998 (pdf).
[6] W. F. Scott, B. Stewart “Tables for the Lilliefors and Modified Cramer–von Mises tests of normality” // Communications in Statistics — Theory and Methods, Vol. 40, Issue 4 (2011).

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 41 ]  На страницу Пред.  1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group