2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 критерий Саркади
Сообщение20.02.2013, 18:57 
Пытаюсь разобраться с критерием Саркади (в варианте Большева&Смирнова).

Если я правильно понимаю, то в выборке $\left\{ x_i \right\}, i=1..n$ назначается некоторый $m$-ый элемент. Оценка среднего $\hat{x}$ делается так, что все элементы выборки берутся с единичным весом, $m$-ый элемент берется с весом $1+\sqrt{n}$. По идее такая оценка все равно остается несмещенной и подчиняется нормальному распределению с центром в истинном центре распределения, из которого взята выборка, и дисперсией $\sigma^2/n$. Далее удаляем из выборки $m$-ый элемент, а из оставшихся вычитаем оценку центра. По Большеву&Смирнову новая случайная величина $\left\{ \eta_i \right\}, i=1..n-1$ опять же подчиняется нормальному распределению с центром 0 и стандартом $\sigma$. Вот тут не совсем понятно, почему дисперсия не $\frac{n+1}{n}\sigma^2$? Ведь это разность двух случайных величин с одинаковым центром и дисперсиями $\sigma^2$ и $\frac{\sigma^2}{n}$. Или между ними есть отрицательная корреляция?

Далее для каждого $j$-го элемента выборки $\left\{ \eta_i \right\}$ делается оценка дисперсии $\frac{1}{n-j-1} \sum \limits_{i=j+1}^{n-1}\eta_i^2$, которая (умноженная на $n-j-1$) подчиняется распределению Пирсона с $n-j-1$ степенями свободы. Вот тут не понятно два момента. Первое, почему не теряется степень свободы в распределении Пирсона - сколько слагаемых, столько и степеней свободы? Ведь оценка центра проводилась по той же выборке. Или за счет того, что не совсем по той же выборке, все слагаемые остаются независимыми? Второе - почему при оценке дисперсии используются не все оставшиеся элементы выборки, а только те, порядковый номер которых больше, чем $j$? Зачем терять степени свободы? К тому же на выходе тогда получается величина, подчиняющаяся разным распределениям, а если использовать все оставшиеся элементы, то распределение у всех дисперсий одно и то же. Зачем тогда усложнять? К тому-же возникает опасность, что выборка упорядочена, и тогда оценки дисперсий окажутся сильно заниженными. Не логичнее ли в качестве оценки дисперсии $j$-го элемента использовать $\frac{1}{n-2} \left( \sum \limits_{i=1}^{n-1}\eta_i^2-\eta_j^2 \right)$

 
 
 
 Re: критерий Саркади
Сообщение20.02.2013, 19:58 
К тому-же, если при оценке дисперсии задействовать все оставшиеся элементы, то $j=1..n-1$, а по Большеву&Смирнову $j=1..n-2$, т.е. для каждого $m$ теряется один элемент выборки.

 
 
 
 Re: критерий Саркади
Сообщение20.02.2013, 22:04 
Аватара пользователя
Вы полагаете, по такому описанию можно что-то обсуждать? Например, "что-то в оценке среднего берется с весом 1, что-то с весом $1+\sqrt{n}$" понимается или как $\sum_{i\neq m} \xi_i\cdot 1+\xi_m\cdot(1+\sqrt{n})$, или как $\frac{\sum_{i\neq m} \xi_i\cdot 1+\xi_m\cdot(1+\sqrt{n})}{n}$. Однако формулы у Большева и Смирнова абсолютно иные. Давайте описывать формулы формулами, а не малопонятными словами?

То, что у введенных случайных величин $\eta_i$ матожидания нулевые, а дисперсии $\sigma^2$, проверяется непосредственным подсчётом - достаточно сгруппировать одинаковые слагаемые. С десятого раза дисперсии получаются, проверено.

Цитата:
Вот тут не понятно два момента. Первое, почему не теряется степень свободы в распределении Пирсона - сколько слагаемых, столько и степеней свободы?

По определению. Распределение хи-квадрат с $k$ степенями свободы есть распределение суммы $k$ квадратов независимых стандартных нормальных с.в., которые тут и складываются (с точностью до множителя $\sigma^2$).

Цитата:
Второе - почему при оценке дисперсии используются не все оставшиеся элементы выборки, а только те, порядковый номер которых больше, чем $j$? Зачем терять степени свободы? К тому же на выходе тогда получается величина, подчиняющаяся разным распределениям, а если использовать все оставшиеся элементы, то распределение у всех дисперсий одно и то же. Зачем тогда усложнять?


Чтобы получить независимые величины с известным распределением. Зачем нужны здесь эти степени свободы, чем плохо их терять? На выходе (после квантильных преобразований) получается выборка из независимых случайных величин с одним и тем же равномерным распределением. Причём таких величин осталось почти столько же, сколько было исходных. Вряд ли можно легко иным путём преобразовать нормальную выборку в набор из почти такого же числа независимых величин с полностью известным распределением.

 
 
 
 Re: критерий Саркади
Сообщение21.02.2013, 10:00 
Аватара пользователя
Ну, для начала - здесь вообще нет оценки среднего. Элемент $x_m$ берётся для того, чтобы его вычесть из прочих, получая у оставшихся (n-1) разностей нулевое матожидание. Но просто вычесть одного его недостаточно, поскольку разности после этого будут скоррелированы, и поэтому вычитается несколько более сложная конструкция, гарантирующая некоррелированность разностей. А поскольку мы исходим из гипотезы нормальности распределения, из некоррелированности следует независимость (в общем случае это не так). То есть у нас получается (n-1) независимая нормально распределённая (как линейная комбинация нормальных величин) величина с нулевым матожиданием и дисперсией $\sigma^2$
То есть задача оценки матожидания снимается, и число параметров, оцениваемых по выборке, становится на единицу меньше, поэтому не "минус два", а "минус один".
Стьюдентовы отношения независимы по построению, но уже распределены по-разному, имея разное число степеней свободы. Но это параметр нам известен, и мы, вычислив функцию распределения Стьюдента с известным числом с.с. от полученного отношения, имеем равномерно (0;1) распределённую величину, которую и сравниваем по Смирнову. Никаких оцениваемых по выборке параметров у нас нет, и возражение против использования Смирнова, основанное на том, что им некорректно пользоваться при оценённых по выборке параметрах, уходит.

 
 
 
 Re: критерий Саркади
Сообщение09.04.2013, 18:30 
Подскажите, пожалуйста! Должна ли быть первоначальная выборка при использовании данного критерия как-то упорядочена?

При сортировке по возрастанию, выборка, сгенерированная преобразованием Бокса-Мюллера, не признается нормально распределенной.
А если преобразования производить над выборкой, упорядоченной в том же порядке, что и сгенерировалось (псевдослучайно) - все нормально.

Для проверки равномерности величин, полученных после преобразования функцией распределения Стьюдента, пользуюсь "гладким" критерием Неймана, как предложено в книге "Прикладная математическая статистика. Для инженеров и научных работников" Кобзаря А.И. (стр. 261). Там же сказано, что первоначальная выборка должна быть упорядочена по возрастанию.

 
 
 
 Re: критерий Саркади
Сообщение09.04.2013, 18:38 
Аватара пользователя
samovar242

Для Саркади - не должна.

 
 
 
 Re: критерий Саркади
Сообщение09.04.2013, 18:47 
Евгений Машеров
Спасибо за быстрый ответ!

А как тогда поступать с изначально упорядоченной выборкой?

 
 
 
 Re: критерий Саркади
Сообщение10.04.2013, 12:08 
Аватара пользователя
Кроме искусственной тасовки - ничего предложить не могу. Ну, или использовать какой-то иной критерий.

 
 
 
 Re: критерий Саркади
Сообщение10.04.2013, 14:15 
Может существует какой-то критерий, который будет гарантировать то, что "искусственная тасовка" привела выборку к нужному виду?
Потому что если просто запускать алгоритм перетасовки, одна и та же выборка (по значениям) может как признаться нормальной, так и нет.

К сожалению, для проверки нормальности мне необходимо использовать именно этот критерий

 
 
 
 Re: критерий Саркади
Сообщение10.04.2013, 16:27 
Аватара пользователя
Критерий Саркади существенно использует независимость. А после упорядочения они уже зависимы. Так что или не Саркади, или добывать данные до упорядочения, или тасовать (причём без гарантии, что будет правильно).

 
 
 
 Re: критерий Саркади
Сообщение10.04.2013, 19:40 
Евгений Машеров
Спасибо!

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group