2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Исключение промахов из выборки.
Сообщение01.11.2011, 14:18 
Аватара пользователя
В книге С.В. Булашева "Статистика для трейдеров" 2003г. предлагается следующая процедура цензурирования выборки.
1. По медиане из пяти центров определяется оценка центра распределения $X_0$, защищенная от выбросов.
2. Вычисляются оценки ско $\sigma$ и коэффициента эксцесса $k$ с использование $X_0$.
3. Вычисляется коэффициент цензурирования $G=1.55+0.8\cdot \lg (N/10) \cdot \sqrt{k-1}$.
4. Все значения из выборки лежащие за пределами интервала $[X_0-G\cdot \sigma;X_0+G\cdot \sigma]$ считаются промахами и исключаются из выборки.

Возникли следующие вопросы.
1. Оценки ско $\sigma$ и коэффициента эксцесса $k$ будут зависить от наличия промахов, не замаскирует ли это сами промахи?
2. Указано что формула для коэффициента цензурирования эмпирическая и "пригодна к применению для широкого класса распределений". Вообще откуда она взята?
3. В литературе встречал упоминание медианы из пяти центров, но без ссылки на первоисточник. Не подскажите откуда это пошло?
Спасибо.

 
 
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 14:38 
Аватара пользователя
0. Булашев написал довольно ценную, но компилятивную книгу. При этом не всегда понимая, о чём пишет. Данную методику он заимствовал из книги Новицкий П.В., Зограф И.А. "Оценка погрешности результатов измерений", Л., Энергоатомиздат, 1991 (или из другого издания этой книги), а она опирается на полуэмпирические соображения из области обработки химических, физических и т.п. измерений. Оттуда взята и оценка центра распределения, и границы отбраковки выбросов.
1. Для центра распределения взяты пять оценок, из которых три являются наилучшими для определённых распределений:
- среднее арифметическое для нормального;
- медиана для распределения Лапласа;
- середина размаха для равномерного;
и две оценки, для которых оптимальность строго не доказана, но они с успехом применялись на практике:
- середина интерквартильного размаха (по-видимому, впервые предложена Тьюки);
- среднее арифметическое для наблюдений в интерквартильном промежутке (вариант цензурирования выборки);
Поскольку выбор между ними для неизвестного распределения ничем не обоснован, взята их медиана, как одна из самых устойчивых оценок.
(более подробно в п. 4-3 указанной книги).
2. Для отбраковки выбросов Булашёв нашёл формулу там же, но в п. 4-5. Авторы её исходили из требования, чтобы граница отбраковки в отсутствие выбросов отсекала в среднем менее одной точки выборки, то есть чтобы вероятность попадания за эти границы составляла $\frac 1 {N+1}$, где N - число наблюдений в выборке. Выполнение этого условия требует знания закона распределения, априори не известного, и авторы (Новицкий П.В., Зограф И.А) взяли четыре, по-видимому, рассматриваемые ими, как наиболее часто встречавшиеся им в практике измерений, распределения (все симметричные):
а. композиции нормального и дискретного двухвершинного распределения с эксцессом 1.5..3;
б. композиции распределения Лапласа и дискретного двухвершинного распределения с эксцессом 1.5..6;
в. композиции равномерного распределения и симметричного экспоненциального с показателем $\alpha = \frac 1 2$ с эксцессом 1.8..6
г. экспоненциальные симметричные с разным показателем $\alpha$ с эксцессом 1.8..6
Внимание! См. п.3 данного ответа!
Рассчитав для них эти границы, затем построили приводимую Булашевым формулу, используя "инженерные" методы построения эмпирических формул, как огибающую значений границ для разных распределений и как простое приближение для огибающей.
3. Важно обратить внимание на то, что Булашёв и авторы использованной им книги понимают под эксцессом разные вещи.
Дело в том, что нормированный (делением на квадрат дисперсии) четвёртый центральный момент (kurtosis) для нормального распределения равен трём. И для простоты трактовки распределения, как "тяжёло-" или "короткохвостого" ввели понятие "эксцесс", то есть превышение куртозиса данного распределения над значением его для нормального, получаемое вычитанием из четвёртого нормированного момента числа 3. В дальнейшем термин "эксцесс" стал использоваться, как синоним "куртозис", а бывший "эксцесс" стал "коэффициентом эксцесса", и именно так используют этот термин Новицкий П.В. и Зограф И.А. То есть в формуле для границ стоит $ \varepsilon $ всегда положительное, и для нормального распределения равное 3. А у Булашёва приведена формула, в которой вычитание произведено. В попытках использовать приведенные им формулы можем оказаться перед необходимостью извлекать корень из отрицательных чисел, хотя никакой нужды в комплексной арифметике не испытываем. Если мы вычисляли эксцесс по формулам, указанным Булашёвым, то при подстановке в формулу для границ промахов надо его увеличить на 3.
4. Авторы исходной методики указывают, что для вычисления $ \sigma $ и $ \varepsilon $ надо использовать выборку с отброшенными крайними наблюдениями (не конкретизируя, какими), тем самым эти величины не будут завышены. Затем только надо производить расчёт границ и отбрасывание по названной методике.

 
 
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 15:12 
Аватара пользователя
Чрезвычайно исчерпывающий ответ! Большое спасибо! Евгений Машеров, Вы большая умница.
Евгений Машеров в сообщении #498820 писал(а):
Данную методику он заимствовал из книги Новицкий П.В., Зограф И.А. "Оценка погрешности результатов измерений", Л., Энергоатомиздат, 1991

Я знаю про этот источник. Но как-то ссылка на него у Булашева не прозвучала. Хотя в списке литературы он указан.
Стало быть они пионеры? Глубже не стоит копать?
Евгений Машеров в сообщении #498820 писал(а):
4. Авторы исходной методики указывают, что для вычисления $ \sigma $ и $ \varepsilon $ надо использовать выборку с отброшенными крайними наблюдениями (не конкретизируя, какими), тем самым эти величины не будут завышены. Затем только надо производить расчёт границ и отбрасывание по названной методике.

Вот в это ткните пальцем, не могу увидеть.

 
 
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 15:27 
Аватара пользователя
Думаю, пионеры. Хотя исключить, что эта методика приведена, скажем, у Хана и Шапиро(Statistical models in engineering), или у Хайнгольда и Геде, не могу (Ingeniur Statistik) . Но ни той, ни той книг у меня нет (во втором случае - она ещё и на немецком, а его я разбираю с трудом). Но в русской литературе я ничего подобного ранее их не встречал.
Подробности расчёта - самый конец п. 4-5 и п. 4-6. Но у Булашева этого нет.

 
 
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 16:04 
Аватара пользователя
Евгений Машеров в сообщении #498844 писал(а):
Подробности расчёта - самый конец п. 4-5 и п. 4-6.

Спасибо, нашёл. Предполагается с запасом удалить, а потом возвращать помаленьку, каждый раз проверяя.

 
 
 
 Re: Исключение промахов из выборки.
Сообщение04.11.2011, 03:55 
Аватара пользователя
Принятие решения о промахе (выбросе) основывается на проверке статистической гипотезы о принадлежности крайних элементов выборки к распределению большинства её элементов. И это делается при каком-то уровне значимости. При каком здесь, вообще непонятно. Или по умолчанию 0,05? Вот найдёшь наконец что-то подходящее для работы, так оно какое-то нелегитимное.

 
 
 [ Сообщений: 6 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group