2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Исключение промахов из выборки.
Сообщение01.11.2011, 14:18 
Аватара пользователя


21/01/09
3929
Дивногорск
В книге С.В. Булашева "Статистика для трейдеров" 2003г. предлагается следующая процедура цензурирования выборки.
1. По медиане из пяти центров определяется оценка центра распределения $X_0$, защищенная от выбросов.
2. Вычисляются оценки ско $\sigma$ и коэффициента эксцесса $k$ с использование $X_0$.
3. Вычисляется коэффициент цензурирования $G=1.55+0.8\cdot \lg (N/10) \cdot \sqrt{k-1}$.
4. Все значения из выборки лежащие за пределами интервала $[X_0-G\cdot \sigma;X_0+G\cdot \sigma]$ считаются промахами и исключаются из выборки.

Возникли следующие вопросы.
1. Оценки ско $\sigma$ и коэффициента эксцесса $k$ будут зависить от наличия промахов, не замаскирует ли это сами промахи?
2. Указано что формула для коэффициента цензурирования эмпирическая и "пригодна к применению для широкого класса распределений". Вообще откуда она взята?
3. В литературе встречал упоминание медианы из пяти центров, но без ссылки на первоисточник. Не подскажите откуда это пошло?
Спасибо.

 Профиль  
                  
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 14:38 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
0. Булашев написал довольно ценную, но компилятивную книгу. При этом не всегда понимая, о чём пишет. Данную методику он заимствовал из книги Новицкий П.В., Зограф И.А. "Оценка погрешности результатов измерений", Л., Энергоатомиздат, 1991 (или из другого издания этой книги), а она опирается на полуэмпирические соображения из области обработки химических, физических и т.п. измерений. Оттуда взята и оценка центра распределения, и границы отбраковки выбросов.
1. Для центра распределения взяты пять оценок, из которых три являются наилучшими для определённых распределений:
- среднее арифметическое для нормального;
- медиана для распределения Лапласа;
- середина размаха для равномерного;
и две оценки, для которых оптимальность строго не доказана, но они с успехом применялись на практике:
- середина интерквартильного размаха (по-видимому, впервые предложена Тьюки);
- среднее арифметическое для наблюдений в интерквартильном промежутке (вариант цензурирования выборки);
Поскольку выбор между ними для неизвестного распределения ничем не обоснован, взята их медиана, как одна из самых устойчивых оценок.
(более подробно в п. 4-3 указанной книги).
2. Для отбраковки выбросов Булашёв нашёл формулу там же, но в п. 4-5. Авторы её исходили из требования, чтобы граница отбраковки в отсутствие выбросов отсекала в среднем менее одной точки выборки, то есть чтобы вероятность попадания за эти границы составляла $\frac 1 {N+1}$, где N - число наблюдений в выборке. Выполнение этого условия требует знания закона распределения, априори не известного, и авторы (Новицкий П.В., Зограф И.А) взяли четыре, по-видимому, рассматриваемые ими, как наиболее часто встречавшиеся им в практике измерений, распределения (все симметричные):
а. композиции нормального и дискретного двухвершинного распределения с эксцессом 1.5..3;
б. композиции распределения Лапласа и дискретного двухвершинного распределения с эксцессом 1.5..6;
в. композиции равномерного распределения и симметричного экспоненциального с показателем $\alpha = \frac 1 2$ с эксцессом 1.8..6
г. экспоненциальные симметричные с разным показателем $\alpha$ с эксцессом 1.8..6
Внимание! См. п.3 данного ответа!
Рассчитав для них эти границы, затем построили приводимую Булашевым формулу, используя "инженерные" методы построения эмпирических формул, как огибающую значений границ для разных распределений и как простое приближение для огибающей.
3. Важно обратить внимание на то, что Булашёв и авторы использованной им книги понимают под эксцессом разные вещи.
Дело в том, что нормированный (делением на квадрат дисперсии) четвёртый центральный момент (kurtosis) для нормального распределения равен трём. И для простоты трактовки распределения, как "тяжёло-" или "короткохвостого" ввели понятие "эксцесс", то есть превышение куртозиса данного распределения над значением его для нормального, получаемое вычитанием из четвёртого нормированного момента числа 3. В дальнейшем термин "эксцесс" стал использоваться, как синоним "куртозис", а бывший "эксцесс" стал "коэффициентом эксцесса", и именно так используют этот термин Новицкий П.В. и Зограф И.А. То есть в формуле для границ стоит $ \varepsilon $ всегда положительное, и для нормального распределения равное 3. А у Булашёва приведена формула, в которой вычитание произведено. В попытках использовать приведенные им формулы можем оказаться перед необходимостью извлекать корень из отрицательных чисел, хотя никакой нужды в комплексной арифметике не испытываем. Если мы вычисляли эксцесс по формулам, указанным Булашёвым, то при подстановке в формулу для границ промахов надо его увеличить на 3.
4. Авторы исходной методики указывают, что для вычисления $ \sigma $ и $ \varepsilon $ надо использовать выборку с отброшенными крайними наблюдениями (не конкретизируя, какими), тем самым эти величины не будут завышены. Затем только надо производить расчёт границ и отбрасывание по названной методике.

 Профиль  
                  
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 15:12 
Аватара пользователя


21/01/09
3929
Дивногорск
Чрезвычайно исчерпывающий ответ! Большое спасибо! Евгений Машеров, Вы большая умница.
Евгений Машеров в сообщении #498820 писал(а):
Данную методику он заимствовал из книги Новицкий П.В., Зограф И.А. "Оценка погрешности результатов измерений", Л., Энергоатомиздат, 1991

Я знаю про этот источник. Но как-то ссылка на него у Булашева не прозвучала. Хотя в списке литературы он указан.
Стало быть они пионеры? Глубже не стоит копать?
Евгений Машеров в сообщении #498820 писал(а):
4. Авторы исходной методики указывают, что для вычисления $ \sigma $ и $ \varepsilon $ надо использовать выборку с отброшенными крайними наблюдениями (не конкретизируя, какими), тем самым эти величины не будут завышены. Затем только надо производить расчёт границ и отбрасывание по названной методике.

Вот в это ткните пальцем, не могу увидеть.

 Профиль  
                  
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 15:27 
Заслуженный участник
Аватара пользователя


11/03/08
10033
Москва
Думаю, пионеры. Хотя исключить, что эта методика приведена, скажем, у Хана и Шапиро(Statistical models in engineering), или у Хайнгольда и Геде, не могу (Ingeniur Statistik) . Но ни той, ни той книг у меня нет (во втором случае - она ещё и на немецком, а его я разбираю с трудом). Но в русской литературе я ничего подобного ранее их не встречал.
Подробности расчёта - самый конец п. 4-5 и п. 4-6. Но у Булашева этого нет.

 Профиль  
                  
 
 Re: Исключение промахов из выборки.
Сообщение03.11.2011, 16:04 
Аватара пользователя


21/01/09
3929
Дивногорск
Евгений Машеров в сообщении #498844 писал(а):
Подробности расчёта - самый конец п. 4-5 и п. 4-6.

Спасибо, нашёл. Предполагается с запасом удалить, а потом возвращать помаленьку, каждый раз проверяя.

 Профиль  
                  
 
 Re: Исключение промахов из выборки.
Сообщение04.11.2011, 03:55 
Аватара пользователя


21/01/09
3929
Дивногорск
Принятие решения о промахе (выбросе) основывается на проверке статистической гипотезы о принадлежности крайних элементов выборки к распределению большинства её элементов. И это делается при каком-то уровне значимости. При каком здесь, вообще непонятно. Или по умолчанию 0,05? Вот найдёшь наконец что-то подходящее для работы, так оно какое-то нелегитимное.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group