0. Булашев написал довольно ценную, но компилятивную книгу. При этом не всегда понимая, о чём пишет. Данную методику он заимствовал из книги Новицкий П.В., Зограф И.А. "Оценка погрешности результатов измерений", Л., Энергоатомиздат, 1991 (или из другого издания этой книги), а она опирается на полуэмпирические соображения из области обработки химических, физических и т.п. измерений. Оттуда взята и оценка центра распределения, и границы отбраковки выбросов.
1. Для центра распределения взяты пять оценок, из которых три являются наилучшими для определённых распределений:
- среднее арифметическое для нормального;
- медиана для распределения Лапласа;
- середина размаха для равномерного;
и две оценки, для которых оптимальность строго не доказана, но они с успехом применялись на практике:
- середина интерквартильного размаха (по-видимому, впервые предложена Тьюки);
- среднее арифметическое для наблюдений в интерквартильном промежутке (вариант цензурирования выборки);
Поскольку выбор между ними для неизвестного распределения ничем не обоснован, взята их медиана, как одна из самых устойчивых оценок.
(более подробно в п. 4-3 указанной книги).
2. Для отбраковки выбросов Булашёв нашёл формулу там же, но в п. 4-5. Авторы её исходили из требования, чтобы граница отбраковки в отсутствие выбросов отсекала в среднем менее одной точки выборки, то есть чтобы вероятность попадания за эти границы составляла
, где N - число наблюдений в выборке. Выполнение этого условия требует знания закона распределения, априори не известного, и авторы (Новицкий П.В., Зограф И.А) взяли четыре, по-видимому, рассматриваемые ими, как наиболее часто встречавшиеся им в практике измерений, распределения (все симметричные):
а. композиции нормального и дискретного двухвершинного распределения с эксцессом 1.5..3;
б. композиции распределения Лапласа и дискретного двухвершинного распределения с эксцессом 1.5..6;
в. композиции равномерного распределения и симметричного экспоненциального с показателем
г. экспоненциальные симметричные с разным показателем
с эксцессом 1.8..6
Внимание! См. п.3 данного ответа!Рассчитав для них эти границы, затем построили приводимую Булашевым формулу, используя "инженерные" методы построения эмпирических формул, как огибающую значений границ для разных распределений и как простое приближение для огибающей.
3. Важно обратить внимание на то, что Булашёв и авторы использованной им книги понимают под эксцессом разные вещи.
Дело в том, что нормированный (делением на квадрат дисперсии) четвёртый центральный момент (kurtosis) для нормального распределения равен трём. И для простоты трактовки распределения, как "тяжёло-" или "короткохвостого" ввели понятие "эксцесс", то есть превышение куртозиса данного распределения над значением его для нормального, получаемое вычитанием из четвёртого нормированного момента числа 3. В дальнейшем термин "эксцесс" стал использоваться, как синоним "куртозис", а бывший "эксцесс" стал "коэффициентом эксцесса", и именно так используют этот термин Новицкий П.В. и Зограф И.А. То есть в формуле для границ стоит
всегда положительное, и для нормального распределения равное 3. А у Булашёва приведена формула, в которой вычитание произведено. В попытках использовать приведенные им формулы можем оказаться перед необходимостью извлекать корень из отрицательных чисел, хотя никакой нужды в комплексной арифметике не испытываем. Если мы вычисляли эксцесс по формулам, указанным Булашёвым, то при подстановке в формулу для границ промахов надо его увеличить на 3.
4. Авторы исходной методики указывают, что для вычисления
и
надо использовать выборку с отброшенными крайними наблюдениями (не конкретизируя, какими), тем самым эти величины не будут завышены. Затем только надо производить расчёт границ и отбрасывание по названной методике.