Метод Тьюки для выбросов

Александрович · 16.05.2020, 22:20

Из Википедии:

Цитата:

Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон
$[(x_{25}-1{,}5\cdot (x_{75}-x_{25})),\,\,(x_{75}+1{,}5\cdot (x_{75}-x_{25}))]}{\displaystyle [(x_{25}-1{,}5\cdot (x_{75}-x_{25})),\,\,(x_{75}+1{,}5\cdot (x_{75}-x_{25}))]$
считается выбросами.

По другому это называется метод Тьюки. Очевидно он применим для выборок из нормального распределения.
У меня же следующий вопрос - чем и как обоснован множитель $1,5$ ? Он ведь должен зависить от уровня значимости и числа измерений.

Евгений Машеров · 17.05.2020, 14:23

Наверно, не стоит слишком придираться к эмпирическим методам. А в силу нечёткости определения понятия "выброс" эмпирика здесь неизбежна.
По всей видимости, Тьюки выбирал коэффициент так, чтобы критерий был бы разумным для случая, когда измеряемая величина имела бы нормальное распределение. Но в случае ненормального был бы устойчив, что не выполняется для среднего, тем более для дисперсии, единичные большие выбросы их искажают драматически. Поэтому взяты квартили, не боящиеся 25% сколь угодно больших выбросов (а при везении даже при 50% работающие, если на каждый выброс в одну сторону приходится выброс в другую). Это снижение эффективности в сравнении с расчётом среднего и дисперсии, но не столь значительное, и заплатить этим за то, что выбросы не смогут замаскировать себя, завысив оценку разброса, стоит.
Квартиль нормального распределения отстоит от центра распределения на $0.674\sigma$ , то есть, если считать среднюю точку между квартилей оценкой центра распределения, критические точки будут отстоять от него на приблизительно $2.67\sigma$ , и для нормального распределения вероятность превысить верхнюю точку составит около 0.005, а выйти за одну из границ около 1%. Более точные значения коэффициентов будут неудобны для расчётов (это работы достаточно давние, и предполагается, что расчёты делаются людьми, и как бы не в уме), а выигрыша в точности не дадут в силу нечёткости постановки зхадачи.

Александрович · 17.05.2020, 15:46

Евгений Машеров, спасибо. Увидел знакомое число и в этой связи задам ещё один вопрос по выбросам.
Для оценки выбросов применяется также модифицированная $z$ -оценка, предложенная Иглевичем и Хоглином:

$M_i=\frac{0,6745\cdot(x_i-Me)}{MED},$

где $M_i$ — фактическая величина критерия, рассчитанная для подозрительного наблюдения;
$x_i$ — значение подозрительного наблюдения, которое тестируется на аномальность;
$Me$ — медианное значение по совокупности, характеристика центра распределения;
$MED$ — медиана модуля отклонения значений признака от медианы.
Для этого показателя значение, превышающее $3,5$ считается выбросом.
Для этого критерия тоже не нашёл таблицу с уровнем значимости и числом измерений.
Интересно Ваше мнение об этом методе.

Евгений Машеров · 17.05.2020, 16:59

Логика в точности та же. Берётся критерий, оптимальный для нормального распределения, но неустойчивый к выбросам.
$q_i=\frac {x_i-\bar{x}} \sigma$
и заменяются в нём оценки положения и разброса на более робастные. Поправочный коэффициент и критические значения выбираются, исходя из коэффициентов пересчёта оценок разброса.
Какой лучше - не вем. Здесь можно только провести численный эксперимент, предварительно сформулировав спецификацию для засорения выбросами (их долю, распределение, симметричность относительно центра распределения незасорённой выборки и т.п.)

Andrey_Kireew · 17.05.2020, 17:15

При известном законе распределения, а он чаще всего подразумевается нормальным, можно просто отбрасывать подозрительные наблюдения, и следить за тем, как изменяется соответствующий критерий

Евгений Машеров · 18.05.2020, 11:38

Для нормального распределения медиана абсолютных отклонений связана со стандартным отклонением $\sigma\approx 1.4826MAD$
То есть коэффициент в числителе оценки Иглевича-Хоглина это пересчёт MAD в стандартное отклонение, на которое и делится. Критическое значение 3.5 получено не из чисто вероятностных соображений, а из численного моделирования этой величины для малых выборок. Подробнее в Iglewicz B., Hoaglin D.C. How to detect and handle outliers (есть на twirpx.com)

Александрович · 24.05.2020, 10:01

Александрович в сообщении #1463265 писал(а):

По другому это называется метод Тьюки. Очевидно он применим для выборок из нормального распределения.
У меня же следующий вопрос - чем и как обоснован множитель $1,5$ ? Он ведь должен зависить от уровня значимости и числа измерений.

Нашёл критерий Тьюки для $n=200$ и $q=0,05$ статистическим моделированием. Сгенерировал 1000 нормальных выборок и подобрал множитель таким образом, чтобы за пределами допустимых значений оказалось 50 выборок. Он оказался равен 2,32. Это правильный подход?

Научный форум dxdy

Метод Тьюки для выбросов