2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Метод Тьюки для выбросов
Сообщение16.05.2020, 22:20 
Аватара пользователя


21/01/09
3929
Дивногорск
Из Википедии:
Цитата:
Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон
${\displaystyle [(x_{25}-1{,}5\cdot (x_{75}-x_{25})),\,\,(x_{75}+1{,}5\cdot (x_{75}-x_{25}))]}{\displaystyle [(x_{25}-1{,}5\cdot (x_{75}-x_{25})),\,\,(x_{75}+1{,}5\cdot (x_{75}-x_{25}))]}$
считается выбросами.

По другому это называется метод Тьюки. Очевидно он применим для выборок из нормального распределения.
У меня же следующий вопрос - чем и как обоснован множитель $1,5$ ? Он ведь должен зависить от уровня значимости и числа измерений.

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 14:23 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Наверно, не стоит слишком придираться к эмпирическим методам. А в силу нечёткости определения понятия "выброс" эмпирика здесь неизбежна.
По всей видимости, Тьюки выбирал коэффициент так, чтобы критерий был бы разумным для случая, когда измеряемая величина имела бы нормальное распределение. Но в случае ненормального был бы устойчив, что не выполняется для среднего, тем более для дисперсии, единичные большие выбросы их искажают драматически. Поэтому взяты квартили, не боящиеся 25% сколь угодно больших выбросов (а при везении даже при 50% работающие, если на каждый выброс в одну сторону приходится выброс в другую). Это снижение эффективности в сравнении с расчётом среднего и дисперсии, но не столь значительное, и заплатить этим за то, что выбросы не смогут замаскировать себя, завысив оценку разброса, стоит.
Квартиль нормального распределения отстоит от центра распределения на $0.674\sigma$, то есть, если считать среднюю точку между квартилей оценкой центра распределения, критические точки будут отстоять от него на приблизительно $2.67\sigma$, и для нормального распределения вероятность превысить верхнюю точку составит около 0.005, а выйти за одну из границ около 1%. Более точные значения коэффициентов будут неудобны для расчётов (это работы достаточно давние, и предполагается, что расчёты делаются людьми, и как бы не в уме), а выигрыша в точности не дадут в силу нечёткости постановки зхадачи.

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 15:46 
Аватара пользователя


21/01/09
3929
Дивногорск
Евгений Машеров, спасибо. Увидел знакомое число и в этой связи задам ещё один вопрос по выбросам.
Для оценки выбросов применяется также модифицированная $z$-оценка, предложенная Иглевичем и Хоглином:

$M_i=\frac{0,6745\cdot(x_i-Me)}{MED},$

где $M_i$ — фактическая величина критерия, рассчитанная для подозрительного наблюдения;
$x_i$ — значение подозрительного наблюдения, которое тестируется на аномальность;
$Me$ — медианное значение по совокупности, характеристика центра распределения;
$MED$ — медиана модуля отклонения значений признака от медианы.
Для этого показателя значение, превышающее $3,5$ считается выбросом.
Для этого критерия тоже не нашёл таблицу с уровнем значимости и числом измерений.
Интересно Ваше мнение об этом методе.

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 16:59 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Логика в точности та же. Берётся критерий, оптимальный для нормального распределения, но неустойчивый к выбросам.
$q_i=\frac {x_i-\bar{x}} \sigma$
и заменяются в нём оценки положения и разброса на более робастные. Поправочный коэффициент и критические значения выбираются, исходя из коэффициентов пересчёта оценок разброса.
Какой лучше - не вем. Здесь можно только провести численный эксперимент, предварительно сформулировав спецификацию для засорения выбросами (их долю, распределение, симметричность относительно центра распределения незасорённой выборки и т.п.)

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 17:15 


07/10/15

2400
При известном законе распределения, а он чаще всего подразумевается нормальным, можно просто отбрасывать подозрительные наблюдения, и следить за тем, как изменяется соответствующий критерий

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение18.05.2020, 11:38 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Для нормального распределения медиана абсолютных отклонений связана со стандартным отклонением $\sigma\approx 1.4826MAD$
То есть коэффициент в числителе оценки Иглевича-Хоглина это пересчёт MAD в стандартное отклонение, на которое и делится. Критическое значение 3.5 получено не из чисто вероятностных соображений, а из численного моделирования этой величины для малых выборок. Подробнее в Iglewicz B., Hoaglin D.C. How to detect and handle outliers (есть на twirpx.com)

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение24.05.2020, 10:01 
Аватара пользователя


21/01/09
3929
Дивногорск
Александрович в сообщении #1463265 писал(а):
По другому это называется метод Тьюки. Очевидно он применим для выборок из нормального распределения.
У меня же следующий вопрос - чем и как обоснован множитель $1,5$ ? Он ведь должен зависить от уровня значимости и числа измерений.

Нашёл критерий Тьюки для $n=200$ и $q=0,05$ статистическим моделированием. Сгенерировал 1000 нормальных выборок и подобрал множитель таким образом, чтобы за пределами допустимых значений оказалось 50 выборок. Он оказался равен 2,32. Это правильный подход?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group