2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Метод Тьюки для выбросов
Сообщение16.05.2020, 22:20 
Аватара пользователя


21/01/09
3929
Дивногорск
Из Википедии:
Цитата:
Простейшие способы основаны на межквартильном расстоянии — например, всё, что не попадает в диапазон
${\displaystyle [(x_{25}-1{,}5\cdot (x_{75}-x_{25})),\,\,(x_{75}+1{,}5\cdot (x_{75}-x_{25}))]}{\displaystyle [(x_{25}-1{,}5\cdot (x_{75}-x_{25})),\,\,(x_{75}+1{,}5\cdot (x_{75}-x_{25}))]}$
считается выбросами.

По другому это называется метод Тьюки. Очевидно он применим для выборок из нормального распределения.
У меня же следующий вопрос - чем и как обоснован множитель $1,5$ ? Он ведь должен зависить от уровня значимости и числа измерений.

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 14:23 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Наверно, не стоит слишком придираться к эмпирическим методам. А в силу нечёткости определения понятия "выброс" эмпирика здесь неизбежна.
По всей видимости, Тьюки выбирал коэффициент так, чтобы критерий был бы разумным для случая, когда измеряемая величина имела бы нормальное распределение. Но в случае ненормального был бы устойчив, что не выполняется для среднего, тем более для дисперсии, единичные большие выбросы их искажают драматически. Поэтому взяты квартили, не боящиеся 25% сколь угодно больших выбросов (а при везении даже при 50% работающие, если на каждый выброс в одну сторону приходится выброс в другую). Это снижение эффективности в сравнении с расчётом среднего и дисперсии, но не столь значительное, и заплатить этим за то, что выбросы не смогут замаскировать себя, завысив оценку разброса, стоит.
Квартиль нормального распределения отстоит от центра распределения на $0.674\sigma$, то есть, если считать среднюю точку между квартилей оценкой центра распределения, критические точки будут отстоять от него на приблизительно $2.67\sigma$, и для нормального распределения вероятность превысить верхнюю точку составит около 0.005, а выйти за одну из границ около 1%. Более точные значения коэффициентов будут неудобны для расчётов (это работы достаточно давние, и предполагается, что расчёты делаются людьми, и как бы не в уме), а выигрыша в точности не дадут в силу нечёткости постановки зхадачи.

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 15:46 
Аватара пользователя


21/01/09
3929
Дивногорск
Евгений Машеров, спасибо. Увидел знакомое число и в этой связи задам ещё один вопрос по выбросам.
Для оценки выбросов применяется также модифицированная $z$-оценка, предложенная Иглевичем и Хоглином:

$M_i=\frac{0,6745\cdot(x_i-Me)}{MED},$

где $M_i$ — фактическая величина критерия, рассчитанная для подозрительного наблюдения;
$x_i$ — значение подозрительного наблюдения, которое тестируется на аномальность;
$Me$ — медианное значение по совокупности, характеристика центра распределения;
$MED$ — медиана модуля отклонения значений признака от медианы.
Для этого показателя значение, превышающее $3,5$ считается выбросом.
Для этого критерия тоже не нашёл таблицу с уровнем значимости и числом измерений.
Интересно Ваше мнение об этом методе.

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 16:59 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Логика в точности та же. Берётся критерий, оптимальный для нормального распределения, но неустойчивый к выбросам.
$q_i=\frac {x_i-\bar{x}} \sigma$
и заменяются в нём оценки положения и разброса на более робастные. Поправочный коэффициент и критические значения выбираются, исходя из коэффициентов пересчёта оценок разброса.
Какой лучше - не вем. Здесь можно только провести численный эксперимент, предварительно сформулировав спецификацию для засорения выбросами (их долю, распределение, симметричность относительно центра распределения незасорённой выборки и т.п.)

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение17.05.2020, 17:15 


07/10/15

2400
При известном законе распределения, а он чаще всего подразумевается нормальным, можно просто отбрасывать подозрительные наблюдения, и следить за тем, как изменяется соответствующий критерий

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение18.05.2020, 11:38 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Для нормального распределения медиана абсолютных отклонений связана со стандартным отклонением $\sigma\approx 1.4826MAD$
То есть коэффициент в числителе оценки Иглевича-Хоглина это пересчёт MAD в стандартное отклонение, на которое и делится. Критическое значение 3.5 получено не из чисто вероятностных соображений, а из численного моделирования этой величины для малых выборок. Подробнее в Iglewicz B., Hoaglin D.C. How to detect and handle outliers (есть на twirpx.com)

 Профиль  
                  
 
 Re: Метод Тьюки для выбросов
Сообщение24.05.2020, 10:01 
Аватара пользователя


21/01/09
3929
Дивногорск
Александрович в сообщении #1463265 писал(а):
По другому это называется метод Тьюки. Очевидно он применим для выборок из нормального распределения.
У меня же следующий вопрос - чем и как обоснован множитель $1,5$ ? Он ведь должен зависить от уровня значимости и числа измерений.

Нашёл критерий Тьюки для $n=200$ и $q=0,05$ статистическим моделированием. Сгенерировал 1000 нормальных выборок и подобрал множитель таким образом, чтобы за пределами допустимых значений оказалось 50 выборок. Он оказался равен 2,32. Это правильный подход?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Bing [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group