Задача очистки от выбросов проста лишь в простейших случаях, скажем, оценка параметра положения и есть уверенность, что выбросов не более одного. Для этого случая вполне разработанные критерии. Несколько выбросов уже могут маскировать друг друга, а более сложная модель, хотя бы, скажем, множественная регрессия, искажается даже одним, тем более множественными, так, что наибольшие отклонения дадут не подлинные выбросы, а "хорошие" наблюдения, и именно они будут удалены в качестве выбросов.
(Оффтоп)
Как-то ко мне обратился экономист в панике. Строил он регрессионную модель зависимости производительности труда от фондовооружённости (стоимости оборудования в расчёте на человека) в приборостроении. И получил, что чем больше вкладывать в производство, тем меньше выработка. Что противоречит теории, практике и просто здравому смыслу. При внимательном рассмотрении его данных обнаружилось, что кроме собственно приборостроительных, в выборке оказался подчинённый Минприбору ювелирный (ну, при всём многообразии министерств СССР особого "Минювелир" создать не додумались, а поскольку в некоторых приборах используются "камни", упорные подшипники из искусственного рубина, то числили по этому министерству), а у ювелиров выработка продукции на человека определяется ценой золота и бриллиантов, но оборудование - точило, молоточки и напильнички - копеечное. Причём этот единичный выброс так сдвинул линию регрессии, что максимальные остатки оказались не у этого завода, а у другого, и выброшен был бы другой завод. После исключения ювелирного результат получился вменяемым.
И вот в подобных случаях (а предложить сперва посмотреть на данные и проанализировать их "руками" совет хороший, но не всегда исполнимый, данных может быть не много, а МНОГО) может оказаться разумным путём построить модель робастным методом (не обязательно МНМ), посмотреть на отклонения, выбрать наибольшие, и уже их содержательно анализировать, признавая:
1. Грубыми ошибками (то ли сбой прибора, то ли, вводя вручную, запятую не заметили, а вот маленький кружочек перед С увидели и решили, что это 0)
- Исправить данные.
2. Попаданием в выборку объектов, которые в неё включены быть не должны (а были ли включены по формальным основаниям, как упомянутый завод, из желания набрать данных как можно более, или просто небрежность классификации - не суть важно)
- Удалить лишнее
3. Воздействием факторов, не включённых в модель.
- Уточнить модель, а если совершенно не учитываемый фактор, или настолько редкий, что оценить его влияние по данной выборке невозможно, то действовать по п.2
И затем повторить расчёт, пока выбросов не останется, а гипотеза о нормальном распределении оставшихся остатков отвергаться не будет . Тогда можно ещё раз пройтись, получая более эффективные оценки (для нормального распределения оценка параметра положения средним арифметическим, а оно МНК-оценка, на 25% эффективнее оценки медианой, но медиана не даст бессмысленный результат под действием выброса).
(Оффтоп)
В начале 1990х самые богатые учёные мира были в Москве, в Институте Проблем Управления (Автоматики и Телемеханики) РАН. Если, конечно, брать среднее. Из всё ещё числившегося завлабом Бориса Абрамовича Березовскогос c 3,000,000,000.00 долларов и тысячи нищих профессоров. В среднем по три мегабакса на душу. Медианная оценка выглядела куда менее утешительно.