(РЕЗКО ВЫДЕЛЯЮЩИЕСЯ НАБЛЮДЕНИЯ - энциклопедия)
РЕЗКО ВЫДЕЛЯЮЩИЕСЯ НАБЛЮДЕНИЯ, выбросы (outliers),- наблюдения, сильно отличающиеся от основной массы элементов выборки. Они обычно трактуются как грубые ошибки, возникающие в результате случайного просчета, неправильного чтения показаний измерительного прибора и т.п. Не будучи обнаруженными, они могут сильно исказить окончательные результаты. Наиболее целесообразный способ выявления и устранения грубых ошибок - непосредственный анализ наблюдений, тщательная их проверка. Статистич. методы следует применять лишь в сомнительных случаях. Существует два класса статистич. методов борьбы с грубыми ошибками. Первый (классический) содержит ряд критериев выявления грубых ошибок (аномальных наблюдений), второй (традиционный) - отбрасывание наблюдений, являющихся Р. в. н. с точки зрения нек-рого критерия, а затем оценивание интересующих параметров. Отбрасывание Р. в. н. при последующем оценивании параметров следует производить не на традиционных уровнях значимости, а на уровнях, к-рые дают оценки, оптимальные в нек-ром смысле. Обычно Р. в. н. не следует отвергать целиком, часто лучшие оценки получаются, если взять эти наблюдения с меньшим весом. Наиболее известные критерии исключения грубых ошибок в нормальных совокупностях принадлежат Э. Пирсону, Н. В. Смирнову, Ф. Граббсу, Ф. Анскомбу (см. [1], [2]). Критерии отбраковки для экспоненциальных совокупностей разработаны А. Лорентом и А. Басу (см. [1], [3]).
Другой способ борьбы с Р. в. н. основан на использовании оценок, мало чувствительных к Р. в. н.,- так наз. робастных оценок. В робастных процедурах Р. в. н., как правило, не отбрасываются, а получают меньшие веса, чем «типичные» наблюдения (см. [4]). В теории робастности для описания Р. в. н. используют модель грубых ошибок. Предложены критерии отбраковки, использующие робастные статистики медианного типа вместо традиционных (см. [3]).
Лит.: [1] Дэйвид Г., Порядковые статистики, пер. с англ., М., 1979; [2] Большее Л. Н., Смирнов Н. В., Таблицы математической статистики, 3 изд., М., 1983; [3] Смоляк С.А., Титарен-ко Б. П., Устойчивые методы оценивания, М., 1980; [4] Хьюбер П., Робастность в статистике, пер. с англ., М., 1984.
Б. П. Титаренко.
-- Пн апр 09, 2012 10:51:41 --Вот это я не понял. Чем выброс отличается от засорения? И то, и другое в вашем изложении играет роль некоторого малого возмущения функции распределения, которое убирается либо напрямую - с помощью отбраковки, либо с помощью робастности (нечувствительности к малым возмущениям).
Я полагаю, что засорение - это модель, в которой
некоторая доля наблюдений может быть порождена другим законом, сильно отличающимся от основного. Таких наблюдений может быть несколько, и их появление является закономерным следствием модели. Более того, они могут на самом деле не сильно отличаться от основной массы, и тогда их отбраковать невозможно в принципе. А выброс - это исключительная единичная ситуация, которая, что называется, "видна невооруженным глазом".
Это может показать парадоксом, однако методы отбраковки выбросов могут сами не быть устойчивы к засорению выборки. Например, метод Ирвина для отбраковки одного самого большого или самого малого наблюдения основан на разности между ним и соседним. Очевидно, что при этом мы исходим из того, что этот выброс именно единичен и соседнее наблюдение выбросом не является. Если мы имеем дело с засорением и резко отличающихся наблюдений будет несколько, то между собой они могут отличаться не сильно, и критерий работать в этом случае перестанет.
Разумеется, если перед нами стоит не явная задача отбраковки, а некоторая содержательная (например, оценки параметра), решению которой выбросы могут помещать, то можно использовать робастные методы. Конечно же, они от выброса помогут. Однако надо ведь понимать, что устойчивость таких методов получается не даром. Платой за это является ухудшение точности. Робастные доверительные интервалы более широкие, а точечные оценки могут отклоняться от истинных значений дальше. Поэтому если мы предполагаем, что все-таки все "нормальные" наблюдения у нас не засорены, то более предпочтительным является использование более точных и менее устойчивых методов. А выброс, если он произошел, надо все-таки отбраковать.