Нормальность выборки и выбросы

evolventa · 03.07.2013, 15:14

Подскажите пожалуйста, для выборки объемом более 9 000 какие лучше применять критерии для определения выбросов и критерии определения нормальности?

Александрович · 03.07.2013, 15:28

Объём выборки очень солидный, поэтому можно пробовать всё что угодно.

evolventa · 03.07.2013, 15:37

Просто почти во всех описаниях критериев верхний предел для объема выборки - 50, 100, где-то 500, но больше - нет. На это можно не обращать внимания?

Евгений Машеров · 04.07.2013, 08:42

0. "Более 9000" это реальная оценка объёма или интернет-мем over 9000, переложенный "на язык родных осин"? ;)
1. Большой объём выборки работоспособность критерия только улучшает. В том смысле, что критерии, как правило, используют асимптотические приближения, например, к нормальному распределению, и чем больше выборка - тем приближение лучше. Снижается также вероятность того, что одни выбросы будут "маскировать" другие. Скажем, если в выборке из 10 элементов 2 выброса, то в 1/4 случаев они будут оба положительны и в $1/4$ - оба отрицательны, смещая среднее в сторону выбросов и резко затрудняя возможность понять, что это выбросы, в половине случаев. Однако для выборки из 1000 элементов получить при наличии 200 выбросов все 200 одного знака событие с пренебрежимо малой вероятностью, и даже расклад 150 на 50 и более имеет вероятность $7.7\cdot10^{-13}$
2. Увеличение объёма работы при росте выборки существенно при ручной (слабомеханизированной - от арифмометра до микрокалькулятора) обработке, и хотя некоторые алгоритмы имеют сложность выше линейной по $N$ , но даже квадратичная - для данного объёма при расчёте на ЭВМ не страшна, она будет сколько-нибудь тягостна при объёмах в миллионы (а, скажем, ранговые методы при разумной реализации самым сложным этапом имеют упорядочение со сложностью $O(N\ln N)$ , а сами сравнения уже упорядоченных массивов линейны по времени).
3. "Верхний предел", замеченный Вами, это, скорее всего - лишь объём выборки, начиная с которого можно не принимать во внимание изменение её объёма (ну, скажем, при малых $N$ распределение Стьюдента от нормального заметно отличается, и для разных $N$ критерий, опирающийся на это распределение, должен давать разные критические значения, но для больших $N$ отклонения Стьюдента от нормального практически незначимы, и изменение $N$ от 100 до бесконечности критических значений не меняет). Впрочем, надо смотреть конкретно. "Дьявол таится в мелочах".

Александрович · 04.07.2013, 09:54

Можно оценить мо и ско по медиане и межквартильному расстоянию. На эти оценки выбросы действую гораздо слабее чем на ср. и ско.

Евгений Машеров · 04.07.2013, 13:13

Ну, насколько я понимаю, тут другая задача, хоть и родственная. Не оценка параметров распределения при подозрении на выбросы (робастное оценивание), а квалификация отдельных наблюдений, как "выбросов" или всего распределения, как "ненормального".
Выбросы - они ведь далеко не всегда ошибки. Это может быть и свидетельство неверности формирования выборки, при формальной точности измерений, и неоднородности выборки (что иногда куда ценнее самой по себе ошибки), и наличия неучтённого фактора (что также бывает весьма ценно).
Да и выяснение факта "ненормальности" может многое прояснить в устройстве механизма, порождающего данные.

Александрович · 04.07.2013, 14:19

Согласен, для такой выборки возможно расщепить смесь на 3 и более распределений.

Евгений Машеров · 05.07.2013, 08:32

(Оффтоп)

Расщепление задача интересная, но тут можно и нарваться на ошибку. Как нарвался знаменитый криминалист месье Бертильон, решивший использовать накопленный им в ходе "бертильонажа" (сбора антропометрических сведений о преступниках с целью их опознания) обильный материал, несколько десятков тысяч измерений, для решения общенаучной задачи о "двух нациях" (гипотеза состояла в том, что два источника французского народа, кельтское племя галлов и германское племя франков так окончательно и не смешались, и поэтому распределение данных роста и т.п. должно представляться смесью двух распределений), имевшей, впрочем, и некоторый социальный резонанс. Матаппарат для этого был уже создан в Англии (Пирсоном): использовались моменты вплоть до пятого порядка, затем решалось уравнение 9-й степени, коэффициенты которого вычислялись через моменты, и затем получались пять параметров - матожидания и дисперсии двух распределений и процентная доля одного из них в смеси. Бертильон математической подготовки не имел, и передал работу в Англию. Однако измерения были в сантиметрах, их пришлось пересчитать в дюймы, и возникшая при этом ошибка округления привела к получению ложного подтверждения гипотезы.

Александрович · 05.07.2013, 09:44

evolventa в сообщении #742853 писал(а):

Подскажите пожалуйста, для выборки объемом более 9 000 какие лучше применять критерии для определения выбросов и критерии определения нормальности?

На гистограмму можно взглянуть?

evolventa · 05.07.2013, 13:02

Евгений Машеров в сообщении #743153 писал(а):

Ну, насколько я понимаю, тут другая задача, хоть и родственная. Не оценка параметров распределения при подозрении на выбросы (робастное оценивание), а квалификация отдельных наблюдений, как "выбросов" или всего распределения, как "ненормального".
Выбросы - они ведь далеко не всегда ошибки. Это может быть и свидетельство неверности формирования выборки, при формальной точности измерений, и неоднородности выборки (что иногда куда ценнее самой по себе ошибки), и наличия неучтённого фактора (что также бывает весьма ценно).
Да и выяснение факта "ненормальности" может многое прояснить в устройстве механизма, порождающего данные.

Да, задача именно в том, чтобы понять - какие из всех значений считать выбросами. В одних случаях это очевидно - когда совсем уж огромные значения, или когда известно, что прибор был неисправен (да, кстати, вся выборка - это временной ряд), но бывает, что на глаз не определить.
"Более 9000" - это реальный объем.
Я с мат.статистикой на практике раньше не сталкивалась, поэтому и возникли вопросы.
В каком-то учебнике прочитала, что для выборки большого объема хорошо работает критерий 3х сигм.
Попробовала - сначала откидываю значения, которые 100% выбросы, по оставшимся нахожу ско, среднее, а потом всё, что вне интервала $$\pm \$ 3сигма - тоже считаю выбросами. Результат (в итоге нужно найти один параметр, в который выбросы не должны входить) похож на правду, но как-то слишком простой способ - наверняка неправильный. Как можно исключить выбросы точнее?
Причины выбросов существуют конечно, но для данной задачи это не нужно. С причинами разбираемся отдельно.
Я, к сожалению, не могу показывать данные, буду очень благодарна за общие рекомендации.

-- 05.07.2013, 13:09 --

В ГОСТах, например, (http://www.docload.ru/Basesdoc/11/11258 ... tm#i547464) рекомендуется критерий Граббса, но он там приведен для эксперимента в нескольких лабораториях, а у меня лаборатория одна - можно ли тогда использовать? Мне бы лучше всего решать по ГОСТу - будет, на что ссылаться.

И правильно я поняла, что из таблиц критических значений можно для такой большой выборки брать самое большое из имеющихся в таблице значений?

Евгений Машеров · 05.07.2013, 15:07

ГОСТ о сравнении данных лабораторий, поэтому там про несколько их. Сам по себе критерий Граббса нескольких серий измерений не требует. Однако его недостаток в том, что он ловит 1 или 2 выпадающих наблюдения, а на большой выборке их может быть, даже при малом проценте таких, довольно много.
"Три сигмы" вполне себе общепризнан. Некоторое сомнение в нём может быть, если выбросов много, и они значение дисперсии завышают. Можно оценить робастными оценками - скажем, медианой вместо среднего и интерквартильным расстоянием для оценки среднеквадратичного
$I_r=1.349\sigma$
И отбрасывать с такими оценками, более робастными.
Для временных рядов есть иная опасность, коррелированность во времени.
Да, и если в таблице нет значений, бОльших некоего N, то для ещё больших, если особо не оговорено, надо брать для самого большого.

evolventa · 05.07.2013, 15:49

Всё ясно, большое спасибо!

-- 05.07.2013, 15:58 --

А откуда это равенство?

Евгений Машеров в сообщении #743587 писал(а):

$I_r=1.349\sigma$

Александрович · 05.07.2013, 17:06

Для нормального распределения $X_{0.75} - X_{0.25}=1.349 \sigma$ .

Valentina_Evg · 29.11.2013, 15:50

Здравствуйте. Не могу решить такой вопрос.
Имеется 1 результирующий признак и 40 факторных признаков по регионам РФ.
Каким образом, можно определить выбросы не по каждому факnорному признаку, а по всей совокупности в целом? И можно ли это сделать с помощью программы Statistica?

Александрович · 29.11.2013, 15:55

Вы основательно ознакомились с возможностью этой программы?

Научный форум dxdy

Нормальность выборки и выбросы