2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Нормальность выборки и выбросы
Сообщение03.07.2013, 15:14 


02/06/12
9
Подскажите пожалуйста, для выборки объемом более 9 000 какие лучше применять критерии для определения выбросов и критерии определения нормальности?

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение03.07.2013, 15:28 
Аватара пользователя


21/01/09
3929
Дивногорск
Объём выборки очень солидный, поэтому можно пробовать всё что угодно.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение03.07.2013, 15:37 


02/06/12
9
Просто почти во всех описаниях критериев верхний предел для объема выборки - 50, 100, где-то 500, но больше - нет. На это можно не обращать внимания?

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение04.07.2013, 08:42 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
0. "Более 9000" это реальная оценка объёма или интернет-мем over 9000, переложенный "на язык родных осин"? ;)
1. Большой объём выборки работоспособность критерия только улучшает. В том смысле, что критерии, как правило, используют асимптотические приближения, например, к нормальному распределению, и чем больше выборка - тем приближение лучше. Снижается также вероятность того, что одни выбросы будут "маскировать" другие. Скажем, если в выборке из 10 элементов 2 выброса, то в 1/4 случаев они будут оба положительны и в $1/4$ - оба отрицательны, смещая среднее в сторону выбросов и резко затрудняя возможность понять, что это выбросы, в половине случаев. Однако для выборки из 1000 элементов получить при наличии 200 выбросов все 200 одного знака событие с пренебрежимо малой вероятностью, и даже расклад 150 на 50 и более имеет вероятность $7.7\cdot10^{-13}$
2. Увеличение объёма работы при росте выборки существенно при ручной (слабомеханизированной - от арифмометра до микрокалькулятора) обработке, и хотя некоторые алгоритмы имеют сложность выше линейной по $N$, но даже квадратичная - для данного объёма при расчёте на ЭВМ не страшна, она будет сколько-нибудь тягостна при объёмах в миллионы (а, скажем, ранговые методы при разумной реализации самым сложным этапом имеют упорядочение со сложностью $O(N\ln N)$, а сами сравнения уже упорядоченных массивов линейны по времени).
3. "Верхний предел", замеченный Вами, это, скорее всего - лишь объём выборки, начиная с которого можно не принимать во внимание изменение её объёма (ну, скажем, при малых $N$ распределение Стьюдента от нормального заметно отличается, и для разных $N$ критерий, опирающийся на это распределение, должен давать разные критические значения, но для больших $N$ отклонения Стьюдента от нормального практически незначимы, и изменение $N$ от 100 до бесконечности критических значений не меняет). Впрочем, надо смотреть конкретно. "Дьявол таится в мелочах".

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение04.07.2013, 09:54 
Аватара пользователя


21/01/09
3929
Дивногорск
Можно оценить мо и ско по медиане и межквартильному расстоянию. На эти оценки выбросы действую гораздо слабее чем на ср. и ско.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение04.07.2013, 13:13 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
Ну, насколько я понимаю, тут другая задача, хоть и родственная. Не оценка параметров распределения при подозрении на выбросы (робастное оценивание), а квалификация отдельных наблюдений, как "выбросов" или всего распределения, как "ненормального".
Выбросы - они ведь далеко не всегда ошибки. Это может быть и свидетельство неверности формирования выборки, при формальной точности измерений, и неоднородности выборки (что иногда куда ценнее самой по себе ошибки), и наличия неучтённого фактора (что также бывает весьма ценно).
Да и выяснение факта "ненормальности" может многое прояснить в устройстве механизма, порождающего данные.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение04.07.2013, 14:19 
Аватара пользователя


21/01/09
3929
Дивногорск
Согласен, для такой выборки возможно расщепить смесь на 3 и более распределений.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение05.07.2013, 08:32 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва

(Оффтоп)

Расщепление задача интересная, но тут можно и нарваться на ошибку. Как нарвался знаменитый криминалист месье Бертильон, решивший использовать накопленный им в ходе "бертильонажа" (сбора антропометрических сведений о преступниках с целью их опознания) обильный материал, несколько десятков тысяч измерений, для решения общенаучной задачи о "двух нациях" (гипотеза состояла в том, что два источника французского народа, кельтское племя галлов и германское племя франков так окончательно и не смешались, и поэтому распределение данных роста и т.п. должно представляться смесью двух распределений), имевшей, впрочем, и некоторый социальный резонанс. Матаппарат для этого был уже создан в Англии (Пирсоном): использовались моменты вплоть до пятого порядка, затем решалось уравнение 9-й степени, коэффициенты которого вычислялись через моменты, и затем получались пять параметров - матожидания и дисперсии двух распределений и процентная доля одного из них в смеси. Бертильон математической подготовки не имел, и передал работу в Англию. Однако измерения были в сантиметрах, их пришлось пересчитать в дюймы, и возникшая при этом ошибка округления привела к получению ложного подтверждения гипотезы.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение05.07.2013, 09:44 
Аватара пользователя


21/01/09
3929
Дивногорск
evolventa в сообщении #742853 писал(а):
Подскажите пожалуйста, для выборки объемом более 9 000 какие лучше применять критерии для определения выбросов и критерии определения нормальности?

На гистограмму можно взглянуть?

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение05.07.2013, 13:02 


02/06/12
9
Евгений Машеров в сообщении #743153 писал(а):
Ну, насколько я понимаю, тут другая задача, хоть и родственная. Не оценка параметров распределения при подозрении на выбросы (робастное оценивание), а квалификация отдельных наблюдений, как "выбросов" или всего распределения, как "ненормального".
Выбросы - они ведь далеко не всегда ошибки. Это может быть и свидетельство неверности формирования выборки, при формальной точности измерений, и неоднородности выборки (что иногда куда ценнее самой по себе ошибки), и наличия неучтённого фактора (что также бывает весьма ценно).
Да и выяснение факта "ненормальности" может многое прояснить в устройстве механизма, порождающего данные.

Да, задача именно в том, чтобы понять - какие из всех значений считать выбросами. В одних случаях это очевидно - когда совсем уж огромные значения, или когда известно, что прибор был неисправен (да, кстати, вся выборка - это временной ряд), но бывает, что на глаз не определить.
"Более 9000" - это реальный объем.
Я с мат.статистикой на практике раньше не сталкивалась, поэтому и возникли вопросы.
В каком-то учебнике прочитала, что для выборки большого объема хорошо работает критерий 3х сигм.
Попробовала - сначала откидываю значения, которые 100% выбросы, по оставшимся нахожу ско, среднее, а потом всё, что вне интервала $\pm \ 3сигма - тоже считаю выбросами. Результат (в итоге нужно найти один параметр, в который выбросы не должны входить) похож на правду, но как-то слишком простой способ - наверняка неправильный. Как можно исключить выбросы точнее?
Причины выбросов существуют конечно, но для данной задачи это не нужно. С причинами разбираемся отдельно.
Я, к сожалению, не могу показывать данные, буду очень благодарна за общие рекомендации.

-- 05.07.2013, 13:09 --

В ГОСТах, например, (http://www.docload.ru/Basesdoc/11/11258 ... tm#i547464) рекомендуется критерий Граббса, но он там приведен для эксперимента в нескольких лабораториях, а у меня лаборатория одна - можно ли тогда использовать? Мне бы лучше всего решать по ГОСТу - будет, на что ссылаться.

И правильно я поняла, что из таблиц критических значений можно для такой большой выборки брать самое большое из имеющихся в таблице значений?

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение05.07.2013, 15:07 
Заслуженный участник
Аватара пользователя


11/03/08
10040
Москва
ГОСТ о сравнении данных лабораторий, поэтому там про несколько их. Сам по себе критерий Граббса нескольких серий измерений не требует. Однако его недостаток в том, что он ловит 1 или 2 выпадающих наблюдения, а на большой выборке их может быть, даже при малом проценте таких, довольно много.
"Три сигмы" вполне себе общепризнан. Некоторое сомнение в нём может быть, если выбросов много, и они значение дисперсии завышают. Можно оценить робастными оценками - скажем, медианой вместо среднего и интерквартильным расстоянием для оценки среднеквадратичного
$I_r=1.349\sigma$
И отбрасывать с такими оценками, более робастными.
Для временных рядов есть иная опасность, коррелированность во времени.
Да, и если в таблице нет значений, бОльших некоего N, то для ещё больших, если особо не оговорено, надо брать для самого большого.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение05.07.2013, 15:49 


02/06/12
9
Всё ясно, большое спасибо!

-- 05.07.2013, 15:58 --

А откуда это равенство?
Евгений Машеров в сообщении #743587 писал(а):
$I_r=1.349\sigma$

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение05.07.2013, 17:06 
Аватара пользователя


21/01/09
3929
Дивногорск
Для нормального распределения $X_{0.75} - X_{0.25}=1.349 \sigma $.

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение29.11.2013, 15:50 


29/11/13
2
Здравствуйте. Не могу решить такой вопрос.
Имеется 1 результирующий признак и 40 факторных признаков по регионам РФ.
Каким образом, можно определить выбросы не по каждому факnорному признаку, а по всей совокупности в целом? И можно ли это сделать с помощью программы Statistica?

 Профиль  
                  
 
 Re: Нормальность выборки и выбросы
Сообщение29.11.2013, 15:55 
Аватара пользователя


21/01/09
3929
Дивногорск
Вы основательно ознакомились с возможностью этой программы?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 16 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group