2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3  След.
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 04:53 
Аватара пользователя


21/01/09
3925
Дивногорск
Задача определения выброса сводится к проверке гипотезы о принадлежности выделяющего значения к тому же распределению что и выборка.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 09:56 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Александрович в сообщении #557749 писал(а):
У 100 человек измеряется температура тела при помощи термометра под мышкой. Это случайная величина с нормальным распределением и известным матожиданием 36,6. Человека с какой температурой можно отнести к категории больных? 37, 38, 39?


Это действительно неудачный пример. Тут в принципе классическая задача различения гипотез.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 10:16 
Аватара пользователя


21/01/09
3925
Дивногорск
PAV в сообщении #557809 писал(а):
Александрович в сообщении #557749 писал(а):
У 100 человек измеряется температура тела при помощи термометра под мышкой. Это случайная величина с нормальным распределением и известным матожиданием 36,6. Человека с какой температурой можно отнести к категории больных? 37, 38, 39?


Это действительно неудачный пример. Тут в принципе классическая задача различения гипотез.

Вот и помогите мне разобраться. Завтра выложу такой-же "неудачный" практически полученный пример.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 11:44 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Тут, на мой взгляд, надо исходить из того, какую мы решаем задачу. Если мы хотим выработать формальное правило классификации людей на "здоровых" и "больных" по температуре, тогда это проверка гипотез: есть два известных класса, между которыми мы выбираем.

Когда мы говорим об устойчивых процедурах, то это означает, что сами выбросы как таковые нас не интересуют, однако мы предполагаем, что они могут быть (в некоторой доле), и хотим, чтобы их наличие не сильно портило те содержательные выводы и оценки, которые делает процедура.

Вопрос об отбраковке выбросов возникает в ситуации, когда мы предполагаем некоторую модель (например, нормальное распределение наблюдений) и внезапно обнаруживаем в данных отдельные наблюдения (чаще всего одно - либо максимальное, либо минимальное), которые явно отклоняются от общей совокупности. Главная идея заключается в том, что это отклонение может оказаться каким-то нарушением условий эксперимента. Его можно либо просто отбросить, однако можно специально исследовать отдельно. Но для этого хочется предварительно все-таки проверить, насколько вероятно получение такого отклонения в рамках рассматриваемой модели. Вот для этого критерии и придумываются.

Приведенный пример с температурой может быть такой задачей, например, в следующей ситуации. Рассматривается группа людей, которые все предполагаются здоровыми. Например, они исследованы, и болезней не обнаружено. Затем у них измерена температура и вдруг у одного она оказалась 39 градусов. Это выглядит явным выбросом. Скорее всего, его нужно исключить из выборки, однако также можно выяснить, что же с ним такое. Например, он мог заболеть буквально только что, уже после проведенных исследований.

Ключевой момент в задаче заключается в том, что выбросы рассматриваются как единичные исключительные ситуации, и на этот предмет проверяются конкретные отдельные наблюдения, которые "явно" отстоят сильно отдельно от всех остальных.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 21:03 


23/12/07
1763
PAV, по-моему, вы уже немного о другой задаче говорите. ТС изначально обозначил тему как "Отбраковка выбросов", и в первом же своем посте писал о существующих процедурах их исключения. Как видится, под "исключать/отбраковывать" понимается удаление "помех" из исходной выборки с целью обеспечения ее однородности (чтобы модель адекватно работала), а не обнаружение этих "помех" самих по себе. В противном случае это уже не задача об отбраковке, а скорее какая-то задача разделения смеси распределений с классификацией.
Так вот я вел речь о том, что если модель у вас изначально устойчивая (в терминологии Боровкова), то в ней самой изначально предусмотрено автоматическое отсеивание выбросов, и ничего отдельно делать не нужно - результат, что с выбросами, что без, будет адекватным. Именно это я имел в виду, когда говорил, что "отсеивание выбросов" является частным случаем "процедуры, которая мало чувствительна к засорениям выборки".

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 21:04 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
_hum_ в сообщении #558112 писал(а):
результат, что с выбросами, что без, будет адекватным.


что здесь такое "результат"?

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 21:17 


23/12/07
1763
PAV в сообщении #558116 писал(а):
_hum_ в сообщении #558112 писал(а):
результат, что с выбросами, что без, будет адекватным.


что здесь такое "результат"?

Результат в данном случае - это конкретное значение, получаемое в задаче, для решения которой и вводилась данная модель. Например, конкретное значение оценки характеристики распределения по выборке или просто конкретный выбор альтернативы в тестировании гипотез.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение08.04.2012, 21:49 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
В таком понимании это будет действительно просто процедура, устойчивая к выбросам. Однако это совсем не то, что стандартно называют "отбраковкой" или "обнаружением" выбросов. Эти термины применяются именно для задачи: по данному конкретному элементу имеющейся выборки принять решение - является ли этот элемент выбросом или нет. Те критерии, которые были перечислены автором в его первом посте, именно эту задачу и решают.

-- Вс апр 08, 2012 23:02:25 --

В Энциклопедии по вероятности и математической статистике под ред. Прохорова по этому поводу имеется статья "Резко выделяющиеся наблюдения" (стр. 553). Английский термин - outlier.

-- Вс апр 08, 2012 23:20:12 --

Робастные процедуры применяются при засорении выборки. Однако выброс - это не засорение. Выброс - это именно отдельное наблюдение, резко отличающееся от остальных. Обычно причинами выбросов являются грубые ошибки в измерениях или экспериментах. Поэтому задача состоит именно в том, чтобы отбраковать выбросы сами по себе. После этого выборка вполне может предполагаться однородной, и для ее исследования могут применяться и неробастные методы.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение09.04.2012, 01:01 


23/12/07
1763
PAV в сообщении #558133 писал(а):
Эти термины применяются именно для задачи: по данному конкретному элементу имеющейся выборки принять решение - является ли этот элемент выбросом или нет. Те критерии, которые были перечислены автором в его первом посте, именно эту задачу и решают.

Да, но зачем иметь возможность классифицировать элементы выборки? В тех примерах, что я видел (в том числе применения критериев, приведенных ТС), это делается лишь для того, чтобы потом выбросить их из выборки и продолжить работать уже с якобы однородной выборкой стандартными методами. Но эту же самую задачу решают робастные (устойчивые) методы.
PAV в сообщении #558133 писал(а):
В Энциклопедии по вероятности и математической статистике под ред. Прохорова по этому поводу имеется статья "Резко выделяющиеся наблюдения" (стр. 553). Английский термин - outlier.

Энциклопедии под рукой нет (в Инете тоже не нашел), потому посмотрел только статью в Вике по outlier. И там вроде бы как подтверждается моя мысль о заменяемости "ручной" отбраковки робастностью модели:
Цитата:
Outliers can occur by chance in any distribution, but they are often indicative either of measurement error or that the population has a heavy-tailed distribution. In the former case one wishes to discard them or use statistics that are robust to outliers, while in the latter case they indicate that the distribution has high kurtosis and that one should be very cautious in using tools or intuitions that assume a normal distribution.

PAV в сообщении #558133 писал(а):
Робастные процедуры применяются при засорении выборки. Однако выброс - это не засорение. Выброс - это именно отдельное наблюдение, резко отличающееся от остальных. Обычно причинами выбросов являются грубые ошибки в измерениях или экспериментах. Поэтому задача состоит именно в том, чтобы отбраковать выбросы сами по себе. После этого выборка вполне может предполагаться однородной, и для ее исследования могут применяться и неробастные методы.

Вот это я не понял. Чем выброс отличается от засорения? И то, и другое в вашем изложении играет роль некоторого малого возмущения функции распределения, которое убирается либо напрямую - с помощью отбраковки, либо с помощью робастности (нечувствительности к малым возмущениям).

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение09.04.2012, 02:43 
Аватара пользователя


21/01/09
3925
Дивногорск
Профессионально занимаюсь технической диагностикой. Задача состоит в обнаружении дефектного элемента по некоторому диагностическому признаку, например температуре объекта. Выброс или промах в моём случае это не грубая ошибка в измерениях, а статистически значимое отклонение измеренного параметра от остальных. Далее с выборкой ничего не нужно делать. Требуется по ней определить граничное значение диагностического параметра.
А как здесь файл прикрепить?

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение09.04.2012, 09:40 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва

(РЕЗКО ВЫДЕЛЯЮЩИЕСЯ НАБЛЮДЕНИЯ - энциклопедия)

РЕЗКО ВЫДЕЛЯЮЩИЕСЯ НАБЛЮДЕНИЯ, выбросы (outliers),- наблюдения, сильно отличающиеся от основной массы элементов выборки. Они обычно трактуются как грубые ошибки, возникающие в результате случайного просчета, неправильного чтения показаний измерительного прибора и т.п. Не будучи обнаруженными, они могут сильно исказить окончательные результаты. Наиболее целесообразный способ выявления и устранения грубых ошибок - непосредственный анализ наблюдений, тщательная их проверка. Статистич. методы следует применять лишь в сомнительных случаях. Существует два класса статистич. методов борьбы с грубыми ошибками. Первый (классический) содержит ряд критериев выявления грубых ошибок (аномальных наблюдений), второй (традиционный) - отбрасывание наблюдений, являющихся Р. в. н. с точки зрения нек-рого критерия, а затем оценивание интересующих параметров. Отбрасывание Р. в. н. при последующем оценивании параметров следует производить не на традиционных уровнях значимости, а на уровнях, к-рые дают оценки, оптимальные в нек-ром смысле. Обычно Р. в. н. не следует отвергать целиком, часто лучшие оценки получаются, если взять эти наблюдения с меньшим весом. Наиболее известные критерии исключения грубых ошибок в нормальных совокупностях принадлежат Э. Пирсону, Н. В. Смирнову, Ф. Граббсу, Ф. Анскомбу (см. [1], [2]). Критерии отбраковки для экспоненциальных совокупностей разработаны А. Лорентом и А. Басу (см. [1], [3]).
Другой способ борьбы с Р. в. н. основан на использовании оценок, мало чувствительных к Р. в. н.,- так наз. робастных оценок. В робастных процедурах Р. в. н., как правило, не отбрасываются, а получают меньшие веса, чем «типичные» наблюдения (см. [4]). В теории робастности для описания Р. в. н. используют модель грубых ошибок. Предложены критерии отбраковки, использующие робастные статистики медианного типа вместо традиционных (см. [3]).
Лит.: [1] Дэйвид Г., Порядковые статистики, пер. с англ., М., 1979; [2] Большее Л. Н., Смирнов Н. В., Таблицы математической статистики, 3 изд., М., 1983; [3] Смоляк С.А., Титарен-ко Б. П., Устойчивые методы оценивания, М., 1980; [4] Хьюбер П., Робастность в статистике, пер. с англ., М., 1984.
Б. П. Титаренко.


-- Пн апр 09, 2012 10:51:41 --

_hum_ в сообщении #558172 писал(а):
Вот это я не понял. Чем выброс отличается от засорения? И то, и другое в вашем изложении играет роль некоторого малого возмущения функции распределения, которое убирается либо напрямую - с помощью отбраковки, либо с помощью робастности (нечувствительности к малым возмущениям).


Я полагаю, что засорение - это модель, в которой некоторая доля наблюдений может быть порождена другим законом, сильно отличающимся от основного. Таких наблюдений может быть несколько, и их появление является закономерным следствием модели. Более того, они могут на самом деле не сильно отличаться от основной массы, и тогда их отбраковать невозможно в принципе. А выброс - это исключительная единичная ситуация, которая, что называется, "видна невооруженным глазом".

Это может показать парадоксом, однако методы отбраковки выбросов могут сами не быть устойчивы к засорению выборки. Например, метод Ирвина для отбраковки одного самого большого или самого малого наблюдения основан на разности между ним и соседним. Очевидно, что при этом мы исходим из того, что этот выброс именно единичен и соседнее наблюдение выбросом не является. Если мы имеем дело с засорением и резко отличающихся наблюдений будет несколько, то между собой они могут отличаться не сильно, и критерий работать в этом случае перестанет.

Разумеется, если перед нами стоит не явная задача отбраковки, а некоторая содержательная (например, оценки параметра), решению которой выбросы могут помещать, то можно использовать робастные методы. Конечно же, они от выброса помогут. Однако надо ведь понимать, что устойчивость таких методов получается не даром. Платой за это является ухудшение точности. Робастные доверительные интервалы более широкие, а точечные оценки могут отклоняться от истинных значений дальше. Поэтому если мы предполагаем, что все-таки все "нормальные" наблюдения у нас не засорены, то более предпочтительным является использование более точных и менее устойчивых методов. А выброс, если он произошел, надо все-таки отбраковать.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение09.04.2012, 13:48 


23/12/07
1763
PAV в сообщении #558217 писал(а):
Я полагаю, что засорение - это модель, в которой некоторая доля наблюдений может быть порождена другим законом, сильно отличающимся от основного. Таких наблюдений может быть несколько, и их появление является закономерным следствием модели. Более того, они могут на самом деле не сильно отличаться от основной массы, и тогда их отбраковать невозможно в принципе. А выброс - это исключительная единичная ситуация, которая, что называется, "видна невооруженным глазом".

Как-то сомнительно, но раз так трактуете, то тогда вроде бы все сводится к задаче тестирования на однородность (одинаковую распределенность) двух выборок, одна из которых, объемом 1, состоит из "подозреваемого" на выброс, а вторая - из оставшейся части исходной выборки.
PAV в сообщении #558217 писал(а):
Платой за это является ухудшение точности. Робастные доверительные интервалы более широкие, а точечные оценки могут отклоняться от истинных значений дальше. Поэтому если мы предполагаем, что все-таки все "нормальные" наблюдения у нас не засорены, то более предпочтительным является использование более точных и менее устойчивых методов. А выброс, если он произошел, надо все-таки отбраковать.

Дык, получившаяся процедура (отбраковка + неробастный метод), рассматриваемая как неделимая, является просто еще одним робастным методом :) А значит, все перечисленное насчет ухудшения качества точности переносится и на нее.
Я все за что "бьюсь" - за то, чтобы "не плодить лишних сущностей без необходимости", ибо потом сложно будет обосновывать качество работы таких "с потолка взятых" процедур. (А для робастных мат. формализм вроде как имеется).

2Александрович А выборка что из себя представляет? А какие априорные сведения о модели имеются (известны ли распределения значений параметра у недефектного и дефектного элементов)?

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение09.04.2012, 14:04 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
_hum_ в сообщении #558279 писал(а):
Как-то сомнительно, но раз так трактуете, то тогда вроде бы все сводится к задаче тестирования на однородность (одинаковую распределенность) двух выборок, одна из которых, объемом 1, состоит из "подозреваемого" на выброс, а вторая - из оставшейся части исходной выборки.


Чисто формально можно так трактовать эту задачу, однако это очень сильно напоминает задачу о том, как вскипятить чайник: вылить из него воду, выключить плиту, после чего задача сведена к той, которую мы уже умеем решать. Методы проверки однородности двух выборок все-таки разрабатываются исходя из ситуации, когда количество элементов в этих выборках достаточно для того, чтобы что-то содержательное о них можно было сказать. Большинство из них просто не будут работать, если одна из выборок имеет объем 1. Например, для нее дисперсию невозможно оценить. Не говоря уже о том, что эти методы работают в условиях некоторых априорных предположений о виде распределений обеих выборок, а мы никаких специальных предположений о виде распределения нашего "выброса" не делаем.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение09.04.2012, 14:27 


23/12/07
1763
Не соглашусь. Все же здесь в явном виде именно такая задача: протестировать две гипотезы: первая - две выборки из одного распределения, вторая - из разных. И то, что в приложениях как правило две выборки имеют сравнимый объем, ничего не изменяет. Значит, надо искать критерии, которые не накладывают таких ограничений.

 Профиль  
                  
 
 Re: Отбраковка выбросов.
Сообщение10.04.2012, 11:29 
Аватара пользователя


21/01/09
3925
Дивногорск
Цитата:
Хочется собрать все критерии по исключению промахов из выборки. Знаю такие:
1. Ирвина,
2. Романовского,
3. Вариационного размаха,
4. Диксона,
5. 3-х сигм
6. Райта,
7. Смирнова,
8. Шовене,
9. Грабсса.
Кто-нибудь поможет пополнить список? Ещё робастные есть.

Список похоже полный. А робастных наверное нет.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 35 ]  На страницу Пред.  1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group