Робастные методы (помогите, кто знает)

Sanyok · 12/10/05 478 Казань

Мне нужны алгоритмы (или хотя бы один, но на все случаи жизни) робастной оценки параметров распределения случ. величины. Это официально так называется. А проще говоря - надо как-то сделать так, что бы оценить значение измеряемой величины по результатам множества попыток измерения, при этом выбросив или не принимая во внимания искаженные результаты (которые лежат аномально далеко от среднего значения). Я поискал по инету, но попадаются шибко заумные статьи, в которых до алгоритма шагать и шагать, и все лесом!

Подскажите, плз, кто знает или занимался этим!

Dan_Te · 12/06/05 1595 MSU

Если надо оценить среднее, чтобы на него не так сильно влияли выбросы, то часто берут медиану вмесно среднего арифметического.

А нельзя просто откинуть экстремальные значения в соответствии с каким-нибудь критерием, а потом применять обычные оценки?

Sanyok · 12/10/05 478 Казань

Вот эти критерии меня как раз и интересуют! Не с потолка же их брать! Конечно, можно попробовать и с потолка, но при этом неизвестно какой будет результат...

незваный гость · 17/10/05 3709

Скажите хоть что-нибудь про распределение, которое вы ожидаете. Без этого ничего - ну правда, ничего - сказать нельзя.

Порядок по жизни такой - оцениваете глазами распределение. Применяете критерий проверки принадлежности выборки к этому распределению. Начинаете оценивать параметры. Можно еще использовать $\chi^2$ для оценки того, что получилось (а впрочем, пусть меня статистики тут поправят).

Еще один момент - имейте ввиду, аномальные отклонения зависят от количества данных (я надеюсь, что если это для Вас банальность, Вы простите меня). К примеру, коли распределение Гауссово, большинство инженеров пользуется правилом $3 \sigma$ . Однако для больших выборок оно не выполняется, следует брать $4 \sigma$ .

Someone · 23/07/05 18040 Москва

Sanyok писал(а):

Вот эти критерии меня как раз и интересуют! Не с потолка же их брать! Конечно, можно попробовать и с потолка, но при этом неизвестно какой будет результат...

Попадётся Вам распределение, не имеющее математического ожидания. И увидите Вы примерно следующую картину: все точки стоят тесной группой, а одна - далеко-далеко. Ясно, грубая ошибка измерения. Выбросим.
Изображаем оставшиеся точки в более крупном масштабе. Опять все точки тесной группой, а одна далеко-далеко. Выбросим.
Оставшиеся точки снова изображаем в более крупном масштабе. И что же? Опять все точки расположены тесной группой, а одна - далеко-далеко. Выбросим.
...
В конце остались две точки. Все остальные - грубые ошибки измерения.

Sanyok · 12/10/05 478 Казань

незванный гость писал(а):

:evil:
Скажите хоть что-нибудь про распределение, которое вы ожидаете. Без этого ничего - ну правда, ничего - сказать нельзя.

Жаль... Я последнее время как раз и пытался это сделать - как-то оценить распределение, которое там может получится. Измеряемая величина - это фазовый сдвиг м/у первой и третьей гармониками сигнала. Сигнал - меандр (без постоянной составляющей), с искаженными фронтами (т.е фронты или завалены или наоборот, на них выбросы есть). Какое распределение в этом случае должно получится (теоретически)?

Victoria · 29/07/05 5 Samara

Dan_Te писал(а):

Если надо оценить среднее, чтобы на него не так сильно влияли выбросы, то часто берут медиану вмесно среднего арифметического.

А нельзя просто откинуть экстремальные значения в соответствии с каким-нибудь критерием, а потом применять обычные оценки?

И критерий известный: упорядочиваем выборку $$x_1\legslant x_2$ \legslant ...x_n$ , отбрасываем по $k$ крайних членов слева и справа в упорядоченной выборке, а затем усредняем оставшиеся члены.
$\overline x=\frac {1} {(n-2k)} $\sum\limits_{i=k+1}^{n-k} x_i$
Предельными случаями является медианна (когда отбрасываем все, кроме одного) и обычное среднее (не отбрасываем ничего).
Еще одна оценка - винзорирование. При этом крайние члены не отбрасывают, а заменяют на ближайшие к ним из оставшихся членов.

Можете это все посмотреть в Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. Л.: Энергоатомиздат. 1990 - 288 с.

Извинения - не умею пока тэгом Math пользоваться (а то бы и формулы все более точно привела).

Sanyok · 12/10/05 478 Казань

Victoria писал(а):

Можете это все посмотреть в Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. Л.: Энергоатомиздат. 1990 - 288 с.

Спасибо большое!

PAV · 29/07/05 8248 Москва

Есть такой непараметрический метод: строим вариационный ряд из полусумм наблюдений $\frac{x_i+x_j}{2}$ , $i\le j$ , и у него берем медиану.

Dan_Te · 12/06/05 1595 MSU

Я с задачей отсеивания выбросов в промышленных масштабах не сталкивался, надо было просто почистить несколько выборок с известным теоретическим распределением. Я наносил выборку на соответствующую вероятностную бумагу и смотрел, что получается. Если точки ложатся на диагональ, то все нормально. А если большинство точек ложатся на прямую, которая не совпадает с диагональю, и есть несколько далеко отстоящих точек, то я их выкидываю и смотрю, что получается.

Если интересно, могу картинку показать для наглядности.

Sanyok · 12/10/05 478 Казань

Пожалуста, если не трудно - мне интересно.
Но в конкретном случае интересует именно для "промышленных масштабов", объем выборки - несколько сотен значений.

Для "непромышленных масштабов" я сам придумал алгоритм с год назад, хочу поделится... Мож, кто сможет оценить его с математической, так сказать, точки зрения. Может - я не первый, кому подобное в голову приходило...

Пусть есть набор результатов измерений : $a_k$ , k = 1..N.
Тогда результат вычисляем по формуле:

$a_{res} = \frac {\sum\limits_{k=1}^N w_k a_k} {\sum\limits_{k=1}^N w_k}$ ,

где $w_k$ - веса, которые вычисляются по формуле:

$w_k = \frac 1 {\prod\limits_{n=1, n \ne k}^N |a_k - a_n|}$

P.S. Как с пом-ю тэга math поставить значек "не равно"? - {спасибо Someone, я исправил}
P.P.S Предложенную мне книгу пока не нашел...

Someone · 23/07/05 18040 Москва

Sanyok писал(а):

P.S. Как с пом-ю тэга math поставить значек "не равно"?

$\ne$ $\neq$ $\not=$

Dan_Te · 12/06/05 1595 MSU

Под непромышленными масштабами я имел в виду не размер выборки, а то, что процесс принятия решения не автоматизирован, все делается "на глазок".

Вот выборка из нормального распределения N(0,2;1) (100 точек), в которую я запулил три выброса (со значениями 10, 15 и 20, кажется), на нормальной вероятностной бумаге.

Видно, что точки ложатся на прямую, но немного не на ту, на которую надо. Это происходит потому, что Statistica оценила параметры распределения по выборке (которые сильно искажены выбросами), и нанесла точки на бумагу с оцененными параметрами. Берем и выкидываем то, что там болтается в правом верхнем углу, то есть три моих выброса, получаем вот такую красотищу:

А вот более сложный случай: налицо две прямые под разными углами. Это я смешал две выборки, РР[0;0,5] и PP[0,2;0,8], и нанес их на бумагу для PP[0;1]. Пропорции смешения не важны, в данном случае я брал 40 точек из первого распределения и 60 точек из второго.

Еще бывает, когда точки более-менее ложатся на прямую, а хвосты куда-то завалены. Но судя по той задаче, что вы описали, у вас скорее встретится что-то похожее на первую картинку.

Научный форум dxdy

Робастные методы (помогите, кто знает)

Кто сейчас на конференции