2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Робастные методы (помогите, кто знает)
Сообщение19.12.2005, 19:03 
Аватара пользователя
Мне нужны алгоритмы (или хотя бы один, но на все случаи жизни) робастной оценки параметров распределения случ. величины. Это официально так называется. А проще говоря - надо как-то сделать так, что бы оценить значение измеряемой величины по результатам множества попыток измерения, при этом выбросив или не принимая во внимания искаженные результаты (которые лежат аномально далеко от среднего значения). Я поискал по инету, но попадаются шибко заумные статьи, в которых до алгоритма шагать и шагать, и все лесом! :) Подскажите, плз, кто знает или занимался этим!

 
 
 
 
Сообщение19.12.2005, 20:56 
Если надо оценить среднее, чтобы на него не так сильно влияли выбросы, то часто берут медиану вмесно среднего арифметического.

А нельзя просто откинуть экстремальные значения в соответствии с каким-нибудь критерием, а потом применять обычные оценки?

 
 
 
 
Сообщение19.12.2005, 21:17 
Аватара пользователя
Вот эти критерии меня как раз и интересуют! Не с потолка же их брать! Конечно, можно попробовать и с потолка, но при этом неизвестно какой будет результат...

 
 
 
 
Сообщение19.12.2005, 23:58 
Аватара пользователя
:evil:
Скажите хоть что-нибудь про распределение, которое вы ожидаете. Без этого ничего - ну правда, ничего - сказать нельзя.

Порядок по жизни такой - оцениваете глазами распределение. Применяете критерий проверки принадлежности выборки к этому распределению. Начинаете оценивать параметры. Можно еще использовать $\chi^2$ для оценки того, что получилось (а впрочем, пусть меня статистики тут поправят).

Еще один момент - имейте ввиду, аномальные отклонения зависят от количества данных (я надеюсь, что если это для Вас банальность, Вы простите меня). К примеру, коли распределение Гауссово, большинство инженеров пользуется правилом $3 \sigma$. Однако для больших выборок оно не выполняется, следует брать $4 \sigma$.

 
 
 
 
Сообщение20.12.2005, 00:33 
Аватара пользователя
Sanyok писал(а):
Вот эти критерии меня как раз и интересуют! Не с потолка же их брать! Конечно, можно попробовать и с потолка, но при этом неизвестно какой будет результат...


Попадётся Вам распределение, не имеющее математического ожидания. И увидите Вы примерно следующую картину: все точки стоят тесной группой, а одна - далеко-далеко. Ясно, грубая ошибка измерения. Выбросим.
Изображаем оставшиеся точки в более крупном масштабе. Опять все точки тесной группой, а одна далеко-далеко. Выбросим.
Оставшиеся точки снова изображаем в более крупном масштабе. И что же? Опять все точки расположены тесной группой, а одна - далеко-далеко. Выбросим.
...
В конце остались две точки. Все остальные - грубые ошибки измерения.

 
 
 
 
Сообщение20.12.2005, 08:33 
Аватара пользователя
незванный гость писал(а):
:evil:
Скажите хоть что-нибудь про распределение, которое вы ожидаете. Без этого ничего - ну правда, ничего - сказать нельзя.


Жаль... Я последнее время как раз и пытался это сделать - как-то оценить распределение, которое там может получится. Измеряемая величина - это фазовый сдвиг м/у первой и третьей гармониками сигнала. Сигнал - меандр (без постоянной составляющей), с искаженными фронтами (т.е фронты или завалены или наоборот, на них выбросы есть). Какое распределение в этом случае должно получится (теоретически)?

 
 
 
 
Сообщение20.12.2005, 09:01 
Dan_Te писал(а):
Если надо оценить среднее, чтобы на него не так сильно влияли выбросы, то часто берут медиану вмесно среднего арифметического.

А нельзя просто откинуть экстремальные значения в соответствии с каким-нибудь критерием, а потом применять обычные оценки?


И критерий известный: упорядочиваем выборку $x_1\legslant x_2$ \legslant ...x_n, отбрасываем по k крайних членов слева и справа в упорядоченной выборке, а затем усредняем оставшиеся члены.
$\overline x=\frac {1} {(n-2k)} $\sum\limits_{i=k+1}^{n-k} x_i$
Предельными случаями является медианна (когда отбрасываем все, кроме одного) и обычное среднее (не отбрасываем ничего).
Еще одна оценка - винзорирование. При этом крайние члены не отбрасывают, а заменяют на ближайшие к ним из оставшихся членов.

Можете это все посмотреть в Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. Л.: Энергоатомиздат. 1990 - 288 с.

Извинения - не умею пока тэгом Math пользоваться (а то бы и формулы все более точно привела).

 
 
 
 
Сообщение20.12.2005, 10:01 
Аватара пользователя
Victoria писал(а):
Можете это все посмотреть в Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. Л.: Энергоатомиздат. 1990 - 288 с.


Спасибо большое!

 
 
 
 
Сообщение20.12.2005, 10:19 
Аватара пользователя
Есть такой непараметрический метод: строим вариационный ряд из полусумм наблюдений $\frac{x_i+x_j}{2}$, $i\le j$, и у него берем медиану.

 
 
 
 
Сообщение20.12.2005, 22:56 
Я с задачей отсеивания выбросов в промышленных масштабах не сталкивался, надо было просто почистить несколько выборок с известным теоретическим распределением. Я наносил выборку на соответствующую вероятностную бумагу и смотрел, что получается. Если точки ложатся на диагональ, то все нормально. А если большинство точек ложатся на прямую, которая не совпадает с диагональю, и есть несколько далеко отстоящих точек, то я их выкидываю и смотрю, что получается.

Если интересно, могу картинку показать для наглядности.

 
 
 
 
Сообщение21.12.2005, 21:22 
Аватара пользователя
Пожалуста, если не трудно - мне интересно.
Но в конкретном случае интересует именно для "промышленных масштабов", объем выборки - несколько сотен значений.

Для "непромышленных масштабов" я сам придумал алгоритм с год назад, хочу поделится... Мож, кто сможет оценить его с математической, так сказать, точки зрения. Может - я не первый, кому подобное в голову приходило...

Пусть есть набор результатов измерений : $ a_k $, k = 1..N.
Тогда результат вычисляем по формуле:

$ a_{res} = \frac {\sum\limits_{k=1}^N w_k a_k} {\sum\limits_{k=1}^N w_k} $,

где $w_k$ - веса, которые вычисляются по формуле:

$ w_k = \frac 1 {\prod\limits_{n=1, n \ne k}^N |a_k - a_n|}$

P.S. Как с пом-ю тэга math поставить значек "не равно"? - {спасибо Someone, я исправил}
P.P.S Предложенную мне книгу пока не нашел...

 
 
 
 
Сообщение21.12.2005, 21:28 
Аватара пользователя
Sanyok писал(а):
P.S. Как с пом-ю тэга math поставить значек "не равно"?


$\ne$ $\neq$ $\not=$

 
 
 
 
Сообщение22.12.2005, 02:04 
Под непромышленными масштабами я имел в виду не размер выборки, а то, что процесс принятия решения не автоматизирован, все делается "на глазок".

Вот выборка из нормального распределения N(0,2;1) (100 точек), в которую я запулил три выброса (со значениями 10, 15 и 20, кажется), на нормальной вероятностной бумаге.
Изображение
Видно, что точки ложатся на прямую, но немного не на ту, на которую надо. Это происходит потому, что Statistica оценила параметры распределения по выборке (которые сильно искажены выбросами), и нанесла точки на бумагу с оцененными параметрами. Берем и выкидываем то, что там болтается в правом верхнем углу, то есть три моих выброса, получаем вот такую красотищу:
Изображение

А вот более сложный случай: налицо две прямые под разными углами. Это я смешал две выборки, РР[0;0,5] и PP[0,2;0,8], и нанес их на бумагу для PP[0;1]. Пропорции смешения не важны, в данном случае я брал 40 точек из первого распределения и 60 точек из второго.
Изображение

Еще бывает, когда точки более-менее ложатся на прямую, а хвосты куда-то завалены. Но судя по той задаче, что вы описали, у вас скорее встретится что-то похожее на первую картинку.

 
 
 [ Сообщений: 13 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group