2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему
 
 Робастные методы (помогите, кто знает)
Сообщение19.12.2005, 19:03 
Заслуженный участник
Аватара пользователя


12/10/05
478
Казань
Мне нужны алгоритмы (или хотя бы один, но на все случаи жизни) робастной оценки параметров распределения случ. величины. Это официально так называется. А проще говоря - надо как-то сделать так, что бы оценить значение измеряемой величины по результатам множества попыток измерения, при этом выбросив или не принимая во внимания искаженные результаты (которые лежат аномально далеко от среднего значения). Я поискал по инету, но попадаются шибко заумные статьи, в которых до алгоритма шагать и шагать, и все лесом! :) Подскажите, плз, кто знает или занимался этим!

 Профиль  
                  
 
 
Сообщение19.12.2005, 20:56 
Экс-модератор


12/06/05
1595
MSU
Если надо оценить среднее, чтобы на него не так сильно влияли выбросы, то часто берут медиану вмесно среднего арифметического.

А нельзя просто откинуть экстремальные значения в соответствии с каким-нибудь критерием, а потом применять обычные оценки?

 Профиль  
                  
 
 
Сообщение19.12.2005, 21:17 
Заслуженный участник
Аватара пользователя


12/10/05
478
Казань
Вот эти критерии меня как раз и интересуют! Не с потолка же их брать! Конечно, можно попробовать и с потолка, но при этом неизвестно какой будет результат...

 Профиль  
                  
 
 
Сообщение19.12.2005, 23:58 
Заслуженный участник
Аватара пользователя


17/10/05
3709
:evil:
Скажите хоть что-нибудь про распределение, которое вы ожидаете. Без этого ничего - ну правда, ничего - сказать нельзя.

Порядок по жизни такой - оцениваете глазами распределение. Применяете критерий проверки принадлежности выборки к этому распределению. Начинаете оценивать параметры. Можно еще использовать $\chi^2$ для оценки того, что получилось (а впрочем, пусть меня статистики тут поправят).

Еще один момент - имейте ввиду, аномальные отклонения зависят от количества данных (я надеюсь, что если это для Вас банальность, Вы простите меня). К примеру, коли распределение Гауссово, большинство инженеров пользуется правилом $3 \sigma$. Однако для больших выборок оно не выполняется, следует брать $4 \sigma$.

 Профиль  
                  
 
 
Сообщение20.12.2005, 00:33 
Заслуженный участник
Аватара пользователя


23/07/05
17973
Москва
Sanyok писал(а):
Вот эти критерии меня как раз и интересуют! Не с потолка же их брать! Конечно, можно попробовать и с потолка, но при этом неизвестно какой будет результат...


Попадётся Вам распределение, не имеющее математического ожидания. И увидите Вы примерно следующую картину: все точки стоят тесной группой, а одна - далеко-далеко. Ясно, грубая ошибка измерения. Выбросим.
Изображаем оставшиеся точки в более крупном масштабе. Опять все точки тесной группой, а одна далеко-далеко. Выбросим.
Оставшиеся точки снова изображаем в более крупном масштабе. И что же? Опять все точки расположены тесной группой, а одна - далеко-далеко. Выбросим.
...
В конце остались две точки. Все остальные - грубые ошибки измерения.

 Профиль  
                  
 
 
Сообщение20.12.2005, 08:33 
Заслуженный участник
Аватара пользователя


12/10/05
478
Казань
незванный гость писал(а):
:evil:
Скажите хоть что-нибудь про распределение, которое вы ожидаете. Без этого ничего - ну правда, ничего - сказать нельзя.


Жаль... Я последнее время как раз и пытался это сделать - как-то оценить распределение, которое там может получится. Измеряемая величина - это фазовый сдвиг м/у первой и третьей гармониками сигнала. Сигнал - меандр (без постоянной составляющей), с искаженными фронтами (т.е фронты или завалены или наоборот, на них выбросы есть). Какое распределение в этом случае должно получится (теоретически)?

 Профиль  
                  
 
 
Сообщение20.12.2005, 09:01 


29/07/05
5
Samara
Dan_Te писал(а):
Если надо оценить среднее, чтобы на него не так сильно влияли выбросы, то часто берут медиану вмесно среднего арифметического.

А нельзя просто откинуть экстремальные значения в соответствии с каким-нибудь критерием, а потом применять обычные оценки?


И критерий известный: упорядочиваем выборку $x_1\legslant x_2$ \legslant ...x_n, отбрасываем по k крайних членов слева и справа в упорядоченной выборке, а затем усредняем оставшиеся члены.
$\overline x=\frac {1} {(n-2k)} $\sum\limits_{i=k+1}^{n-k} x_i$
Предельными случаями является медианна (когда отбрасываем все, кроме одного) и обычное среднее (не отбрасываем ничего).
Еще одна оценка - винзорирование. При этом крайние члены не отбрасывают, а заменяют на ближайшие к ним из оставшихся членов.

Можете это все посмотреть в Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. Л.: Энергоатомиздат. 1990 - 288 с.

Извинения - не умею пока тэгом Math пользоваться (а то бы и формулы все более точно привела).

 Профиль  
                  
 
 
Сообщение20.12.2005, 10:01 
Заслуженный участник
Аватара пользователя


12/10/05
478
Казань
Victoria писал(а):
Можете это все посмотреть в Грановский В.А., Сирая Т.Н. Методы обработки экспериментальных данных при измерениях. Л.: Энергоатомиздат. 1990 - 288 с.


Спасибо большое!

 Профиль  
                  
 
 
Сообщение20.12.2005, 10:19 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
Есть такой непараметрический метод: строим вариационный ряд из полусумм наблюдений $\frac{x_i+x_j}{2}$, $i\le j$, и у него берем медиану.

 Профиль  
                  
 
 
Сообщение20.12.2005, 22:56 
Экс-модератор


12/06/05
1595
MSU
Я с задачей отсеивания выбросов в промышленных масштабах не сталкивался, надо было просто почистить несколько выборок с известным теоретическим распределением. Я наносил выборку на соответствующую вероятностную бумагу и смотрел, что получается. Если точки ложатся на диагональ, то все нормально. А если большинство точек ложатся на прямую, которая не совпадает с диагональю, и есть несколько далеко отстоящих точек, то я их выкидываю и смотрю, что получается.

Если интересно, могу картинку показать для наглядности.

 Профиль  
                  
 
 
Сообщение21.12.2005, 21:22 
Заслуженный участник
Аватара пользователя


12/10/05
478
Казань
Пожалуста, если не трудно - мне интересно.
Но в конкретном случае интересует именно для "промышленных масштабов", объем выборки - несколько сотен значений.

Для "непромышленных масштабов" я сам придумал алгоритм с год назад, хочу поделится... Мож, кто сможет оценить его с математической, так сказать, точки зрения. Может - я не первый, кому подобное в голову приходило...

Пусть есть набор результатов измерений : $ a_k $, k = 1..N.
Тогда результат вычисляем по формуле:

$ a_{res} = \frac {\sum\limits_{k=1}^N w_k a_k} {\sum\limits_{k=1}^N w_k} $,

где $w_k$ - веса, которые вычисляются по формуле:

$ w_k = \frac 1 {\prod\limits_{n=1, n \ne k}^N |a_k - a_n|}$

P.S. Как с пом-ю тэга math поставить значек "не равно"? - {спасибо Someone, я исправил}
P.P.S Предложенную мне книгу пока не нашел...

 Профиль  
                  
 
 
Сообщение21.12.2005, 21:28 
Заслуженный участник
Аватара пользователя


23/07/05
17973
Москва
Sanyok писал(а):
P.S. Как с пом-ю тэга math поставить значек "не равно"?


$\ne$ $\neq$ $\not=$

 Профиль  
                  
 
 
Сообщение22.12.2005, 02:04 
Экс-модератор


12/06/05
1595
MSU
Под непромышленными масштабами я имел в виду не размер выборки, а то, что процесс принятия решения не автоматизирован, все делается "на глазок".

Вот выборка из нормального распределения N(0,2;1) (100 точек), в которую я запулил три выброса (со значениями 10, 15 и 20, кажется), на нормальной вероятностной бумаге.
Изображение
Видно, что точки ложатся на прямую, но немного не на ту, на которую надо. Это происходит потому, что Statistica оценила параметры распределения по выборке (которые сильно искажены выбросами), и нанесла точки на бумагу с оцененными параметрами. Берем и выкидываем то, что там болтается в правом верхнем углу, то есть три моих выброса, получаем вот такую красотищу:
Изображение

А вот более сложный случай: налицо две прямые под разными углами. Это я смешал две выборки, РР[0;0,5] и PP[0,2;0,8], и нанес их на бумагу для PP[0;1]. Пропорции смешения не важны, в данном случае я брал 40 точек из первого распределения и 60 точек из второго.
Изображение

Еще бывает, когда точки более-менее ложатся на прямую, а хвосты куда-то завалены. Но судя по той задаче, что вы описали, у вас скорее встретится что-то похожее на первую картинку.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 13 ] 

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group