2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Лишние данные
Сообщение17.12.2017, 11:24 


29/07/08
536
Уважаемые софорумники, для лучшей оценки мат.ожидания случайной величины и дисперсии я из выборки отбрасываю крайние ее члены, по одной сверху и снизу. На мой взгляд крайние точки выборки могут существенно изменять характеристики выборки. А все остальные расчеты я делаю по стандартным правилам.
Насколько корректно ли я поступаю?

 Профиль  
                  
 
 Re: Лишние данные
Сообщение17.12.2017, 12:08 
Заслуженный участник
Аватара пользователя


09/09/14
6328
Побережный Александр в сообщении #1275652 писал(а):
Насколько корректно ли я поступаю?
Возможно, Вам поможет вторая часть этого сообщения (ну и та тема вообще). Как минимум там достаточно ключевых слов для дальнейшего углубления.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение17.12.2017, 12:16 


16/02/10
258
Используемый вами метод относится к робастным методам матстатистики. Точнее, это метод усечённых M-оценок.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение17.12.2017, 20:40 


11/07/16
825
Такое отбрасывание данных влияет на точечные оценки. Вот пример. Рассмотрим выборку объема 3 из генеральной совокупности $X$, равномерно распределенной с парамерами $a=0,\,b=1$, т.е. на отрезке $[0,1].$ Если отбросить два крайние значения, то остается один элемент - вторая порядковая статистика.
Ее математическое ожидание (МО) равняется 1/2 $ и совпадает с МО генеральной совокупности. Однако дисперсия равна $1/20$ и отличается от дисперсии генеральной совокупности $ 1 /12$.
См. расчеты, выполненные с Мэйплом
Код:
with(Statistics):
X := RandomVariable(Uniform(0, 1)):
Z := OrderStatistic(X, 2, 3):
Variance(Z);
                               1
                               --
                               20
Mean(Z);
                               1
                               -
                               2
Mean(X);
                               1
                               -
                               2
Variance(X);
                               1
                               --
                               12


Возможно, что точечная оценка дисперсии при таком отбрасывании является асимптотически несмещенной.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение18.12.2017, 00:02 


11/07/16
825
Математический эксперимент, проделанный с Мэйплом, показывает, что при большом объеме выборки отбрасывание двух крайних членов практически не влияет на значения точечных оценок математического ожидания и дисперсии для стандартного нормального распределения и геометрического распределения с параметром $1/3$:
Код:
restart; with(Statistics):
X := Sample(Normal(0, 1), 10000):
Mean(X);
                  HFloat(-0.02336434411965915)



Variance(X);
                   HFloat(0.990327839953358)


Y := sort(convert(X, list)):
Mean(Y[2 .. 9999]);
                 HFloat(-0.023341390649296714)
Variance(Y[2 .. 9999]);
                   HFloat(0.9877362636231617)
U := Sample(Geometric(1/3), 1000);
Mean(U);
                         HFloat(2.004)
Variance(U);
                   HFloat(5.749733733733727)
V := sort(convert(U, list));
Mean(V[2 .. 999]);
                   HFloat(1.9929859719438878)
Variance(V[2 .. 999]);
                  HFloat(5.58771404393542)
Mean(Geometric(1/3));
                               2
Variance(Geometric(1/3));
                               6


 Профиль  
                  
 
 Re: Лишние данные
Сообщение18.12.2017, 04:23 
Аватара пользователя


21/01/09
3929
Дивногорск
Побережный Александр в сообщении #1275652 писал(а):
для лучшей оценки мат.ожидания случайной величины и дисперсии я из выборки отбрасываю крайние ее члены

Можно также винзорировать выборку.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение18.12.2017, 08:46 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Это называется усечённое среднее. А именно такая разновидность, с отбрасыванием ровно одного наибольшего и наименьшего значений - олимпийское среднее.Чаще отбрасывают заданный процент наблюдений сверху и снизу, а если отбрасывают почти по 50%, оставляя одно - получается медиана.
Олимпийское среднее используется при судействе некоторых соревнований, сельхозстатистике (ACRE в США), биржевом деле (LIBOR).
Усечение снижает эффективность оценки при нормальном и вообще легкохвостых наблюдениях, но позволяет получать осмысленные оценки при тяжёлых хвостах.
Оценка среднего (в предположении нормальности) несмещённая, оценка дисперсии заниженная.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: F111mon


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group