2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Лишние данные
Сообщение17.12.2017, 11:24 


29/07/08
536
Уважаемые софорумники, для лучшей оценки мат.ожидания случайной величины и дисперсии я из выборки отбрасываю крайние ее члены, по одной сверху и снизу. На мой взгляд крайние точки выборки могут существенно изменять характеристики выборки. А все остальные расчеты я делаю по стандартным правилам.
Насколько корректно ли я поступаю?

 Профиль  
                  
 
 Re: Лишние данные
Сообщение17.12.2017, 12:08 
Заслуженный участник
Аватара пользователя


09/09/14
6328
Побережный Александр в сообщении #1275652 писал(а):
Насколько корректно ли я поступаю?
Возможно, Вам поможет вторая часть этого сообщения (ну и та тема вообще). Как минимум там достаточно ключевых слов для дальнейшего углубления.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение17.12.2017, 12:16 


16/02/10
258
Используемый вами метод относится к робастным методам матстатистики. Точнее, это метод усечённых M-оценок.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение17.12.2017, 20:40 


11/07/16
825
Такое отбрасывание данных влияет на точечные оценки. Вот пример. Рассмотрим выборку объема 3 из генеральной совокупности $X$, равномерно распределенной с парамерами $a=0,\,b=1$, т.е. на отрезке $[0,1].$ Если отбросить два крайние значения, то остается один элемент - вторая порядковая статистика.
Ее математическое ожидание (МО) равняется 1/2 $ и совпадает с МО генеральной совокупности. Однако дисперсия равна $1/20$ и отличается от дисперсии генеральной совокупности $ 1 /12$.
См. расчеты, выполненные с Мэйплом
Код:
with(Statistics):
X := RandomVariable(Uniform(0, 1)):
Z := OrderStatistic(X, 2, 3):
Variance(Z);
                               1
                               --
                               20
Mean(Z);
                               1
                               -
                               2
Mean(X);
                               1
                               -
                               2
Variance(X);
                               1
                               --
                               12


Возможно, что точечная оценка дисперсии при таком отбрасывании является асимптотически несмещенной.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение18.12.2017, 00:02 


11/07/16
825
Математический эксперимент, проделанный с Мэйплом, показывает, что при большом объеме выборки отбрасывание двух крайних членов практически не влияет на значения точечных оценок математического ожидания и дисперсии для стандартного нормального распределения и геометрического распределения с параметром $1/3$:
Код:
restart; with(Statistics):
X := Sample(Normal(0, 1), 10000):
Mean(X);
                  HFloat(-0.02336434411965915)



Variance(X);
                   HFloat(0.990327839953358)


Y := sort(convert(X, list)):
Mean(Y[2 .. 9999]);
                 HFloat(-0.023341390649296714)
Variance(Y[2 .. 9999]);
                   HFloat(0.9877362636231617)
U := Sample(Geometric(1/3), 1000);
Mean(U);
                         HFloat(2.004)
Variance(U);
                   HFloat(5.749733733733727)
V := sort(convert(U, list));
Mean(V[2 .. 999]);
                   HFloat(1.9929859719438878)
Variance(V[2 .. 999]);
                  HFloat(5.58771404393542)
Mean(Geometric(1/3));
                               2
Variance(Geometric(1/3));
                               6


 Профиль  
                  
 
 Re: Лишние данные
Сообщение18.12.2017, 04:23 
Аватара пользователя


21/01/09
3929
Дивногорск
Побережный Александр в сообщении #1275652 писал(а):
для лучшей оценки мат.ожидания случайной величины и дисперсии я из выборки отбрасываю крайние ее члены

Можно также винзорировать выборку.

 Профиль  
                  
 
 Re: Лишние данные
Сообщение18.12.2017, 08:46 
Заслуженный участник
Аватара пользователя


11/03/08
10043
Москва
Это называется усечённое среднее. А именно такая разновидность, с отбрасыванием ровно одного наибольшего и наименьшего значений - олимпийское среднее.Чаще отбрасывают заданный процент наблюдений сверху и снизу, а если отбрасывают почти по 50%, оставляя одно - получается медиана.
Олимпийское среднее используется при судействе некоторых соревнований, сельхозстатистике (ACRE в США), биржевом деле (LIBOR).
Усечение снижает эффективность оценки при нормальном и вообще легкохвостых наблюдениях, но позволяет получать осмысленные оценки при тяжёлых хвостах.
Оценка среднего (в предположении нормальности) несмещённая, оценка дисперсии заниженная.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group