Лишние данные

Побережный Александр · 29/07/08 536

Уважаемые софорумники, для лучшей оценки мат.ожидания случайной величины и дисперсии я из выборки отбрасываю крайние ее члены, по одной сверху и снизу. На мой взгляд крайние точки выборки могут существенно изменять характеристики выборки. А все остальные расчеты я делаю по стандартным правилам.
Насколько корректно ли я поступаю?

grizzly · 09/09/14 6328

Побережный Александр в сообщении #1275652 писал(а):

Насколько корректно ли я поступаю?

Возможно, Вам поможет вторая часть этого сообщения (ну и та тема вообще). Как минимум там достаточно ключевых слов для дальнейшего углубления.

VPro · 16/02/10 258

Используемый вами метод относится к робастным методам матстатистики. Точнее, это метод усечённых M-оценок.

Markiyan Hirnyk · 11/07/16 802

Такое отбрасывание данных влияет на точечные оценки. Вот пример. Рассмотрим выборку объема 3 из генеральной совокупности $X$ , равномерно распределенной с парамерами $a=0,\,b=1$ , т.е. на отрезке $[0,1].$ Если отбросить два крайние значения, то остается один элемент - вторая порядковая статистика.
Ее математическое ожидание (МО) равняется $1/2 $$ и совпадает с МО генеральной совокупности. Однако дисперсия равна $1/20$ и отличается от дисперсии генеральной совокупности $1 /12$ .
См. расчеты, выполненные с Мэйплом

Код:

with(Statistics):
X := RandomVariable(Uniform(0, 1)):
Z := OrderStatistic(X, 2, 3):
Variance(Z);
                               1 
                               --
                               20
Mean(Z);
                               1
                               -
                               2
Mean(X);
                               1
                               -
                               2
Variance(X);
                               1 
                               --
                               12

Возможно, что точечная оценка дисперсии при таком отбрасывании является асимптотически несмещенной.

Markiyan Hirnyk · 11/07/16 802

Математический эксперимент, проделанный с Мэйплом, показывает, что при большом объеме выборки отбрасывание двух крайних членов практически не влияет на значения точечных оценок математического ожидания и дисперсии для стандартного нормального распределения и геометрического распределения с параметром $1/3$ :

Код:

restart; with(Statistics):
X := Sample(Normal(0, 1), 10000):
Mean(X);
                  HFloat(-0.02336434411965915)



Variance(X);
                   HFloat(0.990327839953358)


Y := sort(convert(X, list)):
Mean(Y[2 .. 9999]);
                 HFloat(-0.023341390649296714)
Variance(Y[2 .. 9999]);
                   HFloat(0.9877362636231617)
U := Sample(Geometric(1/3), 1000);
Mean(U);
                         HFloat(2.004)
Variance(U);
                   HFloat(5.749733733733727)
V := sort(convert(U, list));
Mean(V[2 .. 999]);
                   HFloat(1.9929859719438878)
Variance(V[2 .. 999]);
                  HFloat(5.58771404393542)
Mean(Geometric(1/3));
                               2
Variance(Geometric(1/3));
                               6

Александрович · 21/01/09 3923 Дивногорск

Побережный Александр в сообщении #1275652 писал(а):

для лучшей оценки мат.ожидания случайной величины и дисперсии я из выборки отбрасываю крайние ее члены

Можно также винзорировать выборку.

Евгений Машеров · 11/03/08 9539 Москва

Это называется усечённое среднее. А именно такая разновидность, с отбрасыванием ровно одного наибольшего и наименьшего значений - олимпийское среднее.Чаще отбрасывают заданный процент наблюдений сверху и снизу, а если отбрасывают почти по 50%, оставляя одно - получается медиана.
Олимпийское среднее используется при судействе некоторых соревнований, сельхозстатистике (ACRE в США), биржевом деле (LIBOR).
Усечение снижает эффективность оценки при нормальном и вообще легкохвостых наблюдениях, но позволяет получать осмысленные оценки при тяжёлых хвостах.
Оценка среднего (в предположении нормальности) несмещённая, оценка дисперсии заниженная.

Научный форум dxdy

Правила форума

Лишние данные

Кто сейчас на конференции