2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение22.08.2025, 20:26 
Как максимально точно оценить дисперсию тяжелохвостого распределения, зная точное математическое ожидание?
Проблема
У меня есть выборка из распределения с известным теоретическим средним $\mu$. Из-за длинного правого хвоста выборочное среднее $\hat\mu$ существенно смещено, а выборочная дисперсия $s^2$ недооценивает истинную дисперсию $\sigma^2$.
Что хочу
Использовать знание точного $\mu$ и саму выборку, чтобы получить более точную оценку $\sigma^2$, чем просто $s^2$.

Какие существуют статистические процедуры или ссылки на литературу, которые решают именно такую задачу: оценка дисперсии при известном $\mu$ в условиях тяжелых хвостов?

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение22.08.2025, 21:24 
alexey007 в сообщении #1699390 писал(а):
У меня есть выборка из распределения с известным теоретическим средним $\mu$.


Метод максимального правдоподобия пробовали? Правда, если распределение нетипично, то лучше, наверное, использовать какой-нибудь из методов робастного оценивания.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение23.08.2025, 11:50 
alexey007 в сообщении #1699390 писал(а):
Из-за длинного правого хвоста выборочное среднее $\hat\mu$ существенно смещено

Терминологическое замечание. Выборочное среднее является несмещенной оценкой мат.ожидания, и случайной величиной с дисперсией $\sigma^2 n^{-1}$. Так что если отличие выборочного среднего от мат.ожидания будет такого масштаба, то это нормально.

Для несмещенной выборочной дисперсии, если известно мат.ожидание, делить надо на $n$, а не $n-1$, одна степень свободы пропадает. От тяжести хвостов эти оценки никак не зависят, они справедливы для любых распределений, имеющих конечные вторые моменты.

Если известен вид распределения, то можно увеличить асимптотическую эффективность оценки (уменьшить дисперсию оценки дисперсии), используя метод максимума правдоподобия, но для этого желательно достаточно много наблюдений. Если функциональная форма плотности зависит от параметров, которые не являются мат.ожиданием и дисперсией, то эти параметры надо выразить через последние, потом дифференцировать по дисперсии при фиксированном мат ожидании. Опять, тяжесть хвостов тут ни при чем.

-- 23.08.2025, 11:56 --

Ghost_of_past в сообщении #1699400 писал(а):
Правда, если распределение нетипично, то лучше, наверное, использовать какой-нибудь из методов робастного оценивания.

Какая-то чушь в ПРР.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение23.08.2025, 14:58 
Аватара пользователя
dsge
Вы все правильно пишете формально. Начиная с того, что выборочное среднее не может быть смещенной оценкой, ну и прочие известные вещи.

Но ТС просто неудачно выражается, пытаясь бытовым языком описать известные эффекты и поведение выборок из распределений с тяжелыми хвостами, зачем-то задействовав при этом зарезервированный для других нужд термин.

Имелось в виду что-то такое:
В таких выборках, как у автора, выборки могут сползать вправо, в длинный хвост, что существенно повлияет на оценку выборочного среднего в данной реализации, за счет выбросов оно увеличится, порой значительно (оно совпадает с матожиданием только в среднем, т.е. и по сколь угодно большим выборкам, когда выборочное среднее рассматривается как случайная величина). Хвосты тяжелые, значит, выбросы очень вероятны. И даже если вместо выборочной дисперсии брать оценку дисперсии для случая известного матожидания $s^2_0=\frac 1n\sum_{k=1}^n(x_k-\mu)^2$, за счет наличия выбросов, значение дисперсии в некоторой реализации тоже может плохо приближать ее истинное значение, хотя она и несмещенная, эта оценка, и эффективная, и все остальное. Хотя бы один существенный выброс - квадрат становится гигантским. В общем случае, лучше этой оценки ничего нет, неприятность только в том, что матожидание не всегда известно.

Однако наш случай не общий, и один-два выброса - и эта оценка будет сильно завышена в сравнении с истинной дисперсией. Поскольку она неробастна.

При известном матожидании берут что-то вроде такого:
$\mathsf{MAD}=\mathsf{Me}(|x_1-\mu|,\ldots,|x_n-\mu|)$
$\hat\sigma = \dfrac{\mathsf{MAD}}{\Phi^{-1}(0.75)}$
и соотв., оценка дисперсии = $\hat\sigma^2$

Эта оценка робастна (т.е. устойчива к выбросам) и должна работать лучше.

Тут есть и еще одна проблема. Но я надеюсь, автор про нее знает. Распределение с тяжелыми хвостами не обязано иметь дисперсию или матожидание. Так что было бы хорошо предварительно убедиться, что вычисляя оценки, вычисляешь что-то осмысленное.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение23.08.2025, 15:30 
Combat Zone в сообщении #1699454 писал(а):
В таких выборках, как у автора, выборки могут сползать вправо, в длинный хвост, что существенно повлияет на оценку выборочного среднего в данной реализации, за счет выбросов оно увеличится, порой значительно

Надо различать тяжелые хвосты и выбросы. Тяжелые хвосты - это когда у распределения хвосты тяжелее нормального (больше вероятность, чем у нормального получить значения далекие от среднего). Если известна функциональная форма плотности и много наблюдений, то максимум правдоподобия есть самое лучшее.

Выбросы - это outliers, что-то не из нашего распределения, загрязненные данные (например, ошибка записи данных в 10 раз). Чтобы смягчить эффект этого загрязнения на оценку надо применять какую-то робастную целевую функция, растущую (или нерастущую вовсе после какого-нибудь значения аргумента) медленее квадратичной.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение23.08.2025, 17:26 
Аватара пользователя
Я различаю.
dsge в сообщении #1699456 писал(а):
Выбросы - это outliers, что-то не из нашего распределения, загрязненные данные

Необязательно. Это вопрос договоренностей и терминологиии.
en.wiki писал(а):
Outliers can occur by chance in any distribution, but they can indicate novel behaviour or structures in the data-set, measurement error, or that the population has a heavy-tailed distribution.

Так вот когда выбросы - не загрязненные данные, а подлинные, то вероятность их возникновения в выборке из распределения с тяжелым хвостом высока.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение24.08.2025, 12:59 
Combat Zone в сообщении #1699468 писал(а):
Так вот когда выбросы - не загрязненные данные, а подлинные, то вероятность их возникновения в выборке из распределения с тяжелым хвостом высока.

Я бы не называл то что получается из исходного распределения "выбросами". Это распределение, какое есть, оценивается МПП, если достаточно данных.
А если наблюдение отклоняется на $100\sigma$ (например, проценты не переведены в сотые по какой-то причине), то это явно выброс и никакими тяжелыми хвостами его не получить. В этом случае такое наблюдение лучше удалить и оценивать без него. Если поиск выброса невозможен (очень дорого или\и слишком много данных), то приходится делать робастные оценки, чтобы как-то смягчить искажения, смещенности.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение24.08.2025, 13:40 
Аватара пользователя
Ну поздно уже. Назвали, нас не спросясь. Если вам очень не нравится использовать слово выброс в таком контексте (хотя оно используется), называйте экстремальными значениями. Это не будет противоречить вашим убеждениям. Смысл тот же - все сильно съезжает, а просто удалить из выборки мы не можем, потому что это как раз подлинное значение наблюдения, ошибки нет.
А удалять без предварительного анализа нельзя ни в коем случае, вы теряете специфику распределения. На то они и тяжелые хвосты.
dsge в сообщении #1699512 писал(а):
А если наблюдение отклоняется на $100\sigma$ (например, проценты не переведены в сотые по какой-то причине), то это явно выброс и никакими тяжелыми хвостами его не получить.

У меня нет такой уверенности. А если сигма нет вообще? Все эти чудеса от анализа данных в виде ящиков с усами (оне же формулы Тьюки) рассчитаны на более-менее симметричное распределение, близкое к нормальному.
Как фильтровать выброс-ошибку от выброса, свойственного асимметричному распределению с тяжелыми хвостами - это сложный вопрос. Нам его не задавали. Нас спросили совсем другое, это мы уже увлеклись.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение24.08.2025, 16:59 
Combat Zone в сообщении #1699520 писал(а):
Ну поздно уже. Назвали, нас не спросясь.

Это авторы Википедии так назвали. Существуют не менее компетентные мнения по этому поводу.

 
 
 [ Сообщений: 9 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group