2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1, 2
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение25.08.2025, 13:52 
dsge

(Оффтоп)

Лады.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение25.08.2025, 15:37 
Аватара пользователя
И всё-таки я хотел бы видеть постановку задачи. "Тяжёлые хвосты" это свойство теоретического распределения или продукт ошибок (измерения, включения наблюдений в выборку и т.п.?), при том, что "основной корпус данных" имеет близкое к нормальному распределение? Если исходное распределение именно с тяжёлыми хвостами - то дисперсия не полностью его описывает. Я могу представить задачу, в которой нужна именно дисперсия и только она (ну, там размерные цепи считать, считая ошибки измерений независимыми), но в этом случае, поскольку теоретическое распределение предполагается известным, наверно, лучше оценить его параметры и посчитать дисперсию аналитически, а не непосредственно по данным. Если точный вид распределения неизвестен, и только подозреваются тяжёлые хвосты - то, похоже, не мудрствуя лукаво, считать по обычной формуле (подкорректировав знаменатель ввиду известности матожидания).
А вот если основные данные "нормальны", а хвосты за счёт выбросов - тогда надо робастные методы.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение25.08.2025, 17:33 
Что бы окончательно запутать ТС, на случай если это ему еще актуально, то можно воспользоваться также байесовской статистикой.

Если он утверждает, что известны "теоретическое средние" и "истинная дисперсия", то можно их принять за среднее а приорных распределений(я) параметров (сигма и, возможно, среднее в его случае) и из теоремы Байеса получить постериоры для распределения стандартного отклонения (или дисперсии). Результат как раз будет между выборочной оценкой и средним прайора.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение03.09.2025, 18:20 
Всем привет! Спасибо всем кто ответил

Спасибо! А где можно посмотреть эту формулу? Также было бы круто понять погрешность для оценки
Combat Zone в сообщении #1699454 писал(а):
dsge
При известном матожидании берут что-то вроде такого:
$\mathsf{MAD}=\mathsf{Me}(|x_1-\mu|,\ldots,|x_n-\mu|)$
$\hat\sigma = \dfrac{\mathsf{MAD}}{\Phi^{-1}(0.75)}$
и соотв., оценка дисперсии = $\hat\sigma^2$
Эта оценка робастна (т.е. устойчива к выбросам) и должна работать лучше.

Если бы... все пытаюсь разобраться как правильно сделать)))
dsge в сообщении #1699603 писал(а):
Combat Zone
ни стартовый пост ТС (хотя последний, похоже, уже решил все свои проблемы).

Может я не правильно выразился, но почему-то несколько человек написали что мне известна истинная дисперсия, Дисперсия как раз не исзветстна и ее нужно найти как можно точнее и желательно узнать погрешность ее оценки
Известно только истинное мат ожидание

Я заметил один важный момент. Часто пишут, что из-за «тяжёлых хвостов» (или, если угодно, выбросов) оценка математического ожидания в выборке смещается в большую сторону. У меня же бывает как в большую так и в меньшую сторону отклонения, но чаще в меньшую.
Так как правый хвост у распределения очень длинный и вероятность больших значений крайне мала, в моей выборке (даже при размере 10 000 и даже при миллионе наблюдений) эти редкие экстремальные значения просто не появляются. В итоге, когда я считаю среднее по выборке, оно оказывается заметно левее истинного значения, которое мне известно заранее.
Кроме того, я знаю, что значения ограничены диапазоном $[-1, M]$, где $M$ — максимум, но его величина заранее неизвестна (и более того, может никогда не реализоваться в наблюдении). Я пытался аппроксимировать распределение бета-распределением через преобразования, так как оно как раз задаётся на ограниченном интервале. Пробовал запускать симуляции с таким приближением и оценивать, сколько нужно наблюдений, чтобы выборочные характеристики приблизились к теоретическим. Но основная проблема в том, что:
$M$ заранее неизвестен (можно попробовать найти но не всегда это реально),
а вот вероятность $M$ узнать невозможно.
Из-за этого среднее по выборке почти всегда занижено, так как редкие крупные значения не попадают в данные.
Если у кого-то есть идеи, как корректнее подойти к этой задаче, буду очень благодарен за мысли.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение03.09.2025, 23:16 
alexey007
Здравствуйте и вам. Было бы не худо, если бы вы заглядывали почаще - иначе приходится воссоздавать с нуля, что там у вас происходило. А это двойная работа.
Нормально вы написали, ясно, что раз дисперсию надо оценивать, то она неизвестна. Но возможно, известен закон распределения и как выглядит дисперсия для этого закона, и это тогда можно будет выяснить по ММП - это то, что вам пытались сказать другие. Например, для нормального с параметрами $(a,\sigma^2)$ оба параметра могут быть неизвестны, но есть смысл их оценивать, пользуясь ММП. Получится, правда, все равно завышенная оценка, если все так, как вы пишете.
MAD-оценки известная штука, можете, например, здесь почитать https://disk.yandex.ru/i/RCGkshn3Sjd-xw
хотя это вторичный источник (психологи нашли у статистиков, что есть такие оценки, и доводят до сведения коллег).
Скажем, в той же "Outliers in Statistical Data" она упоминается. В программное обеспечение (R, SPSS) встроена.
alexey007 в сообщении #1700612 писал(а):
Я заметил один важный момент. Часто пишут, что из-за «тяжёлых хвостов» (или, если угодно, выбросов) оценка математического ожидания в выборке смещается в большую сторону. У меня же бывает как в большую так и в меньшую сторону отклонения,

Ничего удивительного, потому что $\mathsf M\bar x = \mu$, так что выборочное среднее в среднем по всем наблюдениям должно совпасть с матожиданием, чего не будет, если оно всегда больше (или всегда меньше).

Вопрос остался: так вам известен вид распределения (того, которое с тяжелыми хвостами), плотность, скажем?

И правильно я понимаю ваш последний пост, что матожидание тоже неизвестно, только оценка?

alexey007 в сообщении #1700612 писал(а):
Так как правый хвост у распределения очень длинный и вероятность больших значений крайне мала, в моей выборке (даже при размере 10 000 и даже при миллионе наблюдений) эти редкие экстремальные значения просто не появляются. В итоге, когда я считаю среднее по выборке, оно оказывается заметно левее истинного значения, которое мне известно заранее.

Если у вас так получается из раза в раз, то откуда уверенность в тяжелых хвостах? Честно говоря, плохо могу представить себе ситуацию, когда ко мне пришла бы выборка с заявлением, что она из распределения, скажем, Вейбулла, с такими-то параметрами. Обычно вся эта информация устанавливается по выборке.

alexey007 в сообщении #1700612 писал(а):
Дисперсия как раз не исзветстна и ее нужно найти как можно точнее и желательно узнать погрешность ее оценки

И вот еще осталось. Как вы хотите считать погрешность оценки? Если нет данных о распределении, вам только бутстреп остается. Выборка у вас, считайте сами.

Но в вашей ситуации, возможно, стоит задуматься, так ли нужно настаивать на тяжелых хвостах, если в выборочные данные они не лезут. Иначе, опять всплывает вопрос о распределении - оно вам навязано и известно или из каких соображений возникло.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 07:39 
Combat Zone в сообщении #1700629 писал(а):

Но возможно, известен закон распределения и как выглядит дисперсия для этого закона,


Нет, закон распределения не известен — ни плотность, ни вид. Я точно знаю только математическое ожидание $\mu$ (истинное значение) и то, что случайная величина лежит на отрезке $[-1, M]$. Причем распределение может быть как дискретным, так и непрерывным — информации о виде распределения нет. Я рассматриваю оба варианта.
Выборка может быть достаточно большой — от 10 000 до 10 000 000 наблюдений. Значение $M$ можно определить, но не всегда — поэтому хотелось бы иметь метод, позволяющий оценивать дисперсию $\sigma^2$ и одновременно понимать погрешность этой оценки.

Сейчас я пытаюсь подобрать возможные распределения только для симуляций, чтобы протестировать разные методы и посмотреть, какой точности удается достичь при оценке дисперсии.

---

Combat Zone в сообщении #1700629 писал(а):

MAD-оценки известная штука, можете, например, здесь почитать https://disk.yandex.ru/i/RCGkshn3Sjd-xw


Спасибо, буду изучать!

---

Combat Zone в сообщении #1700629 писал(а):

Вопрос остался: так вам известен вид распределения (того, которое с тяжелыми хвостами), плотность, скажем?


Нет, вид распределения неизвестен. Есть только гипотезы, какие распределения могут быть похожи на реальное — их я использую для тестовых симуляций.

---

Combat Zone в сообщении #1700629 писал(а):

И правильно я понимаю ваш последний пост, что матожидание тоже неизвестно, только оценка?


Нет, математическое ожидание $\mu$ известно точно. Также можно определить максимальное значение $M$ с точностью 100%. Случайная величина принимает значения в диапазоне $[-1, M]$.
Цель: по выборке размера $10^4 - 10^6$ и известному $\mu$ как можно точнее оценить дисперсию $\sigma^2$ и понять погрешность этой оценки.

---

Combat Zone в сообщении #1700629 писал(а):

откуда уверенность в тяжелых хвостах?


Просто известно, что случайная величина $\u \in [-1, M]$ распределена так, что чаще встречаются отрицательные или небольшие положительные значения, но иногда — редкие и большие значения вплоть до $M$. Именно они образуют тяжелый хвост распределения.

---

Combat Zone в сообщении #1700629 писал(а):

И вот еще осталось. Как вы хотите считать погрешность оценки?


Пока точно не знаю. Но для меня важно понимать погрешность, чтобы оценивать надежность методов. Например, если окажется, что погрешность оценки дисперсии составляет 50%, то такой метод использовать смысла нет.

---

Сейчас я сделал тестовую модель. Для симуляций я использовал дискретное распределение $(u_i, p_i)$ с $i=1..N$, где $N$ брал от 10 до 20 и задавал $\min{u_i}=-1$ и $\max{u_i}=M$, а вероятности $p_i$ убывают по геометрической прогрессии: значение $-1$ встречается чаще всего, $M$ — реже всего.

Я построил метод оценки $\sigma$ через два момента:

1. $\hat{\mu} = \sum u_i p_i — среднее по выборке без редкого максимального значения $M$,
2. $\hat{\mu}_2 = \sum u_i^2 p_i — второй момент по той же выборке.

Далее я вывел формулу:
$\sigma^{2} = M (\mu - \hat{\mu}) + \hat{\mu}_2 - \mu^{2}.$

Она получается из двух уравнений:

$\sum \limits_i u_i p_i + M p = \mu$
$\sum\limits_i u^2_i p_i + M^2 p = \sigma^2 + \mu^2$

В моих тестах данного метода относительная ошибка для дисперсии составила примерно 10%, что пока не знаю — много это или мало.

Следующий шаг — построить непрерывное распределение на $[-1, M]$ с заданными $\mu$ и $\sigma$, сгенерировать выборку и проверить точность метода. Если ошибка снова будет около 10%, буду думать, как улучшить точность.

Если есть идеи, как построить более точную оценку дисперсии с контролем погрешности — буду рад советам.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 10:56 
Аватара пользователя
Я бы обратил внимание на то, что в выражение для MAD входит известная функция распределения. То есть это оценка именно для "загрязнённого" распределения, где есть "правильные значения" с известным, чаще всего принимаемым за нормальное, распределением, и есть "грубые ошибки". Медиана отклонений игнорирует наличие грубых ошибок (вернее, само значение, полученное для ошибочных наблюдений, пока их меньше четверти всех наблюдений, не влияет, но сам факт наличия большого отклонения может немного сдвинуть медиану), получая оценку только для тех, которые мы не считаем грубыми ошибками. А выражение с обратной функцией распределения в знаменателе формулы для того, чтобы получить ту же оценку, что получили бы обычным образом в отсутствие грубых ошибок.
Если большие отклонения не есть ошибки, а "законные данные" - оценка через MAD будет занижена.
И ещё. Если большие отклонения не ошибки, а присущее данным свойство распределения - возможно, дисперсия не лучший параметр. Собственно, парой "матожидание-дисперсия" полностью описываются только нормальные величины. Возможно, лучше считать что-то ещё?

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 11:30 
Евгений Машеров в сообщении #1700659 писал(а):
Если большие отклонения не есть ошибки, а "законные данные" - оценка через MAD будет занижена.

Спасибо!
Евгений Машеров в сообщении #1700659 писал(а):
Если большие отклонения не ошибки, а присущее данным свойство распределения - возможно, дисперсия не лучший параметр.

Для меня это самый лучший и нужный параметр. После того как я получу дисперсию $\sigma^2$ и матожидание у меня уже сеть $\mu$
Дальше у меня есть код на основе уравнение Фоккера-Планка-Колмогорова я испольжую эти данные и моделирую следующие результаты. Поэтому без дисперсии никуда

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 13:43 
alexey007 в сообщении #1700664 писал(а):
на основе уравнение Фоккера-Планка-Колмогорова

чем дальше, тем страньшее и страньшее. Я присоединюсь к post1699624.html#p1699624
В чем основная задача? У вас прогнозирование временных рядов, что ли? Откуда все эти интересные слова появились?

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 16:51 
Аватара пользователя
У меня странное ощущение, что коллега пытается алгоритм биржевой торговли родить... А его данные - доходности, (цена продажи - цена покупки)/цена покупки, соответственно меньше -1 быть не может в принципе, а теоретически прибыльность неограничена. Ну, успехов...

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 17:39 
Евгений Машеров в сообщении #1700692 писал(а):
У меня странное ощущение, что коллега пытается алгоритм биржевой торговли родить... А его данные - доходности, (цена продажи - цена покупки)/цена покупки, соответственно меньше -1 быть не может в принципе, а теоретически прибыльность неограничена. Ну, успехов...

Не совсем, но очень близко. Задача относится к финансовой математике и я оцениваю риски, которые возникают редко но с большими убытками и доход который постоянный, в целом да задача очень похожа на биржевую торговлю и на автоматы в казино. Но я нигде в литературе не могу найти оценки дисперсии.
Не хотелось бы тратить время на изобретение велосипеда, если это уже в книгах изложено. В общем мой метод который я написал выше на реальных данных не работает, но немного другое придумал, позже опишу.

Combat Zone в сообщении #1700675 писал(а):
В чем основная задача?

Всю задачу я и сам не понимаю, я отвечаю только за разработку метода оценки дисперсии на выборках в которых нет редких данных, но известно матожидание.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение04.09.2025, 17:50 
Аватара пользователя
Сугубое ИМХО.
Если большие отклонения - не ошибки, то робастные методы непригодны, они будут этими "выбросами" пренебрегать. Я бы подобрал подходящее параметрическое распределение (Вейбулла? Фишера? гамма?), ограниченное слева нулём (а так как минимум равен -1), то рассматривал бы величину $x+1$, для него оценивал бы параметры (и да, ММП это хороший совет), а потом считал бы дисперсию для данного распределения "по формуле". Даже если бы в выборке не было бы очень больших наблюдений, просто по поведению хвоста можно было бы их наличие предугадать.

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение05.09.2025, 17:35 
Евгений Машеров в сообщении #1700700 писал(а):
Сугубое ИМХО.
Если большие отклонения - не ошибки, то робастные методы непригодны, они будут этими "выбросами" пренебрегать. Я бы подобрал подходящее параметрическое распределение (Вейбулла? Фишера? гамма?), ограниченное слева нулём (а так как минимум равен -1), то рассматривал бы величину $x+1$, для него оценивал бы параметры (и да, ММП это хороший совет), а потом считал бы дисперсию для данного распределения "по формуле". Даже если бы в выборке не было бы очень больших наблюдений, просто по поведению хвоста можно было бы их наличие предугадать.


Спасибо!

Вот нашел книжку и кажется там все должно быть, надеюсь на это)))
https://arxiv.org/pdf/2001.10488
Также нашел комментарий на эту книгу по поводу стандартного отклонения:
https://david-salazar.github.io/posts/fat-vs-thin-tails/2020-05-13-standard-deviation-and-fat-tails.html

буду разбираться, но поскольку мне одному будет тяжеловато буду тут вопросы задавать
Еще раз всем спасибо кто откликнулся!

 
 
 
 Re: Оценка дисперсии тяжелохвостого закона при известном μ
Сообщение13.09.2025, 21:57 
Вот еще хорошая книга не тему тяжелых хвостов

The Fundamentals of Heavy Tails (Nair, Wierman, Zwart и соавт.)
https://adamwierman.com/wp-content/uploads/2021/05/book-05-11.pdf

Кажется, что-то получилось и на тестовых примерах работает хорошо. Скоро распишу методику, которую я применил

 
 
 [ Сообщений: 29 ]  На страницу Пред.  1, 2


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group