2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Восстановление плотности одномерного распределения
Сообщение20.07.2018, 22:58 
Уважаемые участники! Возникла необходимость как можно более точного восстановления плотности распределения по одномерной выборке из $n$ наблюдений $X_i\in R^n$ в точке $X=0$. Желательно так же найти доверительный интервал для полученной оценки.

Есть идея найти $k$ минимальных по модулю наблюдений и вычислить
$p(0)\approx \frac{k}{N(X_{kmax}-X_{kmin})}$.

Непонятно только как выбрать оптимальное число $k$.

Можно взять фиксированную окрестность, в вычислительном отношении это даже будет проще, но как определить ширину этой окрестности? Знаю, что есть формула Стерджесса, но мне кажется она слишком примитивная для этого.

Ещё, главное, это определить доверительный интервал для полученной плотности.

Буду благодарен за любую информацию

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение20.07.2018, 23:34 
Вы хотите непараметрически оценить плотность ? Т.е. функциональная форма распределение не известна? Тогда получить доверительный интервал не получится. По поводу непареметрического построения плотности:
https://en.m.wikipedia.org/wiki/Kernel_density_estimation

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение20.07.2018, 23:53 
dsge спасибо за ссылку, буду изучать. Но пожалуйста ответьте, если Вас не затруднит, если получить доверительный интервал никак не получится, то можно хотя бы как то оценить точность полученных результатов? или как то выбрать самую лучшую оценку для разных окрестностей/ разного числа соседних наблюдений?

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение20.07.2018, 23:57 
Может как-нибудь бутстрапить выборку. Для каждой симуляции получать свою оценку, потом делать вывод о неопределенности.

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение21.07.2018, 00:47 
dsge в сообщении #1327982 писал(а):
Может как-нибудь бутстрапить выборку. Для каждой симуляции получать свою оценку, потом делать вывод о неопределенности.


Это всё нужно "взвесить", даст ли BootStrap адекватные результаты - не ясно. Есть много примеров, где он вообще не работает. Да и выборка для него нужна довольно большая, а тут, внутри окрестности будет примерно 10 наблюдений.

А вот я нашел про доверительные интервалы частот http://pandia.ru/text/78/264/64575.php можно ли это как то использовать?

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение21.07.2018, 09:43 
Andrey_Kireew в сообщении #1327988 писал(а):
внутри окрестности будет примерно 10 наблюдений.

Andrey_Kireew в сообщении #1327988 писал(а):
http://pandia.ru/text/78/264/64575.php
можно ли это как то использовать?

Там асимптотически большие выборки. Для больших выборок работают предельные теоремы и функциональная форма распределения не важна.

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение21.07.2018, 17:23 
Вот нашел оптимальный интервал для оценивания плотности, в предположении, что распределение можно приблизить нормальным законом (чем хорошо - этот интервал не зависит ни от центра распределения, ни от его масштаба):
$h=2(\frac{1}{n}\cdot \frac{4.5\phi^4[\Phi^{-1}(\tau)]}{(2[\Phi^{-1}(\tau)]^2+1)^2})^{-1/5}$,
$\Phi^{-1}(\cdot)$ - функция, обратная стандартному нормальному распределению, $\phi (\cdot)$ - плотность стандартного нормального распределения.
[Bofinger, 1975]

Если использовать этот интервал, то оптимальное число наблюдений, которое нужно взять для оценивания плотности (число ближайших к заданному $\tau$ соседей) будет
$k=h\cdot n -1$

ну и сама плотность находится так
$p(\tau)=\frac{k+1}{n\cdot |max(X_1,... X_k)-min(X_1,... X_k)|}$

правильно получается?

 
 
 
 Re: Восстановление плотности одномерного распределения
Сообщение21.07.2018, 20:01 
Есть ещё окрестность Chamberlain (1995г)
$h=z_{1-\alpha /2}\sqrt{\frac{\tau(1-\tau)}{n}}$,
основанная на доверительных интервалах выборочных квантилей.

В ней вообще не делается предположений относительно формы распределения.
$\alpha$ выбирается из тех соображений, чтобы соответствовать уровню значимости тестов, в которых потом будет использоваться полученная оценка плотности.

Я проверил на своих данных, получается по Bofinger оптимальная окрестность составляет 1/10 выборки, по формуле Стерджесса выборку нужно поделить на 12 частей (что довольно близко к предыдущему), а по формуле Chamberlain оптимальная окрестность составит 1/25 выборки, т.е. она более чем в 2 раза уже остальных.

Какую же из них лучше использовать?

 
 
 [ Сообщений: 8 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group