2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 усеченное нормальное наспределение
Сообщение13.04.2011, 18:01 
Возникла необходимость оценки параметров и проверки гипотез о параметрах усеченного нормального распределения. Плотность такого распределения выглядит как нормальное, но у него отрезан один хвост. В частности интересуют распределения, когда по физическому смыслу величины она не может принимать отрицательные значения. Тогда плотность распределения запишется как $p\left(x \right)=\frac{\sqrt{\frac{2}{\pi }}}{\sigma  \left(\text{erf}\left(\frac{a}{\sqrt{2} \sigma }\right)+1\right)}e^{-\frac{(x-a)^2}{2 \sigma ^2}}$. Такой предэкспоненциальный множитель нужен, чтобы интеграл от нуля до бесконечности был равен единице. Вопрос - как по выборке можно получить оценки центра и стандарта, каким законам подчиняются эти оценки? Есть ли корректные параметрические критерии проверки гипотез о равенстве центров и дисперсий?

 
 
 
 Re: усеченное нормальное наспределение
Сообщение13.04.2011, 22:12 
Аватара пользователя
Вот тут можно посмотреть некоторые результаты и оценки (правда, для усечённого с двух сторон распределения): http://contentdm.lib.byu.edu/ETD/image/etd3412.pdf , это какая-то магистерская диссертационная работа. Поиск по ключевым словам (singly truncated normal distribution, parameter estimation) выдаёт много статей, начиная от Коэна (1949, 1950).

 
 
 
 Re: усеченное нормальное наспределение
Сообщение14.04.2011, 19:27 
Спасибо большое за ссылочку! Правда ММП-оценки я получил немного проще, но формулы похожие, точнее сводятся к тем, что в магистерской (всегда полезно себя проверить). Про интервальные оценки я там ничего не нашел. А вот по поводу тестов - насколько я понял, там используется метод отношения правдоподобий, и утверждается, что логарифм этого отношения подчиняется распределению Пирсона с одной степенью свободы. А не подскажите ли, где можно почитать про метод отношения правдоподобий более детально и в общем виде? А то я в этом деле пока весьма слаб.

Про поиск - к сожалению, там все платное, а платить 30 баксов за статью, в которой еще не известно, будет ответ, или нет, как то не очень хочется.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение14.04.2011, 23:30 
Аватара пользователя
Критерий отношения правдоподобия (лемма Неймана - Пирсона оттуда же) - в любом приличном учебнике по математической статистике. Например, Г.И.Ивченко и Ю.И.Медведев "Введение в м.с." (URSS, 2009). Результат про асимптотическую "хи-квадратность" логарифма отношения правдоподобия там доказан в теореме 1 параграфа 5.4 (издание 1984 г. - параграф 4.5, теорема 4.6).

(Оффтоп)

Более детально (но очень трудно докопаться до нужных фактов, на свежую голову депрессия гарантирована, начинать с этого не рекомендую :)) - в учебнике "МС" А.А.Боровкова, там по всей книге много раз встречается обсуждение асимптотических свойств отношения правдоподобия, например, теорема 4 параграфа 36.


Про платное - понятно, я видела. Иногда помогает поискать веб-страницу автора нужной статьи, многие до сих пор выкладывают статьи у себя, вдруг повезет. Или попросить в соответствующем разделе форума, может быть, кто-то обладает доступом к тому же jstor и скачает.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение23.04.2011, 21:48 
Огромное СПАСИБО за учебник! Долго не отвечал - читал.
Насколько я понял "хи-квадратность" логарифма отношения правдоподобия только асимптотическая. Для того, чтобы использовать на малых выборках нужно скорректировать статистику - распределение остается такое-же. В критерии Бартлетта статистику (т.е. тот самый логарифм отношения) нужно домножить на множитель меньший единицы, причем этот множитель зависит только от количества и объемов выборок. Справедливо ли это в общем случае, для любых гипотез? Просто тогда, для решения прикладных задач, можно этот множитель прикинуть Монте-Карлой для нескольких объемов выборок, близких к имеющимся и аппроксимировать по желанию. Как показано в магистерской, при объемах выборок 250 асимптотичность еще не наступает. У меня объемы заметно скромнее.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение24.04.2011, 14:14 
Аватара пользователя
Ну, тут я точно не помогу. Вопрос о том, как поправлять статистику, чтобы её распределение при небольших объёмах данных было ближе к предельному, решается, видимо, моделированием, я в нём пас.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение28.04.2011, 22:22 
Еще немного об оценках параметров. ММП оценки почти понятны, хотелось бы понять про оценки методом моментов. Если плотность распределения $p\left(x \right)=\frac{\sqrt{\frac{2}{\pi }}}{\sigma \left(\text{erf}\left(\frac{a}{\sqrt{2} \sigma }\right)+1\right)}e^{-\frac{(x-a)^2}{2 \sigma ^2}}$, то посчитать интегралы $\int_0^{\infty } x p(x) \, dx$ и $\int_0^{\infty } (x-a)^2 p(x) \, dx$ не составляет труда - интегралы берутся в аналитическом виде. Первый интеграл представляет собой первый начальный момент, выборочная оценка которого $m_1=\sum _{i=1}^n \frac{x_i}{n}$. Со вторым сложнее. Во-первых, его можно считать и как $\int_0^{\infty } (x-m_1)^2 p(x) \, dx$, т.е. отклонение считать не от параметра $a$ распределения, а от выборочного центра $m_1$. Как будет правильно? Во-вторых, если я правильно понимаю, то выборочная оценка второго центрального момента смещена, тогда нужно ли использовать поправку $\sqrt{\frac{n}{n-1}}$? И всегда ли при оценке параметров распределения с использованием второго центрального момента нужно использовать эту поправку? И как корректно использовать эту поправку в ММП-оценках?

 
 
 
 Re: усеченное нормальное наспределение
Сообщение28.04.2011, 23:34 
Аватара пользователя
AndreyL в сообщении #439780 писал(а):
Если плотность распределения $p\left(x \right)=\frac{\sqrt{\frac{2}{\pi }}}{\sigma \left(\text{erf}\left(\frac{a}{\sqrt{2} \sigma }\right)+1\right)}e^{-\frac{(x-a)^2}{2 \sigma ^2}}$, то посчитать интегралы $\int_0^{\infty } x p(x) \, dx$ и $\int_0^{\infty } (x-a)^2 p(x) \, dx$ не составляет труда - интегралы берутся в аналитическом виде. Первый интеграл представляет собой первый начальный момент, выборочная оценка которого $m_1=\sum _{i=1}^n \frac{x_i}{n}$. Со вторым сложнее. Во-первых, его можно считать и как $\int_0^{\infty } (x-m_1)^2 p(x) \, dx$, т.е. отклонение считать не от параметра $a$ распределения, а от выборочного центра $m_1$. Как будет правильно?

Без разницы: Вы всё равно будете решать систему из двух (или больше - сколько параметров есть) уравнений, первое из которых приравнивает математическое ожидание $\mathsf EX$ к выборочному среднему $\overline X$, а второе - любой второй истинный момент $\mathsf E(X-c)^2 = \mathsf EX^2 - 2c\mathsf EX + c^2$ к соответствующему выборочному моменту $\frac1n \sum_{i=1}^n (X_i-c)^2=\overline{X^2} - 2c\overline X + c^2$. Из первого уравнения $\mathsf EX = \overline X$, поэтому искусственный сдвиг $c$ из второго уравнения всё равно исчезает. Что брать для удобства в качестве сдвига - безразлично, можно и просто $\mathsf EX^2$ приравнивать ко второму выборочному моменту, можно и сразу $c=\overline X$ взять, если это что-то упростит (сомневаюсь).

AndreyL в сообщении #439780 писал(а):
Во-вторых, если я правильно понимаю, то выборочная оценка второго центрального момента смещена, тогда нужно ли использовать поправку $\sqrt{\frac{n}{n-1}}$? И всегда ли при оценке параметров распределения с использованием второго центрального момента нужно использовать эту поправку? И как корректно использовать эту поправку в ММП-оценках?

Если бы Вы строили оценки не для параметров, а для математического ожидания и дисперсии, то для несмещённости оценку дисперсии выборочной дисперсией корректируют. Эта поправка не с неба падает: считается математическое ожидание полученной оценки, вводится множитель, с которым математическое ожидание будет равно дисперсии. У Вас же оцениваются не матожидание и дисперсия, а неизвестные параметры распределения. Они будут довольно сложными функциями от соответствующих выборочных моментов. Если вообще возможно вычислить матожидания этих оценок (шансы мизерные), то может быть (это тем более очень сомнительно) удастся подобрать такие коррективы к оценкам, которые сделают их несмещёнными. То же самое касается ММП: если есть желание сделать их несмещёнными, нужно сначала вычислять их матожидания, а потом - как повезёт.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 12:50 
По первой части понял: действительно, оценки параметров получаются одинаковые.
По второй не совсем. Я пытаюсь по среднему и дисперсии оценить параметры распределения. Ведь по идее дисперсия этого распределения равна $D=\int_0^{\infty } (x-m_1)^2 p(x) \, dx$, где $m_1=\int_0^{\infty } x p(x) \, dx$, а его выборочная оценка $\hat m_1=\sum _{i=1}^n \frac{x_i}{n}$. Выборочная оценка дисперсии $\hat D=\sum _{i=1}^n \frac{(x_i-\hat m_1)^2}{n}$. Приравнивая $m_1=\hat m_1$ и $D=\hat D$ можно получить значения параметров. Но такая формула для выборочной дисперсии дает смещенную оценку истиной дисперсии. Тогда вопрос - это справедливо для любых распределений, или только для нормального? Ведь дисперсии существуют у всех распределений. Будет ли такая оценка смещенной для любого распределения?

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 14:57 
Аватара пользователя
AndreyL в сообщении #439918 писал(а):
Ведь дисперсии существуют у всех распределений. Будет ли такая оценка смещенной для любого распределения?


Вычислите математическое ожидание выборочной дисперсии для любого распределения (с конечным вторым моментом), и убедитесь, что оно всегда равно $\frac{n-1}{n}\mathdf DX_1$:
$$\mathsf E \frac1n\sum_{i=1}^n(X_i-\overline X)^2=\mathsf E\overline {X^2} - \mathsf E(\overline X)^2 = \mathsf EX_1^2 - \left(\mathsf D\overline X + (\mathsf E\overline X)^2\right)=\mathsf EX_1^2 - \frac1n\mathsf DX_1 - (\mathsf EX_1)^2=\frac{n-1}{n}\mathdf DX_1.$$

В любой книжке по МС это есть.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 18:21 
Вот да, я так и думал, что несмещенная оценка дисперсии (второй центральный момент) всегда такая и не зависит от распределения. Но тогда получается, то если при оценке параметров любого распределения используется его дисперсия (как второй центральный момент), то в качестве выборочной оценки дисперсии нужно использовать $\hat D=\sum _{i=1}^n \frac{(x_i-\hat m_1)^2}{n-1}$. Или я не прав?

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 18:25 
Аватара пользователя
AndreyL в сообщении #440021 писал(а):
Но тогда получается, то если при оценке параметров любого распределения используется его дисперсия (как второй центральный момент), то в качестве выборочной оценки дисперсии нужно использовать $\hat D=\sum _{i=1}^n \frac{(x_i-\hat m_1)^2}{n-1}$. Или я не прав?

Вы не правы. Почему - см. выше. Потому что, вообще говоря, $\mathsf Eg(\xi) \neq g(\mathsf E\xi)$.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 18:36 
--mS-- в сообщении #440024 писал(а):
Потому что, вообще говоря, $\mathsf Eg(\xi) \neq g(\mathsf E\xi)$.

Я так понимаю, что если $\mathsf Eg(\xi) = g(\mathsf E\xi)$, например в случае линейной функции, то мои рассуждения будут верны?

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 19:50 
Аватара пользователя
AndreyL в сообщении #440034 писал(а):
Я так понимаю, что если $\mathsf Eg(\xi) = g(\mathsf E\xi)$, например в случае линейной функции, то мои рассуждения будут верны?

Да, конечно. Но усеченное нормальное распределение - это не тот случай, когда параметры линейно выразятся через моменты.

 
 
 
 Re: усеченное нормальное наспределение
Сообщение29.04.2011, 20:00 
--mS-- в сообщении #440059 писал(а):
Но усеченное нормальное распределение - это не тот случай, когда параметры линейно выразятся через моменты.


Да, конечно Вы правы! Огромное СПАСИБО за помощь и подробные объяснения!

 
 
 [ Сообщений: 15 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group