2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3, 4, 5 ... 8  След.
 
 Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 14:07 


07/10/15

2400
В статистических исследованиях наиболее распространённой является проверка гипотезы нормальности распределения случайной величины. Вопросам проверки принадлежности другим типам распределений уделяется значительно меньшее внимание и он плохо освящены в литературе.
Один из примеров тому - распределение Лапласа (или двойное экспоненциальное распределение), плотность которого описывается уравнением:
$$p(x)=\frac{\alpha}{2}e^{-\alpha|x-\beta|}   (1)$$
В простейшем случае, для проверки нуль-гипотезы можно использовать критерий Хи-квадрат Пирсона, что требует оценки параметров теоретического распределения. Известно, что лучшие результаты достигаются при непосредственной минимизации критерия Хи-квадрат, но это слишком сложно и для такого простого критерия, на мой взгляд, неоправданно. Обычно для этих целей вполне подходят ММП - оценки параметров распределения, использование которых приводит лишь к очень небольшому отклонению статистики Хи - квадрат.
Известно, что для нормального распределения такими оценками являются математическое ожидание и стандартное отклонение.
Но какими будут Хи-квадрат оптимальные оценки $\alpha, \beta$ для распределения Лапласа?
В литературе указано что $\beta$ является математическим ожиданием, модой и медианой этого распределения, а дисперсия определяется формулой
$$\sigma^2=\frac{2}{\alpha^2}    (2)$$
из которой можно найти $\alpha$.
Но насколько оценка параметра масштаба, основанная на (2) будет оптимальной с точки зрения Хи- квадрат?
Численный эксперимент показывает, что использование медианы в качестве $\beta$ значительно лучше использование математического ожидания, в том смысле, что это приводит к заметно меньшим значениям статистики Хи - квадрат.
По аналогии, вместо стандартного отклонения можно было бы использовать среднее абсолютное отклонение
$$\alpha =\frac{\sqrt{2}}{Mad}  (3)$$
Визуально, качество аппроксимации гистограммы с использованием (3) получается лучше, чем с использованием (2). Однако, значение Хи - квадрат в этом случае получается намного больше. Видимо, это связано с тем, что в критерии Хи квадрат наибольший вес имеют "хвосты" различия в которых визуально не так заметно, а в случае распределения Лапласа они очень большие.

Может быть, вместо Mad использовать интерквартильный интервал, или ещё какой нибудь параметр?
Можно ли при построении гистограммы "отбрасывать" выбросы, из-за которых получаются очень большие "хвосты", например ограничится 99% наблюдений?

Буду благодарен за любую информацию по данному вопросу

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 16:02 
Аватара пользователя


21/01/09
3923
Дивногорск
А каков у Вас объём выборочного распределения?

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 17:38 


07/10/15

2400
несколько тысяч

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 18:22 


11/07/16
801
Насколько мне известно, применение критерия хи-квадрат с оценками параметров обосновано только для случая, когда применяется метод наибольшего правдоподобия (см., например, Ивченко Г.И., Медведев Ю. И. Введение в математическую статистику: Учебник. М: Издательство ЛКИ, 2010ю- 600 с. , с. 327-330). Функция правдоподобия задается сложным выражением, вот ее логарифм для выборки объема 4 $-{\frac {1}{\beta} \left( \ln  \left( 2 \right) \beta+\ln  \left( 
\beta \right) \beta+ \left| {\frac {\alpha\,x_{{1}}-1}{\alpha}}
 \right|  \right) }-{\frac {1}{\beta} \left( \ln  \left( 2 \right) 
\beta+\ln  \left( \beta \right) \beta+ \left| {\frac {\alpha\,x_{{2}}-
1}{\alpha}} \right|  \right) }-{\frac {1}{\beta} \left( \ln  \left( 2
 \right) \beta+\ln  \left( \beta \right) \beta+ \left| {\frac {\alpha
\,x_{{3}}-1}{\alpha}} \right|  \right) }-{\frac {1}{\beta} \left( \ln 
 \left( 2 \right) \beta+\ln  \left( \beta \right) \beta+ \left| {
\frac {\alpha\,x_{{4}}-1}{\alpha}} \right|  \right) }.
$

Понятно, что аналитические выражения для параметров распределения Лапласа, максимизирующих функцию правдоподобия, отсюда получить нельзя. Это можно сделать численно, применяя Мэйпл. Вот пример в Мэйлле 2019.1.
Создадим значения выборки объема 50 из распределения Лапласа с заданными параметрами:
Код:
with(Statistics):N := RandomVariable(Laplace(0.5, 1)):
S := Sample(N, 50):

Применяя Мэйпл, по этим выборочным значениям находим по МНП оценки для параметров:
Код:
MaximumLikelihoodEstimate(Laplace(1/alpha, beta), S);

$[\alpha= 2.72624236748896,\beta= 0.655670116736906]$

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:02 


07/10/15

2400
Markiyan Hirnyk в сообщении #1413441 писал(а):
Понятно, что аналитические выражения для параметров распределения Лапласа, максимизирующих функцию правдоподобия, отсюда получить нельзя

ничего подобного, для $\alpha$ как раз можно, и это будет медиана (в этом случае сумма модулей разностей, которая не зависит от $\beta$, станет минимальной)

-- 03.09.2019, 20:20 --

Тогда, задача максимизации выглядит так:
$ln(\alpha/2 )-\alpha \cdot Mad \to max $
приравниваем производную к нулю:
$\frac{2}{\alpha}-Mad=0$
и получеем ММП оценку:
$\alpha=\frac{2}{Mad}$
а у меня вместо двойки, почему то было корень из двух, может в этом и ошибка, сейчас проверю.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:25 


11/07/16
801
Andrey_Kireew Не понял, как составлено $\ln(\alpha/2)-\alpha \cdot {\rm Mad}.$ Пожалуйста, объясните.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:35 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Markiyan Hirnyk в сообщении #1413441 писал(а):
Насколько мне известно, применение критерия хи-квадрат с оценками параметров обосновано только для случая, когда применяется метод наибольшего правдоподобия (см., например, Ивченко Г.И., Медведев Ю. И. Введение в математическую статистику: Учебник. М: Издательство ЛКИ, 2010ю- 600 с. , с. 327-330).


Вы неправильно прочли указанные страницы Ивченко и Медведева. ОМП для параметров, полученные по выборке, здесь никак не годятся. Находить следует ОМП параметров, полученные по группированной выборке с частотами $\nu_1,\;\ldots,\nu_N$, т.е. находить такие значения параметров, которые максимизируют функцию правдоподобия полиномиального распределения с вероятностями $p_1(\alpha,\beta),\ldots,p_N(\alpha,\beta)$. Она выписана перед формулой (11) на стр. 328:
$$
(\hat\alpha,\hat\beta) = \mathop{\arg\max}_{\alpha,\beta}\prod_{j=1}^N \left(p_j(\alpha,\beta)\right)^{\nu_j}.
$$
Здесь $p_j(\alpha,\beta) = \int\limits_{\mathcal E_j}\frac{\alpha}{2}e^{-\alpha|x-\beta|}dx$ - теоретическая вероятность попасть в $j$-й интервал группировки.

Не сомневаюсь, что существует многочисленный софт, позволяющий находить оценки по методу минимума хи-квадрат по числовой выборке. Вернее, не сами оценки, а значение статистики критерия, являющееся этим минимумом (поскольку только оно и необходимо).

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:48 


07/10/15

2400
Markiyan Hirnyk в сообщении #1413451 писал(а):
Не понял, как составлено $\ln(\alpha/2)-\alpha \cdot {\rm Mad}.$ Пожалуйста, объясните


$$ln(p(x))=ln(\frac{\alpha}{2})-\alpha|x-\beta| $$
затем суммируем по всем наблюдениям и получаем логарифм правдоподобия
$$L=N \cdot ln(\frac{\alpha}{2}) -\alpha\Sigma|x_i-\beta|$$
делим на число наблюдений, так как оно постоянное, и получаем вышеуказанную формулу (имеется в виду $\Sigma|x_i-\beta|/N=Mad$)

Я попробовал, и результаты получаются визуально неотличимыми от оценок через дисперсию, но статистика Хи квадрат отличается очень сильно, надо ещё раз всё перепроверить в программе

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:58 


11/07/16
801
--mS--
Цитата:
Вы неправильно прочли указанные страницы Ивченко и Медведева. ОМП для параметров, полученные по выборке, здесь никак не годятся. Находить следует ОМП параметров, полученные по группированной выборке с частотами

Процитирую это место без купюр
Цитата:
Он показал, что существуют методы оценивания параметра $\theta$, при которых это распределение имеет простой вид, а именно, является распределением $\chi^2(N-1-r)$. В частности, это будет при использовании оценки максимального правдоподобия ...
Пожалуйста, обратите внимание на слова "в частности".
PS. Доказательство является одним из самых сложных доказательств в математической статистике. Лично я его не разобрал и не знаю людей, которые понимают указанное доказательство (которое приведено, в частности, в книге Г. Крамера "Математические методы статистики").

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:03 


07/10/15

2400
--mS-- в сообщении #1413455 писал(а):
ОМП для параметров, полученные по выборке, здесь никак не годятся.

ну ни то, что бы совсем никак, для грубых оценок сойдёт, я тут пробовал для нормального распределения - различия статистики полученной по выборочному среднему и выборочной дисперсии, и статистики, полученной путём её непосредственной минимизации, составляет всего несколько процентов. Причём истинное значение критерия будет всегда меньше, поэтому если нуль-гипотеза принята по выборочным параметрам, то по уточнённым параметрам она будет принята точно, и с ещё большей надёжностью.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:05 


11/07/16
801
Andrey_Kireew
Но ведь значение $\beta$ неизвестно.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:22 


20/03/14
12041
Markiyan Hirnyk в сообщении #1413462 писал(а):
Процитирую это место без купюр

Markiyan Hirnyk
Чтобы было "без купюр", прочитайте текст дальше. Там написано в точности то же, что у --mS--

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:23 


07/10/15

2400
Всё проверил, двойка не нужна, т.е.
$\alpha=\frac{1}{Mad}$
Но всё равно, если использовать стандартное отклонение,Хи квадрат получается меньше (почти в 2 раза), а визуально, мне кажется лучше получается по среднему абсолютному отклонению. Вот пример:
Изображение

-- 03.09.2019, 21:24 --

Markiyan Hirnyk в сообщении #1413465 писал(а):
Но ведь значение $\beta$ неизвестно

как это так неизвестно? я же Вам раньше писал, что это есть медиана

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:40 


11/07/16
801
Andrey_Kireew
Мы говорим о разных вещах. Функция правдоподобия зависит от параметров $\alpha$ и $\beta$. Согласно МНП, надо найти значения этих параметров, которые максимизируют функцию правдоподобия. Вы произвольно полагаете, что один из них - медиана. Повторяю, что критерий хи-квадрат с применением оценок параметров обоснован, насколько мне известно, только в случае, когда параметры оцениваются по МНП.

-- 03.09.2019, 19:41 --

Lia Пожалуйста, обратите внимание на слова "в частности".

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:53 


07/10/15

2400
Markiyan Hirnyk в сообщении #1413472 писал(а):
Вы произвольно полагаете, что один из них - медиана

вовсе не произвольно, дифференцируем L по $\beta$
$$\frac{\partial L}{\partial \beta}=\alpha \frac{\partial \Sigma|x_i-\beta|}{\partial \beta}$$
когда эта производная обратится в нуль? при условии
$$\frac{\partial \Sigma|x_i-\beta|}{\partial \beta}=0,$$
так, что $\alpha$ не влияет на оптимальное значение $\beta$, которое равно именно медиане, и не чему другому (но этот очевидный факт я доказывать не буду, думаю Вы и сами со временем догадаетесь почему)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 110 ]  На страницу 1, 2, 3, 4, 5 ... 8  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group