2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3, 4, 5 ... 8  След.
 
 Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 14:07 


07/10/15

2400
В статистических исследованиях наиболее распространённой является проверка гипотезы нормальности распределения случайной величины. Вопросам проверки принадлежности другим типам распределений уделяется значительно меньшее внимание и он плохо освящены в литературе.
Один из примеров тому - распределение Лапласа (или двойное экспоненциальное распределение), плотность которого описывается уравнением:
$$p(x)=\frac{\alpha}{2}e^{-\alpha|x-\beta|}   (1)$$
В простейшем случае, для проверки нуль-гипотезы можно использовать критерий Хи-квадрат Пирсона, что требует оценки параметров теоретического распределения. Известно, что лучшие результаты достигаются при непосредственной минимизации критерия Хи-квадрат, но это слишком сложно и для такого простого критерия, на мой взгляд, неоправданно. Обычно для этих целей вполне подходят ММП - оценки параметров распределения, использование которых приводит лишь к очень небольшому отклонению статистики Хи - квадрат.
Известно, что для нормального распределения такими оценками являются математическое ожидание и стандартное отклонение.
Но какими будут Хи-квадрат оптимальные оценки $\alpha, \beta$ для распределения Лапласа?
В литературе указано что $\beta$ является математическим ожиданием, модой и медианой этого распределения, а дисперсия определяется формулой
$$\sigma^2=\frac{2}{\alpha^2}    (2)$$
из которой можно найти $\alpha$.
Но насколько оценка параметра масштаба, основанная на (2) будет оптимальной с точки зрения Хи- квадрат?
Численный эксперимент показывает, что использование медианы в качестве $\beta$ значительно лучше использование математического ожидания, в том смысле, что это приводит к заметно меньшим значениям статистики Хи - квадрат.
По аналогии, вместо стандартного отклонения можно было бы использовать среднее абсолютное отклонение
$$\alpha =\frac{\sqrt{2}}{Mad}  (3)$$
Визуально, качество аппроксимации гистограммы с использованием (3) получается лучше, чем с использованием (2). Однако, значение Хи - квадрат в этом случае получается намного больше. Видимо, это связано с тем, что в критерии Хи квадрат наибольший вес имеют "хвосты" различия в которых визуально не так заметно, а в случае распределения Лапласа они очень большие.

Может быть, вместо Mad использовать интерквартильный интервал, или ещё какой нибудь параметр?
Можно ли при построении гистограммы "отбрасывать" выбросы, из-за которых получаются очень большие "хвосты", например ограничится 99% наблюдений?

Буду благодарен за любую информацию по данному вопросу

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 16:02 
Аватара пользователя


21/01/09
3929
Дивногорск
А каков у Вас объём выборочного распределения?

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 17:38 


07/10/15

2400
несколько тысяч

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 18:22 


11/07/16
825
Насколько мне известно, применение критерия хи-квадрат с оценками параметров обосновано только для случая, когда применяется метод наибольшего правдоподобия (см., например, Ивченко Г.И., Медведев Ю. И. Введение в математическую статистику: Учебник. М: Издательство ЛКИ, 2010ю- 600 с. , с. 327-330). Функция правдоподобия задается сложным выражением, вот ее логарифм для выборки объема 4 $-{\frac {1}{\beta} \left( \ln  \left( 2 \right) \beta+\ln  \left( 
\beta \right) \beta+ \left| {\frac {\alpha\,x_{{1}}-1}{\alpha}}
 \right|  \right) }-{\frac {1}{\beta} \left( \ln  \left( 2 \right) 
\beta+\ln  \left( \beta \right) \beta+ \left| {\frac {\alpha\,x_{{2}}-
1}{\alpha}} \right|  \right) }-{\frac {1}{\beta} \left( \ln  \left( 2
 \right) \beta+\ln  \left( \beta \right) \beta+ \left| {\frac {\alpha
\,x_{{3}}-1}{\alpha}} \right|  \right) }-{\frac {1}{\beta} \left( \ln 
 \left( 2 \right) \beta+\ln  \left( \beta \right) \beta+ \left| {
\frac {\alpha\,x_{{4}}-1}{\alpha}} \right|  \right) }.
$

Понятно, что аналитические выражения для параметров распределения Лапласа, максимизирующих функцию правдоподобия, отсюда получить нельзя. Это можно сделать численно, применяя Мэйпл. Вот пример в Мэйлле 2019.1.
Создадим значения выборки объема 50 из распределения Лапласа с заданными параметрами:
Код:
with(Statistics):N := RandomVariable(Laplace(0.5, 1)):
S := Sample(N, 50):

Применяя Мэйпл, по этим выборочным значениям находим по МНП оценки для параметров:
Код:
MaximumLikelihoodEstimate(Laplace(1/alpha, beta), S);

$[\alpha= 2.72624236748896,\beta= 0.655670116736906]$

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:02 


07/10/15

2400
Markiyan Hirnyk в сообщении #1413441 писал(а):
Понятно, что аналитические выражения для параметров распределения Лапласа, максимизирующих функцию правдоподобия, отсюда получить нельзя

ничего подобного, для $\alpha$ как раз можно, и это будет медиана (в этом случае сумма модулей разностей, которая не зависит от $\beta$, станет минимальной)

-- 03.09.2019, 20:20 --

Тогда, задача максимизации выглядит так:
$ln(\alpha/2 )-\alpha \cdot Mad \to max $
приравниваем производную к нулю:
$\frac{2}{\alpha}-Mad=0$
и получеем ММП оценку:
$\alpha=\frac{2}{Mad}$
а у меня вместо двойки, почему то было корень из двух, может в этом и ошибка, сейчас проверю.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:25 


11/07/16
825
Andrey_Kireew Не понял, как составлено $\ln(\alpha/2)-\alpha \cdot {\rm Mad}.$ Пожалуйста, объясните.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:35 
Заслуженный участник
Аватара пользователя


23/11/06
4171
Markiyan Hirnyk в сообщении #1413441 писал(а):
Насколько мне известно, применение критерия хи-квадрат с оценками параметров обосновано только для случая, когда применяется метод наибольшего правдоподобия (см., например, Ивченко Г.И., Медведев Ю. И. Введение в математическую статистику: Учебник. М: Издательство ЛКИ, 2010ю- 600 с. , с. 327-330).


Вы неправильно прочли указанные страницы Ивченко и Медведева. ОМП для параметров, полученные по выборке, здесь никак не годятся. Находить следует ОМП параметров, полученные по группированной выборке с частотами $\nu_1,\;\ldots,\nu_N$, т.е. находить такие значения параметров, которые максимизируют функцию правдоподобия полиномиального распределения с вероятностями $p_1(\alpha,\beta),\ldots,p_N(\alpha,\beta)$. Она выписана перед формулой (11) на стр. 328:
$$
(\hat\alpha,\hat\beta) = \mathop{\arg\max}_{\alpha,\beta}\prod_{j=1}^N \left(p_j(\alpha,\beta)\right)^{\nu_j}.
$$
Здесь $p_j(\alpha,\beta) = \int\limits_{\mathcal E_j}\frac{\alpha}{2}e^{-\alpha|x-\beta|}dx$ - теоретическая вероятность попасть в $j$-й интервал группировки.

Не сомневаюсь, что существует многочисленный софт, позволяющий находить оценки по методу минимума хи-квадрат по числовой выборке. Вернее, не сами оценки, а значение статистики критерия, являющееся этим минимумом (поскольку только оно и необходимо).

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:48 


07/10/15

2400
Markiyan Hirnyk в сообщении #1413451 писал(а):
Не понял, как составлено $\ln(\alpha/2)-\alpha \cdot {\rm Mad}.$ Пожалуйста, объясните


$$ln(p(x))=ln(\frac{\alpha}{2})-\alpha|x-\beta| $$
затем суммируем по всем наблюдениям и получаем логарифм правдоподобия
$$L=N \cdot ln(\frac{\alpha}{2}) -\alpha\Sigma|x_i-\beta|$$
делим на число наблюдений, так как оно постоянное, и получаем вышеуказанную формулу (имеется в виду $\Sigma|x_i-\beta|/N=Mad$)

Я попробовал, и результаты получаются визуально неотличимыми от оценок через дисперсию, но статистика Хи квадрат отличается очень сильно, надо ещё раз всё перепроверить в программе

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 19:58 


11/07/16
825
--mS--
Цитата:
Вы неправильно прочли указанные страницы Ивченко и Медведева. ОМП для параметров, полученные по выборке, здесь никак не годятся. Находить следует ОМП параметров, полученные по группированной выборке с частотами

Процитирую это место без купюр
Цитата:
Он показал, что существуют методы оценивания параметра $\theta$, при которых это распределение имеет простой вид, а именно, является распределением $\chi^2(N-1-r)$. В частности, это будет при использовании оценки максимального правдоподобия ...
Пожалуйста, обратите внимание на слова "в частности".
PS. Доказательство является одним из самых сложных доказательств в математической статистике. Лично я его не разобрал и не знаю людей, которые понимают указанное доказательство (которое приведено, в частности, в книге Г. Крамера "Математические методы статистики").

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:03 


07/10/15

2400
--mS-- в сообщении #1413455 писал(а):
ОМП для параметров, полученные по выборке, здесь никак не годятся.

ну ни то, что бы совсем никак, для грубых оценок сойдёт, я тут пробовал для нормального распределения - различия статистики полученной по выборочному среднему и выборочной дисперсии, и статистики, полученной путём её непосредственной минимизации, составляет всего несколько процентов. Причём истинное значение критерия будет всегда меньше, поэтому если нуль-гипотеза принята по выборочным параметрам, то по уточнённым параметрам она будет принята точно, и с ещё большей надёжностью.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:05 


11/07/16
825
Andrey_Kireew
Но ведь значение $\beta$ неизвестно.

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:22 


20/03/14
12041
Markiyan Hirnyk в сообщении #1413462 писал(а):
Процитирую это место без купюр

Markiyan Hirnyk
Чтобы было "без купюр", прочитайте текст дальше. Там написано в точности то же, что у --mS--

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:23 


07/10/15

2400
Всё проверил, двойка не нужна, т.е.
$\alpha=\frac{1}{Mad}$
Но всё равно, если использовать стандартное отклонение,Хи квадрат получается меньше (почти в 2 раза), а визуально, мне кажется лучше получается по среднему абсолютному отклонению. Вот пример:
Изображение

-- 03.09.2019, 21:24 --

Markiyan Hirnyk в сообщении #1413465 писал(а):
Но ведь значение $\beta$ неизвестно

как это так неизвестно? я же Вам раньше писал, что это есть медиана

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:40 


11/07/16
825
Andrey_Kireew
Мы говорим о разных вещах. Функция правдоподобия зависит от параметров $\alpha$ и $\beta$. Согласно МНП, надо найти значения этих параметров, которые максимизируют функцию правдоподобия. Вы произвольно полагаете, что один из них - медиана. Повторяю, что критерий хи-квадрат с применением оценок параметров обоснован, насколько мне известно, только в случае, когда параметры оцениваются по МНП.

-- 03.09.2019, 19:41 --

Lia Пожалуйста, обратите внимание на слова "в частности".

 Профиль  
                  
 
 Re: Хи-квадрат для распределения Лапласа
Сообщение03.09.2019, 20:53 


07/10/15

2400
Markiyan Hirnyk в сообщении #1413472 писал(а):
Вы произвольно полагаете, что один из них - медиана

вовсе не произвольно, дифференцируем L по $\beta$
$$\frac{\partial L}{\partial \beta}=\alpha \frac{\partial \Sigma|x_i-\beta|}{\partial \beta}$$
когда эта производная обратится в нуль? при условии
$$\frac{\partial \Sigma|x_i-\beta|}{\partial \beta}=0,$$
так, что $\alpha$ не влияет на оптимальное значение $\beta$, которое равно именно медиане, и не чему другому (но этот очевидный факт я доказывать не буду, думаю Вы и сами со временем догадаетесь почему)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 110 ]  На страницу 1, 2, 3, 4, 5 ... 8  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: YandexBot [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group