Максимальноe правдоподобие для непрерывного распределения

Bridgeport · 21.07.2015, 13:33

Добрый день!

У нас имеется последовательность одинаково распределенных Гауссовских случайных величин

(X_i)_i

. В оценке максимального правдоподобия мы используем величину

f(x_i)

, где

f

есть Гауссовская плотностью. Что

f(x_i)

это за величина? Каков смысл использования этой величины вне интеграла? В случае дискретных случайных величин все понятно,

f(x_i)

- имеет смысл вероятности.

iancaple · 21.07.2015, 15:26

На мой взгляд, непрерывные случайные величины- это просто удобная абстракция, а в жизни они все дискретны (а что они случайны-это тоже абстракция

). Например, Вам дали выборку

x_1=0,12345;...

и все другие тоже округлены до 5-го знака. Тогда

10^{-5}f(0,12345)

- это вероятность, с которой

0,12345

могло встретиться на 1-м месте этой выборки.

2old · 21.07.2015, 16:43

Вероятность попадания в окрестность

x_i

длинной

dx

Bridgeport · 21.07.2015, 16:56

2old в сообщении #1039170 писал(а):

Вероятность попадания в окрестность

x_i

длинной

dx

Тогда наверное можно выписать предельный переход с интегралом. У меня что-то не получается, предел сходится к нулю, так как функция распределения непрерывна.

2old · 21.07.2015, 17:07

Потому что я поторопился и сказал не правду. Имел ввиду, что вероятность попадания в окрестность

x_i

длинной

dx

будет

f(x_i)dx

. Теперь если вместо

dx

писать

\Delta x

в предельном переходе то можно собрать как раз функцию распределения как интеграл от плотности. У меня со строгостью-ясностью все плохо, лучше в любом нормальном учебнике по терверу это посмотреть.

Ну или можно с друго конца зайти:

\lim\limits_{h\to0}\int\limits_{x_i}^{x_i+h}f(x)dx=\lim\limits_{h\to0}\frac{\int\limits_{x_i}^{x_i+h}f(x)dx-\int\limits_{x_i}^{x_i}f(x)dx}{h}h=\lim\limits_{h\to 0}h\cdot f(x_i)

Bridgeport · 21.07.2015, 17:18

2old в сообщении #1039176 писал(а):

Теперь если вместо

dx

писать

\Delta x

в предельном переходе то можно собрать как раз функцию распределения как интеграл от плотности.

Вот как я собирал предел:

\lim_{\varepsilon \rightarrow 0}\prod_{i}\int_{x_i-\varepsilon}^{x_i+\varepsilon}f(y)dy

Так как подинтегральные выражения положительны и нас интересует максимизация, то можно просто работать с одним интегралом, а не с произведением.

\lim_{\varepsilon \rightarrow 0}\int_{x_i-\varepsilon}^{x_i+\varepsilon}f(y)dy =\lim_{\varepsilon \rightarrow 0}( F(x_i+\varepsilon) - F(x_i-\varepsilon))= 0

И что теперь максимизировать? Где моя ошибка?

-- Вт июл 21, 2015 18:21:22 --

Цитата:

\lim\limits_{h\to0}\int\limits_{x_i}^{x_i+h}f(x)dx=\lim\limits_{h\to0}\frac{\int\limits_{x_i}^{x_i+h}f(x)dx-\int\limits_{x_i}^{x_i}f(x)dx}{h}h=\lim\limits_{h\to 0}h\cdot f(x_i)

Ваш предел тоже равен нулю.

2old · 21.07.2015, 17:46

Bridgeport
Ну да, это как раз к тому, что вероятность попадания прямо в точку

0

, а вокруг нее примерно

hf(x_i)

. Т.е. не просто значение плотности в точке. Соотвественно у вас получается не функция правдоподобия.

Функциия правдоподобия связана с с функцией распределения через формулу баеса и априорное распределения параметра.

Bridgeport · 21.07.2015, 18:42

2old в сообщении #1039186 писал(а):

Функциия правдоподобия связана с с функцией распределения через формулу баеса и априорное распределения параметра.

Тогда собственно мой вопрос как из построения фунции правдоподобия мы получаем произведение плотностей? Пока ищу книгу, где это обосновано.

dsge · 21.07.2015, 19:46

2old в сообщении #1039186 писал(а):

Функциия правдоподобия связана с с функцией распределения через формулу баеса и априорное распределения параметра.

Это в байесовской статистике так определяется апостериорное правдоподобие. В классической статистике проще.

Bridgeport в сообщении #1039213 писал(а):

Тогда собственно мой вопрос как из построения фунции правдоподобия мы получаем произведение плотностей? Пока ищу книгу, где это обосновано.

Любая книга по математической статистике.

ShMaxG · 21.07.2015, 22:46

Пусть дана выборка

X=(X_1,...,X_n)

(случайный вектор) из какого-нибудь дискретного распределения с функцией вероятности

f_{\theta}(x_1,...,x_n)=\mathbf{P}_{\theta}(X_1=x_1,...,X_n=x_n).

Роль

\theta

здесь играет неизвестный параметр распределения, который требуется оценить. Обычно предполагается, что компоненты выборки являются независимыми в совокупности случайными величинами, поэтому можно написать просто

f_{\theta}(x_1,...,x_n)=\mathbf{P}_{\theta}(X_1=x_1)...\mathbf{P}_{\theta}(X_n=x_n)

Согласно методу максимального правдоподобия, нам следует искать такое значение

\theta

, при котором значение вероятности

f_{\theta}(x_1,...,x_n)

будет максимальным. Вопрос же обоснования такого подхода пока отложим.

Теперь пусть дана выборка

X=(X_1,...,X_n)

из абсолютно непрерывного распределения с функцией плотности

f_{\theta}(x_1,...,x_n)=f_{\theta}(x_1)...f_{\theta}(x_n)

(здесь для простоты плотность вектора и плотность каждой компоненты я обозначаю одной и той же буквой

f_{\theta}

). Согласно методу максимального правдоподобия, нам следует искать такое значение

\theta

, при котором значение функции

f_{\theta}(x_1,...,x_n)

будет максимальным. Заметим, что таким образом мы максимизируем

f_{\theta}(x_1,...,x_n)dx_1...dx_n,

что приближенно равно вероятности попадания выборки в n-мерный прямоугольник

(x_1,x_1+dx_1)\times...\times (x_n,x_n+dx_n).

Так что, грубо говоря, мы в обоих случаях максимизируем некую вероятность. Теперь про обоснование такого подхода. Здесь я буду следовать учебнику Боровков А.А. "Математическая статистика". Вспомним, что в матстатистике есть такая эмпирическая функция распределения, которая определяется по формуле

\hat F_n(x) = \frac{1}{n}\sum_{k=1}^n I(X_i < x),

где

I(A)

-- это индикатор условия

A

. Эмпирическая функция распределения используется как оценка истинной, но неизвестной, функции распределения

F(x)

. А теперь пусть у нас есть семейство распределений

F_{\theta}(x)

, и нам кажется, что

F(x)

находится среди них, но какому

\theta

она отвечает нам не известно (может она и не среди них, но как-то близка к семейству). Предлагается поступить следующим образом: найти среди

F_{\theta}(x)

"ближайшую" к эмпирической

\hat F_n(x)

, ведь она неплохо приближает истинную функцию распределения

F(x)

. Понятие близости здесь следует понимать в специфическом смысле (это связано с расстоянием Кульбака--Лейблера, за подробностями см. учебник). Так вот, возникает задача оптимизации: найти

\theta

такую, чтобы

F_{\theta}(x)

было наиболее близко к

\hat F_n(x)

. Решением этой задачи как раз является то значение

\theta

, которое максимизирует

f_{\theta}(x_1,...,x_n)

-- функцию вероятности в дискретном случае, или функцию плотности в непрерывном случае. Вот этом и весь ее смысл: среди данного семейства распределений найти то, которое наиболее похоже на эмпирическую функцию распределения, и потому в пределе -- на истинную функцию распределения.

Кстати говоря, функцию

f_{\theta}(x_1,...,x_n)

называют еще функцией правдоподобия. С одной стороны это позволяет не уточнять каждый раз что это -- "функция вероятности" или "функция плотности", ведь подход справедлив в обоих случаях. С другой стороны максимизация по

\theta

может интерпретироваться как поиск наиболее "правдоподобного" значения

\theta

-- т.е. такого, при котором выпадение

(x_1,...,x_n)

"наиболее вероятно". Не будете же вы брать значения

\theta

, при которых данный вам

f_{\theta}(x_1,...,x_n)

не выпадает. Отсюда и название.

Bridgeport · 22.07.2015, 00:40

Спасибо за пример с эмперической функцией распределения. Очень показательно.

ShMaxG · 22.07.2015, 00:52

Bridgeport
Кстати, обратите внимание, что над эмпирической функцией распределения рисуется крышечка, такая как над оценками максимального правдоподобия. Это не случайно, ведь эмпирическая функция распределения

\hat F_n(x)

сама по себе является оценкой максимального правдоподобия вероятности

F(x)=\mathbf{P}(X<x)

.

Bridgeport · 22.07.2015, 03:20

Почитал немного Боровкова. Жаль что нет доказательства через вероятнось попадания в эпсилон прямоугольники. Кстати, David Williams "Weighing the odds" вводит понятие максимального правдоподобия через произведения плотностей, а логариф используется позже для обращения прозведения в сумму. У Боровкова все через логариф сразу.

ShMaxG · 22.07.2015, 05:21

Bridgeport в сообщении #1039365 писал(а):

Жаль что нет доказательства через вероятнось попадания в эпсилон прямоугольники.

О доказательстве какого утверждения идет речь?

Bridgeport · 22.07.2015, 16:41

ShMaxG в сообщении #1039374 писал(а):

О доказательстве какого утверждения идет речь?

Я неправильно выразился. Неплохо бы чтобы определние максимального правдоподобия было введено через предел эпсилон прямоугольников.

Научный форум dxdy

Максимальноe правдоподобие для непрерывного распределения