Максимальноe правдоподобие для непрерывного распределения

Bridgeport · 21.07.2015, 13:33

Добрый день!

У нас имеется последовательность одинаково распределенных Гауссовских случайных величин $(X_i)_i$ . В оценке максимального правдоподобия мы используем величину $f(x_i)$ , где $f$ есть Гауссовская плотностью. Что $f(x_i)$ это за величина? Каков смысл использования этой величины вне интеграла? В случае дискретных случайных величин все понятно, $f(x_i)$ - имеет смысл вероятности.

iancaple · 21.07.2015, 15:26

На мой взгляд, непрерывные случайные величины- это просто удобная абстракция, а в жизни они все дискретны (а что они случайны-это тоже абстракция

). Например, Вам дали выборку $x_1=0,12345;...$ и все другие тоже округлены до 5-го знака. Тогда $10^{-5}f(0,12345)$ - это вероятность, с которой $0,12345$ могло встретиться на 1-м месте этой выборки.

2old · 21.07.2015, 16:43

Вероятность попадания в окрестность $x_i$ длинной $dx$

Bridgeport · 21.07.2015, 16:56

2old в сообщении #1039170 писал(а):

Вероятность попадания в окрестность $x_i$ длинной $dx$

Тогда наверное можно выписать предельный переход с интегралом. У меня что-то не получается, предел сходится к нулю, так как функция распределения непрерывна.

2old · 21.07.2015, 17:07

Потому что я поторопился и сказал не правду. Имел ввиду, что вероятность попадания в окрестность $x_i$ длинной $dx$ будет $f(x_i)dx$ . Теперь если вместо $dx$ писать $\Delta x$ в предельном переходе то можно собрать как раз функцию распределения как интеграл от плотности. У меня со строгостью-ясностью все плохо, лучше в любом нормальном учебнике по терверу это посмотреть.

Ну или можно с друго конца зайти:
$\lim\limits_{h\to0}\int\limits_{x_i}^{x_i+h}f(x)dx=\lim\limits_{h\to0}\frac{\int\limits_{x_i}^{x_i+h}f(x)dx-\int\limits_{x_i}^{x_i}f(x)dx}{h}h=\lim\limits_{h\to 0}h\cdot f(x_i)$

Bridgeport · 21.07.2015, 17:18

2old в сообщении #1039176 писал(а):

Теперь если вместо $dx$ писать $\Delta x$ в предельном переходе то можно собрать как раз функцию распределения как интеграл от плотности.

Вот как я собирал предел: $\lim_{\varepsilon \rightarrow 0}\prod_{i}\int_{x_i-\varepsilon}^{x_i+\varepsilon}f(y)dy$

Так как подинтегральные выражения положительны и нас интересует максимизация, то можно просто работать с одним интегралом, а не с произведением. $\lim_{\varepsilon \rightarrow 0}\int_{x_i-\varepsilon}^{x_i+\varepsilon}f(y)dy =\lim_{\varepsilon \rightarrow 0}( F(x_i+\varepsilon) - F(x_i-\varepsilon))= 0$

И что теперь максимизировать? Где моя ошибка?

-- Вт июл 21, 2015 18:21:22 --

Цитата:

$\lim\limits_{h\to0}\int\limits_{x_i}^{x_i+h}f(x)dx=\lim\limits_{h\to0}\frac{\int\limits_{x_i}^{x_i+h}f(x)dx-\int\limits_{x_i}^{x_i}f(x)dx}{h}h=\lim\limits_{h\to 0}h\cdot f(x_i)$

Ваш предел тоже равен нулю.

2old · 21.07.2015, 17:46

Bridgeport
Ну да, это как раз к тому, что вероятность попадания прямо в точку $0$ , а вокруг нее примерно $hf(x_i)$ . Т.е. не просто значение плотности в точке. Соотвественно у вас получается не функция правдоподобия.

Функциия правдоподобия связана с с функцией распределения через формулу баеса и априорное распределения параметра.

Bridgeport · 21.07.2015, 18:42

2old в сообщении #1039186 писал(а):

Функциия правдоподобия связана с с функцией распределения через формулу баеса и априорное распределения параметра.

Тогда собственно мой вопрос как из построения фунции правдоподобия мы получаем произведение плотностей? Пока ищу книгу, где это обосновано.

dsge · 21.07.2015, 19:46

2old в сообщении #1039186 писал(а):

Функциия правдоподобия связана с с функцией распределения через формулу баеса и априорное распределения параметра.

Это в байесовской статистике так определяется апостериорное правдоподобие. В классической статистике проще.

Bridgeport в сообщении #1039213 писал(а):

Тогда собственно мой вопрос как из построения фунции правдоподобия мы получаем произведение плотностей? Пока ищу книгу, где это обосновано.

Любая книга по математической статистике.

ShMaxG · 21.07.2015, 22:46

Пусть дана выборка $X=(X_1,...,X_n)$ (случайный вектор) из какого-нибудь дискретного распределения с функцией вероятности $f_{\theta}(x_1,...,x_n)=\mathbf{P}_{\theta}(X_1=x_1,...,X_n=x_n).$ Роль $\theta$ здесь играет неизвестный параметр распределения, который требуется оценить. Обычно предполагается, что компоненты выборки являются независимыми в совокупности случайными величинами, поэтому можно написать просто $f_{\theta}(x_1,...,x_n)=\mathbf{P}_{\theta}(X_1=x_1)...\mathbf{P}_{\theta}(X_n=x_n)$ Согласно методу максимального правдоподобия, нам следует искать такое значение $\theta$ , при котором значение вероятности $f_{\theta}(x_1,...,x_n)$ будет максимальным. Вопрос же обоснования такого подхода пока отложим.

Теперь пусть дана выборка $X=(X_1,...,X_n)$ из абсолютно непрерывного распределения с функцией плотности $f_{\theta}(x_1,...,x_n)=f_{\theta}(x_1)...f_{\theta}(x_n)$ (здесь для простоты плотность вектора и плотность каждой компоненты я обозначаю одной и той же буквой $f_{\theta}$ ). Согласно методу максимального правдоподобия, нам следует искать такое значение $\theta$ , при котором значение функции $f_{\theta}(x_1,...,x_n)$ будет максимальным. Заметим, что таким образом мы максимизируем $f_{\theta}(x_1,...,x_n)dx_1...dx_n,$ что приближенно равно вероятности попадания выборки в n-мерный прямоугольник $(x_1,x_1+dx_1)\times...\times (x_n,x_n+dx_n).$

Так что, грубо говоря, мы в обоих случаях максимизируем некую вероятность. Теперь про обоснование такого подхода. Здесь я буду следовать учебнику Боровков А.А. "Математическая статистика". Вспомним, что в матстатистике есть такая эмпирическая функция распределения, которая определяется по формуле $\hat F_n(x) = \frac{1}{n}\sum_{k=1}^n I(X_i < x),$ где $I(A)$ -- это индикатор условия $A$ . Эмпирическая функция распределения используется как оценка истинной, но неизвестной, функции распределения $F(x)$ . А теперь пусть у нас есть семейство распределений $F_{\theta}(x)$ , и нам кажется, что $F(x)$ находится среди них, но какому $\theta$ она отвечает нам не известно (может она и не среди них, но как-то близка к семейству). Предлагается поступить следующим образом: найти среди $F_{\theta}(x)$ "ближайшую" к эмпирической $\hat F_n(x)$ , ведь она неплохо приближает истинную функцию распределения $F(x)$ . Понятие близости здесь следует понимать в специфическом смысле (это связано с расстоянием Кульбака--Лейблера, за подробностями см. учебник). Так вот, возникает задача оптимизации: найти $\theta$ такую, чтобы $F_{\theta}(x)$ было наиболее близко к $\hat F_n(x)$ . Решением этой задачи как раз является то значение $\theta$ , которое максимизирует $f_{\theta}(x_1,...,x_n)$ -- функцию вероятности в дискретном случае, или функцию плотности в непрерывном случае. Вот этом и весь ее смысл: среди данного семейства распределений найти то, которое наиболее похоже на эмпирическую функцию распределения, и потому в пределе -- на истинную функцию распределения.

Кстати говоря, функцию $f_{\theta}(x_1,...,x_n)$ называют еще функцией правдоподобия. С одной стороны это позволяет не уточнять каждый раз что это -- "функция вероятности" или "функция плотности", ведь подход справедлив в обоих случаях. С другой стороны максимизация по $\theta$ может интерпретироваться как поиск наиболее "правдоподобного" значения $\theta$ -- т.е. такого, при котором выпадение $(x_1,...,x_n)$ "наиболее вероятно". Не будете же вы брать значения $\theta$ , при которых данный вам $f_{\theta}(x_1,...,x_n)$ не выпадает. Отсюда и название.

Bridgeport · 22.07.2015, 00:40

Спасибо за пример с эмперической функцией распределения. Очень показательно.

ShMaxG · 22.07.2015, 00:52

Bridgeport
Кстати, обратите внимание, что над эмпирической функцией распределения рисуется крышечка, такая как над оценками максимального правдоподобия. Это не случайно, ведь эмпирическая функция распределения $\hat F_n(x)$ сама по себе является оценкой максимального правдоподобия вероятности $F(x)=\mathbf{P}(X<x)$ .

Bridgeport · 22.07.2015, 03:20

Почитал немного Боровкова. Жаль что нет доказательства через вероятнось попадания в эпсилон прямоугольники. Кстати, David Williams "Weighing the odds" вводит понятие максимального правдоподобия через произведения плотностей, а логариф используется позже для обращения прозведения в сумму. У Боровкова все через логариф сразу.

ShMaxG · 22.07.2015, 05:21

Bridgeport в сообщении #1039365 писал(а):

Жаль что нет доказательства через вероятнось попадания в эпсилон прямоугольники.

О доказательстве какого утверждения идет речь?

Bridgeport · 22.07.2015, 16:41

ShMaxG в сообщении #1039374 писал(а):

О доказательстве какого утверждения идет речь?

Я неправильно выразился. Неплохо бы чтобы определние максимального правдоподобия было введено через предел эпсилон прямоугольников.

Научный форум dxdy

Максимальноe правдоподобие для непрерывного распределения