Байесовские оценки, функция правдоподобия,условная плотность

Sdy · 07/08/16 328

Читал введение в Байесовскую статистику у Натальи Черновой(страница 136) и столкнулся с непредвиденными трудностями. Поиск по разным форумам привёл меня к ещё большему смятению. Приведу здесь полную формулировку возникших проблем.

Пусть $X = (X_1,...,X_n)$ это выборка из распределения Бернулли -- $Bern(p)$ , причём мы знаем, что $p \sim \mathcal{U}(0,1)$ .
Плотность $p$ это $\mathbbm{1}_{0 < t < 1}(t) = q(t)$ .

Нам нужно найти байесовскую оценку параметра $p$ , обозначим её $\hat{p}$ .

По определению байесовской оценки, $\hat{p} = \mathbb{E}[p | X]$ .

По определению условного математического ожидания, имеем:

$\hat{p} = \mathbb{E}[p | X] = \int_{-\infty}^{+\infty}t \rho_{p| X}(t | y)dt$ .

Где $\rho_{p| X}(t | y)$ это условная плотность.

По определению условной плотности, $\rho_{p| X}(t | y) = \frac{\rho_{(p, X)}(t, y)}{\rho_X(y)}$ .

Допустим, я могу поверить в равенство $\rho_{(p, X)}(t,y) = \rho_{X | p}(y | t)\rho_p(t) = \rho_{X | p}(y | t)q(t)$ . С этим есть вопросы, но тут ещё хочется подумать.

Но вот поверить в то что $\rho_{X | p}(y | t)$ это функция правдоподобия, у меня не получается.

Я вводил функцию правдоподобия выборки $X = (X_1,...,X_n)$ из распределения $\mathbb{P}_\theta$ , имеющего плотность $f_{\theta}(y)$ как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$ .
Равенство $1$ здесь верно в силу независимости $X_1,...,X_n$ , из-за этого их совместная плотность распадается в произведение плотностей в каждой конкретной реализации выборки.

Но как условную плотность вида $\rho_{X | \theta}(y| t)$ связать с функцией правдоподобия выборки, я пока не могу понять. Казалось, что это должно как-то просто выводиться, раз об этом вообще ничего не написано, что у Черновой, что в других книгах. То ли у меня определения какие-то не такие, то ли я что-то иное упускаю.

ShMaxG · 11/04/08 2752 Физтех

Sdy
Посмотрите учебник Боровкова А.А. на стр. 150, там ответ на Ваш вопрос.

Боровков А.А. Математическая статистика: Учебник. 4-е изд., стер. - СПб.: Издательство "Лань", 2010. - 704 с.

ipgmvq · 27/06/20 337

Sdy в сообщении #1588333 писал(а):

как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$ .

Тут наверное нотация не способствует пониманию.
Давайте запишем вот так:
$L_{\mathbf{X}}(\theta) = f_{\mathbf{X}}(\theta)\stackrel{1}=f_{X_1}(\theta) \cdot f_{X_2}(\theta)\cdot...\cdot f_{X_n}(\theta)$

Sdy · 07/08/16 328

ShMaxG, спасибо за ответ.
А я правильно понимаю, что мы не требуем независимости $X$ и $p$ ?
Не можем же мы просто сказать, что плотность совместного распределения $X$ и $p$ , $\rho_{(X, p)}(y, t)$ это $f_p(X)q(t) = f_p(X_1)\cdot f_p(X_2)\cdot...\cdot f_p(X_n)q(t)$ .
Надо, получается, проверять, что $\mathbb{P}[(X_1,...,X_n, p) \in B] = \int_{B}f_p(X)q(t)dt$ для всяких борелевских $B \subset \mathbb{R}^{n+1}?$
Пока не понимаю, как это вообще делается.

И ещё вопрос, другого толка, но близкий этой тематике.
Как надо понимать запись $p(y | X,w)$ , в учебнике ШАД (привожу цитату с контекстом):

Вероятностный подход в ML, Федотов Станислав писал(а):

Оценка максимального правдоподобия = оптимизация функции потерь.
Мы хотим подобрать такие значения параметров, для которых модель $p_y(y|x,w)$ была бы наиболее адекватна обучающим данным. Суть метода максимального правдоподобия (maximum likelihood estimation) состоит в том, чтобы найти такое $w$ , для которого вероятность (а в данном, непрерывном, случае плотность вероятности) появления выборки $y = y_1,...,y_N$ была бы максимальной, то есть $\widehat{w}_{MLE} = \underset{w}{\operatorname{argmax}}\ p(y \vert X, w)$ .

Величина $p(y \vert X, w)$ называется функцией правдоподобия. Если мы считаем, что все объекты независимы, то функция правдоподобия распадается на произведение: $p(y \vert X, w) = p(y_1 \vert x_1, w) \cdot\ldots\cdot p(y_N \vert x_N, w).$

Почему здесь функция правдоподобия определяется сразу как условная плотность? Не могу пока понять, как это определение вообще согласуется с определением, которое выше дал я (использующееся в курсе Черновой). И почему функция правдоподобия в контексте определения ШАДа распадается в произведение?

-- 05.04.2023, 19:12 --

ipgmvq, спасибо за ответ.
Я Вашу запись пока не понял. У Вас берутся плотности $X_1,...,X_n$ и в них подставляется параметр, а в моей записи берётся плотность, параметризованная параметром и в неё подставляется случайная величина.

ipgmvq · 27/06/20 337

Sdy в сообщении #1588333 писал(а):

$L_\theta(X_1,...,X_n)$

В Вашей записи функция правдоподобия это функция от значений выборки, где $\theta$ — это параметр.
А на самом деле функция правдоподобия — это функция от $\theta$ , которая параметризирована конкретной выборкой. Отсюда и условность, потому что $\mathbf{X}$ — это её параметр.
Выберите, к примеру, небольшую конкретную выборку для Вашего случая с Бернулли и нарисуйте эту функцию, где по ординате $L$ , а по абсциссе $\theta$ .

ShMaxG · 11/04/08 2752 Физтех

Sdy в сообщении #1588344 писал(а):

А я правильно понимаю, что мы не требуем независимости $X$ и $p$ ?

Да, выборка и параметр не обязательно независимы, на простых примерах это можно проверить.

Sdy в сообщении #1588344 писал(а):

Почему здесь функция правдоподобия определяется сразу как условная плотность?

Это не "определение" (definition). Может быть слово неудачное, я бы сказал, что эта функция является функцией правдоподобия, а не называется ей.

Sdy в сообщении #1588344 писал(а):

Как надо понимать запись $p(y | X,w)$ , в учебнике ШАД

Я посмотрел, там как-то все очень не строго, не аккуратно. Не ясно было долго, то ли $x_i$ случайны, то ли нет. Автор рисует после игрека вертикальную палочку, которая обычно означает условное распределение. Но у него это не условное распределение, это просто способ отграничить переменные от параметров. В недоумение тогда вводит запись $\mathrm{E}(y_i|x_i)$ . Кроме того, то у него $y_i$ случайные, то являются точками пространства. Я бы не стал учиться по такому материалу.

Sdy в сообщении #1588344 писал(а):

И почему функция правдоподобия в контексте определения ШАДа распадается в произведение?

Потому что в задачах регрессии измерения $y_i$ обычно независимы, поэтому их совместная плотность распадается на произведение плотностей. А $x_i, w$ - это просто параметры распределения, не случайные величины, и писать их за вертикальной палочкой лучше не стоит.

Sdy в сообщении #1588333 писал(а):

Я вводил функцию правдоподобия выборки $X = (X_1,...,X_n)$ из распределения $\mathbb{P}_\theta$ , имеющего плотность $f_{\theta}(y)$ как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$ .

ipgmvq в сообщении #1588343 писал(а):

$L_{\mathbf{X}}(\theta) = f_{\mathbf{X}}(\theta)\stackrel{1}=f_{X_1}(\theta) \cdot f_{X_2}(\theta)\cdot...\cdot f_{X_n}(\theta)$

Надо различать случайные величины от их реализаций. Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$ , где $X=(X_1,\dots,X_n)$ , $x=(x_1,\dots,x_n)$ .

ipgmvq · 27/06/20 337

ShMaxG в сообщении #1588351 писал(а):

Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$ , где $X=(X_1,\dots,X_n)$ , $x=(x_1,\dots,x_n)$ .

я преследовал цель не запутывать топикстартера ещё больше

У меня $X_i$ (как полагается для заглавых иксов) это реализация, и в моей функции правдоподобия она фигурирует уже без какого-либо суждения о природе этой константы, также как вне Байеса мы не делаем вероятностных суждений относительно природы параметров распределений. Поэтому я склоняюсь к мысли, что в $L_X(x,\theta)$ один из иксов у Вас лишний.

ShMaxG · 11/04/08 2752 Физтех

ipgmvq в сообщении #1588354 писал(а):

Поэтому я склоняюсь к мысли, что в $L_X(x,\theta)$ один из иксов у Вас лишний.

Да, если все $X_i$ имеют одинаковое распределение, то можно написать $L_X(x,\theta)=L(x_1,\theta)\dots L(x_n,\theta).$

Sdy · 07/08/16 328

ShMaxG, спасибо за ответ.

ShMaxG в сообщении #1588351 писал(а):

Я посмотрел, там как-то все очень не строго, не аккуратно. Не ясно было долго, то ли $x_i$ случайны, то ли нет. Автор рисует после игрека вертикальную палочку, которая обычно означает условное распределение. Но у него это не условное распределение, это просто способ отграничить переменные от параметров. В недоумение тогда вводит запись $\mathrm{E}(y_i|x_i)$ . Кроме того, то у него $y_i$ случайные, то являются точками пространства. Я бы не стал учиться по такому материалу.

Там просто выше говорится (в параграфе "Условное распределение на таргет, непрерывный случай"), что $\rho_y(y|x,w)$ это условное распределение.

Не знаю просто к каким источникам в таком случае лучше обращаться. Я открыл "Kevin P. Murphy, Probabilistic Machine Learning: An Introduction", но там всё очень похоже на то что написано в учебнике ШАДа. Мне в принципе не очень нравятся обозначения вида $\rho(Y = y | H = h)$ , так как в случае непрерывных $Y$ и $H$ это бессмыслица же, учитывая что Kevin Murphy приводит примеры с дискретными случайными величинами, в то время как никакого отдельного определения для непрерывных случайных величин нет.
Что в лекции Ветрова (которую я хотел посмотреть, чтобы распутаться, ан нет) $\rho(x|y)$ называют правдоподобием.

-- 05.04.2023, 21:08 --

ShMaxG в сообщении #1588351 писал(а):

Надо различать случайные величины от их реализаций. Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$ , где $X=(X_1,\dots,X_n)$ , $x=(x_1,\dots,x_n)$ .

А что в данном случае мы понимаем под $L_{X_i}(x_i, \theta)?$
В моей нотации да, $X_i$ это случайные величины из выборки, а не их реализации.

-- 05.04.2023, 21:47 --

По поводу обозначений в книге Боровкова, правильно ли я понимаю, что (на странице 23) мы обозначаем выборку как набор случайных величин как $(x_1,...,x_n)=x$ , а реализацию этого случайного вектора наоборот обозначаем как $X = (\tt{x_1},...,\tt{x_n})?$

То есть большая $X$ и прямые $\tt{x_i}$ это реализация выборки, а маленькая $x$ (которая одновременно должна быть и курсивом и полужирная, но я пока не понял как этого добиться) и наклонные $x_i$ это сама выборка? Первый раз просто встречаю такое соглашение.
И говоря "переменные величины", обозначаемые курсивом, мы имеем виду собственно говоря, случайные величины?

ShMaxG · 11/04/08 2752 Физтех

Sdy в сообщении #1588364 писал(а):

Не знаю просто к каким источникам в таком случае лучше обращаться.

Для дотошных умов рекомендую учебник Боровкова А.А. по математической статистике, а также учебники Ширяева А.Н. и Боровкова А.А. по теории вероятностей.

Sdy в сообщении #1588364 писал(а):

А что в данном случае мы понимаем под $L_{X_i}(x_i, \theta)?$

Это функция правдоподобия случайной величины $X_i$ .

Sdy в сообщении #1588364 писал(а):

По поводу обозначений в книге Боровкова, правильно ли я понимаю, что (на странице 23) мы обозначаем выборку как набор случайных величин как $(x_1,...,x_n)=x$ , а реализацию этого случайного вектора наоборот обозначаем как $X = (\tt{x_1},...,\tt{x_n})?$

Все наборот, он же ровно про это пишет на стр. 23.

Sdy · 07/08/16 328

ShMaxG в сообщении #1588373 писал(а):

Все наборот,

Спасибо. Меня просто смутило, что наклонными буквами обозначают переменные величины. Интуитивно кажется, что когда мы берём реализацию случайного вектора, она у нас никуда не меняется. Но видимо, идёт речь о всех таких $(x_1,...,x_n) \in range(X)$ .

Sdy · 07/08/16 328

Начну тогда с более простых вопросов, может я их неправильно понимаю.
Я введу привычные мне обозначения, судя по тому что каких-то общепринятых обозначений тут нет.
Пусть у нас есть выборка $\xi = (\xi_1,...,\xi_n)$ , то есть это набор независимых одинаково распределённых случайных величин, с распределением $\mathbb{P}_\theta$ , которое задаётся плотностью $\rho_{\xi_i}(x_i) = f_\theta(x_i)$ .
Реализации выборки я обозначаю как $x = (x_1,...,x_n)$ .
Тогда функцией правдоподобия, по определению, мы называем вот такую функцию от $\theta$ :
$f_\theta(\xi, \theta) = f_\theta(\xi_1)\cdot f_\theta(\xi_2) \cdot ... \cdot f_\theta(\xi_n)$ .
При этом, при фиксированном $\theta$ это случайная величина, так как это просто произведение функций от случайных величин.
То есть $f_\theta(\xi, \theta)$ это функция от $\theta$ при фиксированной выборке $\xi$ как набора случайных величин.

Но с другой стороны, если написать совместную плотность $\xi$ , то имеем $\rho_{\xi}(x) = \rho_{(\xi_1,...,\xi_n)}(x_1,...,x_n) = f_\theta(x_1) \cdot f_\theta(x_2) \cdot ... \cdot f_\theta(x_n)$ .

То есть в каждой конкретной точке (реализации $\xi$ ) у нас функция правдоподобия это совместная плотность, то есть она совпадает с совместной плотностью как функция при фиксированном $\theta$ .
Тогда можно говорить, что при фиксированном $\theta$ функция правдоподобия совпадает с совместной плотностью $\rho_{(\xi_1,...,\xi_n)}(x_1,...,x_n)$ .

Тут есть какие-то проблемы?

ShMaxG · 11/04/08 2752 Физтех

Sdy в сообщении #1588386 писал(а):

Тогда функцией правдоподобия, по определению, мы называем вот такую функцию от $\theta$ :
$f_\theta(\xi, \theta) = f_\theta(\xi_1)\cdot f_\theta(\xi_2) \cdot ... \cdot f_\theta(\xi_n)$ .

Нет, здесь Вы вместо детерминированных аргументов функции используете случайные величины. Функцией правдоподобия является функция $f(x,\theta)=f_{\theta}(x_1) \dots f_{\theta}(x_n)$ , если следовать Вашим обозначениям. Это совместная функция плотности компонент выборки. При фиксированном $\theta$ это должна быть функция переменных $x_1,\dots,x_n$ . Но иногда ее как функцию переменных $x_i$ не воспринимают и говорят о функции правдоподобии как о функции параметра $\theta$ . Тогда при фиксированном $\theta$ это обычное число. Это число зависит от $x_1,\dots,x_n$ , реализации выборки.

Sdy · 07/08/16 328

ShMaxG,
но ведь что у Черновой, что у Боровкова аргументами являются случайные величины, разве нет?

Боровков, Математическая статистика, страница 105 писал(а):

Функция $f_\theta(X) = \prod\limits_{i=1}^{n}f_\theta(\tt{x_i})$ как функция от $\theta$ называется функцией правдоподобия.

И выше, на странице $104$ там есть напоминание о том что $\tt{x_i}$ это элементы выборки, то есть случайные величины.

У Черновой всё ровно также, у неё в книге же $X = (X_1,...,X_n)$ это всегда выборка из $n$ независимых одинаково распределённых случайных величин.
И она же пишет, что при фиксированном $\theta$ это случайная величина, а не число.
Ну и примеры там когда разбираются, там же всегда фигурируют именно $X_i$ , а мы их трактуем как случайные величины.

ShMaxG · 11/04/08 2752 Физтех

Sdy в сообщении #1588397 писал(а):

но ведь что у Черновой, что у Боровкова аргументами являются случайные величины, разве нет?

Посмотрел, действительно, есть функция правдоподобия с детерминированными переменными и параметром $f(x,\theta)$ или $f_{\theta}(x)$ , а есть $f(X,\theta)$ или $f_{\theta}(X)$ , которая есть функция правдоподобия с подставленными на места $x_i$ случайными величинами $X_i$ , она у Боровкова и Черновой тоже называется функцией правдоподобия. Эта "случайная функция правдоподобия" мне не привычна, признаюсь. Ну, хорошо, тогда в Вашем посте Выше получается нет проблем.

Научный форум dxdy

Правила форума

Байесовские оценки, функция правдоподобия,условная плотность

Кто сейчас на конференции