2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 11:45 


07/08/16
328
Читал введение в Байесовскую статистику у Натальи Черновой(страница 136) и столкнулся с непредвиденными трудностями. Поиск по разным форумам привёл меня к ещё большему смятению. Приведу здесь полную формулировку возникших проблем.

Пусть $X = (X_1,...,X_n)$ это выборка из распределения Бернулли -- $Bern(p)$, причём мы знаем, что $p \sim \mathcal{U}(0,1)$.
Плотность $p$ это $\mathbbm{1}_{0 < t < 1}(t) = q(t)$.

Нам нужно найти байесовскую оценку параметра $p$, обозначим её $\hat{p}$.

По определению байесовской оценки, $\hat{p} = \mathbb{E}[p | X]$.

По определению условного математического ожидания, имеем:

$\hat{p} = \mathbb{E}[p | X] = \int_{-\infty}^{+\infty}t \rho_{p| X}(t | y)dt$.

Где $\rho_{p| X}(t | y)$ это условная плотность.

По определению условной плотности, $\rho_{p| X}(t | y) = \frac{\rho_{(p, X)}(t, y)}{\rho_X(y)}$.

Допустим, я могу поверить в равенство $\rho_{(p, X)}(t,y) = \rho_{X | p}(y | t)\rho_p(t) = \rho_{X | p}(y | t)q(t)$. С этим есть вопросы, но тут ещё хочется подумать.

Но вот поверить в то что $ \rho_{X | p}(y | t)$ это функция правдоподобия, у меня не получается.

Я вводил функцию правдоподобия выборки $X = (X_1,...,X_n)$ из распределения $\mathbb{P}_\theta$, имеющего плотность $f_{\theta}(y)$ как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$.
Равенство $1$ здесь верно в силу независимости $X_1,...,X_n$, из-за этого их совместная плотность распадается в произведение плотностей в каждой конкретной реализации выборки.

Но как условную плотность вида $\rho_{X | \theta}(y| t)$ связать с функцией правдоподобия выборки, я пока не могу понять. Казалось, что это должно как-то просто выводиться, раз об этом вообще ничего не написано, что у Черновой, что в других книгах. То ли у меня определения какие-то не такие, то ли я что-то иное упускаю.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 12:44 
Заслуженный участник
Аватара пользователя


11/04/08
2750
Физтех
Sdy
Посмотрите учебник Боровкова А.А. на стр. 150, там ответ на Ваш вопрос.

Боровков А.А. Математическая статистика: Учебник. 4-е изд., стер. - СПб.: Издательство "Лань", 2010. - 704 с.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 13:49 


27/06/20
337
Sdy в сообщении #1588333 писал(а):
как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$.
Тут наверное нотация не способствует пониманию.
Давайте запишем вот так:
$L_{\mathbf{X}}(\theta) = f_{\mathbf{X}}(\theta)\stackrel{1}=f_{X_1}(\theta) \cdot f_{X_2}(\theta)\cdot...\cdot f_{X_n}(\theta)$

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 13:59 


07/08/16
328
ShMaxG, спасибо за ответ.
А я правильно понимаю, что мы не требуем независимости $X$ и $p$?
Не можем же мы просто сказать, что плотность совместного распределения $X$ и $p$, $\rho_{(X, p)}(y, t)$ это $f_p(X)q(t) = f_p(X_1)\cdot f_p(X_2)\cdot...\cdot f_p(X_n)q(t)$.
Надо, получается, проверять, что $\mathbb{P}[(X_1,...,X_n, p) \in B] = \int_{B}f_p(X)q(t)dt$ для всяких борелевских $B \subset \mathbb{R}^{n+1}?$
Пока не понимаю, как это вообще делается.


И ещё вопрос, другого толка, но близкий этой тематике.
Как надо понимать запись $p(y | X,w)$, в учебнике ШАД (привожу цитату с контекстом):
Вероятностный подход в ML, Федотов Станислав писал(а):
Оценка максимального правдоподобия = оптимизация функции потерь.
Мы хотим подобрать такие значения параметров, для которых модель $p_y(y|x,w)$ была бы наиболее адекватна обучающим данным. Суть метода максимального правдоподобия (maximum likelihood estimation) состоит в том, чтобы найти такое $w$, для которого вероятность (а в данном, непрерывном, случае плотность вероятности) появления выборки $y = y_1,...,y_N$ была бы максимальной, то есть $\widehat{w}_{MLE} = \underset{w}{\operatorname{argmax}}\ p(y \vert X, w)$.

Величина $p(y \vert X, w)$ называется функцией правдоподобия. Если мы считаем, что все объекты независимы, то функция правдоподобия распадается на произведение: $p(y \vert X, w) = p(y_1 \vert x_1, w) \cdot\ldots\cdot p(y_N \vert x_N, w).$

Почему здесь функция правдоподобия определяется сразу как условная плотность? Не могу пока понять, как это определение вообще согласуется с определением, которое выше дал я (использующееся в курсе Черновой). И почему функция правдоподобия в контексте определения ШАДа распадается в произведение?

-- 05.04.2023, 19:12 --

ipgmvq, спасибо за ответ.
Я Вашу запись пока не понял. У Вас берутся плотности $X_1,...,X_n$ и в них подставляется параметр, а в моей записи берётся плотность, параметризованная параметром и в неё подставляется случайная величина.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 14:31 


27/06/20
337
Sdy в сообщении #1588333 писал(а):
$L_\theta(X_1,...,X_n)$
В Вашей записи функция правдоподобия это функция от значений выборки, где $\theta$ — это параметр.
А на самом деле функция правдоподобия — это функция от $\theta$, которая параметризирована конкретной выборкой. Отсюда и условность, потому что $\mathbf{X}$ — это её параметр.
Выберите, к примеру, небольшую конкретную выборку для Вашего случая с Бернулли и нарисуйте эту функцию, где по ординате $L$, а по абсциссе $\theta$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 14:36 
Заслуженный участник
Аватара пользователя


11/04/08
2750
Физтех
Sdy в сообщении #1588344 писал(а):
А я правильно понимаю, что мы не требуем независимости $X$ и $p$?
Да, выборка и параметр не обязательно независимы, на простых примерах это можно проверить.

Sdy в сообщении #1588344 писал(а):
Почему здесь функция правдоподобия определяется сразу как условная плотность?
Это не "определение" (definition). Может быть слово неудачное, я бы сказал, что эта функция является функцией правдоподобия, а не называется ей.

Sdy в сообщении #1588344 писал(а):
Как надо понимать запись $p(y | X,w)$, в учебнике ШАД
Я посмотрел, там как-то все очень не строго, не аккуратно. Не ясно было долго, то ли $x_i$ случайны, то ли нет. Автор рисует после игрека вертикальную палочку, которая обычно означает условное распределение. Но у него это не условное распределение, это просто способ отграничить переменные от параметров. В недоумение тогда вводит запись $\mathrm{E}(y_i|x_i)$. Кроме того, то у него $y_i$ случайные, то являются точками пространства. Я бы не стал учиться по такому материалу.

Sdy в сообщении #1588344 писал(а):
И почему функция правдоподобия в контексте определения ШАДа распадается в произведение?
Потому что в задачах регрессии измерения $y_i$ обычно независимы, поэтому их совместная плотность распадается на произведение плотностей. А $x_i, w$ - это просто параметры распределения, не случайные величины, и писать их за вертикальной палочкой лучше не стоит.

Sdy в сообщении #1588333 писал(а):
Я вводил функцию правдоподобия выборки $X = (X_1,...,X_n)$ из распределения $\mathbb{P}_\theta$, имеющего плотность $f_{\theta}(y)$ как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$.
ipgmvq в сообщении #1588343 писал(а):
$L_{\mathbf{X}}(\theta) = f_{\mathbf{X}}(\theta)\stackrel{1}=f_{X_1}(\theta) \cdot f_{X_2}(\theta)\cdot...\cdot f_{X_n}(\theta)$
Надо различать случайные величины от их реализаций. Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$, где $X=(X_1,\dots,X_n)$, $x=(x_1,\dots,x_n)$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 15:15 


27/06/20
337
ShMaxG в сообщении #1588351 писал(а):
Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$, где $X=(X_1,\dots,X_n)$, $x=(x_1,\dots,x_n)$.
я преследовал цель не запутывать топикстартера ещё больше :D
У меня $X_i$ (как полагается для заглавых иксов) это реализация, и в моей функции правдоподобия она фигурирует уже без какого-либо суждения о природе этой константы, также как вне Байеса мы не делаем вероятностных суждений относительно природы параметров распределений. Поэтому я склоняюсь к мысли, что в $L_X(x,\theta)$ один из иксов у Вас лишний.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 15:23 
Заслуженный участник
Аватара пользователя


11/04/08
2750
Физтех
ipgmvq в сообщении #1588354 писал(а):
Поэтому я склоняюсь к мысли, что в $L_X(x,\theta)$ один из иксов у Вас лишний.
Да, если все $X_i$ имеют одинаковое распределение, то можно написать $L_X(x,\theta)=L(x_1,\theta)\dots L(x_n,\theta).$

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 16:07 


07/08/16
328
ShMaxG, спасибо за ответ.
ShMaxG в сообщении #1588351 писал(а):
Я посмотрел, там как-то все очень не строго, не аккуратно. Не ясно было долго, то ли $x_i$ случайны, то ли нет. Автор рисует после игрека вертикальную палочку, которая обычно означает условное распределение. Но у него это не условное распределение, это просто способ отграничить переменные от параметров. В недоумение тогда вводит запись $\mathrm{E}(y_i|x_i)$. Кроме того, то у него $y_i$ случайные, то являются точками пространства. Я бы не стал учиться по такому материалу.

Там просто выше говорится (в параграфе "Условное распределение на таргет, непрерывный случай"), что $\rho_y(y|x,w)$ это условное распределение.

Не знаю просто к каким источникам в таком случае лучше обращаться. Я открыл "Kevin P. Murphy, Probabilistic Machine Learning: An Introduction", но там всё очень похоже на то что написано в учебнике ШАДа. Мне в принципе не очень нравятся обозначения вида $\rho(Y = y | H = h)$, так как в случае непрерывных $Y$ и $H$ это бессмыслица же, учитывая что Kevin Murphy приводит примеры с дискретными случайными величинами, в то время как никакого отдельного определения для непрерывных случайных величин нет.
Что в лекции Ветрова (которую я хотел посмотреть, чтобы распутаться, ан нет) $\rho(x|y)$ называют правдоподобием.

-- 05.04.2023, 21:08 --

ShMaxG в сообщении #1588351 писал(а):
Надо различать случайные величины от их реализаций. Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$, где $X=(X_1,\dots,X_n)$, $x=(x_1,\dots,x_n)$.

А что в данном случае мы понимаем под $L_{X_i}(x_i, \theta)?$
В моей нотации да, $X_i$ это случайные величины из выборки, а не их реализации.

-- 05.04.2023, 21:47 --

По поводу обозначений в книге Боровкова, правильно ли я понимаю, что (на странице 23) мы обозначаем выборку как набор случайных величин как $(x_1,...,x_n)=x$, а реализацию этого случайного вектора наоборот обозначаем как $X = (\tt{x_1},...,\tt{x_n})?$

То есть большая $X$ и прямые $\tt{x_i}$ это реализация выборки, а маленькая $x$ (которая одновременно должна быть и курсивом и полужирная, но я пока не понял как этого добиться) и наклонные $x_i$ это сама выборка? Первый раз просто встречаю такое соглашение.
И говоря "переменные величины", обозначаемые курсивом, мы имеем виду собственно говоря, случайные величины?

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 16:50 
Заслуженный участник
Аватара пользователя


11/04/08
2750
Физтех
Sdy в сообщении #1588364 писал(а):
Не знаю просто к каким источникам в таком случае лучше обращаться.
Для дотошных умов рекомендую учебник Боровкова А.А. по математической статистике, а также учебники Ширяева А.Н. и Боровкова А.А. по теории вероятностей.
Sdy в сообщении #1588364 писал(а):
А что в данном случае мы понимаем под $L_{X_i}(x_i, \theta)?$
Это функция правдоподобия случайной величины $X_i$.
Sdy в сообщении #1588364 писал(а):
По поводу обозначений в книге Боровкова, правильно ли я понимаю, что (на странице 23) мы обозначаем выборку как набор случайных величин как $(x_1,...,x_n)=x$, а реализацию этого случайного вектора наоборот обозначаем как $X = (\tt{x_1},...,\tt{x_n})?$
Все наборот, он же ровно про это пишет на стр. 23.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 16:59 


07/08/16
328
ShMaxG в сообщении #1588373 писал(а):
Все наборот,

Спасибо. Меня просто смутило, что наклонными буквами обозначают переменные величины. Интуитивно кажется, что когда мы берём реализацию случайного вектора, она у нас никуда не меняется. Но видимо, идёт речь о всех таких $(x_1,...,x_n) \in range(X)$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 18:06 


07/08/16
328
Начну тогда с более простых вопросов, может я их неправильно понимаю.
Я введу привычные мне обозначения, судя по тому что каких-то общепринятых обозначений тут нет.
Пусть у нас есть выборка $\xi = (\xi_1,...,\xi_n)$, то есть это набор независимых одинаково распределённых случайных величин, с распределением $\mathbb{P}_\theta$, которое задаётся плотностью $\rho_{\xi_i}(x_i) = f_\theta(x_i)$.
Реализации выборки я обозначаю как $x = (x_1,...,x_n)$.
Тогда функцией правдоподобия, по определению, мы называем вот такую функцию от $\theta$:
$f_\theta(\xi, \theta) = f_\theta(\xi_1)\cdot f_\theta(\xi_2) \cdot ... \cdot f_\theta(\xi_n)$.
При этом, при фиксированном $\theta$ это случайная величина, так как это просто произведение функций от случайных величин.
То есть $f_\theta(\xi, \theta)$ это функция от $\theta$ при фиксированной выборке $\xi$ как набора случайных величин.

Но с другой стороны, если написать совместную плотность $\xi$, то имеем $\rho_{\xi}(x) = \rho_{(\xi_1,...,\xi_n)}(x_1,...,x_n) = f_\theta(x_1) \cdot f_\theta(x_2) \cdot ... \cdot f_\theta(x_n)$.

То есть в каждой конкретной точке (реализации $\xi$) у нас функция правдоподобия это совместная плотность, то есть она совпадает с совместной плотностью как функция при фиксированном $\theta$.
Тогда можно говорить, что при фиксированном $\theta$ функция правдоподобия совпадает с совместной плотностью $\rho_{(\xi_1,...,\xi_n)}(x_1,...,x_n)$.

Тут есть какие-то проблемы?

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 18:31 
Заслуженный участник
Аватара пользователя


11/04/08
2750
Физтех
Sdy в сообщении #1588386 писал(а):
Тогда функцией правдоподобия, по определению, мы называем вот такую функцию от $\theta$:
$f_\theta(\xi, \theta) = f_\theta(\xi_1)\cdot f_\theta(\xi_2) \cdot ... \cdot f_\theta(\xi_n)$.
Нет, здесь Вы вместо детерминированных аргументов функции используете случайные величины. Функцией правдоподобия является функция $f(x,\theta)=f_{\theta}(x_1) \dots f_{\theta}(x_n)$, если следовать Вашим обозначениям. Это совместная функция плотности компонент выборки. При фиксированном $\theta$ это должна быть функция переменных $x_1,\dots,x_n$. Но иногда ее как функцию переменных $x_i$ не воспринимают и говорят о функции правдоподобии как о функции параметра $\theta$. Тогда при фиксированном $\theta$ это обычное число. Это число зависит от $x_1,\dots,x_n$, реализации выборки.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 18:52 


07/08/16
328
ShMaxG,
но ведь что у Черновой, что у Боровкова аргументами являются случайные величины, разве нет?
Боровков, Математическая статистика, страница 105 писал(а):
Функция $f_\theta(X) = \prod\limits_{i=1}^{n}f_\theta(\tt{x_i})$ как функция от $\theta$ называется функцией правдоподобия.

И выше, на странице $104$ там есть напоминание о том что $\tt{x_i}$ это элементы выборки, то есть случайные величины.

У Черновой всё ровно также, у неё в книге же $X = (X_1,...,X_n)$ это всегда выборка из $n$ независимых одинаково распределённых случайных величин.
И она же пишет, что при фиксированном $\theta$ это случайная величина, а не число.
Ну и примеры там когда разбираются, там же всегда фигурируют именно $X_i$, а мы их трактуем как случайные величины.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 19:01 
Заслуженный участник
Аватара пользователя


11/04/08
2750
Физтех
Sdy в сообщении #1588397 писал(а):
но ведь что у Черновой, что у Боровкова аргументами являются случайные величины, разве нет?
Посмотрел, действительно, есть функция правдоподобия с детерминированными переменными и параметром $f(x,\theta)$ или $f_{\theta}(x)$, а есть $f(X,\theta)$ или $f_{\theta}(X)$, которая есть функция правдоподобия с подставленными на места $x_i$ случайными величинами $X_i$, она у Боровкова и Черновой тоже называется функцией правдоподобия. Эта "случайная функция правдоподобия" мне не привычна, признаюсь. Ну, хорошо, тогда в Вашем посте Выше получается нет проблем.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: gris


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group