2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2, 3  След.
 
 Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 11:45 


07/08/16
328
Читал введение в Байесовскую статистику у Натальи Черновой(страница 136) и столкнулся с непредвиденными трудностями. Поиск по разным форумам привёл меня к ещё большему смятению. Приведу здесь полную формулировку возникших проблем.

Пусть $X = (X_1,...,X_n)$ это выборка из распределения Бернулли -- $Bern(p)$, причём мы знаем, что $p \sim \mathcal{U}(0,1)$.
Плотность $p$ это $\mathbbm{1}_{0 < t < 1}(t) = q(t)$.

Нам нужно найти байесовскую оценку параметра $p$, обозначим её $\hat{p}$.

По определению байесовской оценки, $\hat{p} = \mathbb{E}[p | X]$.

По определению условного математического ожидания, имеем:

$\hat{p} = \mathbb{E}[p | X] = \int_{-\infty}^{+\infty}t \rho_{p| X}(t | y)dt$.

Где $\rho_{p| X}(t | y)$ это условная плотность.

По определению условной плотности, $\rho_{p| X}(t | y) = \frac{\rho_{(p, X)}(t, y)}{\rho_X(y)}$.

Допустим, я могу поверить в равенство $\rho_{(p, X)}(t,y) = \rho_{X | p}(y | t)\rho_p(t) = \rho_{X | p}(y | t)q(t)$. С этим есть вопросы, но тут ещё хочется подумать.

Но вот поверить в то что $ \rho_{X | p}(y | t)$ это функция правдоподобия, у меня не получается.

Я вводил функцию правдоподобия выборки $X = (X_1,...,X_n)$ из распределения $\mathbb{P}_\theta$, имеющего плотность $f_{\theta}(y)$ как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$.
Равенство $1$ здесь верно в силу независимости $X_1,...,X_n$, из-за этого их совместная плотность распадается в произведение плотностей в каждой конкретной реализации выборки.

Но как условную плотность вида $\rho_{X | \theta}(y| t)$ связать с функцией правдоподобия выборки, я пока не могу понять. Казалось, что это должно как-то просто выводиться, раз об этом вообще ничего не написано, что у Черновой, что в других книгах. То ли у меня определения какие-то не такие, то ли я что-то иное упускаю.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 12:44 
Заслуженный участник
Аватара пользователя


11/04/08
2748
Физтех
Sdy
Посмотрите учебник Боровкова А.А. на стр. 150, там ответ на Ваш вопрос.

Боровков А.А. Математическая статистика: Учебник. 4-е изд., стер. - СПб.: Издательство "Лань", 2010. - 704 с.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 13:49 


27/06/20
337
Sdy в сообщении #1588333 писал(а):
как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$.
Тут наверное нотация не способствует пониманию.
Давайте запишем вот так:
$L_{\mathbf{X}}(\theta) = f_{\mathbf{X}}(\theta)\stackrel{1}=f_{X_1}(\theta) \cdot f_{X_2}(\theta)\cdot...\cdot f_{X_n}(\theta)$

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 13:59 


07/08/16
328
ShMaxG, спасибо за ответ.
А я правильно понимаю, что мы не требуем независимости $X$ и $p$?
Не можем же мы просто сказать, что плотность совместного распределения $X$ и $p$, $\rho_{(X, p)}(y, t)$ это $f_p(X)q(t) = f_p(X_1)\cdot f_p(X_2)\cdot...\cdot f_p(X_n)q(t)$.
Надо, получается, проверять, что $\mathbb{P}[(X_1,...,X_n, p) \in B] = \int_{B}f_p(X)q(t)dt$ для всяких борелевских $B \subset \mathbb{R}^{n+1}?$
Пока не понимаю, как это вообще делается.


И ещё вопрос, другого толка, но близкий этой тематике.
Как надо понимать запись $p(y | X,w)$, в учебнике ШАД (привожу цитату с контекстом):
Вероятностный подход в ML, Федотов Станислав писал(а):
Оценка максимального правдоподобия = оптимизация функции потерь.
Мы хотим подобрать такие значения параметров, для которых модель $p_y(y|x,w)$ была бы наиболее адекватна обучающим данным. Суть метода максимального правдоподобия (maximum likelihood estimation) состоит в том, чтобы найти такое $w$, для которого вероятность (а в данном, непрерывном, случае плотность вероятности) появления выборки $y = y_1,...,y_N$ была бы максимальной, то есть $\widehat{w}_{MLE} = \underset{w}{\operatorname{argmax}}\ p(y \vert X, w)$.

Величина $p(y \vert X, w)$ называется функцией правдоподобия. Если мы считаем, что все объекты независимы, то функция правдоподобия распадается на произведение: $p(y \vert X, w) = p(y_1 \vert x_1, w) \cdot\ldots\cdot p(y_N \vert x_N, w).$

Почему здесь функция правдоподобия определяется сразу как условная плотность? Не могу пока понять, как это определение вообще согласуется с определением, которое выше дал я (использующееся в курсе Черновой). И почему функция правдоподобия в контексте определения ШАДа распадается в произведение?

-- 05.04.2023, 19:12 --

ipgmvq, спасибо за ответ.
Я Вашу запись пока не понял. У Вас берутся плотности $X_1,...,X_n$ и в них подставляется параметр, а в моей записи берётся плотность, параметризованная параметром и в неё подставляется случайная величина.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 14:31 


27/06/20
337
Sdy в сообщении #1588333 писал(а):
$L_\theta(X_1,...,X_n)$
В Вашей записи функция правдоподобия это функция от значений выборки, где $\theta$ — это параметр.
А на самом деле функция правдоподобия — это функция от $\theta$, которая параметризирована конкретной выборкой. Отсюда и условность, потому что $\mathbf{X}$ — это её параметр.
Выберите, к примеру, небольшую конкретную выборку для Вашего случая с Бернулли и нарисуйте эту функцию, где по ординате $L$, а по абсциссе $\theta$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 14:36 
Заслуженный участник
Аватара пользователя


11/04/08
2748
Физтех
Sdy в сообщении #1588344 писал(а):
А я правильно понимаю, что мы не требуем независимости $X$ и $p$?
Да, выборка и параметр не обязательно независимы, на простых примерах это можно проверить.

Sdy в сообщении #1588344 писал(а):
Почему здесь функция правдоподобия определяется сразу как условная плотность?
Это не "определение" (definition). Может быть слово неудачное, я бы сказал, что эта функция является функцией правдоподобия, а не называется ей.

Sdy в сообщении #1588344 писал(а):
Как надо понимать запись $p(y | X,w)$, в учебнике ШАД
Я посмотрел, там как-то все очень не строго, не аккуратно. Не ясно было долго, то ли $x_i$ случайны, то ли нет. Автор рисует после игрека вертикальную палочку, которая обычно означает условное распределение. Но у него это не условное распределение, это просто способ отграничить переменные от параметров. В недоумение тогда вводит запись $\mathrm{E}(y_i|x_i)$. Кроме того, то у него $y_i$ случайные, то являются точками пространства. Я бы не стал учиться по такому материалу.

Sdy в сообщении #1588344 писал(а):
И почему функция правдоподобия в контексте определения ШАДа распадается в произведение?
Потому что в задачах регрессии измерения $y_i$ обычно независимы, поэтому их совместная плотность распадается на произведение плотностей. А $x_i, w$ - это просто параметры распределения, не случайные величины, и писать их за вертикальной палочкой лучше не стоит.

Sdy в сообщении #1588333 писал(а):
Я вводил функцию правдоподобия выборки $X = (X_1,...,X_n)$ из распределения $\mathbb{P}_\theta$, имеющего плотность $f_{\theta}(y)$ как $L_\theta(X_1,...,X_n) = f_\theta(X_1,...,X_n)\stackrel{1}=f_\theta(X_1)\cdot f_\theta(X_2)\cdot...\cdot f_\theta(X_n)$.
ipgmvq в сообщении #1588343 писал(а):
$L_{\mathbf{X}}(\theta) = f_{\mathbf{X}}(\theta)\stackrel{1}=f_{X_1}(\theta) \cdot f_{X_2}(\theta)\cdot...\cdot f_{X_n}(\theta)$
Надо различать случайные величины от их реализаций. Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$, где $X=(X_1,\dots,X_n)$, $x=(x_1,\dots,x_n)$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 15:15 


27/06/20
337
ShMaxG в сообщении #1588351 писал(а):
Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$, где $X=(X_1,\dots,X_n)$, $x=(x_1,\dots,x_n)$.
я преследовал цель не запутывать топикстартера ещё больше :D
У меня $X_i$ (как полагается для заглавых иксов) это реализация, и в моей функции правдоподобия она фигурирует уже без какого-либо суждения о природе этой константы, также как вне Байеса мы не делаем вероятностных суждений относительно природы параметров распределений. Поэтому я склоняюсь к мысли, что в $L_X(x,\theta)$ один из иксов у Вас лишний.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 15:23 
Заслуженный участник
Аватара пользователя


11/04/08
2748
Физтех
ipgmvq в сообщении #1588354 писал(а):
Поэтому я склоняюсь к мысли, что в $L_X(x,\theta)$ один из иксов у Вас лишний.
Да, если все $X_i$ имеют одинаковое распределение, то можно написать $L_X(x,\theta)=L(x_1,\theta)\dots L(x_n,\theta).$

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 16:07 


07/08/16
328
ShMaxG, спасибо за ответ.
ShMaxG в сообщении #1588351 писал(а):
Я посмотрел, там как-то все очень не строго, не аккуратно. Не ясно было долго, то ли $x_i$ случайны, то ли нет. Автор рисует после игрека вертикальную палочку, которая обычно означает условное распределение. Но у него это не условное распределение, это просто способ отграничить переменные от параметров. В недоумение тогда вводит запись $\mathrm{E}(y_i|x_i)$. Кроме того, то у него $y_i$ случайные, то являются точками пространства. Я бы не стал учиться по такому материалу.

Там просто выше говорится (в параграфе "Условное распределение на таргет, непрерывный случай"), что $\rho_y(y|x,w)$ это условное распределение.

Не знаю просто к каким источникам в таком случае лучше обращаться. Я открыл "Kevin P. Murphy, Probabilistic Machine Learning: An Introduction", но там всё очень похоже на то что написано в учебнике ШАДа. Мне в принципе не очень нравятся обозначения вида $\rho(Y = y | H = h)$, так как в случае непрерывных $Y$ и $H$ это бессмыслица же, учитывая что Kevin Murphy приводит примеры с дискретными случайными величинами, в то время как никакого отдельного определения для непрерывных случайных величин нет.
Что в лекции Ветрова (которую я хотел посмотреть, чтобы распутаться, ан нет) $\rho(x|y)$ называют правдоподобием.

-- 05.04.2023, 21:08 --

ShMaxG в сообщении #1588351 писал(а):
Надо различать случайные величины от их реализаций. Если $X_i$ означают случайные величины, то функция правдоподобия запишется как $L_X(x,\theta)=L_{X_1}(x_1,\theta)\dots L_{X_n}(x_n,\theta)$, где $X=(X_1,\dots,X_n)$, $x=(x_1,\dots,x_n)$.

А что в данном случае мы понимаем под $L_{X_i}(x_i, \theta)?$
В моей нотации да, $X_i$ это случайные величины из выборки, а не их реализации.

-- 05.04.2023, 21:47 --

По поводу обозначений в книге Боровкова, правильно ли я понимаю, что (на странице 23) мы обозначаем выборку как набор случайных величин как $(x_1,...,x_n)=x$, а реализацию этого случайного вектора наоборот обозначаем как $X = (\tt{x_1},...,\tt{x_n})?$

То есть большая $X$ и прямые $\tt{x_i}$ это реализация выборки, а маленькая $x$ (которая одновременно должна быть и курсивом и полужирная, но я пока не понял как этого добиться) и наклонные $x_i$ это сама выборка? Первый раз просто встречаю такое соглашение.
И говоря "переменные величины", обозначаемые курсивом, мы имеем виду собственно говоря, случайные величины?

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 16:50 
Заслуженный участник
Аватара пользователя


11/04/08
2748
Физтех
Sdy в сообщении #1588364 писал(а):
Не знаю просто к каким источникам в таком случае лучше обращаться.
Для дотошных умов рекомендую учебник Боровкова А.А. по математической статистике, а также учебники Ширяева А.Н. и Боровкова А.А. по теории вероятностей.
Sdy в сообщении #1588364 писал(а):
А что в данном случае мы понимаем под $L_{X_i}(x_i, \theta)?$
Это функция правдоподобия случайной величины $X_i$.
Sdy в сообщении #1588364 писал(а):
По поводу обозначений в книге Боровкова, правильно ли я понимаю, что (на странице 23) мы обозначаем выборку как набор случайных величин как $(x_1,...,x_n)=x$, а реализацию этого случайного вектора наоборот обозначаем как $X = (\tt{x_1},...,\tt{x_n})?$
Все наборот, он же ровно про это пишет на стр. 23.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 16:59 


07/08/16
328
ShMaxG в сообщении #1588373 писал(а):
Все наборот,

Спасибо. Меня просто смутило, что наклонными буквами обозначают переменные величины. Интуитивно кажется, что когда мы берём реализацию случайного вектора, она у нас никуда не меняется. Но видимо, идёт речь о всех таких $(x_1,...,x_n) \in range(X)$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 18:06 


07/08/16
328
Начну тогда с более простых вопросов, может я их неправильно понимаю.
Я введу привычные мне обозначения, судя по тому что каких-то общепринятых обозначений тут нет.
Пусть у нас есть выборка $\xi = (\xi_1,...,\xi_n)$, то есть это набор независимых одинаково распределённых случайных величин, с распределением $\mathbb{P}_\theta$, которое задаётся плотностью $\rho_{\xi_i}(x_i) = f_\theta(x_i)$.
Реализации выборки я обозначаю как $x = (x_1,...,x_n)$.
Тогда функцией правдоподобия, по определению, мы называем вот такую функцию от $\theta$:
$f_\theta(\xi, \theta) = f_\theta(\xi_1)\cdot f_\theta(\xi_2) \cdot ... \cdot f_\theta(\xi_n)$.
При этом, при фиксированном $\theta$ это случайная величина, так как это просто произведение функций от случайных величин.
То есть $f_\theta(\xi, \theta)$ это функция от $\theta$ при фиксированной выборке $\xi$ как набора случайных величин.

Но с другой стороны, если написать совместную плотность $\xi$, то имеем $\rho_{\xi}(x) = \rho_{(\xi_1,...,\xi_n)}(x_1,...,x_n) = f_\theta(x_1) \cdot f_\theta(x_2) \cdot ... \cdot f_\theta(x_n)$.

То есть в каждой конкретной точке (реализации $\xi$) у нас функция правдоподобия это совместная плотность, то есть она совпадает с совместной плотностью как функция при фиксированном $\theta$.
Тогда можно говорить, что при фиксированном $\theta$ функция правдоподобия совпадает с совместной плотностью $\rho_{(\xi_1,...,\xi_n)}(x_1,...,x_n)$.

Тут есть какие-то проблемы?

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 18:31 
Заслуженный участник
Аватара пользователя


11/04/08
2748
Физтех
Sdy в сообщении #1588386 писал(а):
Тогда функцией правдоподобия, по определению, мы называем вот такую функцию от $\theta$:
$f_\theta(\xi, \theta) = f_\theta(\xi_1)\cdot f_\theta(\xi_2) \cdot ... \cdot f_\theta(\xi_n)$.
Нет, здесь Вы вместо детерминированных аргументов функции используете случайные величины. Функцией правдоподобия является функция $f(x,\theta)=f_{\theta}(x_1) \dots f_{\theta}(x_n)$, если следовать Вашим обозначениям. Это совместная функция плотности компонент выборки. При фиксированном $\theta$ это должна быть функция переменных $x_1,\dots,x_n$. Но иногда ее как функцию переменных $x_i$ не воспринимают и говорят о функции правдоподобии как о функции параметра $\theta$. Тогда при фиксированном $\theta$ это обычное число. Это число зависит от $x_1,\dots,x_n$, реализации выборки.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 18:52 


07/08/16
328
ShMaxG,
но ведь что у Черновой, что у Боровкова аргументами являются случайные величины, разве нет?
Боровков, Математическая статистика, страница 105 писал(а):
Функция $f_\theta(X) = \prod\limits_{i=1}^{n}f_\theta(\tt{x_i})$ как функция от $\theta$ называется функцией правдоподобия.

И выше, на странице $104$ там есть напоминание о том что $\tt{x_i}$ это элементы выборки, то есть случайные величины.

У Черновой всё ровно также, у неё в книге же $X = (X_1,...,X_n)$ это всегда выборка из $n$ независимых одинаково распределённых случайных величин.
И она же пишет, что при фиксированном $\theta$ это случайная величина, а не число.
Ну и примеры там когда разбираются, там же всегда фигурируют именно $X_i$, а мы их трактуем как случайные величины.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение05.04.2023, 19:01 
Заслуженный участник
Аватара пользователя


11/04/08
2748
Физтех
Sdy в сообщении #1588397 писал(а):
но ведь что у Черновой, что у Боровкова аргументами являются случайные величины, разве нет?
Посмотрел, действительно, есть функция правдоподобия с детерминированными переменными и параметром $f(x,\theta)$ или $f_{\theta}(x)$, а есть $f(X,\theta)$ или $f_{\theta}(X)$, которая есть функция правдоподобия с подставленными на места $x_i$ случайными величинами $X_i$, она у Боровкова и Черновой тоже называется функцией правдоподобия. Эта "случайная функция правдоподобия" мне не привычна, признаюсь. Ну, хорошо, тогда в Вашем посте Выше получается нет проблем.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу 1, 2, 3  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group