2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу Пред.  1, 2, 3
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 00:16 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Sdy в сообщении #1588455 писал(а):
ShMaxG, но тогда нужно же ещё установить, что $F_{\xi, \theta}(s,u)$ (совместная функция распределения) равна интегралу в соответствующих пределах от $f(x,t)$. Ведь насколько я знаю, только лишь неотрицательности и равенства единице интеграла нам не хватает, чтобы какие-то новые распределение задавать. Спасибо, завтра попробую это вывести.
Зачем? Мы постулируем эту функцию как функцию плотности, мы не должны доказывать, что она чему-то осоответствует. Главное что неотрицательна, интеграл единица, задана там где надо.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 00:25 


27/06/20
337
Sdy в сообщении #1588455 писал(а):
мы функцию правдоподобия обозначали и как $f_\theta(x)$
Кроме того, в этой нотации нижний индекс у $\theta$ говорит о том, что $\theta$ является параметром (зачастую этот индекс используют в функциях плотности вероятности и функции распредления, когда параметр фиксирован). В то время как у функции правдоподобия параметром является $x$. Поэтому предпочтительнее было бы записать функцию правдоподобия как $\mathcal{L}_X(\theta)$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 10:11 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Поясню свой пост. В байесовском подходе можно считать, что мы изначально задаем совместную функцию плотности выборки и параметра $f(x,t)=f_t(x)q(t)$. Если проинтегрировать по $x$, получится плотность параметра, получается $q(t)$, как и хотели. А просто задавать плотность параметра без привязки к распределению выборки не получится. При построении вероятностной модели во время задания распределений интересующих случайных величин нужно говорить и как они соотносятся между собой (независимы ли, а если зависимы, то как).

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 12:49 


07/08/16
328
ShMaxG в сообщении #1588492 писал(а):
Поясню свой пост. В байесовском подходе можно считать, что мы изначально задаем совместную функцию плотности выборки и параметра $f(x,t)=f_t(x)q(t)$. Если проинтегрировать по $x$, получится плотность параметра, получается $q(t)$, как и хотели.

То есть у нас есть функция $f(x,t)$. Она равна $f_t(x)q(t)=\rho_\xi(x)q(t)$.
1. Она действительно неотрицательна, так как она равна произведению двух плотностей, которые сами неотрицательны.
2. Если рассмотреть интеграл от неё по $x \times t = (x_1,...,x_n) \times t$, то у нас просто интеграл распадётся на произведение двух интегралов, под каждым из которых стоит плотность, интегрируемая по всей области определения, а значит, этот интеграл просто равен произведению двух единиц, то есть сам равен единице, причём по множеству пар вида $(x,t)$.
3. При маргинализации $f(x,t)$ мы действительно получаем $q(t)$: $\int\limits_{x}f(x,t)dx =\int\limits_{x}f_t(x)q(t)dx = q(t)\int\limits_{x}\rho_\xi(x) = q(t)$.
И тогда мы можем сказать, что $\rho_{\xi,\theta}(x,t) = \rho_{\xi_1,...,\xi_n,\theta}(x_1,...,x_n,t) = f(x,t) = f_t(x)q(t)?$
Просто у Боровкова говорится, что мы можем "интерпретировать" $f(x,t)$ как плотность совместного распределения $\xi$ и $\theta$. Он имеет ввиду написанное мной равенство или в слово "интерпретация" вкладывается какой-то дополнительный смысл?

-- 06.04.2023, 17:53 --

ipgmvq в сообщении #1588464 писал(а):
Кроме того, в этой нотации нижний индекс у $\theta$ говорит о том, что $\theta$ является параметром (зачастую этот индекс используют в функциях плотности вероятности и функции распредления, когда параметр фиксирован). В то время как у функции правдоподобия параметром является $x$. Поэтому предпочтительнее было бы записать функцию правдоподобия как $\mathcal{L}_X(\theta)$.

Спасибо, я понял о чём Вы. В своих записях я как раз использую обозначения $\mathcal{L}(x, \theta)$ и $\ln(\mathcal{L}(x, \theta))$, тут пишу $f_\theta(x)$, так как хочу сохранить обозначения из книги Боровкова.
Логику написания $\mathcal{L}_X(\theta)$ также понял, это действительно логично, так как указывает, что параметр у нас это выборка, а функция рассматривается как функция от $\theta$, которая в свою очередь параметризует плотность распределения.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 14:08 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Sdy в сообщении #1588502 писал(а):
Если рассмотреть интеграл от неё по $x \times t = (x_1,...,x_n) \times t$, то у нас просто интеграл распадётся на произведение двух интегралов, под каждым из которых стоит плотность
Нет. Кратный интеграл по области превращается в повторный интеграл, т.е. когда сначала можно взять интеграл по одной переменной (по значениям выборки), а потом по другой (по значениям параметра). Но в произведение интегралов это не превращается.

Sdy в сообщении #1588502 писал(а):
Он имеет ввиду написанное мной равенство или в слово "интерпретация" вкладывается какой-то дополнительный смысл?
Нет, я думаю в это слово он специального смысла не вкладывает. Его последовательность объяснительная такая: мы хотим ввести распределение на множестве значений параметров, остается выбрать совместное распределение так, чтобы маргинальное распределение параметра было такое, какое надо, и предлагает формулу. Это равносильно другому объяснению байесовского подхода: давайте введем такое-то совместное распределение между выборкой и параметром, тогда у параметра будет такое-то распределение. Ну это дело вкуса, как вводить. Это же учебник, он хочет начать с мысли о том, что параметр теперь случайный, а не детерминированный, и вводит соответствующее вероятностное пространство. Тогда понятно, как получается такая совместная функция распределения. Мысль сделать параметр случайным очень важная, по сути это способ учесть то, что значения параметра могут быть неравнозначны, эта неравнозначность, приоритет одних значений перед другими, описывается распределением, а для этого нужно сделать параметр случайной величиной, по-крайней мере формально. Другой подход к объяснению (когда сначала вводится совместное распределение) человеку, первый раз изучающему байесовский подход, может быть не понятен, мол, с чего вдруг и зачем такая совместная плотность. Хотя этот подход, наверное, более общий, мы в принципе-то не обязаны вводить совместное распределение именно таким образом, а могли бы ввести иначе, сделать параметр и выборку более связанными (сейчас плотность распределения параметра не зависит от значений выборки). Более общие постановки возможны, хотя это уже не байесовский подход. В общем в обоих подходах делается некоторое свое фундаментальное предложение и какой путь избрать для понимания и объяснения это дело вкуса.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 14:21 


07/08/16
328
ShMaxG в сообщении #1588511 писал(а):
Нет. Кратный интеграл по области превращается в повторный интеграл, т.е. когда сначала можно взять интеграл по одной переменной (по значениям выборки), а потом по другой (по значениям параметра). Но в произведение интегралов это не превращается.

Спасибо. Хотел написать, что по теореме Фубини это получаем (возможность перестановки порядка интегрирования), но подумал, что может непонятно будет и бред написал.

ShMaxG, вроде бы понял, хотя, очень всё это непривычно, нужно что-нибудь решать на эти темы, судя по всему, чтобы свыкнуться с этими мыслями.

Ну и имея $f(x,t) = f_t(x)q(t) = \rho_{\xi,\theta}(x, t)$, просто поделив равенство на $q(t)$, получаем, что $f_t(x) = \frac{ \rho_{\xi,\theta}(x, t)}{q(t)}$. Но в этой дроби у нас сверху совместное распределение, внизу маргинальное, тогда по определению условной плотности мы имеем, что $\rho_{\xi | \theta}(x | t) = \frac{ \rho_{\xi,\theta}(x, t)}{q(t)} = f_t(x)$.
Именно в этом смысле, я так понимаю, при каждом значении параметра $\theta = t$ у нас функция правдоподобия является условной плотностью выборки при условии, что параметр $\theta$ принял то самое значение $t$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 14:36 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Sdy в сообщении #1588512 писал(а):
тогда по определению условной плотности мы имеем, что $\rho_{\xi | \theta}(x | t) = \frac{ \rho_{\xi,\theta}(x, t)}{q(t)} = f_t(x)$
Ну это скорее не определение, а свойство плотности условного распределения.
Sdy в сообщении #1588512 писал(а):
Именно в этом смысле, я так понимаю, при каждом значении параметра $\theta = t$ у нас функция правдоподобия является условной плотностью выборки при условии, что параметр $\theta$ принял то самое значение $t$.
Да.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 15:31 


07/08/16
328
ShMaxG в сообщении #1588516 писал(а):
Ну это скорее не определение, а свойство плотности условного распределения.

Я просто определял условное математическое ожидание случайной величины $\xi$ относительно случайной величины $\eta$ как такую измеримую функцию $f(\eta) = \mathbb{E}[\xi | \eta]$, что для всякой ограниченной борелевской функции $\varphi(\eta)$ верно равенство $\mathbb{E}[\mathbb{E}[\xi | \eta]\varphi(\eta)] = \mathbb{E}[\xi\varphi(\eta)]$.
И на основе этого определения выводил все остальные свойства.
И тогда, при доказательстве того что в случае случайных величин, имеющих плотность верно равенство,
$\mathbb{E}[\xi | \eta = k]= \int\limits_{-\infty}^{+\infty}x\frac{\rho_{(\xi, \eta)}(x,y)}{\rho_\eta(y)}dx$, условная плотность вводилась по определению как обозначение для $\frac{\rho_{(\xi, \eta)}(x,y)}{\rho_\eta(y)}$, то есть $\rho_{\xi|\eta}(x | y) \stackrel{\text{def}}{=} \frac{\rho_{(\xi, \eta)}(x,y)}{\rho_\eta(y)}$.
Поэтому я написал, что по определению.

Насколько я сейчас понимаю, это не совсем "каноническое" определение условной плотности и тут нужно ещё разбираться, как они между собой связаны, что у меня стоит как одна из задач.

ShMaxG в сообщении #1588516 писал(а):
Да.

Большое спасибо за помощь!

Хотел ещё такой момент уточнить.
В задаче построения оценки $\theta$ в рамках параметрического частного подхода (так ли это называют обычно?) у нас есть некоторое распределение $\rho_\xi(x) = \rho_\theta(x)$, (то есть заданное обобщённой плотностью, не знаю насколько это распостранённые термин).
И мы считаем, что $\theta$ это не функция, а некоторое значение из $R^n$.
В рамках байесовского подхода построения оценки мы считаем, что $\theta$ -- случайная величина, то есть нам нужно знать как раз $\rho_{\xi |\theta}(x | t)$, чтобы строить какие-то оценки. Но если $\theta$ это случайная величина, равная константе, то $\rho_{\xi |\theta}(x | t) =  \frac{\rho_{(\xi, \theta)}(x,t)}{\rho_\theta(t)} = \rho_{\xi}(x)$, так как константа независима со всякой случайной величиной. И с такой точки зрения кажется, что подход, в котором параметр распределения -- константа, это просто частный случай байесовского подхода.
Верны ли эти размышления?

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 17:31 
Заслуженный участник
Аватара пользователя


11/04/08
2749
Физтех
Sdy в сообщении #1588526 писал(а):
И тогда, при доказательстве того что в случае случайных величин, имеющих плотность верно равенство,
$\mathbb{E}[\xi | \eta = k]= \int\limits_{-\infty}^{+\infty}x\frac{\rho_{(\xi, \eta)}(x,y)}{\rho_\eta(y)}dx$, условная плотность вводилась по определению как обозначение для $\frac{\rho_{(\xi, \eta)}(x,y)}{\rho_\eta(y)}$
Ну не совсем. Плотность распределения -- это по определению всегда функция, интеграл которой дает функцию распределения (хоть условные, хоть безусловные, хоть даже не распределения). Просто так получается (теорема), что функция условного распределения равна интегралу от вот этого частного плотностей, значит это частое есть плотность по определению.

Sdy в сообщении #1588526 писал(а):
то есть заданное обобщённой плотностью, не знаю насколько это распостранённые термин
Совершенно не распространен. В теории вероятностей дискретные распределения не отмечаются обобщенными функциями распределения. У дискретных распределений вместо функции плотности распределения используется функция вероятности $f(x)=\mathbb{P}(\xi=x)$, а соответствующая вероятностная мера является так называемой считающей мерой. А раз у такой меры нет плотности, то тогда и формула с частным плотностей здесь не применима. Вы справедливо отмечаете, что константы независимы со всеми случайными величинами, однако условная вероятность $\mathbb{P}(\xi < x\,|\,\theta=t)$ неопределена для $t$, которые не совпадают с тем единственным значением, которое принимает $\theta$, обозначим его $t^*$. А событие $\theta=t^*$ является достоверным и поэтому $$\mathbb{P}(\xi < x\,|\,\theta=t^*)=\mathbb{P}(\xi<x).$$ Получается, что условная функция распределения определена только для одного значения $t$. Не знаю, можно ли говорить в этом случае о существовании условной плотности, но если и можно, то только для $t=t^*$ и эта плотность совпадает с плотностью $\xi$.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 18:13 


07/08/16
328
ShMaxG в сообщении #1588540 писал(а):
Получается, что условная функция распределения определена только для одного значения $t$. Не знаю, можно ли говорить в этом случае о существовании условной плотности, но если и можно, то только для $t=t^*$ и эта плотность совпадает с плотностью $\xi$.

Понял, то есть в любом случае, даже если так и можно говорить, то если хочется соблюдать уровень строгости, нужны дополнительные соглашения.
Спасибо.

ShMaxG в сообщении #1588540 писал(а):
Плотность распределения -- это по определению всегда функция, интеграл которой дает функцию распределения (хоть условные, хоть безусловные, хоть даже не распределения).

Понятно, то есть тут по аналогии с неусловным случаем это делается. В тех лекциях что я смотрел, просто было всё в такой последовательности (и с теми названиями) как я сказал. Но я уже понял, что это не совсем общий случай и нужно будет разобраться с общим построением, чтобы лучше понять логику изложения. Ну или доказать эквивалентность подходов. Я просто люблю книги сопровождать видеолекциями, так быстрее (обычно) получается разобраться. А никаких видеолекций, где было бы "каноническое" построение условных распределений я не нашёл (в понятном виде ещё желательно =)). Есть лекции Шабанова, но я не очень люблю лекции со слайдами. Но это всё уже оффтоп.

Ещё раз большое спасибо.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение06.04.2023, 22:18 


07/08/16
328
ShMaxG в сообщении #1588373 писал(а):
Для дотошных умов рекомендую учебник Боровкова А.А. по математической статистике, а также учебники Ширяева А.Н. и Боровкова А.А. по теории вероятностей.

Спасибо, Ширяева я читаю регулярно, Боровкова вот по теории вероятностей неоднократно открывал, а по статистике как то руки до этого момент не доходили.

А Вы не можете посоветовать что-то, наподобие книги ШАД, на которую я ссылался, но чтобы с меньшим количеством ляпов? Я так понимаю это называется "Баейсовский подход в машинном обучении", где-то видимо это ещё называют "Статистическая теория обучения". Я видел как в строгом изложении рекомендуют только "Probabilistic Machine Learning: An Introduction, Kevin Patrick Murphy" и "Pattern Recognition and Machine Learning, Christopher Bishop".
В первой книге я не всегда понимаю, что чем обозначается. Для меня всегда $\rho$ была функцией плотности, а тут я даже не сразу понял, что маленькими $p$ и $q$ оказывается распределения обозначают. При этом, Мэрфи сначала обозначает как $p$ функцию вероятности дискретной случаной величины, а потом ею же обозначает плотность непрерывной случайной величины и начиная с пункта $2.2.3$ мне не всегда понятно, что это -- распределение, плотность, вероятность. Это же абсолютно разные объекты.
Книга Бишопа вроде бы в этом плане поприятнее, он хоть и обозначает всё одной и той же буквой $p$, но по крайней мере в разделе формулы Байеса говорит, о том что здесь $p$ это вероятностное распределение. Но эта книга на 17 лет старше книги Мэрфи, хотя неясно, есть ли тут какая-то польза от новизны.
Понятно, что если аналогов нет, то придётся разбираться, что они там чем обозначают. Но, конечно, я вообще не понимаю, зачем параметры распределения отделять от аргумента плотности вертикальной чертой, она же у нас означает условие, как тогда понимать, когда у нас параметр распределения константа, а когда случайная величина.

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение07.04.2023, 09:44 


27/06/20
337
Sdy в сообщении #1588573 писал(а):
Для меня всегда $\rho$ была функцией плотности, а тут я даже не сразу понял, что маленькими $p$ и $q$ оказывается распределения обозначают. При этом, Мэрфи сначала обозначает как $p$ функцию вероятности дискретной случаной величины, а потом ею же обозначает плотность непрерывной случайной величины и начиная с пункта $2.2.3$ мне не всегда понятно, что это -- распределение, плотность, вероятность. Это же абсолютно разные объекты.
Похоже на то, что у всех нас разные ожидания. :D
я ожидаю, что $f(x)$ — это функция плотности вероятности, $F(x)$ — функция распределения, $Pr(A)$ — это вероятность события, $p(x)$ — функция (массы) вероятности. И $\rho$ для меня всегда было коэффициентом корреляции, нормализованной автокорреляционной и нормализованной автоковариационной функцией. :-)

 Профиль  
                  
 
 Re: Байесовские оценки, функция правдоподобия,условная плотность
Сообщение07.04.2023, 10:25 


07/08/16
328
ipgmvq

(Оффтоп)

Да, я уже понял, что есть много разных "школ" обозначения.) В принципе, обычно это не вызывало проблем, но тут вот непонимания добавило. Наверное, если бы Мэрфи в начале разделов упоминал, что в данном случае он имеет в виду под $p$, мне было бы гораздо проще. Ну или в одном каком-то месте заметил, что всюду далее это означает то-то. Может, конечно, я что-то пропустил.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 43 ]  На страницу Пред.  1, 2, 3

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group