Обобщение теоремы Бейеса

Кролик · 07.03.2006, 22:41

Здравствуйте дорогие математики!

Все из вас знают формулу полной вероятности и теорему Бейеса. Эти два хорошо известных практических инструмента позволяют пересчитывать вероятности прогнозов в случайной системе при условии, что некоторые случайные события уже имели место, то есть произошли полностью. Насколько корректной кажется вам задача об обобщении теоремы Бейеса на случай, когда тестовые случайные события не произошли полностью, а лишь увеличили или уменьшили свою вероятность относительно естественной первоначальной? Если бы такое обобщение существовало, то при вероятности тестового события 0 или 1, оно вырождалось бы в классические формулы Бейеса. В промежуточных значениях получались бы принципиально новые результаты. В состоянии ли кто-нибудь прокомментировать эту тему, а быть может даже дать по ней готовую литературную ссылку?

Заранее спасибо!

Someone · 08.03.2006, 00:16

Кролик писал(а):

Все из вас знают формулу полной вероятности и теорему Бейеса. Эти два хорошо известных практических инструмента позволяют пересчитывать вероятности прогнозов в случайной системе при условии, что некоторые случайные события уже имели место, то есть произошли полностью. Насколько корректной кажется вам задача об обобщении теоремы Бейеса на случай, когда тестовые случайные события не произошли полностью, а лишь увеличили или уменьшили свою вероятность относительно естественной первоначальной?

Это непонятно. Как Вы узнали, что "тестовые случайные события" изменили свои вероятности? В результате того, что произошли какие-то другие события? Используйте их в формуле Байеса вместо Ваших "тестовых".

Кролик · 08.03.2006, 00:31

Someone писал(а):

Это непонятно. Как Вы узнали, что "тестовые случайные события" изменили свои вероятности? В результате того, что произошли какие-то другие события? Используйте их в формуле Байеса вместо Ваших "тестовых".

— Разумеется в результате того, что произошли какие-то другие события, но какие точно нам в условии задачи не дано! Дано только, что в результате этих событий увеличилась или уменьшилась вероятность некоторого чёткоочерченного события А. Именно в этом и состоит новизна постановки задачи! Почти уверен, что такую задачу уже ставили и к ней имеется корректное решение. Настолько же корректное, как и решение Мартина Бейеса. 8-)

Спасибо за ответ.

Someone · 08.03.2006, 01:22

Кролик писал(а):

Someone писал(а):

Это непонятно. Как Вы узнали, что "тестовые случайные события" изменили свои вероятности? В результате того, что произошли какие-то другие события? Используйте их в формуле Байеса вместо Ваших "тестовых".

— Разумеется в результате того, что произошли какие-то другие события, но какие точно нам в условии задачи не дано! Дано только, что в результате этих событий увеличилась или уменьшилась вероятность некоторого чёткоочерченного события А.

Боюсь, что в такой постановке задача не имеет решения. В лучшем случае могут быть какие-нибудь оценки границ новых значений вероятностей гипотез $P_A(B_k)=\frac{P(B_k)P_{B_k}(A)}{P(A)}$ . Может быть, кто-нибудь такие оценки знает.

Кролик · 08.03.2006, 17:30

Someone писал(а):

Кролик писал(а):

— Разумеется в результате того, что произошли какие-то другие события, но какие точно нам в условии задачи не дано! Дано только, что в результате этих событий увеличилась или уменьшилась вероятность некоторого чёткоочерченного события А.

Боюсь, что в такой постановке задача не имеет решения. В лучшем случае могут быть какие-нибудь оценки границ новых значений вероятностей гипотез $P_A(B_k)=\frac{P(B_k)P_{B_k}(A)}{P(A)}$ . Может быть, кто-нибудь такие оценки знает.

— Хорошо, что Вы признаёте саму постановку задачи об обобщении теоремы Бейеса осмысленной! Это уже серьёзная помощь мне в моих поисках. :-)

Тут как бы новая задача ставится с того самого места, где в классической задаче был конец. А конец её был на формуле:
$(1)\qquad P(A'|\, A) = \sum_{k=1}^n P(B_k|\, A)P(A'|\, A\cdot B_k)$
в которую на место $P(B_k|\, A)$ встаслялась та самая дробь, которую Вы написали. Границы события А теперь однако строго не очерчены! Чётко определено только событие A', да ещё дана к нему та самая его вероятность (1), отличающаяся, разумеется, в общем случае от $P(A')$ . Можно ли эти неклассические входные данные всё-таки как-то использовать для коррекции прогнозов?

P.S. Пожалуйста, обозначайте уловные вероятности по Вентцель, а не по Лоэву, а то через пару итераций можно будет запутаться в наших обозначениях! :lol:

PAV · 09.03.2006, 10:16

Некоторые комментарии к теме.

Вначале несколько банальностей. По своему содержательному смыслу вероятность события - это предельное значение частоты. Отсюда следует, что если не менять условия опыта, то единственный способ менять вероятность - это менять множество опытов, в которых измеряется эта частота. Так, когда мы рассматриваем все опыты, то получаем обычную вероятность P(A). Если взять некоторое событие B и рассматривать только опыты,в которых B произошло, то приходим к условной вероятности P(A|B).

Таким образом, если мы хотим вводить некоторую новую вероятность (но сохраняющую классический содержательный смысл), то нужно иметь критерий, который выделяет множество наблюдений, по которым будет считаться частота.

На самом деле можно сделать следующее любопытное построение. Можно легко сделать вероятностный метод отбора, который из двух классов опытов (тех, в которых B произошло и тех, в которых оно не произошло) отбирает опыты для наблюдения так, чтобы поддерживать заранее заданное соотношение между количествами первых и вторых. Тем самым он делает выборку опытов, в которых вероятность B будет заранее заданной! Например, если будет брать их поровну, то по этой наблюдаемой группе событий вероятность B будет уже равна 0.5.

Считая частоту события A по таким образом сконструированной системе событий, мы получим вероятность A при условии заранее заданной вероятности B. Решение легко получается по формуле полной вероятности:

$P\{A|P(B)=x\}=xP(A|B)+(1-x)P(A|\overline{B})$

Не знаю, является ли это тем, что Вы хотели.

А вообще отмечу, раз уж была речь о прогнозировании, что сейчас довольно популярен метод Байеса в теории машинного обучения. Он применяется для того, чтобы подобрать параметры системы (занимающейся предсказаниями, прогнозами, распознаванием и т.д.) так, чтобы она вела себя, как мы от нее хотим. Может, вам это нужно?

Кролик · 10.03.2006, 19:19

Уважаемый PAV, спасибо, что Вы присоединились к обсуждению! Некоторые предыдущие топики, в которых Вы даёте разъяснения, я уже проглядел, но конкретно своего вопроса не нашёл.

PAV писал(а):

На самом деле можно сделать следующее любопытное построение. Можно легко сделать вероятностный метод отбора, который из двух классов опытов (тех, в которых B произошло и тех, в которых оно не произошло) отбирает опыты для наблюдения так, чтобы поддерживать заранее заданное соотношение между количествами первых и вторых. Тем самым он делает выборку опытов, в которых вероятность B будет заранее заданной! Например, если будет брать их поровну, то по этой наблюдаемой группе событий вероятность B будет уже равна 0.5.

Считая частоту события A по таким образом сконструированной системе событий, мы получим вероятность A при условии заранее заданной вероятности B. Решение легко получается по формуле полной вероятности:

$(2) \qquad P\{A|P(B)=x\}=xP(A|B)+(1-x)P(A|\bar B)$

Не знаю, является ли это тем, что Вы хотели.

— Неисключено, что именно эту формулу можно положить в основу обобщения формул Байеса. Однако дело тут не только в формулах... Результат Байеса есть теорема, а не просто набор расчётных формул. Именно поэтому я процитировал выше не только данную Вами формулу (2), но и условия, при которых она иммет смысл. Назовём всё это вместе Первой теоремой PAV, доказательство которой не вызывает сомнений.

Рассмотрим теперь немного другое (?) построение... В системе, где происходят случайные события, проведён некоторый случайный тест. В результате этого произошло стартовое тестовое событие $S$ , остающееся для нас однако (как событие) неизвестным. Не смотря на то, что мы не имеем точного представления о стартовом тестовом событии-переменной, нам даётся возможность судить об этом событии в ретроспективе другого события $A$ , имеющего возможно совершенно иную природу, но определеного чётко. (Между $S$ и $A$ такая же разница как, например, между $x\in \mathbb{R}$ и $\sqrt{2}\in \mathbb{R}$ .) В результате возможных суждений мы приходим к выводу, что после того как стартовое тестовое событие произошло, вероятность события $A$ изменилась с априорно известной величины $P(A)$ до перерасчитанной величины $P(A|S)$ .

Первая теорема Кролика. Если в результате некоторого случайного теста $S$ стало известно, что вероятность события $A$ изменила своё значение с $P(A)$ на $P(A|S)$ , то вероятность произвольного события $B$ может быть скорректирована по формуле:

$(3) \qquad P(B|S)= P(A|S)\; P(B|A) + (\: 1- P(A|S))\; P(B|\bar A)$ .

Вопрос: эквивалентны ли эти две теоремы (PAV и Кролика)?

Интересно, что формула (3), являясь неким перепевом формулы (2), разумно удовлетворяет сразу трём случаям: 1) при $S= A$ имеем $P(B|S)= P(B|A)$ ; 2) при $S=\emptyset$ имеем $P(B|S)= P(B)$ ; 3) при $S= \bar A$ имеем $P(B|S)= P(B|\bar A)$ .

PAV · 10.03.2006, 22:45

В принципе, теоремы эквивалентны. Но есть тонкости. Указанная формула может быть справедлива, если условия опыта остались неизменными. То есть мы имеем дело с теми же событиями, которые происходят и в исходной системе, но каким-то образом цензурированными. Допустим, работает некоторый механизм, который по своему усмотрению часть событий оставляет, а часть выбрасывает. Тогда мы могли бы рассуждать так: информация о новой вероятности P(A|S) показывает нам, какую долю среди оставшихся событий составлют те, в которых A произошло, к тем, когда оно не произошло. Соответственно и пересчитаем вероятность B.

Но это может оказаться и неверно. Все зависит от фильтрующего механизма. Если он отбирает события случайно, следя только за новой вероятностью A, тогда это так. Но рассмотрим другой пример. Пусть есть некоторое третье событие C, такое что B является следствием C. Пусть наш механизм работает так: он отбирает в точности те события, в которых C произошло. Тогда вероятность A как-то может измениться (а может и не измениться - если А и С независимы), но в любом случае вероятность B в этой новой выборке будет равна 1.

Вообще-то было бы неплохо привести некоторую содержательную интерпретацию или задачу, исходя из которой мы и пытаемся сделать те или иные построения. Тогда было бы гораздо проще обсуждать. У Вас есть что-то подобное на примете? Может, придумаете какой-то правдоподобный пример?

PAV · 10.03.2006, 22:48

Кстати, у Вас наверное опечатка: в конце надо положить не $S=\emptyset$ , а $S=\Omega$ .

Кролик · 13.03.2006, 00:49

PAV писал(а):

Кстати, у Вас наверное опечатка: в конце надо положить не $S=\emptyset$ , а $S=\Omega$ .

— Однозначно это была ошибка! Пустое множество стартовых случайных тестов соответствует $S=\Omega$ .

PAV писал(а):

Вообще-то было бы неплохо привести некоторую содержательную интерпретацию или задачу, исходя из которой мы и пытаемся сделать те или иные построения. Тогда было бы гораздо проще обсуждать. У Вас есть что-то подобное на примете? Может, придумаете какой-то правдоподобный пример?

— Не уверен, что тот пример, который я приведу вполне корректен, ещё менее уверен, что он всеобъемлющий... Однако, это история из моей собственной жизни...

Пример 1. Однажды мне пришлось нанести ответный визит Вини-Пуху и Пятачку. Мы с Вини сели за обеденный стол, а Пятачок отправился на кухню за стряпнёй. Некоторое время он не возвращался и не было видно, что он делает. Вини-Пух объяснил задержку тем, что Пятачок, наверное, решил накормить мышонка, живущего у них на кухне в роли домашнего животного. Для кормления мышонка на кухне стоят две лоханки: одна с кусочками сыра, а другая с кусочками колбасы. Пятачок с равной вероятностью $p=2/5$ может залезть рукой как в одну так и в другую лоханку, вытащить кусочек корма и накормить одним этим кусочком единственное домашнее животное. Таким образом, вероятность $1-2p$ соответствует событию, что мышонка вообще забудут покормить. Известно также, что в момент получения корма мышонок иногда издаёт радостный писк, причём, если он получает кусочек сыра, то пищит он с вероятностью $1-q_1$ , а если кусочек колбасы, то вероятность писка будет $1-q_2$ , если же мышонка не накормят вовсе, то он дипломатично молчит.

Через некоторое время появился из кухни Пятачок. Никакого радостного писка оттуда однако так и не послышалось. Я шепнул на ухо Вини-Пуху, что Пятачок, наверное, всё же забыл накормить мышонка, раз тот не запишал. Но Пух заверил меня также шёпотом, что это маловероятно, так как Пятачок весьма исполнительный и даже при условии того, что мышонок не пишал, вероятность такой забывчивости была бы равна всего $x=5/14$ . Разумеется, Вини-Пух мог воспользоваться теоремой Байеса для нахождения величины x, так как ему были известны параметры его собственного мышонка. Мне же надо было как-то выкручиваться, не зная величин $q_1$ и $q_2$ ...

Например, в тот момент мне очень захотелось определить, с какой вероятностью мышонок получил сегодня именно кусок сыра? Однако распрашивать друга о точных параметрах его зверька я постеснялся и решил воспользоваться в условиях возникшей неопределённости попросту своей собственной теоремой (см. выше первую теорему Кролика).

Кролик · 13.03.2006, 00:54

В самом деле обозначим следующие события:

$S=\{\mbox{Мышонок не запищал}\}$
$A=\{\mbox{Пятачок забыл покормить мышонка}\}$
$G=\{\mbox{Мышонок получил кусочек сыра}\}$

Очевидно: $P(A)= 1-2p$ , $P(A|S)= x$ , $P(G|A)= 0$ , $P(G|\bar A)= 1/2$ . Согласно первой теореме Кролика выводим ответ:

$(4) \qquad P(G|S)= P(A|S)\; P(G|A) + (1- P(A|S))\; P(G|\bar A)= \frac{1-x}{2}= 9/28$ .

Разумный результат?! И мне в тот день показалось, что разумный... Однако, чтобы определить уровень точности своей оценки, я начал потом при случае прикармливать Вининого мышонка то сыром, то колбасой, когда он случайно попадался мне на улице. Собрав достаточно статистики о мышиных эмоциях, мне удалось определить недостававшие в начале коэффициенты. Выяснилось, что $q_1= 4/5$ , а $q_2=1/10$ . Применяя теорему Байеса с системой гипотез

$B_1=\{\mbox{Мышонок получил кусочек сыра}\}$
$B_2=\{\mbox{Мышонок получил кусочек колбасы}\}$
$B_3=\{\mbox{Пятачок забыл покормить мышонка}\}$ ,

я получил: $P(B_1|S)= 4/7$ . Этот результат поверг меня в смятение... Вышло, что скорректированная по моей теореме вероятность не только не уточнила априорную вероятность p, но даже её ухудшила! :shock:

Уж лучше бы я вообще не использовал никакие дополнительные данные, а, как ребёнок, положил вероятность интересующего меня события равной её прежнему значению 2/5! :oops:

Описанный здесь кошмарный случай и привёл меня в конечном счёте на Мехматовский форум. Неужели же нет другого способа распорядиться величинами p и x так, чтобы получить разумное уточнение искомой вероятности, пока параметры мышонка остаются неизвестными???

P.S. Более того, я заметил, что если бы мышонок одинаково реагировал на сыр и на колбасу, то последний расчёт по Байесу дал бы тот же самый результат, что и формула Кролика (3). Тютелька в тютельку!

PAV · 13.03.2006, 13:09

Кролик писал(а):

Описанный здесь кошмарный случай и привёл меня в конечном счёте на Мехматовский форум.

где обитала мудрая Сова...

Пример замечательный, мне очень понравился.

Сейчас разберемся, почему теорема Кролика иногда дает правильный результат, а иногда - нет.
Позже подумаю, что можно сделать в данной задаче (и можно ли вообще).

Итак, пусть у нас есть события G, A и S (обозначения из примера). Тогда применяя честную теорему Байеса, можно получить следующую формулу:

$P(G|S) = P(G|A,S)\cdot P(A|S) + P(G|\overline{A},S)\cdot(1-P(A|S))$

Что же сделал хитрый Кролик в своей теореме? Он взял неизвестные ему вероятности $P(G|A,S)$ и $P(G|\overline{A},S)$ и выбросил из них букву $S$ . Т.е. воспользовался равенствами

$P(G|A,S) = P(G|A)\qquad P(G|\overline{A},S) = P(G|\overline{A})$

Соответственно, если они верны - то теорема справедлива, если же нет - тогда, вообще говоря, нет. А что означают эти равенства? Первое означает, что при условии события А события G и S должны быть независимы, а второе - такую же независимость при условии отрицания А. В нашем случае при условии A независимость есть (если Пятачок забыл покормить мышонка, то он никогда не пищит, т.е. S является достоверным и не зависит ни от чего). Если же Пятачок не забыл его покормить ( $\overline{A}$ произошло), то теорема будет верна тогда и только тогда, когда пищание не зависит статистически от того, чем его покормили. Это как раз объясняет тот факт, что

Кролик писал(а):

P.S. Более того, я заметил, что если бы мышонок одинаково реагировал на сыр и на колбасу, то последний расчёт по Байесу дал бы тот же самый результат, что и формула Кролика (3). Тютелька в тютельку!

PAV · 13.03.2006, 15:40

Справиться же с этой проблемой никак не получится. Теория вероятностей предполагает, что вероятностная модель явления полностью задана, т.е. можно вычислить вероятность любого события. В данном же случае модель содержит два неизвестных параметра. Можно взять правильную формулу, подставить в нее все величины и получить ответ, выраженный опять-таки через эти два параметра. Максимум, что можно узнать - в каком диапазоне значений будет лежать вероятность интересующего нас события. И ничего больше, так как никакого предположения об этих параметрах нет.

Справиться с проблемой можно двумя способами. Первый очевиден: провести статистическое изучение ситуации и как-то оценить неизвестные параметры (что Кролик в итоге и сделал). Необязательно при этом явно оценивать вероятности именно неизвестных событий, можно и других, но так, чтобы неизвестные параметры можно было через них оценить.

Второй способ - упоминаемый мною Байесовский подход в теории машинного обучения. Можно предположить, что сами эти неизвестные параметры являются случайными величинами, распределенными по некоторым законам. Законы эти придется взять с потолка и всю ответственность за этот выбор Вы берете на себя. Тогда можно честно что-то сказать про неизвестную вероятность.

Например, так как наши параметры - это вероятности двух событий, можно было бы рассмотреть их распределенными равномерно на отрезке [0,1]. Но еще раз повторю, что никакого обоснования этому выбору нет.

Научный форум dxdy

Обобщение теоремы Бейеса