Я привожу своё опровержение DA. Прошу прощения, если здесь не принято писать такие большие посты (а что об этом говорят правила?).
Цитата:
В научных кругах встречается “теорема конце света” (Doomsday argument, DA) - довольно известное вероятностное рассуждение, вывод из которого можно сформулировать так (из Википедии): если принять, что 60 млрд людей родились вплоть до настоящего момента (оценка Лесли), то с 95 % уверенностью мы можем утверждать, что человеческая раса исчезнет в течение 9120 лет. В данной статье я попытаюсь доказать, что данное рассуждение на самом деле ошибочно.
Рассуждение DA легко найти в интернете (например Википедия), поэтому я оставляю его за пределами этой статьи. DA одновременно и отвергается большинством учёных, и вызывает интерес у их части, вследствие чего по этой тематике можно найти довольно много публикаций. На мой взгляд, это объясняется тем, что рассуждение DA одновременно и внешне логично, и контр-интуитивно. Интуиция сразу подсказывает людям, прочитавшим DA, об его ошибочности, но доказать эту ошибочность логически довольно трудно.
Прежде всего, DA нарушает принцип причинности. Если бы DA было верно, человечество бы могло сделать из него практические выводы; оно бы стало больше опасаться техногенных и прочих катастроф, т.е. попыталось бы “отменить” вероятную гибель человечества. Это означает воздействие будущего на прошлое, что предполагает даже возможность парадоксов нарушения причинно-следственной связи. Я считаю, что воздействие будущего на прошлое (перемещения во времени) в принципе действительно возможно, но такие явления относятся к категории паранормальных, а в данном случае всё гораздо проще.
Один из ключевых моментов в рассуждении DA – возможность делать выводы о выборке по единственному объекту из выборки. В принципе, этот подход вполне справедлив. Приведём такую аналогию. В мешке лежат красные и зелёные шары; мы ничего не знаем о распределении шаров, и о том каких шаров больше – красных и зелёных. Предположим, мы вынули из мешка один шар, и он оказался зелёным. Из того факта, что шар оказался зелёным, мы можем делать какие-то выводы; можно утверждать, что с вероятностью 99.9% красных шаров в мешке не больше 99.9%. Если до вынимания шара мы знали, что вероятность того, что зелёных шаров больше чем красных, равна 50%, то после вынимания зелёного шара эта вероятность становится немного больше.
Второй ключевой момент DA, который называют принципом Коперника (хотя в действительности он, видимо, не имеет к этому принципу отношения), заключается в том, что мы имеем равные шансы обнаружить себя в любом интервале временной шкалы, на которой существует человечество. Обозначим через N общее количество людей, которые родились в прошлом или когда-либо родятся в будущем. Для каждого человека можно назвать номер n, обозначающий его место в этой временной шкале (для условного Адама n=1, для людей нашего времени n, согласно оценке Лесли, находится в пределах 60 миллиардов, для последнего человека, который увидит гибель человечества, n будет равно N) В рассуждении DA предполагается, что поскольку для каждого человека номер n находится в интервале 1..N, распределение вероятностей для n равномерно, т.е. шансы родиться в начале временной шкалы (с относительно маленьким n) и в её конце (с n близким к N) одинаковы. Ниже будет показано, что в последнем предложении есть логическая ошибка, хотя её трудно сформулировать из-за нечёткой формулировки самого предложения.
Приведу аналогию, которая на первый взгляд служит хорошим аргументом для DA. Вы просите человека загадать случайное число N, которое может быть совершенно любым (например сто, миллиард или “гугол”). Далее вы просите назвать случайное число n в интервале от 1 до N, причём распределение вероятностей для n должно быть равномерным (т.е. если загадано N, например, тысяча, то n может с вероятностью 10% оказаться от 1 до 100, ещё с вероятностью 10% от 101 до 200 и т.д.). Человек называет n=60; отсюда можно сделать вывод, что N вряд ли больше миллиарда.
Эта задача сформулирована нечётко, поскольку не объясняется, что значит “загадать совершенно любое число”. Любое “загадывание” предполагает какое-то знание о распределении вероятностей. Поэтому для корректности задачу можно уточнить, например, так: вы просите человека загадать число N от одного до триллиона, и распределение вероятностей должно быть равномерным в логарифмической шкале, т.е. с вероятностью 25% он может загадать число от 1 до 1000, ещё с вероятностью 25% от 1001 до 1 000 000, еще с вероятностью 25% от 1 000 001 до миллиарда и т.д. Если после этого он называет число n=60, это, опять же, позволяет делать выводы о N: если изначально мы полагали, что вероятность того, что N не больше тысячи, равна 25 процентам, то после названного n=60 эта вероятность становится близка к 90 процентам.
Перенося эту аналогию на нашу ситуацию, сторонники DA делают вывод, что поскольку для нас n приблизительно равно 60 миллиардов, это позволяет сделать вывод, что с вероятностью 95% N не больше триллиона. Отсюда и делается вывод о большой вероятности предстоящего “конца света”.
Теория вероятностей изобилует парадоксами – истинами, которые очень трудно понять и в которые даже трудно поверить. Часто парадоксы возникают при нечётких формулировках задачи. Как пример можно привести “парадокс мальчика и девочки”, разобранный в Википедии. Показательно, что известный математик Мартин Гарднер, разбиравший в своих книгах другие парадоксы теории вероятностей, изначально “сел в лужу” с этим парадоксом – написал ошибочный вывод, и только после критики признал свою ошибку.
Формулировка парадокса мальчики и девочки такая:
1) У мистера Джонса двое детей. Старший ребёнок — мальчик. Какова вероятность того, что оба ребёнка мальчики?
2) У мистера Смита двое детей. Хотя бы один ребёнок — мальчик. Какова вероятность того, что оба ребёнка мальчики?
Сам Гарднер изначально давал ответ 1/2 и 1/3 соответственно, но впоследствии понял, что ситуация во втором случае неоднозначна. Дело в том, что формулировка “хотя бы один ребёнок - мальчик” может быть интерпретирована по-разному. Возможны два варианта:
a) Из всех семей с двумя детьми, где хотя бы один мальчик, выбрана произвольная семья. В этом случае ответ 1/3.
b) Из всех семей с двумя детьми, один ребёнок выбирается случайным образом, и пол этого ребёнка оказывается мужским. В этом случае ответ 1/2.
Проиллюстрирую это на двух примерах:
a) Мистер Смит отец двоих детей. Мы встретили его, прогуливающегося по улице с маленьким мальчиком, которого он с гордостью представил нам, как своего сына. Какова вероятность того, что второй ребёнок мистера Смита тоже мальчик?
b) Это же условие, но с дополнением: в культуре, где живёт мистер Смит, принято на прогулку из детей всегда брать мальчика.
Можно показать, что в первом случае искомая вероятность равна 1/2, а во втором – 1/3. Проиллюстрируем это с помощью конкретных цифр. К слову, такой подход (выписывать конкретные числа), на мой взгляд, очень помогает избежать ошибок в теории вероятностей:
В городе живёт тысяча семей с двумя детьми. Подсчитаем, какие возможны распределения между полами детей. Каждая семья может с вероятностью 25% иметь ММ (оба ребёнка мальчики), МД (старший ребёнок мальчик, младшая девочка), ДМ, ДД. Примем для простоты, что случайный фактор отсутствует, т.е. из тысячи семей имеем ровно 250 ММ, 250 МД, 250 ДМ и 250 ДД. Здесь уже виден ответ, который изначально давал Гарднер: если выбрать все семьи, у которых есть хотя бы один мальчик (это ММ, МД, ДМ), то этих семей наберётся 750, и из них 250 ММ – ответ 1/3.
Далее предположим, что каждая семья дважды выходила прогуляться с одним ребёнком: в день A со старшим ребёнком, и в день B с младшим. Соответственно имеем две тысячи “выходов”: от семей ММ 500 выходов с мальчиком, от семей МД 250 выходов с мальчиком и 250 с девочкой, от семей ДМ то же самое, и от семей ДД 500 выходов с девочкой. В сумме мы имеем 1000 выходов с мальчиком, из них 500 от семей ММ, 250 от МД и 250 от МД. Таким образом, вероятность ММ получается равной 1/2.
Теперь внесём в задачу озвученное условие – в этом городе принято гулять только с мальчиками, если нет другого выхода (когда в семье есть только девочки). Это значит, что мы заменяем “выходы” с девочкой для семей МД и ДМ на выходы с мальчиком, но ничего не меняем для семей ДД. Тогда всего мы имеем 1500 “выходов” с мальчиком, из них 500 от семей ММ – вероятность 1/3.
Чтобы продемонстрировать важность чёткой формулировки условия, приведу пример, который ближе к DA. Предположим, в галактике есть две планеты, населённые разумными существами (в дальнейшем буду называть их “жители”). На первой планете живёт тысяча жителей, на второй миллион. Жители первой планеты имеют жёлтые глаза, а второй – зелёные глаза. С какой вероятностью случайно выбранный житель имеет жёлтые глаза?
Ответ на этот вопрос зависит от того, каким способом мы будем выбирать случайного жителя. Рассмотрим два случая:
1) Сначала наугад выбираем планету, а затем на ней наугад выбираем жителя;
2) Выписываем всех жителей двух планет под номерами (от 1 до миллиона – вторая планета, от 1 000 001 до 1 001 000 – первая планета), и наугад выбираем номер из списка.
Из этого примера видно, что распределение вероятностей выбираемых жителей различается в зависимости от того, каким способом выбирается житель: в первом случае вероятность выбрать желтоглазого жителя равна 50%, а во втором 1000/1001000=0.099%.
Суть основной ошибки в рассуждении DA заключается в том, что не проводится различия между этими двумя способами случайной выборки: DA подразумевает, что распределение вероятностей родиться в какую-то эпоху соответствует первому способу, в то время как на самом деле более правильным является второй способ. Именно он соответствует определению "родиться в случайное время в случайном месте".
Приведу ещё один пример, который на первый взгляд подтверждает DA. Этот пример показывает, что делать выводу по единственному элементу выборки в принципе можно:
Предположим, всех жителей Земли можно условно разделить на тёмноволосых и светловолосых, причём первых большинство. Далее предположим, что каждый человек знает свой цвет волос, но не знает цвет волос остальных людей. Может ли он делать какие-то выводы о цвете волос у других по собственным? Очевидно, темноволосые люди придут к выводу, что большинство остальных людей тоже темноволосы, а светловолосые – что большинство светловолосы. А поскольку, как было обозначено, темноволосых людей на самом деле большинство, значит правильный ответ будет в среднем даваться чаще, чем неправильный, т.е. этот подход в принципе работает.
В данной формулировке интуитивно чувствуется какой-то подвох, хотя трудно сформулировать, в чём именно он заключается. Чтобы задача стала более корректной, сформулируем её с помощью цифр:
В галактике существует 1000 планет, населённых разумными существами (“жителями”), по миллиону на каждой планете. На 800 планетах (назовём их планетами A) большинство жителей являются тёмноволосыми (90% темноволосых и 10% светловолосых). На остальных 200 планетах (планеты B) 90% жителей светловолосы, а 10% темноволосы. Каждый житель планеты знает свой цвет волос и знает эти цифры, но не знает цвета волос остальных жителей своей планеты, т.е. он не знает, к какой категории относится его планета. Какие выводы о вероятностях он может делать по цвету своих волос?
Рассчитаем общее количество темноволосых и светловолосых жителей в галактике. На 800 планетах A живёт в сумме 800 миллионов жителей, из них 800*0.9=720 миллионов темноволосых и 800*0.1=80 миллионов светловолосых. На 200 планетах B живёт 200 миллионов жителей, из них 200*0.1=20 миллионов темноволосых и 200*0.9=180 миллионов светловолосых. Итого имеем 720+20=740 миллионов темноволосых жителей и 80+180=260 миллионов светловолосых.
Как должен рассуждать светловолосый житель, оценивая вероятность того, что его планета относится к категории B? По условиям задачи, изначально он знал, что эта вероятность равна 20%. Далее, тот факт, что у него светлые волосы, позволяет пересчитать вероятность: он знает, что является одним из 260 миллионов светловолосых жителей галактики, и тогда вероятность того, что он родился на планете B, равна 180/260=69.2%. Таким образом, знание того факта, что он светловолосый, увеличило для этого жителя вероятность того, что он родился на планете B, с 20% до 69.2%.
Повторю основной вывод этого примера - по одной точке из выборки можно делать выводы о распределении вероятностей. В качестве иллюстрации этой идеи можно привести возможность существования углеродной и кремниевой жизни. Мы знаем, что возможна углеродная жизнь, и предполагаем что могут также существовать кремниевая и другие формы жизни. Если мы ничего не знаем о том, какова вероятность зарождения кремниевой жизни, факт того, что на нашей планете жизнь углеродная, корректирует эту вероятность: мы можем считать достаточно убедительной гипотезу, что углеродная жизнь является основной формой жизни во вселенной, либо единственной (поскольку ясно, что вероятность возникновения жизни на произвольной планете больше нуля, если вселенная достаточно велика, можно уверенно утверждать что где-то существуют другие формы жизни). Конечно, вероятность зарождения кремниевой жизни прежде всего определяется нашими научными данными о химии жизни – наука может дать достаточно чёткий ответ на вопрос, возможна ли неуглеродная жизнь. Другой пример: тот факт, что все высшие сухопутные животные на земле, включая нас, имеют четыре конечности, позволяют с достаточно высокой долей уверенности предполагать, что четыре конечности – самый распространённый или один из самых распространённых случаев для всех внеземных цивилизаций. Если бы у нас было шесть конечностей, мы бы с такой же долей уверенности предполагали, что самый типичный случай – это шестирукость. Опять же, следует помнить, что научные данные позволяют делать более уверенные выводы.
Вероятность какого-то исхода или события всегда может быть оценена; не бывает такого, когда мы “не знаем, чему равна вероятность данного события”. В качестве примера приведу такую задачу: “в мешок случайным образом насыпаны красные и зелёные шары; какова вероятность того, что красных шаров больше?”. Напрашивающийся для неспециалиста ответ – “мы не знаем” – следует считать неправильным. Данные условия задачи подразумевают разные возможности распределения вероятностей, но все они “симметричны”, т.е. нет преимущества зелёных шаров перед красными или наоборот. Если, например, шары клали в мешок случайно (с вероятностью 50% клали зелёный шар и с вероятностью 50% - зелёный), то можно ожидать, что скорее всего тех и тех шаров примерно одинаковое количество, но не строго равное (вероятностью этого мы можем пренебречь). Вероятность того, что красных шаров больше чем зелёных, равна вероятности того, что больше зелёных шаров, и соответственно эти вероятности равны 50% (за вычетом небольшой вероятности, что шаров одинаковое количество). Далее, мы предполагаем что, возможно, есть какое-то преимущество красных шаров перед зелёными, или наоборот: может быть, когда клали шары, с большей вероятностью в мешок попадал красный шар, либо наоборот зелёный. Но из условий задачи ясно, что вероятность того, что красные шары имеют преимущество, равна вероятности того, что преимущество имеют зелёные шары; таким образом, если распределение цветов асимметричное (красный или зелёный цвет имеет преимущество), вероятность того, что преимущество изначально имели красные шары, равна вероятности того, что преимущество имели зелёные. Отсюда ясно, что эти вероятности равны, опять же, по 50%. Таким образом, правильный ответ в исходной задаче – 50%.
-- 03.08.2014, 12:54 --Осталось ещё примерно столько же текста, можно ли дать ссылку?