В книжке Паулоса "Математические невежество и его последствия" упоминаются две похожие вещи: регрессия к среднему и ошибка игрока. Там дважды повторяется, что это совсем не одно и то же, но я, похоже, не совсем понял разницу.
Ошибка игрока - это когда вероятности независимых случайных событий считают зависимыми. Всем известно, что вероятность выпадения орла или решки в одном броске равна
. Но в классическом примере игрок считает, что если монета падает решкой несколько раз подряд, то вероятность того, что она сделает так еще раз в следующем броске, должна быть меньше
. И вообще, эта вероятность должна уменьшаться с увеличением длины такой серии, т.к. длинные серии решек менее вероятны, чем короткие. Он думает, что вероятность выпадения орла или решки в следующем броске зависит от того, как монета падала в предыдущих бросках, хотя такой зависимости нет.
Регрессия к среднему - это, как говорит Паулос, "явление, когда вслед за экстремально высоким или низким значением какой-либо величины следует значение, близкое к среднему". Математически это явление значит, что в основной массе реализаций случайная величина принимает значение, близкое к матожиданию. Так что если мы наблюдаем редкий пик, далекий от матожидания, то вероятнее всего, что до и после него значение случайной величины было именно близким к матожиданию (просто потому, что это самое частое ее значение). Ошибка, связанная с этим явлением, опять же связана с тем, что люди считают, будто вероятность следующей реализации случайной величины зависит от предыдущей реализации, хотя она зависит только от распределения этой величины. Почему был пик? Потому, что перед этим сложились какие-то особенные условия? А после этого они исчезли? Что нужно делать, чтобы он повторился? Ответ может быть очень простым: нужно просто ждать. Иногда, в редких случаях, случайная величина согласно своему распределению принимает свои крайние значения, и это почти всегда выглядит, как необъяснимый пик среди массы средних значений. Так и должно выглядеть редкое появление крайнего отклонения. Согласно представлению о ряде, как о множестве не связанных между собой реализаций случайной величины, у этого пика нет и не может быть вообще никакого объяснения.
Мне ошибка игрока и ошибка, основанная на явлении регрессии к среднему, представляются очень похожими. В обоих случаях цепь независимых друг от друга случайных событий человеку представляется цепью зависимых событий (марковская цепь, процесс с памятью), в то время, как на самом деле это последовательность независимых случайных событий без памяти. Существует только фиксированное распределение случайной величины. Ряд отдельных ее реализаций не содержит никакой причинно-следственной связи между своими элементами. Отдельный вопрос, конечно, насколько такая упрощающая идеализация о полном отсутствии памяти и стабильном распределении близка к реальности. По крайней мере, это бывает чаще, чем нам кажется, как я понял из книги Паулоса.
Правильно ли я вообще понял смысл регрессии к среднему? Это вообще название заблуждения или строгий термин, имеющий смысл?