Регрессия к среднему и ошибка игрока

sergey zhukov · 05.01.2022, 09:44

В книжке Паулоса "Математические невежество и его последствия" упоминаются две похожие вещи: регрессия к среднему и ошибка игрока. Там дважды повторяется, что это совсем не одно и то же, но я, похоже, не совсем понял разницу.

Ошибка игрока - это когда вероятности независимых случайных событий считают зависимыми. Всем известно, что вероятность выпадения орла или решки в одном броске равна

\frac{1}{2}

. Но в классическом примере игрок считает, что если монета падает решкой несколько раз подряд, то вероятность того, что она сделает так еще раз в следующем броске, должна быть меньше

\frac{1}{2}

. И вообще, эта вероятность должна уменьшаться с увеличением длины такой серии, т.к. длинные серии решек менее вероятны, чем короткие. Он думает, что вероятность выпадения орла или решки в следующем броске зависит от того, как монета падала в предыдущих бросках, хотя такой зависимости нет.

Регрессия к среднему - это, как говорит Паулос, "явление, когда вслед за экстремально высоким или низким значением какой-либо величины следует значение, близкое к среднему". Математически это явление значит, что в основной массе реализаций случайная величина принимает значение, близкое к матожиданию. Так что если мы наблюдаем редкий пик, далекий от матожидания, то вероятнее всего, что до и после него значение случайной величины было именно близким к матожиданию (просто потому, что это самое частое ее значение). Ошибка, связанная с этим явлением, опять же связана с тем, что люди считают, будто вероятность следующей реализации случайной величины зависит от предыдущей реализации, хотя она зависит только от распределения этой величины. Почему был пик? Потому, что перед этим сложились какие-то особенные условия? А после этого они исчезли? Что нужно делать, чтобы он повторился? Ответ может быть очень простым: нужно просто ждать. Иногда, в редких случаях, случайная величина согласно своему распределению принимает свои крайние значения, и это почти всегда выглядит, как необъяснимый пик среди массы средних значений. Так и должно выглядеть редкое появление крайнего отклонения. Согласно представлению о ряде, как о множестве не связанных между собой реализаций случайной величины, у этого пика нет и не может быть вообще никакого объяснения.

Мне ошибка игрока и ошибка, основанная на явлении регрессии к среднему, представляются очень похожими. В обоих случаях цепь независимых друг от друга случайных событий человеку представляется цепью зависимых событий (марковская цепь, процесс с памятью), в то время, как на самом деле это последовательность независимых случайных событий без памяти. Существует только фиксированное распределение случайной величины. Ряд отдельных ее реализаций не содержит никакой причинно-следственной связи между своими элементами. Отдельный вопрос, конечно, насколько такая упрощающая идеализация о полном отсутствии памяти и стабильном распределении близка к реальности. По крайней мере, это бывает чаще, чем нам кажется, как я понял из книги Паулоса.

Правильно ли я вообще понял смысл регрессии к среднему? Это вообще название заблуждения или строгий термин, имеющий смысл?

wrest · 05.01.2022, 12:02

Мне кажется, что явление регрессии к среднему хорошо иллюстрируется народной мудростью "если лечить простуду, то вылечиться можно всего за 7 дней, а если не лечить, то будешь болеть целую неделю". На этом неплохо зарабатывает индустрия фуфломицинов.

Someone · 05.01.2022, 12:41

sergey zhukov в сообщении #1545184 писал(а):

в основной массе реализаций случайная величина принимает значение, близкое к матожиданию.

Это тоже ошибка.

statistonline · 05.01.2022, 12:43

wrest в сообщении #1545190 писал(а):

Мне кажется, что явление регрессии к среднему хорошо иллюстрируется народной мудростью "если лечить простуду, то вылечиться можно всего за 7 дней, а если не лечить, то будешь болеть целую неделю".

Нет, это не совсем то. См., например, Д. Канеман, А. Тверски, "Принятие решений в условиях неопределенности: правила и предубеждения". Рассмотрен пример влияния поощрений/наказаний за успешные/неудачные упражнения пилотов. Поощренные за хорошее выполнение упражнения пилоты в следующей попытке выполняли его хуже. И наоборот. Другой известный из спорта результат - победители регулярного чемпионата КХЛ не могут в дальнейшем выиграть кубок. Причина такой регрессии к среднему - неполная корреляция. В вашем примере регрессией к среднему будет какая-то другая, схожая народная мудрость, типа "если лечить простуду 8 дней, то следующая пройдет за 7"

sergey zhukov · 05.01.2022, 12:55

Someone
Это, конечно, не всегда так. Скажем, для бимодального распределения (с двумя пиками) это может быть совсем неверно. Матожиданием может оказаться значение, которое случайная величина вообще никогда не принимает. Математическое ожидание (центр тяжести распределения) и модальное значение (значение, соответствующее пику распределения) - это разное, конечно. Вы это имеете ввиду?

Я говорил о чем-то вроде нормального распределения, когда все средние совпадают.

sergey zhukov · 05.01.2022, 14:25

statistonline
Да, у Канемана я читал эти примеры. Что значит неполная корелляция?

Мне кажется, что последовательность значений случайной величины часто рассматривают, как примерно результат случайных блужданий: из текущей точки делается случайный шаг вверх или вниз. Вот величина этого шага и имеет случайное распределение (допустим, нормальное с нулевым матожиданием). Если я нахожусь на заданном значении, то какое значение вероятнее всего будет следующим? То же самое, т.к. нулевой шаг вероятнее всего. В ряду случайных значений появляется некоторая непрерывность, он становится действительно похож на непрерывную кривую.

Если же не шаг, а сама следующая точка подчиняется случайному распределению, то на вопрос "какая точка вероятнее всего будет следующей" нужно ответить "соответствующая пику распределения". Где бы мы не находились в данный момент, следующая точка вероятнее всего будет одной и той же. Никакой непрерывности уже нет. Скажем, если случайная величина распределена нормально с нулевым матожиданием, то наиболее вероятная следующая точка всегда равна нулю. В предыдущем случае она всегда была равна текущей точке.

Все же и ошибка игорка и регрессия к среднему основаны на предположении о причинно-следственных связях там, где их нет.
Или же регрессия к среднему означает, что распределение величины шага при случайном блуждании должно зависеть от того, где я нахожусь сейчас? Т.е. это распределение "перекашивает" так, что шаги вниз становятся более вероятны, если я наверху, и наоборот?

statistonline · 05.01.2022, 16:11

sergey zhukov в сообщении #1545202 писал(а):

Все же и ошибка игорка и регрессия к среднему основаны на предположении о причинно-следственных связях там, где их нет.

Вот это не совсем понял. Да, такое предположение и составляет ошибку игрока. Но как мне кажется, регрессия к среднему вовсе о другом - экстремальный выброс на следующем шаге менее вероятен, чем малое отклонение от матожидания.

sergey zhukov в сообщении #1545202 писал(а):

Или же регрессия к среднему означает, что распределение величины шага при случайном блуждании должно зависеть от того, где я нахожусь сейчас?

Нет, мне кажется, что это совсем не так. Ни о каком "сглаживании" предыдущих больших выбросов речи быть не может. Регрессия к среднему - это не механизм, а просто наблюдение. И как наблюдение он ничего не объясняет.

sergey zhukov в сообщении #1545202 писал(а):

Что значит неполная корреляция?

Пусть меня поправят, если ошибаюсь, но я понимаю это так. Когда показатели полностью скоррелированны, тогда процесс имеет "память", и "лучшие сегодня останутся лучшими и завтра". Но когда корреляция незначительна или вовсе отсутствует, возникает игра шансов, т.е. более "удачные" события сменяются менее "удачными" и наоборот так, что возникает эффект регрессии к среднему.

sergey zhukov · 05.01.2022, 17:30

statistonline
По моему, я понял.

Возьмем в пример случайные блуждания (на каждом шаге подбрасывается монета и в зависимости от результата и делается шаг вправо или влево).

Ошибка игрока заключается в том, что он думает, будто исходная точка притягивает его. Чем дальше он от нее отошел, тем вероятнее, что монета должна вернуть его. Его кривая случайного блуждания должна как бы вписываться в некий коридор вокруг исходной точки. Такой игрок как раз и считает, что распределение вероятностей выпадения монеты зависит от того, насколько далеко он отклонился от исходной точки. Чем дальше он отошел от места старта, тем сильнее "перекашивает" это распределение в сторону его возврата. Если он отклонился очень сильно, то вероятность того, что монета направит его обратно (по его логике) практически равна 1. Настолько асимметричным должно стать распределение вероятностей в этом случае. Т.е. чем дальше отклоняешься, тем более "не честной" должна быть монетка. На самом же деле она всегда честная, ей нет дела до того, как далеко игрок ушел от точки старта. Вообще, любую текущую точку можно принять за стартовую с тем же успехом.

Регрессия к среднему говорит нам, что наиболее вероятное расстояние, которое пройдет игрок, скажем, за 10 шагов, равно нулю (считая шаги вправо положительными, а влево - отрицательными). Это верно всегда независимо от его "успехов" в прошлом. Если выпало так, что он за 10 шагов прошел расстояние 10 (десять решек подряд), то все равно за следующие 10 шагов он вероятнее всего пройдет ноль. Т.е. в будущем всегда вероятнее всего средний результат, а не какой-либо другой. Примерно так: что было (повторялось чаще всего в прошлом), то и будет (вероятнее всего сейчас).

Я когда-то давно составил программку, которая угадывала загаданное вами число (0 или 1). Вот она примерно так и работала: что загадывалось чаще всего в обозримом прошлом, то и будет загадано сейчас (там учитывался последний десяток загаданных цифр и велась статистика по всем таким "десяткам" по всему прошлому опыту. В качестве отгадки предлагалась цифра, которая дополняла последние девять загаданных цифр до самой частой в прошлом "десятки").

Т.е. ошибка игрока - это будто-бы распределение случайной величины зависит от истории ее реализаций, а ошибка из-за неучета регрессии к среднему - это "снятие сливок" с краев распределения в надежде, что это может окажется чем-то уникальным, хотя это все может легко оказаться такой же посредственностью, как и в центре. Если сто раз подряд бросить сто монет разом, то можно отобрать из них те, которые в сумме дали больше всего орлов или решек. Это наши "лидеры". Они всегда появляются в таком испытании, и их отрыв может быть очень заметным от среднего результата. Хотя ясно, что такие "достижения" никак не связаны с "лидерами" и не значат вообще ничего.

Евгений Машеров · 05.01.2022, 19:36

Исходное значение термина "регрессия к среднему" - это найденный Фрэнсисом Гальтоном, организовавшим на Всемирной Выставке в Лондоне сбор антропометрических данных, эффект, состоявший в том, что у высоких отцов были в среднем более высокие дети, но не столь высокие, как отцы, их рост возвращался к среднему по популяции (регрессировал). Это дало название регрессионному анализу, поскольку сам эффект был исследован при помощи него.
В данном случае имеется специфическая для роста и иных наследуемых параметров организма причина - влияние роста не только отца, но и матери. Однако если мы рассмотрим объект с "одним родителем" или для биологических объектов построим модель зависимости и от роста отца, и от матери, "регрессия к среднему" также будет иметь место. Поскольку на рост, кроме генетических факторов, влияют и иные обстоятельства. Отец может быть рослым чисто в силу генетических факторов, которые передаст сыну в неизменности, но может быть и рослым потому, что его детство пришлось на сытое в данной местности время. И тогда генетически его сын не получит преимущества в росте, а внегенетические факторы могут действовать в обе стороны.
Можно нарисовать некую сильно упрощённую модель, в котором у каждого объекта есть параметр

\xi

, наследуемый его потомками, и для наудачу выбранного объекта его можно считать нормально распределённым

\xi\sim N(0,\sigma^2)

. Но наблюдаем мы величину

x=\xi+\varepsilon

,

\varepsilon\sim N(0,\delta^2)

. Легко посчитать корреляцию между "предком"

x_1=\xi+\varepsilon_1

и потомком

x_2=\xi+\varepsilon_2

и регрессию значения "потомка" на "предка". Коэффициент регрессии будет меньше единицы, что и даст "регрессию к среднему" (к нулю, в данном примере).

statistonline · 05.01.2022, 21:52

sergey zhukov в сообщении #1545220 писал(а):

По моему, я понял.

ну вот, Евгений Машеров объяснил лучше меня. Предсказываемое значение (почти) всегда ближе к своему среднему, чем значение, по которому предсказание было сделано.

Евгений Машеров · 05.01.2022, 22:04

Что касается "ошибки игрока", то, как мне кажется, она состоит в том, что некоторые наблюдаемые в реальности эффекты ожидаются там, где они возникнуть не могут. Основное свойство реальных объектов состоит в том, что они способны реально существовать (э, не пойти ли мне в философы? задел явно имеется...), в смысле подерживать свою стабильность, а это требует отрицательных обратных связей. Положительные обратные связи тоже есть, но объекты, ими охваченные, развиваются и быстро меняются, из круглой железяки в плазменное облако, а из него в красивый грибок, к примеру. И в любом случае живут недолго, в отличие от стабилизированных ООС. Стало быть, куда чаще мы видим объекты с ООС, чем с ПОС. И наблюдая такие объекты, можно придти к выводу, что ООС существуют везде и всегда, так что после длинной серии "решек" отрицательная связь изменит вероятности в пользу "орлов". Но если мы постулируем независимость испытаний - мы утверждаем отсутствие такого рода ООС. И сколь угодно длинные серии "решек" не гарантируют нам появление "орла". Для рулетки независимость не просто постулируется, рулетка сконструирована так, чтобы независимость достигалась. В других случаях в независимость мы может только верить и проверять согласие выводов, основанных на предположении независимости, с реальностью.

Markus228 · 06.01.2022, 06:28

А еще можно использовать байесову статистику, и тогда после серии решек надо ожидать появление решки, т.к. возможно монетка подкрученная :-)

sergey zhukov · 06.01.2022, 10:58

Интересно сравнить, как должна вести себя монета согласно ожиданию такого игрока (не честная монета), и как она ведет себя на самом деле (честная монета). Ниже нарисован результат случайных блужданий (случайный шаг

+1

или

-1

), основанный на бросаниях таких монет:

Если

a

- равномерно распределенная случайная величина на отрезке 0...1, то честная монета определяет направление шага таким образом: если

a>\frac{1}{2} \to +1

, иначе

-1

.

А не честная монета работает так: если

a>\frac{1}{2}+kx \to +1

, иначе

-1

, где

x

- текущее положение точки относительно точки старта (нуля), а

k

- "сила перекоса распределения". Чем больше

x

, тем менее вероятно, что следующий шаг будет положительным (и наоборот).

Как видно, игрок ожидает от монеты очень ограниченного, "хорошего" поведения, которое совершенно отличается от того, что происходит на самом деле. Красный график очень похож на черный, из которого отфильтровали низкие частоты.

Markus228 · 06.01.2022, 11:05

sergey zhukov
Интересно, когда честная монета снова в отрицательную ось пойдет :roll:

sergey zhukov · 06.01.2022, 11:33

Markus228
Да, действительно. Разве она не видит, что уже давно пора возвращаться? Куда ее несет? Уже

+250

!

Так и думает игрок. Но для монеты эти

+250

просто становятся новым нулем. Она все забыла и начинает путь заново из каждой следующей точки. Каждое текущее положение для нее - стартовое. Вокруг чего ей надлежит болтаться? Вокруг нуля? Или вокруг

+100

? Или

+250

? Может, вокруг

-250

? Или вокруг любой другой точки из своего прошлого? Очевидно, что все точки для нее равноправны.

Это игрок думает, что когда лично он начал бросать эту монету, она этот счастливый миг "запомнила" и теперь ходит вокруг да около этой выделенной точки старта.

Путаница и недоразумения с этими монетами связана, по моему, в первую очередь с тем, что не все ясно понимают: абсолютное отклонение растет (чем больше бросков

N

, тем меньше вероятность того, что количество решек будет в диапазоне, скажем

\frac{N}{2} \pm 10

штук), а относительное - все равно падает (чем больше бросков

N

, тем больше вероятность того, что количество решек будет в диапазоне, скажем

\frac{N}{2} \pm 10\%

). Штуки отклоняются все сильнее, а проценты - все слабее. Вот это несколько запутывает.

Научный форум dxdy

Регрессия к среднему и ошибка игрока