В онлайне непрерывно происходят испытания Бернулли (показ рекламы – ипытание, клик – успех). Цель – как можно раньше задетектировать изменение (факт и величину) вероятности успеха
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
(CTR).
![$p \sim 0.001$ $p \sim 0.001$](https://dxdy-01.korotkov.co.uk/f/c/9/c/c9c20e1b80a29d6e32807eeb07d9aab282.png)
.
Вижу 2 случая (сильно упрщённых, но хотя бы с ними разобраться для начала):
1)
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
может меняться непрерывно и достаточно медленно;
2)
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
кусочно-постоянна, то есть от последнего изменения до последющего
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
неизменна. Про "время жизни"
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
нам ничего не известно.
Вопрос такой. Имеются ли какие-то уже разработанные методы для решения данной задачи?
Мои размышления относительно случая 2 такие (мне кажется, этот случай проще).
Давайте строить 2 доверетиельных интервала для
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
: один на показах с последнего задетектированного изменения
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
, второй на поседних
![$N$ $N$](https://dxdy-04.korotkov.co.uk/f/f/9/c/f9c4988898e7f532b9f826a75014ed3c82.png)
показах (
![$N$ $N$](https://dxdy-04.korotkov.co.uk/f/f/9/c/f9c4988898e7f532b9f826a75014ed3c82.png)
подбирается исходя из уровня значимости и
![$|\Delta p|$ $|\Delta p|$](https://dxdy-02.korotkov.co.uk/f/9/c/c/9ccc0668c5b52ef8d33c82b193f1915182.png)
, который мы хотим детектировать). Но тут сразу видна проблема. Если
![$|\Delta p|$ $|\Delta p|$](https://dxdy-02.korotkov.co.uk/f/9/c/c/9ccc0668c5b52ef8d33c82b193f1915182.png)
слишком большое, то это станет понятно задолго до
![$N$ $N$](https://dxdy-04.korotkov.co.uk/f/f/9/c/f9c4988898e7f532b9f826a75014ed3c82.png)
показов. Значит, нужно считать доверительные интервалы для
![$p$ $p$](https://dxdy-03.korotkov.co.uk/f/2/e/c/2ec6e630f199f589a2402fdf3e0289d582.png)
для последних
![$10, 11, ..., N$ $10, 11, ..., N$](https://dxdy-04.korotkov.co.uk/f/3/2/9/329b9f17316902b2adf8e4bf484e667b82.png)
испытаний. То есть доверительных интервалов у нас получается много. И вот тут возникает проблема как интерпертировать набор этих интервалов. Они могут иметь всевозможные паттерны перекрытий. И вот с этим проблема.
Из доверительных интервалов для вероятности успеха думаю использовать
Wilson Score interval. Его рекомендуют использовать в этой статье –
Confidence Intervals for the Binomial Proportion: A Comparison of Four Methods.