Расчет размера выборки для AB теста

mehanat · 08/01/20 18

Добрый день,
вопрос по расчету объема выборки для AB теста конверсии.

Использую следующую формулу:
$n>\frac{[\varphi^{-1}(1-\alpha) + \varphi^{-1}(1-\beta)]^2(\sigma^2_x+\sigma^2_y)}{\in^2}$

Однако, когда пытаюсь проверить правильность расчетов на синтетическом датасете, результат сильно расходится с тем, что выдает формула. Для проверки провожу следующий эксперимент:
1. Задаю параметры: $p$ - вер-сть конверсии (успеха), $MDE$ - разница в конверсии двух групп, $\alpha=0.05$ , $power=0.8$
3. Считаю необходимый объем выборки по формуле => получаю $n$
2. Генерирую датасет из нулей и единиц размера $n$ , где $p$ - вер-сть единицы
3. Генерирую второй датасет размера $n$ , где $p+MDE$ - вер-сть единицы
4. Вычисляю $p-value$ разницы средних первой и второй группы
5. Повторяю шаги 2-4 100к раз, считаю в каком проценте случаев полученное $p-value$ меньше заданного $\alpha$ => таким образом получаю "эмпирическую" мощность теста
Проблема в том, что мощность, полученная на 5м шаге, больше той, которую я задавал на шаге 1 при расчете объема выборки
Подскажите пожалуйста, в чем ошибка
Код эксперимента можно посмотреть в ноутбуке
https://colab.research.google.com/drive/1Ug8Iv4U5BT5rOE0-6V90VXjqOLuzKc9x?usp=sharing

Научный форум dxdy

Расчет размера выборки для AB теста

Кто сейчас на конференции