Добрый день,
вопрос по расчету объема выборки для AB теста конверсии.
Использую следующую формулу:
![$n>\frac{[\varphi^{-1}(1-\alpha) + \varphi^{-1}(1-\beta)]^2(\sigma^2_x+\sigma^2_y)}{\in^2}$ $n>\frac{[\varphi^{-1}(1-\alpha) + \varphi^{-1}(1-\beta)]^2(\sigma^2_x+\sigma^2_y)}{\in^2}$](https://dxdy-04.korotkov.co.uk/f/3/3/7/33754145cb1fe85f14e0c4d0154cd6f182.png)
Однако, когда пытаюсь проверить правильность расчетов на синтетическом датасете, результат сильно расходится с тем, что выдает формула. Для проверки провожу следующий эксперимент:
1. Задаю параметры:

- вер-сть конверсии (успеха),

- разница в конверсии двух групп,

,

3. Считаю необходимый объем выборки по формуле => получаю

2. Генерирую датасет из нулей и единиц размера

, где

- вер-сть единицы
3. Генерирую второй датасет размера

, где

- вер-сть единицы
4. Вычисляю

разницы средних первой и второй группы
5. Повторяю шаги 2-4 100к раз, считаю в каком проценте случаев полученное

меньше заданного

=> таким образом получаю "эмпирическую" мощность теста
Проблема в том, что мощность, полученная на 5м шаге, больше той, которую я задавал на шаге 1 при расчете объема выборки
Подскажите пожалуйста, в чем ошибка
Код эксперимента можно посмотреть в ноутбуке
https://colab.research.google.com/drive/1Ug8Iv4U5BT5rOE0-6V90VXjqOLuzKc9x?usp=sharing