Добрый день,
вопрос по расчету объема выборки для AB теста конверсии.
Использую следующую формулу:
Однако, когда пытаюсь проверить правильность расчетов на синтетическом датасете, результат сильно расходится с тем, что выдает формула. Для проверки провожу следующий эксперимент:
1. Задаю параметры:
- вер-сть конверсии (успеха),
- разница в конверсии двух групп,
,
3. Считаю необходимый объем выборки по формуле => получаю
2. Генерирую датасет из нулей и единиц размера
, где
- вер-сть единицы
3. Генерирую второй датасет размера
, где
- вер-сть единицы
4. Вычисляю
разницы средних первой и второй группы
5. Повторяю шаги 2-4 100к раз, считаю в каком проценте случаев полученное
меньше заданного
=> таким образом получаю "эмпирическую" мощность теста
Проблема в том, что мощность, полученная на 5м шаге, больше той, которую я задавал на шаге 1 при расчете объема выборки
Подскажите пожалуйста, в чем ошибка
Код эксперимента можно посмотреть в ноутбуке
https://colab.research.google.com/drive/1Ug8Iv4U5BT5rOE0-6V90VXjqOLuzKc9x?usp=sharing