Как определить статзначимость и величину sales uplift?

melnikoff · 12.12.2022, 22:49

Имеются равновеликие группы юзеров: тестовая и контрольная. Тестовой группе мы показываем рекламу товара, а в контрольной группе – нет.
По итогу рекламной кампании имеем, например, что конверсия в тестовой группе равна 1.1%, а в контрольной группе – 1%.
Возникает три вопроса:
1. Каким образом оценить вероятность (статзначимость), что разница в конверсиях не случайна, а определена фактом показа рекламы в тестовой группе?
2. Правильно ли считать (в случае подтверждения статзначимости различий), что наше воздействие (показ рекламы) вызвало повышение конверсии на 0.1 пп ?
3. Как получить распределение вероятностей по дельте – значениям пп, на которые повышается конверсия в тестовой группе?

Мои размышления:
1. Если бы мы смотрели на индивидуальную метрику юзера, например, на время проведенное на сайте, то можно было бы сформулировать нулевую гипотезу о том, что распределения в тестовой и контрольной группах имеют равное математическое ожидание. Затем расcчитать p-value. И если $\text{p-value} < \alpha$ , то отклоняем нулевую гипотезу в пользу альтернативной.
Но тут проблема в том, что конверсия – это отношение кол-ва всех продаж к кол-ву всех показов. То есть, конверсия – это не индивидуальная метрика юзера. Конверсия характеризует в нашем эксперименте всю группу в целом. Как быть в такой ситуации?
Есть идея, что мы можем нагенерить случайных равновеликих выборок юзеров из каждой группы, рассчитать конверсию для каждой выборки и построить распределение конверсий для каждой группы. После этого мы сможем рассчитать p-value. Но я не уверен относительно математической обоснованности данного подхода.
Буду благодарен ссылкам на данную тему. Пока я не нашёл ничего, чтобы полностью разъясняло этот вопрос.
2. Вряд ли в моём примере 0.1 пп – это математическое ожидание uplift-а. По идее, нужно получить распределение вероятностей по пп, и уже из него мы сможешь рассчитать и мат.ожидание и 95%-доверительный интервал для мат.ожидания. Тут мы переходим к п.3.
3. Вот тут пока идей нет.

Прошу подсказки и/или ссылок.

Евгений Машеров · 13.12.2022, 06:43

Простейшее предложение - рассматривать бернуллиевские величины.

Doctor Boom · 13.12.2022, 21:08

А сколько человек в группах? От этого будет зависеть ответ

melnikoff · 13.12.2022, 21:50

Doctor Boom в сообщении #1573718 писал(а):

А сколько человек в группах? От этого будет зависеть ответ

Обычно от 1 000 до 100 000.

melnikoff · 13.12.2022, 23:58

Евгений Машеров в сообщении #1573622 писал(а):

Простейшее предложение - рассматривать бернуллиевские величины.

Правильно ли я вас понял?
Считаем, что каждый показ рекламы – это испытание Бернулли. Предполагается, что в тестовой группе вероятность успеха несколько выше, чем в контрольной. Но при этом, они обе неизвестны. Допустим, мы нашли для тестовой и контрольной групп распределения вероятностей по вероятностям (значениям успеха).
Этого нам должно хватить, чтобы
1) рассчитать p-value,
2) построить 95%-доверительные интервалы для $\mathbb{E}[p_1]$ и $\mathbb{E}[p_2]$ и посмотреть как они пересекаются.
Эти два пункта касаются статистической значимости различий. Но остаётся открытым вопрос относительно величины результата воздействия.
Допустим, мы получили два распределения $f_1(x)$ и $f_2(x)$ , $0<x<1$ .
$f_2(x)$ будет смещена правее относительно $f_1(x)$ .
Правильно ли сказать, что вероятность успеха увеличилась на $\mathbb{E}[p_2] - \mathbb{E}[p_1]$ ?

Doctor Boom · 14.12.2022, 03:07

melnikoff в сообщении #1573731 писал(а):

Считаем, что каждый показ рекламы – это испытание Бернулли.

Да, т.е. при показе рекламы всей группы каждый член реагирует (конверсирует) на нее с вероятностью $p$ .

melnikoff в сообщении #1573731 писал(а):

Предполагается, что в тестовой группе вероятность успеха несколько выше, чем в контрольной. Но при этом, они обе неизвестны.

При нулевой гипотезе (которую мы проверяем), они полагаются одинаковыми

melnikoff в сообщении #1573731 писал(а):

Этого нам должно хватить, чтобы
1) рассчитать p-value,
2) построить 95%-доверительные интервалы для $\mathbb{E}[p_1]$ и $\mathbb{E}[p_2]$ и посмотреть как они пересекаются.
Эти два пункта касаются статистической значимости различий.

Да

melnikoff в сообщении #1573731 писал(а):

Эти два пункта касаются статистической значимости различий. Но остаётся открытым вопрос относительно величины результата воздействия.

Я думаю, ее в рамках поставленной задачи нельзя решить. Мы можем найти только сигму доверительного интервала (p-value) в предположении, что показ рекламы ни на что не влияет. И

melnikoff в сообщении #1573607 писал(а):

если $\text{p-value} < \alpha$ , то отклоняем нулевую гипотезу в пользу альтернативной.

Чтобы судить о величине влияния рекламы, нужно провести много таких экспериментов с группами

Евгений Машеров · 14.12.2022, 08:19

melnikoff в сообщении #1573731 писал(а):

Правильно ли я вас понял?

Думается, поняли идею, но в деталях расходимся.
Я бы для начала просто проверял гипотезу, что вероятности в двух группах равны. Обычные тесты.

melnikoff · 14.12.2022, 14:24

Doctor Boom в сообщении #1573739 писал(а):

Чтобы судить о величине влияния рекламы, нужно провести много таких экспериментов с группами

А как это примерно должно выглядеть?
Допустим, мы провели 1000 таких экспериментов, разделив период проведения эксперимента на 1000 последовательных интервалов времени.
Для каждого интервала времени считаем разность конверсий в тестовой и контрольной группах.
Итого, имеем 1000 таких разностей. Строим распределение вероятностей по значениям этих разностей.
Ищем математическое ожидание на этом распределении. Это и будет величина эффекта?
Как-то так или как-то иначе?

Doctor Boom · 14.12.2022, 16:32

melnikoff в сообщении #1573800 писал(а):

А как это примерно должно выглядеть?
Допустим, мы провели 1000 таких экспериментов, разделив период проведения эксперимента на 1000 последовательных интервалов времени.
Для каждого интервала времени считаем разность конверсий в тестовой и контрольной группах.
Итого, имеем 1000 таких разностей. Строим распределение вероятностей по значениям этих разностей.
Ищем математическое ожидание на этом распределении. Это и будет величина эффекта?
Как-то так или как-то иначе?

По сути все так, да :)

Научный форум dxdy

Как определить статзначимость и величину sales uplift?