2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Как определить статзначимость и величину sales uplift?
Сообщение12.12.2022, 22:49 


02/04/13
294
Имеются равновеликие группы юзеров: тестовая и контрольная. Тестовой группе мы показываем рекламу товара, а в контрольной группе – нет.
По итогу рекламной кампании имеем, например, что конверсия в тестовой группе равна 1.1%, а в контрольной группе – 1%.
Возникает три вопроса:
1. Каким образом оценить вероятность (статзначимость), что разница в конверсиях не случайна, а определена фактом показа рекламы в тестовой группе?
2. Правильно ли считать (в случае подтверждения статзначимости различий), что наше воздействие (показ рекламы) вызвало повышение конверсии на 0.1 пп ?
3. Как получить распределение вероятностей по дельте – значениям пп, на которые повышается конверсия в тестовой группе?

Мои размышления:
1. Если бы мы смотрели на индивидуальную метрику юзера, например, на время проведенное на сайте, то можно было бы сформулировать нулевую гипотезу о том, что распределения в тестовой и контрольной группах имеют равное математическое ожидание. Затем расcчитать p-value. И если $\text{p-value} < \alpha$, то отклоняем нулевую гипотезу в пользу альтернативной.
Но тут проблема в том, что конверсия – это отношение кол-ва всех продаж к кол-ву всех показов. То есть, конверсия – это не индивидуальная метрика юзера. Конверсия характеризует в нашем эксперименте всю группу в целом. Как быть в такой ситуации?
Есть идея, что мы можем нагенерить случайных равновеликих выборок юзеров из каждой группы, рассчитать конверсию для каждой выборки и построить распределение конверсий для каждой группы. После этого мы сможем рассчитать p-value. Но я не уверен относительно математической обоснованности данного подхода.
Буду благодарен ссылкам на данную тему. Пока я не нашёл ничего, чтобы полностью разъясняло этот вопрос.
2. Вряд ли в моём примере 0.1 пп – это математическое ожидание uplift-а. По идее, нужно получить распределение вероятностей по пп, и уже из него мы сможешь рассчитать и мат.ожидание и 95%-доверительный интервал для мат.ожидания. Тут мы переходим к п.3.
3. Вот тут пока идей нет.

Прошу подсказки и/или ссылок.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 06:43 
Заслуженный участник
Аватара пользователя


11/03/08
10024
Москва
Простейшее предложение - рассматривать бернуллиевские величины.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 21:08 
Аватара пользователя


22/07/22

897
А сколько человек в группах? От этого будет зависеть ответ

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 21:50 


02/04/13
294
Doctor Boom в сообщении #1573718 писал(а):
А сколько человек в группах? От этого будет зависеть ответ

Обычно от 1 000 до 100 000.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 23:58 


02/04/13
294
Евгений Машеров в сообщении #1573622 писал(а):
Простейшее предложение - рассматривать бернуллиевские величины.

Правильно ли я вас понял?
Считаем, что каждый показ рекламы – это испытание Бернулли. Предполагается, что в тестовой группе вероятность успеха несколько выше, чем в контрольной. Но при этом, они обе неизвестны. Допустим, мы нашли для тестовой и контрольной групп распределения вероятностей по вероятностям (значениям успеха).
Этого нам должно хватить, чтобы
1) рассчитать p-value,
2) построить 95%-доверительные интервалы для $\mathbb{E}[p_1]$ и $\mathbb{E}[p_2]$ и посмотреть как они пересекаются.
Эти два пункта касаются статистической значимости различий. Но остаётся открытым вопрос относительно величины результата воздействия.
Допустим, мы получили два распределения $f_1(x)$ и $f_2(x)$, $0<x<1$.
$f_2(x)$ будет смещена правее относительно $f_1(x)$.
Правильно ли сказать, что вероятность успеха увеличилась на $\mathbb{E}[p_2] - \mathbb{E}[p_1]$ ?

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 03:07 
Аватара пользователя


22/07/22

897
melnikoff в сообщении #1573731 писал(а):
Считаем, что каждый показ рекламы – это испытание Бернулли.

Да, т.е. при показе рекламы всей группы каждый член реагирует (конверсирует) на нее с вероятностью $p$.
melnikoff в сообщении #1573731 писал(а):
Предполагается, что в тестовой группе вероятность успеха несколько выше, чем в контрольной. Но при этом, они обе неизвестны.

При нулевой гипотезе (которую мы проверяем), они полагаются одинаковыми
melnikoff в сообщении #1573731 писал(а):
Этого нам должно хватить, чтобы
1) рассчитать p-value,
2) построить 95%-доверительные интервалы для $\mathbb{E}[p_1]$ и $\mathbb{E}[p_2]$ и посмотреть как они пересекаются.
Эти два пункта касаются статистической значимости различий.

Да
melnikoff в сообщении #1573731 писал(а):
Эти два пункта касаются статистической значимости различий. Но остаётся открытым вопрос относительно величины результата воздействия.

Я думаю, ее в рамках поставленной задачи нельзя решить. Мы можем найти только сигму доверительного интервала (p-value) в предположении, что показ рекламы ни на что не влияет. И
melnikoff в сообщении #1573607 писал(а):
если $\text{p-value} < \alpha$, то отклоняем нулевую гипотезу в пользу альтернативной.

Чтобы судить о величине влияния рекламы, нужно провести много таких экспериментов с группами

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 08:19 
Заслуженный участник
Аватара пользователя


11/03/08
10024
Москва
melnikoff в сообщении #1573731 писал(а):
Правильно ли я вас понял?


Думается, поняли идею, но в деталях расходимся.
Я бы для начала просто проверял гипотезу, что вероятности в двух группах равны. Обычные тесты.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 14:24 


02/04/13
294
Doctor Boom в сообщении #1573739 писал(а):
Чтобы судить о величине влияния рекламы, нужно провести много таких экспериментов с группами

А как это примерно должно выглядеть?
Допустим, мы провели 1000 таких экспериментов, разделив период проведения эксперимента на 1000 последовательных интервалов времени.
Для каждого интервала времени считаем разность конверсий в тестовой и контрольной группах.
Итого, имеем 1000 таких разностей. Строим распределение вероятностей по значениям этих разностей.
Ищем математическое ожидание на этом распределении. Это и будет величина эффекта?
Как-то так или как-то иначе?

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 16:32 
Аватара пользователя


22/07/22

897
melnikoff в сообщении #1573800 писал(а):
А как это примерно должно выглядеть?
Допустим, мы провели 1000 таких экспериментов, разделив период проведения эксперимента на 1000 последовательных интервалов времени.
Для каждого интервала времени считаем разность конверсий в тестовой и контрольной группах.
Итого, имеем 1000 таких разностей. Строим распределение вероятностей по значениям этих разностей.
Ищем математическое ожидание на этом распределении. Это и будет величина эффекта?
Как-то так или как-то иначе?

По сути все так, да :)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group