2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Как определить статзначимость и величину sales uplift?
Сообщение12.12.2022, 22:49 


02/04/13
294
Имеются равновеликие группы юзеров: тестовая и контрольная. Тестовой группе мы показываем рекламу товара, а в контрольной группе – нет.
По итогу рекламной кампании имеем, например, что конверсия в тестовой группе равна 1.1%, а в контрольной группе – 1%.
Возникает три вопроса:
1. Каким образом оценить вероятность (статзначимость), что разница в конверсиях не случайна, а определена фактом показа рекламы в тестовой группе?
2. Правильно ли считать (в случае подтверждения статзначимости различий), что наше воздействие (показ рекламы) вызвало повышение конверсии на 0.1 пп ?
3. Как получить распределение вероятностей по дельте – значениям пп, на которые повышается конверсия в тестовой группе?

Мои размышления:
1. Если бы мы смотрели на индивидуальную метрику юзера, например, на время проведенное на сайте, то можно было бы сформулировать нулевую гипотезу о том, что распределения в тестовой и контрольной группах имеют равное математическое ожидание. Затем расcчитать p-value. И если $\text{p-value} < \alpha$, то отклоняем нулевую гипотезу в пользу альтернативной.
Но тут проблема в том, что конверсия – это отношение кол-ва всех продаж к кол-ву всех показов. То есть, конверсия – это не индивидуальная метрика юзера. Конверсия характеризует в нашем эксперименте всю группу в целом. Как быть в такой ситуации?
Есть идея, что мы можем нагенерить случайных равновеликих выборок юзеров из каждой группы, рассчитать конверсию для каждой выборки и построить распределение конверсий для каждой группы. После этого мы сможем рассчитать p-value. Но я не уверен относительно математической обоснованности данного подхода.
Буду благодарен ссылкам на данную тему. Пока я не нашёл ничего, чтобы полностью разъясняло этот вопрос.
2. Вряд ли в моём примере 0.1 пп – это математическое ожидание uplift-а. По идее, нужно получить распределение вероятностей по пп, и уже из него мы сможешь рассчитать и мат.ожидание и 95%-доверительный интервал для мат.ожидания. Тут мы переходим к п.3.
3. Вот тут пока идей нет.

Прошу подсказки и/или ссылок.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 06:43 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
Простейшее предложение - рассматривать бернуллиевские величины.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 21:08 
Аватара пользователя


22/07/22

897
А сколько человек в группах? От этого будет зависеть ответ

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 21:50 


02/04/13
294
Doctor Boom в сообщении #1573718 писал(а):
А сколько человек в группах? От этого будет зависеть ответ

Обычно от 1 000 до 100 000.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение13.12.2022, 23:58 


02/04/13
294
Евгений Машеров в сообщении #1573622 писал(а):
Простейшее предложение - рассматривать бернуллиевские величины.

Правильно ли я вас понял?
Считаем, что каждый показ рекламы – это испытание Бернулли. Предполагается, что в тестовой группе вероятность успеха несколько выше, чем в контрольной. Но при этом, они обе неизвестны. Допустим, мы нашли для тестовой и контрольной групп распределения вероятностей по вероятностям (значениям успеха).
Этого нам должно хватить, чтобы
1) рассчитать p-value,
2) построить 95%-доверительные интервалы для $\mathbb{E}[p_1]$ и $\mathbb{E}[p_2]$ и посмотреть как они пересекаются.
Эти два пункта касаются статистической значимости различий. Но остаётся открытым вопрос относительно величины результата воздействия.
Допустим, мы получили два распределения $f_1(x)$ и $f_2(x)$, $0<x<1$.
$f_2(x)$ будет смещена правее относительно $f_1(x)$.
Правильно ли сказать, что вероятность успеха увеличилась на $\mathbb{E}[p_2] - \mathbb{E}[p_1]$ ?

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 03:07 
Аватара пользователя


22/07/22

897
melnikoff в сообщении #1573731 писал(а):
Считаем, что каждый показ рекламы – это испытание Бернулли.

Да, т.е. при показе рекламы всей группы каждый член реагирует (конверсирует) на нее с вероятностью $p$.
melnikoff в сообщении #1573731 писал(а):
Предполагается, что в тестовой группе вероятность успеха несколько выше, чем в контрольной. Но при этом, они обе неизвестны.

При нулевой гипотезе (которую мы проверяем), они полагаются одинаковыми
melnikoff в сообщении #1573731 писал(а):
Этого нам должно хватить, чтобы
1) рассчитать p-value,
2) построить 95%-доверительные интервалы для $\mathbb{E}[p_1]$ и $\mathbb{E}[p_2]$ и посмотреть как они пересекаются.
Эти два пункта касаются статистической значимости различий.

Да
melnikoff в сообщении #1573731 писал(а):
Эти два пункта касаются статистической значимости различий. Но остаётся открытым вопрос относительно величины результата воздействия.

Я думаю, ее в рамках поставленной задачи нельзя решить. Мы можем найти только сигму доверительного интервала (p-value) в предположении, что показ рекламы ни на что не влияет. И
melnikoff в сообщении #1573607 писал(а):
если $\text{p-value} < \alpha$, то отклоняем нулевую гипотезу в пользу альтернативной.

Чтобы судить о величине влияния рекламы, нужно провести много таких экспериментов с группами

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 08:19 
Заслуженный участник
Аватара пользователя


11/03/08
9904
Москва
melnikoff в сообщении #1573731 писал(а):
Правильно ли я вас понял?


Думается, поняли идею, но в деталях расходимся.
Я бы для начала просто проверял гипотезу, что вероятности в двух группах равны. Обычные тесты.

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 14:24 


02/04/13
294
Doctor Boom в сообщении #1573739 писал(а):
Чтобы судить о величине влияния рекламы, нужно провести много таких экспериментов с группами

А как это примерно должно выглядеть?
Допустим, мы провели 1000 таких экспериментов, разделив период проведения эксперимента на 1000 последовательных интервалов времени.
Для каждого интервала времени считаем разность конверсий в тестовой и контрольной группах.
Итого, имеем 1000 таких разностей. Строим распределение вероятностей по значениям этих разностей.
Ищем математическое ожидание на этом распределении. Это и будет величина эффекта?
Как-то так или как-то иначе?

 Профиль  
                  
 
 Re: Как определить статзначимость и величину sales uplift?
Сообщение14.12.2022, 16:32 
Аватара пользователя


22/07/22

897
melnikoff в сообщении #1573800 писал(а):
А как это примерно должно выглядеть?
Допустим, мы провели 1000 таких экспериментов, разделив период проведения эксперимента на 1000 последовательных интервалов времени.
Для каждого интервала времени считаем разность конверсий в тестовой и контрольной группах.
Итого, имеем 1000 таких разностей. Строим распределение вероятностей по значениям этих разностей.
Ищем математическое ожидание на этом распределении. Это и будет величина эффекта?
Как-то так или как-то иначе?

По сути все так, да :)

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 9 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Rex2024


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group