Нужно ли балансировать выборку

learning_math · 18.04.2021, 22:33

Есть 4 типа товара. Есть записи о покупке каждого товара. Первого товара купили n1, второго - n2, третьего - n3, четвертого - n4.
Есть данные о покупателях.

Вопрос 1.
Надо определить в каждой возрастной группе какой товар чаще покупают.
Я сделал так:
1. Выбрал по n записей о покупке каждого товара.
2. Посчитал сколько товаров каждого типа было куплено в каждой возрастной группе.
3. Нормировал, так что в возрастной группе X сумма была равна 1.
4. Отсортировал по полученным процентам.
Правильно ли я сделал? Или не нужно было балансировать по количеству (пункт 1)?

Вопрос 2.
Проверка о том, что распределения значимо отличаются.
1. Я взял записи о приобретении товара 1 и товара 2.
2. Для каждого товара выбрал по n записей.
3. Взял только графу возраст.
4. С помощью теста Колмогорова-Смирнова проверил гипотезу о том, что распределения одинаковые:
если

p \ge 0.05

значит гипотеза принимается и распределения одинаковые, иначе разные.
5. Повторил тоже самое для Mann-Whitney U Test.
6. Оставил результаты, где тесты дают одинаковый результат.
7. И так повторил для каждой пары товаров.
Сделал вывод, что если для двух товаров распределения одинаковые, то такие товары в каждой возрастной группе покупаются примерно одинаково, а значит нельзя сказать, какого товара в каждой возрастной группе купили больше.
Верно ли я сделал?

Upd:
Целью было определить, влияет ли каждая фича на выбор покупателя. Поэтому также как для возрастов, я посчитал для всех остальных фичей (пол, уровень образования и пр).
Дополнительно я обучил бустинг для классификации купленных товаров. И посчитал feature_importance.
Бустинг показал, что все фичи влияют на выбор покупателя.

pkunlim · 26.04.2021, 22:48

Честно говоря, не совсем верно, если говорить о "балансировании" по количеству, то это по сути есть попытка учесть, что разный тип товаров имеет разную частоту не зависимо от возраста, пола и т.д. и учесть это, либо скорректировать смещенность выборки. В таком случае выглядит разумным использование панельной регрессии с фиксированными эффектами и всеми независимыми параметрами(пол, возраст и т.д.), тем более, что это даст ответ на конечные вопросы о влиянии факторов, а также при соблюдении ряда условий даст наилучшую оценку в классе.
Конечно, нужно будет правильно определить спецификацию модели, чтобы избежать мультиколлинераности, например, или включения излишних факторов, что снижает количество степеней свободы.
Более подробно основы можно почитать в Ратникова Т.А. "Введение в эконометрический анализ панельных данных".

Относительно вопроса 2 не ясно, распределения чего именно отличаются. Распределения по частоте покупок товаров разных категорий, или распределения покупок заданных категорий товаров разными группами людей и т.д. В любом случае, здесь нужно явное разделение на группы, которые сравниваются: покупки по категориям товаров в целом, покупки по возрасту в рамках одной категории и т.д.. Также не ясно, что подразумевается здесь под различием распределений. Если речь о различии в мат. ожидании - это одно, различии дисперсии - другое, различие в целом природы, вероятностей распределения - это третье. Для начала неплохо бы просто по группам построить частотные гистограммы и оценить визуально, похожи ли распределения самих вероятностей.

P.S. в чем-то могу быть не прав, поправят.

-- 27.04.2021, 00:58 --

Последнее, что касается алгоритма классификации, каким бы он ни был у Вас. В Вашем случае я бы лучше пользовался параметрическими методами, поскольку это возможно, факторы, вероятно, имеют нормальное распределение (такие как пол, возраст и т.д.), и при соблюдении ряда условий это дает суперсостоятельные эффективные оценки.

Научный форум dxdy

Нужно ли балансировать выборку