2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Нужно ли балансировать выборку
Сообщение18.04.2021, 22:33 


26/07/20
3
Есть 4 типа товара. Есть записи о покупке каждого товара. Первого товара купили n1, второго - n2, третьего - n3, четвертого - n4.
Есть данные о покупателях.

Вопрос 1.
Надо определить в каждой возрастной группе какой товар чаще покупают.
Я сделал так:
1. Выбрал по n записей о покупке каждого товара.
2. Посчитал сколько товаров каждого типа было куплено в каждой возрастной группе.
3. Нормировал, так что в возрастной группе X сумма была равна 1.
4. Отсортировал по полученным процентам.
Правильно ли я сделал? Или не нужно было балансировать по количеству (пункт 1)?


Вопрос 2.
Проверка о том, что распределения значимо отличаются.
1. Я взял записи о приобретении товара 1 и товара 2.
2. Для каждого товара выбрал по n записей.
3. Взял только графу возраст.
4. С помощью теста Колмогорова-Смирнова проверил гипотезу о том, что распределения одинаковые:
если $p \ge 0.05$ значит гипотеза принимается и распределения одинаковые, иначе разные.
5. Повторил тоже самое для Mann-Whitney U Test.
6. Оставил результаты, где тесты дают одинаковый результат.
7. И так повторил для каждой пары товаров.
Сделал вывод, что если для двух товаров распределения одинаковые, то такие товары в каждой возрастной группе покупаются примерно одинаково, а значит нельзя сказать, какого товара в каждой возрастной группе купили больше.
Верно ли я сделал?

Upd:
Целью было определить, влияет ли каждая фича на выбор покупателя. Поэтому также как для возрастов, я посчитал для всех остальных фичей (пол, уровень образования и пр).
Дополнительно я обучил бустинг для классификации купленных товаров. И посчитал feature_importance.
Бустинг показал, что все фичи влияют на выбор покупателя.

 Профиль  
                  
 
 Re: Нужно ли балансировать выборку
Сообщение26.04.2021, 22:48 


02/04/21
12
Магнитогорск
Честно говоря, не совсем верно, если говорить о "балансировании" по количеству, то это по сути есть попытка учесть, что разный тип товаров имеет разную частоту не зависимо от возраста, пола и т.д. и учесть это, либо скорректировать смещенность выборки. В таком случае выглядит разумным использование панельной регрессии с фиксированными эффектами и всеми независимыми параметрами(пол, возраст и т.д.), тем более, что это даст ответ на конечные вопросы о влиянии факторов, а также при соблюдении ряда условий даст наилучшую оценку в классе.
Конечно, нужно будет правильно определить спецификацию модели, чтобы избежать мультиколлинераности, например, или включения излишних факторов, что снижает количество степеней свободы.
Более подробно основы можно почитать в Ратникова Т.А. "Введение в эконометрический анализ панельных данных".

Относительно вопроса 2 не ясно, распределения чего именно отличаются. Распределения по частоте покупок товаров разных категорий, или распределения покупок заданных категорий товаров разными группами людей и т.д. В любом случае, здесь нужно явное разделение на группы, которые сравниваются: покупки по категориям товаров в целом, покупки по возрасту в рамках одной категории и т.д.. Также не ясно, что подразумевается здесь под различием распределений. Если речь о различии в мат. ожидании - это одно, различии дисперсии - другое, различие в целом природы, вероятностей распределения - это третье. Для начала неплохо бы просто по группам построить частотные гистограммы и оценить визуально, похожи ли распределения самих вероятностей.

P.S. в чем-то могу быть не прав, поправят.

-- 27.04.2021, 00:58 --

Последнее, что касается алгоритма классификации, каким бы он ни был у Вас. В Вашем случае я бы лучше пользовался параметрическими методами, поскольку это возможно, факторы, вероятно, имеют нормальное распределение (такие как пол, возраст и т.д.), и при соблюдении ряда условий это дает суперсостоятельные эффективные оценки.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 2 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group