Есть 4 типа товара. Есть записи о покупке каждого товара. Первого товара купили n1, второго - n2, третьего - n3, четвертого - n4.
Есть данные о покупателях.
Вопрос 1.
Надо определить в каждой возрастной группе какой товар чаще покупают.
Я сделал так:
1. Выбрал по n записей о покупке каждого товара.
2. Посчитал сколько товаров каждого типа было куплено в каждой возрастной группе.
3. Нормировал, так что в возрастной группе X сумма была равна 1.
4. Отсортировал по полученным процентам.
Правильно ли я сделал? Или не нужно было балансировать по количеству (пункт 1)?
Вопрос 2.
Проверка о том, что распределения значимо отличаются.
1. Я взял записи о приобретении товара 1 и товара 2.
2. Для каждого товара выбрал по n записей.
3. Взял только графу возраст.
4. С помощью теста Колмогорова-Смирнова проверил гипотезу о том, что распределения одинаковые:
если
значит гипотеза принимается и распределения одинаковые, иначе разные.
5. Повторил тоже самое для Mann-Whitney U Test.
6. Оставил результаты, где тесты дают одинаковый результат.
7. И так повторил для каждой пары товаров.
Сделал вывод, что если для двух товаров распределения одинаковые, то такие товары в каждой возрастной группе покупаются примерно одинаково, а значит нельзя сказать, какого товара в каждой возрастной группе купили больше.
Верно ли я сделал?
Upd:
Целью было определить, влияет ли каждая фича на выбор покупателя. Поэтому также как для возрастов, я посчитал для всех остальных фичей (пол, уровень образования и пр).
Дополнительно я обучил бустинг для классификации купленных товаров. И посчитал feature_importance.
Бустинг показал, что все фичи влияют на выбор покупателя.