Последний раз редактировалось Ghost_of_past 15.07.2025, 19:45, всего редактировалось 3 раз(а).
Доброго всем дня!
Вкратце опишу исследовательскую задачу, с которой сейчас работаю. По ряду стран с подробной статистикой есть временные ряды данных долей женщин с разным числом детей (бездетные, однодетные, двухдетные, трехдетные, четверо и более детей), т.е. так называемый parity.
Необходимо было оценить вклад разных долей женщин в общую динамику рождаемости реальных и условных поколений, и для этого по рекомендациям из ранее проводимых исследований были построены модели гребневой регрессии для каждой страны для каждого parity, чтобы бороться с мультиколлинеарностью. Данные обработаны, по всем моделям получены коэффициенты детерминации. Применение LASSO-регрессии коэффициенты детерминации существенно не изменило, поэтому работаю далее именно с гребневкой.
Далее нужно провести такую кластеризацию, чтобы понять влияние какого/каких parity для каждой страны было решающим. Непонятно, каким методом кластеризации тут лучше воспользоваться. Вроде бы для гребневки и LASSO часто применяют метод Уорда, т.к. это агломеративный метод с хорошими возможностями для визуализации, что позволяет строить приличную иерархическую дендрограмму, но у метода есть минусы, связанные с чувствительностью к выбросам (а они точно есть) и использованием силуэтных коэффициентов для определения наиболее вероятного числа кластеров (ну или же число кластеров надо прикинуть на глазок, что не очень легко, т.к. 37 стран и на каждую по 5 гребневых моделей по числу parity - плюс будет отдельно делаться кластеризация для реальных поколений и отдельно для условных).
Какие еще плюсы и минусы есть у метода Уорда? И стоит ли им всё-таки пользоваться? Если скорее не стоит, то какой или какие альтернативные методы кластеризации лучше подойдут в данном случае тогда?
|