Почему мне не нравится идея регрессии на главные компоненты. Вот простой пример, в котором она отчётливо не работает (и априори узнать, тот ли случай, когда она полезна, или же не работает - не могу).
Зависимая переменная равна разности двух регрессоров, слегка отягощённой шумом
, причём регрессоры сильно положительно коррелированы (для конкретизации примера - исследуется зависимость прибыли некоего предприятия от дохода и расхода, меняющихся почти синхронно в зависимости от колебаний объёма продаж, то есть правильные коэффициенты
и
, но исследователю доступны только сами данные, а не экономическая их интерпретация, позволившая бы обойтись без статистического анализа).
В численном примере корреляция между регрессорами 99.6%, между регрессорами и регрессандом 2.5% и 6.8% соответственно. То есть отбрасывание одного из регрессоров даёт очень плохо объясняющую модель. Включение обоих даёт коэффициенты (для первого и второго регрессоров; свободный член опускаю) 10.6 и -11, явно бессмысленные.
Ридж-регрессия даёт, при изменении ридж-параметра k
Код:
k a1 a2
0.001 8.65 -8.7
...
0.01 3.22 -3.2
0.02 1.89 -1.9
0.03 1.34 -1.4
0.04 1.03 -1.1
0.05 0.843 -0.86
...
0.1 0.434 -0.45
То есть, варьируя его, получаем разумное значение (при
), но проблема в том, что узнать, какое из них разумное, мы не можем.
Построим главные компоненты. Собственные значения для них равны 1.99565 и .004354, то есть следует отбросить вторую, оставив лишь первую.
Нагрузки для них
Код:
0.500545171 10.7159015
0.500545171 -10.7159015
То есть мы получаем бессмысленную модель регрессии на сумму (полусумму, непринципиально) регрессоров, причём первая компонента, так полученная, имеет корреляцию с регрессандом 2.1%, меньше, чем каждая переменная в отдельности, а вторая, отброшенная, компонента, имела при жизни корреляцию 99.35%
Если же мы бы взяли лишь вторую компоненту, то коэффициенты модели были бы весьма близки к "истинным" - 1.02 и -1.02. Но идеология регрессии на главные компоненты требует отбрасывания именно её, как объясняющей лишь малую часть дисперсии регрессоров.
В предлагавшейся мною модели не была бы отброшена ни одна компонента, однако они получили бы веса (собственно, веса, равные единице, это "полностью включена", а нулю - "полностью исключена", но они таких значений в реальности не принимают, хотя могут быть близки, в данном случае первая получит вес около одной тысячной, а вторая примерно 0.999). Веса определяются не собственными значениями корреляционной матрицы, а тем, насколько компоненты скоррелированы с регрессандом (зависимой переменной).