Здравому смыслу противоречит не рост КД при включении дополнительных регрессоров, а применение КД для выбора оптимального числа регрессоров. Дело в том, что он равен доле дисперсии вектора y, "объясняемой регрессорами", по отношению ко всей его дисперсии. Вектор y может быть представлен в виде суммы двух векторов, один из которых лежит в плоскости, натянутой на совокупность регрессоров, второй ортогонален к ней. Добавляя регрессор, мы увеличиваем размерность этой плоскости, и, вообще говоря, длину вектора, который ей принадлежит.
Если в модели
добавить новый, реально ничего не объясняющий регрессор z, то часть вектора ошибки
. до этого ортогональная всем X, но совпадающая по направлению с z, вместо того, чтобы честно определиться, как "видимая невязка модели", воспримется, как "объясняемая моделью", и
вырастет (и, что особо неприятно, у нас появится не только ложный коэффициент при z, но и искажения значений при прочих коэффициентах). Эффект этот не будет иметь места в двух случаях - когда z заведомо ортогонален
(что может быть только искусственно подобрано, вероятность того, что случайная величина будет в точности ортогональна заданной нулевая) и когда z лежит в плоскости, натянутой на X (тогда
не изменится, зато появится мультиколлинеарность, и значения коэффициентов будут теоретически бесконечными, а практически велики и определяться игрой ошибок округления).
Для определения оптимального числа регрессоров предложено несколько подходов. Наряду со скорректированным коэффициентом детерминации (adjusted
, входящим в стандартный набор результатов регрессионных пакетов) и F-отношением (лично мне для решения этой задачи более всего нравится оно, но это "вкусовщина"), имеются также
, информационный критерий Акайке и другие (можно посмотреть у Себера и пр.). Все они основаны на том, что вводится некий "гандикап", компенсирующий фальшивое улучшение при включении ненужных регрессоров, зависящий от их числа. Другой принцип выбора основывается на том, что после построения модели на части данных она проверяется на другой части ("обучающая" и "экзаменационная" выборки), имитируя "проверку теории жизнью". Вариант такой техники - "скользящий экзамен", когда строится модель по всем наблюдениям, кроме одного, по которому и проверяется (здесь возможна вычислительно экономная техника, когда матрица обращается единожды, а для моделей с отбрасыванием одного наблюдения только пересчитывается процедурой, требующей относительно мало операций), причём такая проверка проводится для каждого наблюдения в выборке.