Одной из предпосылок линейной регрессии является нормальное распределение переменных.
в моём случае гипотеза нормальности существенно нарушена, поэтому качество модели оценивалось по контрольной выборке, путём оценки корреляции прогнозных и фактических значений объясняемой переменной.
С помощью обычного МНК я получил на обучающей выборке
, а на контрольной выборке
, что соответствует
. В общем можно считать, что регрессия незначима.
Учитывая такое большое расхождение внутреннего и внешнего критериев качества модели, сам самой напрашивается вывод о несостоятельности внутреннего критерия.
Возникла идея применить нелинейную трансформацию исходных данных, чтобы удовлетворить предпосылкам МНК, или хотя бы к ним приблизиться. Применив преобразование Бокса-Кокса, которое часто рекомендуется для этик целей мне удалось полностью нормализовать распределения всех факторов (по трём наиболее точным критериям их распределения неотличимы от нормального). После этого я снова попытался построить регрессию на новых факторах.
Результат меня немного удивил. На обучающей выборке значение коэффициента детерминации почти не изменилось, т.е. осталось на уровне 0.5, зато на контрольной выборке корреляция упала до нуля (получалась даже с отрицательным знаком). Подумал - может где ошибся, изменил показатель степени на единицу и получил в точности свой первоначальный результат. Т.е. ошибки в алгоритме никакой видимо нет, и именно нормализующая трансформация ухудшает прогностическую способность модели. Причём, попреки всем ожиданиям, ухудшает очень сильно.
Может ли кто ни будь объяснить в чём причина таких результатов? Ведь нелинейная трансформация судя по её предназначению должна улучшать модель, по крайней мере, в плане состоятельности внутреннего критерия. Я бы понял если после трансформации
уменьшился и стал более объективным показателем качества модели (собственно этого я и ожидал), но он то как раз не изменился, а вместо этого уменьшилась корреляция на контрольной выборке.