"Переобучение" в оценивании регрессии и оценка значимости

_hum_ · 23/12/07 1757

Раньше близко не сталкивался с задачей регрессии, потому придерживался когда-то услышанного тезиса, что классический подход к оцениванию регрессии страдает эффектом "переобучения", от которого нельзя избавиться без привлечения дополнительных данных (будь то другая выборка для кросс-валидации, либо другие предположения относительно модели).
Сейчас же, познакомившись ближе с решением задачи регрессии, узнал, что помимо поиска точечных оценок для параметров регрессионной модели предполагается еще и выполнение тестирования этих параметров на статистическую значимость. Из простых примеров, что удалось накидать (см. ниже), вижу, что у переобученной модели параметры оказываются с низкой значимостью, и наоборот. В связи с этим вопрос: я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

dsge · 05/08/14 1564

_hum_ в сообщении #1355234 писал(а):

вижу, что у переобученной модели параметры оказываются с низкой значимостью, и наоборот. В связи с этим вопрос: я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

Если употреблять "человеческий" статистический язык, то значимость-незначимость коэффициентов в регрессии определяется стандартным отклонением оценки, которая зависит от числа степеней свободы статистики, которая грубо говоря является разностью между числом наблюдений и числом коэффициентов в регрессии.

_hum_ · 23/12/07 1757

dsge
не понял Вашу мысль. Можно немного подробнее?

dsge · 05/08/14 1564

_hum_ в сообщении #1355236 писал(а):

не понял Вашу мысль. Можно немного подробнее?

Не понял, что именно непонятного.
Незначимость коэффициентов регрессии прямо следует из малости числа степеней свободы. Т.е. даже если мы знаем истинную регрессию, но разница между числом наблюдений и коэффициентов мала, то оценка может показать незначимость из-за большой ошибки оценки.

_hum_ · 23/12/07 1757

dsge

я не понял, это Вы отвечаете на мой вопрос

_hum_ в сообщении #1355234 писал(а):

я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

или пытаетесь навести меня на каукую-то другую мысль.
Если первое, то можно все-таки озвучить, наподобие - нет, с переобучением нельзя бороться анализом значимости параметров, потому что то-то и то-то. Или, да, можно бороться, потому что то-то и то-то.
Если же же второе, то тоже что-нибудь наподобие, обратите внимание на то, что то-то и то-то, откуда вытекает то-то и то-то.

dsge в сообщении #1355245 писал(а):

Незначимость коэффициентов регрессии прямо следует из малости числа степеней свободы

В моем примере для квадратичной модели коэффициент при квадрате имел уже очень малую значимость = 1 - 0.92, хотя степеней свободы оставалось еще достаточно много.

dsge · 05/08/14 1564

_hum_ в сообщении #1355258 писал(а):

я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

Анализ значимости или незначимости параметров в классической регрессии не может само по себе помочь бороться с оверфиттингом (переобучением). Но есть современные подходы типа метода lasso, где эта проблема решается с помощью алгоритма, который обнуляет большинство параметров или делает их малыми (незначимыми). Байесовская регрессия тоже может помочь в решении проблемы.

_hum_ в сообщении #1355258 писал(а):

В моем примере

На картинках ничего не видно.

_hum_ · 23/12/07 1757

dsge в сообщении #1355281 писал(а):

Анализ значимости или незначимости параметров в классической регрессии не может само по себе помочь бороться с оверфиттингом (переобучением).

А можно с обоснованием?

dsge в сообщении #1355281 писал(а):

Но есть современные подходы типа метода lasso, где эта проблема решается с помощью алгоритма, который обнуляет большинство параметров или делает их малыми (незначимыми). Байесовская регрессия тоже может помочь в решении проблемы.

да, но здесь уже начинают использоваться доп. предположения о модели (lasso предполагает априорное лапласовское распределение для параметров).

dsge в сообщении #1355281 писал(а):

На картинках ничего не видно.

вот еще такой вариант:
pic 1
pic 2
pic 3

dsge · 05/08/14 1564

В классической регресии существует проблема выбора наилучшей регрессии. Например, когда число подходящих регрессоров превосходит число наблюдений. Возможны разные подходы включения а регрессию значимых регрессоров и/или исключения незначимых - stepwise regression или general-to-specific approach. В последнем случая включаются как можно больше регрессоров после чего отбрасываются наименее значимые. Обычно такие процедуры включены в стандартный софт. Возможно, это связано как-то с вашими проблемами.

-- 20.11.2018, 00:50 --

_hum_ в сообщении #1355307 писал(а):

здесь уже начинают использоваться доп. предположения о модели (lasso предполагает априорное лапласовское распределение для параметров).

Предположение о лапласовости коэффициентов необходимо только для байесовской трактовки лассо - и то и другое дают один результат. Для лассо само по себе такое предположение не нужно, это просто просто процедура минимизации суммы квадратов остатков плюс некоторая норма в пространстве параметров.

А для полиномиальной регрессии незначимость коэффициентов обусловлена высокой корреляцией между регрессорами.

На практике, часто, статистики просто отбрасывают переменные с незначимыми параметрами.

Евгений Машеров · 11/03/08 9541 Москва

Ну вот при сильно коррелированных переменных они оказываются незначимы. При том, что для объяснения важны.

Евгений Машеров · 11/03/08 9541 Москва

"Лассо" основано на штрафе за лишние коэффициенты. Только куда более просто реализуемая идея квадратичного штрафа приводит к ридж-регрессии, в которой не зануляется часть коэффициентов, а равномерно снижаются все. Штраф в виде абсолютной величины позволяет обыграть некоторые свойства линейного программирования, и "лишние" коэффициенты делаются нулевыми. При этом оценки по минимуму абсолютной величины оказываются максимально правдоподобными, если распределение двойное Лапласа. А как эмпирический приём "лассо" работает и для других распределений.

Научный форум dxdy

Правила форума

"Переобучение" в оценивании регрессии и оценка значимости

Кто сейчас на конференции