2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 18:56 


23/12/07
1763
Раньше близко не сталкивался с задачей регрессии, потому придерживался когда-то услышанного тезиса, что классический подход к оцениванию регрессии страдает эффектом "переобучения", от которого нельзя избавиться без привлечения дополнительных данных (будь то другая выборка для кросс-валидации, либо другие предположения относительно модели).
Сейчас же, познакомившись ближе с решением задачи регрессии, узнал, что помимо поиска точечных оценок для параметров регрессионной модели предполагается еще и выполнение тестирования этих параметров на статистическую значимость. Из простых примеров, что удалось накидать (см. ниже), вижу, что у переобученной модели параметры оказываются с низкой значимостью, и наоборот. В связи с этим вопрос: я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

Изображение

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 19:05 
Заслуженный участник


05/08/14
1564
_hum_ в сообщении #1355234 писал(а):
вижу, что у переобученной модели параметры оказываются с низкой значимостью, и наоборот. В связи с этим вопрос: я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

Если употреблять "человеческий" статистический язык, то значимость-незначимость коэффициентов в регрессии определяется стандартным отклонением оценки, которая зависит от числа степеней свободы статистики, которая грубо говоря является разностью между числом наблюдений и числом коэффициентов в регрессии.

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 19:06 


23/12/07
1763
dsge
не понял Вашу мысль. Можно немного подробнее?

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 19:31 
Заслуженный участник


05/08/14
1564
_hum_ в сообщении #1355236 писал(а):
не понял Вашу мысль. Можно немного подробнее?

Не понял, что именно непонятного.
Незначимость коэффициентов регрессии прямо следует из малости числа степеней свободы. Т.е. даже если мы знаем истинную регрессию, но разница между числом наблюдений и коэффициентов мала, то оценка может показать незначимость из-за большой ошибки оценки.

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 20:08 


23/12/07
1763
dsge

я не понял, это Вы отвечаете на мой вопрос
_hum_ в сообщении #1355234 писал(а):
я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

или пытаетесь навести меня на каукую-то другую мысль.
Если первое, то можно все-таки озвучить, наподобие - нет, с переобучением нельзя бороться анализом значимости параметров, потому что то-то и то-то. Или, да, можно бороться, потому что то-то и то-то.
Если же же второе, то тоже что-нибудь наподобие, обратите внимание на то, что то-то и то-то, откуда вытекает то-то и то-то.

dsge в сообщении #1355245 писал(а):
Незначимость коэффициентов регрессии прямо следует из малости числа степеней свободы

В моем примере для квадратичной модели коэффициент при квадрате имел уже очень малую значимость = 1 - 0.92, хотя степеней свободы оставалось еще достаточно много.

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 22:02 
Заслуженный участник


05/08/14
1564
_hum_ в сообщении #1355258 писал(а):
я чего-то недопонимаю, или действительно, с переобучением можно бороться метод анализа значимости параметров модели?

Анализ значимости или незначимости параметров в классической регрессии не может само по себе помочь бороться с оверфиттингом (переобучением). Но есть современные подходы типа метода lasso, где эта проблема решается с помощью алгоритма, который обнуляет большинство параметров или делает их малыми (незначимыми). Байесовская регрессия тоже может помочь в решении проблемы.
_hum_ в сообщении #1355258 писал(а):
В моем примере

На картинках ничего не видно.

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение19.11.2018, 23:23 


23/12/07
1763
dsge в сообщении #1355281 писал(а):
Анализ значимости или незначимости параметров в классической регрессии не может само по себе помочь бороться с оверфиттингом (переобучением).

А можно с обоснованием?

dsge в сообщении #1355281 писал(а):
Но есть современные подходы типа метода lasso, где эта проблема решается с помощью алгоритма, который обнуляет большинство параметров или делает их малыми (незначимыми). Байесовская регрессия тоже может помочь в решении проблемы.

да, но здесь уже начинают использоваться доп. предположения о модели (lasso предполагает априорное лапласовское распределение для параметров).

dsge в сообщении #1355281 писал(а):
На картинках ничего не видно.

вот еще такой вариант:
pic 1
pic 2
pic 3

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение20.11.2018, 00:45 
Заслуженный участник


05/08/14
1564
В классической регресии существует проблема выбора наилучшей регрессии. Например, когда число подходящих регрессоров превосходит число наблюдений. Возможны разные подходы включения а регрессию значимых регрессоров и/или исключения незначимых - stepwise regression или general-to-specific approach. В последнем случая включаются как можно больше регрессоров после чего отбрасываются наименее значимые. Обычно такие процедуры включены в стандартный софт. Возможно, это связано как-то с вашими проблемами.

-- 20.11.2018, 00:50 --

_hum_ в сообщении #1355307 писал(а):
здесь уже начинают использоваться доп. предположения о модели (lasso предполагает априорное лапласовское распределение для параметров).

Предположение о лапласовости коэффициентов необходимо только для байесовской трактовки лассо - и то и другое дают один результат. Для лассо само по себе такое предположение не нужно, это просто просто процедура минимизации суммы квадратов остатков плюс некоторая норма в пространстве параметров.

А для полиномиальной регрессии незначимость коэффициентов обусловлена высокой корреляцией между регрессорами.

На практике, часто, статистики просто отбрасывают переменные с незначимыми параметрами.

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение20.11.2018, 12:04 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
Ну вот при сильно коррелированных переменных они оказываются незначимы. При том, что для объяснения важны.

 Профиль  
                  
 
 Re: "Переобучение" в оценивании регрессии и оценка значимости
Сообщение20.11.2018, 14:43 
Заслуженный участник
Аватара пользователя


11/03/08
10047
Москва
"Лассо" основано на штрафе за лишние коэффициенты. Только куда более просто реализуемая идея квадратичного штрафа приводит к ридж-регрессии, в которой не зануляется часть коэффициентов, а равномерно снижаются все. Штраф в виде абсолютной величины позволяет обыграть некоторые свойства линейного программирования, и "лишние" коэффициенты делаются нулевыми. При этом оценки по минимуму абсолютной величины оказываются максимально правдоподобными, если распределение двойное Лапласа. А как эмпирический приём "лассо" работает и для других распределений.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 10 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: Bing [bot]


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group