Покрытие доверительного интервала для ступенчатой регрессии

Andrey_Kireew · 17.08.2018, 12:58

Neytrall в сообщении #1333050 писал(а):

Почему это должно соответствовать какому-то фиксированному интервалу, а не относиться именно к методу в целом? Есть же штрафы AIC и BIC ...

Ну может быть и можно, но я такого не встречал. Если так, то какие свойства метода будет характеризовать cover на Ваш взгляд?

Neytrall в сообщении #1333050 писал(а):

Так почему нельзя рассмотреть исключение переменной как $\hat{\beta}=0$ с интервалом $[0,0]$ ?

Потому что отбрасывание переменной означает наложение ограничения ${\beta}=0$ , можно задать ограничение ${\beta}=5$ - это то же самое. Для ограничения не может быть никакого доверительного интервала. Это понятие применяется только к оценкам, а оценка этого коэффициента может быть получена только при включении в модель соответствующей переменной. Я сразу то не сообразил, но интервал [0,0] не выдерживает никакой критики. Сами посудите, хотябы ориентируясь на формулу для доверительных интервалов Вальда, что нужно для получения интервала [0,0]? Правильно, или $s_e\to 0$ или $N\to \infty$ . Ни того ни другого не наблюдается, так с чего бы ему быть [0,0]. От того, что мы приняли значение ${\beta}=0$ он таким не становится, тем более со 100% вероятностью.

Вот например Ваш вектор истинных параметров, по которому генерируются выборки. (0,0.01,-0.2,0.5,1). Пусть мы приняли $\beta_2=0$ (т.е. выбросили вторую переменную), и получили решение. Что по Вашему доверительный интервал для $\beta_2=0$ [0,0]? Это противоречит действительности. А вот если принять, что он [-0.011, +0.011], то всё хорошо согласуется между собой.

В действительности, для исключённой переменной вообще нельзя определить никакой доверительный интервал, ведь она не входит в уравнение. Отбрасывание переменной не означает [0,0], а означает неопределённость доверительного интервала.
Наверное поэтому все варианты с пропущенной переменной просто не учитываются.

С другой стороны, если рассматривать метод в целом, как Вы предлагаете, а не конкретный доверительной интервал, то отброшенные переменные учитывать наверное можно. Ведь он отбрасывает их не просто так, а на основании каких ни каких, но критериев. Значение истинной переменной тоже должно быть близко к нулю. Но вот доверительный интервал для неё определить не так то просто. Может дело как раз в том, что нельзя точно определить длину интервала. А ведь именно по ней, в конечном итоге, Вы будете сравнивать эффективность разных методов.

Вот тут то и становится понятно, почему доверительный интервал должен быть для всех итераций примерно одинаковый. Иначе как Вы сравните разные методы по длине интервала?

Neytrall · 17.08.2018, 14:20

Сначала, хотел бы выразить признательность за то, что вы уже потратили на меня столько времени. Спасибо.

Andrey_Kireew в сообщении #1333075 писал(а):

С другой стороны, если рассматривать метод в целом, как Вы предлагаете, а не конкретный доверительной интервал, то отброшенные переменные учитывать наверное можно. Ведь он отбрасывает их не просто так, а на основании каких ни каких, но критериев.

Вот именно. Они должны учитываться, поскольку являются таким же конечным результатом какого-либо селективного алгоритма, как и построенный доверительный интервал. Ведь та же ступенчатая регрессия предполагает сначала провести селекцию, и только потом оценку. То есть селекция это часть метода, которая должна влиять и влияет на конечный результат. Опять же, если это основано на AIC, то конечная модель может включать в себя переменные, чьи коэффициенты статистически значимы по p-value<0.157. То есть AIC критерий позволяет построение модели с незначительными переменными (незначительными по выборке, необязательно с реальным $\beta=0$ ). Это часть метода, а значит и исключение переменных это часть метода.

Я не уверен, что это можно назвать "процентом покрытия", скорее что-то вроде "процент попадания", но я уже проводил сотни симуляций и они все показывают, что у селекционных моделей все хорошо в плане покрытия неважными переменными, но есть сильная параболическая просадка в области (0,1], и где-то после 1 или (-1) покрытие становится более-менее нормальным, хоть и не дотягивает до nominal coverage level. Например, я сейчас закончил симуляцию для ступенчатой с AIC при 10,000 итераций и вот результаты (Coverage 1 - исключая выкинутые, Coverage 2 - все итерации):

$\begin{tabular}{сc|c} Coverage 1&Coverage 2& \beta \\ \hline 64.4 & 94 & 0 \\ 65.5 & 94.3 & 0 \\ 66.3 & 94.3 & 0 \\ 62.6 & 93.5 & 0 \\ 64.9 & 10.9 & 0.01 \\ 93.4 & 41.6 & -0.2 \\ 93.8 & 48.2 & 0.5 \\ 94.2 & 93.9 & -0.7 \\ 93.2 & 93.2 & -1 \\ 93.5 & 93.5 & 2.5 \\ \hline \end{tabular}$

Например, переменную с коэффициентом 0.01 ступенчатая регрессия выкидывала 8,322 раза, а из оставшихся 1,678 только 64.9% интервалов содержали 0.01, но по факту, воспользовавшись этим методом, в 89.1% случаев я бы получил либо неверный интервал, либо просто выкинутую переменную.

Andrey_Kireew в сообщении #1333075 писал(а):

Что по Вашему доверительный интервал для $\beta_2=0$ [0,0]? Это противоречит действительности.

Почему же? Метод выкинул переменную, а значит что по его алгоритму и критериям она неважна, хотя другие незначимые или статистически незначимые (для p-value=5%) он вполне может включить в ту же модель. Так почему нельзя предположить, что раз метод выкинул переменную, то он уверен в том, что ее эффект равен 0 с нулевым доверительным интервалом. Доверительный интервал говорит нам о возможном разбросе эффекта, ну а если уж метод выкинул переменную, то тут четкая оценка 0 без разброса, ну или $\widehat{Var}(\hat{\beta})=0$ , а то есть $0\pm1.96\sqrt{0}$ .

Andrey_Kireew в сообщении #1333075 писал(а):

А ведь именно по ней, в конечном итоге, Вы будете сравнивать эффективность разных методов.

Здесь ваша логика совпадает с моей, но как я уже намекал, я сравниваю селекционные методы и методы усреднения моделей. По проценту покрытия, селекционные методы просто неспособны побить методы усреднения и неважно буду я учитывать все итерации или нет (по крайней мере для небольших выборок). Если методы усреднения дают покрытие в районе 93.5-96.4, вне зависимости от величины коэффициента, то селекционные модели дают разное покрытие для каждого коэффициента и это покрытие всегда хуже. Поэтому селекционные модели просто не будут участвовать в дальнейшем сравнение, то есть сравнение средних значений длины будет проходить уже между методами усреднения моделей. Но все же, если высчитывать покрытие метода учитывая все итерации, то мне не очень понятно, как рассчитывать длину даже если она уже не так важна.

Andrey_Kireew · 17.08.2018, 18:58

Neytrall в сообщении #1333092 писал(а):

Почему же? Метод выкинул переменную, а значит что по его алгоритму и критериям она неважна, хотя другие незначимые или статистически незначимые (для p-value=5%) он вполне может включить в ту же модель. Так почему нельзя предположить, что раз метод выкинул переменную, то он уверен в том, что ее эффект равен 0 с нулевым доверительным интервалом. Доверительный интервал говорит нам о возможном разбросе эффекта, ну а если уж метод выкинул переменную, то тут четкая оценка 0 без разброса, ну или $\widehat{Var}(\hat{\beta})=0$ , а то есть $0\pm1.96\sqrt{0}$ .

Предположить можно всё что угодно, но это нужно ещё и обосновать. То что Вы пишите - это не обоснование. Из какой формулы следует, что $\widehat{Var}(\hat{\beta})=0$ ? Этого не может просто быть, как бы Вам не хотелось обратного. У любой реальной оценки есть дисперсия, может маленькая, может большая, но конечная. То, что Вы не знаете как её правильно оценить вовсе не означает, что она равна нулю. Дисперсия оценки стремится к нулю только на бесконечной выборке, независимо от метода оценивания, и только при условии состоятельности этой оценки. Это основы статистики. Вы что ставите их под сомнение?

Судя по таблицам, ни тот не другой способ не приводит к положительным результатам. В первом способе получается оптимистически завышенной точность оценок для малых коэффициентов, а во втором тоже самое, но кроме нулей.
Мне кажется второй способ хуже, так как для значения 0.01 покрытие всего 10% и для значения 0.2 оно только 40%. Выигрыш тут только на нулях.А если коэффициент равен 0.001 то покрытие будет всего 1%? Интересно бы проверить. Вы же понимаете, что реальные коэффициенты строго нулю всё равно не равны и это преимущество на строго нулевых значениях сомнительное.
Первый способ даёт хотя бы однообразные результаты на всех малых значениях.

Но в любом случае, полученные результаты лишь свидетельствуют о том, что теоретические доверительные интервалы для малых коэффициентов неадекватно заужены. Это ни в коем случае не говорит о том, что не адекватен сам метод логистической регрессии. Ведь доверительные интервалы можно вычислять и по другому. Например, для любого метода можно построить bootstrap - доверительные интервалы, и они вполне могут оказаться адекватными.

Получается, Вы будете отсеивать методы лишь на том основании, что не смогли правильно построить для них доверительные интервалы.

Neytrall · 17.08.2018, 21:53

Andrey_Kireew в сообщении #1333157 писал(а):

Вы что ставите их под сомнение?

Это запрещенный прием. :-)

Но вы меня убедили, видимо придется переписать код и все таки увеличить чисто итераций для селекционных методов.

Andrey_Kireew в сообщении #1333157 писал(а):

Это ни в коем случае не говорит о том, что не адекватен сам метод логистической регрессии.

Так я и не говорю, что логистическая регрессия неадекватна. Она выполняет свою функцию. Я говорю, что селекционные методы неадекватны и сильно уступают методам усреднения. Понятное дело, что и для ступенчатой и для ЛАССО можно опытным путем подобрать такие критерии, чтобы они для конкретного случая давали бы правильную модель и, соответственно, хорошее покрытие, но для этого нужно много априорной информации или удача.

Andrey_Kireew в сообщении #1333157 писал(а):

Например, для любого метода можно построить bootstrap - доверительные интервалы, и они вполне могут оказаться адекватными.

Я, кстати, пробовал zero-corrected bootstrap метод предложенный Питером Остином (2008). Метод использует бутстрап и на каждый bootstrapped sample применяет ступенчатую регрессию и если переменную выкидывается, то ставит вместо нее значение ноль. А потом строит процентный доверительный интервал. Этот метод работает лучше, чем ступенчатые регрессии, но все равно его интервалы неадекватны. Если $\beta=0$ , то он выдает покрытие близкое к 100%, а для $\beta\ne 0$ существенная просадка для слабых коэффициентов остается .

Что же, еще раз спасибо вам за уделенное мне время. Этот форум крут, на английском на меня даже внимания не обратили.

Andrey_Kireew · 18.08.2018, 01:46

Хотелось бы всё же уточнить, что Вы имеете в виду под усреднением модели? Это случайно не PCA или ridge?

Neytrall · 18.08.2018, 07:26

Нет, это model averaging.

Neytrall · 18.08.2018, 10:06

А почему вы назвали ridge? Это же такая же penalized regression как и LASSO.

Andrey_Kireew · 18.08.2018, 10:42

Спасибо за model averaging, я об этом методе раньше не знал. Уже нашел информацию, изучаю ...
Пользуясь случаем хотелось бы спросить, а у какие модели у Вас усредняются, модели на разных шагах step regression? модели для разных значений $\lambda$ в LASSO?

Ответ на Ваш вопрос: ridge и lasso действительно похожи, это $L_2-penalized$ и $L_1-penalized$ . Отличия такие, LASSO имеет тенденцию обнулять некоторые коэффициенты, тем она и хороша. В ridge этого нет, все коэффициенты остаются ненулевыми, и их нельзя отбросить. Модель получается более громоздкой. Но в Вашем случае, наверное, отсутствие нулевых коэффициентов - это только плюс.

Нужно иметь в виду, LASSO не просто отбрасывает некоторые коэффициенты и строит OLS оценки на оставшихся, как в step regression, она так же уменьшает и все остальные коэффициенты.

Технически - $L_2$ регуляризация легко встраивается в алгоритм логистической регрессии, практически его не усложняя. $L_1-penalized logistic regression$ я не встречал, но возможно она и бывает, даже скорее всего, что есть такие алгоритмы.

С теоретической точки зрения: $L_2-penalized$ даёт оптимальные оценки при Гауссовом распределении оценок коэффициентов модели, когда корректно описание их разброса ковариационной матрицей. $L_1-penalized$ корректна при лаплассовом распределении, когда в распределении коэффициентов есть выбросы.

Проверить, какое распределение у коэффициентов можно только апостериори, например с помощью bootstrap, и потом уже, вполне обоснованно выбрать подходящий метод. Но это обычно никогда не делается, так как сложно и не даёт большого преимущества.

Иногда обо подхода комбинируют (ElasticNet).

Neytrall · 18.08.2018, 11:23

Andrey_Kireew в сообщении #1333251 писал(а):

Спасибо за model averaging, я об этом методе раньше не знал.

Да, я заметил, что это пока что не очень популярная методика, хотя существует уже много лет и сильно развилась за последнее десятилетие.

Andrey_Kireew в сообщении #1333251 писал(а):

Пользуясь случаем хотелось бы спросить, а у какие модели у Вас усредняются, модели на разных шагах step regression

Это не связанно со ступенчатой регрессией, хотя некоторые предлагали использовать селективные методы для определения наиболее сложной модели, а потом усреднять сложную модель и все ее субмодели - плохая идея. Проблема усреднения моделей довольна интересна. Надо подобрать группу моделей, чтобы потом их взвешенно усреднить. Этот метод пришел из Байесовской статистики (Bayesian Model Averaging), но в последние годы и фриквентисты подключились. Было обнаружено, что веса для моделей основанные на AIC дают хорошие результаты, даже лучше чем AICc и BIC. Как выбрать модели? Это действительно проблема. Можно использовать "все модели", то есть если у вас full model содержит 5 переменных, то используя все пермутации вы усредняете $2^5=32$ модели. Есть такие, кто говорит, что надо высчитать веса для всех возможный моделей и усреднять только модели с наибольшими весами, но так чтобы сумма весов была ограничена например 95%. В этой теме есть много авторов, которых я могу посоветовать, такие как Burnham and Anderson (они предложили много верных идей, но их доверительные интервалы недотягивают. Но они и сами писали, что вся их теория в рамках нереальных предположений), Hjort and Claeskens (много теорий, Focused Information Criteria, и тоже не самые реалистичные предположения), но наибольшего прорыва, на мой взгляд, достигли Turek and Fletcher с их Model-Averaged Tail Area Confidence Interval. Если вам интересна теория, то начните с Burnham and Anderson, если результат, то Turek and Fletcher.

Andrey_Kireew в сообщении #1333251 писал(а):

В ridge этого нет, все коэффициенты остаются ненулевыми, и их нельзя отбросить.

Ну, ridge хоть и не обнуляет коэффициенты, но она хорошо работает при высокой корреляции, впрочем как и Elastic Net. Но все же из penalized, мне больше нравится SCAD, в частности у SCAD-BIC есть хороший потенциал в определение реальной модели. Проблема всех penalized регрессий в том, что когда показывают их работу то берут коэффициенты как минимум с эффектом 1 или 2, против массы переменных с коэффициентом 0 (как в оригинальной статье Тибширани). Это является, на мой взгляд, читерством. Как писал Харелл, если взять достаточную выборку и большие коэффициенты, то и ступенчатая регресcия выдаст хороший результат.

Я как-то тестировал все эти методы при бОльшей магнитуде коэффициентов, и они все показали довольно плохие результаты по покрытию. Ведь еще нет реального метода по построению доверительного интервала для ЛАССО или того же SCADa.

Andrey_Kireew в сообщении #1333251 писал(а):

Технически - $L_2$ регуляризация легко встраивается в алгоритм логистической регрессии, практически его не усложняя. $L_1-penalized logistic regression$ я не встречал, но возможно она и бывает, даже скорее всего, что есть такие алгоритмы.

Такие методы применимы не то что для логистических моделей, уже есть статьи, которые описывают как их применять для mixed-models. (Peter Buhlmann and Sara van de Geer (2010))

Andrey_Kireew · 18.08.2018, 11:44

Спасибо за полезную информацию, я обязательно ознакомлюсь!

Neytrall в сообщении #1333268 писал(а):

... Как писал Харелл, если взять достаточную выборку и большие коэффициенты, то и ступенчатая регресcия выдаст хороший результат.

это и не удивительно, на большой выборке step regression всегда будет лучше, ведь в отличие от неё, и ridge и lasso дают смещённые оценки и это смещение с объёмом выборки не уменьшается. Их целесообразно применять только на малых выборках.

Neytrall в сообщении #1333268 писал(а):

Ведь еще нет реального метода по построению доверительного интервала для ЛАССО или того же SCADa.

Задавая свой вопрос ранее, я имел в виду именно это. Надеясь, что какие то результаты в этой области уже получены.

Neytrall · 18.08.2018, 12:46

Andrey_Kireew в сообщении #1333275 писал(а):

Надеясь, что какие то результаты в этой области уже получены.

Не получены, и скорее всего не будут получены вообще.

Andrey_Kireew · 18.08.2018, 17:59

На счёт SCAD я тоже ничего не слышал, и в сети ничего похожего нет, может Вы Neytrall намекнёте что это такое?

Neytrall · 19.08.2018, 06:35

Smoothly Clipped Absolute Deviation Penalty. Fan and Li (2001). Это nonconcave функция, которая так же как и ЛАССО может обнулять переменные.
Про SCAD-BIC есть вот в этой статье "Regularization Parameter Selections via Generalized Information Criterion" (Zhang and Li. 2010)

Andrey_Kireew · 19.08.2018, 07:00

Спасибо, теперь я нашел информацию, про этот метод я тоже ничего раньше не знал. Нужно будет изучить.

Научный форум dxdy

Покрытие доверительного интервала для ступенчатой регрессии