2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему На страницу 1, 2  След.
 
 Зачем сокращать число предикторов?
Сообщение30.03.2019, 18:34 
Аватара пользователя


14/02/12

841
Лорд Амбера
Коллеги, возник вопрос. При конструировании формул множественной регрессии существует правило - если пара предикторов связана корреляцией выше 0,7, один из предикторов следует убрать по понятным причинам - толку полюбому не будет, от случайных причин, изменения выборки и пр. коэффициенты при предикторах будут вбирать один другой, и вместо одной формулы получим ряд формул, дающих примерно один результат, но с совершенно разными коэффициентами. Побудило вникнуть в тему вот это:
Изображение
Это т.н. формулы Ткаченко, опубликованные в 2 (безусловно толковых) учебниках по физиологии п/ред. По самой идее обмена веществ, коэффициенты при росте не могут быть отрицательными ни при каком раскладе, и обязаны изменяться в узком диапазоне, а тут такой раздрай, компенсируемый раскачкой коэффициентов при массе. А потом то, что получается, выравнивают свободные члены, которые по существу тоже не могут быть отрицательными, а тут их целых 2.
Скорей всего, так сработало программное обеспечение, к которому автор формул не отнесся критически, т.б. что проверка по формулам по определению дает близкие к фактам значения.
Причина ясна - рост и масса связаны статистической зависимостью. И таких примеров масса.
Но ведь исключение одного из предикторов и конструирование формул только по массе или только по росту (есть и такие формулы) исключит часть содержащейся в выборке информации, что не может быть хорошо.
Существует ли возможность заблаговременно, до построения регрессии, жесто связать между собой коэффициенты при 2 коррелирующих предикторах (например, в данном случае задать по анализу данных, что коэффициент при росте в 30 раз больше коэффициента при массе), и затем конструировать уравнение регрессии исходя из этой связки, не исключая связанные предикторы? Не должно ли это привести к уменьшению остатков при сравнении результатов по формуле с опытными величинами?

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение30.03.2019, 20:01 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Вопрос распадается на два подвопроса.
1. Можно ли строить модель, априори задав соотношение между коэффициентами?
2. Приведёт ли это к уменьшению остатков?
1. Да.
2. Нет.
Положим, что в нашей модели первые два регрессора скоррелированы, но мы не хотим от них избавляться, и желаем сохранить их оба, задав априори соотношение между ними. Пусть мы полагаем $a_1=ka_2$, где коэффициент k задан.
Тогда в модели слагаемые, соответствующие этим регрессорам, будут $a_1x_1+a_2x_2=a_1x_1+k a_1x_2=a_1(x_1+k x_2)=a_1 x_{comb 1,2}$ и можно оценивать модель, включив вместо двух этих регрессоров их линейную комбинацию, получив коэффициент при первой переменной непосредственно и при второй домножением на k.
Однако это сократит размерность пространства регрессоров и увеличит сумму квадратов остатков. С другой стороны, F-отношение может и улучшиться, и может сократиться оценка ошибки прогноза.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение30.03.2019, 23:52 


10/03/16
3995
Aeroport
Евгений Машеров

Я мало что понел и думаю что ТС тоже )) Может быть попробуем так?

Есть предикторы «Рост-Вес» и мы пытаемся объяснить Адаптор через их линейную комбинацию, обучая модель на некоторой выборке и подставляя затем форвард-предикторы для получения интересующих результатов, то есть форвард-Адаптора. Понятно, что Адаптор обучающей выборки содержит шум, поэтому интересует вопрос чувствительности форвард-Адаптора к незначительному «шевелению» Адаптора обучающей выборки. И вот она то и зависит от соотношения максимального и минимального собственного значения ковариационной матрицы, и наихудшая ситуация достигается конечно в случае сильно коррелированных предикторов

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение31.03.2019, 08:04 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Извините, но Вы отвечаете на вопрос, который не задавали. Не то, чтобы неправильно, но, боюсь, ТС (и точно я) уже о том, что Вы сказали, знают.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение31.03.2019, 09:36 
Аватара пользователя


14/02/12

841
Лорд Амбера
Спасибо все ответившим, для меня главное то. что предварительное установление связи между парой предикторов криминалом не является.
Вообще-то общее правило (при конструировании индикаторов для финансовых рынков) - это разбиение выборки на 2 подвыборки, конструирование по одной половине и проверка по другой, чтобы избежать чисто механической подгонки под известные результаты. Но как понимаю физиологи при составлении своих формул на это не идут, слишком дорого обмерять (что иногда требует перевода испытуемых на изолированное от общества содержание), и выборки не превышают 200-300 человек, при этом коэффициент вариации предсказания составляет порядка 15-20%, т.ч. расхождение порядка 5% между аналогичными формулами 1918 и 1990 годов при всей педалируемости этого различия несущественно.
Даже в таблице выше по формулам Ткаченко проглядывается смысл, если объединить все 8 подвыборок (возрастных) в одну (исходные данные недоступны, объединяются формулы), для чего вычислить СА 2-х коэффициентов и 1-го свободного члена, получаем 11,3 при массе, 328 при росте, 242 св. член. Эти коэффициенты относятся к некоему "среднему полу" и среднему возрасту, но абсолютно вменяемы и отвечают предсавлениям о происходящих процессах, т.е. обладают высокой конструктной валидностью.
Мало того, они близки к соответствующим коэффициентам общепризнаной формулы Миффлина-СанЖеора 9,99; 625 и -78, с учетом того, что завышенное 625 компенсируется отрицательным -78. Но и здесь тот случай, когда рулит формализм подбора коэффициентов по максимуму коэффициента достоверности, в то время как необходим формализм конструирования множественной регрессии с учетом большинства предикторов, с возможным изменением порога исключения предиктора с сакраментальной корреляции 0,7 до 0,9 (или иного обоснованного значения, возможно зависящего от размера выборки), что только повысит предсказуемость и конструктную валидность.
Все имхо.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение31.03.2019, 09:39 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Подобный подход, принудительно задать соотношение между коэффициентами, используя вместо исходных регрессоров их линейную комбинацию с заданными априори коэффициентами, формально решая поставленную задачу, может оказаться лишь имитацией решения. Дело в том, что (взяв для примера задачу оценки ОО по измерениям тела, приведенную топикстартером), на ОО может влиять не только общий размер (который можно охарактеризовать и весом, и ростом), но и форма тела (характеризуемая, в частности, соотношением веса и роста). И отрицательный коэффициент при росте может быть следствием не только игры ошибок на высококоррелированных регрессорах, но и отражением, например, того, что низкий индекс массы тела свидетельствует о недостатке питания или о болезнях (ну, или всё в норме, просто индивидуальная особенность, астеническое сложение).
Формально идеальное решение - переход к ортогональным переменным, например, к главным компонентам. В этом случае оценки одного коэффициента не влияют на оценки другого. Увы, главные компоненты плохо интерпретируемы. Возможным решением могут быть "содержательные компоненты" - комбинации переменных такие, что, не быв строго ортогональны меж собой, они всё же мало скоррелированы. Не обязательно линейные. Скажем, в данной задаче могло оказаться полезным использовать вес и индекс массы тела $I= \frac m {h^2}$, которые могут быть скоррелированы слабее, чем вес и рост.
Для данной частной задачи использование именно линейной модели представляется неоправданным. Её достоинство - простота, но это "фонарь, под которым ищем, поскольку там, где потеряли, темно и ничего не видать". Лучше использовать модель, хотя бы частично отражающую физику процесса и/или очевидные свойства (скажем, если вес и/или рост нулевые, ОО, очевидно, тоже ноль, и мультипликативная модель, в отличие от обычной линейной, этот факт использует). Впрочем, никто не мешает прологарифмировать, сведя для вычислений к линейной (тут есть тонкости в связи со спецификацией ошибки, о них не стоит забывать, но и зацикливаться на них не стоит).

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение31.03.2019, 10:09 


10/03/16
3995
Aeroport
Евгений Машеров в сообщении #1384990 писал(а):
ТС (и точно я) уже о том, что Вы сказали, знают


А, тогда извините :oops:

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение31.03.2019, 10:10 
Аватара пользователя


14/02/12

841
Лорд Амбера
Евгений Машеров в сообщении #1384998 писал(а):
1. ... отрицательный коэффициент при росте может быть следствием не только игры ошибок на высококоррелированных регрессорах, но и отражением, например, того, что низкий индекс массы тела свидетельствует о недостатке питания или о болезнях (ну, или всё в норме, просто индивидуальная особенность, астеническое сложение).

2. Возможным решением могут быть "содержательные компоненты" - комбинации переменных такие, что, не быв строго ортогональны меж собой, они всё же мало скоррелированы. Не обязательно линейные. Скажем, в данной задаче могло оказаться полезным использовать вес и индекс массы тела $I= \frac m {h^2}$, которые могут быть скоррелированы слабее, чем вес и рост.

3. Для данной частной задачи использование именно линейной модели представляется неоправданным. Её достоинство - простота, но это "фонарь, под которым ищем, поскольку там, где потеряли, темно и ничего не видать". Лучше использовать модель, хотя бы частично отражающую физику процесса и/или очевидные свойства (скажем, если вес и/или рост нулевые, ОО, очевидно, тоже ноль, и мультипликативная модель, в отличие от обычной линейной, этот факт использует). Впрочем, никто не мешает прологарифмировать, сведя для вычислений к линейной (тут есть тонкости в связи со спецификацией ошибки, о них не стоит забывать, но и зацикливаться на них не стоит).

1. В рассматривавшемся случае отрицательные коэффициенты, скорей всего, малость исходной выборки, уменьшенной в 8 раз при разбиении на подбыворки. Более приемлемым решением могла остаться работа со всей выборкой и добавлением предиктора возраст, ухудшение стабильности при лишнем предикторе (не связанном с остальными никак!) могло быть преодолено увеличением размера выборки в 8 раз.

2. Спасибо за пример, я встречал подобное в работах неких N. Y. Krakauer and J. C. Krakauer, но подход мне показался диким - конструирование на базе исходных рост масса объемы талии и бедер не конечного индекса (все эти переменные связаны в пределах коэф. корр. 0,5, работа не с уровнем обмена, а с риском преждевременной смерти от любой причины) 4 не связанных между собой индексов, самих по себе бесполезных, и свертка их до полезного индекса, достоверно отражающего риск по данным на огромных выборках в десятки и сотни тысяч человек на периоде до 25 лет.

3. Да, исследователи по отчетам пытались возводить предикторы в квадрат либо перемножать, но по отчету это не увеличивало предсказуемость значительно, и остановились на линейной модели. А логарифмы хороши там, где диапазон изменения переменных велик, что для роста массы одного биологического вида не характерно.
Примером являются аллометрические формулы обмена со степенной зависимостью от массы (степени 2/3 или 3/4) по Рубнеру или Клайберу (в первом случае обоснованная зависимость от поверхности тела, во втором вменяемого обоснования нет - либо фрактальность либо особенности доставки питательных веществ по растительному или животному организму) - формулы работают от мыши до слона.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение31.03.2019, 21:06 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Korvin в сообщении #1385002 писал(а):
1. В рассматривавшемся случае отрицательные коэффициенты, скорей всего, малость исходной выборки, уменьшенной в 8 раз при разбиении на подбыворки. Более приемлемым решением могла остаться работа со всей выборкой и добавлением предиктора возраст, ухудшение стабильности при лишнем предикторе (не связанном с остальными никак!) могло быть преодолено увеличением размера выборки в 8 раз.


Устранение одного неявно учтённого фактора (пол) и замена учёта нелинейно влияющего фактора (возраст) посредством дискретной величины (разбивка на подвыборки) на линейную аппроксимацию приведёт, скорее всего, к ухудшению как формальных, так и проявляющихся практически свойств модели. Увеличение размера выборки может сократить СКО коэффициентов почти в три раза (а может и не сократить), но потери из-за менее реалистичной модели превозмогут этот эффект.

Korvin в сообщении #1385002 писал(а):
2. Спасибо за пример, я встречал подобное в работах неких N. Y. Krakauer and J. C. Krakauer, но подход мне показался диким - конструирование на базе исходных рост масса объемы талии и бедер не конечного индекса (все эти переменные связаны в пределах коэф. корр. 0,5, работа не с уровнем обмена, а с риском преждевременной смерти от любой причины) 4 не связанных между собой индексов, самих по себе бесполезных, и свертка их до полезного индекса, достоверно отражающего риск по данным на огромных выборках в десятки и сотни тысяч человек на периоде до 25 лет.


Тем не менее это работающий приём. А говорить о "бесполезности индекса" прежде установления статистической незначимости коэффициента при нём (а если эти величины выбраны в должной степени ортогональными - то незначимость говорит о влиянии переменной, а не о степени её коррелированности с прочими) я бы поостерёгся.

Korvin в сообщении #1385002 писал(а):
3. Да, исследователи по отчетам пытались возводить предикторы в квадрат либо перемножать, но по отчету это не увеличивало предсказуемость значительно, и остановились на линейной модели. А логарифмы хороши там, где диапазон изменения переменных велик, что для роста массы одного биологического вида не характерно.
Примером являются аллометрические формулы обмена со степенной зависимостью от массы (степени 2/3 или 3/4) по Рубнеру или Клайберу (в первом случае обоснованная зависимость от поверхности тела, во втором вменяемого обоснования нет - либо фрактальность либо особенности доставки питательных веществ по растительному или животному организму) - формулы работают от мыши до слона.


Ну, если модель хорошо работает на широком диапазоне входных переменных - отчего бы опасаться её ухудшения, если диапазон сужен? Вообще, для переменных, принимающих лишь положительные значения, весьма часто логарифмирование оказывается благотворно (как, скажем, логит- или пробит- для принимающих значения от 0 до 1).

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение01.04.2019, 01:04 
Аватара пользователя


14/02/12

841
Лорд Амбера
Евгений Машеров в сообщении #1385125 писал(а):
Ну, если модель хорошо работает на широком диапазоне входных переменных - отчего бы опасаться её ухудшения, если диапазон сужен?

Ниже пример. Красная линия УОО по Рубнеру (степень 2/3 от массы), и линия линейного тренда в широком диапазоне реальной массы тела 45-100 кг. В масштабе графика отличий нет. А линейная зависимость уже устоялась в таких случаях, формул множество, и по общей массе и по безжировой, и по мышечной, отличия в коэффициенте и свободном члене.
Но здесь 1 предиктор, а добавление второго - роста, начнет раскачивать коэффициенты.
Характерно то, что свободный член 503 реален по значению, а коэф. при массе 17,4 превышен с коэф. при массе в 2-факторной формуле (обычно 8-12), т.е. при добавлении роста коэф. делится между 2 факторами, что-то перепадает и росту, но вот процент дележки вариабелен, что внушает подозрение у корректности. А предварителная дележка коэффициентов эту неопределенность снимает. В этом и состоял вопрос, корректна ли такая постановка.

Изображение

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение01.04.2019, 09:48 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Цитата:
Метод постулирования того, что нам требуется, обладает многими преимуществами, но такими же преимуществами обладает воровство перед честным трудом

(Б.Рассел)

Задав априори соотношение между коэффициентами, мы получим нечто "идентичное натуральному", очень похожее на правду, однако у нас не будет гарантии, что найденное соотношение сохранится при пополнении выборки.

Линейная модель - очень проста и удобна, а поскольку можно приблизить функцию рядом Тейлора и ограничиться первым членом, то в известных пределах изменения аргумента достаточно точна. За этими пределами она рассыпается. То есть линейная аппроксимация применима для интерполяции в заданном интервале данных.

Полагаю, что модели первого сорта - это опирающиеся на известную физику процесса. Если она неизвестна или слишком сложна для использования - второй сорт это модели с нелинейными функциями, отражающими поведение на краях (скажем, степенная отражает то, что в нуле ноль, а на бесконечности рост замедляется). Линейная это "третий сорт - не брак", а линейная с дополнениями в виде степеней, произведений и т.п. это "чиненый третий сорт".

Что до объединения выборок - механическое объединение, пренебрегающее наличием существенных различий, может привести к парадоксальным результатам. Вот две выборки (условно примем, что первая это мальчики-спортсмены, а вторая дамы, страдающие ожирением; первая переменная вес, вторая сила, скажем для определённости - становая тяга)
А:
30 99
35 111
40 118
45 132
50 139
В:
150 51
155 59
160 72
165 73
170 81

Посчитайте зависимость по каждой выборке и по объединённой.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение01.04.2019, 11:54 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Korvin в сообщении #1385163 писал(а):
Характерно то, что свободный член 503 реален по значению


И можно спросить, что Вы подразумеваете под "реален по значению"? Потому как мне представляется, что модели, в которых свободный член может быть содержательно интерпретируем, не то, чтобы вовсе отсутствуют, но крайне редки. Это модели, для которых линейный характер их не удобное приближение, а следует из физического механизма. Для большинства же имеет место нелинейность, и линейная модель это разложение в ряд Тейлора до члена первого порядка $f(x)\approx f(x_0)+f'(x_0)(x-x_0)=A+Bx$
причём коэффициент B это наклон в "средней точке" $x_0$, а коэффициент $A=f(x_0)-f'(x_0)x_0$, являясь лишь "уравниванием", но не осмысленной величиной, особенно если 0 лежит вне данных выборки, или вообще бессмысленен для таких задач (ОО для лица с нулевым ростом...).

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение02.04.2019, 21:24 
Аватара пользователя


14/02/12

841
Лорд Амбера
Евгений Машеров в сообщении #1385210 писал(а):
Посчитайте зависимость по каждой выборке и по объединённой.

При объединении разнородных выборок просто вводится еще один предиктор - в данном случае пол, 1 для мальчиков и 0 для женщин, и тогда находится решение с сигмой всего 2,8:
коэффициенты при поле 262,6; при весе 1,75; свободный член -212,8
Решение понятно формальное, как Вы и говорите, св. член содержательно не интерпретируем, но ведь и пример искусственен.

А в формулах Ткаченко объединяются 8 выборок, при объединении общая выборка не содержит значительных провалов или разрывов, как в Вашем примере, и можно было ввести 2 дополнительных предиктора - пол и возраст. Но как представляется, недостаток этих формул - недостаточные объемы выборок, откуда раздрай коэффициентов и отсутствие закономерностей в коэффициентах и св. членах соседник категорий.
Подобные формулы были некогда рекомендованы ВРЗ, там заведомо большие выборки, и в целом все причесаннее.
Проблема ведь еще и в том, что в среде физиологов/врачей/тренеров формулы со степенями, да еще и нецелыми, не привьются, гаджеты также не помогут, это среда очень консервативная, оттого в ходу очень простые примитивные зависимости типа рост минус 100.
А множественная регрессия понятна по крайней мере авторам учебников, большего не требуется.

-- 02.04.2019, 22:27 --

Евгений Машеров в сообщении #1385234 писал(а):
И можно спросить, что Вы подразумеваете под "реален по значению"?


Только не то, что равно результату при нулевом весе и/или росте; это значит, что при множестве подобных формул по разным выборкам св. член получался положительным в районе нескольких сотен ккал. Как и пояснялось рисунком выше, столько отсекается хордой степенной зависимости на оси ординат, хорда проведена через точки крайних значений диапазона массы.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение03.04.2019, 05:23 
Аватара пользователя


14/02/12

841
Лорд Амбера
Еще в добавок к разбухшей теме: уже из истории измерений 1918 и 1990 годов, аналогичных с одинаковыми по структуре формулами, с разницей порядка 5% в результате но совершенно разными коэффициентами и св. членами (!).
Принцип Рубнера пропорциональности обмена площади поверхности был уже известен, и данные сравнивались с этим показателем, но соответствие оказалось не лучше, чем в при линейной регрессии, при этом масса и рост измеряются, а поверхность нет - она вычисляется по разным формулам по массе и росту, обычно их произведение в подбираемой степени, из теоретических сображений вывести невозможно, исключая самую простую что поверхность пропорциональна корню массы на рост. По размерности совпадает, но по результату самая худшая. Скорей всего оттого, что плотность тоже функция массы и роста.
Т.ч. все узаконенные Минздравом, ВОЗ и прочими властями функции линейные.

 Профиль  
                  
 
 Re: Зачем сокращать число предикторов?
Сообщение03.04.2019, 09:47 
Заслуженный участник
Аватара пользователя


11/03/08
9529
Москва
Korvin в сообщении #1385593 писал(а):
При объединении разнородных выборок просто вводится еще один предиктор - в данном случае пол, 1 для мальчиков и 0 для женщин, и тогда находится решение с сигмой всего 2,8:
коэффициенты при поле 262,6; при весе 1,75; свободный член -212,8


То есть постоянство коэффициента при весе у мужчин и женщин постулируется. Бертрана Рассела я цитировал выше.
Просто вводится поправка "у мужчин ОО больше у всех на одинаковую величину". То, что соотношение мышечной и жировой ткани у мужчин и женщин разное - пренебрегается. А у них интенсивность обмена отлична (а ещё мозг есть, даже у тех, у кого его проявления не заметны ;) - а у мозга обмен изрядный, и от массы тела как-то не зависит, по крайней мере если ограничиться выборкой взрослых).

-- 03 апр 2019, 09:51 --

Korvin в сообщении #1385645 писал(а):
Еще в добавок к разбухшей теме: уже из истории измерений 1918 и 1990 годов, аналогичных с одинаковыми по структуре формулами, с разницей порядка 5% в результате но совершенно разными коэффициентами и св. членами (!).
Принцип Рубнера пропорциональности обмена площади поверхности был уже известен, и данные сравнивались с этим показателем, но соответствие оказалось не лучше, чем в при линейной регрессии, при этом масса и рост измеряются, а поверхность нет - она вычисляется по разным формулам по массе и росту, обычно их произведение в подбираемой степени, из теоретических сображений вывести невозможно, исключая самую простую что поверхность пропорциональна корню массы на рост. По размерности совпадает, но по результату самая худшая. Скорей всего оттого, что плотность тоже функция массы и роста.
Т.ч. все узаконенные Минздравом, ВОЗ и прочими властями функции линейные.


А вот эти материалы было бы интересно посмотреть, если первичные данные доступны (боюсь, даже для 1990 не выйдет). Кстати, корень из массы на рост - не та размерность. Там кубический корень должен быть, в предположении геометрического подобия и постоянства плотности при разном росте.
А что "узаконенные линейные" - ну так если бы они были существенны, использовали бы более точные и до появления массовых калькуляторов пользовались бы номограммами.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 20 ]  На страницу 1, 2  След.

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group