2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу 1, 2, 3  След.
 
 Нелинейная множественная регрессия при нехватке наблюдений
Сообщение21.03.2020, 10:46 
Просьба высказать мнение, возможен ли такой подход. Имеется 36 наблюдений, необходимо построить уравнение множественной регрессии для 6 параметров. Пишут, что для устойчивости решения кол-во наблюдений должно в 3-10 раз превышать кол-во переменных, здесь в 6 раз больше, все ОК, решение по МНК есть и позволяет делать выводы, согласующиеся с действительностью.

Но всегда есть подозрение, что нелинейная модель будет лучше соответствовать действительности. Решено остановиться на степенной зависимости (если бы линейная модель в точности описывала действительность, показатели оказались бы равны 1, т.е. мы ничего не теряем от подобного обобщения), т.е. каждый предиктор возводится в степень, итого переменных 12, решение невозможно получить - раскачивает, мало наблюдений, они неточные, дополнительные взять неоткуда - исследование опубликованное чужое.

Но где 6 переменных, там и 7. Волюнтаристки все показатели степени приравнены 7-й переменной, и найдено значение порядка 0,97, т.е. "в среднем" регрессия почти линейная. Затем показатель степени при 5 предикторах задается 0,97, и находятся опять 7 параметров - 6 коэффициентов и показатель степени при предикторе, которому степень 0,97 не назначалась. Значение запоминалось, затем устанавливалось 0,97, и все повторялось для остальных предикторов, в итоге раздельно были получены 6 разных показателей степеней (0,4 и 0,7 для самых одиозных предикторов, заведомо с отличными функциями, и чего следовало ожидать, и близкими в интервале от 0,9 до 1,1 для прочих 4-х).

После этого степени устанавливаются найденным, и окончательно находятся 6 коэффициентов. Погрешность соответствия исходным данным уменьшается незначительно, на 5-10% (погрешность прогноза заведомо ограничена снизу погрешностью исходных данных), но уверенность в подобном поведении регрессии увеличивается.

Является ли ересью подобная обработка данных (исходим ведь всегда не из идеальных соображений, а данности), тем более, что выводы из решения позволяют не только уточнить количественные выводы по модели линейной регрессии, но и сделать качественно иные, позволяющие лучше предсказать процессы.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение21.03.2020, 14:11 
Аватара пользователя
По-моему, работать не будет. Ну, или я неправильно понимаю
Lena-Lisa в сообщении #1446026 писал(а):
Волюнтаристки все показатели степени приравнены 7-й переменной, и найдено значение порядка 0,97, т.е. "в среднем" регрессия почти линейная.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение21.03.2020, 17:57 
Lena-Lisa
Насколько я понял, сначала Вы аппроксимировали данные функцией $y=a_{1}x_{1}+a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+a_{5}x_{4}+a_{6}x_{6}+a_{7}$.
Затем Вы аппроксимировали данные функцией $y=a_{1}x_{1}^{a_{2}}+a_{3}x_{2}^{a_{4}}+a_{5}x_{3}^{a_{6}}+a_{7}x_{4}^{a_{8}}+a_{9}x_{5}^{a_{10}}+a_{11}x_{6}^{a_{12}}+a_{13}$.
Как именно Вы подбирали показатели степени я не понял. Однако хочу обратить Ваше внимание на следующее: как Вы рассчитывали «погрешность» (которая, как Вы пишите, уменьшилась на 5-10%)?
Сравнить качество аппроксимирующих функций можно, например, путём сравнения оценок остаточной дисперсии: $S^2=\sum\limits_{i=1}^{n} \frac{e_{i}^2}{n-m}$, где $n=36$ – число наблюдений, $m=7$ или $13$ – число параметров $a_{i}$.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 07:21 
Всем спасибо за отклик.
igor_ivanov в сообщении #1446073 писал(а):
Насколько я понял, сначала Вы аппроксимировали данные функцией $y=a_{1}x_{1}+a_{2}x_{2}+a_{3}x_{3}+a_{4}x_{4}+a_{5}x_{4}+a_{6}x_{6}+a_{7}$.
Затем Вы аппроксимировали данные функцией $y=a_{1}x_{1}^{a_{2}}+a_{3}x_{2}^{a_{4}}+a_{5}x_{3}^{a_{6}}+a_{7}x_{4}^{a_{8}}+a_{9}x_{5}^{a_{10}}+a_{11}x_{6}^{a_{12}}+a_{13}$.
Как именно Вы подбирали показатели степени я не понял.

"Сначала" именно так, только свободный член a_{7}$ отсутствует по начальному условию (при нулевых 6 предикторах отклик равен 0, не на что реагировать), и предикторов 6 при 36 наблюдениях.

А вот затем все показатели степени были приравнены 7-му неизвестному, и нашлось значение 0,97, при понятно изменившихся 6 коэффициентах, что позволило сделать вывод, что при принятии преположения о равенстве всех показателей степеней особого смысла в степенной множ. регрессии нет. затем для показателей степеней со 2-го по 6-й задано показ. степени 0,97, и найдены 7 неизвестных (6 коэффициентов, которые на данном этапе неинтересны и в дальнейшем не используются) и искомый показатель степени при 1 предикторе, который оказался равным 0,4 (все значения привожу с округлением, по факту используются более точные). Это значение запоминается.

Затем устанавливаются показатели степени 0,97 для 1, 3-6 предикторов, и находятся коэффициенты и показатель степени при 2-м предикторе, который опять запоминается. И т.д.

Через 6 таких циклов я имею 6 искомых показателей степени, которые и подставляю при следующем решении по МНК, и нахожу окончательное решение - 6 коэффициентов при уже известных ранее 6 показ. степени.
Что касается точности - для одного набора параметров (у меня 2 разные подлежащие решению системы) ср.кв. отклонение аппроксимации от данных составило 9,6 против прежних 10,0, во втором случае 10,7 против 11,8 - это и есть улучшение на 5-10%.

Но целью являлось не улучшение аппроксимации, а именно установление зависимости (линейная или нелинейная, и каково отклонение от линейности) отклика от предикторов, и предикторы повели себя именно так, какова их роль в организме - доставляющие энергию жиры, сахара и крахмалы так и остались при единичке в показателе степени (0,9-1,1), т.е. гликемический отклик пропорционален количеству, конструктивный материал белки действуют вяло, с компрессией (показатель 0,4), действие клетчатки как подавителя гликемического отклика (коэфициент отрицателен) также слегка компрессируется (показатель 0,7). Хвала Роспотребнадзору - ограничили 30 г, дальнейший рост теряет смысл, отрицательные эффекты начинают преобладать над положительными.

Для инсулинемического отклика все показатели близки к 1, отличается лишь опять белок - его действие форсируется (показатель степени 1,3), что интуитивно знали все бодибилдеры (графики компрессии и форсирования пересекаются на 18 г белка за прием), установившие железный закон - при непомерном количестве белка за сутки (до 200-250 г) один прием не выше 30 г (таков размер скуба-мерной ложки для спорт. протеина). По выведенной зависимости много белка за раз привело бы к большому выбросу инсулина, что способствовало бы не росту мышц, а откладыванию жира.

Линейная модель безразлична к количеству приемов пищи, нелинейная чутко реагирует - одноразовое питание подавляет суммарный инсулинемический отклик, многоразовое способствует выбросам инсулина.

Именно выявление конструктно валидных особенностей поведения зависимости и позволило задать вопрос о математической обоснованности метода. В лоб решение с 12 неизвестными невозможно, а попросить австралийцев повторить опыт не с 36 продуктами и дюжиной студентов, а с сотней продуктов и сотней студентов не имею ни возможности, ни денег им на грант.

При том в университете Сиднея и близко не собирались как-то обработать свои данные - удовлетворились констатацией факта что все продукты ведут себя по разному, все очень сложно, и выложили в паре-тройке статей сырые данные.

Сознаю, что обоснование метода МНК под подобное решение (т.е нахождение эффективности, смещенности и пр.) затруднительно, но ведь кругом эмпирика и эвристика, царит искусство возможного. Именно так и я понимаю классическую работу Мостеллера/Тьюки, где полно всяких приемов и примеров.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 10:17 
Lena-Lisa, проходят ли модели перекрёстную проверку? Если да, получается, что Вы успешно использовали покоординатный спуск вместо оптимизации сразу всех параметров для решения задачи регрессии, хотя доказать глобальность найденного оптимума может быть сложно.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 11:34 
Аватара пользователя
Lena-Lisa в сообщении #1446178 писал(а):
при нулевых 6 предикторах отклик равен 0


Напрашивается степенная модель $y=a_0x_1^{a_1}\cdots x_n^{a^n}$
Логарифмированием сводимая к линейной в логарифмах.
Что до описанного метода - сама по себе процедура пошагового спуска вполне может работать, но число параметров велико, степени свободы драматически сокращаются, и возникает подозрение, что улучшение модели не более, чем overfitting.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 12:26 
Евгений Машеров в сообщении #1446230 писал(а):
Напрашивается степенная модель $y=a_0x_1^{a_1}\cdots x_n^{a^n}$
Ло

Сорри, не совсем поняла, у Вас краткая форма записи, там произведение или сумма? Так у меня и есть сумма $y=a_{1}x_{1}^{a_{2}}+a_{3}x_{2}^{a_{4}}+a_{5}x_{3}^{a_{6}}+a_{7}x_{4}^{a_{8}}+a_{9}x_{5}^{a_{10}}+a_{11}x_{6}^{a_{12}}$. Ее никак не логарифмируешь.
Если у Вас произведение, то логарифмированием сводится к линейной регрессии, а потом возведением в степень можно восстановить исходник, но оно же не соответствует физиологии процесса изначально. Воияние макрокомпонентов в первом приближении аддитивно, если бы это было не так, то человечество выработало бы особые приемы еды - или строго по макрокомпонентам (нынешнее дискредитировавшее себя раздельное питание) или равномерно смешанное, т.е. именнор то, что оказалось бы выгоднее энергетически - рулила ведь всегда проблема выживания, в каменном веке золотого миллиарда не было.

-- 22.03.2020, 12:45 --

aitap в сообщении #1446208 писал(а):
проходят ли модели перекрёстную проверку
?

Слишком большая роскошь отработать параметры не на 36 продуктах, а на 18, чтобы потом на оставшихся 18 проверить. Это не форекс с сотнями тысяч наблюдений.
Что убеждает в работоспособности модели - в среднем она линейная (показ. степени 0,97 при условии одинаковости), а затем близкий к 1 показ. степени для 4 предикторов, а отклоняющийся именно для 2 одиозных, с функциями отличными от энергоснабжения - белками (0,4) и клетчаткой (0,7).
И именно белок отличается от прочих предикторов для иного отклика (инсулинемического) - показ. степени 1,3; т.е. избыток белка форсирует поступление инсулина в кровь, тем самым обеспечивает накопление жира. Видно, так нужно было эволюции. У избытка белка 2 пути - или гнить в кишечнике (если ты не хищник), или в лучшем случае идти на выработку глюкозы (это что топить печку ассигнациями), а ее утилизация требует инсулина.

-- 22.03.2020, 12:50 --

aitap в сообщении #1446208 писал(а):
доказать глобальность найденного оптимума может быть сложно

Так и я к тому, что здесь эвристика.
Тогда подключается конструктная валидность - найденные параметры отвечают разумным предположениям исходя из априорного качественного знания. А тут хоть какая-то цифра появляется. Во всяком случае, модель требованиям фальсифицируемости отвечает - дать денег австралийцам, пускай повторяют все в масштабе 1:10 и по продуктам и по испытуемым, итого в 100 раз масштабнее. Исходя из статистики, точность увеличится в 10 раз.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 15:39 
Аватара пользователя
Произведение, разумеется. Но суть Вашего возражения не понял. Разве отсутствие одного из компонентом возмещается избытком другого?

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 17:27 
Lena-Lisa в сообщении #1446251 писал(а):
Слишком большая роскошь отработать параметры не на 36 продуктах, а на 18, чтобы потом на оставшихся 18 проверить. Это не форекс с сотнями тысяч наблюдений.


Перекрёстную проверку можно сделать на куда меньшей доле от набора данных, чем половина. Самый простой способ - вынимать из набора данных образцы по одному, хотя оценка стабильности в таком случае и получается чересчур оптимистичной. Из 36 продуктов наверняка можно позволить себе вынуть 3-4, разве нет?

Если есть данные о погрешности предикторов, попробуйте посчитать "усы" для параметров. Более кустарный, субъективный и вычислительно сложный вариант: взять какой-нибудь оптимизатор и с его помощью найти найти минимальное отклонение от найденных параметров $ \sum_i w_i (a_i - a_i^\mathrm{optimal})^2$ , при котором сумма квадратов остатков увеличивается в $ \ge \alpha $ раз.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 17:54 
Евгений Машеров в сообщении #1446300 писал(а):
Произведение, разумеется. Но суть Вашего возражения не понял. Разве отсутствие одного из компонентом возмещается избытком другого?

Так произведение не отвечает условию аддитивности, там ведь мультипликативность? Тогда равенство 0 любого из компонентов сводит отклики к 0, чего никак в природе быть не может. Ем 100 г сахара, белки и жиры отсустствуют, и никакой глюкозы в крови. Для совр. человека красота - ешь и не поправляешься, для древнего смерть.
Ниже аддитивность в первом приближении поясняется графиком - отдельно принимались сахар, белок, отруби. масло, а потом все вместе, кривая ~ равна сумме 4 отдельных кривых. Хотя при некоторых компонентах, напр. отрубях, коэффициент при суммировании отрицателен.
Но в том исследовании, на которое я ссылалась, отклик определялся по площади под кривой, что выше 0.
Изображение

-- 22.03.2020, 18:02 --

Евгений Машеров в сообщении #1446300 писал(а):
Разве отсутствие одного из компонентом возмещается избытком другого?

Так это же наша жизнь. Жир свободно заменяется углеводами и наоборот, в некоторых пределах жир/углеводы можно заменить белком. А оптимальное соотношение - это мечта зожника, фикция.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 18:02 
Lena-Lisa в сообщении #1446026 писал(а):
в итоге раздельно были получены 6 разных показателей степеней (0,4 и 0,7 для самых одиозных предикторов, заведомо с отличными функциями, и чего следовало ожидать, и близкими в интервале от 0,9 до 1,1 для прочих 4-х)

Вполне возможно, что самые "одиозные" факторы просто статистически не значимы. Попробуйте исключить их из уравнения и посмотрите, насколько при этом увеличится дисперсия ошибок.

-- 22.03.2020, 19:06 --

aitap в сообщении #1446332 писал(а):
Перекрёстную проверку можно сделать на куда меньшей доле от набора данных

Сделать можно всё что угодно, вопрос в том, насколько адекватными будут полученные результаты. Практика показывает, что ресамплинг удовлетворительно работает только на достаточно больших выборках. В данном случае, на него полагаться не стоит.

-- 22.03.2020, 19:08 --

Lena-Lisa Вы проверяли распределение ошибок модели на нормальность?

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 18:14 
Andrey_Kireew в сообщении #1446341 писал(а):
Вполне возможно, что самые "одиозные" факторы просто статистически не значимы. Попробуйте исключить их из уравнения и посмотрите, насколько при этом увеличится дисперсия ошибок.

Белок "одиозен" оттого, что 3 компонента формулы отвечают за энергию - сахар, крахмал и жир, и лишь белок за строительство органов, стоит особняком. А так он поважнее прочих будет по понятным причинам. Суть именно в том, что он повел себя нелинейно, степени 0,4 и 1,3, т.е. отклики на него компрессируются или форсируются в зависимости от количества, нет пропорциональности, в отличие от прочих компонентов, которые ведут себя линейно, степени ~1. Это предположение выявилось не из исследования его изолированного действия, а из анализа действия продуктов смешанного состава, где белка от 0 (скажем, чупа-чупс) до максимума (спорт. протеин).

-- 22.03.2020, 18:22 --

Andrey_Kireew в сообщении #1446341 писал(а):
Lena-Lisa Вы проверяли распределение ошибок модели на нормальность?

Нет, считала только ср.кв.откл. Причин, что распределение будет каким-либо особым, не вижу. Да и выборка мала, вполне возможны отклоняющиеся значения.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение22.03.2020, 18:27 
Lena-Lisa в сообщении #1446347 писал(а):
Суть именно в том, что он повел себя нелинейно, степени 0,4 и 1,3

Пока, в свете представленных Вами данных, это утверждение выглядит недостаточно статистически обоснованным. Просто гипотеза и не более того. Какие бы ни были рациональные объяснения, они не могут подменить собой эксперимент.

-- 22.03.2020, 19:33 --

Lena-Lisa в сообщении #1446347 писал(а):
Причин, что распределение будет каким-либо особым, не вижу. Да и выборка мала, вполне возможны отклоняющиеся значения

Малый размер выборки не является оправданием отказа от тестов на нормальность. Для этой цели разработаны очень мощные тесты. Дело в том, что если распределение ошибок Вашей модели не противоречит нормальному, значит, в переходе к нелинейным моделям нет никакого смысла. Модель и так вполне адекватная.

Кроме того, как справедливо заметил igor_ivanov, на первый взгляд, кажущееся повышение точности Вашей модели, за счёт введения дополнительных параметров, полностью компенсируется уменьшением числа степеней свободы.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение23.03.2020, 01:47 
Andrey_Kireew в сообщении #1446352 писал(а):
Кроме того, как справедливо заметил igor_ivanov, на первый взгляд, кажущееся повышение точности Вашей модели, за счёт введения дополнительных параметров, полностью компенсируется уменьшением числа степеней свободы.

Я с самого начала напирала на то, что улучшение аппроксимации - не самоцель, тем более, что улучшение остатков всего на 5-10%, но в исследовании
Holt, S.H., Brand Miller, J.C., Petocz, P. Interrelationships among postprandial satiety, glucose and insulin responses and changes in subsequent food intake. Eur. J. Clin. Nutr. Vol. 50, Dec. 1996, pp. 788-797
и пр. тех же авторов приведены ср.кв.откл. по их измерениям, которые того же порядка, что и обе аппроксимации - линейная и степенная, т.е никакая аппроксимация не в состоянии дать точное приближение.
Еще раз - из исходных данных сделана попытка вытащить объясняемые физиологией и биохимией отклонения в отклике организма по глюкозе и инсулину на пищу в зависимости от ее макронутриентного состава. Для чего, исходя из нехватки исходных данных, накопленных по иному поводу и с иной целью, для оценки 12 параметров сконструирован метод. То, что он существует и называется пошаговым спуском или как его там еще, только подкрепляет уверенность в его правомерности, хотя чем только не приходится пользоваться ad hoc. Речь ведь о том, что полученные пускай и рыхлые результаты могут побудить к исследованиям уже в этом направлении, завтра или через 100 лет. Пускай решают специалисты-физиологи.

 
 
 
 Re: Нелинейная множественная регрессия при нехватке наблюдений
Сообщение23.03.2020, 03:11 
При всём уважении, Ваш вопрос сформулирован не совсем конкретно, поэтому на него сложно дать исчерпывающий ответ.
Тем не менее, я попробую выразить по этому поводу своё мнение в целом.

Во первых, уж чем чем а ересью, Ваша обработка данных точно не является. Как бы там ни было, но ересь - это отступление от церковных канонов, а Ваши изыскания к религии имеют весьма опосредованное отношение.

По поводу метода подгонки нелинейной модели - их может быть сконструировано сколько угодно, и это на самом деле не проблема. Случайный поиск, градиентный спуск, квазиньютоновские методы, и т.п. - всё это без особого труда может быть реализовано. Здесь остаются лишь вопросы трудоёмкости и сходимости, но все они вторичны.

По поводу Вашего подозрения, о том что нелинейная модель будет лучше, которое мне представляется главным в Вашем вопросе, то это всего лишь подозрение. По большому счёту, любая реальная зависимость нелинейна. Вопрос в том, насколько велика погрешность линеаризации. В вашем случае, ошибка выборки слишком велика, и на её фоне оценить что либо более менее адекватно очень затруднительно. При всём при этом, Вы будто бы намеренно избегаете углубляться в статистические тесты, предпочитая использовать для обоснования своих выводов косвенные сведения и известные закономерности, почерпнутые из предметной области. Но какая роль в таком случае отводится самой модели? Она ведь ничего не подтверждает и не опровергает. Для того, чтобы придать своим выводам наукообразия? Возможно, на кого то такое и произведёт впечатление, но к науке это уже не имеет никакого отношения.

И по существу: увеличение числа свободных параметров в модели всегда приводит к уменьшению дисперсии ошибки, по другому просто не бывает, и в том, что Вы это обнаружили на своих данных, нет ничего удивительного. Более того, увеличив число свободных параметров до 36 (например используя полиномиальные факторы), Вы всегда сможете абсолютно точно подогнать модель под данные, но это вовсе не значит, что модель от этого станет лучше. Традиционно, на таких малых выборках ограничиваются рассмотрением только простейших линейных моделей, так как только в этом случае можно вообще говорить хоть о какой то достоверности результатов.

Ваша попытка вытащить объясняемые физиологией и биохимией отклонения в отклике организма по глюкозе очень напоминает попытку найти чёрную кошку в тёмной комнате, и не более того. По сути дела, ответ на Ваш главный вопрос неявно содержится в названии темы - у Вас недостаточно наблюдений для того чтобы использовать нелинейную множественную регрессию. И данная ситуация не зависит от того насколько сложно, или возможно вообще собрать дополнительные данные. Да в это мире далеко не всё доступно и далеко не всё возможно, но это вовсе не повод выдавать желаемое за действительное.

 
 
 [ Сообщений: 42 ]  На страницу 1, 2, 3  След.


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group