Об разновидностях МНК

eugrita · 15/04/10 985 г.Москва

Кроме классического метода наименьших квадратов (он же одномерная регрессия)
заключающегося в аппроксимации экспериментальных данных линейной зависимостью $y=ax+b$ есть ряд разновидностей -попыток подобрать наилучшую нелинейную двухпараметрическую зависимость например $y=b \cdot x^a$ (1)
или $y=\frac{1}{ax+b }$ (2)
которые сводятся к линейному МНК преобразованием массивов x и y исходных данных. Например, в случае (1) преобразования имеют вид
$x'=\ln(x) , y'=\ln(y)$
В случае (2) $x' =x, y'=\frac{1}{y}$
Не говоря уже об отсутствии математической обоснованности минимизации суммы квадратов, при попытке использования, скажем варианта аппроксимации (2) могут возникнуть казусы. Примеры на Матлаб:
1)гипербола уходит в бесконечность
$x=[1,1.5,2,2.6,3,3.5,4., 4.5,5 ]; y=[0.73, 1.8, 2.9, 2.63, 3.78, 4.58, 4.50, 4.65, 5.75]$

более смягченный вариант
$x=[1,1.5,2,2.6,3,3.5,4., 4.5,5 ]; y=[0.8, 1, 2, 2.3, 2.7, 3.2, 3.8, 4.0, 4.2];$
результат

(изломы теоретической зависимости на графиках т.к. они построены не на частой сетке а в тех же точках $x_i$ что и эксп.данные)
в обоих случаях на нижних графиках прямая-регрессия построенная на преобразованных данных. Видно что по y' на правом конце она близка к нулю.
А что вообще делать если массив y имеет разные знаки? тогда -регрессия по преобразованным данных будет проходить через 0, обратная зависимость соответственно в бесконечность или с 1 ветви гиперболы на другую.
Несмотря на то что подобные аппроксимации приводятся . в литературе по статистике , как ими правильно пользоваться? Если не на всех данных, то на каких? Меня интересует прежде всего зависимость (2) - такую дали в лабораторной работе на тему исследования аппроксимаций через МНК

Xaositect · 06/10/08 6422

Было обсуждение по близкой теме: «Люди, порой, не видят очевидные вещи [нелин. аппроксимация]»

Александрович · 21/01/09 3923 Дивногорск

eugrita, в Вашем случае я поступаю следующим образом. Сначала нахожу коэффициенты для линеаризированных переменных, а затем уточняю их из условия минимума суммы квадратов невязок для исходных данных (в Эксель - Поиск решения).

-- Вт дек 19, 2017 06:30:13 --

eugrita · 15/04/10 985 г.Москва

могу только констатировать что линейные в смысле МНК уравнения имеет лишь зависимости где параметры a b входят линейно
$y=\frac{a}{x}+b$ $y=a \cdot \ln(x)+b$
и стандартные формулы применимы если считать по преобразованным данным.
В остальных случаях система 2 нелинейных уравнения или 1 нелинейное которые конечно можно решать численными методами
Любопытно что для аппроксимации $y=b \cdot e^{ax}$
дифференцирование выражения для ср кв откл
$S=\Sigma (y_i-be^{ax_i})^2=s_{2y}-2b \Sigma(y_i \cdot e^{ax_i}) +b^2\Sigma(y_i \cdot e^{2ax_i})$
по а и по b дает 2 практически одинаковых уравнения
$\partial S / \partial b =0$ дает $2b \cdot \Sigma e^{2ax_i} -\Sigma y_i e^{2ax_i}=0$
а $\partial S / \partial a =0$ дает $2ab^2 \cdot \Sigma e^{2ax_i} -2ab\Sigma y_i e^{2ax_i}=0$
Как это понимать? Нет ли ошибки в уравнениях?

Someone · 23/07/05 17973 Москва

eugrita в сообщении #1276438 писал(а):

$\partial S / \partial b =0$ дает $2b \cdot \Sigma e^{2ax_i} -\Sigma y_i e^{2ax_i}=0$
а $\partial S / \partial a =0$ дает $2ab^2 \cdot \Sigma e^{2ax_i} -2ab\Sigma y_i e^{2ax_i}=0$
Как это понимать? Нет ли ошибки в уравнениях?

Производную неправильно вычисляете.

B@R5uk · 26/05/12 1534 приходит весна?

eugrita в сообщении #1276172 писал(а):

Не говоря уже об отсутствии математической обоснованности минимизации суммы квадратов, при попытке использования, скажем варианта аппроксимации (2) могут возникнуть казусы.

Математическая основа есть, просто вы не правильно применяете МНК. Особенно, если ваши данные являются какими-либо измерениями. Любое измерение имеет погрешность. Когда вы логарифмируете и экспоненцируете ваши данные преобразуются не только сами величины, но и соответствующие им погрешности. Если погрешности величин до логарифмирования были одинаковы, то после — они станут разными. Те формулы, которыми вы пользуетесь и которые называете "линейным МНК", на самом деле выведены в предположении, что независимые переменные не имеют погрешности, а у зависимых эта погрешность одинакова. Разумеется, нельзя применять эти формулы для величин у которых погрешность будет разная. Для этого имеется так называемый "МНК с весами". Это для затравки.

А если копать глубже, то ещё надо учитывать распределение такой случайной величины, как погрешность. МНК подразумевает, что погрешность имеет гауссово распределение. Этот самый квадрат в методе берётся из-за того самого квадрата под экспонентой в распределении Гаусса. Вообще говоря, после преобразования данных нелинейной функцией распределение случайной величины перестанет быть гауссовым. Распределение исказится, перестанет быть симметричным (внося, кстати, систематическую погрешность) и так далее. Этим можно пренебречь, если погрешность достаточно мала. Слова "достаточно мала" подразумевают, что её надо сравнить с чем-то. Это что-то рассчитывается среди всего прочего и через производную функции, которая сводит "нелинейный МНК" к "линейному".

А вообще, если уж пользуетесь Матлабом, то вот вам мой совет. Используйте МНК "в лоб" с численной оптимизацией с помощью функции fminsearch. И не важно, сколько у вас независимых переменных и сколько искомых параметров. Просто строите функцию модели, которая выражает зависимую величину через параметры модели и независимые величины. Затем строите целевую функцию, которая является суммой квадратов разностей практических значений зависимой величины и теоретических значений этой величины, рассчитанных через функцию модели. Суммирование ведётся по вашим практическим точкам. Затем полученную целевую функцию минимизируете численно варьируя параметры модели. Если функция какая-нибудь замороченная, то придётся подобрать хорошее начальное приближение (иначе можете найти какой-нибудь левый побочный минимум, вместо глобального — радости численной оптимизации). Полученные в результате минимизации величины и будут теми самыми искомыми параметрами. Для них даже формулы с погрешностями есть, правда они тот ещё крокодил с матрицами и производными. Иногда (при сложной функции модели) процесс оптимизации может оказаться весьма трудоёмким, но компьютеры для того и созданы, чтобы трудиться. Какие бы недостатки этот подход не имел он имеет преимущество пред любыми другими методами. При грамотном применении, разумеется.

eugrita · 15/04/10 985 г.Москва

Someone в сообщении #1276451 писал(а):

eugrita в сообщении #1276438 писал(а):

$\partial S / \partial b =0$ дает $2b \cdot \Sigma e^{2ax_i} -\Sigma y_i e^{2ax_i}=0$
а $\partial S / \partial a =0$ дает $2ab^2 \cdot \Sigma e^{2ax_i} -2ab\Sigma y_i e^{2ax_i}=0$
Как это понимать? Нет ли ошибки в уравнениях?

Производную неправильно вычисляете.

да ошибку нашел
ниже сделал попытку подбора параметров экспоненциальной регрессии. $y=b \cdot e^{ax}$
Нашел начальные приближения a0,b0 через нормальные уравнения МНК с преобразованными по ln данными. Дальше из усл экстремума точной сумм кв откл $\min S(a,b)$ получается нелинейное уравнения для a
$b=\frac{\sum(x_iy_ie^{ax_i})}{\sum(x_ie^{2ax_i})}=\frac{\sum(y_ie^{ax_i})}{\sum(e^{2ax_i})}$
И дальше поиск его корня с нахождением границ диапазона и метода деления пополам. Вот ниже результат. Среднеквадратичное отклонение удалось снизить с 0.75 до 0.54

Так как же насчет нередкой в статистике временных рядов модели экспоненциальной регрессии? Вот сайт www.MatBuro.ru да и куча других пособий
Как правило, такими нелинейными методами читателей не заморачивают, а все сводят к упомянутому линейному МНК с преобразованием исх данных. Как же, он такой доступный, его даже менеджер не знающий математики в Excel рассчитать может...

Евгений Машеров · 11/03/08 9541 Москва

При построении регрессионной модели требуется задать спецификацию ошибки. Нелинейные преобразования регрессанда её меняют. Если мы задали ошибку, как аддитивную и полагаем независимыми одинаково (или даже нормально с одинаковыми параметрами) распределёнными случайными величинами
$y=f(x;a)+\varepsilon$
то преобразование $g(y)$ такое, что $g(f(x,a))=x^Ta$ , приводящее к линейности, спецификацию ошибки изменит.
Эффект различен, в пределах от появления разных дисперсий ошибок в разных наблюдениях (гетероскедастичности) до полной неработоспособности модели.
Однако возможно и иная спецификация ошибки, в которой как раз такое преобразование даст нам обычные условия применения регрессионного анализа.
Кажется, я уже такой пример приводил - оценивание "производственной функции Кобба-Дугласа"
$P=aK^{\alpha}L^{\beta}$
выражающей зависимость продукции P от наличия труда L и капитала K. Логарифмирование приводит её к линейному виду. При этом на результат влияют неучтённые факторы, которые рассматриваются, как случайная помеха. И для экономистов естественно выражать их влияние в процентах и совместное действие считать мультипликативным. Тогда распределение эффекта от неучтённых факторов можно приблизить логнормальным распределением (можно даже при некоторых дополнительных условиях доказать, что в пределе это и будет логнормальное), логарифм от него будет нормальным, и после логарифмирования мы вполне соблюдаем условия применения линейной регрессии, даже ошибка нормальная, и нам доступны соответствующие тесты, оценка максимально правдоподобна и т.п.
$P=aK^{\alpha}L^{\beta}e^{\varepsilon}$
$\ln P=\alpha\ln L+\beta\ln K+\varepsilon$
Однако если в модели того же вида, произведение двух факторов, возведённых в подлежащие оценке степени, ошибка аддитивна (ну, скажем, порождена ошибкой измерения, а та связана с дискретностью шкалы прибора и погрешностями съёма с неё)
$P=aK^{\alpha}L^{\beta}+\varepsilon$
то логарифмирование исказит спецификацию ошибки. Как минимум, станет различной дисперсия, а где-то под логарифмом окажется отрицательное число. В этом случае надо оценивать без линеаризации, общими нелинейными методами оптимизации или приспособленными к такой задаче (например, Левенберга-Марквардта). Если ошибки малы - линеаризация даст дешёвое приближённое решение, но если не совсем уж малы, порядка вычислительной погрешности - такое решение годится для грубой оценки или в качестве начального приближения для общего метода.
Там, где рекомендуют просто линеаризовать - либо, исследовав модель, пришли к выводу, что линеаризация не только упрощает вид модели, но и приводит спецификацию ошибки к нужному виду, либо принимают, что ошибка очень мала. Третий вариант - бездумно повторяют рекомендацию старых учебников, которые исходили из того, что так можно получить приближённое решение, когда другое получить невозможно. Прогресс вычтехники позволил оценивать достаточно сложные нелинейные модели, так что следовать этой рекомендации не слишком обосновано.

Александрович · 21/01/09 3923 Дивногорск

Преобразования переменных для приведения функции регрессии к виду, возможному для аналитического решения делались в позапрошлом веке для ручного счёта. Сейчас это делать не обязательно, поскольку счёт в значительной мере автоматизирован. Что касается Вашего случая, то помимо предложенного способа можно воспользоваться ещё одним. Пусть функция регрессии имеет вид: $y(x)=\frac{a}{x+b}$ . Тогда по двум парам значений (лучше брать крайние), решая систему двух уравнений с двумя неизвестными находим оценку для $b$ . Далее, варьируя этой оценкой находим такое $b$ , для которого сумма квадрата невязок будет иметь минимальное значение.

Евгений Машеров · 11/03/08 9541 Москва

Нелинейные преобразования делаются с тремя целями:
- привести модель к линейной;
- привести распределение к нормальному или приближению к нему;
- стабилизировать дисперсию.
Если очень повезёт - удастся удовлетворить всем этим условиям. Но чаще, увы, "хвост вытащил - нос увяз".
В силу развития вычтехники первая причина, некогда самая основная, стала менее важной, но вовсе не исчезла. Однако нелинейные преобразования для стабилизации дисперсии, как $\arcsin\sqrt x$ или нормализации, как $\frac 1 2 \ln{\frac{1+r}{1-r}}$ своё значение сохранили.

eugrita · 15/04/10 985 г.Москва

Евгений Машеров в сообщении #1276684 писал(а):

"производственной функции Кобба-Дугласа"
$P=aK^{\alpha}L^{\beta}$
выражающей зависимость продукции P от наличия труда L и капитала K. Логарифмирование приводит её к линейному виду. При этом на результат влияют неучтённые факторы, которые рассматриваются, как случайная помеха. И для экономистов естественно выражать их влияние в процентах и совместное действие считать мультипликативным. Тогда распределение эффекта от неучтённых факторов можно приблизить логнормальным распределением (можно даже при некоторых дополнительных условиях доказать, что в пределе это и будет логнормальное), логарифм от него будет нормальным, и после логарифмирования мы вполне соблюдаем условия применения линейной регрессии, даже ошибка нормальная, и нам доступны соответствующие тесты, оценка максимально правдоподобна и т.п.
$P=aK^{\alpha}L^{\beta}e^{\varepsilon}$
$\ln P=\alpha\ln L+\beta\ln K+\varepsilon$
Однако если в модели того же вида, произведение двух факторов, возведённых в подлежащие оценке степени, ошибка аддитивна (ну, скажем, порождена ошибкой измерения, а та связана с дискретностью шкалы прибора и погрешностями съёма с неё)
$P=aK^{\alpha}L^{\beta}+\varepsilon$
то логарифмирование исказит спецификацию ошибки. Как минимум, станет различной дисперсия, а где-то под логарифмом окажется отрицательное число. В этом случае надо оценивать без линеаризации, общими нелинейными методами оптимизации или приспособленными к такой задаче (например, Левенберга-Марквардта). Если ошибки малы - линеаризация даст дешёвое приближённое решение, но если не совсем уж малы, порядка вычислительной погрешности - такое решение годится для грубой оценки или в качестве начального приближения для общего метода.
Там, где рекомендуют просто линеаризовать - либо, исследовав модель, пришли к выводу, что линеаризация не только упрощает вид модели, но и приводит спецификацию ошибки к нужному виду, либо принимают, что ошибка очень мала. Третий вариант - бездумно повторяют рекомендацию старых учебников, которые исходили из того, что так можно получить приближённое решение, когда другое получить невозможно. Прогресс вычтехники позволил оценивать достаточно сложные нелинейные модели, так что следовать этой рекомендации не слишком обосновано.

1)Видимо надо различать учебные случаи, когда задана одна единственная выборка и надо любой ценой подобрать распределение возможно ближе к данным в смысле суммы квадратов и случай более общий - построения регрессионной модели. Там все о чем говорил Машеров видимо нужно.
2)Но тогда уж и еще вопрос. А почему собственно сумма квадратов по зависимой переменной - т.е. регрессия по x пусть и нелинейная?
В методе главных компонент отклонения экспериментальных точек от прямой (плоскости) считаются не по x а перпендикулярно этой прямой, т.е. происходит поворот к "главным осям"
Легко в мат пакете построить для 2-мерных эксп.данных 3 прямые 1)регрессия y по x $y=a_1x+b_1$
2)регрессия x по y $x=a_2y+b_2$ и собственно прямую главных компонент $y=ax+b$
у меня получалось что она лежала всегда между прямыми регрессий.
Не говоря уж о "криволинейном" методе главных компонент когда зависимость компонент не прямая а криволинейная но расстояния по прежнему от эксп точек по нормали к ней

Евгений Машеров · 11/03/08 9541 Москва

Вопрос опять же в спецификации ошибки. В традиционном МНК "ошибка" это для краткости речи, вместо "суммарное влияние всех неучтённых факторов на значение Y". И поэтому минимизируют отклонения по игрекам. Может быть постановка с ошибками измерений всех переменных. Тогда, если дисперсии ошибок известны, можно свести к главным компонентам.

eugrita · 15/04/10 985 г.Москва

Евгений Машеров в сообщении #1277392 писал(а):

Вопрос опять же в спецификации ошибки. В традиционном МНК "ошибка" это для краткости речи, вместо "суммарное влияние всех неучтённых факторов на значение Y". И поэтому минимизируют отклонения по игрекам. Может быть постановка с ошибками измерений всех переменных. Тогда, если дисперсии ошибок известны, можно свести к главным компонентам.

Спасибо за уточнение
до этого не совсем точно выразился.
Как то в обсуждении смешались 2 разных задачи
(я собственно имел ввиду изначально 1 вариант)
1)аппроксимации точек 1-2 параметрическим семейством функций -задача разовая
2)задача построения регрессионной модели, где нужна не столько аппроксимация
по разовым данным, а необходимость делать прогноз по ней. Отсюда и учет всех ошибок измерений, и требования "обучения модели " при поступлении новых экспериментальных данных

Евгений Машеров · 11/03/08 9541 Москва

Для прогноза, если значения регрессоров для прогноза предполагаются известными, также оптимальна модель, в которой ошибкой отягощён только y.

B@R5uk · 26/05/12 1534 приходит весна?

Евгений Машеров в сообщении #1277532 писал(а):

в которой ошибкой отягощён только y.

Довольно простым искусственным приёмом через производную ошибки по иксам можно перевести в ошибки по игрекам (в дополнение к уже имеющимся). Разумеется, теорвер предлагает более грамотный подход (но и более сложный и трудоёмкий), но и этот вполне может сгодится, когда хочется получить результат быстро, а ошибки по иксам заметно портят жизнь.

-- 23.12.2017, 19:11 --

eugrita в сообщении #1277442 писал(а):

аппроксимации точек 1-2 параметрическим семейством функций -задача разовая

Даже разовая задача должна делаться грамотно. Если ошибки разных измерений отличаются, то надо вводить в МНК веса, иначе полученный результат не будет достаточно точным. По этим же ошибкам надо рассчитывать ошибку результата. И не важно для чего этот результат будет использоваться — для вывода на индикатор показометра или же для прогнозирования чего бы то ни было — это просто грамотный подход к делу.

Разумеется, что когда ошибки данных не известны, только и остаётся, что предположить, что они одинаковы и оценить их исходя из получающегося разброса этих данных относительно кривой модели.

Научный форум dxdy

Правила форума

Об разновидностях МНК

Кто сейчас на конференции