Линейная регрессия

tatkuz1990 · 28.01.2014, 23:55

Было дано задание произвести экспоненциальную аппроксимацию для заданных эмпирических точек:

то есть подобрать оптимальные $a$ и $b$

зависимости $R = exp(a-bt)$

Совершенно очевидно, что после логарифмирования задача сводится к линейной регрессии. Есть много онлайн ресурсов, с помощью которых легко задачу решить и все они дали результат:

$R=exp(2.631900-0.49384\, t)$

Минимальная сумма квадратов отклонений от экспериментальных точек равна $1.26917$

Но совершенно случайно просто подбором мне удалось установить, что зависимость

$R=exp(2.614639-0.4758736\, t)$

гораздо лучше проходит между точками и не только визуально. Сумма квадратов отклонений равна $1.1896$ , что на 6.5% меньше, чем в классической аппроксимации.
Как такое объяснить? Получается, что линейная регрессия может давать неоптимальные решения.

zvm · 29.01.2014, 00:53

tatkuz1990 вurl=http://dxdy.rupost820174.html#p820174]сообщении#820174[/url] писал(а):

Получается, что линейная регрессия может давать неоптимальные решения.

Ничего удивительного. Найдена оптимальная оценка зависимости логарифма R от t. Она совсем не обязана обеспечивать минимум суммы квадратов отклонений табличных значений R от предсказанных. Чтобы решить задачу без логарифмирования, нужно использовать методы нелинейной регрессии.

Евгений Машеров · 29.01.2014, 07:51

Разная спецификация ошибки
$y=\exp(a+bx+\varepsilon)$
и
$y=\exp(a+bx)+\varepsilon$
Сведение задачи логарифмированием к линейной для первого варианта.
Какая спецификация верна - решается не статистически, а исходя из сведений о задаче. И, как правило, чаще первая. Если эпсилон отражает влияние неучтённых в модели (и неконтролируемых) факторов, то воздействие заданного изменения какого-либо из них приводит к одинаковым относительным изменениям регрессанда (что после логарифмирования даёт одинаковость дисперсии - гомоскедастичность). С другой стороны, эпсилон может быть, например, ошибкой измерения y, нормально распределённой и с постоянной дисперсией, тогда логарифмирование ухудшает модель (а при большой дисперсии ошибки вообще возможны отрицательные значения y, и логарифмировать нельзя).

tatkuz1990 · 29.01.2014, 14:34

Спасибо за пояснения! Но как же тогда получить решение, близкое ко второму? То есть, как применить метод нелинейной регрессии? Задача простая, она отладочная. Кто-нибудь найдет время рассчитать? Возможно, что и второе уравнение не оптимальное.
Мне крайне важно в этом разобраться, поскольку ждут на порядок более сложные задания.

ИСН · 29.01.2014, 14:44

Ёкселем, вот как.

tatkuz1990 · 29.01.2014, 15:03

Вот я и прошу выполнить, допустим, в Excel. Дело-то минутное, кто его хорошо знает. Мне же придется в нем долго разбираться. Удалось только точки построить, дальше знаний не хватает:

Разобраться удалось, получилось, увы, по первому решению. То есть опять неоптимальному (в более лучшем решении перед экспонентой стоит число 13.6623):

Такой же плачевный результат дал калькулятор нелинейной регрессии
http://math.semestr.ru/corel/noncorel.php

Как же быть? Неужели нет специалистов в этом важном для меня вопросе?

Александрович · 29.01.2014, 15:26

Зарезервируйте две соседние ячейки под коэффициенты регрессии. Вбейте туда коэффициенты, которые вами найдены. Для каждой точки по этим коэффициентам постройте теоретическую функцию в столбце С. В столбце D формируйте квадраты разностей двух функций. В какой-нибудь ячейке сформируйте итоговую сумму квадратов невязок. Далее пакетом "Поиск решения" находите такие коэффициенты регрессии, чтобы итоговая сумма была минимальной.

tatkuz1990 · 29.01.2014, 15:31

Такое сравнение было сделано вручную:

Александрович · 29.01.2014, 15:35

"Поиск решения" подберёт вам такие коэффициенты при которых сумма будет минимальной.

tatkuz1990 · 29.01.2014, 15:39

Я понимаю, но так я не могу в дальнейшем работать. Метод аппроксимации заложен в виде блока основной моей программы. Мне нужно непременно математический метод, дающий только оптимальное решение. Точек будет тысячи. Не могу же я их Экселем оптимизировать.
Крайне важно отладить как следует математический метод на данном простом примере.
Короче, мне нужно нечто более тонкое, чем формулы

$Y=a+bX$
где

$a=\frac{\sum Y - b \sum X}{n}$

$b=\frac{n \sum (XY)-\sum X \cdot \sum Y}{n \sum X^2-\left ( \sum X\right )^2}$

Пока что обнаружено, что и онлайн-калькуляторы нелинейной регрессии, и Excel использую используют только приведенные зависимости.

Александрович · 29.01.2014, 16:21

А других формул - нет! Пишите программу подобную "Поиск решения".

Deggial · 29.01.2014, 18:57

i

Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Карантин»
Причина переноса: формулы не оформлены $\TeX$ ом

tatkuz1990
Наберите все формулы и термы $\TeX$ ом правильно.
Инструкции по оформлению формул здесь или здесь (или в этом видеоролике).
После исправлений сообщите в теме Сообщение в карантине исправлено, и тогда тема будет возвращена.

i	Тема перемещена из форума «Карантин» в форум «Помогите решить / разобраться (М)» Вернул. Сумма пишется так: \sum\limits_{k=a}^{b}f(k)

Cash · 29.01.2014, 19:26

Так а в чем проблема найти минимум функции двух переменных?
Куча литературы же...
Ну хотя бы метод покоординатного спуска.

tatkuz1990 · 29.01.2014, 19:40

Проблема в том, чтобы строго математические формулы записать: по ним нужно однозначно найти оптимум. Формулы нелинейной регрессии для экспоненциальной зависимости, к сожалению, дают лишь приближенные параметры, далекие от оптимальных. Ошибка слишком большая для моих задач.
Но если Вы знаете, как получить оптимум, то покажите пожалуйста на моем тестовом примере. Это очень для меня важно.

ИСН · 29.01.2014, 19:53

Формулы записать нельзя.

Научный форум dxdy

Линейная регрессия