2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 регрессия
Сообщение26.12.2014, 23:20 


22/11/11
380
Менеджер по развитию сети розничных магазинов анализирует динамику открытия
новых торговых точек в регионе. Получены следующие данные:

$$\begin{bmatrix}
 \text{год}&\text{число новых магазинов }\\
 1993&  38 \\
1994&  45 \\
1995&  60 \\
1996&  80\\
1997&  108 \\
1998&  141 \\
1999&  186 \\
2000&  241 \\
2001&  311 \\
2002&  396 \\
2003&  519 \\
2004&  629\\
2005&  721 \\
2006&  809 \\
2007&  ? \\

\end{bmatrix}$$


1) Постройте линейное уравнение тренда и оцените его качество.
2) Менеджер, составляя отчет, отметил, что наилучшее уравнение тренда имеет вид
$y^*_t=5,1202t^2-16,036t+55,126$ , где $t =1,2,...n$ . Поддерживаете ли Вы его точку
зрения? Аргументируйте свой ответ.
3) Дайте точечный прогноз числа новых магазинов на $2007$ год, используя лучшее уравнение тренда

1) У меня получилось, что $y^*_t=-149,6+60,767032967033t$

$R^2=0,91$, По Фишеру значимость хороша $F=127,4720964$

2) Я составил квадратичную регрессию сам, получилось те же коэфициенты, по коэфициент детерминации больше, его значимость больше.

Можно ли было заранее узнать, не строя квадратичный тренд самому -- какая регрессия больше подойдет -- квадратичная или линейная? Я так понимаю, что квадратичная больше подойдет, потому как детерминация больше и значимость больше? Верно?

 Профиль  
                  
 
 Re: регрессия
Сообщение27.12.2014, 07:43 
Заслуженный участник
Аватара пользователя


11/03/08
9490
Москва
Коэффициент детерминации совершенно не пригоден для отбора оптимального числа регрессоров (и вообще для сравнения моделей с разным числом параметров). Дело в том, что при включении дополнительного регрессора коэффициент всегда растёт (строго говоря, не убывает, но чтобы не изменился - новый регрессор должен быть ортогонален к вектору остатков прежней регрессии, что не невозможно, но так же маловероятно в реальности, как поставить карандаш на кончик и ждать, что он будет так стоять). Лучше использовать коэффициенты, в которым учтено изменение числа регрессоров (F-отношение, скорректированный или adjusted$R^2$, $C_p$ и другие) или проверять полученную модель по независимой выборке (как паллиатив - проверять скользящим экзаменом). Проще всего по F-отношению, оно популярнее и не надо объяснять, зачем оно, как с менее распространёнными критериями.
Вообще же использовать полиномы без риска можно для интерполяции, но не для экстраполяции, могут быть крайне бредовые результаты (отрицательный прогноз для количества в штуках, к примеру). Если они используются - нужно обоснование содержательное, не только хорошей подгонкой.
Способы "прикидывать" порядок полинома в своё время предлагались, например, получая разности всё более высокого порядка и наблюдая, на каком порядке они стабилизируются. Однако смысл в этом был при ручных расчётах, самые примитивные компьютеры уже сделали более простым рассчитать модели целиком и сравнить. Это позволяло избежать некоторых ловушек, связанных с тем, что при переходе к разностям ошибки модели уже были не независимы.

 Профиль  
                  
 
 Re: регрессия
Сообщение27.12.2014, 09:33 
Аватара пользователя


21/01/09
3923
Дивногорск
Andrei94 в сообщении #952851 писал(а):
Менеджер по развитию сети розничных магазинов анализирует динамику открытия
новых торговых точек в регионе.
2) Менеджер, составляя отчет, отметил, что наилучшее уравнение тренда имеет вид
$y^*_t=5,1202t^2-16,036t+55,126$ , где $t =1,2,...n$ . Поддерживаете ли Вы его точку
зрения? Аргументируйте свой ответ.

Нет. Посмотрите его прогноз на бесконечности. А регион не резиновый. Нужно было подбирать формулу с насыщением.

Andrei94 в сообщении #952851 писал(а):
Можно ли было заранее узнать, не строя квадратичный тренд самому -- какая регрессия больше подойдет -- квадратичная или линейная? Я так понимаю, что квадратичная больше подойдет, потому как детерминация больше и значимость больше? Верно?

Ни одна из предложенных линий регрессии не подходят. Точнее подходят обе, но одинаково плохо.

 Профиль  
                  
 
 Re: регрессия
Сообщение28.12.2014, 01:18 


22/11/11
380
Спасибо! На бесконечности должно, якобы, открыться бесконечное число магазинов. А что за формула с насыщением? (не знаю такую). А просто по диаграмме рассеяния можно прикидывать -- что лучше подойдет, на глаз?

 Профиль  
                  
 
 Re: регрессия
Сообщение28.12.2014, 05:05 
Аватара пользователя


21/01/09
3923
Дивногорск
Andrei94 в сообщении #953322 писал(а):
А что за формула с насыщением? (не знаю такую).

Что-нибудь из функций распределения. Лапласа, например.

 Профиль  
                  
 
 Re: регрессия
Сообщение28.12.2014, 06:47 
Заслуженный участник
Аватара пользователя


11/03/08
9490
Москва
На короткий период экстраполяции может работать любая зависимость, её поведением на бесконечности можно пренебречь. Тут скорее можно спросить, будет ли постоянен годовой прирост (и тогда линейная зависимость от t), равномерно нарастать или убывать (что даёт квадратичную) или, скажем, постоянен прирост, но не абсолютный, а относительный (столько-то процентов в год), что даст $ae^{bt}$, что логарифмированием можно свести к линейной. Выбор между этими предположениями
желательно основывать на содержательных соображениях, а не формально-статистических (и, во всяком случае, сравнивая модели с разным числом параметров, использовать критерии, учитывающие это различие).
На длительный (достаточно грубое, но полезное правило - экстраполяция далее, чем на 1/10 от длины отрезка наблюдений) уже надо задумываться о "поведении на бесконечности", и часто есть резон употреблять "модели с насыщением"
Например, логистическую $y=\frac K {1+ae^{bt}}$

 Профиль  
                  
 
 Re: регрессия
Сообщение28.12.2014, 07:15 
Аватара пользователя


21/01/09
3923
Дивногорск
Изображение

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 7 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group