2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


В этом разделе нельзя создавать новые темы.

Если Вы хотите задать новый вопрос, то не дописывайте его в существующую тему, а создайте новую в корневом разделе "Помогите решить/разобраться (М)".

Если Вы зададите новый вопрос в существующей теме, то в случае нарушения оформления или других правил форума Ваше сообщение и все ответы на него могут быть удалены без предупреждения.

Не ищите на этом форуме халяву, правила запрещают участникам публиковать готовые решения стандартных учебных задач. Автор вопроса обязан привести свои попытки решения и указать конкретные затруднения.

Обязательно просмотрите тему Правила данного раздела, иначе Ваша тема может быть удалена или перемещена в Карантин, а Вы так и не узнаете, почему.



Начать новую тему Ответить на тему
 
 Помогите пожалуйста разобраться в терминах и теории
Сообщение20.06.2011, 14:04 


23/11/09
130
Доброго времени суток!
Сразу скажу что тема для меня новая. Для исследования временных рядов мне понадобились такие инструменты как регрессия, авторегрессия, корреляция, автокорреляция. В частности я пытаюсь разобраться в модели ARIMA, в которую собственно входит автокорреляция, и экстраполяции функций с помощью всего этого. Мне нужно качественно разобраться что тут с чем едят. Так как гугл юзал, много читал, разобрался туго, поэтому обращаюсь к вам. Итак вопросы:

1. Правильно ли я понимаю что корреляция имеет геометрическую интерпретацию как косинус угла между гипервекторами? Таким образом формула корреляции Пирсона дает тоже самое что и скалярное умножение векторов?

2. В чем разница между корреляцией и автокорреляцией? Соответственно в чем раздница между регрессией и авторегрессий?

3. Запутался в терминах в разных источниках называют то корреляционный анализ то статистический то регрессионный причем пишут что это все похожие анализы, в чем тут разница?

4. По автокоррелограмме можно судить есть ли в данных тренд. Что имеется в виду, просто наличие роста (падения) исследуемых данных или же то, что данные можно описать какой-то аналитической функцией допустим полиномом (линией тренда + ряд остатков)?

5. После анализа допустим я хочу построить экстраполяцию, для чего предлагают воспользоваться методом МНК. Допустим я выбрал уравнение регрессии в виде степенного полинома и получил систему уравнений в которой число неизвестных больше чем число уравнений. Как решить такую систему? С этого момента непонятно что делать дальше.

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 15:42 


29/09/06
4552
logout2d в сообщении #460176 писал(а):
5. После анализа допустим я хочу построить экстраполяцию, для чего предлагают воспользоваться методом МНК.
Давайте строить аппроксимацию (а не экстра/интерполяцию), дабы дискуссия не отскочила в сторону.
logout2d в сообщении #460176 писал(а):
Допустим я выбрал уравнение регрессии в виде степенного полинома и получил систему уравнений в которой число неизвестных больше чем число уравнений. Как решить такую систему?
В МНК так не бывает. Вы чего-то недопоняли в методе. У Вас 100 точек, аппроксимируете прямой $y=ax+b$. Будет 2 уравнения, 2 неизвестных. Аппроксимируете параболой $y=ax^2+bx+c$: будет 3 уравнения, 3 неизвестных.

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 15:56 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
logout2d в сообщении #460176 писал(а):
1. Правильно ли я понимаю что корреляция имеет геометрическую интерпретацию как косинус угла между гипервекторами? Таким образом формула корреляции Пирсона дает тоже самое что и скалярное умножение векторов?


Надо не путать теоретический коэффициент корреляции двух случайных величин и выборочный коэффициент корреляции, вычисляемый по имеющейся выборке. Поскольку они оба принимают значения от -1 до 1, то их можно интерпретировать как косинус угла, и эта интерпретация иногда может быть полезной. Выборочный же коэффициент корреляции, вычисляемый по формуле Пирсона, просто в точности есть скалярное произведение двух векторов единичной длины, поэтому это действительно в точности есть косинус угла между ними.

-- Пн июн 20, 2011 16:59:38 --

logout2d в сообщении #460176 писал(а):
2. В чем разница между корреляцией и автокорреляцией? Соответственно в чем раздница между регрессией и авторегрессий?


Разница такая же, как и между портретом и автопортретом (биографией и автобиографией, рефератом и авторефератом...) :-)
Что вообще означает приставка "авто"?

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 18:09 


23/11/09
130
Спасибо за ответы.
Цитата:
Надо не путать теоретический коэффициент корреляции двух случайных величин и выборочный коэффициент корреляции, вычисляемый по имеющейся выборке.

Ладно, почитаю :-) Вообще меня интересует пока только анализ выборок. Может еще какие-то виды бывают о которых следует знать?

Цитата:
Разница такая же, как и между портретом и автопортретом (биографией и автобиографией, рефератом и авторефератом...) :-)
Что вообще означает приставка "авто"?

:D юмор оценил, но я вполне серьезно спросил. Прочитал что коэффициент корреляции показывает степень линейной связи, а автокорреляция показывает наличие тренда. И еще я догадываюсь до сути автокорреляции, так как она строится по ряду данных и по томуже ряду но смещенному на лаг, то предполагаю что смысл тут в поиске "резонанса" который улавливает закономерности в данных например цикличность. Но вот поконкретнее бы... что такое тогда авторегрессия?!

И вообще я не очень понял суть регрессии, это анализ выборки (тогда на предмет чего?) или же это построение прогноза?

Уважаемый Алексей К., я не путаю термины аппроксимация, интерполяция и экстраполяция, если вы об этом подумали :-)
Интерполяция - это когда искомая аналитическая кривая проходит через точки данных.
Аппроксимация - это когда искомая аналитическая кривая проходит не через точки данных, но выполняется какой либо закон, обычно это МНК минимизирующая отклонения.
Экстраполяция - это когда мы строим искомую аналитическую кривую вне данных, другими словами прогнозируем поведение исследуемого процесса.
Когда я строю аппроксимацию, действительно число неизвестных равно числу уравнений и система решается методом гаусса и легко программируется, но я говорю именно о экстраполяции, когда уже известна аппроксимированная кривая и ее надо продолжить, тогда неизвестных становится больше числа уравнений, и вот тут то и загвоздка :-(

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 18:23 


29/09/06
4552
logout2d в сообщении #460267 писал(а):
но я говорю именно о экстраполяции, когда уже известна аппроксимированная кривая и ее надо продолжить, тогда неизвестных становится больше числа уравнений, и вот тут то и загвоздка
Ну, здесь я чего-то не понимаю. Аппроксимировали по МНК, нашли функцию, забыли про МНК, экстраполируем: т.е. вычисляем значения найденной функции вне интервала. Какие тут уравнения-неизвестные?

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 19:45 
Заслуженный участник
Аватара пользователя


30/01/09
7143
logout2d в сообщении #460176 писал(а):
4. По автокоррелограмме можно судить есть ли в данных тренд. Что имеется в виду, просто наличие роста (падения) исследуемых данных или же то, что данные можно описать какой-то аналитической функцией допустим полиномом (линией тренда + ряд остатков)?

Судить всегда надо с осторожностью. Допустим у нас есть гипотеза, что данные описываются процессом ARMA не слишком большого порядка. Тогда по идее у него автокореляционная функция должна спадать при увеличении запаздывания. (Правда нам доступна выборочная а-к функция, которая с некоторого места перестаёт спадать). Но а вдруг эта функция не спадает. Это как-бы намекает нам, что тут что-то не так, и тут может быть разное. В том числе и разные виды тренда, о котором Вы пишите.

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 21:55 


23/11/09
130
Алексей К. в сообщении #460269 писал(а):
logout2d в сообщении #460267 писал(а):
но я говорю именно о экстраполяции, когда уже известна аппроксимированная кривая и ее надо продолжить, тогда неизвестных становится больше числа уравнений, и вот тут то и загвоздка
Ну, здесь я чего-то не понимаю. Аппроксимировали по МНК, нашли функцию, забыли про МНК, экстраполируем: т.е. вычисляем значения найденной функции вне интервала. Какие тут уравнения-неизвестные?


Ну понимаете не всякую функцию можно просто так взять и продолжить. Это может с линией такое пройдет, а например если у нас степенной полином то в диапазоне данных МНК приблизит его к ним но стоит только нам выйти за предел (вспомним график степенного полинома) то он тут же "забудет эту зависимость" и уйдет вверх или вниз, смотря какая степень полинома.
Вот пример полинома степени 3
http://www.kakprosto.ru/sites/kakprosto/files/images/4ffcd67831db4ed2417ae8bf3ee6118a/main-6c55b46d1264bcf8f9fe655604cb913f.jpg
Четко видно что "ветви" уходят верх и вниз и если середина у нас будет приближена к данным то ветви совсем не обязаны следовать тенденции.
Для прогноза я понял решают такую же задачу МНК, только раздница в том что туда включают и неизвестные точки за пределами диапазона данных, получается похожая система уравнений только неизвестных больше чем уравнений. Вот тут и загвоздка.

мат-ламер в сообщении #460312 писал(а):
logout2d в сообщении #460176 писал(а):
4. По автокоррелограмме можно судить есть ли в данных тренд. Что имеется в виду, просто наличие роста (падения) исследуемых данных или же то, что данные можно описать какой-то аналитической функцией допустим полиномом (линией тренда + ряд остатков)?

Судить всегда надо с осторожностью. Допустим у нас есть гипотеза, что данные описываются процессом ARMA не слишком большого порядка. Тогда по идее у него автокореляционная функция должна спадать при увеличении запаздывания. (Правда нам доступна выборочная а-к функция, которая с некоторого места перестаёт спадать). Но а вдруг эта функция не спадает. Это как-бы намекает нам, что тут что-то не так, и тут может быть разное. В том числе и разные виды тренда, о котором Вы пишите.


Спасибо за ответ, мне тут еще подсказали. Я понял что в теории обычно имеется в виду некая функция тренда + ряд остатков.

-- Пн июн 20, 2011 22:05:19 --

(Оффтоп)

Неплохо бы переименовать тему на "Помогите пожалуйста разобраться в терминах и теории"

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:27 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
logout2d в сообщении #460267 писал(а):
юмор оценил, но я вполне серьезно спросил. Прочитал что коэффициент корреляции показывает степень линейной связи, а автокорреляция показывает наличие тренда. И еще я догадываюсь до сути автокорреляции, так как она строится по ряду данных и по томуже ряду но смещенному на лаг, то предполагаю что смысл тут в поиске "резонанса" который улавливает закономерности в данных например цикличность. Но вот поконкретнее бы... что такое тогда авторегрессия?!


На самом деле я тоже практически серьезно ответил. Корреляция - это одна из простейших форм (или характеристик) статистической зависимости между случайными величинами. Наличие положительной корреляции между двумя величинами означает, что с большей вероятностью большим значениям одной будут соответствовать большие значения другой, а меньшим - меньшие. Отрицательная корреляция - наоборот. Можно еще сказать и так, что это мера линейной связи. Крайним значениям коэффициента корреляции соответствует полностью детерминированная линейная зависимость.

Автокорреляция - это корреляция некоторого процесса с самим собой (авто), сдвинутым на фиксированную величину. То есть если речь идет о временном ряде каких-либо наблюдений, то это корреляция между наблюдениями в моменты времени, разделенные фиксированным промежутком. Далее эту характеристику уже можно интерпретировать тем или иным содержательным образом.

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:32 


23/11/09
130
PAV в сообщении #460572 писал(а):
logout2d в сообщении #460267 писал(а):
юмор оценил, но я вполне серьезно спросил. Прочитал что коэффициент корреляции показывает степень линейной связи, а автокорреляция показывает наличие тренда. И еще я догадываюсь до сути автокорреляции, так как она строится по ряду данных и по томуже ряду но смещенному на лаг, то предполагаю что смысл тут в поиске "резонанса" который улавливает закономерности в данных например цикличность. Но вот поконкретнее бы... что такое тогда авторегрессия?!


На самом деле я тоже практически серьезно ответил. Корреляция - это одна из простейших форм (или характеристик) статистической зависимости между случайными величинами. Наличие положительной корреляции между двумя величинами означает, что с большей вероятностью большим значениям одной будут соответствовать большие значения другой, а меньшим - меньшие. Отрицательная корреляция - наоборот. Можно еще сказать и так, что это мера линейной связи. Крайним значениям коэффициента корреляции соответствует полностью детерминированная линейная зависимость.

Автокорреляция - это корреляция некоторого процесса с самим собой (авто), сдвинутым на фиксированную величину. То есть если речь идет о временном ряде каких-либо наблюдений, то это корреляция между наблюдениями в моменты времени, разделенные фиксированным промежутком. Далее эту характеристику уже можно интерпретировать тем или иным содержательным образом.


Значит я практически верно понимал. Спасибо, не сразу дошло. :-)

Еще добавлю конкретных примеров:
1. Вот например в данном труде описан метод "гусеница"
http://www.gistatgroup.com/gus/book1/index.html
(все читать не надо там 2 листа можно бегло глянуть сам метод и 1 лист там прогноз)
Можно его использовать в качестве аппроксимации, и после самого метода написан подход к прогнозу, так же строится система уравнений с неизвестными точками, только для решения системы предлагается решить какое то рекуррентное уравнение, в этом месте я не понял что надо делать.

2. Вот возьмем например пакет Statistica и там модель ARIMA строит прогноз, а не аппроксимацию.

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:33 
Супермодератор
Аватара пользователя


29/07/05
8248
Москва
То же относится и к авторегрессии. В случае обычной регрессии мы имеем некоторую случайную величину и набор переменных - факторов. Рассматривается модель, в которой значение этой величины равно некоторой неслучайной функции от данных признаков плюс некоторая случайная составляющая. Берется некоторый (параметрический) класс возможных функций и в нем ищется та, которая подходит лучше всего. Наиболее простой случай - это линейная регрессия, при которой ищется линейная зависимость. Но бывают и другие.

Термин "авторегрессия" описывает частный случай, когда в качестве переменных-признаков, с помощью которых мы пытаемся строить предсказание, берутся значения этой же случайной величины, но в предыдущие моменты времени. То есть тоже из серии вытягивания самого себя из болота за волосы: предсказываем процесс по нем самому, поэтому и "авто".

 Профиль  
                  
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:45 


23/11/09
130
Спасибо за ответы, в теории худо бедно понял что к чему :-)
Что делать математически для прогноза регрессией и авторегрессией чтобы "за волосы из болота вытянуть" ? Каков алгоритм?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 11 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group