2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




 
 Помогите пожалуйста разобраться в терминах и теории
Сообщение20.06.2011, 14:04 
Доброго времени суток!
Сразу скажу что тема для меня новая. Для исследования временных рядов мне понадобились такие инструменты как регрессия, авторегрессия, корреляция, автокорреляция. В частности я пытаюсь разобраться в модели ARIMA, в которую собственно входит автокорреляция, и экстраполяции функций с помощью всего этого. Мне нужно качественно разобраться что тут с чем едят. Так как гугл юзал, много читал, разобрался туго, поэтому обращаюсь к вам. Итак вопросы:

1. Правильно ли я понимаю что корреляция имеет геометрическую интерпретацию как косинус угла между гипервекторами? Таким образом формула корреляции Пирсона дает тоже самое что и скалярное умножение векторов?

2. В чем разница между корреляцией и автокорреляцией? Соответственно в чем раздница между регрессией и авторегрессий?

3. Запутался в терминах в разных источниках называют то корреляционный анализ то статистический то регрессионный причем пишут что это все похожие анализы, в чем тут разница?

4. По автокоррелограмме можно судить есть ли в данных тренд. Что имеется в виду, просто наличие роста (падения) исследуемых данных или же то, что данные можно описать какой-то аналитической функцией допустим полиномом (линией тренда + ряд остатков)?

5. После анализа допустим я хочу построить экстраполяцию, для чего предлагают воспользоваться методом МНК. Допустим я выбрал уравнение регрессии в виде степенного полинома и получил систему уравнений в которой число неизвестных больше чем число уравнений. Как решить такую систему? С этого момента непонятно что делать дальше.

 
 
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 15:42 
logout2d в сообщении #460176 писал(а):
5. После анализа допустим я хочу построить экстраполяцию, для чего предлагают воспользоваться методом МНК.
Давайте строить аппроксимацию (а не экстра/интерполяцию), дабы дискуссия не отскочила в сторону.
logout2d в сообщении #460176 писал(а):
Допустим я выбрал уравнение регрессии в виде степенного полинома и получил систему уравнений в которой число неизвестных больше чем число уравнений. Как решить такую систему?
В МНК так не бывает. Вы чего-то недопоняли в методе. У Вас 100 точек, аппроксимируете прямой $y=ax+b$. Будет 2 уравнения, 2 неизвестных. Аппроксимируете параболой $y=ax^2+bx+c$: будет 3 уравнения, 3 неизвестных.

 
 
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 15:56 
Аватара пользователя
logout2d в сообщении #460176 писал(а):
1. Правильно ли я понимаю что корреляция имеет геометрическую интерпретацию как косинус угла между гипервекторами? Таким образом формула корреляции Пирсона дает тоже самое что и скалярное умножение векторов?


Надо не путать теоретический коэффициент корреляции двух случайных величин и выборочный коэффициент корреляции, вычисляемый по имеющейся выборке. Поскольку они оба принимают значения от -1 до 1, то их можно интерпретировать как косинус угла, и эта интерпретация иногда может быть полезной. Выборочный же коэффициент корреляции, вычисляемый по формуле Пирсона, просто в точности есть скалярное произведение двух векторов единичной длины, поэтому это действительно в точности есть косинус угла между ними.

-- Пн июн 20, 2011 16:59:38 --

logout2d в сообщении #460176 писал(а):
2. В чем разница между корреляцией и автокорреляцией? Соответственно в чем раздница между регрессией и авторегрессий?


Разница такая же, как и между портретом и автопортретом (биографией и автобиографией, рефератом и авторефератом...) :-)
Что вообще означает приставка "авто"?

 
 
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 18:09 
Спасибо за ответы.
Цитата:
Надо не путать теоретический коэффициент корреляции двух случайных величин и выборочный коэффициент корреляции, вычисляемый по имеющейся выборке.

Ладно, почитаю :-) Вообще меня интересует пока только анализ выборок. Может еще какие-то виды бывают о которых следует знать?

Цитата:
Разница такая же, как и между портретом и автопортретом (биографией и автобиографией, рефератом и авторефератом...) :-)
Что вообще означает приставка "авто"?

:D юмор оценил, но я вполне серьезно спросил. Прочитал что коэффициент корреляции показывает степень линейной связи, а автокорреляция показывает наличие тренда. И еще я догадываюсь до сути автокорреляции, так как она строится по ряду данных и по томуже ряду но смещенному на лаг, то предполагаю что смысл тут в поиске "резонанса" который улавливает закономерности в данных например цикличность. Но вот поконкретнее бы... что такое тогда авторегрессия?!

И вообще я не очень понял суть регрессии, это анализ выборки (тогда на предмет чего?) или же это построение прогноза?

Уважаемый Алексей К., я не путаю термины аппроксимация, интерполяция и экстраполяция, если вы об этом подумали :-)
Интерполяция - это когда искомая аналитическая кривая проходит через точки данных.
Аппроксимация - это когда искомая аналитическая кривая проходит не через точки данных, но выполняется какой либо закон, обычно это МНК минимизирующая отклонения.
Экстраполяция - это когда мы строим искомую аналитическую кривую вне данных, другими словами прогнозируем поведение исследуемого процесса.
Когда я строю аппроксимацию, действительно число неизвестных равно числу уравнений и система решается методом гаусса и легко программируется, но я говорю именно о экстраполяции, когда уже известна аппроксимированная кривая и ее надо продолжить, тогда неизвестных становится больше числа уравнений, и вот тут то и загвоздка :-(

 
 
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 18:23 
logout2d в сообщении #460267 писал(а):
но я говорю именно о экстраполяции, когда уже известна аппроксимированная кривая и ее надо продолжить, тогда неизвестных становится больше числа уравнений, и вот тут то и загвоздка
Ну, здесь я чего-то не понимаю. Аппроксимировали по МНК, нашли функцию, забыли про МНК, экстраполируем: т.е. вычисляем значения найденной функции вне интервала. Какие тут уравнения-неизвестные?

 
 
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 19:45 
Аватара пользователя
logout2d в сообщении #460176 писал(а):
4. По автокоррелограмме можно судить есть ли в данных тренд. Что имеется в виду, просто наличие роста (падения) исследуемых данных или же то, что данные можно описать какой-то аналитической функцией допустим полиномом (линией тренда + ряд остатков)?

Судить всегда надо с осторожностью. Допустим у нас есть гипотеза, что данные описываются процессом ARMA не слишком большого порядка. Тогда по идее у него автокореляционная функция должна спадать при увеличении запаздывания. (Правда нам доступна выборочная а-к функция, которая с некоторого места перестаёт спадать). Но а вдруг эта функция не спадает. Это как-бы намекает нам, что тут что-то не так, и тут может быть разное. В том числе и разные виды тренда, о котором Вы пишите.

 
 
 
 Re: Помогите пожалуйста разобраться в терминах
Сообщение20.06.2011, 21:55 
Алексей К. в сообщении #460269 писал(а):
logout2d в сообщении #460267 писал(а):
но я говорю именно о экстраполяции, когда уже известна аппроксимированная кривая и ее надо продолжить, тогда неизвестных становится больше числа уравнений, и вот тут то и загвоздка
Ну, здесь я чего-то не понимаю. Аппроксимировали по МНК, нашли функцию, забыли про МНК, экстраполируем: т.е. вычисляем значения найденной функции вне интервала. Какие тут уравнения-неизвестные?


Ну понимаете не всякую функцию можно просто так взять и продолжить. Это может с линией такое пройдет, а например если у нас степенной полином то в диапазоне данных МНК приблизит его к ним но стоит только нам выйти за предел (вспомним график степенного полинома) то он тут же "забудет эту зависимость" и уйдет вверх или вниз, смотря какая степень полинома.
Вот пример полинома степени 3
http://www.kakprosto.ru/sites/kakprosto/files/images/4ffcd67831db4ed2417ae8bf3ee6118a/main-6c55b46d1264bcf8f9fe655604cb913f.jpg
Четко видно что "ветви" уходят верх и вниз и если середина у нас будет приближена к данным то ветви совсем не обязаны следовать тенденции.
Для прогноза я понял решают такую же задачу МНК, только раздница в том что туда включают и неизвестные точки за пределами диапазона данных, получается похожая система уравнений только неизвестных больше чем уравнений. Вот тут и загвоздка.

мат-ламер в сообщении #460312 писал(а):
logout2d в сообщении #460176 писал(а):
4. По автокоррелограмме можно судить есть ли в данных тренд. Что имеется в виду, просто наличие роста (падения) исследуемых данных или же то, что данные можно описать какой-то аналитической функцией допустим полиномом (линией тренда + ряд остатков)?

Судить всегда надо с осторожностью. Допустим у нас есть гипотеза, что данные описываются процессом ARMA не слишком большого порядка. Тогда по идее у него автокореляционная функция должна спадать при увеличении запаздывания. (Правда нам доступна выборочная а-к функция, которая с некоторого места перестаёт спадать). Но а вдруг эта функция не спадает. Это как-бы намекает нам, что тут что-то не так, и тут может быть разное. В том числе и разные виды тренда, о котором Вы пишите.


Спасибо за ответ, мне тут еще подсказали. Я понял что в теории обычно имеется в виду некая функция тренда + ряд остатков.

-- Пн июн 20, 2011 22:05:19 --

(Оффтоп)

Неплохо бы переименовать тему на "Помогите пожалуйста разобраться в терминах и теории"

 
 
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:27 
Аватара пользователя
logout2d в сообщении #460267 писал(а):
юмор оценил, но я вполне серьезно спросил. Прочитал что коэффициент корреляции показывает степень линейной связи, а автокорреляция показывает наличие тренда. И еще я догадываюсь до сути автокорреляции, так как она строится по ряду данных и по томуже ряду но смещенному на лаг, то предполагаю что смысл тут в поиске "резонанса" который улавливает закономерности в данных например цикличность. Но вот поконкретнее бы... что такое тогда авторегрессия?!


На самом деле я тоже практически серьезно ответил. Корреляция - это одна из простейших форм (или характеристик) статистической зависимости между случайными величинами. Наличие положительной корреляции между двумя величинами означает, что с большей вероятностью большим значениям одной будут соответствовать большие значения другой, а меньшим - меньшие. Отрицательная корреляция - наоборот. Можно еще сказать и так, что это мера линейной связи. Крайним значениям коэффициента корреляции соответствует полностью детерминированная линейная зависимость.

Автокорреляция - это корреляция некоторого процесса с самим собой (авто), сдвинутым на фиксированную величину. То есть если речь идет о временном ряде каких-либо наблюдений, то это корреляция между наблюдениями в моменты времени, разделенные фиксированным промежутком. Далее эту характеристику уже можно интерпретировать тем или иным содержательным образом.

 
 
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:32 
PAV в сообщении #460572 писал(а):
logout2d в сообщении #460267 писал(а):
юмор оценил, но я вполне серьезно спросил. Прочитал что коэффициент корреляции показывает степень линейной связи, а автокорреляция показывает наличие тренда. И еще я догадываюсь до сути автокорреляции, так как она строится по ряду данных и по томуже ряду но смещенному на лаг, то предполагаю что смысл тут в поиске "резонанса" который улавливает закономерности в данных например цикличность. Но вот поконкретнее бы... что такое тогда авторегрессия?!


На самом деле я тоже практически серьезно ответил. Корреляция - это одна из простейших форм (или характеристик) статистической зависимости между случайными величинами. Наличие положительной корреляции между двумя величинами означает, что с большей вероятностью большим значениям одной будут соответствовать большие значения другой, а меньшим - меньшие. Отрицательная корреляция - наоборот. Можно еще сказать и так, что это мера линейной связи. Крайним значениям коэффициента корреляции соответствует полностью детерминированная линейная зависимость.

Автокорреляция - это корреляция некоторого процесса с самим собой (авто), сдвинутым на фиксированную величину. То есть если речь идет о временном ряде каких-либо наблюдений, то это корреляция между наблюдениями в моменты времени, разделенные фиксированным промежутком. Далее эту характеристику уже можно интерпретировать тем или иным содержательным образом.


Значит я практически верно понимал. Спасибо, не сразу дошло. :-)

Еще добавлю конкретных примеров:
1. Вот например в данном труде описан метод "гусеница"
http://www.gistatgroup.com/gus/book1/index.html
(все читать не надо там 2 листа можно бегло глянуть сам метод и 1 лист там прогноз)
Можно его использовать в качестве аппроксимации, и после самого метода написан подход к прогнозу, так же строится система уравнений с неизвестными точками, только для решения системы предлагается решить какое то рекуррентное уравнение, в этом месте я не понял что надо делать.

2. Вот возьмем например пакет Statistica и там модель ARIMA строит прогноз, а не аппроксимацию.

 
 
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:33 
Аватара пользователя
То же относится и к авторегрессии. В случае обычной регрессии мы имеем некоторую случайную величину и набор переменных - факторов. Рассматривается модель, в которой значение этой величины равно некоторой неслучайной функции от данных признаков плюс некоторая случайная составляющая. Берется некоторый (параметрический) класс возможных функций и в нем ищется та, которая подходит лучше всего. Наиболее простой случай - это линейная регрессия, при которой ищется линейная зависимость. Но бывают и другие.

Термин "авторегрессия" описывает частный случай, когда в качестве переменных-признаков, с помощью которых мы пытаемся строить предсказание, берутся значения этой же случайной величины, но в предыдущие моменты времени. То есть тоже из серии вытягивания самого себя из болота за волосы: предсказываем процесс по нем самому, поэтому и "авто".

 
 
 
 Re: Помогите пожалуйста разобраться в терминах и теории
Сообщение21.06.2011, 09:45 
Спасибо за ответы, в теории худо бедно понял что к чему :-)
Что делать математически для прогноза регрессией и авторегрессией чтобы "за волосы из болота вытянуть" ? Каков алгоритм?

 
 
 [ Сообщений: 11 ] 


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group