Если вы внимательно посмотрите на приведенные графики, то заметите, что прогноз, по сути, почти параллельный сдвиг исходного временного ряда, т.е. прогнозное значение равно текущему, т.е. процесс является мартингал-разностью, например случайным блужданием.
Ага, я понял. Спасибо большое: я часто вижу эту штуку, но как-то не обратил внимания, тем более, что сам автор, как ни в чем ни бывало, пишет
Цитата:
When the prices are increasing, we see under prediction, conversely when the prices are decreasing, we see over estimate. This phenomenon can be found with quite a lot of data sets. One might take this into account when using our program to predict the prices. And of course more work has to done to study the cause of this phenomenon.
А на самом деле его марковская модель из двух состояний просто отражает прошлое. Хотя саму себя (сгенерированные через нее же данные), она оценила хорошо.
Нормально товарищ защитил Ph.D.
Ну, как я понимаю, дисперсия свободного члена и есть недостаточность нашой модели (неучтенные факторы) - что и логично, т.к. она слишком простая.
-- 10.05.2016, 22:51 --Хотел бы заметить еще одну вещь. К сожалению, для этого нужно вчитываться в 5ю главу этой диссертации (первая ссылка), тем не менее, возможно это будет кому-то интересно.
Для определения качества своей модели, автором был применен критерий, предложенный Фама и Гиббонсом:
Нужно построить регрессию
Действительная цена =
+
Предсказанная цена +
Тогда:
(1) Ошибки не должны автокоррелировать
(2) Должна быть низкая стандартная ошибка регрессии
(3) Условная несмещенность, т.е. сдвиг
- близок к нулю, а коэффициент
близок к единице.
Проводится еще определенная нормализация с делением на выборочное среднее реальных цен, чтобы унифицироать коэффициенты
. В данной работе это все выполняется очень хорошо, например для Nasdaq получены
и
. Текже перед каждым двойным графиком со сдвинутым предсказанием есть диаграмма рассеяния с отложенными по оси абсции реальными значениями, а по оси ординат - предсказаниями. Точки довольно равномерным вытянутым облачком окружают прямую.
Как я понимаю, критерий подвел по той причине, что на диаграмме рассеяния разные сдвиги перемешаны, т.к. они откладываются по абсолютному значению, а сам временной ряд гуляет туда-сюда. Также, из-за большой длины ряда, само смещение на один шаг относительно маленькое, и оно не было особо заметно на значениях статистик и коэффициента регрессии.
Если я не прав, буду рад, если меня поправят.