Оценка матожидания стационарной случайной последовательности

ipgmvq · 14.02.2023, 03:04

Combat Zone в сообщении #1581517 писал(а):

Не мучьте Кролика.

я не мучаю, я помогаю.
Меня социология мат. статистики увлекает больше, чем сама мат. статистика.
Мне особенно интересно, почему топик-стартер скрывает временной ряд и тематику исследования: это разработка в ядерной физике, Kaggle-соревнование с призом в много тысяч долларов или пятисекундные бары за пятьдесят торговых сессий (или дневные по 13-14 годам для 50 акций) загружены.

Евгений Машеров · 14.02.2023, 08:55

Что-то мне сдаётся, что это биржевые данные. Отсюда и конспирация...

Ende · 14.02.2023, 11:23

i	Тема перемещена из форума «Помогите решить / разобраться (М)» в форум «Дискуссионные темы (М)» Причина переноса: вопрос выходит за рамки стандартных учебных курсов.

Кролик · 14.02.2023, 14:04

Цитата:

Кролик в сообщении #1581504 писал(а):

Понял я про обе оценки интуитивно, написал в форум как "проверенный факт", чтобы зажечь интерес участников и построить содержательную и поучительную дискуссию.

Пока не получается, если нужно зажечь, начните сначала, с постановки задачи и спецификации модели. Вас уже просили.

-- Ну должен же я был немножко заинтриговать?... :wink:

Действитально, речь идёт о дневных котировках различных финансовых активов (там есть и некоторые акции). Данные эти получены из открытых источников в сети и секретом не являются. Не придаётся огласке только процедура предварительной обработки данных $\bf P_1$ , которая из цен делает специальные характеристики (наши иксы) так, что соответствующие "скорости" должны получаться стационарными последовательностями. Взаимная корреляция и автокорреляция должны присутствовать. Вот файл с данными о "скоростях":
https://cloud.mail.ru/public/5vv8/YDmYVTNwy
Его можно загрузить командой np.load(file). Каждая строка массива соответствует своему активу.

Кролик · 14.02.2023, 15:25

ipgmvq в сообщении #1581508 писал(а):

Кролик в сообщении #1581504 писал(а):

и низенького шлейфа

Хотя бы одно её значение (помимо в нуле) выходит за пределы доверительного интервала? (я к тому, а там точно есть автокорреляция вообще). Если выходят, как выглядит PACF (с оглядкой на его доверительный интервал).

-- Дело в том, что как ACF, так и PACF сами зависят от вычисленного на предыдущем этапе детерминированного параметра $\nu$ , в правильности и точности вычисления которого я совсем не уверен. Вероятно, нужна более сложная процедура $\bf P_2$ (следующая за $\bf P_1$ ) вычисления дрейфа $\nu$ и корреляционных характеристик одновременно.
В какой литературе описаны подобные процедуры определения дрейфа?

Евгений Машеров · 14.02.2023, 15:36

А у кого NumPy нет?

Кролик · 14.02.2023, 21:01

https://cloud.mail.ru/public/Pv2o/VMoyD7VyW

ipgmvq · 14.02.2023, 23:35

Кролик в сообщении #1581575 писал(а):

вычисления дрейфа $\nu$ и корреляционных характеристик одновременно.
В какой литературе описаны подобные процедуры определения дрейфа?

Если бы Вы действительно получили стационарные последовательности с автокорреляцией, то взяли бы обычную ARIMA (в R в библиотеке forecast есть удобная функция auto.arima), чтобы одновременно оценить параметры автокорреляции и $\mu$ .

Эти последовательности действительно в некотором роде более "рафинированные", чем обычные инкременты. Но в отдельных аспектах напротив. Я так понимаю, что свою оценку матожидания Вы уже вычли из $\left\lbrace V_i \right\rbrace$ , рафинируя последовательности?
Не составляет труда показать, что эти последовательности не являются стационарными. У них меняющаяся волатильность. Даже деление важдой из них на первую и второую половину дает в F-тесте чрезвычайно стат. значимое различие по дисперсии.

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

from scipy.stats import f as f_test

print("Row    p-value   Variance ratio")

for row in range(data.shape[0]):

    if data[row,1702:].var(ddof=1) > data[row,:1702].var(ddof=1):

        значение_p_var = 1.0 - f_test.cdf(data[row,1702:].var(ddof=1)/data[row,:1702].var(ddof=1), 1702-1, 1702-1)

        print(f"{row:3d}  {значение_p_var:.8f}  {data[row,1702:].var(ddof=1)/data[row,:1702].var(ddof=1):.4f}")

    else:

        значение_p_var = f_test.cdf(data[row,1702:].var(ddof=1)/data[row,:1702].var(ddof=1), 1702-1, 1702-1)

        print(f"{row:3d}  {значение_p_var:.8f}  {data[row,1702:].var(ddof=1)/data[row,:1702].var(ddof=1):.4f}")

Код:

Row    p-value   Variance ratio
 0  0.00000068  1.2644
 1  0.00060940  1.1699
 2  0.00143049  0.8653
 3  0.09286099  0.9378
 4  0.00000000  0.6951
 5  0.00000003  0.7696
 6  0.00000000  0.4652
 7  0.00001293  1.2266
 8  0.02319323  1.1014
 9  0.00000000  1.4169
 10  0.00000000  2.6809
 11  0.41757368  1.0101
 12  0.00000003  1.3011
 13  0.34564233  1.0194
 14  0.00041800  1.1760
 15  0.00000001  0.7574
 16  0.00146867  0.8656
 17  0.00000068  1.2643
 18  0.00000000  1.9332
 19  0.00337129  1.1405
 20  0.00000000  1.3566
 21  0.04241583  0.9198
 22  0.00000000  1.4055
 23  0.00000000  2.0370
 24  0.00000000  1.6243
 25  0.00000000  0.5483
 26  0.00000000  1.7999
 27  0.00000000  2.6279
 28  0.00000000  1.8542
 29  0.00000000  2.1924
 30  0.00000000  2.2888
 31  0.00000000  1.8197
 32  0.00000000  1.9035
 33  0.00000000  2.5942
 34  0.00000000  2.2963
 35  0.00000000  1.3569
 36  0.00000000  2.0345
 37  0.00000000  2.3139
 38  0.00000000  2.2918
 39  0.00000000  1.7448
 40  0.00000000  1.7370
 41  0.00000000  2.0014
 42  0.07906628  1.0709
 43  0.00000000  2.1761
 44  0.00000000  2.1303
 45  0.00000000  2.0059
 46  0.00000000  2.9853
 47  0.00000000  1.8534
 48  0.00000000  1.3717
 49  0.00000000  3.6341
 50  0.00000000  1.6838
 51  0.00000000  2.7364
 52  0.00000000  1.4694
 53  0.00000000  1.7474
 54  0.00000000  1.7339
 55  0.00000004  1.2967
 56  0.00000000  1.6921
 57  0.00000000  2.2903
 58  0.00005388  1.2068

Кролик в сообщении #1581504 писал(а):

Должно быть так в предметной теории...

Я вынужден вернуться к вопросу, на основании чего предполагается, что $\mu$ для финансовых инструментов постоянна во времени на протяжении десятка лет (особенно для не акций, хотя отдельно и для акций вопрос).

Не разгляжу я тут дневных котировок акций, увы...

Кролик · 15.02.2023, 00:51

ipgmvq в сообщении #1581662 писал(а):

Эти последовательности действительно в некотором роде более "рафинированные", чем обычные инкременты. Но в отдельных аспектах напротив. Я так понимаю, что свою оценку матожидания Вы уже вычли из $\left\lbrace V_i \right\rbrace$ , рафинируя последовательности?
Не составляет труда показать, что эти последовательности не являются стационарными. У них меняющаяся волатильность. Даже деление важдой из них на первую и второую половину дает в F-тесте чрезвычайно стат. значимое различие по дисперсии.

-- Мне кажется достаточно наивным ожидать от последовательностей, приходящих из живого эксперимента, что они будут чисто стационарными. Это обычный инженерно-математический приём, когда последовательность аппроксимируется стационарной, хотя все прекрасно понимают, что её лишь с очень большим натягом можно рассматривать как стационарную. Там, кстати, от последовательности к последовательности этот аспект тоже существенно меняется...
Свою оценку матожидания я из $\{v_i\}$ не вычитал. Это чистые первые разности иксов с (неизвестным) дрейфом $\nu$ .
Следует заметить, что оценки $\tilde\nu_1$ и $\tilde\nu_2$ (определённые в первом посте) ощутимо различаются.

ipgmvq · 15.02.2023, 02:51

Кролик в сообщении #1581667 писал(а):

Это обычный инженерно-математический приём

Сущая правда.
В статистике принято, что после получения оценки её тестируют на стат значимость.
У вас возник вопрос, какая оценка матожидания лучше (в среднем -0.0021000331198221074 по всем активам по выборочной средней или в среднем -0.0000008145098932603 по линейной регрессии ряда (разница между оценками примерно -0.0021), при том что стандартное отклонение инкрементов в первой половине периода в среднем (по активам) составляет 1.1572045665147082, а во второй половине периода в среднем (по активам) составляет 1.4446945023363504 (разница примерно 0.2875 в тех же единицах, что и оцененное матожидание). Но разницей между дисперсиями мы по-инженерному пренебрегаем, а в отношении матожидания хотим докопаться до истины, какая же оценка точнее.
Даже если мы возьмем эту более амплитудную оценку матожидания по выборочной средней, она статистически значимо не отличается от нуля ни для одного из активов, и даже не приближается к статистической значимости ни для одного из активов даже без поправки на множественность сравнений (самое низкое значение p 0.24). Нам следует констатировать, что мы не можем отвергнуть нулевую гипотезу о том, что абсолютно все активы для $\left\lbrace V_i \right\rbrace$ имеют математическое ожидание равное нулю.

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

from scipy.stats import ttest_1samp

data = np.load('data.npy', allow_pickle=False)

ttest_1samp(data, popmean=0.0, axis=1)

Если же воспользуетесь функцией auto.arima() в R, которую я посоветовал выше, то она тоже выкидывает ненулевой дрифт для всех инструментов как лишний в ARIMA-модели автокорреляции.

код: [ скачать ] [ спрятать ]

library(readxl)
library(forecast)
data <- read_excel("data.xlsx")
for (i in 1:nrow(data)) {
model <- auto.arima(t(data[i,]))
cat("\n******************************\nAsset # ", i, "\n")
print(model)
}

Итого, следует считать, что абсолютно у всех активов в $\left\lbrace V_i \right\rbrace$ матожидание не отличается от нуля. Это была одной из причин, почему я назвал эту последовательность рафинированной и предположил, что Вы уже вычли оценку матожидания.

Кролик · 15.02.2023, 10:26

ipgmvq в сообщении #1581672 писал(а):

Итого, следует считать, что абсолютно у всех активов в $\left\lbrace V_i \right\rbrace$ матожидание не отличается от нуля. Это была одной из причин, почему я назвал эту последовательность рафинированной и предположил, что Вы уже вычли оценку матожидания.

-- Это очень странное заключение. Если построить графики $x(n)$ например для самой первой и для третьей последовательности иксов, то невооружённым взглядом будет виден дрейф. У первой последовательности в сторону увеличения значений, а у третьей -- в сторону уменьшения. Тем же невооружённым глазом видно, что первая последовательность растёт быстрее, чем убывает третья. Выходит: если есть дрейф, то его можно и померить!

Кролик · 15.02.2023, 12:21

Прошу прощения. В торопях я выложил всё-таки не те файлы. Вот чистые первые разности (с естественными смещениями):
https://cloud.mail.ru/public/FM5w/s96jS6fgL

Евгений Машеров · 15.02.2023, 13:38

Чего я навскидку вижу. Автокорреляция первого порядка, далее уровня шума. И очень большой эксцесс. Максимальное значение 1011, 12 тысяч стандартных ошибок его... Асимметрия вправо.

(Оффтоп)

В общем, тут для начала стоило бы вместо среднего ну хоть медиану ставить.

ipgmvq · 15.02.2023, 14:21

Кролик
Ваша трансформация (или это на совести изначальных данных) привела к тому, что почти для всех (но не всех) последовательностей дрифт полностью объясняется автокорреляцией. И кажется наиболее "правдоподобным", что сам дрифт (независимый от автокорреляции) равен нулю. Иными словами то, что у 1 возник тренд вверх, а у 3 вниз, это результат случайности (в начале пошел "импульс" и "покатилось" и не "развернулось", хотя была некоторая вероятность разворота).

На поле выходит линейная регрессия
Я бы посоветовал Вам взять да и провести-таки линейную регрессию (для всех, а тем паче для любимых последовательностей 1 и 3) для $\left\lbrace V_i \right\rbrace$ (не для $\left\lbrace X_i \right\rbrace$ ) по $\left\lbrace V_{i-1} \right\rbrace$ и посмотреть на амплитуду, а главное на стат.значимость оценки коэффициента $\beta_0$ . Это и есть Ваш дрифт.

Без кода и результатов больше Ваше "странно" не принимается

ipgmvq · 15.02.2023, 22:50

ipgmvq в сообщении #1581706 писал(а):

Ваша трансформация (или это на совести изначальных данных) привела к тому, что почти для всех (но не всех) последовательностей дрифт полностью объясняется автокорреляцией. И кажется наиболее "правдоподобным", что сам дрифт (независимый от автокорреляции) равен нулю.

Нельзя исключить, что эта петрушка со стойкой положительной автокорреляцией (однолаговой на PACF и многолаговой на ACF), которая полностью "объясняет" даже положительное матожидание, могла возникнуть из-за какого-то сглаживания изначального графика динамики цены.
Действительно график ваших дневных иксов чересчур сглажен для фрактала.
В частности сглаживанием через свертку с равномерным ядром я могу устранить положительный дрифт в ARIMA-модели S&P 500 (забывая по-гусарскиинженерному о непостоянной волатильности), однако получая несколько обратную картину ACF и PACF.

Научный форум dxdy

Оценка матожидания стационарной случайной последовательности