Оценка матожидания стационарной случайной последовательности

ipgmvq · 11.02.2023, 22:49

ipgmvq в сообщении #1581067 писал(а):

я ничего не напутал?

Наверное есть ошибка тут. Монтекарла не согласна, что в этом случае дисперсия оценки на регрессии хуже:

Используется синтаксис Python

import numpy as np

выборка = 10000

n = 3000

индексы = np.arange(1,n+1)

X =  np.asmatrix(np.vstack((np.ones(n), индексы)).T)

решение = np.linalg.inv(X.T * X) * X.T

регрессия = np.vectorize(lambda _: (решение * np.asmatrix(np.resize(np.random.normal(size=(n,)) + индексы, (n,1))))[1,0])

начало_конец = np.random.normal(size=(выборка, n)) + np.resize(np.tile(индексы, выборка), (выборка, n))

print(регрессия(np.zeros(выборка)).std())

print(((начало_конец[:,n-1] - начало_конец[:,0])/(n-1)).std())

Если права Монтекарла, значит, это пример того, когда регрессия даст более точный результат по наклону, чем выборочная средняя инкрементов.

-- 11.02.2023, 23:45 --

ipgmvq в сообщении #1581067 писал(а):

$\frac{2 \sigma^2}{(n-1)^2}$ при нарастании n убывает намного быстрее, чем $\frac{ \sigma^2 }{ \sum_{i=1}^{n} i^2 - \frac{ n (n-1)^2 }{4} }$

Понял. Тут ошибка. Всё наоборот. $\frac{ \sigma^2 }{ \sum_{i=1}^{n} i^2 - \frac{ n (n-1)^2 }{4} }$ убывает быстрее. В общем мы нашли частный случай, когда оценка наклона регрессией точнее, чем выборочная средняя инкрементов. Теперь было бы важным сделать тест на единичные корни Вашего экспериментального датасета (предположительно кумулятивных) иксов.

ipgmvq · 12.02.2023, 00:00

Кролик в сообщении #1581173 писал(а):

опирается только на 2 значения!

В данном конкретном случае я находил выборочную среднюю всех $n-1$ значений инкрементов $V_i$ выборки. Но именно наше априорное знание о тесной зависимости этих $n-1$ случайных величин $V_i$ позволило упростить формулу до того, что в ней начали фигурировать всего два из (изначально казавшихся кумулятивными) значений $X_i$ .

ipgmvq · 12.02.2023, 05:18

Если исходить из озвученной гипотезы, что $V_i$ независимы и стационарны, то эмпирически в случае их нормального распределения, например, с $\mu = 1$ (при изменении результат не меняется) и $\sigma^2 = 1$ дисперсия оценки $\beta_1$ путем регрессии ряда превосходит дисперсию оценки $\beta_1$ путем выборочного среднего $V_i$ статистически значимо (но не катастрофически) примерно на 20%.

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

import numpy as np

from scipy.stats import f as f_test

выборка = 100000

n = 3000

µ = 1.0

индексы = np.arange(1,n+1)

X =  np.asmatrix(np.vstack((np.ones(n), индексы)).T)

решение = np.linalg.inv(X.T * X) * X.T

регрессия = np.vectorize(lambda _: (решение * np.asmatrix(np.random.normal(loc=µ, size=(n,1)).cumsum(axis=0)))[1,0])

результат1 = np.random.normal(loc=µ, size=(n,выборка)).mean(axis=0)

результат2 = регрессия(np.zeros(выборка))

print("Дисперсия оценки β1 путем выборочной средней инкрементов:", результат1.var(ddof=1))

print("Дисперсия оценки β1 путем линейной регрессии кумулятивных значений:", результат2.var(ddof=1))

print("Отношение дисперсий оценок β1 регрессией и выборочным средним:", результат2.var(ddof=1)/результат1.var(ddof=1))

print("Значение p в F-тесте:", 1.0 - f_test.cdf(результат2.var(ddof=1)/результат1.var(ddof=1), выборка-1, выборка-1))

Учитывая, что у Вас $V_i$ предположительно ненормальная, её можно забутстрепить из Вашей выборки в Монте-Карло, чтобы сооринтироваться, будет ли у Вас сходный результат.

Евгений Машеров · 12.02.2023, 07:44

Неформальное объяснение. Чем больше информации мы сможем усвоить из данных, тем точнее будут оценки. Но при этом желательно, чтобы "помехи" были независимыми. Для случая тренда, на измеренные значения которого накладывается случайная ошибка, регрессия будет лучше (а популярный в экономическом анализе временных рядов приём, переход к разностям и расчёт средних по этим разностям, проще, но даёт меньшую точность). Однако, если отдельные отсчёты независимые случайные величины с ненулевым средним, лучше рассчитывать, как по обычной выборке, а не переходить к накопленным значениям, на которые строить регрессию. Вся доступная нам информация будет в последнем отсчёте, как сумма всех "помех", а промежуточные будут искажать результат, поскольку зависимы и имеют неравную дисперсию.

Евгений Машеров · 12.02.2023, 10:23

В общем, надо начинать с точного описания модели, в частности, со спецификации ошибки. И тогда можно будет искать оптимальную процедуру оценивания.

Кролик · 12.02.2023, 23:26

ipgmvq в сообщении #1581196 писал(а):

В общем мы нашли частный случай, когда оценка наклона регрессией точнее, чем выборочная средняя инкрементов. Теперь было бы важным сделать тест на единичные корни Вашего экспериментального датасета (предположительно кумулятивных) иксов.

-- Тест Дики-Фуллера я сделал при помощи стандартной Питоновской процедуры adfuller.

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

from statsmodels.tsa.stattools import adfuller

import numpy as np

iseq = 6  # номер реализации {V_n} (здесь dlcr)

nv = len(dlcr[0])

iksy = np.zeros(nv+1)

for i in range(1,nv+1):

    iksy[i] = iksy[i-1] + dlcr[iseq][i-1]

datax = iksy[::20]

datav = dlcr[iseq][::20]

adfuller(datax, maxlag = 0, regression='c'), \

adfuller(datav, maxlag = 0, regression='c')

Для реализаций "скоростей" $\{v_n\}$ нулевая гипотеза всегда решительно отвергается. Там последовательность явно стационарная... Для самих иксов во многих случаях $H_0$ тоже отвергается! Но есть немало случаев граничных или с явным подозрением на единичный корень. Вот пример выдачи при iseq = 1:

Код:

((-1.5583558515478213,
  0.5044717378958264,
  0,
  170,
  {'1%': -3.469413468959902,
   '5%': -2.8786964197028295,
   '10%': -2.5759166089965397},
  647.8486866589052),
 (-13.346588848304247,
  5.778500767084577e-25,
  0,
  170,
  {'1%': -3.469413468959902,
   '5%': -2.8786964197028295,
   '10%': -2.5759166089965397},
  156.49372600698513))

Что же? Для таких случаев выкидывать 99% статистического материала и, как дурачку, считать "последний минус первый, делить на $N$ "?

ipgmvq · 13.02.2023, 04:40

Бинго!

Кролик в сообщении #1581339 писал(а):

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

datax = iksy[::20]

datav = dlcr[iseq][::20]

Если Вы выборочную среднюю и наклон в регрессии тоже считали на этих слайсах датасета, тогда мне хорошо понятно, почему регрессия давала более точные значения :lol:

(у Вас же информации в регрессии эдак в 20 раз больше—Вы выкидывате из $\left\lbrace V_i \right\rbrace$ большую часть измерений, которые по сути остаются кумулятивно в $\left\lbrace X_i \right\rbrace$ )

Как Вы посчитали радиус корреляции и почему опасаетесь автокорреляции настолько, что выкидываете большинство наблюдений?

Кролик в сообщении #1581339 писал(а):

как дурачку, считать "последний минус первый, делить на $N$ "?

Нет же, мы установили, что это менее точно.

Евгений Машеров · 13.02.2023, 08:13

Кролик в сообщении #1581339 писал(а):

Что же? Для таких случаев выкидывать 99% статистического материала и, как дурачку, считать "последний минус первый, делить на $N$ "?

Ну, человек, лучше меня владеющий теорией математической статистики, наверно, сказал бы нечто о "достаточных статистиках". А я лишь вспомню афоризм покойного дяди-ракетчика: "Требования к Изделию выражаются принципом 5П - Полезно, Просто, Прочно, Приятно Посмотреть". Вот такой подход очевидно полезен, давая разумный ответ, прост, прочен в смысле отсутствия вычислительных неустойчивостей, а что мне на него посмотреть приятнее, чем Вам - это субъективно.

Кролик · 13.02.2023, 23:02

ipgmvq в сообщении #1581356 писал(а):

Если Вы выборочную среднюю и наклон в регрессии тоже считали на этих слайсах датасета, тогда мне хорошо понятно, почему регрессия давала более точные значения :lol:

(у Вас же информации в регрессии эдак в 20 раз больше—Вы выкидывате из $\left\lbrace V_i \right\rbrace$ большую часть измерений, которые по сути остаются кумулятивно в $\left\lbrace X_i \right\rbrace$ )

-- Это я только для теста Дики-Фуллера последовательность прорядил, напрасно, вероятно. (Евгений Леонидович застращал меня словами "надо начинать с точного описания модели, в частности, со спецификации ошибки".) Без прореживания результат теста качественно получается таким же. Сам дрейф иксов (матожидание "скоростей") я естественно считал на полных данных.

ipgmvq в сообщении #1581356 писал(а):

Нет же, мы установили, что это менее точно.

-- Однако, мне кажется, что ни линейная регрессия, ни формула "последний минус первый, делить на $N$ " не являются оптимальными процедурами для расчёта ожидаемого дрейфа $\nu$ .
Существует ли литература, где описаны ещё более точные подходы?

ipgmvq · 13.02.2023, 23:24

Кролик в сообщении #1581490 писал(а):

Сам дрейф иксов (матожидание "скоростей") я естественно считал на полных данных.

Уф! Я так понимаю, таких последовательностей по примерно 3400 наблюдений у Вас много. Напишите пожалуйста в каком проценте таких наборов (без прореживания иксов) не удалось отвергнуть $H_0$ о том, что единичный корень в $X_i$ есть (с $p \geqslant 0.05$ или, как Вам угодно, с поправкой на множественность тестов).

Кролик в сообщении #1581490 писал(а):

Однако, мне кажется, что ни линейная регрессия, ни формула "последний минус первый, делить на $N$ " не являются оптимальными процедурами для расчёта ожидаемого дрейфа $\nu$ .

Обычно оптимальной формулой для независимых одинаково распределенных случайных величин (с конечным первым моментом) является формула, приведенная Вами в первом сообщении. Хотя есть конкретные исключения, типа распределения Лапласа. Но хотя Вы не пишете об этом четко, исходя из Ваших слов, $V_i$ не являются независимыми. Есть какая-то ACF и PACF, которую Вы почему-то скрываете. Как без знания точной статистическую природы Вашей последовательности можно советовать литературу?!

код: [ скачать ] [ спрятать ]

Используется синтаксис Python

nv = len(dlcr[0])

Странная аббревиатура. У Вас последовательность точно одномерная? :-)

И главное: как Вы изначально поняли, что оценка по линейной регрессии у Вас более точная, чем выборочная средняя, если эта последовательность не является плодом Вашей симуляции Монте-Карло.
И доп. вопрос: какие есть физические причины исходить из того, что $\mu$ в этой последовательности "скоростей" постоянна?

Кролик · 13.02.2023, 23:54

Последовательности все одномерные, их около 50 штук. Нулевая гипотеза для иксов отвергается, к сожалению, лишь в ~10% случаев. Ковариационная функция для "скоростей" имеет вид чётко-выраженного максимума в нуле и низенького шлейфа, спадающего вдвое каждые 20 временных единиц. (Отсюда я делаю грубую оценку на радиус корреляции.)

Цитата:

И главное: как Вы изначально поняли, что оценка по линейной регрессии у Вас более точная, чем выборочная средняя, если эта последовательность не является плодом Вашей симуляции Монте-Карло.
И доп. вопрос: какие есть физические причины исходить из того, что $\mu$ в этой последовательности "скоростей" постоянна?

--Последовательности взяты из живого эксперимента (это не компьютерные симуляции). Понял я про обе оценки интуитивно, написал в форум как "проверенный факт", чтобы зажечь интерес участников и построить содержательную и поучительную дискуссию. Постоянность ожидаемого дрейфа иксов (матожидания "скоростей") следует из общей теоретической модели случайного процесса. Должно быть так в предметной теории...

ipgmvq · 14.02.2023, 00:43