Оценка матожидания стационарной случайной последовательности

Кролик · 10.02.2023, 00:05

Всем доброго здоровья.
Известно, что

\{V_n\}

стационарная случайная последовательность с ограниченным вторым моментом (не обязательно нормальная!) с матожиданием

\nu

, отличным от нуля. У меня в распоряжении находится реализация

N

подряд идущих членов этой последовательности:

v_0,\, v_1,\, ...,\, v_{N-1}\; ,

где

N

много больше характерного радиуса кореляции. (Например, радиус корреляции порядка

20

, а

N\approx 3000

.) Надо предложить наилучшую формулу для вычисления значения матожидания

\nu

.
Во всех учебниках предлагается следующая классическая формула:

\tilde\nu_1 = \frac{1}{N}\sum_{n=0}^{N-1} v_n\; .

Неужели нет формулы лучше этой? Рассмотрим следующую альтернативу...
Определим нестационарную случайную последовательность

\{X_n\}

на основе исходной:

X_{n+1} - X_n = V_n\;,\qquad X_0 = 0\; .

Её матожидание должно быть линейной функцией от

n

. Построим теперь соответствующую детерминированную последовательность:

x_n = \sum_{k=0}^{n-1} v_k\, , \qquad n = 1,\, 2,\, ...,\, N\; .

Построим линейную регрессию для

\{x_n\}

и определим оценку

\tilde\nu_2 = a_{\rf lr}

согласно коэффиценту наклона линейной регресии. Моя практика показывает, что оценка

\tilde\nu_2

лучше чем

\tilde\nu_1

.
Как это грамотно обосновать? Какая есть литература?

zykov · 10.02.2023, 01:50

Кролик в сообщении #1580976 писал(а):

Как это грамотно обосновать? Какая есть литература?

Любой учебник по теорверу, где рассматривают оценки (estimation).

Оценка сама по себе - это тоже случайная величина. Для неё можно найти матожидание и дисперсию.
При конечном

N

интересует, смещенная оценка или нет - совпадает её матожидание с искомым параметорм или нет? Если не совпадает, то как сильно?
Ну и дисперсия тоже важна. Насколько она маленькая?
Далее, интересуются асимптотикой этих характеристик оценки. Как быстро они улучшаются с ростом

N

?

Вот так и сравнивайте свои оценки.

Doctor Boom · 10.02.2023, 07:10

Кролик в сообщении #1580976 писал(а):

Неужели нет формулы лучше этой?

Вроде как для нормального распределения нет, ибо она из ММП. Ваша оценка (вроде) не совпадает, а значит :roll:

Евгений Машеров · 10.02.2023, 08:27

Выглядит крайне сомнительно. В частности, потому, что дисперсия элементов последовательности

X_n

растёт. Обычные формулы регрессии неприменимы. Но если у Вас есть подтверждения, например, вычислительный эксперимент - было бы интересно взглянуть.

Doctor Boom · 10.02.2023, 08:37

Да, если расписать, то вы берете взвешенную сумму измерений с неравными весами, а это увеличит дисперсию

Евгений Машеров · 10.02.2023, 09:23

v_i=\nu+\varepsilon_i

X_i=i\nu+\Sigma_{j=1}^i\varepsilon_j

Если взять регрессию без свободного члена

$\hat{\nu}=\frac {\Sigma i X_i}{\Sigma i^2}= \\ \frac {\nu\Sigma i^2+ \Sigma_i(i\Sigma_{j=1}^i\varepsilon_j)}{\Sigma i^2}= \\ \nu+\frac{\Sigma_i (\frac{n(n+1)(2n+1)} 6 -\frac{(i-1)i(2i-1)} 6) \varepsilon_i}{\frac{n(n+1)(2n+1)} 6}=\\ \nu+\Sigma_i (1-\frac{(i-1)i(2i-1)}{n(n+1)(2n+1)}) \varepsilon_i

В общем, я хотел бы видеть основания для утверждения, что предложенный подход работает лучше, нежели простое среднее арифметическое.
Вообще же могу представить ситуацию, когда среднее арифметическое не лучшее, например, распределение с тяжёлыми хвостами, и медиана эффективнее. Или когда сильно влияет коррелированность отсчётов, и её можно оценить. Но в общем случае - хотел бы подтверждений.

Кролик · 10.02.2023, 10:26

Евгений Машеров в сообщении #1580993 писал(а):

Выглядит крайне сомнительно. В частности, потому, что дисперсия элементов последовательности

X_n

растёт. Обычные формулы регрессии неприменимы.

В каком смысле непреминимы формулы регрессии на конечной реализации? Я был бы очень благодарен за более подробное объяснение этой мысли.
При больших

n

дисперсия новой последовательности растёт линейно, как и само матожидание (предположим, положительное). Те есть, СКО растёт как

\sqrt{n}

, а следовательно, относительный разброс падает, чего не происходит в исходной последовательности. (Это интуитивное обоснование...)

Евгений Машеров · 10.02.2023, 10:52

В проведенном навскидку вычислительном эксперименте, в котором генерировалось по 100 чисел

v_i \sim N(1,1)

, оценивалось среднее "штатным" и предлагаемым способом и вычислялся средний квадрат отклонения от известного значения, он оказался для предлагаемого способа на 41% выше, чем для обычного (усреднение по 36 реализациям). Хотелось бы видеть либо масштабный вычислительный эксперимент, показывающий преимущества изложенного способа (и условия, при которых он лучше - по-видимому, условия, когда он хуже, точно существуют, а условия, когда "лучше" могут и не существовать; ну, или указать на методические ошибки в моём экспериментк), либо теоретические обоснования его (опять же - для каких условий он может быть лучше?). Ну, или и то и другое и можно без хлеба.

Евгений Машеров · 10.02.2023, 12:15

Кролик в сообщении #1581004 писал(а):

В каком смысле непреминимы формулы регрессии на конечной реализации?

При выводе формул регрессионного анализа предполагалось, что дисперсия ошибки постоянна. Ситуация, когда она меняется от наблюдения к наблюдению (гетероскедастичность) - возможна, но формулы уже будут иными (вводится матрица весов). Здесь же не только возрастает, но и зависима (то есть диагональной матрицей весов не обойтись). Принципиальная возможность построить оценку есть, но оценка резко усложняется, и ни из чего не следует, что она будет лучше общепринятой (контрпример - нормальное распределение, для которого оптимальность среднего арифметического доказана, уже был приведен; возможно, есть ситуации, когда предлагаемая оценка лучше - но я в их существовании решительно не убеждён).
В принципе - тема для исследования вычислительным экспериментом, на хорошую курсовую или доклад на студенческой конференции. Если вдруг, паче чаяния, окажется, что действительно оценка лучше - на статью, даже на диссертацию. Но не я Станиславский и не Ярославский - однако

Цитата:

не верю!

Кролик · 10.02.2023, 12:30

Doctor Boom в сообщении #1580988 писал(а):

Кролик в сообщении #1580976 писал(а):

Неужели нет формулы лучше этой?

Вроде как для нормального распределения нет, ибо она из ММП. Ваша оценка (вроде) не совпадает, а значит :roll:

-- Распределение не нормальное, но аналитической формулы для него нет. Эксперимент показывает, что матожидение, похоже, смещено относительно моды, то есть в нём плотность вероятности не максимальна. Оценить надо именно матожидание.
Нужна специальная литература, в которой рассматривались статистические оценки матожидания стационарных случайных последовательностей (не нормальных!). Возможно кто-то уже сталкивался с похожей проблемой?

Цитата:

\tilde\nu_2= \nu+\sum_i \left(1-\frac{(i-1)i(2i-1)}{n(n+1)(2n+1)}\right) \varepsilon_i

-- Может быть эта случайная величина будет более нормальной?

ipgmvq · 10.02.2023, 15:32

Евгений Машеров в сообщении #1580993 писал(а):

потому, что дисперсия элементов последовательности

X_n

растёт

Много большим грехом тут является плотная нарастающая зависимость случайных величин в предлагаемом ряду (даже не учитывая того, что в изначальной последовательности с нулевой интегрируемостью автокорреляция автором тоже не исключается).

Евгений Машеров в сообщении #1581002 писал(а):

регрессию без свободного члена

Почти наверняка автор делал обычную регрессию со свободным членом. :-(

-- 10.02.2023, 15:45 --

Кролик в сообщении #1580976 писал(а):

Моя практика показывает, что оценка

\tilde\nu_2

лучше чем

\tilde\nu_1

.

Если так получается, то может быть, ряд X вовсе не ряд, а тренд-стационарный процесс (а последовательность V уже искусственное производное).
Слелайте над ним тест на единичные корни (особенно против тренд-стационарности). Или можете показать свой ряд, мы сами посмотрим.

Евгений Машеров · 10.02.2023, 16:11

ipgmvq в сообщении #1581018 писал(а):

Почти наверняка автор делал обычную регрессию со свободным членом. :-(

Вполне вероятно. Но, по всей видимости, этот подход даст ещё меньшую точность.

ipgmvq · 10.02.2023, 23:27

Евгений Машеров в сообщении #1580993 писал(а):

Обычные формулы регрессии неприменимы.

Предлагаю пойти от обратного.
Допустим, закономерность в основе экспериментальной случайной последовательности была предположена неверно и на самом деле это X является тренд-стационарным процессом.

X_t = \beta_0 + \beta_1 t + \varepsilon

И наблюдаемые значения

X_1, X_2, X_3, ... X_n

индексированы временем

t = 1, 2, 3, ... n

и истинная

\beta_0 = 0

.
Допустим дрифт

\beta_1 = 1

и

Var(\varepsilon) = \sigma^2 = 1

.
Соответственно

V_i = X_i - X_{i-1}

.
Матрица X линейной регрессии будет равна

\begin{bmatrix} 1 & 1 \\ 1 & 2 \\ ... & ... \\ 1 & n \end{bmatrix}

И дисперсия ошибок истинных параметров

\beta

будет равна

$Var \left( \begin{bmatrix} \beta_0 \\ \beta_1 \end{bmatrix} \right) = \sigma^2 \begin{bmatrix} n & \frac{n(n-1)}{2} \\ \frac{n(n-1)}{2} & \sum_{i=1}^{n}i^2 \end{bmatrix}^{-1} =

= \sigma^2 \begin{bmatrix} \frac{ \sum_{i=1}^{n}i^2 }{ n\sum_{i=1}^{n}i^2 - \frac{n^2(n-1)^2}{4} } & -\frac{ \frac{n(n-1)}{2} }{ n\sum_{i=1}^{n}i^2 - \frac{n^2(n-1)^2}{4} } \\ -\frac{ \frac{n(n-1)}{2} }{ n\sum_{i=1}^{n}i^2 - \frac{n^2(n-1)^2}{4} } & \frac{ n }{ n\sum_{i=1}^{n}i^2 - \frac{n^2(n-1)^2}{4} } \end{bmatrix} =

= \sigma^2 \begin{bmatrix} \frac{ \sum_{i=1}^{n}i^2 }{ n\sum_{i=1}^{n}i^2 - \frac{n^2(n-1)^2}{4} } & -\frac{ n-1 }{ 2\sum_{i=1}^{n}i^2 - \frac{n(n-1)^2}{2} } \\ -\frac{ n-1 }{ 2\sum_{i=1}^{n}i^2 - \frac{n(n-1)^2}{2} } & \frac{ 1 }{ \sum_{i=1}^{n}i^2 - \frac{n(n-1)^2}{4} } \end{bmatrix} $

Соответственно

Var(\hat{ \beta_1 }) = \frac{ \sigma^2 }{ \sum_{i=1}^{n} i^2 - \frac{ n (n-1)^2 }{4} }

Если же мы рассмотрим оценку

\frac{1}{n-1} \sum\limits_{i=2}^{n} V_i = \frac{1}{n-1} \sum\limits_{i=2}^{n} X_i - X_{i-1} = \frac{X_n - X_1}{n-1}

, то его матожижание окажется несмещенным

\mathbb{E} (\frac{X_n - X_1}{n-1}) = \frac{1}{n-1} \mathbb{E} (X_n - X_1) = \frac{1}{n-1} (\mathbb{E} (X_n) - \mathbb{E} (X_1)) = \frac{n-1}{n-1} = 1 = \beta_1

и дисперсия будет равна

Var(\frac{X_n - X_1}{n-1}) = \frac{1}{(n-1)^2} Var(X_n - X_1) = \frac{1}{(n-1)^2} (Var(X_n) + Var(X_1)) = \frac{2 \sigma^2}{(n-1)^2}

\frac{2 \sigma^2}{(n-1)^2}

при нарастании n убывает намного быстрее, чем

\frac{ \sigma^2 }{ \sum_{i=1}^{n} i^2 - \frac{ n (n-1)^2 }{4} }

Соответственно даже в таком случае линейная регрессия кажется хуже.
я ничего не напутал?

Кролик · 11.02.2023, 20:01

Большое всем спасибо за подробные объяснения.

ipgmvq в сообщении #1581067 писал(а):

Соответственно даже в таком случае линейная регрессия кажется хуже.

-- Но разве это не кажется странным? Есть конечная реализация некоторой случайной последовательности

\{X_n\}

с дрейфом

\nu

(детерминированный параметр):

x_0,\, x_2,\, ...,\, x_{N-1}

(выхваченная из ряда значений случайным образом!). И наилучшая формула оценки параметра:

\tilde\nu_1 = \frac{x_{N-1}-x_0}{N}\; ,

опирается только на 2 значения! Предположим, мы ищем оптимальную формулу для оценки, подбирая веса

w

в линейной комбинации:

\tilde\nu_3 = w_0 x_0 + w_1 x_1 + ... + w_{N-1} x_{N-1}\; .

Неужели нет лучшего вектора весов, чем

{\bf w} = (-1/N,\, 0,\, ...,\, 0,\, 1/N)^{\rf T}

?

Возможно подобного рода вопросы уже обсуждались в научной литературе?

Евгений Машеров · 11.02.2023, 22:34

Если бы у Вас был тренд, отягощённый независимыми отклонениями, то регрессия была бы хороша. А если Вы переходите к накопленным значениям, то отклонения независимыми не будут.

Научный форум dxdy

Оценка матожидания стационарной случайной последовательности