Сравнение 2 оценок параметра

m09kaa4 · 09.07.2020, 20:37

Пусть $x$ — некоторый неизвестный вектор, мы хотим оценить его, имея некоторые наблюдения $y_i = H_i x_i + \varepsilon_i,$
где $i \in [1:N]$ , $\{\varepsilon_i \}_{i=1}^N$ попарно независимые нормальные шумы с единичной ковариационный матрицей, $H_i$ матрица полного ранга, $y_i$ вектор.

Рассматривая $x_i = x$ для любого $i$ , мы можем оценить $x$ с помощью МНК:
$x = \left(u^T H^T H u \right)^{-1} u^T H^T y$
где $H = \operatorname{diag}(H_1, \dots, H_N)$ , $u = (\mathrm{Id}^T, \dots, \mathrm{Id}^T)^T$ $y = (y_1^T, \dots, y_N^T)^T$ .

С другой стороны, пусть $\{x_i\}_{i=1}^{N}$ стохастический процесс с нулевым матожиданием и известной ковариационной функцией. Тогда мы можем оценить этот параметр таким образом:
$x' = (H^T H + Q^{-1})^{-1}(H^T y)$
где $H = \operatorname{diag}(H_1, \dots, H_N)$ , $Q_{ij} = \mathrm{cov}(x_i, x_j)$ .

Кажется очевидным, что при правильно выбранном $Q$ оценки должны быть близки, то есть если положить $x' = ux + \delta(Q)$ , то при некоторых $Q$ вектор $\delta(Q)$ будет малым вне зависимости от матриц $H_i$ и векторов $y_i$ . Например подойдет $Q_{ij} := E + (\min(i,j) - 1) e$ , где $E \gg 1$ , $e \ll 1$ (случайное блуждание с большой начальной ковариацией и маленькой ковариацией переходов на следующий шаг).

Я пытался доказать это алгебраически и найти, как зависит $\delta$ от $E$ и $e$ в выше написанном случае, но у меня ничего не получилось. Как можно это сделать?

Заранее спасибо.

Евгений Машеров · 10.07.2020, 10:53

Вектор x константный, или каждое $x_i$ отлично от других?

m09kaa4 · 10.07.2020, 11:06

Евгений Машеров в сообщении #1473156 писал(а):

Вектор x константный, или каждое $x_i$ отлично от других?

В каждый момент времени $i$ вектор $x_i$ одинаковый.

Евгений Машеров · 11.07.2020, 08:05

Тогда я не совсем понял, как Вы вывели первую оценку. У меня МНК получается
$x_i=(H_i^TH_i)^{-1}H_i^Ty_i$

m09kaa4 · 11.07.2020, 10:59

Евгений Машеров, я не хотел расписывать подробно и видимо потерял часть смысла.

Пусть есть совокупность наблюдение $y_i = H_i x_i + \varepsilon_i$ , где:
- $i \in [1 : N]$
- $x_i \in \mathbb{R}^{n}$ — вектор состояния в момент времени $t_i$ ;
- $y_i \in \mathbb{R}^{m_i}$ — наблюденное значение в момент времени $t_i$ ;
- $\mathrm{H}_i \in \mathbb{R}^{m_i \times n}$ — матрица (полного ранга) наблюдений в момент времени $t_i$ ;
- $\varepsilon_i \in \mathbb{R}^{m_i}$ — шумы наблюдений, многомерные нормальные попарно некоррелируемые случайные величины с единичной дисперсией.

Предполагается, что $\sum_{i=1}^N m_i > n$ , однако по в каждом конкретном эксперименте $m_i < n$ , и мы не можем вычислить $x_i$ , применив МНК к каждому наблюдению отдельно. Зато мы можем:
1. Предположить, что $x_i$ это значение некоторого стохастического процесса $x(\cdot)$ с нулевым матожиданием и известной ковариационной функцией $k(t,s)$ в момент времени $t_i$ . В этом случае оценкой будет
$\hat{x} = (H^T H + Q)^{-1} H^T y$
где $\hat{x} = (\hat{x}_1^T, \dots, \hat{x}_N^T)^T$ ; $y = (y_1^T, \dots, y_N^T)^T$ ; $H = \operatorname{diag}(H_1, \dots, H_N)$ — блочно-диагональная матрица, на $(i,i)$ -том месте которой стоит $H_i$ ; $Q$ — блочная матрица, на $(i,j)$ -том месте которой стоит матрица $\operatorname{cov}(x_i, x_j) = k(t_i, t_j)$ .
2. Предположить, что все вектора $x_i$ одинаковы. Тогда:
$\begin{pmatrix} y_1 \\ \dots \\ y_N \end{pmatrix}= \begin{pmatrix} H_1 \\ \dots \\ H_N \end{pmatrix}x + \begin{pmatrix} \varepsilon_1 \\ \dots \\ \varepsilon_N \end{pmatrix}$
Введя блочный вектор $u$ , в $i$ -том блоке которого стоит единичная матрица размера $\mathbb{R}^{n \times n}$ , мы можем записать эту оценку в терминах предыдущей:
$\hat{x}' = \left( (Hu)^T Hu \right)^{-1} (Hu)^T y = \left( u^T H^T H u \right)^{-1} u^T H^T y$

Вопрос в следующем: очевидно, если брать некоторые типы случайных процессов (которые имеют огромную ковариацию первого состояния $x_1$ и почти нулевую ковариацию разностей $(x_{i+1} - x_i)$ ), то оценка $\hat{x}'$ должна пости свопасть сло второй оценкой: $\left\|\hat{x}'_i - \hat{x} \right\| \ll 1$ для любых $i$ . Но доказать это у меня не получилось из-за того, что формула Вудбюрри и формула обращения возмущенной матрицы $\left( V + \Delta \right)^{-1} =V^{-1} - V^{-1} \Delta V^{-1} + O \left( \left \| \Delta \right \|^2 \right)$ не работают: им мешает необратимость матрицы $H^T H$ .
Возможно, кто-то догадывается, как это проще доказать.

Евгений Машеров · 11.07.2020, 22:09

Ну, если бы я столкнулся с задачей практически, то пробовал бы через псевдообращение.
$x_i=H^+y_i$
Где псевдообратная определена через сингулярное разложение, или, скажем, как
$H^+=\lim_{k\rightarrow 0}(H^TH+kI)^{-1}H^T$
А потом бы пытался как-то скомпоновать $x_i$ с учётом их коррелированности.

m09kaa4 · 28.07.2020, 20:23

Евгений Машеров, вашим способом я ничего не добился, но задачу все-таки решил (в интересующем меня частном случае).

Решается она примерно следующим образом:
1. Нужно показать, что обратная матрица к матрице ковариации Марковского процесса - это блочная трехдиагональная матрица.
2. Придумать аналог блочный аналог метода прогонки.
3. Поупращать формулы перехода в блочном методе прогонки, воспользовавшись формулой обращения для возмущенных матриц $(A + \varepsilon \Id)^{-1} = A^{-1} + \varepsilon A^{-2}$ .

Что интересно, взятое наобум случайное блуждание с большой начальной ковариацией и маленькой ковариацией переходов на следующий шаг идеально подошло, и после прогонки получается, что $\left\|x'_i - x \right\| = O(e, E^{-1})$

Научный форум dxdy

Сравнение 2 оценок параметра