Регрессионный анализ с применением пилот-сигнала

Anatoly · 11.03.2012, 19:15

Здравствуйте!
Столкнулся со следующей задачей.
Имеется серия измерений
$\xi_k = F(s_k+p_k) + n_k$ ,
где $F(s)$ - неизвестная, но достаточно гладкая функция, $s_k$ - искомое полезное воздействие, $p_k$ - известный "пилот-сигнал", $n_k$ - шум измерений, предположительно гауссовский.
Вопрос состоит в возможности "вытаскивания" сигнала $s_k$ (или его производной) на основе серии измерений $\xi_k$ . Я написал в заголовке темы "регрессионный анализ", но вполне возможно, что данная задача относится к другой категории.
Пока что я остановился на следующем варианте решения.
Будем считать, что в пределах небольшого числа соседних точек измерений справедливо приближенное представление функции $F(s+p)$ урезанным рядом Тейлора
$F(s+p) = F(s) + \frac{dF(s)}{ds}p + \frac{1}{2}\frac{d^2F(s)}{ds^2}p^2$
Далее, при том же предположении функцию $F(s)$ можно представить в виде полинома
$F(s) = a_0 + a_1s+a_2s^2$ .
И, наконец, положим, что информационное воздействие меняется с постоянной скоростью на той же ограниченной выборке точек
$s_k = s_0 + \sigma k$ .

Объединяя все вышесказанное, получим следующее выражение, пригодное для линейного регрессионного анализа
$\xi_k = x_1 \cdot 1 + x_2 \cdot k + x_3 \cdot k^2 + x_4 \cdot p_k + x_5 \cdot kp_k + x_6 \cdot p_k^2 + n_k$
Здесь
$x_1 = a_0 + a_1s_0 + a_2s_0^2$ ,
$x_2 = (a_1 + 2a_2s_0)\sigma$ ,
$x_3 = a_2\sigma^2$ ,
$x_4 = a_1 + 2a_2s_0$ ,
$x_5 = 2a_2\sigma$ ,
$x_6 = a_2$ .

Таким образом, оценив величины $x_{1-6}$ можно найти оценку производной информационного воздействия $s$ (что вполне устраивает) по одной из следующей формул (остается вопрос о выборе "наилучшей")
$\sigma = \frac{x_2}{x_4} = \frac{2x_3}{x_5} = \frac{x5}{2x_6}$ .

Все выглядит красиво, но при использовании метода МНК для решения регрессионной задачи получается плохо обусловленная матрица. Замечу, что в качестве "пилот-сигнала" используется синусоида с периодом, соизмеримым с длиной анализируемой выборки. Основная проблема в том, что данный метод очень чувствителен как к длине выборки так и к шуму, что не есть хорошо.
Буду рад любым комментариям.

Евгений Машеров · 12.03.2012, 08:20

А что-то про полезный сигнал известно? Это случайная величина, или детерминированная? Как он может соотносится с "пилотным"?
Ну и в качестве частного совета - регуляризировать задачу не пробовали? Скажем, ридж-регрессией?
Что до трёх формул - чисто эмпирически - посчитал бы по всем трём и взял бы медиану (среднее плохо тем, что если в одном из знаменателей нуль или около того, то оно улетает неизвестно куда).

Anatoly · 12.03.2012, 13:25

Про полезный сигнал известны спектральные характеристики, а именно то, что спектр имеет верхнюю границу, причем эта граница меньше частоты пилот-сигнала. В принципе, можно даже утверждать, что частота пилот-сигнала больше удвоенной частоты верхней границы полезного сигнала.
Регуляризацию пробовал, правда не ридж-регрессию (не знал про неё), а по Тихонову, получилось не очень убедительно. Честно говоря, почитав про ридж-регрессию, не понял чем она принципиально отличается от тихоновской.

Anatoly · 12.03.2012, 18:45

В принципе, как улучшить обусловленность матрицы вроде бы стало понятно. Так как нас интересует некоторый ограниченный интервал значений $[0,M]$ , то вместо полиномиального базиса $1,k,k^2$ целесообразно использовать базис по ортогональным полиномам, например $T_n\left(\frac{2k-M}{M}\right)$ . Я уже численно прикинул, матрица, соответствующая базису $1,T_1\left(\frac{2k-M}{M}\right), T_2\left(\frac{2k-M}{M}\right), p_k, T_1\left(\frac{2k-M}{M}\right)p_k, p_k^2$ имеет число обусловленности порядка 100-200, что уже хорошо. Правда информационный параметр при этом вычисляется по более сложной формуле. Отсюда вопрос: не является ли это обменом "шила на мыло", то есть ошибки все равно вылезут, но только они заложены в формуле вычисления информационного параметра. Иными словами, оправдан ли переход к другому базису?

Научный форум dxdy

Регрессионный анализ с применением пилот-сигнала