взвешенная регрессия

AndreyL · 16.11.2015, 22:34

Друзья! Возникла такая задача:
Есть таблица $n \times 2$ данных, условно каждая $i$ -я строка содержит пару измерений $\{x_i, y_i \}$ . Задача - аппроксимировать зависимость между переменными уравнением $a x+b x y+c y+1=0$ , где $a,b,c$ - неизвестные параметры. Сложность в том, что каждый $x_i$ и каждый $y_i$ определен со своей точностью, т.е. есть еще таблица $n \times 2$ ошибок определения обеих характеристик в каждом измерении. Ошибки не коррелируют ни между собой, ни с $X$ , ни с $Y$
Вопросы:
1) правильно ли я понимаю, что в случае метода наименьших квадратов функция потерь будет выглядеть так: $F=\sum _{i=1}^n \left( \frac{x_i-f_X(y_i)}{ex_i}\right)^2+\sum _{i=1}^n \left( \frac{y_i-f_Y(x_i)}{ey_i}\right)^2$ где $f_Y(X)=\frac{-a X-1}{b X+c}$ , $f_X(Y)=\frac{-c Y-1}{b Y+a}$ - функции оценки $Y$ по известному $X$ , и $X$ по известному $Y$ , $ex_i$ и $ey_i$ - ошибки определения $X$ и $Y$ в $i$ -ом измерении. Минимизируя функцию потерь $F$ можем получить точечные оценки параметров $a,b,c$ . Или как-то не так?
2) Как оценить ковариационную матрицу параметров? По идее оценка ковариационной матрицы параметров должна быть обратно пропорциональна матрице Гессе функции потерь (в точке минимума), но каков коэффициент пропорциональности?
3) Как проверить гипотезу о наличии зависимости? Есть ли для такого способа какой-то аналог, например, коэффициента детерминированности $R^2$ в обыкновенной регрессии?

vlad_light · 17.11.2015, 01:03

Я не особо специалист, но, поскольку никто не отвечает, попробую. Сперва советую глянуть сюда. Я бы делал так:
$\begin{cases} p(X_i\mid x_i, \sigma ^2_{x,i}) \\ p(Y_i\mid y_i, \sigma ^2_{y,i}) \\ ax_i + bx_iy_i + cy_i + 1 = 0 \end{cases}$
далее предположил бы, что $X_i$ и $Y_i$ распределены нормально (или ещё как-то, в зависимости от данных), выразил одну переменную через другую и находил бы максимум функции правдоподобия. Например:
$-\ln p(\mathbf X, \mathbf Y\mid \mathbf x, \boldsymbol \sigma ^2_x, \boldsymbol \sigma ^2_y, a, b, c) = n\ln 2\pi + \frac 12\sum _{i=1}^n \ln \sigma ^2_{x,i} \sigma ^2_{y,i} + \frac 12\sum _{i=1}^n \frac {(X_i - x_i)^2}{\sigma ^2_{x,i}} + \frac 12\sum _{i=1}^n \frac{(Y_i + \frac {ax_i+1}{bx_i+c})^2}{\sigma ^2_{y,i}}$
Обозначив $\boldsymbol \theta = (x_1, \ldots, x_n, a, b, c)$ и $L(\boldsymbol \theta) = \sum _{i=1}^n\left[ \frac {(X_i - x_i)^2}{\sigma ^2_{x,i}} + \frac{(Y_i + \frac {ax_i+1}{bx_i+c})^2}{\sigma ^2_{y,i}}\right]$
находим $\hat{\boldsymbol \theta }_{\mathrm {ML}} = \arg \min L(\boldsymbol \theta)$ . По поводу (2), насколько я понимаю, это сложная задача. По (3) не подскажу:(

Евгений Машеров · 17.11.2015, 07:10

Взвешенная это другое. Это регрессия с ошибками в регрессорах.
Демиденко Е.З. "Линейная и нелинейная регрессии", там есть параграф про это. У Себера, кажется, тоже есть.

AndreyL · 17.11.2015, 09:01

Да, в функции потерь я ошибся. По идее расстояние от точки до линии, в терминах эллипсоида ошибок точки, будет $\Delta_i=\sqrt{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$ при условиях $a xx_i+b xx_i yy_i+c yy_i+1=0$ и $\Delta_i\rightarrow \min$ , т.е. точка $\{ xx_i,yy_i \}$ есть ближайшая к точке $\{ x_i,y_i \}$ лежащая на линии, описываемой заданным уравнением. Тогда функция потерь будет $\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$ при $n$ условиях $a xx_i+b xx_i yy_i+c yy_i+1=0$ . Это не сложно, измерений не много, можно в лоб решать.
Но значительно больше интересуют вопросы, во-первых, интервальной оценки параметров (в частности, нужно обосновать, что параметр $b$ не равен нулю), во-вторых, доказательства наличия зависимости.

AndreyL · 24.11.2015, 12:46

Про третий вопрос: насколько корректно для доказательства или опровержения гипотезы о наличии зависимости использовать статистику $R=1-F_1/F_t$$ $$F_1=\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ $$F_t=\sum_{i=1}^n{\left( \frac{\bar{X}-x_i}{ex_i}\right)^2+\left( \frac{\bar{Y}-y_i}{ey_i}\right)^2}$ $\bar{X}$ и $\bar{Y}$ - средневзвешенные по соответствующим переменным. $F_1$ - остаточная дисперсия, она же функция потерь, $F_t$ - аналог полной дисперсии. Критическое значение для $R$ можно найти Монте-Карлой с моделированием исходных переменных независимыми равномерными или нормальными распределениями с единичными весами.

AndreyL · 16.03.2016, 09:55

Подниму тему - опять понадобилась.

Насколько я понял, предложенный выше метод с минимизацией функции $\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$ с условиями $a xx_i+b xx_i yy_i+c yy_i+1=0$ аналогичен ММП-оценкам у Демиденко, и иногда называется методом латентных переменных. Но, к сожалению, ни у Демиденко, ни у Себера я не нашел способов получения интервальных оценок для случая, когда известны погрешности каждого измерения.
Вопрос: можно ли для интервальной оценки параметров использовать отношение правдоподобия? По идее функция правдоподобия для любых $a,b,c$ должна быть $L(a,b,c)=\prod_{i=1}^n \left( \frac{1}{2 \pi} \right)^{m/2} \left( \frac{1}{ex_i^2 ey_i^2} \right)^{1/2} \exp -\frac{1}{2}\left( {\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2} \right)$ Тогда отношение правдоподобия будет $\frac{L(a_0,b_0,c_0)}{L(a,b,c)}$ , где $a_0,b_0,c_0$ - оценки параметров, полученные при минимизации функции потерь. По идее если знать закон распределения отношения правдоподобия, то можно сравнить любые значения параметров $a,b,c$ со значениями $a_0,b_0,c_0$ . Но как определить закон распределения отношения правдоподобия?

Научный форум dxdy

взвешенная регрессия