2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 взвешенная регрессия
Сообщение16.11.2015, 22:34 


27/10/09
602
Друзья! Возникла такая задача:
Есть таблица $n \times 2$ данных, условно каждая $i$-я строка содержит пару измерений $\{x_i, y_i \}$. Задача - аппроксимировать зависимость между переменными уравнением $a x+b x y+c y+1=0$, где $a,b,c$ - неизвестные параметры. Сложность в том, что каждый $x_i$ и каждый $y_i$ определен со своей точностью, т.е. есть еще таблица $n \times 2$ ошибок определения обеих характеристик в каждом измерении. Ошибки не коррелируют ни между собой, ни с $X$, ни с $Y$
Вопросы:
1) правильно ли я понимаю, что в случае метода наименьших квадратов функция потерь будет выглядеть так: $$F=\sum _{i=1}^n \left( \frac{x_i-f_X(y_i)}{ex_i}\right)^2+\sum _{i=1}^n \left( \frac{y_i-f_Y(x_i)}{ey_i}\right)^2$$ где $f_Y(X)=\frac{-a X-1}{b X+c}$, $f_X(Y)=\frac{-c Y-1}{b Y+a}$ - функции оценки $Y$ по известному $X$, и $X$ по известному $Y$, $ex_i$ и $ey_i$ - ошибки определения $X$ и $Y$ в $i$-ом измерении. Минимизируя функцию потерь $F$ можем получить точечные оценки параметров $a,b,c$. Или как-то не так?
2) Как оценить ковариационную матрицу параметров? По идее оценка ковариационной матрицы параметров должна быть обратно пропорциональна матрице Гессе функции потерь (в точке минимума), но каков коэффициент пропорциональности?
3) Как проверить гипотезу о наличии зависимости? Есть ли для такого способа какой-то аналог, например, коэффициента детерминированности $R^2$ в обыкновенной регрессии?

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение17.11.2015, 01:03 


07/03/11
690
Я не особо специалист, но, поскольку никто не отвечает, попробую. Сперва советую глянуть сюда. Я бы делал так:
$$
\begin{cases}
p(X_i\mid x_i, \sigma ^2_{x,i}) \\
p(Y_i\mid y_i, \sigma ^2_{y,i}) \\
ax_i + bx_iy_i + cy_i + 1 = 0
\end{cases}
$$
далее предположил бы, что $X_i$ и $Y_i$ распределены нормально (или ещё как-то, в зависимости от данных), выразил одну переменную через другую и находил бы максимум функции правдоподобия. Например:
$$
-\ln p(\mathbf X, \mathbf Y\mid \mathbf x, \boldsymbol \sigma ^2_x, \boldsymbol \sigma ^2_y, a, b, c) = n\ln 2\pi + \frac 12\sum _{i=1}^n \ln \sigma ^2_{x,i} \sigma ^2_{y,i} + \frac 12\sum _{i=1}^n \frac {(X_i - x_i)^2}{\sigma ^2_{x,i}} + \frac 12\sum _{i=1}^n \frac{(Y_i + \frac {ax_i+1}{bx_i+c})^2}{\sigma ^2_{y,i}}
$$
Обозначив $\boldsymbol \theta = (x_1, \ldots, x_n, a, b, c)$ и $$L(\boldsymbol \theta) = \sum _{i=1}^n\left[ \frac {(X_i - x_i)^2}{\sigma ^2_{x,i}} + \frac{(Y_i + \frac {ax_i+1}{bx_i+c})^2}{\sigma ^2_{y,i}}\right]$$
находим $\hat{\boldsymbol \theta }_{\mathrm {ML}} = \arg \min L(\boldsymbol \theta)$. По поводу (2), насколько я понимаю, это сложная задача. По (3) не подскажу:(

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение17.11.2015, 07:10 
Заслуженный участник
Аватара пользователя


11/03/08
10073
Москва
Взвешенная это другое. Это регрессия с ошибками в регрессорах.
Демиденко Е.З. "Линейная и нелинейная регрессии", там есть параграф про это. У Себера, кажется, тоже есть.

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение17.11.2015, 09:01 


27/10/09
602
Да, в функции потерь я ошибся. По идее расстояние от точки до линии, в терминах эллипсоида ошибок точки, будет $\Delta_i=\sqrt{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$ при условиях $a xx_i+b xx_i yy_i+c yy_i+1=0$ и $\Delta_i\rightarrow \min$, т.е. точка $\{ xx_i,yy_i \}$ есть ближайшая к точке $\{ x_i,y_i \}$ лежащая на линии, описываемой заданным уравнением. Тогда функция потерь будет $$\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ при $n$ условиях $a xx_i+b xx_i yy_i+c yy_i+1=0$. Это не сложно, измерений не много, можно в лоб решать.
Но значительно больше интересуют вопросы, во-первых, интервальной оценки параметров (в частности, нужно обосновать, что параметр $b$ не равен нулю), во-вторых, доказательства наличия зависимости.

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение24.11.2015, 12:46 


27/10/09
602
Про третий вопрос: насколько корректно для доказательства или опровержения гипотезы о наличии зависимости использовать статистику $$R=1-F_1/F_t$$ $$F_1=\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ $$F_t=\sum_{i=1}^n{\left( \frac{\bar{X}-x_i}{ex_i}\right)^2+\left( \frac{\bar{Y}-y_i}{ey_i}\right)^2}$$ $\bar{X}$ и $\bar{Y}$ - средневзвешенные по соответствующим переменным. $F_1$ - остаточная дисперсия, она же функция потерь, $F_t$ - аналог полной дисперсии. Критическое значение для $R$ можно найти Монте-Карлой с моделированием исходных переменных независимыми равномерными или нормальными распределениями с единичными весами.

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение16.03.2016, 09:55 


27/10/09
602
Подниму тему - опять понадобилась.

Насколько я понял, предложенный выше метод с минимизацией функции $$\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ с условиями $a xx_i+b xx_i yy_i+c yy_i+1=0$ аналогичен ММП-оценкам у Демиденко, и иногда называется методом латентных переменных. Но, к сожалению, ни у Демиденко, ни у Себера я не нашел способов получения интервальных оценок для случая, когда известны погрешности каждого измерения.
Вопрос: можно ли для интервальной оценки параметров использовать отношение правдоподобия? По идее функция правдоподобия для любых $a,b,c$ должна быть $$L(a,b,c)=\prod_{i=1}^n \left( \frac{1}{2 \pi} \right)^{m/2} \left( \frac{1}{ex_i^2 ey_i^2} \right)^{1/2} \exp -\frac{1}{2}\left( {\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2} \right)$$ Тогда отношение правдоподобия будет $\frac{L(a_0,b_0,c_0)}{L(a,b,c)}$, где $a_0,b_0,c_0$ - оценки параметров, полученные при минимизации функции потерь. По идее если знать закон распределения отношения правдоподобия, то можно сравнить любые значения параметров $a,b,c$ со значениями $a_0,b_0,c_0$. Но как определить закон распределения отношения правдоподобия?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group