2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 взвешенная регрессия
Сообщение16.11.2015, 22:34 


27/10/09
602
Друзья! Возникла такая задача:
Есть таблица $n \times 2$ данных, условно каждая $i$-я строка содержит пару измерений $\{x_i, y_i \}$. Задача - аппроксимировать зависимость между переменными уравнением $a x+b x y+c y+1=0$, где $a,b,c$ - неизвестные параметры. Сложность в том, что каждый $x_i$ и каждый $y_i$ определен со своей точностью, т.е. есть еще таблица $n \times 2$ ошибок определения обеих характеристик в каждом измерении. Ошибки не коррелируют ни между собой, ни с $X$, ни с $Y$
Вопросы:
1) правильно ли я понимаю, что в случае метода наименьших квадратов функция потерь будет выглядеть так: $$F=\sum _{i=1}^n \left( \frac{x_i-f_X(y_i)}{ex_i}\right)^2+\sum _{i=1}^n \left( \frac{y_i-f_Y(x_i)}{ey_i}\right)^2$$ где $f_Y(X)=\frac{-a X-1}{b X+c}$, $f_X(Y)=\frac{-c Y-1}{b Y+a}$ - функции оценки $Y$ по известному $X$, и $X$ по известному $Y$, $ex_i$ и $ey_i$ - ошибки определения $X$ и $Y$ в $i$-ом измерении. Минимизируя функцию потерь $F$ можем получить точечные оценки параметров $a,b,c$. Или как-то не так?
2) Как оценить ковариационную матрицу параметров? По идее оценка ковариационной матрицы параметров должна быть обратно пропорциональна матрице Гессе функции потерь (в точке минимума), но каков коэффициент пропорциональности?
3) Как проверить гипотезу о наличии зависимости? Есть ли для такого способа какой-то аналог, например, коэффициента детерминированности $R^2$ в обыкновенной регрессии?

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение17.11.2015, 01:03 


07/03/11
690
Я не особо специалист, но, поскольку никто не отвечает, попробую. Сперва советую глянуть сюда. Я бы делал так:
$$
\begin{cases}
p(X_i\mid x_i, \sigma ^2_{x,i}) \\
p(Y_i\mid y_i, \sigma ^2_{y,i}) \\
ax_i + bx_iy_i + cy_i + 1 = 0
\end{cases}
$$
далее предположил бы, что $X_i$ и $Y_i$ распределены нормально (или ещё как-то, в зависимости от данных), выразил одну переменную через другую и находил бы максимум функции правдоподобия. Например:
$$
-\ln p(\mathbf X, \mathbf Y\mid \mathbf x, \boldsymbol \sigma ^2_x, \boldsymbol \sigma ^2_y, a, b, c) = n\ln 2\pi + \frac 12\sum _{i=1}^n \ln \sigma ^2_{x,i} \sigma ^2_{y,i} + \frac 12\sum _{i=1}^n \frac {(X_i - x_i)^2}{\sigma ^2_{x,i}} + \frac 12\sum _{i=1}^n \frac{(Y_i + \frac {ax_i+1}{bx_i+c})^2}{\sigma ^2_{y,i}}
$$
Обозначив $\boldsymbol \theta = (x_1, \ldots, x_n, a, b, c)$ и $$L(\boldsymbol \theta) = \sum _{i=1}^n\left[ \frac {(X_i - x_i)^2}{\sigma ^2_{x,i}} + \frac{(Y_i + \frac {ax_i+1}{bx_i+c})^2}{\sigma ^2_{y,i}}\right]$$
находим $\hat{\boldsymbol \theta }_{\mathrm {ML}} = \arg \min L(\boldsymbol \theta)$. По поводу (2), насколько я понимаю, это сложная задача. По (3) не подскажу:(

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение17.11.2015, 07:10 
Заслуженный участник
Аватара пользователя


11/03/08
10074
Москва
Взвешенная это другое. Это регрессия с ошибками в регрессорах.
Демиденко Е.З. "Линейная и нелинейная регрессии", там есть параграф про это. У Себера, кажется, тоже есть.

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение17.11.2015, 09:01 


27/10/09
602
Да, в функции потерь я ошибся. По идее расстояние от точки до линии, в терминах эллипсоида ошибок точки, будет $\Delta_i=\sqrt{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$ при условиях $a xx_i+b xx_i yy_i+c yy_i+1=0$ и $\Delta_i\rightarrow \min$, т.е. точка $\{ xx_i,yy_i \}$ есть ближайшая к точке $\{ x_i,y_i \}$ лежащая на линии, описываемой заданным уравнением. Тогда функция потерь будет $$\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ при $n$ условиях $a xx_i+b xx_i yy_i+c yy_i+1=0$. Это не сложно, измерений не много, можно в лоб решать.
Но значительно больше интересуют вопросы, во-первых, интервальной оценки параметров (в частности, нужно обосновать, что параметр $b$ не равен нулю), во-вторых, доказательства наличия зависимости.

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение24.11.2015, 12:46 


27/10/09
602
Про третий вопрос: насколько корректно для доказательства или опровержения гипотезы о наличии зависимости использовать статистику $$R=1-F_1/F_t$$ $$F_1=\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ $$F_t=\sum_{i=1}^n{\left( \frac{\bar{X}-x_i}{ex_i}\right)^2+\left( \frac{\bar{Y}-y_i}{ey_i}\right)^2}$$ $\bar{X}$ и $\bar{Y}$ - средневзвешенные по соответствующим переменным. $F_1$ - остаточная дисперсия, она же функция потерь, $F_t$ - аналог полной дисперсии. Критическое значение для $R$ можно найти Монте-Карлой с моделированием исходных переменных независимыми равномерными или нормальными распределениями с единичными весами.

 Профиль  
                  
 
 Re: взвешенная регрессия
Сообщение16.03.2016, 09:55 


27/10/09
602
Подниму тему - опять понадобилась.

Насколько я понял, предложенный выше метод с минимизацией функции $$\sum_{i=1}^n\Delta_i^2=\sum_{i=1}^n{\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2}$$ с условиями $a xx_i+b xx_i yy_i+c yy_i+1=0$ аналогичен ММП-оценкам у Демиденко, и иногда называется методом латентных переменных. Но, к сожалению, ни у Демиденко, ни у Себера я не нашел способов получения интервальных оценок для случая, когда известны погрешности каждого измерения.
Вопрос: можно ли для интервальной оценки параметров использовать отношение правдоподобия? По идее функция правдоподобия для любых $a,b,c$ должна быть $$L(a,b,c)=\prod_{i=1}^n \left( \frac{1}{2 \pi} \right)^{m/2} \left( \frac{1}{ex_i^2 ey_i^2} \right)^{1/2} \exp -\frac{1}{2}\left( {\left( \frac{xx_i-x_i}{ex_i}\right)^2+\left( \frac{yy_i-y_i}{ey_i}\right)^2} \right)$$ Тогда отношение правдоподобия будет $\frac{L(a_0,b_0,c_0)}{L(a,b,c)}$, где $a_0,b_0,c_0$ - оценки параметров, полученные при минимизации функции потерь. По идее если знать закон распределения отношения правдоподобия, то можно сравнить любые значения параметров $a,b,c$ со значениями $a_0,b_0,c_0$. Но как определить закон распределения отношения правдоподобия?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: B@R5uk


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group