2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Воспользоваться гессианом вне нелинейного МНК
Сообщение28.05.2022, 10:36 


09/05/16
138
Нелинейный метод наименьших квадратов работает просто. Если $y_i  \~ \mathcal N(f(x_i | \mathfb a), \sigma_i) \; \forall i$, то можно воспользоваться методом максимального правдоподобия, чтобы оценить параметры $\mathbf a$:

$$ \mathbf a = \arg\max_\mathbf{a} \prod_i e^\frac{(f(x_i | \mathbf a) - y_i)^2}{2\sigma_i^2} = \arg\min_\mathbf{a} \underbrace{
 \sum_i \frac{(f(x_i | \mathbf a) - y_i)^2}{2\sigma_i^2}
}_{\chi^2(\mathbf a)} $$

Обозначим вектор нормированных остатков $\mathbf r$, $r_i = \frac{f(x_i | \mathbf a) - y_i}{\sigma_i}$ и матрицу производных функции в каждой точке $\mathbf J$, $J_{i,k} = \frac{\partial f(x_i)}{\partial a_k}$. Тогда $\frac{\partial \chi^2}{\partial a_k} = 2 \sum_i r_i \frac{\partial f(x_i)}{\partial a_k} $, т.е. $\operatorname{grad} \chi^2(\mathbf a) = 2 \mathbf{r}^\top \mathbf J$.

Также можно показать, что гессиан $\mathbf H$, матрицу вторых производных $\chi^2(\mathbf a)$ можно посчитать как:

$$
H_{k,l} = \frac{\partial^2 \chi^2(\mathbf  a)}{\partial a_k \partial a_l} =
2 \sum_i \frac{1}{\sigma_i^2}\left(
 \frac{\partial \chi^2(\mathbf  a)}{\partial a_k} \frac{\partial \chi^2(\mathbf  a)}{\partial a_l}
+ \underbrace{(f(x_i | \mathbf a) - y_i) \frac{\partial^2 f(x_i | \mathbf a)}{\partial a_k \partial a_l}}_{
   \text{умножается на малый остаток}
}
\right) \approx 2(\mathbf{J}_{\cdot,k}^\top \operatorname{diag}(\frac{1}{\Sigma}) \mathbf{J}_{\cdot,l})
$$

Найдя оптимум $\chi^2(\mathbf a)$, говорит нам Numerical Recipes, мы можем посчитать $\mathbf C = \mathbf{H}^{-1}$ и воспользоваться ею как матрицей ковариации параметров $\mathbf a$, но только при выполнении некоторых условий (ошибки нормально распределены, а модель либо линейна по параметрам, либо содержит достаточно точек, чтобы быть приблизительно линейной по параметрам в окрестностях решения).

А если я решаю другую задачу, $\min_\mathbf a L(\mathbf a) = ||\mathbf{r}(\mathbf a)||^2 + \lambda ||\mathbf a||^2$? Я знаю, что в исходной постановке задачи в пространстве параметров есть направления, в которых остатки вовсе не меняются. Например, у меня может быть вращательная неопределённость решения $\mathbf X = \mathbf A \mathbf B = \mathbf A \mathbf P \mathbf{P}^{-1} \mathbf B$. Я бы хотел такие направления проигнорировать, если это возможно (помогает ли $ \lambda ||\mathbf a||^2$ получить уникальное решение в этом случае?), и получить направления, в которых, несмотря на регуляризацонное слагаемое, модель имеет наиболее широкий оптимум.

Возможно ли это? Какие выводы я могу делать о качестве решения задачи, исходя из $\mathbf H$ и другой известной мне информации об $L(\mathbf a)$?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: B@R5uk


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group