2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки


Правила форума


Посмотреть правила форума



Начать новую тему Ответить на тему
 
 Воспользоваться гессианом вне нелинейного МНК
Сообщение28.05.2022, 10:36 


09/05/16
138
Нелинейный метод наименьших квадратов работает просто. Если $y_i  \~ \mathcal N(f(x_i | \mathfb a), \sigma_i) \; \forall i$, то можно воспользоваться методом максимального правдоподобия, чтобы оценить параметры $\mathbf a$:

$$ \mathbf a = \arg\max_\mathbf{a} \prod_i e^\frac{(f(x_i | \mathbf a) - y_i)^2}{2\sigma_i^2} = \arg\min_\mathbf{a} \underbrace{
 \sum_i \frac{(f(x_i | \mathbf a) - y_i)^2}{2\sigma_i^2}
}_{\chi^2(\mathbf a)} $$

Обозначим вектор нормированных остатков $\mathbf r$, $r_i = \frac{f(x_i | \mathbf a) - y_i}{\sigma_i}$ и матрицу производных функции в каждой точке $\mathbf J$, $J_{i,k} = \frac{\partial f(x_i)}{\partial a_k}$. Тогда $\frac{\partial \chi^2}{\partial a_k} = 2 \sum_i r_i \frac{\partial f(x_i)}{\partial a_k} $, т.е. $\operatorname{grad} \chi^2(\mathbf a) = 2 \mathbf{r}^\top \mathbf J$.

Также можно показать, что гессиан $\mathbf H$, матрицу вторых производных $\chi^2(\mathbf a)$ можно посчитать как:

$$
H_{k,l} = \frac{\partial^2 \chi^2(\mathbf  a)}{\partial a_k \partial a_l} =
2 \sum_i \frac{1}{\sigma_i^2}\left(
 \frac{\partial \chi^2(\mathbf  a)}{\partial a_k} \frac{\partial \chi^2(\mathbf  a)}{\partial a_l}
+ \underbrace{(f(x_i | \mathbf a) - y_i) \frac{\partial^2 f(x_i | \mathbf a)}{\partial a_k \partial a_l}}_{
   \text{умножается на малый остаток}
}
\right) \approx 2(\mathbf{J}_{\cdot,k}^\top \operatorname{diag}(\frac{1}{\Sigma}) \mathbf{J}_{\cdot,l})
$$

Найдя оптимум $\chi^2(\mathbf a)$, говорит нам Numerical Recipes, мы можем посчитать $\mathbf C = \mathbf{H}^{-1}$ и воспользоваться ею как матрицей ковариации параметров $\mathbf a$, но только при выполнении некоторых условий (ошибки нормально распределены, а модель либо линейна по параметрам, либо содержит достаточно точек, чтобы быть приблизительно линейной по параметрам в окрестностях решения).

А если я решаю другую задачу, $\min_\mathbf a L(\mathbf a) = ||\mathbf{r}(\mathbf a)||^2 + \lambda ||\mathbf a||^2$? Я знаю, что в исходной постановке задачи в пространстве параметров есть направления, в которых остатки вовсе не меняются. Например, у меня может быть вращательная неопределённость решения $\mathbf X = \mathbf A \mathbf B = \mathbf A \mathbf P \mathbf{P}^{-1} \mathbf B$. Я бы хотел такие направления проигнорировать, если это возможно (помогает ли $ \lambda ||\mathbf a||^2$ получить уникальное решение в этом случае?), и получить направления, в которых, несмотря на регуляризацонное слагаемое, модель имеет наиболее широкий оптимум.

Возможно ли это? Какие выводы я могу делать о качестве решения задачи, исходя из $\mathbf H$ и другой известной мне информации об $L(\mathbf a)$?

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ 1 сообщение ] 

Модераторы: Модераторы Математики, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group