Здравствуйте! Решил разобраться с темой двойственности в математической оптимизации и построить зазор двойственности для функции логистической регрессии, вот так она описывается:
![$$\min_{w\in \mathbb{R}^n} \frac{1}{m} \sum\limits_{i=1}^m \log \left(1+\exp(-y_i \langle w, x_i \rangle)\right) + \frac{\alpha}{2}\|w\|_2^2,$$ $$\min_{w\in \mathbb{R}^n} \frac{1}{m} \sum\limits_{i=1}^m \log \left(1+\exp(-y_i \langle w, x_i \rangle)\right) + \frac{\alpha}{2}\|w\|_2^2,$$](https://dxdy-03.korotkov.co.uk/f/a/a/4/aa49ea1d8bfa2d1641a2047de1d320a182.png)
, тут
![$x_i$ $x_i$](https://dxdy-02.korotkov.co.uk/f/9/f/c/9fc20fb1d3825674c6a279cb0d5ca63682.png)
- это строка из матрицы
![$X$ $X$](https://dxdy-01.korotkov.co.uk/f/c/b/f/cbfb1b2a33b28eab8a3e59464768e81082.png)
(не квадратная!),
![$\alpha$ $\alpha$](https://dxdy-01.korotkov.co.uk/f/c/7/4/c745b9b57c145ec5577b82542b2df54682.png)
- константа
Чтобы построить двойственную функцию, добавим искусственное ограничение:
![$u_i=y_i \langle w, x_i\rangle, \forall i=\overline{1,m}$ $u_i=y_i \langle w, x_i\rangle, \forall i=\overline{1,m}$](https://dxdy-04.korotkov.co.uk/f/7/a/b/7ab20b6e80ab14bbbb228ce5acd0b81c82.png)
, а сама функция станет такой
![$\frac{1}{m} \sum\limits_{i=1}^m \log \left(1+\exp(-u_i)\right) + \frac{\alpha}{2}\|w\|_2^2$ $\frac{1}{m} \sum\limits_{i=1}^m \log \left(1+\exp(-u_i)\right) + \frac{\alpha}{2}\|w\|_2^2$](https://dxdy-01.korotkov.co.uk/f/c/2/1/c2122226e9b4542e32d6f666e6300f6b82.png)
Теперь сама двойственная функция:
![$$g(\nu) = \min_{u, \omega} \frac{1}{m} \sum\limits_{i=1}^m \log \left(1+\exp(-u_i)\right) + \frac{\alpha}{2}\|w\|_2^2 - \nu^\top(u - y \ \circ \ X \omega)$$ $$g(\nu) = \min_{u, \omega} \frac{1}{m} \sum\limits_{i=1}^m \log \left(1+\exp(-u_i)\right) + \frac{\alpha}{2}\|w\|_2^2 - \nu^\top(u - y \ \circ \ X \omega)$$](https://dxdy-03.korotkov.co.uk/f/a/d/6/ad63eb0b74e7966575011707dd7441ce82.png)
Теперь через производную нашёл такую точку минимума (несколько раз перепроверил):
![$$\begin{equation}
\left\{\begin{split}
\omega_{\min} = -\frac{1}{\alpha}(\nu \ \circ \ y)^\top X \\
u_{i \ \min} = - \ln{\frac{\nu_i}{1 - \nu_i m}} \\
\end{split}\right.\end{equation}$$ $$\begin{equation}
\left\{\begin{split}
\omega_{\min} = -\frac{1}{\alpha}(\nu \ \circ \ y)^\top X \\
u_{i \ \min} = - \ln{\frac{\nu_i}{1 - \nu_i m}} \\
\end{split}\right.\end{equation}$$](https://dxdy-04.korotkov.co.uk/f/f/f/e/ffe15797ba07962a2a4266feb44302d782.png)
Дальше мне надо выразить
![$\nu$ $\nu$](https://dxdy-04.korotkov.co.uk/f/b/4/9/b49211c7e49541e500c32b4d56d354dc82.png)
через
![$\omega$ $\omega$](https://dxdy-03.korotkov.co.uk/f/a/e/4/ae4fb5973f393577570881fc24fc205482.png)
для того, чтобы образовать функцию
![$g(\nu(\omega))$ $g(\nu(\omega))$](https://dxdy-02.korotkov.co.uk/f/5/a/d/5ad29b236cb92f9b089970cda324015282.png)
и тогда я смогу получить критерий приближения к минимуму вот так
![$f(\omega) - g(\nu(\omega))$ $f(\omega) - g(\nu(\omega))$](https://dxdy-04.korotkov.co.uk/f/3/b/2/3b2d9cdde8946d9864f3417df296315382.png)
.
Теперь сам вопрос. Как мне выразить
![$\nu$ $\nu$](https://dxdy-04.korotkov.co.uk/f/b/4/9/b49211c7e49541e500c32b4d56d354dc82.png)
через
![$\omega$ $\omega$](https://dxdy-03.korotkov.co.uk/f/a/e/4/ae4fb5973f393577570881fc24fc205482.png)
в (1)? Я не понимаю как это сделать, так как
![$X$ $X$](https://dxdy-01.korotkov.co.uk/f/c/b/f/cbfb1b2a33b28eab8a3e59464768e81082.png)
может быть не квадратной и нельзя эту матрицу просто перебросить в правую часть уравнения
Так же я ещё не решил как обойти проблему отрицательного значения под логарифмом в
![$u_{\min}$ $u_{\min}$](https://dxdy-01.korotkov.co.uk/f/0/6/e/06ef47ec2cc6bd2aa1ddeaf847fc3e1382.png)
, но это уже дальше...