Вопрос следующий - можно ли при обучении линейного классификатора в качестве функционала ошибки использовать сумму отступов со знаком минус:?

В оригинале идея состоит в том, что функционал ошибки это негладкая функция, которую сложно опитимизировать:
![$$Q(a,x)=\sum\limits_{i=1}^{l}[y_i \left\langle w_i,x_i\right\rangle<0] = \sum\limits_{i=1}^{l}[M_i<0]$$ $$Q(a,x)=\sum\limits_{i=1}^{l}[y_i \left\langle w_i,x_i\right\rangle<0] = \sum\limits_{i=1}^{l}[M_i<0]$$](https://dxdy-03.korotkov.co.uk/f/a/7/0/a709243e0035741fe3779eb26cf1b82f82.png)
Поэтому мы заменяем функционал ошибки на его оценку:

Который, в свою очередь, представляет из себя гладкую, как привило неубывающую функцию:

На графике видно, что функции оценок пороговой функции (
![$[M_i < 0]$ $[M_i < 0]$](https://dxdy-02.korotkov.co.uk/f/d/7/0/d70aa455d3a96d3008a41a978c94973782.png)
) убывают с ростом значения

. Так почему бы просто при обучении не искать минимум разностей (или минус сумму) отступов

?
Дополнительно -
http://www.machinelearning.ru/wiki/inde ... 0%BE%D1%80