Помогите распутать мысли про логистическую регрессию. Смотрю один небезызвестный онлайн-курс по машинному обучению, вот что говорят авторы:
Можно показать, что оптимальным ответом линейной регрессии будет

(при минимизации MSE или, что эквивалентно, максимизации правдоподобия выборки в предположении, что остатки распределены нормально), где

- целевая переменная,

- объясняющие факторы.
Теперь, если мы решаем задачу классификации с классами

и

, то оказывается, что

, поэтому есть надежда, что обычная линейная регрессия

может решить задачу бинарной классификации путём предсказания вероятности принадлежности объекта классу

, единственное - надо от ответа модели взять сигмоиду, чтобы отобразить ответы из

в
![$[0,1]$ $[0,1]$](https://dxdy-03.korotkov.co.uk/f/a/c/f/acf5ce819219b95070be2dbeb8a671e982.png)
(т.е. фактически приближать линейной моделью не

, а

).
Пусть есть выборка

, где

,
Положим

;
Запишем правдоподобие выборки:
Тогда
И, если поставить перед этим выражением минус, получим кросс-энтропию (log-loss).
Дальше авторы говорят следующее:
Пусть теперь

. Тогда путём несложных преобразований получим

.
И можно настраивать модель, минимизируя этот функционал.
И здесь у меня возникает вопрос: законно ли такое переобозначение меток классов?
Ведь когда было

, то красиво получалось, что

, которое приближает линейная регрессия, равняется

, и на этом факте была построена модель логистической регрессии, а теперь

.
Будет ли ответ модели, настроенной путём минимизации последнего функционала, всё так же равняться

?