Помогите распутать мысли про логистическую регрессию. Смотрю один небезызвестный онлайн-курс по машинному обучению, вот что говорят авторы:
Можно показать, что оптимальным ответом линейной регрессии будет
(при минимизации MSE или, что эквивалентно, максимизации правдоподобия выборки в предположении, что остатки распределены нормально), где
- целевая переменная,
- объясняющие факторы.
Теперь, если мы решаем задачу классификации с классами
и
, то оказывается, что
, поэтому есть надежда, что обычная линейная регрессия
может решить задачу бинарной классификации путём предсказания вероятности принадлежности объекта классу
, единственное - надо от ответа модели взять сигмоиду, чтобы отобразить ответы из
в
(т.е. фактически приближать линейной моделью не
, а
).
Пусть есть выборка
, где
,
Положим
;
Запишем правдоподобие выборки:
Тогда
И, если поставить перед этим выражением минус, получим кросс-энтропию (log-loss).
Дальше авторы говорят следующее:
Пусть теперь
. Тогда путём несложных преобразований получим
.
И можно настраивать модель, минимизируя этот функционал.
И здесь у меня возникает вопрос: законно ли такое переобозначение меток классов?
Ведь когда было
, то красиво получалось, что
, которое приближает линейная регрессия, равняется
, и на этом факте была построена модель логистической регрессии, а теперь
.
Будет ли ответ модели, настроенной путём минимизации последнего функционала, всё так же равняться
?