Прошу прощения, что долго не отвечал.
Вы правы, ошибка в самом начале. Нужно минимизировать не
![$\mathbb E[(Y - y)^2]$ $\mathbb E[(Y - y)^2]$](https://dxdy-01.korotkov.co.uk/f/0/c/0/0c0d3dd1d575e9fae9d6f7bdc1949a8082.png)
, а правдоподобие модели
![$-\ln \mathcal L(Y, y)$ $-\ln \mathcal L(Y, y)$](https://dxdy-02.korotkov.co.uk/f/5/1/c/51c785c56b0fd6915ff8e13259c203e782.png)
.
Но в таком случае, если носители распределений
![$p_k(y) = p(y|a_k, b_k)$ $p_k(y) = p(y|a_k, b_k)$](https://dxdy-02.korotkov.co.uk/f/5/e/2/5e263a8011023fa612d8c53bed0ac9d082.png)
не будут пересекаться, то задача превратиться в классификацию, что не совсем то, что я хотел.
У меня удалось добиться похожего эффекта, если взять в качестве
![$p_k = \mathcal N_k$ $p_k = \mathcal N_k$](https://dxdy-02.korotkov.co.uk/f/5/b/4/5b458145b98eb2f59360dde1557bf8d582.png)
, но это уже другая история
Спасибо большое за ответы, проблему нашли, исправили, тему можно закрывать.
(Оффтоп)
P.S. если вдруг интересно, я делаю custom loss для
xgboost, который позволяет в качестве
![$f$ $f$](https://dxdy-02.korotkov.co.uk/f/1/9/0/190083ef7a1625fbc75f243cffb9c96d82.png)
брать деревья, что значительно сложнее, чем линейная функция. Похожую штуку можно сделать для нейронных сетей,
вот пример.