Прошу прощения, что долго не отвечал.
Вы правы, ошибка в самом начале. Нужно минимизировать не
![$\mathbb E[(Y - y)^2]$ $\mathbb E[(Y - y)^2]$](https://dxdy-01.korotkov.co.uk/f/0/c/0/0c0d3dd1d575e9fae9d6f7bdc1949a8082.png)
, а правдоподобие модели

.
Но в таком случае, если носители распределений

не будут пересекаться, то задача превратиться в классификацию, что не совсем то, что я хотел.
У меня удалось добиться похожего эффекта, если взять в качестве

, но это уже другая история
Спасибо большое за ответы, проблему нашли, исправили, тему можно закрывать.
(Оффтоп)
P.S. если вдруг интересно, я делаю custom loss для
xgboost, который позволяет в качестве

брать деревья, что значительно сложнее, чем линейная функция. Похожую штуку можно сделать для нейронных сетей,
вот пример.