Прошу прощения, что долго не отвечал.
Вы правы, ошибка в самом начале. Нужно минимизировать не
, а правдоподобие модели
.
Но в таком случае, если носители распределений
не будут пересекаться, то задача превратиться в классификацию, что не совсем то, что я хотел.
У меня удалось добиться похожего эффекта, если взять в качестве
, но это уже другая история
Спасибо большое за ответы, проблему нашли, исправили, тему можно закрывать.
(Оффтоп)
P.S. если вдруг интересно, я делаю custom loss для
xgboost, который позволяет в качестве
брать деревья, что значительно сложнее, чем линейная функция. Похожую штуку можно сделать для нейронных сетей,
вот пример.