фиксировать
в начале итераций чем меньше, тем лучше, а потом медленно ее увеличивать. Я знаю, что есть целая теория как это делать, но быстро найти не смог ссылки.
Вы про регуляризацию чтоль? Если да, то там не так делается, и смысл её другой, и соответственно решения не будут эквивалентны жёстко наложенному условию Лагранжем.
Не, не про регуляризацию, а про сходимость.
ТС ничего про гессиан не сказал, значит его у него скорей всего нет. Чем будем минимизировать? Квазиньютоном? Если да, то я не сильно представляю как записать множители Лагранжа в квазиньютонах, ну скажем, в BFGSе. Поправьте меня, если я отстал от переднего края науки в этом направлении.
Далее, что я утверждал, только то, что если функция овражистая, то градиентным спуском она сходиться не будет, если не овражистая - то да, Лагранж записали, как-то сошлись, радуемся.
Так вот если функция все-таки овражистая, то Лагранжево направление совсем все в сторону утянет и сходимости не будет. То есть я предлагал заменить на первых этапах (вдали от минимума) Лагранжа на Тихонова, сходиться с повышением этого тихоновского коэффициента, а уже как в районе минимума сели, там пару раз честным Лагранжем уточнить.
С радостью услышу более правильную теорию, хорошо проверенную на практике, как такое можно решать.