допускается искусственное зашумление функции
Это не является частью adam.
В самом начале где определяется функция f.
Это вход алгоритма, а не его работа. Возьмете детерменированную f - работа будет полностью детерменированной.
Кстати, а что вообще такое "глобальный минимум стохастической функции"?
Подумаю, но не прямо сейчас, но ведь нет же в реальных задачах коэффициентов
. Я ж о практике, с теорией решили
Так сформулируйте конкретное утверждение.
Сразу могу сказать, что на практике есть полно задач оптимизации, где лучше работают либо модификации adam, либо вообще что-то сильно другое.
А что это? В разделе сходимость, значит это что-то говорящее о сходимости
Грубо говоря, это для задачи оптимизации отличие нашего алгоритма от метода "стоять в самой лучшей, но одной точке".
Попробуйте посмотреть, во что он (и формулировка теоремы 4.1) превращается для стационарного случая
.
Так нет же в ИИ такого раздела
А это не ИИ, это чистая математика.
Насколько я понял из описания, все эти улучшения градиентного спуска скорее про скорость сходимости, а не про полноту проверки на глобальность минимума
Именно так. Для просто квадратичной оптимизации градиентный спуск при оптимальных параметрах требует числа шагов пропорционально числу обусловленности, а спуск с моментом (адам - развитие этой идеи) - пропорционально корню из числа обусловлености.
Для невыпуклых задач это все еще во многом алхимия. Хотя вот как раз в среду Разборов будет рассказывать, какие есть результаты про то, почему невыпуклые нейросети таки можно учить градиентным спуском.