Подскажите, где можно почитать, как в методе градиентного спуска "побороть" нахождение локальных минимумов вместо глобального и застрявание в них?
Никак не побороть. Только зная конкретную функцию можно строить соображения о локальности или глобальности минимума.
В вики нашёл только отписку в две строки, которая упоминает о стохастических методах. Что за методы конкретно - я не нашёл.
Берёшь сетку, или случайно выбираешь точки, от которых проводишь процедуры минимизации. Ну и делаешь вывод, что с какой-то вероятностью свалился в глобальный минимум.