...Решаю задачу обучения нейронной сети. При обучении столкнулся с проблемой локальных минимумов. .. и алгоритма Ньютона и алгоритмом Левенберга...
Признаюсь, непонятно мне, что Вы обучаете и с какой целью. Реагирую только на слова о локальных минимумах, ну, и на алгоритмы Ньютона и Левенберга. Непонятно и какая проблема связана с минимумами. Имеются реализованные алгоритмы, например, в приложении к Мэпл13 на сайте предлагается бесплатный пакет Сергея Моисеева. Этот пакет решает практически весь спектр задач оптимизации и просто великолепно справляется с решением систем нелинейных уравнений. При этом он не использует ни первых, ни, тем более, вторых производных. Лично предлагал ему примеры, которые просто нереальны для последней версии любого матпакета. Не владею в достаточной мере Мэплом, а то бы протестировал на пакете и краевую задачу для ОДУ. (По логике, для него краевые задачи для ОДУ должны быть не сложнее, чем СНУ небольшой размерности.)
Если говорить о прохождении локальных экстремумов, то есть метод Драгилева, для которого требуются первые производные, но он не реагирует на обращение в о определителя Якоби, а потому спокойно проходит глобальные и локальные экстремумы. Затруднением для него являются только точки самопересечения, поскольку метод использует решение автономной системы, а для неё это особые точки. Но затруднением не фатальным при некоторых приёмах программирования…