Вообще, у нас ведь нет задачи получить глобальный минимум на валидационном наборе (иначе на нем и следует тренировать сеть)?
Это одна из распространенных практик - сохранять состояние НС на глобальном минимуме.
Но предложение в скобках никак отсюда не следует.
Веса, как я понял, пересчитываются после целого набора примеров, количество которых определяется параметром batch_size (то есть ни первый, ни второй график, но второй больше похож на правду).
При стохастическом спуске, когда мы ищем из нескольких минимумов на валидационном множестве самый глубокий, есть вероятность, что он появится тогда, когда мы залезем в минимум "Тест" уже достаточно глубоко. Вряд ли это будет глобальный минимум "Вал".
Эти два предложения противоречат друг другу, непонятно что хотите сказать. Разве что вы имеете в виду, что если слишком долго обучать, то наступило переобучение, и вдруг появившийся глобальный минимум на валидации, скорее всего, не отражает адекватную картину. Тут я не знаю, но вероятность этого, наверное, действительно мала.