Привет всем!
Взял модель Yolov4 реализованную в Matlab. Начал обучать на своих данных (обучающая выборка: всего 300 размеченных картинок, детектируется 1 класс, выборка делится на train 250 и validation 50, batch size 10). Поставил обучение на 30 эпох, из-за того что batch size 10, а размер train 250, то на каждой эпохе получается 25 итераций, таким образов на 30 эпох 175 итераций. Получился такой график зависимости Training Loss и Validation Loss от числа итераций:
Исходя из графика возникают такие вопросы (и привожу свои рассуждения):
1) На какой итерации (эпохе) стоит остановить обучение и взять веса для дальнейшего использования? Думаю, что нужно брать итерацию, где получился наименьший Validation Loss (исходя из графика 125 или 150 итерация или что тоже самое 5-6 эпоха). Но, в связи с этим возникает второй вопрос:
2) Почему на при минимальном Validation loss график Training loss лежит выше, почему тренировочная выборка имеет больше Loss? Ведь на тренировочной выборке должен быть loss меньше чем на Validation или это не всегда?
3) И как считается Loss для Training и Validation, эти метрики нормированы на одно картинку или средний loss который получился на batch или выводится суммарный loss на Training и Validation на каждой итерации?