Как считается Loss?

alexey007 · 03.12.2022, 18:49

Привет всем!

Взял модель Yolov4 реализованную в Matlab. Начал обучать на своих данных (обучающая выборка: всего 300 размеченных картинок, детектируется 1 класс, выборка делится на train 250 и validation 50, batch size 10). Поставил обучение на 30 эпох, из-за того что batch size 10, а размер train 250, то на каждой эпохе получается 25 итераций, таким образов на 30 эпох 175 итераций. Получился такой график зависимости Training Loss и Validation Loss от числа итераций:

Исходя из графика возникают такие вопросы (и привожу свои рассуждения):

1) На какой итерации (эпохе) стоит остановить обучение и взять веса для дальнейшего использования? Думаю, что нужно брать итерацию, где получился наименьший Validation Loss (исходя из графика 125 или 150 итерация или что тоже самое 5-6 эпоха). Но, в связи с этим возникает второй вопрос:
2) Почему на при минимальном Validation loss график Training loss лежит выше, почему тренировочная выборка имеет больше Loss? Ведь на тренировочной выборке должен быть loss меньше чем на Validation или это не всегда?
3) И как считается Loss для Training и Validation, эти метрики нормированы на одно картинку или средний loss который получился на batch или выводится суммарный loss на Training и Validation на каждой итерации?

mihaild · 03.12.2022, 19:13

1. Да, как правило стоит брать эпоху, на которой validation loss минимален.
2. Скорее всего, распределение на обучающей и валидационной выборка отличается. Попробуйте, кстати, перезапустить с другим разбиением на train/validate.
3. Покажите код, который выдает значения метрик. Как правило считают среднее значение в пересчете на один объект, но бывают и варианты - скользящее среднее, сумма по батчу, может и еще что-то.

Sonic86 · 12.12.2022, 09:32

alexey007 в сообщении #1572455 писал(а):

2) Почему на при минимальном Validation loss график Training loss лежит выше, почему тренировочная выборка имеет больше Loss? Ведь на тренировочной выборке должен быть loss меньше чем на Validation или это не всегда?

Shuffle всей выборки сделали перед разбиением на train/validation?

Обучающая выборка мала, могут быть выбросы - попробуйте глазками помониторить тоже. Вполне возможно, что все выбросы попали в train.

Научный форум dxdy

Как считается Loss?