Переобучение на валидационном наборе

gevaraweb · 15/11/15 1132

sergey zhukov в сообщении #1642608 писал(а):

Просто минимум.

А, ну да. Некий набор весов, где тренировка дает почти ноль.
То есть предлагаете искать набор весов, который дает минимум на сумме невязок тренировочного и валидационного набора?
Но тогда валидационный набор сильно превращается в тренировочный. Вроде как :mrgreen:

.

sergey zhukov · 17/10/16 5475

gevaraweb
Превращается. Только я этого не предлагаю, это так может получится, но нам это не нужно.

sergey zhukov · 17/10/16 5475

А вот еще вопрос про лишние признаки.

В лекции про машинное обучение часто обсуждают вопрос о том, как бы сократить количество входных признаков для обучения, отбросить маловажные. Я сначала думал, что это для того, чтобы весов поменьше было в конечной сети. И чтоб эти признаки не раздували мерность пространства и не путали градиентный спуск. Т.е. чтобы ускорить и упростить обучение. Но точность при этом пострадает.

Но потом вижу, что говорят о том, что можно улучшить работу сети и сделать ее точнее, если маловажные признаки выбросить. Вроде бы распространено убеждение, что нейронная сеть - это такая штука, которая способна из чего угодно выжать максимум возможного. Т.е. если признак несет хоть какую-то даже малую пользу, то его лучше оставить. И даже если он вообще случаен, то его все равно можно оставить, он не помешает. А поскольку мы никогда точно не уверены в абсолютной случайности признака, то ничего выбрасывать не нужно.

На практике же это не работает. Я правильно понимаю, что не работает потому, что обучающая выборка всегда конечна, а на конечной выборке сеть всегда найдет какие-то корреляции даже совершенно случайного признака с выходными данными? Т.е. мы ожидаем, что процесс обучения должен просто обнулить веса случайного признака прямо на входе в первом слое сети. А на практике он этого не сделает, т.к. случайные корреляции на конечном наборе все равно существуют. А кроме того, процесс обучения конечен еще и по времени, важно не переобучить сеть. Т.е. до обнуления этих весов просто вообще может не дойти?

mihaild · 16/07/14 9753 Цюрих

sergey zhukov в сообщении #1644344 писал(а):

мерность пространства

размерность

Еще важный параметр - как работает регуляризация. Довольно часто при обучении в штраф включается функция от весов, чтобы веса получились поменьше (для снижения переобучения). Если регуляризация квадратичная, то добавление нескольких сильно скоррелированных признаков ее портит.

Missir · 15/12/22 254

sergey zhukov, такой способ как Вы описываете хоть и не самый лучший, но всё же практикуется.
Здесь, чтобы найти оптимальный момент останова, нужно просто сгладить валидационную кривую.

gevaraweb · 15/11/15 1132

sergey zhukov в сообщении #1642523 писал(а):

Но не будет ли это похоже на таки обучение сети на валидационном наборе и таки ее возможное переобучение?

Кстати, я вспомнил, еще бывает так: при обучении валидационный набор выбирается из тренировочного, видимо, случайным образом. То есть, например, 10 % тренировочных данных (validation_split = 0.1) не участвуют в обучении, а используются для оценки качества НС, в ходе обучения.
И потом НС оценивается на изначальном (стабильном так скажем) валидационном наборе.

Научный форум dxdy

Переобучение на валидационном наборе

Кто сейчас на конференции