Я сейчас только понял к чему Вы клоните, и у меня возникли очень серьёзные подозрения.
Значит утверждаете
... самый глубокий из которых при backprop не обучается вообще (учитывая ограниченный объём обучающих данных).
Просветите, какие же методы используются для обучения "самого глубокого" слоя, и почему "backprop" вообще не используется?
Обоснуйте так же своё утверждение в плане того, как ограниченный объём обучающих данных на возможность или невозможность использования "backprop" для обучения последнего слоя нейросети, пусть даже и "глубокой"?
Сообщите, может ли двухслойный перцептрон при определённых условиях стать "глубокой сетью"?
Пожалуйста не используйте вульгарный слэнг и эти "диванософские" объяснения, придерживайтесь академического стиля - уверяю, люди здесь "в теме", Вас поймут.
P.S: Вопросы заданы заданы чтобы выяснить, действительно ли Вы разбираетесь в том, о чём пишете.