Нашёл научный труд про
maxout, про который маститые ученые (в том числе Гудфеллоу, Бенджио, 2013) доказали, что он является универсальным аппроксиматором наряду с линейным и свёрточным слоем и назвали по аналогии с
dropout, так как эти оба слоя демонстрируют похожие механизмы создания подвыборки из датасета, которые снижают переобучение.
https://arxiv.org/pdf/1302.4389Что ж Soft One-Hot Encoding (SOHE) также относится к таким слоям, только посложнее: он не делает субвыборку, а перераспределяет весь датасет по разным субмоделям без отбрасывания.
Я уже задумался над усовершенствованием
maxout: нужно сделать сортировку (
sortout) и тогда отбрасывания данных также не будет, правда сложность получается

...