Много - не мало :) А вообще, я предполагал самое простое - кусочно-линейное.
Если наш классификатор слишком много всего умеет - это тоже плохо, он переобучится. Например, просто запомнит обучающую выборку, а для запросов не из нее будет выдавать что-то случайное.
Ну вот у вас есть
точек в
. Как вы их будете отображать на сетку небольшой размерности?
Почему правильно-то? Где обоснование?
У нестрогих утверждений - нестрогое обоснование:-)
Зачем же откидывать информацию, которая позволяет ускорить аппроксимацию.
Затем, что, например, получившуюся модель может быть проще обучать.
Но да, я уже сказал, что сверточные сети, которые построены с учетом структуры картинки, на некоторых задачах работают лучше обычных.
К тому же отказ от непрерывности уводит в область, где мат. анализ такой аппроксимации будет затруднителен.
А на практике часто не надо обосновывать работоспособность метода. Работает - и хорошо.
Т.е. всем, конечно, очень хочется уметь анализировать ML теоретически. Но пока что он на практике работает гораздо лучше, чем в теории.
Опять вы говорите полуфразами-полунамеками. Что за "работа обычной нейросети вообще не определена на последовательность произвольной длины". Длины чего?? Входных данных? Ну так закодируйте вещественным числом и подайте на обычный вход.
Куда уж яснее? Обычная нейросеть - это функция
. Рекуррентная нейросеть - это (детерменированная - в смысле, что длина выхода равна длине входа, и
-й символ выхода зависит только от первых
символов входа) функция
.
Вы, конечно, можете вложить
в
. Но я очень удивлюсь, если получившуюся модель удастся обучить хоть чему-то интересному.
этот вид для двухслойной сети, которой, как вы уже знаете, достаточно для равномерной аппроксимации любой непрерывной функции на компакте.
Нет, недостаточен. Для сколь угодно точной аппроксимации нужны сколь угодно большие слои. А в указанной мной модели всего
параметров.
Нейронная аппросимация - это аппроксимация вида
Вот как в таком виде представить (давайте даже
вход возьмем)
?
И вы так и не ответили, почему именно монотонные функции рассматриваются?
В смысле в качестве функций активации?
Во-первых, нипочему. Например, в
http://arxiv.org/pdf/1412.6830v3.pdf используют немонотонные.
Во-вторых, потому что это в итоге работает лучше.
Вы, видимо, хотите какое-то глубокое теоретическое обоснование того, что нейронные сети хорошо работают. Насколько я знаю, такого обоснования пока что нет.