И все же, почему именно аппроксимация нейронными сетями?

mihaild · 16/07/14 9737 Цюрих

_hum_ в сообщении #1147761 писал(а):

сделать просто преобразование координат $u = u(x)$ таким образом, чтобы все точки $u_i = u(x)$ автоматически попадали на, соответственно, $i/N, i = 0..N$ .

Кажется, что таких преобразований настолько много, что можно выбрать такие, после которых выборка окажется линейно разделимой (т.е. точки разных классов окажутся отделены друг от друга гиперплоскостями).

_hum_ в сообщении #1147761 писал(а):

И из-за этого ваш решатель перестает быть непрерывным в естественной для изображений топологии.

Во-первых, как уже правильно указали, это не всегда естественная топология. Во-вторых, нейросеть в принципе может это выучить (т.к. каждый вход всегда соответствует одной и той же точке). И, как показывает практика, выучивает.

_hum_ в сообщении #1147761 писал(а):

Под качественным понималось поведение в распознавании (как, например, неспособность одномерной сети распознавать то, что способна распознавать многослойная), а не отличие в технических деталях.

Это принципиальное отличие - работа обычной нейросети вообще не определена на последовательность произвольной длины (у нее фиксированное число входов).
Например, проверить сбалансированность скобок в произвольной скобочной последовательности, рекуррентная сеть может (теоретически; на практике всё плохо), а нерекуррентная - нет, ей вообще непонятно, как эту последовательность на вход подавать.

Т.е. рекуррентные нейросети задают функции на другом множестве, чем обычные

_hum_ в сообщении #1147761 писал(а):

Нейронная аппросимация - это аппроксимация вида
$f(x_1,\dots, X_{m_0}) = \sum_{i = 1}^{m_1}\alpha_i \phi\bigg(\sum_{j = 1}^{m_0}w_{ij}x_j + b_i\bigg),$

Я, видимо, чего-то не понимаю. Возьмем нейросеть с двумя входами и двумя слоями по одному сигмоидному нейрону в каждом. Как это запишется в указанном виде?
[quote="_hum_ в
сообщении #1147783"]Не зря же все-таки акцентируют внимание на сигме- и монотонности[/quote]Функции нужны дифференцируемые (чтобы работал back propagation). Для сигмоидов доказано, что двуслойная нейросеть достаточного размера может приблизить любую непрерывную функцию; для произвольной функции активации это неверно. Но это не очень важный для практики результат.

Pavia · 31/10/08 1244

Вопрос вы ставите неправильно. Знате песенку: кто ищет - тот всегда найдёт! Так и тут, искуственные нейронные сети (ИНС) это не физика. Тут нет "внешних" законов, только математические. А все математические тиоремы связаны через базовые законы. Поэтому математически ИНС могут быть какими угодно. Хотите Бирштейна флаг вам вруки делайте на них.
Просто исторически сложилось так, что люди пользуются бритвой Аккама. Согласно ей чем проще модель, тем она правильнее. Человек который изучал неронны знал аналоговую технику и вывел сигмоид. А тот который придумал обратное расспростронение знал матрицы.
Просто исторический факт.
Это незначит, что нельзя построить альтернотивную модель. Можно, будет другой и не факт что проще.
Проблем много, но они решаемые. А во вторых ИНС это модель, т.е. приближённое описание естественной НС(ЕНС). Всякая модель имеет свои рамки и масштабы.

_hum_ · 23/12/07 1763

mihaild в сообщении #1147859 писал(а):

_hum_ в сообщении #1147761 писал(а):

сделать просто преобразование координат $u = u(x)$ таким образом, чтобы все точки $u_i = u(x)$ автоматически попадали на, соответственно, $i/N, i = 0..N$ .

Кажется, что таких преобразований настолько много, что можно выбрать такие, после которых выборка окажется линейно разделимой (т.е. точки разных классов окажутся отделены друг от друга гиперплоскостями).

Много - не мало :) А вообще, я предполагал самое простое - кусочно-линейное.

Цитата:

_hum_ в сообщении #1147761 писал(а):

И из-за этого ваш решатель перестает быть непрерывным в естественной для изображений топологии.

Во-первых, как уже правильно указали, это не всегда естественная топология.

Почему правильно-то? Где обоснование? :) Вроде, здесь научный форум. Нет? :)

Цитата:

Во-вторых, нейросеть в принципе может это выучить (т.к. каждый вход всегда соответствует одной и той же точке). И, как показывает практика, выучивает.

:) Ну да, из разряда "бешеной собаке семь верст не крюк". Зачем же откидывать информацию, которая позволяет ускорить аппроксимацию.
К тому же отказ от непрерывности уводит в область, где мат. анализ такой аппроксимации будет затруднителен.

Цитата:

_hum_ в сообщении #1147761 писал(а):

Под качественным понималось поведение в распознавании (как, например, неспособность одномерной сети распознавать то, что способна распознавать многослойная), а не отличие в технических деталях.

Это принципиальное отличие - работа обычной нейросети вообще не определена на последовательность произвольной длины (у нее фиксированное число входов).
Например, проверить сбалансированность скобок в произвольной скобочной последовательности, рекуррентная сеть может (теоретически; на практике всё плохо), а нерекуррентная - нет, ей вообще непонятно, как эту последовательность на вход подавать.

Т.е. рекуррентные нейросети задают функции на другом множестве, чем обычные

Опять вы говорите полуфразами-полунамеками. Что за "работа обычной нейросети вообще не определена на последовательность произвольной длины". Длины чего?? Входных данных? Ну так закодируйте вещественным числом и подайте на обычный вход.

Цитата:

Я, видимо, чего-то не понимаю. Возьмем нейросеть с двумя входами и двумя слоями по одному сигмоидному нейрону в каждом. Как это запишется в указанном виде?

этот вид для двухслойной сети, которой, как вы уже знаете, достаточно для равномерной аппроксимации любой непрерывной функции на компакте.

И вы так и не ответили, почему именно монотонные функции рассматриваются?

Pavia, спасибо за мнение, но оно слишком кардинальным образом отличается от моего, поэтому ничего ответить не смогу, извините.

mihaild · 16/07/14 9737 Цюрих

_hum_ в сообщении #1147992 писал(а):

Много - не мало :) А вообще, я предполагал самое простое - кусочно-линейное.

Если наш классификатор слишком много всего умеет - это тоже плохо, он переобучится. Например, просто запомнит обучающую выборку, а для запросов не из нее будет выдавать что-то случайное.
Ну вот у вас есть $10^4$ точек в $\mathbb{R}^{768}$ . Как вы их будете отображать на сетку небольшой размерности?

_hum_ в сообщении #1147992 писал(а):

Почему правильно-то? Где обоснование?

У нестрогих утверждений - нестрогое обоснование:-)

_hum_ в сообщении #1147992 писал(а):

Зачем же откидывать информацию, которая позволяет ускорить аппроксимацию.

Затем, что, например, получившуюся модель может быть проще обучать.
Но да, я уже сказал, что сверточные сети, которые построены с учетом структуры картинки, на некоторых задачах работают лучше обычных.

_hum_ в сообщении #1147992 писал(а):

К тому же отказ от непрерывности уводит в область, где мат. анализ такой аппроксимации будет затруднителен.

А на практике часто не надо обосновывать работоспособность метода. Работает - и хорошо.
Т.е. всем, конечно, очень хочется уметь анализировать ML теоретически. Но пока что он на практике работает гораздо лучше, чем в теории.

_hum_ в сообщении #1147992 писал(а):

Опять вы говорите полуфразами-полунамеками. Что за "работа обычной нейросети вообще не определена на последовательность произвольной длины". Длины чего?? Входных данных? Ну так закодируйте вещественным числом и подайте на обычный вход.

Куда уж яснее? Обычная нейросеть - это функция $\mathbb{R}^n \to \mathbb{R}^m$ . Рекуррентная нейросеть - это (детерменированная - в смысле, что длина выхода равна длине входа, и $i$ -й символ выхода зависит только от первых $i$ символов входа) функция $\mathbb{R}^* \to \mathbb{R}^*$ .
Вы, конечно, можете вложить $\mathbb{R}^*$ в $\mathbb{R}$ . Но я очень удивлюсь, если получившуюся модель удастся обучить хоть чему-то интересному.

_hum_ в сообщении #1147992 писал(а):

этот вид для двухслойной сети, которой, как вы уже знаете, достаточно для равномерной аппроксимации любой непрерывной функции на компакте.

Нет, недостаточен. Для сколь угодно точной аппроксимации нужны сколь угодно большие слои. А в указанной мной модели всего $5$ параметров.

_hum_ в сообщении #1147761 писал(а):

Нейронная аппросимация - это аппроксимация вида
$f(x_1,\dots, X_{m_0}) = \sum_{i = 1}^{m_1}\alpha_i \phi\bigg(\sum_{j = 1}^{m_0}w_{ij}x_j + b_i\bigg),$

Вот как в таком виде представить (давайте даже $1$ вход возьмем) $\sigma(b_2 + a_2 \cdot \sigma(b_1 + \a_x \cdot x_1))$ ?

_hum_ в сообщении #1147992 писал(а):

И вы так и не ответили, почему именно монотонные функции рассматриваются?

В смысле в качестве функций активации?
Во-первых, нипочему. Например, в http://arxiv.org/pdf/1412.6830v3.pdf используют немонотонные.
Во-вторых, потому что это в итоге работает лучше.

Вы, видимо, хотите какое-то глубокое теоретическое обоснование того, что нейронные сети хорошо работают. Насколько я знаю, такого обоснования пока что нет.

_hum_ · 23/12/07 1763

mihaild в сообщении #1148006 писал(а):

_hum_ в сообщении #1147992 писал(а):

Много - не мало :) А вообще, я предполагал самое простое - кусочно-линейное.

Если наш классификатор слишком много всего умеет - это тоже плохо, он переобучится. Например, просто запомнит обучающую выборку, а для запросов не из нее будет выдавать что-то случайное.
Ну вот у вас есть $10^4$ точек в $\mathbb{R}^{768}$ . Как вы их будете отображать на сетку небольшой размерности?

с помощью покоординатных преобразований вида: $u(x) = \frac{i}{N} + \frac{x - x_i}{x_{i+1} - x_{i}}\frac{1}{N}, \text{ если } x_i \leq x < x_{i+1}.$

Цитата:

_hum_ в сообщении #1147992 писал(а):

Почему правильно-то? Где обоснование?

У нестрогих утверждений - нестрогое обоснование:-)

Так вообще никаких не приводилось. В том-то и дело. Просто высказывалось суждение и все.

Цитата:

_hum_ в сообщении #1147992 писал(а):

К тому же отказ от непрерывности уводит в область, где мат. анализ такой аппроксимации будет затруднителен.

А на практике часто не надо обосновывать работоспособность метода. Работает - и хорошо.

Даже странное от вас такое слышать. А вдруг перестанет работать в самый ответственный момент?

Цитата:

Вы, конечно, можете вложить $\mathbb{R}^*$ в $\mathbb{R}$ . Но я очень удивлюсь, если получившуюся модель удастся обучить хоть чему-то интересному.

Это уже неважно. Сам факт того, что можно одну свести формально к другой говорит о том, что ваш контраргумент насчет качественной отличности рекуррентых сетей от обычных не проходит.

Цитата:

_hum_ в сообщении #1147992 писал(а):

этот вид для двухслойной сети, которой, как вы уже знаете, достаточно для равномерной аппроксимации любой непрерывной функции на компакте.

Нет, недостаточен. Для сколь угодно точной аппроксимации нужны сколь угодно большие слои. А в указанной мной модели всего $5$ параметров.

Нет, достаточен. См. Саймон, Хайкин - Нейронные сети, п. Теорема об универсальной аппроксимации

Цитата:

Вы, видимо, хотите какое-то глубокое теоретическое обоснование того, что нейронные сети хорошо работают. Насколько я знаю, такого обоснования пока что нет.

То есть, как была ситуация 20 лет назад с "не знаю почему работает, но вроде работает", так и осталась? :shock:

manul91 · 24/08/12 1154

_hum_ в сообщении #1147845 писал(а):

Она естественная, потому что изображение проецируется на сетчатку. Соответственно, малое перемещение или деформация объекта восприятия, которое не приводит к сильному смещению проекции на сетчатке, остается нами распознаваемым как практически несущественное изменение картинки. А это и соответствует двумерной топологии.

Вообще-то, это не так (вне зависимости от того, проецируется изображение на какую-то сетчатку или нет).
Все зависит от того что считается "существенным" для целей обработки (а это и определяется самой обучающей выборки).
Пусть на разных снимков красный куб и синяя пирамида, цель нейронки - определить "что ближе". "Малая деформация" снимка (вершина пирамиды чуть-чуть перекрывает ребро куба, или наоборот) - ведет к разной (противоположной) классификации. То же самое если нужно отличать букв "ш" и "щ" например, или знаков "(" и ")".
Знаки $\cap$ и $\cup$ могут интерпретироваться совершенно различно вне зависимости от того что они вполне одинаковы при поворота на угол $\pi$ , и у них "естественная топология" якобы "одна и та же".
С другой стороны, для целей обработки совершенно разные картинки могут считаться "несущественно разными" (если цель например отделить снимков "с людей", от снимков "без людей").

_hum_ в сообщении #1148012 писал(а):

Так вообще никаких не приводилось. В том-то и дело. Просто высказывалось суждение и все.

Пока нет четкого определения "естественности топологии", что такое "объект восприятия" и в чем состоит "существенность" изменения картинки - трудно сказать что-то более конкретное.

mihaild · 16/07/14 9737 Цюрих

_hum_ в сообщении #1148012 писал(а):

с помощью покоординатных преобразований вида: $u(x) = \frac{i}{N} + \frac{x - x_i}{x_{i+1} - x_{i}}\frac{1}{N}, \text{ если } x_i \leq x < x_{i+1}.$

В смысле, каждую координату отдельно менять? Тогда у вас не меняется размерность (что делает невозможным работу с полиномами даже $4$ й степени), и большая часть сетки получается пустой.

_hum_ в сообщении #1148012 писал(а):

Так вообще никаких не приводилось. В том-то и дело. Просто высказывалось суждение и все.

Потому что существуют задачи, в которых, например, небольшой сдвиг части изображения важен.

_hum_ в сообщении #1148012 писал(а):

Даже странное от вас такое слышать. А вдруг перестанет работать в самый ответственный момент?

А вдруг не перестанет?
ML стараются не использовать для критичных задач, если можно без него. Но часто без него совсем не получается.

_hum_ в сообщении #1148012 писал(а):

Это уже неважно. Сам факт того, что можно одну свести формально к другой говорит о том, что ваш контраргумент насчет качественной отличности рекуррентых сетей от обычных не проходит.

Дайте определение "качественной отличности".

_hum_ в сообщении #1148012 писал(а):

Нет, достаточен. См. Саймон, Хайкин - Нейронные сети, п. Теорема об универсальной аппроксимации

Нет, недостаточен. Там берется много нейронов, а я говорил о всего двух.

А на вопрос-то отвечать будете?

mihaild в сообщении #1148006 писал(а):

Вот как в таком виде представить (давайте даже $1$ вход возьмем) $\sigma(b_2 + a_2 \cdot \sigma(b_1 + \a_x \cdot x_1))$ ?

_hum_ в сообщении #1148012 писал(а):

То есть, как была ситуация 20 лет назад с "не знаю почему работает, но вроде работает", так и осталась? :shock:

Примерно. Только работать стало гораздо лучше:)

_hum_ · 23/12/07 1763

mihaild в сообщении #1148018 писал(а):

_hum_ в сообщении #1148012 писал(а):

с помощью покоординатных преобразований вида: $u(x) = \frac{i}{N} + \frac{x - x_i}{x_{i+1} - x_{i}}\frac{1}{N}, \text{ если } x_i \leq x < x_{i+1}.$

В смысле, каждую координату отдельно менять? Тогда у вас не меняется размерность (что делает невозможным работу с полиномами даже $4$ й степени), и большая часть сетки получается пустой.

"Наша песня хороша, начинай сначала." Было уже:

_hum_ в сообщении #1147350 писал(а):

mihaild в сообщении #1147346 писал(а):

А как вы будете представлять такой же классификатор для функции многих аргументов? Нейросети обычно используются для классификации объектов из пространств довольно большой размерности.

есть многомерные аналоги полиномов Бернштейна

Цитата:

_hum_ в сообщении #1148012 писал(а):

Так вообще никаких не приводилось. В том-то и дело. Просто высказывалось суждение и все.

Потому что существуют задачи, в которых, например, небольшой сдвиг части изображения важен.

И что? Вы, случаем, не путаете непрерывность и инвариантность?

Цитата:

А на вопрос-то отвечать будете?

mihaild в сообщении #1148006 писал(а):

Вот как в таком виде представить (давайте даже $1$ вход возьмем) $\sigma(b_2 + a_2 \cdot \sigma(b_1 + \a_x \cdot x_1))$ ?

Ваш пример - трехслойная сеть (два скрытых слоя, один явный). А в теорем речь про двухслойную.

mihaild · 16/07/14 9737 Цюрих

_hum_, я, кажется, перестал понимать, что вы вообще хотите.

_hum_ в сообщении #1147323 писал(а):

Вопрос, почему именно такого рода аппроксимация успешно выдержала естественный отбор в животном мире и вот теперь и в цифровом набирает популярность? В чем принципиальное преимущество перед теми же полиномами Бернштейна?

Потому что хорошо решать задачи с помощью нейросетей получается, а с помощью аппроксимационных полиномов - нет. Сойдет в качестве ответа? Если нет - то конкретизируйте вопрос.

Mihaylo · 12/07/15 3661 г. Чехов

mihaild в сообщении #1148021 писал(а):

Потому что хорошо решать задачи с помощью нейросетей получается, а с помощью аппроксимационных полиномов - нет. Сойдет в качестве ответа? Если нет - то конкретизируйте вопрос.

Неудовлетворительный ответ. Спрашивается, почему "естественный отбор" "выбрал" НС, а не полиномы. Вы отвечаете, "потому что естественный отбор".
Я бы еще так повернул вопрос: а есть ли такие естественные данные, на которых нейронные сети не "выживают" под гнетом "естественного отбора". Может на них не сошелся мир клином.

mihaild · 16/07/14 9737 Цюрих

Mihaylo в сообщении #1148026 писал(а):

Спрашивается, почему "естественный отбор" "выбрал" НС, а не полиномы.

Кажется, что про естественный отбор надо спрашивать в другом разделе. ИНС с естественными нейросетями связаны довольно косвенно.

Mihaylo в сообщении #1148026 писал(а):

Я бы еще так повернул вопрос: а есть ли такие естественные данные, на которых нейронные сети не "выживают" под гнетом "естественного отбора".

Нет определения "естественных данных".

Вообще известны задачи, которые методами, не основанными на нейросетях, умеют решать гораздо лучше, чем основанными (например, арифметика).

warlock66613 · 02/08/11 7128

_hum_, есть классические результаты Минского о фундаментальных ограничениях (некоторые задачи решаются только за нереально большое время или требуют нереальное количество памяти), которые можно найти в книге Минский, Паперт "Перцептроны".

Научный форум dxdy

И все же, почему именно аппроксимация нейронными сетями?

Кто сейчас на конференции