И все же, почему именно аппроксимация нейронными сетями?

_hum_ · 29.08.2016, 13:48

Построение и настройка нейронной сети, как я понимаю, может рассматриваться как построение специфического вида (из суперпозиции и суммирования конечного числа функций одного аргумента) аппроксимации для нужной функции-классификатора.
Вопрос, почему именно такого рода аппроксимация успешно выдержала естественный отбор в животном мире и вот теперь и в цифровом набирает популярность? В чем принципиальное преимущество перед теми же полиномами Бернштейна?

Eimrine · 29.08.2016, 14:19

Прошу прощения за глупый (потому что я теряюсь в вашей терминологии) вопрос, но как вы себе представляете вид с полиномом Бернштейна?

_hum_ · 29.08.2016, 14:32

Eimrine в сообщении #1147329 писал(а):

Прошу прощения за глупый (потому что я теряюсь в вашей терминологии) вопрос, но как вы себе представляете вид с полиномом Бернштейна?

как полином Бернштейна для нужного классификатора :) А именно, если рассматривается одномерное пространство входных данных, и нужно аппроксимировать классификатор $f = f(x), x \in [0,1]$ , то для него можно использовать аппроксимацию:
$B_n(x) = \sum_{k = 0}^{n}f\Big(\dfrac{k}{n}\Big)b_{k,n}(x),$
где $b_{k,n}(x)$ - базисный полином Бернштейна [см. 1]

mihaild · 29.08.2016, 15:24

А как вы будете представлять такой же классификатор для функции многих аргументов? Нейросети обычно используются для классификации объектов из пространств довольно большой размерности.

Плюс для использования вашей формулы нужно знать значения функции в заранее определенных точках, чего на практике обычно не бывает - как правило, вам приносят обучающую выборку, и повлиять на нее никак нельзя.

_hum_ · 29.08.2016, 15:51

mihaild в сообщении #1147346 писал(а):

А как вы будете представлять такой же классификатор для функции многих аргументов? Нейросети обычно используются для классификации объектов из пространств довольно большой размерности.

есть многомерные аналоги полиномов Бернштейна

mihaild в сообщении #1147346 писал(а):

Плюс для использования вашей формулы нужно знать значения функции в заранее определенных точках, чего на практике обычно не бывает - как правило, вам приносят обучающую выборку, и повлиять на нее никак нельзя.

Ну так обучающая выборка - это же пары $(x_i, f(x_i)), i = 1..N$ . Для полинома Бернштейна нужны $\big(k/n, f(k/n)\big), k = 1..n$ . Поэтому можно путем подбора $n$ и выбора из выборки подходящих пар, получить нужную аппроксимацию :)

mihaild · 29.08.2016, 16:33

Во-первых, в реальной жизни мы обычно не можем выбирать $x_i$ .
Во-вторых, если я правильно понимаю, там для обучения нужна сетка по всем координатам - а число точек в такой сетке растет экспоненциально с размерностью. А теперь представьте, что мы хотим анализировать картинку размера хотя бы $20 \times 20$ .

_hum_ · 29.08.2016, 17:17

mihaild в сообщении #1147359 писал(а):

Во-первых, в реальной жизни мы обычно не можем выбирать $x_i$ .

Ну, навскидку, можно сделать так: расширим возможные значения функции-классификатора за счет нового значения $y_{\circ}$ . Например, если все значения исходного классификатора строго больше нуля, то можно положить $y_{\circ} = 0$ .
Теперь, пусть нам дали обучающую выборку $(x_i, f(x_i)), i = 1..N.$ Подберем за счет выбора большого значения $n$ равномерную сетку $x_k = k/n$ , $k = 1.. n$ так, чтобы все точки $x_i$ (с учетом точности округления) попадали в узлы этой сетки. Всем остальным узлам припишем значение классификатора $y_{\circ}$ .
Как бы все. Образовалась новая обучающая выборка, которая в точности подходит для построения аппроксимации полиномом Бернштейна $B_n$ .

mihaild в сообщении #1147359 писал(а):

Во-вторых, если я правильно понимаю, там для обучения нужна сетка по всем координатам - а число точек в такой сетке растет экспоненциально с размерностью. А теперь представьте, что мы хотим анализировать картинку размера хотя бы $20 \times 20$ .

С учетом подхода с $y_{\circ}$ нам нужны только точки сетки, на которую можно положить все точки исходной выборки. Не знаю, насколько это будет много.
Возможно, действительно, собака зарыта именно в этих моментах (меня подсознательно гложет мысль, что успех нейронных сетей и "метода отжига" базируется на одном и том же эффекте, наблюдающемся при больших размерностях. Но я все никак не могу уловить, что за он.)

Ну и, кстати, рассматривать изображение как вектор width x lenght-мерного пространства нельзя, так как такой подход игнорирует двумерность (ему что двумерное, что пятимерное - все равно), а значит, и естественную непрерывность. А мы изначально подразумевали, что классификатор как функция исходных данных должна быть непрерывной.

Xaositect · 29.08.2016, 17:36

_hum_ в сообщении #1147381 писал(а):

Ну, навскидку, можно сделать так: расширим возможные значения функции-классификатора за счет нового значения $y_{\circ}$ . Например, если все значения исходного классификатора строго больше нуля, то можно положить $y_{\circ} = 0$ .
Теперь, пусть нам дали обучающую выборку $(x_i, f(x_i)), i = 1..N.$ Подберем за счет выбора большого значения $n$ равномерную сетку $x_k = k/n$ , $k = 1.. n$ так, чтобы все точки $x_i$ (с учетом точности округления) попадали в узлы этой сетки. Всем остальным узлам припишем значение классификатора $y_{\circ}$ .
Как бы все. Образовалась новая обучающая выборка, которая в точности подходит для построения аппроксимации полиномом Бернштейна $B_n$ .

И в итоге у Вас в большом количестве точек многочлен будет выдавать значение $y_{\circ}$ или близкое к нему. Мы ведь хотим угадывать значения в еще неизвестных нам точкам, а Ваша процедура эти значения специально забивает нулями.

_hum_ · 29.08.2016, 17:55

Xaositect в сообщении #1147390 писал(а):

И в итоге у Вас в большом количестве точек многочлен будет выдавать значение $y_{\circ}$ или близкое к нему. Мы ведь хотим угадывать значения в еще неизвестных нам точкам, а Ваша процедура эти значения специально забивает нулями.

не совсем так. она будет давать $y_{\circ}$ ("не знаю") для точек (и близких к ним), где не было исходных данных. а для точек (и близких к ним), где исходные данные были, она будет предсказывать новые значения (то есть, предсказывать значения в промежутках сетки между данными).

mihaild · 29.08.2016, 18:03

_hum_ в сообщении #1147381 писал(а):

Подберем за счет выбора большого значения $n$ равномерную сетку $x_k = k/n$ , $k = 1.. n$ так, чтобы все точки $x_i$ (с учетом точности округления) попадали в узлы этой сетки

В итоге получим многочлен очень большой степени, который в небольшом числе узлов в точности равен значению на обучающей выборке (что еще и делает его уязвимым к шуму), а в гораздо большем числе узлов равен $0$ . Поскольку у него большая степень, то между узлами он будет вести себя непредсказуемо.

Аппроксимация многочленами создает проблему, что значение в одной точке может сильно повлиять на значение во всех остальных - многочленами трудно аппроксимировать разные кусочные функции. Нейросетями (с подходящей функцией активации) - гораздо проще.

_hum_ в сообщении #1147381 писал(а):

успех нейронных сетей и "метода отжига" базируется на одном и том же эффекте, наблюдающемся при больших размерностях. Но я все никак не могу уловить, что за он

Вообще до конца почему работают нейронные сети, видимо, никто не понимает (теоретические оценки на их качество часто гораздо хуже практических).

_hum_ в сообщении #1147381 писал(а):

рассматривать изображение как вектор width x lenght-мерного пространства нельзя

Можно. На том же MNIST, конечно, сверточные нейросети работают лучше обычных - но обычные работают гораздо лучше остальных методов.

_hum_ · 29.08.2016, 18:24

mihaild в сообщении #1147394 писал(а):

В итоге получим многочлен очень большой степени, который в небольшом числе узлов в точности равен значению на обучающей выборке (что еще и делает его уязвимым к шуму), а в гораздо большем числе узлов равен $0$ . Поскольку у него большая степень, то между узлами он будет вести себя непредсказуемо.

Аппроксимация многочленами создает проблему, что значение в одной точке может сильно повлиять на значение во всех остальных - многочленами трудно аппроксимировать разные кусочные функции. Нейросетями (с подходящей функцией активации) - гораздо проще.

Вы наверное путаете с интерполяционными полиномами Чебышеа. Полиномы Бернштейна обязаны совпадать с функцией только на концах отрезка аппроксимации.
Насчет нуля я уже говорил выше - это естественно - в тех областях, где данных и поблизости нет, аппроксимация будет говорить "не знаю" (давать нуль). Ну так так и нейронная будет делать.

Насчет плохого поведения полиномов высокой степени. Так, во-первых, полиномы Бернштейна равномерно аппроксимируют функцию, а значит, нам все ранво, как они себя ведут, ведь абсолютная ошибка аппроксимации всюду меньше заданной, а во-вторых: youtube/Bernstein Approximation :)

И господа, я напоминаю, вопрос не в "почему не используют вместо нейросетей полиномы Бернштейна", а "почему сети оказываются лучше любого другого способа аппроксимации".

Цитата:

_hum_ в сообщении #1147381 писал(а):

рассматривать изображение как вектор width x lenght-мерного пространства нельзя

Можно. На том же MNIST, конечно, сверточные нейросети работают лучше обычных - но обычные работают гораздо лучше остальных методов.

Я не спец в нейросетях, поэтому хотелось бы услышать логическое обоснование,а не просто "можно", "так делают". Ведь наверняка те же сверточные нейронные эквивалентны тому, что изначально изображение преобразуется в какое-нибудь спектральное представление, и только потом подается на распознавание (то есть, пространство признаков становится другим).

mihaild · 29.08.2016, 19:03