И все же, почему именно аппроксимация нейронными сетями?

profrotter · 29.08.2016, 21:11

Ну, на естественный отбор я бы не стал замахиваться. Лично я считаю, что (безынерционная) нейронная сеть попросту реализует некоторую аппроксимирующую функцию с большим числом параметров $F_a(a_0,...,a_{N-1}; x)$ , причём процедура расчёта этих параметров сложным нелинейным образом зависит от аппроксимируемой функции, а сама аппроксимация обладает большой гибкостью и универсальностью. Причём сама процедура расчёта этих коэффициентов (аппроксимации) может быть получена при обучении сети и оставаться неизвестной в дальнейшем, обеспечивая заложенные при обучении критерии.

Что касается приведённого вами примера аппроксимации на основе линейной комбинации некоторых базисных функций (пусть и полиномов Берштейна), то сразу следует указать на её ограниченность: коэффициенты аппроксимирующей функции определяются отсчётами аппроксимируемой функции, в результате чего линейной комбинации отсчётов некоторых двух функций будет соответствовать линейная комбинация аппроксимирующих функций. В общем случае это не обязано выполняться: если дискретные значения одной функции $g(x_i)$ совпадают с суммой дискретных значений других функций $f_1(x_i)+f_2(x_i)$ при одной и той же абсциссе, то сама эта функция $g(x)$ вовсе не обязана быть суммой $f_1(x)+f_2(x)$ .

То есть аппроксимация с выбранным методом расчёта коэффициентов аппроксимирующей функции, которую вы привели является линейной аппроксимацией. Нелинейная более универсальна и может быть получена при использовании нейронных сетей, но и не только их.

_hum_ · 29.08.2016, 23:38

mihaild в сообщении #1147403 писал(а):

_hum_ в сообщении #1147399 писал(а):

в тех областях, где данных и поблизости нет, аппроксимация будет говорить "не знаю" (давать нуль). Ну так так и нейронная будет делать

Тут вы специально сообщаете модели неверные данные. Причем, скорее всего, их получается гораздо больше, чем верных.

Ладно, тогда чтобы сильно не обманывать модель, заполним недостающие данные линейными аппроксимациями :)

Цитата:

_hum_ в сообщении #1147399 писал(а):

И господа, я напоминаю, вопрос не в "почему не используют вместо нейросетей полиномы Бернштейна", а "почему сети оказываются лучше любого другого способа аппроксимации".

Потому что у них хорошая устойчивость к шуму во входных данных. И потому что нас по какой-то непонятной причине интересуют функции, которые хорошо приближаются нейросетями:)

Кстати, вот буквально сегодня отметил, читая Вольфрама (тот, который Mathematica), что, возможно, одной из причин выигрышности нейронной сети является то, что она моделирует ту же метрику в распознавании (по крайней мере изображений), что и люди. То есть, ошибки нейронной сети понятны людям (сродни "сеть обозналась, потому что и я сам бы тоже, если бы не пригляделся и много раз не встречался, то мог принять эту штуку за вот ту").

Цитата:

_hum_ в сообщении #1147399 писал(а):

хотелось бы услышать логическое обоснование

А какое тут могло бы быть логическое обоснование? Есть конкретные результаты - http://yann.lecun.com/exdb/mnist/.

:) Это не обоснование. Обоснование - это когда вы укажете, почему не обязательно учитывать двумерность (непрерывность в $R^2$ ) изображения и/или как это учитывается в тех ситуациях, что вы описали.

warlock66613 в сообщении #1147419 писал(а):

_hum_, а то, что вы говорите, относится к нейтронным сетям без обратных связей или без такового ограничения?

А разве это принципиально (обратные связи могут качественно что-то иное, нежели обычные)? но вообще, я про простые вел речь :)

profrotter в сообщении #1147423 писал(а):

Ну, на естественный отбор я бы не стал замахиваться.

А что известны биологические системы распознавания, построенные на других, нежели нейронные, принципах? :)

Цитата:

Лично я считаю, что (безынерционная) нейронная сеть попросту реализует некоторую аппроксимирующую функцию с большим числом параметров

Ну, это как бы изначально предполагалось очевидным :) Вопрос, почему в качестве аппроксимирующего параметрического семейства выбирается система, состоящая из функций, полученных из базовых монотонных сигма-образных функций с помощью конечного числа операций суперпозиции и взвешенного суммирования.

Цитата:

причём процедура расчёта этих параметров сложным нелинейным образом зависит от аппроксимируемой функции

Всякая аппроксимация зависит от аппроксимируемой функции :) А то, что зависимость сложная и нелинейная, так это не плюс, а скорее минус, ибо добавляет головной боли.

Цитата:

а сама аппроксимация обладает большой гибкостью и универсальностью

Ну, я то же самое про полиномы Бернштена могу сказать :)

Цитата:

Причём сама процедура расчёта этих коэффициентов (аппроксимации) может быть получена при обучении сети и оставаться неизвестной в дальнейшем, обеспечивая заложенные при обучении критерии.

Вы ничего не путаете? Процедура расчета ведь изначально задана (это алгоритма обучения). А то, что коэффициенты не обязательно в явном виде выписывать для построения искомого решателя, так это просто неявное задание функции. И что тут такого...

Цитата:

Что касается приведённого вами примера аппроксимации на основе линейной комбинации некоторых базисных функций (пусть и полиномов Берштейна), то сразу следует указать на её ограниченность:
[...]
аппроксимация с выбранным методом расчёта коэффициентов аппроксимирующей функции, которую вы привели является линейной аппроксимацией. Нелинейная более универсальна и может быть получена при использовании нейронных сетей, но и не только их.

Этого я не понял. В чем ограниченность-то и неуниверсальность? Если аппроксимация позволяет приблизить любую функцию, то какая разница, каким образом это приближение строится.

mihaild · 30.08.2016, 00:03

_hum_ в сообщении #1147459 писал(а):

заполним недостающие данные линейными аппроксимациями

А по каким конкретно данным будете аппроксимировать? В случае представления изображений как точек в $\mathbb{R}^\text{число пикселей}$ обучающая выборка получается оооочень разреженной.

_hum_ в сообщении #1147459 писал(а):

одной из причин выигрышности нейронной сети является то, что она моделирует ту же метрику в распознавании (по крайней мере изображений), что и люди

Это может быть одной из причин, но вряд ли главной. Важнее, что они дают лучшую точность на многих задачах, чем другие методы.

_hum_ в сообщении #1147459 писал(а):

Обоснование - это когда вы укажете, почему не обязательно учитывать двумерность (непрерывность в $R^2$ ) изображения

Можно не учитывать, потому что существует алгоритм, ее не учитывающий, и работающий хорошо. (в CNN она на самом деле учитывается, и они работают еще лучше)
Если вы хотите "формальное обоснование", то сначала формально определите, что значит "учитывать двумерность":-)

_hum_ в сообщении #1147459 писал(а):

обратные связи могут качественно что-то иное, нежели обычные)?

Да - например, можно очень просто дать определение результата ее работы на последовательности произвольной длины.

_hum_ в сообщении #1147459 писал(а):

почему в качестве аппроксимирующего параметрического семейства выбирается система, состоящая из функций, полученных из базовых монотонных сигма-образных функций с помощью конечного числа операций суперпозиции и взвешенного суммирования

Потому что хотелось бы использовать $I_{x \geqslant 0}$ , но их непонятно, как обучать - поэтому давайте возьмем что-нибудь похожее гладкое, и будем обучать его. Хотя Vanhoucke (не знаю, как читается) утверждает, что для больших сложных сетей лучше брать не сигмоид, а ReLU:)

profrotter · 30.08.2016, 00:05

_hum_ в сообщении #1147459 писал(а):

Если аппроксимация позволяет приблизить любую функцию

Нейронную сеть обычно формируют для набора функций.
Я забыл главное: приведённая вами аппроксимационная формула тоже соответствует нейросети, в которой сигмойды-ограничители свою нелинейность не проявляют.

warlock66613 · 30.08.2016, 00:54

_hum_ в сообщении #1147459 писал(а):

А разве это принципиально (обратные связи могут качественно что-то иное, нежели обычные)?

Да. Собственно, вопрос не в том, что могут сети с обратными связями, вопрос в том, чего не могут сети без обратных связей — а они, как известно, не могут многого.

_hum_ в сообщении #1147459 писал(а):

но вообще, я про простые вел речь :)

"Биологические" нейронные сети — это именно сети с обратными связями, так что ваш исходный вопрос некорректен.

_hum_ · 30.08.2016, 11:44

mihaild в сообщении #1147462 писал(а):

_hum_ в сообщении #1147459 писал(а):

заполним недостающие данные линейными аппроксимациями

А по каким конкретно данным будете аппроксимировать? В случае представления изображений как точек в $\mathbb{R}^\text{число пикселей}$ обучающая выборка получается оооочень разреженной.

Я подумал, наверное, красивее сделать просто преобразование координат $u = u(x)$ таким образом, чтобы все точки $u_i = u(x)$ автоматически попадали на, соответственно, $i/N, i = 0..N$ . Тогда в качестве результирующей аппроксимации можно попытаться рассматривать $\hat{B}_N(x) = B_N(u(x))$ .

Цитата:

_hum_ в сообщении #1147459 писал(а):

Обоснование - это когда вы укажете, почему не обязательно учитывать двумерность (непрерывность в $R^2$ ) изображения

Можно не учитывать, потому что существует алгоритм, ее не учитывающий, и работающий хорошо. (в CNN она на самом деле учитывается, и они работают еще лучше)
Если вы хотите "формальное обоснование", то сначала формально определите, что значит "учитывать двумерность":-)

У вас в $R^{w \times h}$ близость между двумя точками зависит только от разности координат (если речь об евклидовой метрике и ей эквивалентных), но никак не от их индексов. Это равносильно, что вы два изображения на похожесть сравниваете только попиксельно, а потому, чуть деформированное изображение сразу же даст вам большую разницу, тогда как при учете двумерной топологии этого бы не было. И из-за этого ваш решатель перестает быть непрерывным в естественной для изображений топологии.

Цитата:

_hum_ в сообщении #1147459 писал(а):

обратные связи могут качественно что-то иное, нежели обычные)?

Да - например, можно очень просто дать определение результата ее работы на последовательности произвольной длины.

Под качественным понималось поведение в распознавании (как, например, неспособность одномерной сети распознавать то, что способна распознавать многослойная), а не отличие в технических деталях.
Ну, либо я не понял вашего ответа (кстати, можно попросить вас разговаривать больше языком "для начинающих". Я с сетями знаком только заочно.)

profrotter в сообщении #1147463 писал(а):

_hum_ в сообщении #1147459 писал(а):

Если аппроксимация позволяет приблизить любую функцию

Нейронную сеть обычно формируют для набора функций.
Я забыл главное: приведённая вами аппроксимационная формула тоже соответствует нейросети, в которой сигмойды-ограничители свою нелинейность не проявляют.

Нет. Нейронная аппросимация - это аппроксимация вида
$f(x_1,\dots, X_{m_0}) = \sum_{i = 1}^{m_1}\alpha_i \phi\bigg(\sum_{j = 1}^{m_0}w_{ij}x_j + b_i\bigg),$
где $\phi$ - ограниченная, не постоянная монотонно возрастающая непрерывная функция.
В аппроксимации полиномами Бернштейна монотонности нет.

Цитата:

_hum_ в сообщении #1147459 писал(а):

но вообще, я про простые вел речь :)

"Биологические" нейронные сети — это именно сети с обратными связями, так что ваш исходный вопрос некорректен.

И вы хотите сказать, что обратная связь в биологических никак не компенсируется (в рамках беседы про возможности) наличием учителя у искусственных?

profrotter · 30.08.2016, 13:10

_hum_ в сообщении #1147761 писал(а):

где $\phi$ - ограниченная, не постоянная монотонно возрастающая непрерывная функция

Ну а теперь представьте, будто бы веса таковы, что аргумент этой функции изменяется в таких пределах, что её можно подменить линейной. Нейрончики в этом частном случае превращаются во взвешенные сумматоры, а сама нейронная сеть в линейную дискретную систему.

-- Вт авг 30, 2016 13:15:32 --

_hum_ в сообщении #1147761 писал(а):

В аппроксимации полиномами Бернштейна монотонности нет.

А не важно в какой аппроксимации. Неужели вы не видите, что записали всего лишь формулу взвешенного суммирования: при каждом значении аргумента значение аппроксимирующей функции получается взвешенным суммированием дискретных значений аппроксимируемой функции, с весами, определяемыми значениями базисных функций, а при больших $n$ там вообще всё равно какие брать базисные функции, хоть прямоугольные, хоть треугольные?

_hum_ · 30.08.2016, 13:33

profrotter в сообщении #1147777 писал(а):

_hum_ в сообщении #1147761 писал(а):

где $\phi$ - ограниченная, не постоянная монотонно возрастающая непрерывная функция

Ну а теперь представьте, будто бы веса таковы, что аргумент этой функции изменяется в таких пределах, что её можно подменить линейной. Нейрончики в этом частном случае превращаются во взвешенные сумматоры, а сама нейронная сеть в линейную дискретную систему.

Нуу, это, имхо, не совсем корректно, поскольку (если я себе правильно представляю) сигма-функция является непрерывным аналогом (приближением) ступенчатой, которая и должна была бы изначально использоваться, а вы предлагаете работать как раз в той области, где ошибка приближения максимальная, тем самым полностью нивелируя "эффект активации".

К тому же в аппроксимации Бернштейна работа ведется на всем интервале [0,1] (то есть, нельзя полиномы "линеаризовать", чтобы свести к одному из вариантов "линеаризованной" нейронной сети).

Цитата:

_hum_ в сообщении #1147761 писал(а):

В аппроксимации полиномами Бернштейна монотонности нет.

А не важно в какой аппроксимации. Неужели вы не видите, что записали всего лишь формулу взвешенного суммирования: при каждом значении аргумента значение аппроксимирующей функции получается взвешенным суммированием дискретных значений аппроксимируемой функции, с весами, определяемыми значениями базисных функций, а при больших $n$ там вообще всё равно какие брать базисные функции, хоть прямоугольные, хоть треугольные?

Да, это интересное замечание (что форма очень напоминает нейронную сеть), но, мне кажется, в таком взгляде "с водой выплескивается ребенок". Не зря же все-таки акцентируют внимание на сигме- и монотонности.

profrotter · 30.08.2016, 14:31

_hum_ в сообщении #1147783 писал(а):

что форма очень напоминает нейронную сеть

Не напоминает, а является простейшей нейронной сетью (частным случаем, если угодно), в которую в принципе может превратиться нейронная сеть при обучении, если таковая окажется оптимальной в рамках конкретной задачи. То есть в принципе вся большущая нейронная сеть может оказаться эквивалентной и одному взвешенному сумматору. А что касается сигмоид, то их выбор - это наш (разработчиков) выбор.

_hum_ · 30.08.2016, 14:51

profrotter в сообщении #1147810 писал(а):

_hum_ в сообщении #1147783 писал(а):

что форма очень напоминает нейронную сеть

Не напоминает, а является простейшей нейронной сетью (частным случаем, если угодно), в которую в принципе может превратиться нейронная сеть при обучении, если таковая окажется оптимальной в рамках конкретной задачи. То есть в принципе вся большущая нейронная сеть может оказаться эквивалентной и одному взвешенному сумматору.

Ну, нет же! Ни при каком выборе $\alpha_i$ , $b_i$ , $w_{ij}$ и непрерывной монотонной $\phi$ вы не получите полином Бернштейна $B_n(x)$ на [0,1]. Поэтому некорректно говорить, что он является частным случаем нейронной аппроксимации.

Цитата:

А что касается сигмоид, то их выбор - это наш (разработчиков) выбор.

Да, но все равно остаются сигмоиды (со свойствами "активации"), а не выбираются любые функции.

manul91 · 30.08.2016, 15:32

_hum_ в сообщении #1147459 писал(а):

это когда вы укажете, почему не обязательно учитывать двумерность (непрерывность в $R^2$ ) изображения и/или как это учитывается в тех ситуациях, что вы описали.

_hum_ в сообщении #1147761 писал(а):

тогда как при учете двумерной топологии этого бы не было. И из-за этого ваш решатель перестает быть непрерывным в естественной для изображений топологии.

Двумерная топология отнюдь не обязана быть "естественной для изображении".
Например если это изображение - двухмерная проекция трехмерного пространства ("снимок"). Или, если скажем нужно настроить распознаватель не самих рукописных букв - а классификатор почерков разных людей (само написаное - нас не интересует).
Вообще-то, "естественная топология" может быть наперед неизвестной (и к ней нейронная сеть, "настраивается сама" по обучающей выборки).

profrotter · 30.08.2016, 16:01

_hum_ в сообщении #1147815 писал(а):

вы не получите полином Бернштейна $B_n(x)$

А его никому не нужно получать. Нужны только веса. Их могут давать разные базисные функции. Хоть бы и В-сплайны со сдвигом, да мало ли бывает "колокольчиков". В общем я что мог сказать - сказал: аппроксимация в каком-либо базисе при линейном выражении коэффициентов аппроксимирующей функции через дискретные значения аппроксимируемой может быть получена в некотором предельном варианте нейронной сети. Больше сказать вряд ли смогу.

_hum_ · 30.08.2016, 16:05

manul91 в сообщении #1147829 писал(а):

_hum_ в сообщении #1147459 писал(а):

это когда вы укажете, почему не обязательно учитывать двумерность (непрерывность в $R^2$ ) изображения и/или как это учитывается в тех ситуациях, что вы описали.

_hum_ в сообщении #1147761 писал(а):

тогда как при учете двумерной топологии этого бы не было. И из-за этого ваш решатель перестает быть непрерывным в естественной для изображений топологии.

Двумерная топология отнюдь не обязана быть "естественной для изображении".
Например если это изображение - двухмерная проекция трехмерного пространства ("снимок"). Или, если скажем нужно настроить распознаватель не самих рукописных букв - а классификатор почерков разных людей (само написаное - нас не интересует).

Она естественная, потому что изображение проецируется на сетчатку. Соответственно, малое перемещение или деформация объекта восприятия, которое не приводит к сильному смещению проекции на сетчатке, остается нами распознаваемым как практически несущественное изменение картинки. А это и соответствует двумерной топологии.

arseniiv · 30.08.2016, 16:08

_hum_ в сообщении #1147459 писал(а):

А что известны биологические системы распознавания, построенные на других, нежели нейронные, принципах? :)

Просто нервная система, скажем, млекопитающих много сложнее, и не просто из-за того, что есть периферическая, и работает всё это в реальном времени и очень долго и без деления на обучение и использование. Там десятки видов нейронов, разные нейромедиаторы и в синапсах, и, вроде, вне их, и ещё наверняка куча деталей. Может быть, нервная система простых животных и близка к используемым нейросетям, но эволюция на этом не останавливалась, да и «критерии» у неё менее специфические, чем при обучении конкретных сетей в текущем их применении.

_hum_ · 30.08.2016, 16:09

profrotter в сообщении #1147843 писал(а):

_hum_ в сообщении #1147815 писал(а):

вы не получите полином Бернштейна $B_n(x)$

А его никому не нужно получать. Нужны только веса. Их могут давать разные базисные функции. Хоть бы и В-сплайны со сдвигом, да мало ли бывает "колокольчиков". В общем я что мог сказать - сказал: аппроксимация в каком-либо базисе при линейном выражении коэффициентов аппроксимирующей функции через дискретные значения аппроксимируемой может быть получена в некотором предельном варианте нейронной сети. Больше сказать вряд ли смогу.

Ясно. Только сказанное вами не является истинным (уже выше говорил, что вы не получите по форме Бернштейна из нейронной сети даже в пределе).
Но все равно спасибо за интересный взгляд.

-- Вт авг 30, 2016 17:13:43 --

arseniiv в сообщении #1147847 писал(а):

_hum_ в сообщении #1147459 писал(а):

А что известны биологические системы распознавания, построенные на других, нежели нейронные, принципах? :)

Просто нервная система, скажем, млекопитающих много сложнее, и не просто из-за того, что есть периферическая, и работает всё это в реальном времени и очень долго и без деления на обучение и использование. Там десятки видов нейронов, разные нейромедиаторы и в синапсах, и, вроде, вне их, и ещё наверняка куча деталей. Может быть, нервная система простых животных и близка к используемым нейросетям, но эволюция на этом не останавливалась, да и «критерии» у неё менее специфические, чем при обучении конкретных сетей в текущем их применении.

А при чем тут млекопитающие?:) Нервная система есть даже у червяка, позволяющая ему приспосабливаться к окружающей среде :)

Научный форум dxdy

И все же, почему именно аппроксимация нейронными сетями?