О перцептроне Розенблатта

mihaild · 25.10.2025, 11:20

tac в сообщении #1707094 писал(а):

именно так, причем вот это "достаточно" мал не позволяет в ряде случаев обучать до нуля ошибок

Это другая история.
Во-первых, нулевое значение функции потерь может быть вообще недостижимо никакими весами.
Во-вторых, иногда используется early stopping - берут веса, которые градиентный спуск заведомо еще может улучшить, для предотвращение переобучения.

(Оффтоп)

tac в сообщении #1707094 писал(а):

а случайно на другом форуме мы с вами не общались? или это так много людей которые работают на оборонку?

Нет, не общались. И я не на оборонку, банальный бигтех. Впрочем, где за соблюдением NDA следят строже - еще вопрос...

tac · 25.10.2025, 11:47

mihaild в сообщении #1707101 писал(а):

нулевое значение функции потерь может быть вообще недостижимо никакими весами.

это несколько разные вещи, ноль функции потерь не равен нулю ошибок на обучающей выборке. На сколько мне известно, даже никто не задается вопросом как одно связано с другим.

Но именно, ноль ошибок на обучающей выборке - является критерием сходимости. Теорема о сходимости перцептрона как раз об достижении этого нуля.

mihaild · 25.10.2025, 12:45

tac в сообщении #1707105 писал(а):

это несколько разные вещи, ноль функции потерь не равен нулю ошибок на обучающей выборке

Я не очень понимаю вопроса. В смысле, как accuracy связано с logloss? Есть очевидные соотношения - т.к. каждый неправильно классифицированный объект даёт вклад в logloss по крайней мере $\log_2 \frac{1}{2} = 1$ , то logloss меньший $\frac{1}{N}$ означает accuracy $1$ (обратное, понятно, неверно - и вообще есть сколь угодно близкие по logloss наборы предсказаний, на одном из которых accuracy $0$ а на другом $1$ ), и вроде бы ничего больше сказать нельзя.

tac в сообщении #1707105 писал(а):

Теорема о сходимости перцептрона как раз об достижении этого нуля

Насколько я понимаю, аналог для градиентного спуска - Neural Tangent Kernel - при стремлении размера слоев к бесконечности (и иницализации с дисперсией, обратно пропорциональной размеру слоя), вероятность (по инициализации) того, что нейронка при обучении будет стремиться (по числу обучающих шагов) к глобальному минимуму, стремится (по росту размера слоев) равна единице.
Для практики результат, вроде бы, бесполезный.

tac · 25.10.2025, 13:41

mihaild в сообщении #1707111 писал(а):

Я не очень понимаю вопроса.

так это собственно, и не вопрос ) я говорю, что в бэкпропе не всегда можно обучить до нуля ошибок (и как вы правильно сказали, для обоснования этого придумали раннею остановку и переобучение, понятие отсутствующие для перцептрона). Вы же начинаете говорить про "нулевое значение функции потерь". На что я и указываю, что мы говорим о разном, вы о logloss, а я о accuracy. Для перцептрона понятие logloss - не важно, никто не считает там функцию потерь (спуск происходит не по ней). Поэтому когда мы сравниваем МЛП+бэкпроп нужно сравнивать одинаковые вещи. Вот собственно и все, что я хотел сказать. И да, прямой связи, такой что можно пересчитать logloss в accuracy и наоборот, нет. Это второй тезис, который я сказал.

-- Сб окт 25, 2025 14:49:53 --

mihaild в сообщении #1707111 писал(а):

Насколько я понимаю, аналог для градиентного спуска

К сожалению, я не математик и мне тяжело даются такие мат. выводы ... но очень интересно ... если и у вас есть интерес, возможно вы могли бы посмотреть теорему сходимости Розенблатта (могу её привести из оригинала, чтобы вам не искать), и сказать что чему аналог и почему ...

но для практики, для перцептрона Розенблатта, из теоремы сходимости, установлен верхний предел числа нейронов равный числу примеров обучающей выборки, гарантирующий, что схождение будет обеспеченно до нуля. (в отличии от бэкпропа, где действительно важно подбирать "малость", как то learningRate)

Поэтому когда мне пишут, что для MNIST при 30k нейронов в скрытом слое это "оверхед потребления нейронов" - это явная глупость, т.к. максимум там 60к, который гарантирует схождение к нулю.

-- Сб окт 25, 2025 15:25:32 --

Далее, когда вы обсуждаете т.н. "глобальный минимум", мне это дискурс не понятен. И вот тут действительно есть вопросы. Это глобальный минимум на каком множестве? На обучающей выборке? Если да, то правильно ли говорить, что он достигнут, когда ошибка (accuracy) = 0. Или тут речь идет о неком "виртуальном" глобальном минимуме для прогнозирования всех возможных примеров?

Но тогда, если речь об этом, тогда если мы решаем задачу четность скажем на 8 бит, и во время обучения мы подали все возможные примеры, и число ошибок =0, то это искомый глобальный минимум или нет?

mihaild · 25.10.2025, 15:51