О перцептроне Розенблатта

mihaild · 30.10.2025, 16:18

tac в сообщении #1707701 писал(а):

Очевидно, что если вы с помощью других алгоритмов получаете другое, а я с помощью перцептрона получаю другое на тех же данных, то дело не в данных, а в алгоритме

Не очень понял. Что я на каких данных получаю с помощью каких алгоритмов?

Дело в данных в том смысле, что с помощью того же перцептрона на других данных Вы (и кто угодно еще) получите другой результат.

tac в сообщении #1707701 писал(а):

у вас переобученyый алгоритм N, versus графики как у меня для RandomTest от this , и MNIST в статье - то человек не верящий в догматы, как минимум должен задуматься, не так ли?

Верно ли, что Вы хотите сказать, что у Вас есть некоторая модель (перцептрон) $M$ , которая берет в качестве входа обучающую выборку и параметр $N$ - "число нейронов" (или как оно называется), и обладает свойством: для любых обучающей и тестовой выборок $X$ и $Y$ соответственно:
1) существует $N$ такое что точность $M$ на $X$ равна единице
2) если $N_1 < N_2$ , точность $M(X, N_1)$ на $X$ меньше единицы, точность $M(X, N_2)$ на $X$ равна единице, то точность $M(X, N_1)$ на $Y$ выше чем точность $M(X, N_2)$ на $Y$
?
Задумываться об этом я, извините, не буду, потому что очевидно, что таких моделей не бывает. Доказывается элементарно: если для некоторой пары $(X, Y)$ модель обладает этим свойством, то для пары $(X, \overline{Y})$ (где $\overline{Y}$ - данные с теми же признаками, но инвертированными метками) она им не обладает.

SergeyGubanov · 30.10.2025, 16:44

this в сообщении #1707557 писал(а):

Иногда красную линию удаётся склонить к затуханию второй раз (double descent).

https://en.wikipedia.org/wiki/Double_descent
What the Books Get Wrong about AI [Double Descent]
https://mlu-explain.github.io/double-descent/

tac · 30.10.2025, 16:57

Нет, я совсем не это говорю. С чего вы вообще взяли это? У меня нет ни каких N1 и N2, поэтому второе условие совсем другое.

1. мы вообще не рассматриваем такие N, которые дают точность на X меньше единицы (потенциально не могут дать)
2. я утверждаю, что если остановить итерационный алгоритм обучения раньше, чем точность на X будет меньше единицы (при том, что N достаточно для того, чтобы это было гарантировано), тогда точность на Y будет ниже или не стабильнее (отклонение в реальности), чем если остановится когда будет достигнута точность на X = 1
3. если же алгоритм не способен достичь точности равной единице на X, то точность или стабильность на Y его будет хуже, чем у того, кто его достиг.

есть еще 4, но пока рано.

mihaild · 30.10.2025, 17:21

tac в сообщении #1707715 писал(а):

У меня нет ни каких N1 и N2, поэтому второе условие совсем другое

А что у Вас по оси $x$ тогда на https://habrastorage.org/getpro/habr/up ... 67a8e6.png?

tac в сообщении #1707715 писал(а):

2. я утверждаю, что если остановить итерационный алгоритм обучения раньше, чем точность на X будет меньше единицы (при том, что N достаточно для того, чтобы это было гарантировано), тогда точность на Y будет выше или стабильнее (отклонение в реальности), чем если остановится раньше.

(жирный шрифт мой - mihaild)
Видимо, одно из "раньше" должно быть "позже", но я не понимаю, которое.

tac в сообщении #1707715 писал(а):

если же алгоритм не способен достичь точности равной единице на X, то точность или стабильность на Y его будет хуже, чем у того, кто его достиг

Для любой пары алгоритмов?)
(впрочем, это точно не так ни для какой пары, потому что если у одного алгоритма точность выше на $Y$ , то у другого выше на $\overline{Y}$ )

tac · 30.10.2025, 17:25

mihaild в сообщении #1707719 писал(а):

А что у Вас по оси $x$ тогда

число итераций обучения

-- Чт окт 30, 2025 18:28:22 --

mihaild в сообщении #1707719 писал(а):

Видимо, одно из "раньше" должно быть "позже", но я не понимаю, которое.

я вроде поправил

-- Чт окт 30, 2025 18:30:33 --

mihaild в сообщении #1707719 писал(а):

то у другого выше на $\overline{Y}$

откуда взялось $\overline{Y}$ ? если в утверждении, его вообще нет.

mihaild · 30.10.2025, 17:44

tac в сообщении #1707721 писал(а):

число итераций обучения

Тогда это и будет $N$ . В моём утверждении выше неважно, как именно модель зависит от $N$ , оно неверно для любой зависимости.

tac в сообщении #1707715 писал(а):

я утверждаю, что если остановить итерационный алгоритм обучения раньше, чем точность на X будет меньше единицы (при том, что N достаточно для того, чтобы это было гарантировано), тогда точность на Y будет ниже или не стабильнее (отклонение в реальности), чем если остановится когда будет достигнута точность на X = 1

Какие тут кванторы по алгоритму, $X$ , $Y$ ?

tac в сообщении #1707721 писал(а):

откуда взялось $\overline{Y}$ ?

Из подстановки. Если утверждение верно для любого $Y$ , то оно верно и для $\overline Y$ .

tac · 30.10.2025, 17:53

mihaild в сообщении #1707725 писал(а):

Из подстановки. Если утверждение верно для любого $Y$ , то оно верно и для $\overline Y$ .

но в этом случае, оба алгоритма проверяются на $\overline Y$ , а не так что один на $Y$ , а другой на $\overline Y$ .

но мысль я вашу понял, я могу проверить, поменять метки для RandomTest от this, уверен ничего не изменится. Совершенно не важно, учить выдавать на выходах 0 или 1. График принципиально не изменится.

-- Чт окт 30, 2025 18:59:13 --

mihaild в сообщении #1707725 писал(а):

Какие тут кванторы по алгоритму, $X$ , $Y$ ?

для любых связанных между собой, таких что алгоритм сможет увидеть связь, как я писал выше при радиусе в 1,5 он связь видит плохо (поэтому он не может стабилизироваться даже при обучении), а при 2 видит хорошо.

$X$ , $Y$ должны входит в одно и тоже множество $Z$ (называемое мной реальностью), и должны пересекаться в этом исходном пространстве хотя бы в какой то пропорции, в которой ожидается прогноз.

mihaild · 30.10.2025, 18:12

tac в сообщении #1707727 писал(а):

но в этом случае, оба алгоритма проверяются на $\overline Y$ , а не так что один на $Y$ , а другой на $\overline Y$

Конечно.
И если $A$ лучше на $Y$ , чем $B$ , то $B$ лучше на $\overline Y$ , чем $A$ . No free lunch theorem как раз про это - не бывает универсально лучшего алгоритма.

tac в сообщении #1707727 писал(а):

для любых связанных между собой, таких что алгоритм сможет увидеть связь

А у "алгоритм видит связь" есть какое-то определение, существенно отличающееся от "алгоритм ведет себя описанным образом"?

tac · 30.10.2025, 18:25

mihaild в сообщении #1707735 писал(а):

И если $A$ лучше на $Y$ , чем $B$ , то $B$ лучше на $\overline Y$ , чем $A$ . No free lunch theorem как раз про это - не бывает универсально лучшего алгоритма.

Вы не правомерно обобщаете это. Я спросил Дипсика, и вот что он мне дополнил

Цитата:

Если A превосходит B на одной задаче (или наборе задач), то обязательно найдется другая задача, на которой B превосходит A.

Это уже согласитесь другая формулировка. Т.е. это еще надо поискать такое $\overline Y$ , на котором $B$ лучше. И более того, это справедливо исключительно для случайных данных, как раз там, где нет связи. О чем дипсик охотно вам напоминает

Цитата:

Ключевой момент: "Все возможные целевые функции" — это очень сильное условие. Это означает, что данные совершенно не имеют никакой структуры или закономерности, которую мог бы выучить алгоритм.

Практический смысл: На практике нас редко интересует множество всех возможных задач. Нас интересуют задачи, имеющие определенную структуру (например, задачи из реального мира). Поэтому поиск "лучшего" алгоритма для конкретного класса задач (например, распознавание изображений) абсолютно осмыслен. Теорема NFL не отменяет машинное обучение, а просто предупреждает нас о невозможности создания "универсального решателя всего".

Цитата:

Однако теорема NFL говорит, что если мы учтем ВСЕ функции, включая абсолютно случайные и бессмысленные (например, где все изображения с зеленым пикселем в углу — это "кошка", а остальные — "собака"), то на этом огромном множестве Ŷ бессмысленных задач производительность нейросети A в среднем будет равна производительности генератора случайных чисел B.

-- Чт окт 30, 2025 19:26:53 --

mihaild в сообщении #1707735 писал(а):

А у "алгоритм видит связь" есть какое-то определение

Его можно сформулировать, чуть позже ... кстати, оно будет связано с возможностью свести нелинейную задачу к линейной, т.е. как раз то, что делает перцептрон.

Таким образом, нужно выполнить условия при которых перцептрон сможет обучиться. Вы их не знаете видимо, а привести их требуется время, если интересно напишу?

И таки да, тогда мы сможем свести задачу от определения перцептрона, к ограничениям на множества X, Y. Розенблатт их все дал, только нужно собрать вместе.

mihaild · 30.10.2025, 18:57

tac в сообщении #1707737 писал(а):

Это уже согласитесь другая формулировка

Это другая формулировка, хотя и тоже правильная. Моя - более сильная (предъявляет конкретный пример задачи, а не просто утверждает существование).
(и не ссылайтесь на LLM, пожалуйста; если Вы с ними согласны, то эта ссылка ничего не дает, а если не согласны - то зачем вообще их цитировать?)

tac в сообщении #1707737 писал(а):

Таким образом, нужно выполнить условия при которых перцептрон сможет обучиться. Вы их не знаете видимо, а привести их требуется время, если интересно напишу?

С этого стоило бы начинать. Тут был бы предмет для обсуждения. Не факт, что интересного мне, но хотя бы потенциально осмысленного.
Сравнивать алгоритмы вообще, без ограничений на данные, бессмысленно. А до этого Ваши общие утверждения были как раз такими.
Дальше будет вопрос, про какие из встречающихся на практике данных известно, что они удовлетворяют заданным условиям; я довольно сильно уверен, что почти никакие, но, естественно, это нужно проверять для конкретных условий. Пока что сформулирую так:
Теорема имени mihaild (скорее всего была известна еще в палеолите). Никакие теоретические ограничения, позволяющие доказывать интересные результаты про какие-то модели, не выполнены ни для каких интересных датасетов.
(это, понятно, шутка - понятие "интересности" слишком нестрогое, чтобы про него можно было что-то доказывать)

tac · 30.10.2025, 19:31

mihaild в сообщении #1707740 писал(а):

и не ссылайтесь на LLM, пожалуйста; если Вы с ними согласны, то эта ссылка ничего не дает

конечно, я ссылаюсь на него, когда согласен, но подчеркивая, что это не мое утверждение, а часто используемое, в отличии от вашего

mihaild в сообщении #1707740 писал(а):

Сравнивать алгоритмы вообще, без ограничений на данные, бессмысленно. А до этого Ваши общие утверждения были как раз такими.

Ну, я же не думал, что вы будете обобщать мои выводы на случайные выборки и задачи, или делать из моих выводов обобщения для универсального решателя всех задач. Речь всегда шла о задачах, которым принципиально можно обучить перцептрон. Более того, это и является критерием таких задач и выборок. Причем обучить означает, что задача сходится до нуля на всех доступных для обучения примерах.

Тут я пожалуй сошлюсь на "Проблема узнавания, Бонгард М.М.", он поставил множество задач, даже есть список из сотни, как тест Тьюринга, но решить их нужно одним алгоритмом, а не 100 разными алгоритмами. По сути он и объясняет почему не бывает универсального решателя. Вы же свели это до какой то странной теории "переобучения", что не релевантно для ряда общеизвестных задач, таких как MNIST.

-- Чт окт 30, 2025 20:38:11 --

mihaild в сообщении #1707740 писал(а):

Дальше будет вопрос, про какие из встречающихся на практике данных известно, что они удовлетворяют заданным условиям

ну я же уже ответил, заранее не известно, но при обучении перцептрона примеры удовлетворяющие условиям легко найти, и исключить. Тут мы можем перейти к задаче MNIST Fashion, которая как раз является примером данных, которые сложны для обучения, и поэтому часть из таких примеров нужно игнорировать при обучении.

-- Чт окт 30, 2025 20:53:47 --

Но если хотите можно конкретно, должны выполняться следующие условия (по сути это и есть ограничения), о чем мы и говорили, когда обсуждали теоремы сходимости перцептрона.

Цитата:

1. каждый стимул должен возбуждать по крайней мере один А-элемент;
2. не должно существовать никакой подпоследовательности стимулов, содержащей по меньшей мере по одному стимулу каждого класса, которая приводила бы к одинаковому коэффициенту смещения для каждого А-элемента в множестве А-элементов, реагирующих на эту подпоследовательность.

Коэффициентом смещения для А-элемента Ф. Розенблатт называл отношение $n_i^+/n_i^-$ числа стимулов в обучающей выборке, которые относятся к одному классу, и возбуждают данный А — элемент, к числу стимулов, относящихся к другому классу, но также возбуждающие этот же А-элемент. Нарушение второго условия делает отношение $n_i^+/n_i^-$ постоянным для А-элементов, реагирующих на стимулы из такой определённой подпоследовательности появления стимулов на входах перцептрона.

второе условие, думаю часто возникает как раз для случайных выборок, как в задаче RandomTest от this, проще говоря - это противоречивые данные в какой то подпоследовательности при бинаризации.

-- Чт окт 30, 2025 21:03:38 --

mihaild в сообщении #1707740 писал(а):

предъявляет конкретный пример задачи, а не просто утверждает существование

и в этом ваша ошибка, этот конкретный пример думаю вполне опровергается

mihaild · 30.10.2025, 20:04

tac в сообщении #1707749 писал(а):

но решить их нужно одним алгоритмом, а не 100 разными алгоритмами

Это тоже неформальное требование, потому что два алгоритма под if - это один алгоритм.

tac в сообщении #1707749 писал(а):

Вы же свели это до какой то странной теории "переобучения", что не релевантно для ряда общеизвестных задач, таких как MNIST

Нет "теории переобучения", есть понятие.
Многие стандартные алгоритмы на MNIST могут переобучиться. При этом я легко предоставлю Вам алгоритм, который учится на MNIST на 0 примерах и имеет 100% точность на тесте.

tac в сообщении #1707749 писал(а):

ну я же уже ответил, заранее не известно, но при обучении перцептрона примеры удовлетворяющие условиям легко найти, и исключить

Так условия на конкретные примеры, или на весь датасет целиком?

О чем вообще тема? Вы можете сформулировать какое-то утверждение, которое хотите донести, или вопрос, ответ на который хотите узнать?

tac · 31.10.2025, 03:08

mihaild в сообщении #1707751 писал(а):

Это тоже неформальное требование, потому что два алгоритма под if - это один алгоритм.

Реализация этого if требует реализации задачи, которая объединит эти задачи на базе обучающих выборок.

-- Пт окт 31, 2025 04:10:02 --

mihaild в сообщении #1707751 писал(а):

О чем вообще тема? Вы можете сформулировать какое-то утверждение, которое хотите донести

Говорили, говорили, только сейчас стало понятно, что не понимаете о чем говорим? Бывает ...

-- Пт окт 31, 2025 04:13:02 --

Ну, хорошо, давайте я в очередной раз повторю

Цитата:

Для перцептрона (правильно обученного) точка с минимальной ошибкой на валидейте будет равна точке с нулевой ошибкой при обучении, за исключением небольшого случайного отклонения. При этом случайное отклонение будет уменьшаться (стабилизироваться) при увеличении числа нейронов до определенного момента.

-- Пт окт 31, 2025 04:15:00 --

Вы захотели уточнить для каких X, Y ? Хорошо, давайте ограничимся задачей MNIST, график обучения которой я уже показывал. Ещё возражения остались?

mihaild · 31.10.2025, 04:45

tac в сообщении #1707749 писал(а):

Но если хотите можно конкретно, должны выполняться следующие условия (по сути это и есть ограничения), о чем мы и говорили, когда обсуждали теоремы сходимости перцептрона

Есть где-то выписанные определения, что такие все эти А-элементы (ну или можете выписать здесь)? В википедии 15 вариантов, непонятно, какой из них брать (и брать ли какой-то).

tac в сообщении #1707749 писал(а):

второе условие, думаю часто возникает как раз для случайных выборок, как в задаче RandomTest от this, проще говоря - это противоречивые данные в какой то подпоследовательности при бинаризации

Противоречивые примеры встречаются во всех интересных на практике датасетах.

tac в сообщении #1707749 писал(а):

и в этом ваша ошибка, этот конкретный пример думаю вполне опровергается

Не опровергается. Поскольку для любой модели $A$ , $\operatorname{Acc}(A, Y) + \operatorname{Acc}(A, \overline Y) = 1/2$ . Соответственно если $\operatorname{Acc}(A, Y) > \operatorname{Acc}(A', Y)$ , то $\operatorname{Acc}(A, Y) < \operatorname{Acc}(A', Y)$

tac в сообщении #1707771 писал(а):

Говорили, говорили, только сейчас стало понятно, что не понимаете о чем говорим?

Я понимаю всё, что я говорю в этой теме, но не понимаю, в чём, на Ваш взгляд, цель этой темы. И я еще несколько страниц назад об этом сказал.

mihaild в сообщении #1707464 писал(а):

А куда оно, собственно, должно идти?

tac в сообщении #1707771 писал(а):

Вы захотели уточнить для каких X, Y ? Хорошо, давайте ограничимся задачей MNIST, график обучения которой я уже показывал.

Ну вообще да, при высказывании утверждения, верного только в конкретных условиях, стоит эти условия озвучивать.
Итак, есть некоторая модель, у которой на конкретном датасете гиперпараметры, обеспечивающие единичную точность на обучающей выборке, одновременно максимизируют точность на тестовой. Забавно, но не то чтобы сильно интересно. Банальный xgboost даёт тот же эффект (по Ox - число деревьев, по Ox - доля ошибок).

Вложение:

xgboost.png

tac · 31.10.2025, 09:57

mihaild в сообщении #1707774 писал(а):

xgboost даёт тот же эффект

речь про это https://ru.wikipedia.org/wiki/XGBoost ? Как я понимаю - это дополнение к чему то, а какая была базовая модель?

-- Пт окт 31, 2025 11:07:03 --

mihaild в сообщении #1707774 писал(а):

Есть где-то выписанные определения, что такие все эти А-элементы (ну или можете выписать здесь)? В википедии 15 вариантов, непонятно, какой из них брать (и брать ли какой-то).

я не понял о чем речь?

-- Пт окт 31, 2025 11:11:48 --

mihaild в сообщении #1707774 писал(а):

Противоречивые примеры встречаются во всех интересных на практике датасетах.

Мы видимо говорим о разного рода "противоречивости", было бы интересно понять, что вы понимаете под "противоречивыми примерами", и что все таки значит для вас "интересные на практике" ?

-- Пт окт 31, 2025 11:18:48 --

mihaild в сообщении #1707774 писал(а):

Забавно, но не то чтобы сильно интересно.

странные у вас оценки, если вы и до этого знали, что существуют методы, которые не дают "переобучения", то зачем мне голову морочили, что "переобучение" это мол всегда и для всех алгоритмов, и обязательно проявляется исключительно на каких то частных датасетах ?

а теперь, спустя 50 лет, вы переоткрыли свойства перцептрона, каким то новым алгоритмом , и говорите, что это не интересно?

-- Пт окт 31, 2025 11:28:44 --

Но, это, честно говоря, большой прогресс нашей дискуссии. Спасибо, что указали мне на этот алгоритм. Забавно, то что я анализирую перцептрон с помощью деревьев решений, а в машинном обучение метод, который свободен от переобучения, как раз строит бинарные деревья решений.

Научный форум dxdy

О перцептроне Розенблатта