О перцептроне Розенблатта

tac · 29.10.2025, 12:24

mihaild в сообщении #1707486 писал(а):

никакой алгоритм обучения не дает результат на тестовой выборке в среднем лучше монетки.

Ну, это же тоже не так ... ровно наоборот, любой обученный алгоритм сравнивается со случайностью. Что-то у вас хромают определения. Что же тогда по вашему означает 98% на тестовой выборке в задаче MNIST?

-- Ср окт 29, 2025 13:35:23 --

я видимо сделал ошибку, отвечая и продолжая дискуссию параллельно на разные вопросы, в предположении, пропустить сразу несколько этапов, ожидая что вы следите за мыслью. Видимо уследить за моей мыслью вам сложно и для многих она почему то не тривиальна. Короче говоря, я исходил из ряда неявных для вас предположений.

Поэтому если мы хотим хоть в чем то разобраться нужно по очереди и заново.

1. Фокус нашего обсуждения - понятие переобучения.
2. Давайте зафиксируем, что дать ему определение, в общем виде, у вас не получается?
3. Если верно 2, то мы можем обсудить, частные случаи.
4. Или вы явно согласитесь, что понятие переобучения не точно, и ничего не дает ни в теории, ни на практике.

mihaild · 29.10.2025, 12:36

tac в сообщении #1707525 писал(а):

Ну, это же тоже не так ... ровно наоборот, любой обученный алгоритм сравнивается со случайностью

Но не на случайном датасете.

tac в сообщении #1707525 писал(а):

Что-то у вас хромают определения

С определениями всё в порядке. В этом месте слабая теория, в которой нет ничего достаточно сильно зависящего от датасетов. Но эти претензии надо предъявлять уже к более умным, чем я, людям.

tac в сообщении #1707525 писал(а):

Что же тогда по вашему означает 98% на тестовой выборке в задаче MNIST?

Частное понятно как полученных чисел.
Но MNIST - тоже не случайный датасет.

tac · 29.10.2025, 12:40

(Оффтоп)

mihaild в сообщении #1707486 писал(а):

против утверждений, что их задачи чем-то лучше

так никто таких утверждений не делал, речь шла о том, что из-за разной терминологии и фокусе на разных аспектах, мы не можем понять друг друга

mihaild · 29.10.2025, 12:45

tac в сообщении #1707525 писал(а):

2. Давайте зафиксируем, что дать ему определение, в общем виде, у вас не получается?

У него много определений.
На практике обычно оно применяется к итеративным методам, и им называется ситуация, в которой дальнейшее обучение приводит к улучшению результата на обучающей выборке, но ухудшению на тестовой.
Но, пожалуй, для данной темы я бы предложил такой вариант.
Для обучающей выборки $T$ и тестовой $D$ , мы называем предиктор $A_1$ переобученным по сравнению с $A_2$ , если $L(A_1, T) < L(A_2, T)$ (где $L(A, X)$ - ошибка предиктора $A$ на выборке $X$ ), но $L(A_1, D) > L(A_2, D)$ . Это соответствует определению для итеративных методов, если $A_1$ это предиктор на более позднем шаге, а $A_2$ на более раннем.

Впрочем, определения нужны, чтобы с их помощью что-то формулировать. Тут вроде бы Вы хотите заявить какие-то преимущества одной модели перед другой, поэтому Вам и давать определения :mrgreen:

Что означает Ваше

tac в сообщении #1707165 писал(а):

Эта важная характеристика перцептрона TL&NL указывает на то, что он в отличии от MLP+backprop не может переобучится

это же Вы писали.

(Оффтоп)

tac в сообщении #1707533 писал(а):

так никто таких утверждений не делал

tac в сообщении #1707480 писал(а):

не понимаешь, что такое нейросети, и как они связаны с математикой

Вы же пишете "нейросети" вообще, а не "нейросети по Мкртчяну.

tac · 29.10.2025, 12:46

mihaild в сообщении #1707529 писал(а):

Но не на случайном датасете

я все меньше начинаю, вас понимать. Можно как то все собрать в один тезис. Типа "никакой алгоритм обучения не дает результат на тестовой выборке в среднем лучше монетки" и вставить сюда слова "случайный датасет", связав датасет и выборку, если это одно и тоже не употреблять синонимов, указать "случайный датасет" относится к обучающей выборке или к тестовой, а что вообще с обучающей выборкой - неважно какая? А если она это полный перебор все вариантов ... и т.д.

-- Ср окт 29, 2025 13:50:18 --

mihaild в сообщении #1707534 писал(а):

Для обучающей выборки $T$ и тестовой $D$ , мы называем предиктор $A_1$ переобученным по сравнению с $A_2$ , если $L(A_1, T) < L(A_2, T)$ (где $L(A, X)$ - ошибка предиктора $A$ на выборке $X$ ), но $L(A_1, D) > L(A_2, D)$ . Это соответствует определению для итеративных методов, если $A_1$ это предиктор на более позднем шаге, а $A_2$ на более раннем.

Замечательно, это как раз то, что я от вас хотел. Возьму паузу, чуть позже сформулирую.

-- Ср окт 29, 2025 14:02:13 --

Давайте посмотрим на этот график.
Конкретно на желтую линию. Она показывает сколько ошибок на тестовой выборке D дает предиктор A, на каждом следующем шаге. Правильно ли я понимаю, что согласно вашему определению, A4 переобучен по сравнению с A3 (цифра это номер итерации, на графике нет такой точности, но примерно, где желтая линий первый раз после спада поднимается вверх) ?
Дальше каждый следующий "всплеск" вверх на графике, будет следующим и следующим переобучением, по сравнению с предыдущим положением в минимуме. Так?

Вы можете заметить, что в данном случае, ваше определение переобучения бесполезно, оно ничего не дает, а лишь констатирует, когда происходит случайный выброс после достижения очередного минимума.

(Оффтоп)

Когда, я нечто подобное спросил у Дипсека, он вышел из положения введя новые слова, такие как "Качество стабилизировалось после итерации", "Нет устойчивого улучшения - значения колеблются", вы тоже будете вводить эти слова в определение? Или согласитесь, что применимость понятия о переобучении имеет смысл, только там, где алгоритм показывает монотонно убывающую функцию ... дальше я затрудняюсь за вас сформулировать, т.к. на тестовой явно все равно есть всплески ...

mihaild · 29.10.2025, 13:43

tac в сообщении #1707535 писал(а):

Правильно ли я понимаю, что согласно вашему определению, A4 переобучен по сравнению с A3 (цифра это номер итерации, на графике нет такой точности, но примерно, где желтая линий первый раз после спада поднимается вверх) ?

Да (в предположении, что на обучающей выборке у А4 меньше ошибок, чем у А3, что для итеративных методов почти всегда верно).

tac в сообщении #1707535 писал(а):

Дальше каждый следующий "всплеск" вверх на графике, будет следующим и следующим переобучением, по сравнению с предыдущим положением в минимуме. Так?

Да.

tac в сообщении #1707535 писал(а):

Вы можете заметить, что в данном случае, ваше определение переобучения бесполезно, оно ничего не дает, а лишь констатирует, когда происходит случайный выброс после достижения очередного минимума

Именно это оно и делает, но непонятно, почему это бесполезно.
(тут можно еще помахать руками про случайность или закономерность выбросов, bias-variance tradeoff и вот это всё, но пока не хочется)

В любом случае - это же Вы хотите что-то рассказать. Вводите те определения, которые удобны Вам (только желательно в тех местах, где они сильно расходятся с общепринятыми, даже если общепринятые размыты, вводить новые термины - меньше путаницы будет).

this · 29.10.2025, 14:26

tac в сообщении #1707452 писал(а):

this в сообщении #1707422 писал(а):

шум 20%, то есть ни одна модель не может дать акураси больше 80% ТЕОРЕТИЧЕСКИ, а если вы обучаете до 100% на лёрне, это автоматически значит что модель выучила этот 20%й шум и будет ХУЖЕ

> Кнн — не обучается, его модель — сам датасет, ... то есть переобучение
У вас с логикой все в порядке?

"Переобучение" — термин, слово, он не про конкретный тип процесса вычисления параметров, а про сложность модели, то есть количество параметров, не про итерации. Для Кнн эти параметры - компоненты векторов самого датасета, как есть, а инференс — вычисление ближайшего по близости векторов к классифицируемому. Сложность для Кнн обратно пропорциональна к(чем меньше к тем выше сложность). Ваше смущение про то что нет "обучения" но есть "переобучение", довольно наивно.

Медитируем на:

Цитата:

Поэтому формулировка "не может обучится до 100%" - это мягко говоря глупость. Это все равно, что сказать, что нет таких весов, чтобы решить систему линейных неравенств.

Никто не говорит про то что перцептрон или какой либо достаточно ёмкий алгоритм МЛ не даст 100% на лёрне, речь же не об этом, а о том что при этом будет не оптимальная модель на тесте, на данных вне обучающей выборки. Я вам привёл конкретный пример с Кнн который это иллюстрирует, если поставить вместо Кнн млп, перцептрон или лес, будет, полагаю близкая картина.

mihaild в сообщении #1707456 писал(а):

this в сообщении #1707422 писал(а):

а если вы обучаете до 100% на лёрне, это автоматически значит что модель выучила этот 20%й шум и будет ХУЖЕ

Вообще не значит. Никто не запрещает взять алгоритм "для точек из обучающей выборки использовать knn-1, для остальных что-то другое".

Вообще говоря да, если знать с какой выборки поступают данные)))

tac в сообщении #1707468 писал(а):

Отлично, тогда вы наверно сможете описать некую процедуру, которая определит переобучен алгоритм или нет. Только нужно договорится, что мы называем решением. А то мы и тут это слово понимаем по разному. Решение это по определению - 100% решение на обучающей выборке. Все остальное, это не до конца сходящийся процесс. Так я вот не могу в толк взять, в каком момент это не до конца сходящийся процесс может оказаться стабильнее по точности прогноза, чем окончательно сошедшийся.

Да нет же, именно если будет 100% на обучении, то будет вероятней всего переобученная модель, если ест шум. Процедура — я вам код предоставил с графиками, постепенно нашариваем(или уменьшаем) сложность модели, ловим момент где экстремум на тестовой выборке. Вам же ссылку на авторитетный источник проставили.

https://deepmachinelearning.ru/docs/Mac ... derfitting

"Схождение" тут не причем, сложность это не про итерации, а про параметры, в случае нейросетей это количество весов "Схождение" — выход на плато, кривой ошибки, в случае итеративных методов, Кнн или линейная регресия например не сходятся, в этом смысле, там нет иттераций. У вас собственные термины и критерии, предлагаю придерживаться общепринятых.

this · 29.10.2025, 16:01

ЕЛМ и Розенблатт, что и следовало ожидать.

tac · 29.10.2025, 19:18

this в сообщении #1707576 писал(а):

ЕЛМ и Розенблатт, что и следовало ожидать.

Не знаю, что у вас там получилось с ELM (там какая та глупость получается, что он при большем числе нейронов не может сойтись), но с Розенблаттом давайте перепроверим. Судя по графикам вы что то делаете не то. Дайте обучающую и тестовую выборку отдельным файлом, например, в формате csv. Будет время проверю. И у вас там не видно число нейронов, я надеюсь их там больше 1000 ?

В любом случае, ваш выбор исходя "из переобучения" не правильный, что и следовало ожидать.

-- Ср окт 29, 2025 20:20:40 --

mihaild в сообщении #1707552 писал(а):

Именно это оно и делает, но непонятно, почему это бесполезно.

ну, ок ... с вами мы договорились, но с this видимо нет :)

-- Ср окт 29, 2025 20:25:41 --

this в сообщении #1707557 писал(а):

речь же не об этом, а о том что при этом будет не оптимальная модель на тесте, на данных вне обучающей выборки

речь как раз о том, что это почти всегда не верно.

-- Ср окт 29, 2025 20:27:47 --

this в сообщении #1707557 писал(а):

с Кнн который это иллюстрирует, если поставить вместо Кнн млп, перцептрон или лес, будет, полагаю близкая картина

нет, не будет, значит вы делаете что-то не так ... а Кнн - это не может иллюстрировать по определению, т.к. как вы сами сказали он не обучается. Вы уж или штаны оденьте или крестик снимите ...

-- Ср окт 29, 2025 20:29:59 --

this в сообщении #1707557 писал(а):

предлагаю придерживаться общепринятых

не можем, т.к они глупы бесполезны, как мы и обсудили с mihaild

-- Ср окт 29, 2025 20:34:24 --

P.S. можете заодно прислать вашу реализацию SAR перцептрона, может быть сразу скажу где ошибка ...

-- Ср окт 29, 2025 21:15:01 --

mihaild в сообщении #1707552 писал(а):

непонятно, почему это бесполезно.

А разве это не очевидно? Вы посмотрели график с желтой линией? Вы предложили (или вы дистанцируетесь от this? ) остановить обучение при первом таком всплеске, так?

mihaild · 29.10.2025, 22:24

tac в сообщении #1707606 писал(а):

А разве это не очевидно? Вы посмотрели график с желтой линией? Вы предложили (или вы дистанцируетесь от this? ) остановить обучение при первом таком всплеске, так?

Нет, не предлагал. Выбор модели - это отдельное гадание на кофейной гуще. Простейший более-менее работающий (если не слишком много моделей проверять) - брать просто с минимальной ошибкой на валидейте. У нас, по сути, получается однопараметрическая модель (параметр - номер шага), которую мы обучаем на валидейте.

tac в сообщении #1707606 писал(а):

речь как раз о том, что это почти всегда не верно

На практике это (увеличение VC размерности модели до достижения 100% точности на трейне уменьшает точность на тесте) почти всегда верно.
(это опять же свойство данных; теоретическая оценка, для случайных данных, говорит, что неважно, как и что учить)

tac · 29.10.2025, 22:40

mihaild в сообщении #1707629 писал(а):

брать просто с минимальной ошибкой на валидейте

1. т.е. для выбора модели, вы понятие "переобучение" не используете? Ок. т.е. как я и говорил оно бесполезно.
2. Брать с минимальной ошибкой - вам не кажется что это подгонка, под тестовую выборку, а не стабильное поведение при обобщении?

-- Ср окт 29, 2025 23:43:10 --

tac в сообщении #1707606 писал(а):

но с Розенблаттом давайте перепроверим. Судя по графикам вы что то делаете не то. Дайте обучающую и тестовую выборку отдельным файлом, например, в формате csv. Будет время проверю. И у вас там не видно число нейронов, я надеюсь их там больше 1000 ?

не нужно, ничего (кроме собственно вашей реализации перцептрона) - я попросил дипсик создать выборки в удобном мне виде исходя из вашего кода. Результаты действительно интересные, я обдумаю и тогда напишу. Но сразу хочу заметить, что ваша задача, назовем её RandomTest - очень специфичная и вырожденная.

mihaild · 29.10.2025, 22:44

tac в сообщении #1707630 писал(а):

1. т.е. для выбора модели, вы понятие "переобучение" не используете? Ок.

Для выбора я вообще понятия не использую. Для выбора я использую какие-то числа.
Но понятие "переобучение" тут близко. Итерация с минимальной ошибкой на валидейте - это именно та, после которой все последующие модели переобучены по сравнению с ней.

tac в сообщении #1707630 писал(а):

Брать с минимальной ошибкой - вам не кажется что это подгонка, под тестовую выборку, а не стабильное поведение при обобщении?

Подгонка, конечно. Но т.к. параметров мало (один), то обычно это сходит с рук.

tac · 29.10.2025, 22:47

mihaild в сообщении #1707631 писал(а):

Подгонка, конечно.

ну хотя бы с этим вы спорить не стали.

mihaild в сообщении #1707631 писал(а):

то обычно это сходит с рук.

как это понимать? то, что эта модель в реальности будет вести себя не хуже/не лучше, чем обученная до конца?

mihaild · 29.10.2025, 23:12

tac в сообщении #1707632 писал(а):

то, что эта модель в реальности будет вести себя не хуже/не лучше, чем обученная до конца?

Да. То, что на конкурсе призы дадут за остановленную раньше модель, а при эксперименте в продакшене она будет давать рекомендации, больше нравящиеся пользователям.

tac · 29.10.2025, 23:24

mihaild в сообщении #1707633 писал(а):

а при эксперименте в продакшене она будет давать рекомендации, больше нравящиеся пользователям

в том то и дело, что не будет :)

-- Чт окт 30, 2025 00:27:01 --

tac в сообщении #1707630 писал(а):

Результаты действительно интересные, я обдумаю и тогда напишу. Но сразу хочу заметить, что ваша задача, назовем её RandomTest - очень специфичная и вырожденная.

Дело в том, что эта обучающая выборка в принципе не может ничему научить - нет никакой зависимости между обучающей выборкой и тестовой. В этом и есть суть эксперимента, или у меня где то баг?

Научный форум dxdy

О перцептроне Розенблатта