О перцептроне Розенблатта

this · 28.10.2025, 18:58

dsge в сообщении #1707430 писал(а):

Камон! Если намбер параметров (т.е. вейтов) матчит намбер инпутов и самплов (или мо), то аккураси маст быть 100 %.

Софтскилы для этого нужны огого.

tac · 28.10.2025, 19:02

this в сообщении #1707422 писал(а):

шум 20%, то есть ни одна модель не может дать акураси больше 80% ТЕОРЕТИЧЕСКИ, а если вы обучаете до 100% на лёрне, это автоматически значит что модель выучила этот 20%й шум и будет ХУЖЕ

Это откровенный бред. Попробуйте прочитать, что вам говорят, а не ретранслируйте свой бред, многократно. Вы пробовали хотя бы понять, что я вам ответил? И очень плохо, что статистисты научили вас этому бреду. Для начала вам прейдется разобраться чем отличается кластеризация от универсального решения системы неравенств.

Вы хоть слышите себя? Вы утверждаете, что система неравенств не может быть решена, понимаете какой бред вы говорите? После чего вы ставите эту неспособность решить систему неравенств в зависимость от её обобщающей способности, которую вы совершенно не знаете.

> Кнн — не обучается, его модель — сам датасет, ... то есть переобучение
У вас с логикой все в порядке?

mihaild · 28.10.2025, 19:55

tac в сообщении #1707165 писал(а):

Эта важная характеристика перцептрона TL&NL указывает на то, что он в отличии от MLP+backprop не может переобучится (overfiting).

Моделей, способных обучиться, но не способных переобучиться, не бывает.

this в сообщении #1707422 писал(а):

а если вы обучаете до 100% на лёрне, это автоматически значит что модель выучила этот 20%й шум и будет ХУЖЕ

Вообще не значит. Никто не запрещает взять алгоритм "для точек из обучающей выборки использовать knn-1, для остальных что-то другое".

tac в сообщении #1707452 писал(а):

универсального решения системы неравенств

А что это такое?

tac · 28.10.2025, 20:04

mihaild в сообщении #1707456 писал(а):

А что это такое?

Это классическое представление о перцептроне как универсальном решателе

Цитата:

Задача классификации как система неравенств:
Пусть у нас есть перцептрон с весами w₀, w₁, w₂, ..., wₙ и входами x₁, x₂, ..., xₙ (где x₀ = 1 — это смещение).

Цель обучения перцептрона — найти такие значения весов, чтобы для всех примеров обучающей выборки выполнялись следующие условия:

Для объектов класса "1":
w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ ≥ 0

Для объектов класса "0":
w₀ + w₁x₁ + w₂x₂ + ... + wₙxₙ < 0

Таким образом, если в обучающей выборке содержится m примеров, мы получаем систему из m линейных неравенств относительно n+1 переменной (весов w₀, w₁, ..., wₙ)

т.е. варианта, когда она не решается быть просто не может. Поэтому формулировка "не может обучится до 100%" - это мягко говоря глупость. Это все равно, что сказать, что нет таких весов, чтобы решить систему линейных неравенств.

Почему универсальный решатель? Потому что для любого входа можно сделать отображение на любые выходы.

(Оффтоп)

Лучше этому базису научили бы статистов, а не то, чтобы они обобщали частные выводы о кластеризации на классификацию

-- Вт окт 28, 2025 21:18:50 --

mihaild в сообщении #1707456 писал(а):

Моделей, способных обучиться, но не способных переобучиться, не бывает.

Вы себя зарекомендовали как серьезный математик, поэтому этот вопрос давайте оставим на потом, хотя он и интересный. Разве, что мне вначале хотелось бы обоснования этого вашего мнения в контексте "любых мыслимых моделей"

mihaild · 28.10.2025, 20:19

tac в сообщении #1707457 писал(а):

т.е. варианта, когда она не решается быть просто не может

Ничего не понял. Куда делись линейно неразделимые выборки?

tac в сообщении #1707457 писал(а):

Это все равно, что сказать, что нет таких весов, чтобы решить систему линейных неравенств

Так если выборка линейно неразделима, то весов правда нет.

tac в сообщении #1707457 писал(а):

Почему универсальный решатель? Потому что для любого входа можно сделать отображение на любые выходы

Линейно - нельзя (очевидно).

(Оффтоп)

Можете, пожалуйста, воздержаться от обобщений несогласия с конкретным участником форума на неграмотность всех людей, занимающихся какой-то областью?

tac · 28.10.2025, 20:27

Ну сколько это можно повторять? Для случаев нелинейной разделимости есть первый S-A слой, который гарантированно делает линейное представление, но речь сейчас не об этом.

mihaild · 28.10.2025, 20:28

tac в сообщении #1707457 писал(а):

Разве, что мне вначале хотелось бы обоснования этого вашего мнения в контексте "любых мыслимых моделей"

No free lunch theorem.

-- 28.10.2025, 19:30 --

tac в сообщении #1707459 писал(а):

Ну сколько это можно повторять?

Ну например об этом можно сказать в теме :) Я ничего про это быстрым поиском в теме не нашел.
В случае наличия какого-то секретного слоя нужно говорить о модели, включая этот слой, а не только о линейной части. Задача классификации на линейно разделимой выборке не очень интересна.

tac · 28.10.2025, 20:31

mihaild в сообщении #1707460 писал(а):

No free lunch theorem

Что это значит? Что тезис "Моделей, способных обучиться, но не способных переобучиться, не бывает." вам просто кажется очевидным, но не доказуем? Тогда почему бы модель, которая знает когда остановится не считать такой моделью?

-- Вт окт 28, 2025 21:34:30 --

mihaild в сообщении #1707460 писал(а):

Ну например об этом можно сказать в теме :) Я ничего про это быстрым поиском в теме не нашел.

так мы вроде начали тему с того, что все поняли, что перцептрон это не однослойный перцептрон, а первый слой перцептрона это и есть ваш искомый "секретный слой". Но наше обсуждение уйдет снова не туда. Ну да ладно ..

Так собственно, и теорема о сходимости перцептрона - о которой мы говорили, как раз об этом.

-- Вт окт 28, 2025 21:40:57 --

mihaild в сообщении #1707460 писал(а):

Задача классификации на линейно разделимой выборке не очень интересна.

интересна, потому что об этом идет речь в контексте переобучения, а сведение нелинейной задачи к линейной (первым слоем) это всего лишь дополнительная задачка.

-- Вт окт 28, 2025 21:51:01 --

я тут к своей статье, о которой говорил в первом посте дописал абзац, может это поможет с другой, но по сути той же самой стороны понять, что происходит с перцептроном

Цитата:

С другой стороны, прейдя независимо к идеи использовать случайное отображение входного слоя на скрытый слой большей размерности, что в классическом перцептроне использовал Розенблатт, с 2000-х годов начали появляться алгоритмы, эксплуатирующие эту идею для своих модификаций, не связывая их с перцептроном Розенблатта, но по факту являются так же его модификациями. К таким алгоритмам с одной стороны, относятся сети “экстремального обучения” ELM [10], а с другой стороны, построение случайных деревьев Random Forest [11]. В 1984 году была сформулирована теорема JL (Джонсона-Линденштрауса) [12]. Она утверждает, что любое множество из n точек в пространстве высокой размерности можно почти без искажения расстояний вложить в пространство значительно меньшей размерности. Но в контексте нейросетей и случайных связей, это означает, что случайное отображение признаков отображает входные данные в многомерное пространство признаков, что делает исходные данные более разделимыми практически без затрат времени [13]. Именно это и обеспечивает гарантированное формирование пространства, которое может быть затем линейно разделимо следующим слоем. Так же, в контексте экстремального обучения идет дискуссия о том, что случайные веса связей в скрытом слое не всегда отражают дискриминантные признаки, поэтому традиционному ELM приходится генерировать большое количество скрытых нейронов для достижения желаемой точности прогнозирования. Эксперименты автора это также подтверждают.

mihaild · 28.10.2025, 20:56

tac в сообщении #1707461 писал(а):

Что это значит? Что тезис "Моделей, способных обучиться, но не способных переобучиться, не бывает." вам просто кажется очевидным, но не доказуем?

Это название теоремы.
В данном случае важен вариант из "A Conservation Law for Generalization Performance": у всех алгоритмов обучения одинаковая обобщающая способность.

tac в сообщении #1707461 писал(а):

Но наше обсуждение уйдет снова не туда

А куда оно, собственно, должно идти? Я не то чтобы внимательно слежу за темой, так, по мелочи выборочно поправляю.

tac в сообщении #1707461 писал(а):

интересна, потому что об этом идет речь в контексте переобучения

Это какой-то другой контекст переобучения, чем тот, про который говорится в большинстве источников.

tac · 28.10.2025, 21:06

mihaild в сообщении #1707464 писал(а):

Это какой-то другой контекст переобучения, чем тот, про который говорится в большинстве источников.

Ох, начнем с того, что эту демагогию про "переобучение" мне в сотый раз (в смысле сколько раз мне её уже навязывали) навязал, в очередной раз this. На мой личный взгляд, вся эта дискуссия не стоит и выеденного яйца. Поэтому если хочется про это поговорить, стоит завести отдельную тему. И начать с того, что вы вообще понимаете под переобучением. И не приводить в качестве примера kNN, который по словам самого this не обучается, но все же переобучается :) Ничего кроме смеха из таких супер терминов у меня это не вызывает.

В большинстве источников, как вы говорите нет ни какого вразумительного математического описания, что это такое. Это существенно, спекулятивная тема. Поэтому когда я пытаюсь объяснить, что переобучения как явления нет вообще (как минимум в перцептроне), действительно необходимо, понять определенный контекст и уточнить термины, прежде чем обобщать какие то фикции о kNN на нейросети.

-- Вт окт 28, 2025 22:15:10 --

Таким образом, когда вы говорите "Моделей, способных обучиться", то под моделью мы понимаем систему линейных неравенств, под обучением понимаем нахождение коэффициентов w, а теперь объясните мне что значит переобучится, учитывая что решение системы линейных неравенств найдено.

-- Вт окт 28, 2025 22:20:13 --

mihaild в сообщении #1707464 писал(а):

А куда оно, собственно, должно идти?

Ну, если уже зашел разговор о переобучении, то нужно дать ему определение, как строкой выше я попросил, а не уводить в нелинейность, понимая, что оно все равно будет сведено к линейности. И таки, да, я понимаю, что спекулируют об этом совсем в других терминах, но чтобы обосновать его наличие для перцептрона, нужно дать определения именно для конкретного устройства модели. И понять, что это абсурд.

Какой такой момент при решении системы линейных неравенств нужно считать переобучением? И с какой стати, не до конца решенная система будет давать лучший результат, чем решенная ?

-- Вт окт 28, 2025 22:46:08 --

Я вам даже еще немного помогу с терминологией. Для упрощения, будем считать что мы имеем дело только с битами. Тогда если у нас N битов, то полным перебором будем считать знание принадлежности к классу для 2^N случаев. Но предположим, что мы знаем только 50% случаев, а остальные хотим спрогнозировать, по принципу близости. Так вот, в машинном обучении (отличаем от ИИ как науки) почему то укоренился способ обучаться на 40% вместо 50%, а 10% использовать как тестовую выборку. Возникают вопросы:

1. Какая модель будет точнее, которая ознакомится с 50% случаев и решит систему линейных неравенств для всех их, или та которая ознакомится на 40% и процесс нахождения решения будет остановлен в некий "секретный" момент? Под точнее, мы будем проверять в реальных условиях, на оставшихся 50% классы которых достоверно не известны.
2. Что такое, может случится с решением системы, что она будет давать худший ответ, хотя проверить худший это ответ или нет мы не можем. Как мы поймем, что он худший в реальных условиях?
3. Где гарантия того, что подгонка момента решения системы будет соответствовать лучшему представлению о зависимостях, отражающих этой системой неравенств, для случаев которые мы не знаем.
4. Не будет ли, если произойдет стабилизация 10% около одного значения говорить о более качественном решении системы ? Т.е. когда среди разных решений системы, при проверки на 10% будет даваться ответ с наименьшим расхождением +-

mihaild · 28.10.2025, 22:19

tac в сообщении #1707468 писал(а):

И начать с того, что вы вообще понимаете под переобучением.

Это разумный вопрос. Пусть у нас есть некоторый алгоритм, который по обучающей выборке выдает классификатор. Мы говорим, что алгоритм переобучился на выборке, если его точность на обучающей выборке выше, чем вне неё. Это несколько странный выбор слов (потому что мы ничего не говорим о собственно "обучении"), но стандартное использование под него тоже подходит.
Теорема из "A Conservation Law for Generalization Performance" говорит, что для любого алгоритма бинарной классификации, его средняя (по способам генерации обучающей выборки) точность вне обучающей выборки равна $1/2$ (как у монетки). Из этого следует, что если алгоритм умеет обучаться (его точность на обучающей выборке лучше, чем у монетки), то он переобучается.

tac в сообщении #1707468 писал(а):

а не уводить в нелинейность, понимая, что оно все равно будет сведено к линейности

Определение выше вообще не использует никакой структуры на примерах, поэтому о линейности/нелинейности говорить нельзя.

tac в сообщении #1707468 писал(а):

Так вот, в машинном обучении (отличаем от ИИ как науки) почему то укоренился способ обучаться на 40% вместо 50%, а 10% использовать как тестовую выборку

Это неправда, это только один из многих вариантов.

Если Вы хотите ставить какую-то частную задачу, с линейно разделимой выборкой - поставьте, пожалуйста, явно. Решение систем линейных неравенств - хорошо изученная тема, и не очень понятно, что по ней можно было бы сказать нового интересного.

tac · 28.10.2025, 22:28

mihaild в сообщении #1707476 писал(а):

Решение систем линейных неравенств - хорошо изученная тема, и не очень понятно, что по ней можно было бы сказать нового интересного.

ну так, скажите, то что я и спросил ...

Цитата:

Какой такой момент при решении системы линейных неравенств нужно считать переобучением?

mihaild · 28.10.2025, 22:30

tac в сообщении #1707468 писал(а):

Какой такой момент при решении системы линейных неравенств нужно считать переобучением?

Никакой. Переобучение - это свойство не "момента при решении" (в общем случае вообще непонятно, что такое "момент при решении"), а самого решения.

tac · 28.10.2025, 22:33

mihaild в сообщении #1707476 писал(а):

алгоритм переобучился на выборке, если его точность на обучающей выборке выше, чем вне неё.

Это какое то вообще странное определение. Если точность на обучающей выборке всегда 100%, то у вас по определению получается алгоритм переобучился. Хотя на самом деле вы даже не будете смотреть какая точность вне её, т.к. она заведомо будет ниже. т.е. если точность 90% на неизвестных примерах вы скажите что алгоритм переобучился. Так?

Но вы разве не понимаете, что это формулировка под ваш же вывод. Вы заставляете своей формулировкой не обучать алгоритмы. Тогда мой тезис: что если вы не переобучите алгоритм, вы НИКОГДА не получите лучшего качества вне обучающей выборки.

Но мне кажется вы где то ошиблись с формулировкой.

-- Вт окт 28, 2025 23:39:39 --

Вот смотрите, что означает ваше определение на практике. Допустим у нас есть автомат принимающий копейки, мы его научили оценивать 1, 2, 3, 5, 10 копеек и выдавать сдачу. Теперь вы говорите, что если мы не научим его оценивать 10 копеек, то он сможет лучше оценивать евроценты.

Т.е. в огороде бузина, в Киеве дядька. Но это именно ваше определение переобучения.

-- Вт окт 28, 2025 23:54:06 --

mihaild в сообщении #1707479 писал(а):

в общем случае вообще непонятно, что такое "момент при решении"

это как раз таки понятно, это итерации за которые изменяются w.

-- Ср окт 29, 2025 00:02:29 --

mihaild в сообщении #1707479 писал(а):

Переобучение - это свойство .. самого решения.

Отлично, тогда вы наверно сможете описать некую процедуру, которая определит переобучен алгоритм или нет. Только нужно договорится, что мы называем решением. А то мы и тут это слово понимаем по разному. Решение это по определению - 100% решение на обучающей выборке. Все остальное, это не до конца сходящийся процесс. Так я вот не могу в толк взять, в каком момент это не до конца сходящийся процесс может оказаться стабильнее по точности прогноза, чем окончательно сошедшийся.

Вот даже чисто логически - это выглядит так вам в школе дали решить систему из 3 уравнений, вы реши два, и сказали что так у вас больше информации о процессе, который описывают эти уравнения. Вот ваше математическое или там физическое чутье, не настороженно?

-- Ср окт 29, 2025 00:15:37 --

Кстати, как мыслить в решении системы уравнений очень помогает книга, в электроном виде я её найти не могу (если кто-то найдет - сообщите), но именно с неё началось мое знакомство с нейросетями, она на самом деле уникальная, но об этом к сожалению никто не знает. И это еще один способ находить решение системы уравнений аналитически, без показа обучающий примеров. Причем опять же любых не только линейных. Там совершенно другая теория нейросетей, понятие нейрона совсем другое. Единственный минус, это нужно решать математически, нет универсального итеративного решения.

Мкртчян С.О. Нейроны и нейронные сети
https://urss.ru/cgi-bin/db.pl?lang=Ru&b ... VCqodH5lhI

Но, он шаг за шагом показывает как синтезировать сети, решая уравнения, причем т.к. уравнения могут всегда с бесконечным решением, их нужно минимизировать "число волокон", на понятном языке это минимизируя конструктивные элементы. Ну, в общем, это нужно читать, даже больше Розенблатта. Иначе получается, что ты не понимаешь, что такое нейросети, и как они связаны с математикой.

mihaild · 29.10.2025, 00:07