О перцептроне Розенблатта

tac · 06.11.2025, 20:50

mihaild в сообщении #1708427 писал(а):

Предлагаю переименовать "слишком особенный" в "не нравящийся tac".

вот только не нужно утрировать, тест который ничего содержательного не показывает и не влияет на практически значимые случаи - бесполезен. Вы же его не можете обобщить на другие случаи.

-- Чт ноя 06, 2025 21:51:34 --

mihaild в сообщении #1708427 писал(а):

Так "не знаете", или "наверняка"?
Логистическая регрессия исходит из сильного предположения о данных. В данным случае оно выполняется, поэтому она работает.

не знаю, да и не сильно интересно.

-- Чт ноя 06, 2025 22:04:06 --

mihaild в сообщении #1708427 писал(а):

Логистическая регрессия исходит из сильного предположения о данных.

что это значит?

mihaild · 06.11.2025, 21:18

tac в сообщении #1708428 писал(а):

Вы же его не можете обобщить на другие случаи

На те, которые Вы не сможете, не сообщив критериев заранее, объявить "слишком особенными" - точно не смогу.
Вы всё еще хотите сформулировать какое-то общее теоретическое утверждение о том, какой замечательный перцептрон Розенблатта, или всё же сдались?
Если хотите - то это Вы должны дать формальные определения.
Если нет - то возникает вопрос, какие вообще датасеты мы рассматриваем, и зачем. Я думаю (не проверял, и может оказаться, что это таки не правда, но скорее всего правда), что смогу сделать модель, которая для любого из выложенных на huggingface датасете, сможет, обучившись на паре примеров, выдать 100% точность на всех остальных.

tac в сообщении #1708428 писал(а):

что это значит?

Что распределение таргета при условии признаков - композиция логистической и линейной функций от признаков.
(на самом деле оно выполняется и в данном случае только приблизительно, поэтому можно логлосс можно было бы получить лучший, но на accuracy это отличие не влияет)
Ключевое - логистическая регрессия может представить только очень простые разделяющие поверхности в данном случае. И так уж получается, что среди них есть хорошая.
А перцептрон Розенблатта может представить и очень сложные разделяющие поверхности. И, когда Вы требуете от него нулевой ошибки, он находит какую-то сильно изрезанную структуру, и метки для тестовой выборки получаются более-менее случайные.

-- 06.11.2025, 19:32 --

mihaild в сообщении #1708430 писал(а):

На те, которые Вы не сможете, не сообщив критериев заранее, объявить "слишком особенными" - точно не смогу.

Пардон, бред сказал. Объявить "особенными" Вы можете любые случаи, соответственно, множество случаев, которые Вы не сможете таковыми объявить, пустое, соответственно, я на него могу обощить что угодно.

А вот предъявить случай, который Вы не сможете объявить "слишком особенным" я действительно не могу. И даже сам ЛММ не может.

tac · 06.11.2025, 21:49

mihaild в сообщении #1708430 писал(а):

Вы всё еще хотите сформулировать какое-то общее теоретическое утверждение о том, какой замечательный перцептрон Розенблатта, или всё же сдались?
Если хотите - то это Вы должны дать формальные определения.

Об этом я еще подумаю. Пока ясно лишь одно, что имею дело с шулерами. По факту мы видим, что исключительно на вашем RandomTest (собственно как и тест от this) перцептрон не предсказывает выше 50 $\pm$ N, для совершенно не связанных обучающей и тестовой выборке. Да, формального определения этому нет. Но когда такое случается это видно. Практического значения такие тесты не имеют.

-- Чт ноя 06, 2025 22:54:46 --

mihaild в сообщении #1708430 писал(а):

сможет, обучившись на паре примеров, выдать 100% точность на всех остальных

что ж вы бедный такой, если такой умный :mrgreen:

условно конечно, видимо снова, где то подвох?

-- Чт ноя 06, 2025 23:03:37 --

mihaild в сообщении #1708430 писал(а):

А перцептрон Розенблатта может представить и очень сложные разделяющие поверхности. И, когда Вы требуете от него нулевой ошибки, он находит какую-то сильно изрезанную структуру, и метки для тестовой выборки получаются более-менее случайные.

Проблема в этой вашей интерпретации, она не соответствует реальности. Дело в том, что он не может найти никакой другой лучшей разделяющей поверхности. То что вы отмечаете как 49 ошибок вместо 53 - это случайное отклонение.

-- Чт ноя 06, 2025 23:08:12 --

Значит, у меня получились такие результаты

1 выборка: 49 минимум на тесте против 53 в конце
2 выборка: 38 минимум на тесте против 46 в конце
3 выборка: 46 минимум на тесте против 59 в конце

ни чего статистически значимого. Собственно у вас так же.

Причем эффект именно такой, что естественно около 50 блуждание вначале. И оно не оказывает усредняющего эффекта к концу, т.е. статистически значимого улучшения если остановится раньше нет. Факт лишь в том, что можно для такого случая вообще ничему не учить.

Позже я еще проверю точнее.

mihaild · 06.11.2025, 22:14

tac в сообщении #1708431 писал(а):

Пока ясно лишь одно, что имею дело с шулерами

Ага. Люди, которые предъявляют датасеты, на которых Ваша любимая модель не работает - шулеры. Так и запишем.

tac в сообщении #1708431 писал(а):

для совершенно не связанных обучающей и тестовой выборке.

Это очень экзотическое определение "не связанности". С учетом того, что самая примитивная из всех существующих моделей на этом датасете даёт результат, заметно отличающийся от монетки.

tac в сообщении #1708431 писал(а):

условно конечно, видимо снова, где то подвох?

А, ну модель очень простая. Скачать все датасеты, по примеру найти, про какой из них нас спрашивают, и выдавать ответы прямо из него.

tac в сообщении #1708431 писал(а):

Дело в том, что он не может найти никакой другой лучшей разделяющей поверхности

Если добавить Ваше требование о 100% точности на обучающей выборке - то надо подумать, но, скорее всего, никакой хорошей разделяющей поверхности правда нет.
Если это требование убрать - то есть, я могу руками прописать веса так, чтобы получить ту же точность, что и в логистической регрессии.

tac в сообщении #1708431 писал(а):

ни чего статистически значимого

Вы, кстати, в курсе, что "статистическая значимость" это не просто красивое выражение, а имеющий строгий смысл термин? p-value посчитали?

tac · 06.11.2025, 22:16

Пока наиболее интересной может быть вторая выборка, но т.к. они у вас отличаются только seed значит это так распорядилась случайность. Тут даже встает вопрос какая модель лучше - которая показывает, что блуждает около 50/50 или которая затеняет это как ваша логистическая регрессия.

-- Чт ноя 06, 2025 23:19:53 --

mihaild в сообщении #1708432 писал(а):

Если это требование убрать - то есть, я могу руками прописать веса так, чтобы получить ту же точность, что и в логистической регрессии.

1. Покажите пример - это действительно было бы интересно
2. Наверняка, вы что-то такое знаете о этой выборке, чего не может знать алгоритм

-- Чт ноя 06, 2025 23:30:46 --

tac в сообщении #1708396 писал(а):

Мы должны исключить все не информативные признаки:
1. те которые встречаются лишь один раз в каком то примере
2. те которые встречаются во всех примерах

так вы сделали это для выборок, которые мне скинули?

mihaild · 06.11.2025, 22:33

tac в сообщении #1708433 писал(а):

или которая затеняет это как ваша логистическая регрессия

В каком смысле "затеняют"? Вот я провёл эксперимент с логистической регрессией 1000 раз (1000 раз сгенерировал датасет, обучил и посмотрел на ошибку на трейне и тесте).

Вложение:

download (6).png

Вот гистограмма, сколько раз получилось какое число ошибок.

tac в сообщении #1708433 писал(а):

Покажите пример - это действительно было бы интересно

$k = 2$ , $W_{as} = \begin{pmatrix} 1 & 0 & \ldots \\ 0 & 0 & \ldots & 0 & 1 & 0 & \ldots \end{pmatrix}$ (единица во второй строке на 101й позиции), $W_{ar} = \begin{pmatrix}-1 & 2\end{pmatrix}$ . Возможно где-то обсчитался, но идея такая - говорим $0$ если $x_{101} = 0$ иначе говорим $1$ .

tac в сообщении #1708433 писал(а):

так вы сделали это для выборок, которые мне скинули?

Я не очень понимаю, как одномерные данные привести в такой вид. Поэтому там $x_0$ везде, и $x_{199}$ только в одном примере. Но это легко поправить, ничего не изменится.

tac · 07.11.2025, 02:40

Вот что мы с вами забыли, хотя писал я про это давно, но т.к. тут игрушечный пример забыл это применить

Цитата:

Строгое и неуверенное предсказание. Классически строгим является такой выход у нейронной сети, по которому однозначно точно мы можем решить к какому классу нейросеть отнесла предъявленный пример (образ). Это означает, что мы на выходе в идеальном случае ожидаем точную цифру N, которая однозначно сопоставляется с классом. Частично, это решается введением порога в решающем элементе. Например, в задаче четность, если выход >0, то это класс нечетный, иначе четный. Тогда получается, что совсем не обученная сеть уже дает 50% правильных ответов. Таким образом, понятие точности прогноза сильнейшим образом зависит от интерпретации выхода. Совсем другую ситуацию мы имеем, когда у нейросети два выхода out, и тогда, если out1>0, то это класс нечетный, а если out2>0, то это класс четный. Здесь если сеть не обучалась, то 0% правильных ответов. Но если, она будет просто случайно угадывать, то только 25% будет правильными, т.к. комбинации 00 и 11 будут однозначно не верны.

В случае 10 классов, как у нас в задаче MNIST, ситуация еще более разительная. Если мы делаем вывод по принципу argmax (winner-takes-all), то случайный ответ будет давать 10% правильных ответов. Но если мы будем делать вывод исходя из классического строго определения, то у нас 2^10 = 1024 возможных состояний выхода, вероятность корректного выхода 10/1024 ≈ 0.98%, а вероятность, что корректный выход правильный = (10/1024) × (1/10) = 1/1024 ≈ 0.098%. Таким образом, мы существенно зависим от интерпретации того, какие выходы считать правильными. Поэтому в критически важный системах (медицина, безопасность) прогнозирование по принципу argmax недопустимо, но так как много исследований сделано именно с использованием argmax, когда допустим любой неуверенный ответ, далее мы будем различать E_hard – строгую ошибку от E_soft – мягкой ошибки.
https://habr.com/ru/articles/958498

Вынужден вам сказать, что оказывается что в значительной мере ваши фокусы зависят даже не от алгоритма, а от способа интерпретации эксперимента, как описано выше. Чуть позже приведу графики. Но в нашем случае нужно сделать два выхода, и постараться устранить случайный ответ.

Классический перцептрон
Перцептрон TL&NL (модификация)

Некая закономерность возникает только на 3 датасете в классическом перцептроне. Во всех остальных случаях, достаточно легко якобы переобучение пропадает. Это конечно тоже фокус, но с шарлатанами жить, быстро научишься показывать фокусы и с умным видом говорить, что случайные датасеты важны для практики.

-- Пт ноя 07, 2025 03:51:32 --

mihaild в сообщении #1708435 писал(а):

единица во второй строке на 101й позиции

спрятали ключик в одну позицию? Чем же она так примечательна?

mihaild · 07.11.2025, 03:12

tac в сообщении #1708443 писал(а):

Но в нашем случае нужно сделать два выхода, и постараться устранить случайный ответ

Что такое "устранить случайный ответ"?
И что на графиках?

tac в сообщении #1708443 писал(а):

Это конечно тоже фокус

Это другая модель. Имеете право её рассматривать.
Задача, в конечном итоге, бинарной классификации. Хотите усложнить себе жизнь и сдаться на некоторых примерах (засчитав там ошибку) вместо того, чтобы попытаться угадать - Ваше право, точность от этого лучше не станет.

tac в сообщении #1708443 писал(а):

но с шарлатанами жить

Вы можете либо перестать высказываться в таком духе, либо искать другого собеседника. Меня устраивают оба варианта.

tac в сообщении #1708443 писал(а):

Чем же она так примечательна?

Она примерно соответствует признаку $[x > 0]$ . Это просто свойство выбранной бинаризации.

Вообще мне, конечно, не очень нравится такой способ бинаризации одномерных данных. Если Вы хотите предложить какой-то другой - давайте.
Стандартный способ - по сетке, равномерной, либо по квантилям из обучающей выборки. Но это нарушает Ваше условие "непротиворечивости". Поэтому хотелось бы увидеть какой-то универсальный способ, который по произвольно размеченной одномерной выборке делает непротиворечивую бинаризацию.

tac · 07.11.2025, 03:14

А и вот еще одно уточнение, ваши фокусы основаны на специальной подаче образов к показу во время обучения. Если применить перетасовку (которая у меня в перцептроне TL&NL по умолчанию), то все фокусы пропадут и в классическом.

Итого, что мы имеем? Перетасовка и позиционное кодирование убирает эффект переобучения. Так и запишите.

mihaild · 07.11.2025, 03:16

tac в сообщении #1708446 писал(а):

А и вот еще одно уточнение, ваши фокусы основаны на специальной подаче образов к показу во время обучения. Если применить перетасовку

Это случайный порядок на каждой эпохе, или что-то еще?

tac в сообщении #1708446 писал(а):

позиционное кодирование

Что это такое в данном случае? У нас же на вход - числа, а не последовательности.

tac · 07.11.2025, 03:21

mihaild в сообщении #1708445 писал(а):

Вы можете либо перестать высказываться в таком духе, либо искать другого собеседника.

Вы не обижайтесь, возможно вы действительно верите, что эти игры со случайностью важны. В целом наш диалог мне тоже полезен, правда немного в другом смысле, с вами я учусь более точно формулировать и искать в чем причина. Но ок, я выберу другое слово для обозначения того ,что вы делаете ... скажем так, вы ищите специальные приемы, чтобы показать как в эксперимент проникает случайность. Я вам оппонирую, и ищу такие, которые это компенсируют, показывая как правильно организовать эксперимент и судить о нем. И, мне это удалось.

-- Пт ноя 07, 2025 04:25:07 --

mihaild в сообщении #1708447 писал(а):

Это случайный порядок на каждой эпохе, или что-то еще?

Да, это то что называется Shuffle (алгоритм Фишера-Йетса)

-- Пт ноя 07, 2025 04:28:08 --

mihaild в сообщении #1708447 писал(а):

Что это такое в данном случае? У нас же на вход - числа, а не последовательности.

В нашем случае это означает ровно следующие, если класс 0, то первый выход = 1, второй =0, если класс 1, то первый выход = 0, второй =1 ... т.е. какой выход дает 1 такой и класс.

-- Пт ноя 07, 2025 04:35:12 --

mihaild в сообщении #1708445 писал(а):

И что на графиках?

На графиках, каждый из них соответствует выборке с разным seed, пронумерованы по расположению в файле, который вы скидывали. По оси х - итерации, по y - число ошибок. Синий график на тестовой выборке, рыжий - усреднение как я описывал ранее.

mihaild · 07.11.2025, 04:11

tac в сообщении #1708448 писал(а):

Вы не обижайтесь, возможно вы действительно верите, что эти игры со случайностью важны

Я могу ошибаться (что наглядно продемонстрировано на предыдущей странице). Шансов, что классические теоремы и классические курсы ошибаются - крайне немного. Но иногда применяемый Вами стиль в любом случае не способствует ничьему приближению к истине.

tac в сообщении #1708448 писал(а):

скажем так, вы ищите специальные приемы, чтобы показать как в эксперимент проникает случайность

Тут подход следующий.
У нас есть датасет. Это просто набор признаков и меток. Строго говоря, нельзя говорить о том, как он сгенерирован (ну кроме того, что по распределению, в котором вероятность такого датасета ненулевая). Поэтому из двух датасетов, отличающихся друг от друга метками на тесте (с одинаковыми признаками, и одинаковыми метками на трейне), ни один в общем-то не хуже другого. И про датасет в общем виде нельзя сказать ничего нетривиального.
Дальше есть два варианта, как всё же получить хоть какие-то утверждения. Можно либо наложить какие-то ограничения на сам датасет, либо на метод его генерации. Есть довольно стандартный подход к генерации - сказать, что вектора признаков сгенерированы независимо одинаково распределенными по какому-то распределению, а метки, в свою очередь - по какому-то распределению, обусловленному признаками. Это можно как-то исследовать теоретически (например, probably approximately correct learning), и очень удобно использовать для модельных экспериментов.
Для практики это не очень полезный подход, потому что у нас, как правило, нет толком описания, какое распределение генерирует данные (если есть, то возникает задача статистики, а не машинного обучения).

И я не очень понимаю, Вы делаете
-заявление о "практических" датасетах ( $\approx$ доступных на huggingface)
-заявление о всех датасетах, обладающих каким-то свойством
-заявление о том, что датасеты, сгенерированные каким-то способом, скорее всего, чему-то удовлетворяют
-заявление о чем-то еще?

tac в сообщении #1708448 писал(а):

В нашем случае это означает ровно следующие, если класс 0, то первый выход = 1, второй =0, если класс 1, то первый выход = 0, второй =1 ... т.е. какой выход дает 1 такой и класс

А, в смысле кодирование таргета, а не признаков?

tac · 07.11.2025, 10:27

mihaild в сообщении #1708449 писал(а):

А, в смысле кодирование таргета, а не признаков?

да

-- Пт ноя 07, 2025 11:38:40 --

mihaild в сообщении #1708449 писал(а):

И я не очень понимаю, Вы делаете
-заявление о "практических" датасетах ( $\approx$ доступных на huggingface)
-заявление о всех датасетах, обладающих каким-то свойством
-заявление о том, что датасеты, сгенерированные каким-то способом, скорее всего, чему-то удовлетворяют
-заявление о чем-то еще?

Как мы видим, я как и вы, хотел бы сделать наложить на датасеты определенное ограничение. И скажем так, необходимые, но не достаточные мы уже наложили: требование не противоречивости и подобия по Жаккару. Возможно это не самые удобные, эффективные и скорее всего сделанные в лоб ограничения. И к тому же как мы видим, они не достаточны.

Но постфактум, когда пара обучающий-тестовый датасет попадает в перцептрон, по виду графика мы 100% видим "связана" эта пара или нет, скажем так есть ли что-то в обучающей выборке полезное для прогнозирования в тестовой. Ваши примеры показывают, что там ничего нет. Если бы было обучение перцептрона вело бы себя по другому.

Поэтому, между тем, что я хочу и могу есть разница, но да я хочу сделать заявление "о всех датасетах, обладающих каким-то свойством". Но при этом, ровно наоборот, вы не можете распространить выводы, полученные на таких "случайных парах обучающей-тестовой" на практические датасеты.

Но еще больше, чем делать заявления о датасетах, я хочу сделать заявление о том, какая методология экспериментов допустима. Выше уже я приводил отрывок о интерпретации ошибки Ehard / Esoft. И как мы видим дополнительно нужна перетасовка. Ну, и правильная мера "переобучения", как усреднение (определение давал ранее). Эти три компонента позволяют правильно интерпретировать то, чему обучена или нет модель, более формально. Хотя это и так видно по графику - частые "всплески" на графике, как отклонение от среднего не позволяют говорить, о том что модель построена, даже если на обучающей выборке обучено до нуля. Это указывает ли на не соответствие обучающей выборки тестовой или второй вариант, что это датасет имеет на столько случайный характер, что для прогнозирования не пригоден (это собственно то, какого рода заявление я хотел бы сделать, разделить датасеты пригодные для прогнозирования от не пригодных) .

mihaild · 07.11.2025, 12:29

tac
А в какой момент при обучении бинарной классификации с позиционным кодированием нарушится инвариант $W_{ar}[i, 0] = -W_{ar}[i, 1]$ ?
Изначально он соблюдается (они все нулевые).
Если один из выходов неправильный, то другой тоже неправильный. И значит процесс обучения поменяет ведущие к ним веса, причем все поправки будут опять противоположными по знаку.
(может быть я неправильно понимаю Ваше описание, но если правильно, то для бинарного таргета позиционное кодирование ничего не дает; а т.к. мне его лень реализовывать, то, если можно, хотелось бы обойтись без него)