2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




На страницу Пред.  1 ... 10, 11, 12, 13, 14
 
 Re: О перцептроне Розенблатта
Сообщение06.11.2025, 20:50 
mihaild в сообщении #1708427 писал(а):
Предлагаю переименовать "слишком особенный" в "не нравящийся tac".

вот только не нужно утрировать, тест который ничего содержательного не показывает и не влияет на практически значимые случаи - бесполезен. Вы же его не можете обобщить на другие случаи.

-- Чт ноя 06, 2025 21:51:34 --

mihaild в сообщении #1708427 писал(а):
Так "не знаете", или "наверняка"?
Логистическая регрессия исходит из сильного предположения о данных. В данным случае оно выполняется, поэтому она работает.

не знаю, да и не сильно интересно.

-- Чт ноя 06, 2025 22:04:06 --

mihaild в сообщении #1708427 писал(а):
Логистическая регрессия исходит из сильного предположения о данных.

что это значит?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение06.11.2025, 21:18 
Аватара пользователя
tac в сообщении #1708428 писал(а):
Вы же его не можете обобщить на другие случаи
На те, которые Вы не сможете, не сообщив критериев заранее, объявить "слишком особенными" - точно не смогу.
Вы всё еще хотите сформулировать какое-то общее теоретическое утверждение о том, какой замечательный перцептрон Розенблатта, или всё же сдались?
Если хотите - то это Вы должны дать формальные определения.
Если нет - то возникает вопрос, какие вообще датасеты мы рассматриваем, и зачем. Я думаю (не проверял, и может оказаться, что это таки не правда, но скорее всего правда), что смогу сделать модель, которая для любого из выложенных на huggingface датасете, сможет, обучившись на паре примеров, выдать 100% точность на всех остальных.
tac в сообщении #1708428 писал(а):
что это значит?
Что распределение таргета при условии признаков - композиция логистической и линейной функций от признаков.
(на самом деле оно выполняется и в данном случае только приблизительно, поэтому можно логлосс можно было бы получить лучший, но на accuracy это отличие не влияет)
Ключевое - логистическая регрессия может представить только очень простые разделяющие поверхности в данном случае. И так уж получается, что среди них есть хорошая.
А перцептрон Розенблатта может представить и очень сложные разделяющие поверхности. И, когда Вы требуете от него нулевой ошибки, он находит какую-то сильно изрезанную структуру, и метки для тестовой выборки получаются более-менее случайные.

-- 06.11.2025, 19:32 --

mihaild в сообщении #1708430 писал(а):
На те, которые Вы не сможете, не сообщив критериев заранее, объявить "слишком особенными" - точно не смогу.
Пардон, бред сказал. Объявить "особенными" Вы можете любые случаи, соответственно, множество случаев, которые Вы не сможете таковыми объявить, пустое, соответственно, я на него могу обощить что угодно.

А вот предъявить случай, который Вы не сможете объявить "слишком особенным" я действительно не могу. И даже сам ЛММ не может.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение06.11.2025, 21:49 
mihaild в сообщении #1708430 писал(а):
Вы всё еще хотите сформулировать какое-то общее теоретическое утверждение о том, какой замечательный перцептрон Розенблатта, или всё же сдались?
Если хотите - то это Вы должны дать формальные определения.


Об этом я еще подумаю. Пока ясно лишь одно, что имею дело с шулерами. По факту мы видим, что исключительно на вашем RandomTest (собственно как и тест от this) перцептрон не предсказывает выше 50 $\pm$ N, для совершенно не связанных обучающей и тестовой выборке. Да, формального определения этому нет. Но когда такое случается это видно. Практического значения такие тесты не имеют.

-- Чт ноя 06, 2025 22:54:46 --

mihaild в сообщении #1708430 писал(а):
сможет, обучившись на паре примеров, выдать 100% точность на всех остальных

что ж вы бедный такой, если такой умный :mrgreen: условно конечно, видимо снова, где то подвох?

-- Чт ноя 06, 2025 23:03:37 --

mihaild в сообщении #1708430 писал(а):
А перцептрон Розенблатта может представить и очень сложные разделяющие поверхности. И, когда Вы требуете от него нулевой ошибки, он находит какую-то сильно изрезанную структуру, и метки для тестовой выборки получаются более-менее случайные.


Проблема в этой вашей интерпретации, она не соответствует реальности. Дело в том, что он не может найти никакой другой лучшей разделяющей поверхности. То что вы отмечаете как 49 ошибок вместо 53 - это случайное отклонение.

-- Чт ноя 06, 2025 23:08:12 --

Значит, у меня получились такие результаты

1 выборка: 49 минимум на тесте против 53 в конце
2 выборка: 38 минимум на тесте против 46 в конце
3 выборка: 46 минимум на тесте против 59 в конце

ни чего статистически значимого. Собственно у вас так же.

Причем эффект именно такой, что естественно около 50 блуждание вначале. И оно не оказывает усредняющего эффекта к концу, т.е. статистически значимого улучшения если остановится раньше нет. Факт лишь в том, что можно для такого случая вообще ничему не учить.

Позже я еще проверю точнее.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение06.11.2025, 22:14 
Аватара пользователя
tac в сообщении #1708431 писал(а):
Пока ясно лишь одно, что имею дело с шулерами
Ага. Люди, которые предъявляют датасеты, на которых Ваша любимая модель не работает - шулеры. Так и запишем.
tac в сообщении #1708431 писал(а):
для совершенно не связанных обучающей и тестовой выборке.
Это очень экзотическое определение "не связанности". С учетом того, что самая примитивная из всех существующих моделей на этом датасете даёт результат, заметно отличающийся от монетки.
tac в сообщении #1708431 писал(а):
условно конечно, видимо снова, где то подвох?
А, ну модель очень простая. Скачать все датасеты, по примеру найти, про какой из них нас спрашивают, и выдавать ответы прямо из него.
tac в сообщении #1708431 писал(а):
Дело в том, что он не может найти никакой другой лучшей разделяющей поверхности
Если добавить Ваше требование о 100% точности на обучающей выборке - то надо подумать, но, скорее всего, никакой хорошей разделяющей поверхности правда нет.
Если это требование убрать - то есть, я могу руками прописать веса так, чтобы получить ту же точность, что и в логистической регрессии.
tac в сообщении #1708431 писал(а):
ни чего статистически значимого
Вы, кстати, в курсе, что "статистическая значимость" это не просто красивое выражение, а имеющий строгий смысл термин? p-value посчитали?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение06.11.2025, 22:16 
Пока наиболее интересной может быть вторая выборка, но т.к. они у вас отличаются только seed значит это так распорядилась случайность. Тут даже встает вопрос какая модель лучше - которая показывает, что блуждает около 50/50 или которая затеняет это как ваша логистическая регрессия.

-- Чт ноя 06, 2025 23:19:53 --

mihaild в сообщении #1708432 писал(а):
Если это требование убрать - то есть, я могу руками прописать веса так, чтобы получить ту же точность, что и в логистической регрессии.


1. Покажите пример - это действительно было бы интересно
2. Наверняка, вы что-то такое знаете о этой выборке, чего не может знать алгоритм

-- Чт ноя 06, 2025 23:30:46 --

tac в сообщении #1708396 писал(а):
Мы должны исключить все не информативные признаки:
1. те которые встречаются лишь один раз в каком то примере
2. те которые встречаются во всех примерах


так вы сделали это для выборок, которые мне скинули?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение06.11.2025, 22:33 
Аватара пользователя
tac в сообщении #1708433 писал(а):
или которая затеняет это как ваша логистическая регрессия
В каком смысле "затеняют"? Вот я провёл эксперимент с логистической регрессией 1000 раз (1000 раз сгенерировал датасет, обучил и посмотрел на ошибку на трейне и тесте).
Вложение:
download (6).png
Вот гистограмма, сколько раз получилось какое число ошибок.
tac в сообщении #1708433 писал(а):
Покажите пример - это действительно было бы интересно
$k = 2$, $W_{as} = \begin{pmatrix} 1 & 0 & \ldots \\ 0 & 0 & \ldots & 0 & 1 & 0 & \ldots \end{pmatrix}$ (единица во второй строке на 101й позиции), $W_{ar} = \begin{pmatrix}-1 &  2\end{pmatrix}$. Возможно где-то обсчитался, но идея такая - говорим $0$ если $x_{101} = 0$ иначе говорим $1$.
tac в сообщении #1708433 писал(а):
так вы сделали это для выборок, которые мне скинули?
Я не очень понимаю, как одномерные данные привести в такой вид. Поэтому там $x_0$ везде, и $x_{199}$ только в одном примере. Но это легко поправить, ничего не изменится.


У вас нет доступа для просмотра вложений в этом сообщении.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение07.11.2025, 02:40 
Вот что мы с вами забыли, хотя писал я про это давно, но т.к. тут игрушечный пример забыл это применить

Цитата:
Строгое и неуверенное предсказание. Классически строгим является такой выход у нейронной сети, по которому однозначно точно мы можем решить к какому классу нейросеть отнесла предъявленный пример (образ). Это означает, что мы на выходе в идеальном случае ожидаем точную цифру N, которая однозначно сопоставляется с классом. Частично, это решается введением порога в решающем элементе. Например, в задаче четность, если выход >0, то это класс нечетный, иначе четный. Тогда получается, что совсем не обученная сеть уже дает 50% правильных ответов. Таким образом, понятие точности прогноза сильнейшим образом зависит от интерпретации выхода. Совсем другую ситуацию мы имеем, когда у нейросети два выхода out, и тогда, если out1>0, то это класс нечетный, а если out2>0, то это класс четный. Здесь если сеть не обучалась, то 0% правильных ответов. Но если, она будет просто случайно угадывать, то только 25% будет правильными, т.к. комбинации 00 и 11 будут однозначно не верны.

В случае 10 классов, как у нас в задаче MNIST, ситуация еще более разительная. Если мы делаем вывод по принципу argmax (winner-takes-all), то случайный ответ будет давать 10% правильных ответов. Но если мы будем делать вывод исходя из классического строго определения, то у нас 2^10 = 1024 возможных состояний выхода, вероятность корректного выхода 10/1024 ≈ 0.98%, а вероятность, что корректный выход правильный = (10/1024) × (1/10) = 1/1024 ≈ 0.098%. Таким образом, мы существенно зависим от интерпретации того, какие выходы считать правильными. Поэтому в критически важный системах (медицина, безопасность) прогнозирование по принципу argmax недопустимо, но так как много исследований сделано именно с использованием argmax, когда допустим любой неуверенный ответ, далее мы будем различать E_hard – строгую ошибку от E_soft – мягкой ошибки.
https://habr.com/ru/articles/958498


Вынужден вам сказать, что оказывается что в значительной мере ваши фокусы зависят даже не от алгоритма, а от способа интерпретации эксперимента, как описано выше. Чуть позже приведу графики. Но в нашем случае нужно сделать два выхода, и постараться устранить случайный ответ.

Классический перцептрон
Перцептрон TL&NL (модификация)

Некая закономерность возникает только на 3 датасете в классическом перцептроне. Во всех остальных случаях, достаточно легко якобы переобучение пропадает. Это конечно тоже фокус, но с шарлатанами жить, быстро научишься показывать фокусы и с умным видом говорить, что случайные датасеты важны для практики.

-- Пт ноя 07, 2025 03:51:32 --

mihaild в сообщении #1708435 писал(а):
единица во второй строке на 101й позиции

спрятали ключик в одну позицию? Чем же она так примечательна?

 
 
 
 Re: О перцептроне Розенблатта
Сообщение07.11.2025, 03:12 
Аватара пользователя
tac в сообщении #1708443 писал(а):
Но в нашем случае нужно сделать два выхода, и постараться устранить случайный ответ
Что такое "устранить случайный ответ"?
И что на графиках?
tac в сообщении #1708443 писал(а):
Это конечно тоже фокус
Это другая модель. Имеете право её рассматривать.
Задача, в конечном итоге, бинарной классификации. Хотите усложнить себе жизнь и сдаться на некоторых примерах (засчитав там ошибку) вместо того, чтобы попытаться угадать - Ваше право, точность от этого лучше не станет.
tac в сообщении #1708443 писал(а):
но с шарлатанами жить
Вы можете либо перестать высказываться в таком духе, либо искать другого собеседника. Меня устраивают оба варианта.
tac в сообщении #1708443 писал(а):
Чем же она так примечательна?
Она примерно соответствует признаку $[x > 0]$. Это просто свойство выбранной бинаризации.

Вообще мне, конечно, не очень нравится такой способ бинаризации одномерных данных. Если Вы хотите предложить какой-то другой - давайте.
Стандартный способ - по сетке, равномерной, либо по квантилям из обучающей выборки. Но это нарушает Ваше условие "непротиворечивости". Поэтому хотелось бы увидеть какой-то универсальный способ, который по произвольно размеченной одномерной выборке делает непротиворечивую бинаризацию.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение07.11.2025, 03:14 
А и вот еще одно уточнение, ваши фокусы основаны на специальной подаче образов к показу во время обучения. Если применить перетасовку (которая у меня в перцептроне TL&NL по умолчанию), то все фокусы пропадут и в классическом.

Итого, что мы имеем? Перетасовка и позиционное кодирование убирает эффект переобучения. Так и запишите.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение07.11.2025, 03:16 
Аватара пользователя
tac в сообщении #1708446 писал(а):
А и вот еще одно уточнение, ваши фокусы основаны на специальной подаче образов к показу во время обучения. Если применить перетасовку
Это случайный порядок на каждой эпохе, или что-то еще?
tac в сообщении #1708446 писал(а):
позиционное кодирование
Что это такое в данном случае? У нас же на вход - числа, а не последовательности.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение07.11.2025, 03:21 
mihaild в сообщении #1708445 писал(а):
Вы можете либо перестать высказываться в таком духе, либо искать другого собеседника.


Вы не обижайтесь, возможно вы действительно верите, что эти игры со случайностью важны. В целом наш диалог мне тоже полезен, правда немного в другом смысле, с вами я учусь более точно формулировать и искать в чем причина. Но ок, я выберу другое слово для обозначения того ,что вы делаете ... скажем так, вы ищите специальные приемы, чтобы показать как в эксперимент проникает случайность. Я вам оппонирую, и ищу такие, которые это компенсируют, показывая как правильно организовать эксперимент и судить о нем. И, мне это удалось.

-- Пт ноя 07, 2025 04:25:07 --

mihaild в сообщении #1708447 писал(а):
Это случайный порядок на каждой эпохе, или что-то еще?


Да, это то что называется Shuffle (алгоритм Фишера-Йетса)

-- Пт ноя 07, 2025 04:28:08 --

mihaild в сообщении #1708447 писал(а):
Что это такое в данном случае? У нас же на вход - числа, а не последовательности.


В нашем случае это означает ровно следующие, если класс 0, то первый выход = 1, второй =0, если класс 1, то первый выход = 0, второй =1 ... т.е. какой выход дает 1 такой и класс.

-- Пт ноя 07, 2025 04:35:12 --

mihaild в сообщении #1708445 писал(а):
И что на графиках?


На графиках, каждый из них соответствует выборке с разным seed, пронумерованы по расположению в файле, который вы скидывали. По оси х - итерации, по y - число ошибок. Синий график на тестовой выборке, рыжий - усреднение как я описывал ранее.

 
 
 
 Re: О перцептроне Розенблатта
Сообщение07.11.2025, 04:11 
Аватара пользователя
tac в сообщении #1708448 писал(а):
Вы не обижайтесь, возможно вы действительно верите, что эти игры со случайностью важны
Я могу ошибаться (что наглядно продемонстрировано на предыдущей странице). Шансов, что классические теоремы и классические курсы ошибаются - крайне немного. Но иногда применяемый Вами стиль в любом случае не способствует ничьему приближению к истине.
tac в сообщении #1708448 писал(а):
скажем так, вы ищите специальные приемы, чтобы показать как в эксперимент проникает случайность
Тут подход следующий.
У нас есть датасет. Это просто набор признаков и меток. Строго говоря, нельзя говорить о том, как он сгенерирован (ну кроме того, что по распределению, в котором вероятность такого датасета ненулевая). Поэтому из двух датасетов, отличающихся друг от друга метками на тесте (с одинаковыми признаками, и одинаковыми метками на трейне), ни один в общем-то не хуже другого. И про датасет в общем виде нельзя сказать ничего нетривиального.
Дальше есть два варианта, как всё же получить хоть какие-то утверждения. Можно либо наложить какие-то ограничения на сам датасет, либо на метод его генерации. Есть довольно стандартный подход к генерации - сказать, что вектора признаков сгенерированы независимо одинаково распределенными по какому-то распределению, а метки, в свою очередь - по какому-то распределению, обусловленному признаками. Это можно как-то исследовать теоретически (например, probably approximately correct learning), и очень удобно использовать для модельных экспериментов.
Для практики это не очень полезный подход, потому что у нас, как правило, нет толком описания, какое распределение генерирует данные (если есть, то возникает задача статистики, а не машинного обучения).

И я не очень понимаю, Вы делаете
-заявление о "практических" датасетах ($\approx$ доступных на huggingface)
-заявление о всех датасетах, обладающих каким-то свойством
-заявление о том, что датасеты, сгенерированные каким-то способом, скорее всего, чему-то удовлетворяют
-заявление о чем-то еще?
tac в сообщении #1708448 писал(а):
В нашем случае это означает ровно следующие, если класс 0, то первый выход = 1, второй =0, если класс 1, то первый выход = 0, второй =1 ... т.е. какой выход дает 1 такой и класс
А, в смысле кодирование таргета, а не признаков?

 
 
 [ Сообщений: 207 ]  На страницу Пред.  1 ... 10, 11, 12, 13, 14


Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group