(Оффтоп)
Умерьте апломб.
у вас явно проблемка с пониманием эмоций, было сказано дружественно, с желанием разобраться что произошло, хорошо, что нашел еще до вас. Естественно, когда у меня работает я не предполагаю, что проблема у меня.
-- Вт ноя 04, 2025 04:01:49 --А, т.е. в

всё же могут быть числа, по модулю большие

?
в классике нет, это моя супер пупер модификация. Кстати, она дает замечательные результаты.
-- Вт ноя 04, 2025 04:10:28 --Теперь у нас есть какой-то итеративный алгоритм генерации

. Мы на каждом шаге

считаем получающуюся ошибку

на обучающей выборке. Я пока готов поверить, что для некоторого

будет

. И мы смотрим на ошибку на каком-то, я не понял каком, шаге на тестовой выборке, и сравниваем её со средней ошибкой на обучающей на каких-то шагах, я опять не понял, на каких.
Стоп, стоп ... тут похоже спутались люди и кони ... Вы хотите узнать, как формируются веса

? Потому что дальше, это не связанное с этим, и видимо про мое определение переобучения, что тоже искажено. Но вначале мы хотим разобраться с чем?
-- Вт ноя 04, 2025 04:18:35 --(Оффтоп)
Ну так Вы же говорите, что у Вас замечательный алгоритм, работающий на всех датасетах. А я говорю, что как он работает - это в лучшем случае свойство конкретного рассматриваемого датасета. И как раз предъявление датасета, на котором алгоритм работает плохо, это подтверждает.
Я конечно, рад нашему такому диалогу. Но это пока больше похоже "на формальные придирки" Минского к Розенблатту, только с тем преимуществом что я могу вам ответить. Просто, да у меня есть ... и пока я старался держаться и показывать исключительно классический алгоритм Розенблатта. Я могу бы вам скинуть несколько страниц про то где Розенблатт анализирует как генерировать веса, с тестами и математическими выкладками. А могу показать на скорую руку, как и делаю. А еще вариант, начать показывать не классику, а улучшения такие как алгоритм 3.
Поэтому не спешите и со "своим апломбом"

-- Вт ноя 04, 2025 04:33:55 --И мы смотрим на ошибку на каком-то, я не понял каком, шаге на тестовой выборке
тут все просто, на том же, каждом шаге

.
-- Вт ноя 04, 2025 04:37:05 -- сравниваем её со средней ошибкой на обучающей на каких-то шагах, я опять не понял, на каких
Потому что мы это не делаем. Вначале мы обучаем до нуля, собирая статистику на тестовой выборке, и только потом мы можем начать анализировать в обратном направлении.
-- Вт ноя 04, 2025 04:47:24 --1. Полностью обученным перцептроном назовем такой перцептрон, который на обучающей выборке дает количество ошибок

= 0
2. Если полностью обученный перцептрон на тестовой выборке дает ошибку прогнозирования

, выше, чем AVG (

) , где

- итерация на которой было остановлено обучение, а AVG (

) средние ошибок, после

(на отрезке [

,

]), то он переобучен.
3. Что либо сказать, о неполностью обученном перцептроне нельзя, вследствие не прогнозируемости его поведения.
Уверен Вы не внимательно прочитали. Кажется, лучше начать заново.
Теперь у нас есть какой-то итеративный алгоритм генерации

.
Есть, и пока не важно какой он.
Мы на каждом шаге

считаем получающуюся ошибку

на обучающей выборке. Я пока готов поверить, что для некоторого

будет

.
Отлично, тут еще все хорошо.
И мы смотрим на ошибку на каком-то, я не понял каком, шаге на тестовой выборке
на том же шаге

, но смотрим в смысле собираем историю за каждую итерацию.
и сравниваем её со средней ошибкой на обучающей на каких-то шагах
все, абсолютно не так. Вначале мы заканчиваем обучение.
И только потом, мы можем посчитать среднею ошибку (ПРИЧЕМ не обучающей, а
тестовой) как сказано на отрезке [

,

], и построить график - рыжая линия на графике. Среднею ошибку нужно считать

(в моих обозначениях end) раз.