Ключевое вот это, всё, что ниже - опционально.
Нужно отметить, что мне не сильно то и хочется что либо отстаивать
Ваше право. Я же не нападаю (в том вопросе). Я прошу Вас, как ТС, прояснить, о чём тема.
вот правильные определения (из Розенблатта стр. 224)
Первое я бы предложил называть, как принято сейчас, OHE = one-hot encoding. Значит ровно то же самое.
Что вам известно про то какое влияние оно оказывает на реальные примеры, а не в игры со случайностью?
Мне известно, что я проиграл контест "сделать модель, которая предскажет время доставки пользователю", потому что поставил слишком большое количество деревьев в бустинге. И это было бы видно на кроссвалидации, но я поленился смотреть. Сойдет в качестве примера?
А Вы хоть сами читали Митчела?
А Вы читали то, что я написал?
но понятие переобучения рассматривается, в первую очередь, для решающих деревьев
(жирный шрифт добавлен сейчас)
странно, что вы не заметили там раздела про бэкпроп
в довольно древней (1997 год) книге Митчелла, хотя back propagation и есть
Но в итоге он предлагает ни один раз проводить обучение, а перетасовывать даже не только примеры в обучающей выборке (чем я ограничиваюсь, а вы даже против этого возражаете), но и постоянно между обучающей и тестовой и находить среднее
Нет, он предлагает не это.
Он предлагает мета-алгоритм поверх back propagation: случайным образом разделили обучающую выборку на обучающую' и тестовую'. Сделали много шагов back propagation, нашли шаг, на котором лучший результат на тестовой', это

.
Повторили для другого разбиения на обучающую выборку - на обучающую'' и тестовую'', нашли новый лучший шаг, это

. Повторили еще много раз. Взяли среднее всех

. И теперь запустили back propagation уже на всей обучающей выборке, взяв вот это среднее число шагов.
Это один из раньше использовавшихся на практике подходов. Можно даже "на глаз" взять чуть-чуть больше шагов, потому что финальный прогон у нас на немного большей выборке, чем были предварительные.
Для обучения больших моделей с нуля этот подход сейчас не используется, потому что учить модель много раз просто дорого.
Это собственно то, что я и говорю, что вы наблюдаете переобучение только в одном случае, когда обучающая выборка не репрезентативно представлена в тестовой, и наоборот
Нет, это происходит когда
модель обращает внимание на
характиристики обучающих примеров, которые нерепрезентативны всей совокупности. Такие характеристики будут всегда, если обучающие примеры не покрывают всю совокупность.
И так, общий вброс про переобучение и Ваш перцептрон Розенблатта. На практике для очень многих моделей оно почти для всех моделей не выглядит как красивая картинка "пришли к минимуму на обучающей выборке, а дальше стабильно пошли вверх". Для некоторых моделей можно получить такой эффект на простых данных, и для любой модели можно получить такой эффект на каких-то данных, но гораздо чаще получается "пришли к минимуму, а потом дрожим с чуть худшими результатами".
Для нейронки без регуляризации как раз красивую кривую ошибки на тесте сначала вниз, потом вверх, получить часто несложно. Но на многих примерах, в которых данных нет чтобы адекватно получить нулевую ошибку (как мой пример выше) - она, скорее всего, при early stopping выдаст модель, которая на тесте лучше монетки. В отличии от Вашей модели, которая для довольно простого распределения не может научиться ничему.
Для метода "постепенно запоминать обучающую выборку, а на не входящих в неё примерах выдавать рандом, сидированный количеством шагов", тоже красивую кривую переобучения почти никогда не нарисует (надо специально подбирать датасет под конкретный базовый сид). No free lunch theorem это не противоречит (понятно, почему?).
Вы наверняка мне создавали такие выборки которые отличались распределением признаков
Я Вам написал, как генерируется выборка. И можете посмотреть код. Разумеется, если Вы сгенерируется два набора по 100 примеров, каждый пример независимо распределен равномерно на
![$[0, 1]$ $[0, 1]$](https://dxdy-03.korotkov.co.uk/f/e/8/8/e88c070a4a52572ef1d5792a341c090082.png)
, то наборы получатся разными, и, например, минимум, максимум, выборочное среднее, выборочная дисперсия в них будут разными. Но это как раз свойство всех встречающихся на практике датасетов :)