Вот эта поправка "только с одинаковыми

" важна. Но если вы создадите два набора AR весов на один выход (для независимости как вы говорите), вы получите совсем другое решение, чем если это будет AR веса на два выхода, которые обучались вместе. Ок?
Это я все таки переборщил похоже ... кажется поправки "только с одинаковыми

" достаточно, но и нужно показывать все примеры, независимо от того какому входу учим. Т.е. если у нас 10 чисел как в MNIST, выход который указывает что это 2 нужно показывать все образы от 0 до 9. Иначе, можно конечно научить различать 3 от 2, но тогда ты не будешь знать к какому из независимых перцептронов обратится за ответом.
-- Сб ноя 08, 2025 06:50:59 --Можете сформулировать, с учетом предыдущих обсуждений, какое утверждение сейчас отстаиваете?
Ну давайте вернемся к переобучению, в очередной раз? Нужно отметить, что мне не сильно то и хочется что либо отстаивать, это наоборот, на меня делают нападки вида "ты не знаешь что такое переобучение". Неформально: я не признаю это понятие хоть сколько бы то важным на практике. Но вы видимо с этим не согласны. Так может вы скажите для чего оно вам нужно?
Что вам известно про то какое влияние оно оказывает на реальные примеры, а не в игры со случайностью?
-- Сб ноя 08, 2025 07:05:18 --На вопрос, почему так происходит в перцептроне, я собственно никогда не задумывался, потому что как правило я не думал, что все так печально с другими алгоритмами. И несмотря на то, что вы говорите, что дело не в алгоритмах, а в частных случаях задач (обучающих выборках в связи с тестовой), я не готов с этим согласится. Очевидно, что если понятие "переобучения" появилось в связи с массовым применением бэкпропа и под него собственно и делалось, то причина его наличия наоборот в алгоритме бэкпропа - градиентном спуске.
Повторим вот эту мою фразу, на которую вы возражали, что в книге Митчела понятие "переобучения" связано с деревьями решений, я нашел эту книгу, странно, что вы не заметили там раздела про бэкпроп :)
-- Сб ноя 08, 2025 07:14:15 --Там же он пишет
Цитата:
In fact, this is a poor strategy because BACKPROPAGATION is susceptible to overfitting the training examples at the cost of decreasing generalization
accuracy over other unseen examples.
Жирно выделяя, что переобучение свойственно алгоритму бэкпропагатион, и не делает каких то обобщающих заявлений на перцептрон. Поэтому увы, мне даже поспорить не с кем.
-- Сб ноя 08, 2025 07:36:06 --А Вы хоть сами читали Митчела?
Цитата:
The second plot in Figure 4.9 shows that it is not always obvious when the lowest error on the validation set
has been reached. In this plot, the validation set error decreases, then increases,
then decreases again. Care must be taken to avoid the mistaken conclusion that
the network has reached its lowest validation set error at iteration 850.
In general, the issue of overfitting and how to overcome it is a subtle one.
The above cross-validation approach works best when extra data are available to
provide a validation set. Unfortunately, however, the problem of overfitting is most
severe for small training sets. In these cases, a k-fold cross-validation approach
is sometimes used, in which cross validation is performed k different times, each
time using a different partitioning of the data into training and validation sets,
and the results are then averaged. In one version of this approach, the m available
examples are partitioned into k disjoint subsets, each of size m/k. The crossvalidation procedure is then run k times, each time using a different one of these
subsets as the validation set and combining the other subsets for the training set.
Thus, each example is used in the validation set for one of the experiments and
in the training set for the other k - 1 experiments. On each experiment the above
cross-validation approach is used to determine the number of iterations i that yield
the best performance on the validation set. The mean i of these estimates for i
is then calculated, and a final run of BACKPROPAGATION is performed training on
all n examples for i iterations, with no validation set.
по сути он расписывается в том, что не знает что с этим делать. Вы же его привратно интерпретируете, что нужно останавливаться раньше, и можно не обучаться. Он там кстати, приводит еще один способ слямженный из

перцептронов, где идея сохранять общую сумму весов.
Но в итоге он предлагает ни один раз проводить обучение, а перетасовывать даже не только примеры в обучающей выборке (чем я ограничиваюсь, а вы даже против этого возражаете), но и постоянно между обучающей и тестовой и находить среднее. Против этого подхода я не имею ничего против. Но это означает, что вам нужно завершать обучение и не один раз. Поэтому я возражаю исключительно против фееричного упрощения - не обучаться дальше, скидывая что там возможно переобучение.
-- Сб ноя 08, 2025 07:38:30 --Ну, и главное, вы не понимаете природу того, что называете переобучением, но это как говорится уже другая история.
-- Сб ноя 08, 2025 07:44:11 --Ну, и еще он пишет
Цитата:
Notice the generalization accuracy measured over the validation examples first decreases, then increases, even as the error over the training examples continues to decrease. How can this occur? This occurs because the weights are being tuned to fit idiosyncrasies of the training examples that are not representative of the general distribution of examples.
Это собственно то, что я и говорю, что вы наблюдаете переобучение только в одном случае, когда обучающая выборка не репрезентативно представлена в тестовой, и наоборот. Вы наверняка мне создавали такие выборки которые отличались распределением признаков.