Это какой-то другой контекст переобучения, чем тот, про который говорится в большинстве источников.
Ох, начнем с того, что эту демагогию про "переобучение" мне в сотый раз (в смысле сколько раз мне её уже навязывали) навязал, в очередной раз 
this. На мой личный взгляд, вся эта дискуссия не стоит и выеденного яйца. Поэтому если хочется про это поговорить, стоит завести отдельную тему. И начать с того, что вы вообще понимаете под переобучением. И не приводить в качестве примера kNN, который по словам самого 
this не обучается, но все же переобучается :) Ничего кроме смеха из таких супер терминов у меня это не вызывает. 
В большинстве источников, как вы говорите нет ни какого вразумительного математического описания, что это такое. Это существенно, спекулятивная тема. Поэтому когда я пытаюсь объяснить, что переобучения как явления нет вообще (как минимум в перцептроне), действительно необходимо, понять определенный контекст и уточнить термины, прежде чем обобщать какие то фикции о kNN на нейросети.
-- Вт окт 28, 2025 22:15:10 --Таким образом, когда вы говорите "Моделей, способных обучиться", то под моделью мы понимаем систему линейных неравенств, под обучением понимаем нахождение коэффициентов w, а теперь объясните мне что значит переобучится, учитывая что решение системы линейных неравенств найдено.-- Вт окт 28, 2025 22:20:13 --А куда оно, собственно, должно идти? 
Ну, если уже зашел разговор о переобучении, то нужно дать ему определение, как строкой выше я попросил, а не уводить в нелинейность, понимая, что оно все равно будет сведено к линейности. И таки, да, я понимаю, что спекулируют об этом совсем в других терминах, но чтобы обосновать его наличие для перцептрона, нужно дать определения именно для конкретного устройства модели. И понять, что это абсурд.
Какой такой момент при решении системы линейных неравенств нужно считать переобучением? И с какой стати, не до конца решенная система будет давать лучший результат, чем решенная ?
-- Вт окт 28, 2025 22:46:08 --Я вам даже еще немного помогу с терминологией. Для упрощения, будем считать что мы имеем дело только с битами. Тогда если у нас N битов, то полным перебором будем считать знание принадлежности к классу для 2^N случаев. Но предположим, что мы знаем только 50% случаев, а остальные хотим спрогнозировать, по принципу близости. Так вот, в машинном обучении (отличаем от ИИ как науки) почему то укоренился способ обучаться на 40% вместо 50%, а 10% использовать как тестовую выборку. Возникают вопросы: 
1. Какая модель будет точнее, которая ознакомится с 50% случаев и решит систему линейных неравенств для всех их, или та которая ознакомится на 40% и процесс нахождения решения будет остановлен в некий "секретный" момент? Под точнее, мы будем проверять в реальных условиях, на оставшихся 50% классы которых достоверно не известны. 
2. Что такое, может случится с решением системы, что она будет давать худший ответ, хотя проверить худший это ответ или нет мы не можем. Как мы поймем, что он худший в реальных условиях? 
3. Где гарантия того, что подгонка момента решения системы будет соответствовать лучшему представлению о зависимостях, отражающих этой системой неравенств, для случаев которые мы не знаем. 
4. Не будет ли, если произойдет стабилизация 10% около одного значения говорить о более качественном решении системы ? Т.е. когда среди разных решений системы, при проверки на 10% будет даваться ответ с наименьшим расхождением +-