Говоря о перцептроне Розенблатта, мы скатились, казалось бы к фундаментальной проблеме, которая на самом деле к перцептрону Розенблатта относится лишь косвенно. В результате дискуссий было предложено взять за определение термина, то что прочно закрепилось как в русском языке как переобучение, а в английском как overfit, определение из книги
Mitchell, T. M. (1997). Machine Learning.Цитата:
Definition: Given a hypothesis space

, a hypothesis

is said to overlit the training data if there exists some alternative hypothesis

, such that

has smaller error than

over the training examples, but

has a smaller error than

over the entire distribution of instances.
Важно, что читая эту книгу мы можем проследить как это понятие, постепенно от "Бритвы Оккама" применяемого при построении деревьев решений методом ID3 (Quinlan J., (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann.) начали применять и к методу обратного распространения (далее просто backprop), понимая под этим некое переобучение.
В этом первом посте, хочу уделить внимание как небольшой предыстории о возникновении термина, так и тому, что из-за обиходного/разговорного употребления оно имеет очень не точный перевод на русский. Изначально под эти термином понималось разговорное понятие "подгонка".
Вот что пишет Дипсик о том, откуда взялся термин (сокращенно и выбрано мной):
Цитата:
Идея переобучения (overfitting) медленно кристаллизовалась в работах многих учёных, её корни лежат в области статистики, а не машинного обучения, которое сформировалось значительно позже. Владимир Вапник (Vladimir Vapnik) и Алексей Червоненкис (Alexey Chervonenkis) в 1970-х годах разработали строгую математическую теорию емкости моделей и обобщающей способности. Их работы дали теоретическое обоснование почему сложные модели (с высокой емкостью) склонны к переобучению на малых данных.
Мы конечно же посмотрим позже, что там у Вапника, но прежде просто прочитаем, что пишет Митчел, перед тем как дать свое определение в рамках алгоритма ID3.
Цитата:
We will say that a hypothesis overfits the training examples if some other hypothesis that fits the training examples less well actually performs better over the entire distribution of instances (i.e., including instances beyond the training set).
попробуем перевести
Цитата:
Мы будем говорить, что гипотеза превосходит обучающие примеры, если другая гипотеза, которая хуже соответствует обучающим примерам, на самом деле работает лучше во всем распределении примеров (т. е. включая примеры за пределами обучающего набора).
слова
превосходит и
соответствует, могут показаться не точными, но на самом деле они лучше всего отражают смысл.
fit - это по сути и есть "подходить по размеру", в нашем контексте мы сказали бы
точно описывает, но вот прямого аналога "
переописывает" у нас нет, не по русски звучит.
Под
гипотезой в контексте понимается, дерево решений построенное методом ID3 на всех обучающих примерах, которая и должна по сути описывать "примеры за пределами обучающего набора". Это то, что можно более точно назвать "
моделью прогнозирования". Но проблема возникает, когда эта модель прогнозирования построена в не соответствии с Бритвой Оккама, а алгоритм ID3 предпочитает наиболее короткие деревья. Но никто не знает, справедлива ли вообще Бритва Оккама, не факт что самое короткое и экономное описание более правильно. Но даже если справедливо, то Митчел говорит, что можно просто построить разные деревья решений, которые формально будут соответствовать Бритве Оккама, но все равно по разному будут прогнозировать. И вот в этом контексте он и вводит выше приведенное определение.
Чтобы более естественно, дальше понимать о чем идет речь, переформулируем эти слова Митчела
Цитата:
Мы будем говорить, что модель прогнозирования переобучена на обучающих примерах, если существует другая модель прогнозирования, которая хуже соответствует обучающим примерам, но на самом деле работает лучше во всем распределении примеров (т. е. включая примеры за пределами обучающего набора).
заметим, что тут не идет речь о тестовой выборке, а идет речь о ВСЕМ пространстве возможных примеров.
Как может существовать некая модель прогнозирования, которая
хуже той, которую мы обучали - этому мы и посветим эту тему.
Очевидных ответов у нас два:
1. Или причина в том, что сам алгоритм плохо строит прогнозируемую модель
2. Или причина в том, что обучающие примеры не репрезентативны по отношению ко ВСЕМ примерам за пределами обучающего набора
И у нас возникает вопрос: как отличить первый случай от второго.