>Довольно распространено понятие "однослойный перцептрон"
Знаете ли вы как оно возникло?
В отчете DARPA прямым текстом написано
Цитата:
Работа в области нейронных сетей, начавшаяся почти 50 лет назад, делится на три периода, как показано на рисунке 2-7. Первые работы, в которых основные идеи нейронных сетей были разработаны Маккалоком, а также Питтсом, Хеббом, Розенблаттом и другими, относились к 20 годам до 1960 года.
Затем в сообществе исследователей ИИ произошёл раскол, связанный с однослойным персептроном Розенблатта. Мински и Паперт из Массачусетского технологического института указали, что персептрон не может решить класс задач «исключающее ИЛИ» по уже изложенным причинам, после чего DARPA в значительной степени отказалось от него и исследований нейронных сетей в целом в пользу работ в, по-видимому, более перспективной области символьной обработки.
Такая неверная ассоциация перцептрона Розенблатта с однослойным перцептроном затем массово разошлась по английской литературе. Классический пример, это книга Уоссермен Ф. Neural Computing. Theory and Practice.
На самом деле, даже Минский не называл перцептрон Розенблатта однослойным. И в материалах DARPA они прямо соврали - Минский нигде не утверждал, что перцептрон не решает XOR. Путаница произошла от того, что Минский искал способ каким образом можно подойти к анализу обширного класса перцептронов Розенблатта. И почти всюду, на протяжении всей своей книги о аккуратно разделяет перцептроны вообще и перцептроны Розенблатта, и по сути формулирует свои , назовем их перцептроны Минского. Поэтому правильнее было бы их и назвать однослойный перцептрон Минского. Он пишет
Цитата:
Мы условились использовать термин "перцептрон" в знак уважения к первой в этой области работе Ф. Розенблатта. ... [затем он рисует общий вид параллельных вычислений, выглядит она аналогично перцептрону, но смысл уже становится другой]
как вычислить функцию R(x) в два этапа? Вначале вычислить функции A(x) независимо одну от другой, а затем объединит результаты [я упрощаю, но пока еще тут есть функции A(x), но далее он их заменяет словом предикат. Затем]
Самый простой предикат распознает принадлежит ли фигуре X данная единственная точка (1 да, 0 нет)
Это все хорошо, если держать в уме, что перцептрон Розенблатта никогда не использовал таких "простых предикатов", а Минский на протяжении всей своей книги, значительное внимание как раз и уделяет именно такому удобному для анализа перцептрону с вырожденным пониманием предиката на входе.
Далее он дает определение своему перцептрону Минского, на рисунке исчезает первый S-A слой, и отображается только A-R слой, где под A еще понимается предикат (т.е. функция от входов, а не сам вход).
А далее, он делает "подъем с переворотом". Он говорит о том, что такое линейный предикат, но имея введу, не A элементы, а решающий элемент R. Но он (в отличии от DARPA) помнит, что A элементы это тоже предикаты. И он пытается их классифицировать, говоря о перцептронах, ограниченных по диаметру, ограниченного порядка, и случайные перцептрона (прямо указывая что только этот вид исследовался Розенблаттом).
Но затем он показывает, что происходит с совсем другими перцептронами - если их ограничить по диаметру. Они становятся локальными и не могут решить задачу четности (именно это потом лежит в основу мифа, что они не решают задачу XOR).
И только затем заканчивается его предисловие, и начинается книга. Но те кто выдумал однослойный перцептрон как понятие, видимо далее предисловия не читал, спутав перцептроны ограниченные по диаметру со случайными перцептронами.
Далее он якобы доказывает, что чтобы решить задачу четность (обобщенный вариант XOR), что необходимо чтобы хотя бы один A элемент (предикат) имел связь со всеми входами. Это доказательство сомнительно. Но что он утверждает в этой теореме
Цитата:
Теорема 3.1.1. Предикат четность имеет порядок |R|. Иными словами, для вычисления этого предиката требуется по крайней мере один частный предикат, носителем которого служит все пространство R.
Так вот, неверно как раз утверждение под "иными словами". Пусть математики помогут найти в чем именно у Минского возможно ошибка (я в свою очередь, попробую найти контрпример). Но даже это не главное. Современные нейросети, предполагают, что первый слой нейросети полносвязный, а Минский в этой теореме доказывает, что если бы он не был бы полносвязным, то он не смог бы решить задачу четности.
Поэтому даже если бы это доказательство было бы верным, то это никаким образом не делает различия с современными нейронными сетями, и все те факты, которые относятся к перцептрону справедливы до сих пор для всех нейросетей. О чем он, кстати, и писал, когда появился бэкпроп.