Мы не знаем, что происходит "внутри" самообучающихся нейросетей, то есть, каким именно образом нейросеть принимает именно то "решение", которое она принимает.
Я бы уточнил вопрос: почему обученная нейросеть практически всегда принимает
успешные (правильные) решения?
Ну а ответ на этот вопрос в принципе существует:
Рассмотрим стандартную полносвязную многослойную нейронную сеть. Первый слой сети - особенный, он предназначен для построения всевозможных разделяющих гиперплоскостей в пространстве признаков. Фактически в первом слое производится операция
, которая по своей сути определяет, с какой стороны плоскости находится объект. Логика сигмоидальной функции активации:
- с положительной стороны,
- с отрицательной стороны. Логика гиперболического тангенса:
- с положительной стороны,
- с отрицательной стороны,
- находится на самой плоскости. В последующих слоях происходят немного другие процессы с точки зрения смысла: здесь организована взвешенная логика. Так как первый слой выдал логические значения, с ними по сути и далее производятся логические операции, при чем логика взвешенная. За счет подбора весов могут быть организованы любые логические операции, отрицательные веса соответствуют операции инверсии "НЕ" (NOT), нулевые веса (или близкие к нулевым) - это по сути прерывание ("отмирание") нейронной связи. Операция сложения в линейной комбинации - это же по сути логическая операция "И", но если все веса нейрона увеличить, усилить сигналы, то получится логическая операция "ИЛИ". Вот и все, что нужно для понимания.
По сути, объекты каким-либо особым образом группируются в пространстве признаков и по этим особенностям можно классифицировать объекты. Нейронная сеть как раз-таки "изучает" любые сложные логические особенности этих группировок и в этом причина успешности такой структуры. Ведь реальные объекты всегда как-то по-особому группируются, не правда ли?
Вот пример как объекты группируются:
Если обучить небольшой трехслойный персептрон на выполнение операции
, то можно буквально вручную с карандашом на бумаге исследовать первый слой (построение разделяющих плоскостей), а затем изучить логическую операцию скрытого слоя.