Куда шагать в ML

Mihaylo · 21.11.2025, 23:47

Цель - открытие новых подходов, алгоритмов и т.п. Я просто хочу рассказать о своём подходе.

Конечно, в своё время так называемый бионический подход сделал первые шаги - были изобретены модели нейронов, они были объединены в сети. Потом появился бэкпроп - обратное распространение ошибки - это уже из теории управления, скорее, математический подход. Не забываем, что всё это время инженеры (датасайентисты, хотя их так в прошлом не называли) обкатывали теории и постоянно улучшали их, используя совершенно разные соображения, иногда от балды. Позже был SVM - тоже математический подход. Потом свёрточные сети Яна Лекуна - это уже мне кажется подход более близкий к тому, что исповедую я сейчас.

Нужно взять проблему (задачу), например, MNIST и подумать, как бы решил её ты. А потом подвести под это математику. Вот и весь подход.

Потом я понял, что можно делать наоборот - подводить математику под решение задач. Но как? Я просто обратил внимание, что есть очень популярные (часто используемые) методы анализа. Типа а почему бы эти методы не имплементировать в нейронных сетях? Эти численные эксперименты совершенно быстро случились, когда я стал работать с PyTorch (можно пытаться и в Tensorflow).

На текущий момент я имплементировал в нейронные сети то, что называется one-hot encoding, затем родственное этому - построение гистограммы (распределения), к сожалению, у этого метода нет такого чёткого и знакомого всем названия. Имплементировать - это значит обычные известные методы сделать дифференцируемыми так, чтобы бэкпроп смог распространять обратную ошибку сквозь такие слои нейронной сети. Эти алгоритмы на данный момент отточены, не буду говорить, что они идеальны, но они решают широкий круг задач, они обладают необычными свойствами.

Мне интересно, как можно имплементировать критерий Пирсона в нейронную сеть. Пока мозгов не хватило, потратил не более 5 минут размышлений, времени нет. Но это же тоже метод анализа.

Подход простой - просто вспоминаем, какой подход вам помог разобраться в сложной задаче - это есть метод анализа, имплементируй его, он полезен.

Mihaylo · 22.11.2025, 22:40

Посмотрите внимательно на эти изображения цифр. Здесь собраны цифры, которые нейронка не смогла распознать правильно. Красная цифра - это неправильный ответ, зелёная цифра - правильный ответ.

Здесь 48 цифр, но всего цифр порядка 130, они просто не влезли в изображение, остальные 9870 цифр нейронка распознала правильно. Точность распознавания 98,7% - это не самый лучший результат. Но как видите, никакой усилитель мозга не поможет добиться ошибки 0 цифр, потому что это невозможно.

Но есть часть цифр, которые можно распознать by thinking. Как это сделать? Нужно научить нейросеть писать эти цифры (ну или иными словами, генерировать). Человек, который писал такие цифры, может понять структуру данных, подумать и ответить. При написании цифр человек думает о начале цифры, о середине цифры и о конце цифры в смысле кривой линии. Он думает о данных по частям, а не целиком сразу.

Mihaylo · 23.11.2025, 05:39

Чуть-чуть разовью идею изложенную выше про цифры MNIST. Я говорил, что нужно научить другую нейросеть писать цифры. Именно писать, а не генерировать любым другим способом типа диффузионного. Нужно полностью повторить появление цифр в той форме, как это делается в реальности человеком шариковой ручкой. Допустим у нас появился такой генератор, мы обучили его этому. Обозначим эту нейросеть операцией $Y = F_1(x)$ , где $Y$ - это конечное изображение, а $x$ - это цифра, которую требовалось написать. Если углубиться во внутреннюю структуру такой нейросети, то мы увидим что-то вроде рекурсивной функции в основе которой лежит базовая функция "сделать заковыку". Функция написания цифры в целом и её базовая функция сложны, поэтому я лишь примерно опишу, что это за базовая функция: на вход ей приходит текущее изображение, текущие координаты и вектор скорости шариковой ручки, нужно предсказать изменение динамики в следующем шаге. Я опускаю всякие нюансы типа качества бумаги (белая, жёлтая, замасленная), свойств шариковой ручки (мажет, царапает, "не пишет"). Для моего мысленного эксперимента важна условно кривая линия, вдоль которой движется ручка и появляется цифра. Немаловажно также учесть ошибки написания цифры, ошибки должны распространиться обратно через эту рекурсивную функцию. А ещё, если цифра уже написана некорректно, то должна появиться дополнительная исправляющая заковыка. Эти помарки тоже надо научиться делать.
К чему я всё это говорю? Если такой нейросети показать кривые цифры с моего последнего изображения, то ей будет не хватать лишь правильного ответа, который мы подали бы ей на вход $x$ . Давайте, напишем и такую нейросеть, которая распознавала бы цифры и делала поправки, если эти цифры немного искажённые. Заметьте, мы говорим по сути о трёх нейросетях одновременно:
$F_1$ - пишет (и корректирует) цифры
$F_2$ - распознаёт цифры
$F \sim F_1 + F_2$ - распознаёт и корректирует цифры

Так вот, заключение: выше описана схема, которая поясняет, почему человек способен распознавать цифры вникая в суть, а обычная нейросеть $F_2$ не может. Для более глубокого распознавания цифры не хватает внешнего контура анализа, который включает навык написания и исправления цифры.

Заключение более общего характера: чтобы лучше работать с датасетом, есть смысл добавить какое-то понимание, как этот датасет появился. Нужно знать природу данных. Пример с цифрами MNIST раскрывает примерный подход.

tac · 24.11.2025, 05:32

Mihaylo в сообщении #1710327 писал(а):

Точность распознавания 98,7% - это не самый лучший результат.

Это для какой архитектуры?

-- Пн ноя 24, 2025 06:35:28 --