Если увеличить, то там более подробно уже лучше видно
Я посмотрел график. Есть вероятность, что следует поиграть со скоростью обучения и прочими примочками. В вашем алгоритме есть же learning rate?
Здесь нет настройки скорости обучения как таковой (в том смысле как понимается learning rate в НС). Есть специальный коэффициент
a, который определяет насколько точно будет решена система. Хотя механизм воздействия другой, но эффект сходный с learning rate (только воздействие обратное, чем
a больше, тем скорость обучения ниже, но более плавное)
-- 11.01.2026, 21:25 --
Графики метрик можно охарактеризовать так: на первой эпохе происходит обучение, затем на последующих эпохах - застревание в локальных минимумах, "овраг" сильно изрезанный, выбраться из этих минимумов нет сил. Я бы попробовал уменьшить скорость обучения в 10/100 раз. Посмотреть, что произойдёт.
Уменьшить число гиперпараметров, упростить модель - это следующий шаг.
Какой лосс в задаче MNIST?
-- 11.01.2026, 06:00 --
Расскажите поподробнее про мешок пикселей. Ваша модель разве действительно ничего не знает про положение пикселей в изображении?
-- 11.01.2026, 06:07 --
Вы пишете в своей работе, что подаёте на вход модели изображение как 784 параметра признака - это такой упорядоченный массив (объект) или всё-таки неупорядоченный (мешок).
Сначала про мешок пикселей. Изображение раскладывается в плоский вектор, который и подается на вход. Соответственно теряется информация о взаимном расположении пикселей. Если, например, расположение пикселей на всех изображениях из датасета перемешать случайным (но одинаковым по отношению к каждому из изображений) образом, то обучатся будет с теми же результатами.
В вики для MNIST, когда нейросеть (обычная полносвязная не сверточная) обучается именно таким образом указана ошибка 1.6% (вероятно наилучший результат). Это соответствует 98.4% точности. Это как раз та планка куда полигармонический каскад и упирается. В одном из экспериментов (описанных в 4-той статье) он стабильно достигает 98.45 – 98.5 % (если выбрать каскад с большим количеством параметров и обучать очень медленно). Т.е. это не проблема настройки обучения, а скорее потолок для самой задачи, если её поставить таким образом (плоский вектор, мешок пикселей).
-- 11.01.2026, 21:25 --Отдельно хочу сказать, почему тест был именно такой и зачем. В целом, при проведении экспериментов не стояла цель - рекорды SOTA. Речь идет не о тюнинге известных моделей, а о потенциально другой ветви глубокого машинного обучения. И цель состояла в проведении первых экспериментов и доказательстве жизнеспособности концепции. Решалось три задачи.
1. Проверить насколько универсален предложенный алгоритм обучения (напомню, алгоритм новый, не SGD). Проверить, насколько можно менять размеры каскада, количество слоёв и т.д. Будет ли всё масштабироваться на десятки миллионов параметров и сотни слоёв?
Для этих целей и был выбран MNIST. Как известный датасет, не слишком маленький (все-таки 60 тыс. обучающих примеров и 784 входных признака), но и не слишком большой, чтобы удобно было работать на ПК.
Результат: каскад масштабируется, способен обучаться одним и тем же алгоритмом как на несколько слоёв, так и на сотни. Прямо на математике “из коробки” без какого-либо тюнинга, без skip conneсtions, нормализации батчев, без дропаута и т.д. Обучение фундаментально устойчиво.
2. Проверка работоспособности на большом зашумленном датасете со сложными нелинейными закономерностями. Для этого был выбран HIGGS.
Результаты получились вполне конкурентоспособными при сравнении с нейросетями (если ориентироваться на оригинальную статью с HIGGS). И значительно лучше таких методов как логистическая регрессия, случайны лес, бустинг деревьев.
3. Проверка работоспособности датасете с большим количеством входных признаков. Для этого был выбран тест Epsilon (у которого 2 тыс входных признаков, 500 тыс. обучающих примеров).
Здесь вообще получилось очень хорошо (особенно учитывая, что это первые эксперименты с новой архитектурой). Близко к CatBoost. (думаю, что можно было бы его превзойти если задаться такой целью). Результатов лучших чем CatBoost я в публикациях не нашел. Может быть они есть. (ИИ при вопросах к ним о результатах тестов на этом датасете начинают массово галлюционировать).
Но повторюсь, здесь цель во всех экспериментах была лишь подтвердить работоспособность концепции. И привлечь внимание к новой архитектуре.
-- 11.01.2026, 21:27 --Я полазил в вашем коде. Вы применяете функцию потерь

. Это принципиально - извлекать корень из функции потерь MSELoss? В SGD корень не извлекается - это определяет чувствительность к ошибкам.
Показывали свой код искусственному интеллекту? Он может неплохо оптимизировать быстродействие. Надо, правда, умело с ним пообщаться.
В коде нет функции потерь как корня из MSE. В обучении полигармонического каскада вообще не используется такое понятие как функция потерь в привычном понимании.
Но в коде действительно есть место, где вычисляется то, о чем Вы говорите, но там это лишь показатель, критерий, чтобы можно было построить графики и посмотреть, как по эпохам шёл процесс обучения. Но это в ситуации, когда решается задача регрессии. Если классификация, там вместо неё вычисляется ROC AUC.
-- 11.01.2026, 21:28 --
Показывали свой код искусственному интеллекту? Он может неплохо оптимизировать быстродействие. Надо, правда, умело с ним пообщаться.
ИИ код не показывал. Пока проводил тесты и писал статьи общение с ИИ на эту тему считал для себя табу (неизвестно, куда эта переписка могла бы и кому стать доступной). До тех пор, пока не появились первые препринты на preprints.ru. Но к тому времени экспериментальная часть была уже завершена (как цель, проверка концепции, результаты получились, на мой взгляд, убедительными), и актуальность в оптимизации отошла на второй план.
-- 11.01.2026, 21:30 --А как по отношению к KAN?
Сравнение с KAN.
Что общего? В обоих случаях основа - это работы советских математиков 50-тых годов.
И там, и там сплайны, а также оба подхода можно рассматривать как альтернативу классическим нейросетям.
Различие.
Но в одном случае это теорема Колмогорова-Арнольда, а в другом теория случайных функций (Пугачев) + принципы индифферентности (симметрии меры).
В KAN обучаемые одномерные функции активации на ребрах (B-сплайны). В полигармоническом каскаде многомерные полигармонические сплайны (как функции ядра).
В KAN функции, это эмпирический выбор. Здесь – выводится из симметрий вероятностной меры, не выбор, а следствие.
И особенно. В KAN – обучение это градиентные спуск. Полигармонический каскад – глобальное решение линейной системы на батч (Гаусс-Ньютон подобный шаг).