Полигармонический каскад (хотелось бы обсудить)

Yuriy Bakhvalov · 10.01.2026, 19:53

Добрый день, уважаемые коллеги.

Я занимаюсь исследованиями на стыке теории случайных функций (Пугачев) и машинного обучения (задача регрессии). Получил несколько интересных результатов. Есть цикл статей на arXiv в cs.LG (русские версии статей есть на Preprints). Готовлю общую статью для журнала. Код всех экспериментов есть на github.

Был бы очень заинтересован в обсуждении, получении критики. Насколько “железобетонна” математика или есть нестыковки? Убедительны ли результаты экспериментов?

(надеюсь, модераторы меня не забанят, из-за того что у меня новый аккаунт, а я сразу хочу написать несколько сообщений? планирую написать ниже несколько сообщений, в каждом по отдельному моменту, чтобы не мешать в кучу)

Ende · 10.01.2026, 20:07

Yuriy Bakhvalov в сообщении #1714411 писал(а):

надеюсь, модераторы меня не забанят, из-за того что у меня новый аккаунт, а я сразу хочу написать несколько сообщений?

Нет, не забанят.

Yuriy Bakhvalov · 10.01.2026, 20:12

Спасибо), тогда первое о чем хотел написать:

Идея 1: вывести решение из вполне допустимых и естественных (когда нам изначально ничего не известно) симметрий вероятностной меры на пространстве функций (трансляционная, вращательная, масштабная инвариантность + гауссовость).

Результат: единственное решение: полигармонический сплайн (thin plate spline).

Но, связь полигармонических сплайнов с масштабной инвариантностью “оператора” (или алгоритма) интерполяции известна давно (например, Shaback и др.) И это дает целый класс функций ядра.

Однако, инвариантность меры на пространстве функций, это другое условие, более сильное (которое, кажется ранее не рассматривалось?). И оно указывает на единственный вариант решения, на сплайн тонкой пластины (в адаптации его в произвольной размерности).

Тогда получаем единственный вариант ядра (также, как и вся решающая схема), выведенный из первых принципов, а не взятое эмпирически.

-- 10.01.2026, 20:14 --

Полученное ядро позволяет выполнить масштабирование всей решающей схемы к работе с большими данными. Имеется обоснование, почему необходимо масштабирование вглубь и много слоёв каскада (нарушение гауссовости, когда решение вложено в пространство меньшей размерности).

В итоге получается архитектура глубокого обучения (полигармонический каскад), обучаемая не градиентным спуском (SGD) а глобальной системой линейных уравнений на каждый батч. Это похоже на метод Гаусса-Ньютона с регуляризацией Тихонова. Но примененный не к коэффициентам полигармонических уравнений (как аналоги “весов” в нейронных сетях), а в пространстве значений скрытых в слоях функций.

В итоге появляется возможность строить сверхглубокие каскады (проверено до 500 слоёв), которые продолжают работать без skip conneсtions, нормализации батчее, дропаута и т.д. Но вместо нейронов полигармонические сплайны и обучение не градиентный спуск.

-- 10.01.2026, 20:16 --

Тестировал на трех датасетах.

MNIST – результат 98.3 - 98.4 точность. По сравнению с SOTA это не много. Но в данном случае никак не учитывалось, что перед нами изображение. На вход подавался просто “мешок пикселей” (плоский вектор). При этом условии результат вполне хороший. На самом деле MNIST использовался для другого – проверить, насколько работоспособным остается алгоритм обучения, если радикальным образом менять структуру и размеры каскада (здесь и было проверено до 500 слоев).

HISSG – результат ROC AUC 0.885. На исходной выборке в 11 млн обучающих примеров (деление 10.5 млн - train, 0.5 млн - тест) а не на подвыборках как во многих тестах. Результат конкурентоспособен в сравнении с нейросетями. Единственный минус – обучение у меня получилось долгим (около 5 дней на RTX 3070). Но это первые эксперименты, и датасет не маленький все-таки.

Epsilon. Датасет отличается тем, что на входе 2 тыс. признаков. 500 тыс. примеров на train, 100 тыс. на test. Здесь наоборот полигармонический каскаж работал очень быстро. Результат ROC AUC 0.9627 (лишь чуть не дотянуло до рекорда Catboost 0.964).

Yuriy Bakhvalov · 10.01.2026, 21:34

Обучение, кстати, часто выглядит так (для MNIST и Epsilon):

Резкий взлет на первой же эпохе.

-- 10.01.2026, 21:35 --

Ссылки:
Код на гитхабе:
https://github.com/xolod7/polyharmonic-cascade

Статьи:
English (arXiv)
Bakhvalov, Y. N. (2025). Solving a Machine Learning Regression Problem Based on the Theory of Random Functions. https://arxiv.org/abs/2512.12731
Bakhvalov, Y. N. (2025). Polyharmonic Spline Packages: Composition, Efficient Procedures for Computation and Differentiation. https://arxiv.org/abs/2512.16718
Bakhvalov, Y. N. (2025). Polyharmonic Cascade. https://arxiv.org/abs/2512.17671
Bakhvalov, Y. N. (2025). Initialization of a Polyharmonic Cascade, Launch and Testing. https://arxiv.org/abs/2512.19524

На русском (preprints.ru)
Бахвалов Ю. Н. (2024). Решение регрессионной задачи машинного обучения на основе теории случайных функций. https://doi.org/10.24108/preprints-3113020
Бахвалов Ю. Н. (2024). Пакеты полигармонических сплайнов, их объединение, эффективные процедуры вычисления и дифференцирования. https://doi.org/10.24108/preprints-3113111
Бахвалов Ю. Н. (2025). Полигармонический каскад. https://doi.org/10.24108/preprints-3113501
Бахвалов Ю. Н. (2025). Инициализация полигармонического каскада, запуск и проверка. https://doi.org/10.24108/preprints-3113659

ozheredov · 10.01.2026, 23:00

Yuriy Bakhvalov в сообщении #1714419 писал(а):

Резкий взлет на первой же эпохе.

Для меня выглядит более удивительным, что какие-то флуктуации идут ПОСЛЕ первой эпохи (по-видимому, обусловленные стохастической природой алгоритма обучения).

Eсли взять сферический feed-forward в вакууме и заменить все функции активации на purelin - это будет чем-то принципиально отличаться от Вашего подхода?

Yuriy Bakhvalov · 11.01.2026, 02:01

ozheredov в сообщении #1714427 писал(а):

Yuriy Bakhvalov в сообщении #1714419 писал(а):

Резкий взлет на первой же эпохе.

Для меня выглядит более удивительным, что какие-то флуктуации идут ПОСЛЕ первой эпохи (по-видимому, обусловленные стохастической природой алгоритма обучения).

Eсли взять сферический feed-forward в вакууме и заменить все функции активации на purelin - это будет чем-то принципиально отличаться от Вашего подхода?

Если увеличить, то там более подробно уже лучше видно

Нет, используется не pureline а полигармонический сплайн, который сам по себе может воспроизвести любую нелинейность. Во-вторых, полигармонический каскад, это совсем не нейросеть, где просто заменили ReLu на полигармоническое ядро. Математически он устроен иначе (например, для каждого слоя есть понятие “созвездия”, которое является основой для пакета функций, понятие, отсутствующее в обычных нейросетях). Скорее ближе к RBF. Но самое главное, процедура обучения радикально отличается. Нельзя просто реализовать его как граф вычислений, найти автоградиент по коэффициентам уравнений от ошибки и обучить Adam-ом. На каждый батч решается специальная система уравнений и затем идет синхронизированное обновление всех слоёв с учетом друг друга.

Mihaylo · 11.01.2026, 05:45

Yuriy Bakhvalov в сообщении #1714428 писал(а):

Если увеличить, то там более подробно уже лучше видно

Я посмотрел график. Есть вероятность, что следует поиграть со скоростью обучения и прочими примочками. В вашем алгоритме есть же learning rate?

-- 11.01.2026, 05:54 --

Графики метрик можно охарактеризовать так: на первой эпохе происходит обучение, затем на последующих эпохах - застревание в локальных минимумах, "овраг" сильно изрезанный, выбраться из этих минимумов нет сил. Я бы попробовал уменьшить скорость обучения в 10/100 раз. Посмотреть, что произойдёт.
Уменьшить число гиперпараметров, упростить модель - это следующий шаг.
Какой лосс в задаче MNIST?

-- 11.01.2026, 06:00 --

Расскажите поподробнее про мешок пикселей. Ваша модель разве действительно ничего не знает про положение пикселей в изображении?

-- 11.01.2026, 06:07 --

Вы пишете в своей работе, что подаёте на вход модели изображение как 784 параметра признака - это такой упорядоченный массив (объект) или всё-таки неупорядоченный (мешок).

-- 11.01.2026, 06:17 --

Ещё могут быть не исключены прочие глупости в коде, например, неправильное вычисление метрики...

-- 11.01.2026, 06:18 --

Yuriy Bakhvalov в сообщении #1714428 писал(а):

Скорее ближе к RBF.

А как по отношению к KAN?

-- 11.01.2026, 06:45 --

Я полазил в вашем коде. Вы применяете функцию потерь $\sqrt{MSE}$ . Это принципиально - извлекать корень из функции потерь MSELoss? В SGD корень не извлекается - это определяет чувствительность к ошибкам.

Показывали свой код искусственному интеллекту? Он может неплохо оптимизировать быстродействие. Надо, правда, умело с ним пообщаться.

Yuriy Bakhvalov · 11.01.2026, 21:18