А Вы пробовали запускать? Много зависит от железа (на gpu или cpu). В 4-той статье есть описание тестов с указанием времени (на эпоху).
Выглядит так, что там где большая размерность пространства (и большие матрицы при вычислениях) работает вполне быстро. Для RTX 3070 MNIST - 1.5 сек на эпоху, Epsilon (где 2 тыс. входных признаков, датасет 500 тыс. на train) - 5 сек на эпоху, если модель упрощенная (причем результат на упрощенной модели после первой же эпохи сразу выше чем у некоторых других методов максимум).
Вот датасет HIGGS действительно медленно выполняется. Всего 28 параметров, каскад 20 слоев, матрицы не самые большие. Эффективность падает. При том, что сам датасет на 11 млн. примеров, для исполнения на обычном ПК не маленький.
Но то, что это первая версия кода и вероятно она далеко не оптимальная, согласен.
Например, математические преобразования из 4-той статьи должны давать существенное ускорение. Но в реальности это дает како-то эффект только на матрицах размеров >150. Очевидно, что может быть не оптимальное соотношение между собой составляющих структура каскада/железо/код. Но с другой стороны, я проводил только тесты на RTX 3070. Мне неизвестно, что будет на других GPU. Сейчас больше занят теорией.
Да, пробовал. По сложности алгоритма согласен, нельзя судить о потенциале по первым реализациям. Взять тот же млп: наивная реализация без оптимизаций сегодня выглядела бы потешно, но после десятилетий магии, с адамами и сотней эвристик, они работают на три порядка быстрее исходников иногда. Ваш алгоритм пока в стадии близкой к чистой математики, хотя уже с промышленными библиотеками под капотом, но поле для низкоуровневой оптимизаций огромное. Например, точное решение слау на каждом шаге — это явный переор, когда есть итеративные методы вроде сопряжённых градиентов (квадрат вместо куба сложности) или случайные проекции и тп. Можно сэкономить до 100х времени, проиграв 0.1% точности на одной эпохе, которая наверстается в следующих.
ИМХО самое ценное в вашем подходе — наличие аналитического градиента, который можно прокидывать через цепочку(как мне кажется..). Это сразу открывает путь к гибридным архитектурам: трансформер или цнн как фича-экстрактор → ваш полигармонический слой как "умный" агрегатор или интерполятор → млп на выходе. В отличие от других ядерных методов, которые часто остаются изолированными модулями, ваш слой может стать дифференцируемым блоком в энд2энд пайплайне.
Вот куда бы я копнул в первую очередь: сделать набросок, с чемто вроде цнн вначале или трансформер, полигармоникой в середине и млп в конце. Если градиенты пройдут стабильно — это уже будет весьма резонансный результат, который "материализует" математику в работающий инструмент. Всем очень хочется использовать быстрые и робастные ядерные методы в пайплайнах, где это возможно, вместо капризных и тормознутых нейросеток, но давно потеряли надежду, может быть Вы тот самый волшебник который вернёт её?
Оптимизацию сделают уже падаваны, не барское это дело, но вот попробовать с в цепочку его воткнуть, с фичаэкстрактором в начале и млп в конце это тема.