Intel MKL реализовал быстрые алгоритмы работы с очень маленькими матрицами: библиотеки Intel® oneAPI Math Kernel Library под названием Compact BLAS и LAPACK. Основная идея этих компактных методов заключается в создании истинных SIMD-вычислений, в которых подгруппы матриц оперируют ядрами, которые абстрактно выглядят как скалярные ядра, а регистры заполняются за счет кросс-матричной векторизации. Сейчас BLAS и LAPACK Intel MKL значительно перекрывают возможности свободно распространяемого пакета LAPACK, высокоскоростной имплементацией которого он является (интерфейсы общих функций у них совпадают и для Си и для Фортрана). Т.к. для создания исполняемого кода необходимо пользоваться адвизором (возможных вариантов очень много (разные оси и т.д. и т.п.) и всего не запомнить), то лучше создать свои динамические библиотеки на все (ваши
) случаи жизни, благо Intel MKL это позволяет и после этого от исходного пакета линейной алгебры не зависеть. После создания своих библиотек создание кода - дело примитивной техники.