Я посчитал время для матрицы 10000x10000 получилось 46.5 секунд кажется, ну и из пропорции


(это по памяти, может быть не совсем точно, те расчёты я не сохранил)
я проверяю на ноте i5-3317u (2 ядра, 2.4 ГГц в режиме турбо), но не суть важно, есть железо и по мощнее, просто это самый трудоёмкий фрагмент всей моей программы, причём он далеко не первостепенной важности, т.е. не вписывается он в приложение так как есть, его или оптимизировать, или убирать вообще
но 1.5 секунды это уже терпимо, попробую ещё оптимизировать по Штрассену и уменьшить общее количество циклов