Посмотрел. Работу далекого 1976 года я знаю. Но и она и предложенный здесь подход работают хорошо в ассимптотике. Для реальных матриц (в смысле их размера), с которыми имеет дело нынешнее человечество, это не выход (в смысле выигрыша в скорости). Я нашел одну ссылку на русскоязычном форуме Интела по решению этой проблемы, но товарищ делиться секретом не хочет.
Я думаю, несколько итераций алгоритма Штрассена, а затем использование обычного умножения, даст некоторый прирост скорости.
А какой сейчас размер матриц на практике? мне на втором курсе(три года назад) говорили про десятки тысяч, но, возможно, это была устаревшая информация.
Разумный компромисс определяется скоростью памяти, эффективностью распараллеливания и требуемой точностью, чему я и следую в реализации своих алгоритмов. У меня 8 гигов памяти и 4-ядерный процессор. Матрицы у меня небольшие - порядка 16000*16000, так что все умещается в памяти.