Блочное умножение матриц

Dongara · 26.11.2009, 20:13

vitaly333 в сообщении #265399 писал(а):

Цитата:

Есть один умелец

Грановский?

Я этого не знаю.

wagant · 05.12.2009, 22:42

vitaly333 в сообщении #264615 писал(а):

Для этого решил использовать блочный вариант умножения, идея которого состоит в том чтобы загружать блоки матриц в L2 кэш и там их перемножать...т.е. как можно дольше использовать одни и те же загруженные в кэш данные, чтобы минимизировать пересылки между кэшем и ОЗУ. Но у меня удается дочтичь только 50% от пика. Вопрос состоит в том как выбирать оптимальную схему блокирования и размеры блоков, так чтобы достичь пиковой производительности?

Поглядите на проект ATLAS (Automatically Tuned Linear Algebra Software). Это реализация BLAS и частично LAPACK как раз с учетом размера кэша конкретного процессора. В дистрибутиве есть неплохая документация в pdf.

Dongara · 13.12.2009, 12:41

vitaly333 в сообщении #265249 писал(а):

Vassil,неплохая статья, но там речь идет на сколько я понял из аннотации, о оптимальном разбиении на блоки так чтобы равномерно загрузить вычислительные ядра процессора. Это немного другое.

На русскоязычном форуме Интела, посвященному параллельному программированию, тоже можете найти полезную информацию: http://software.intel.com/ru-ru/forums/

mrgloom_ · 16.10.2013, 09:20

http://zealint.ru/fast-matrix-multiplication-comp.html
жаль нету сравнения с MKL и ATLAS + там используется 1 процессор.

Научный форум dxdy

Блочное умножение матриц