Хочу распараллелить метод Жордана решения СЛУ с выбором главного элемента по столбцу при помощи
MPI.
Как вариант, хочу "разрезать" матрицу горизонтально, каждую привести первый кусок к диагональному на первом процессе (точнее не всю матрицу к диагональному, а минор, находящийся слева). Потом пересылаю данные второму, и т.д.
Буду тестрировать на кластере из 4-х процессоров. Но у меня возникает подозрение, что при увеличении количества процессоров при тестировании (сначала буду тестировать на 1 процессоре, потом на 2, и так далее до 4-х) время не будет уменьшаться. Т.к. я запускал код (
http://www2.sscc.ru/Publikacii/Primery_Prll/4-1.htm - здесь метод Гаусса - а он не сильно отличается от метода Жордана) и чем больше процессоров участвовало в работе программы, тем больше было время ее работы (хотя, должно быть наоборот).
Есть ли другие методы ускорения?
Буду весьма признателен, если укажите соответствующую литературу на алгоритм.
(В одной теме советовали: Дж. Ортега, Введение в паралелльные и векторные методы решения линейных систем, Москва, "Мир" 1991. Такой книжки нет под рукой).