Поздравляю)
Примерно в полтора раза быстрее.
наверное можно параллелить сложения, что немного ускорит вычисление.
Думаю, что это бессмысленно, так как основное время в такой задаче это умножение по большому модулю. С учётом обмена данными, выиграша скорее всего не будет, а возможно, что будет проигрыш во времени. Вот пободаться с умножением имеет смысл, я считал алгоритмом, в котором каждый бит это три умножения. Его можно переписать, что умножений будет два ( меньше для рекурсий второго порядка не получить)
GMPLib используется в pari, не знаю используется ли конкретно для Фибоначчей.
Очень может быть, и, кстати, похоже на правду, так как это объясняет различие в полтора раза. У GMPlib в алгоритме два умножения на бит, точнее два squaring.
Если есть желание, посчитайте эту же задачу для "пентаначчи", для рекурсий старших порядков я как-то оптимизировал количество больших умножений на бит, там с pari пободаться есть хорошие шансы)