Выигрыш GPU 130 раз уменьшится до 130/15=8.7 раза если сравнивать с avx(2) версией кода выше. А на поток - CPU быстрее в 30 раз. т.е. чтобы обогнать 64 потока CPU надо GPU с 2000 потоками минимум. Хотя это сравнение несколько разных кодов не слишком адекватно.
Прислали результаты запуска OpenCL кода на RTX4060, получилось она быстрее моего CPU в один поток на 3.5ГГц в 70 раз. А в расчёте на поток GPU медленнее в 45 раз.
Если учесть и частоты, то в тактах получается GPU в 30 раз медленнее CPU.
Значит мой сервер где-то в 2.5 раза проигрывает RTX4060.