Я ведь верно понимаю, что даже вычисления с плавающей точкой делаются сейчас на домашних компьютерах значительно быстрее, чем подгрузка данных из оперативки? (Вследствие чего — многоуровневые кэши процессора и алгоритмы, заточенные под них).
Смотря что понимать под "подгрузкой данных" - если время до получения первого элемента по случайному адресу, то да, если же скорость потока последовательных элементов (как в названии темы), то нет. Так что вопрос терминологии: скорость обращения (время доступа) как была низкой (50нс), так и осталась (12нс), а вот скорость передачи данных выросла очень значительно (с 50Мбит/с на контакт для EDO DRAM до 32Гбит/с на контакт для GDDR7).
И кроме кэшей применяют и другие методы борьбы с низкой отзывчивостью (большим временем доступа) памяти, например в GPU запускают одновременно сотни потоков на одном аппаратном АЛУ - пока каждый поток ждёт данных из памяти выполняются другие потоки, дождавшиеся своих данных. Если потоков больше задержки доступа - простоев не будет. Этакий гипер-гипер-гипер-трейдинг.