YadryaraПроверять один-два-десять паттернов смысла нет, проверять надо весь комплект из 46080 штук.
Прикреплять ускорители к письмам неразумно, проще выложить куда-то в облако (или любой хостинг, я же выкладывал на
https://dropmefiles.com) и в письме дать лишь ссылку туда.
х64 компьютер управится быстрее если .gp файл запускать под x64 PARI/GP, если его запускать под x32 PARI/GP, то ускорения не будет (ускорители всё равно ведь x32 SSE). И да, х32 программы вполне себе работают под х64 системой, но практически с той же скоростью. Будет ли х64 быстрее х32 именно вдвое — ещё вопрос, насколько помню так было у меня (и кстати я приводил свою скорость x64 AVX2), как будет на другом компе "за глаза" сказать непросто.
Раз есть доступ к х64 системе (и если там поддерживается AVX2! это не обязательно синонимы, у
EUgeneUS на х64 системе AVX2 не поддерживался), то можно компилить отдельные версии ускорителей под x64 AVX2, .asm файл под x64 AVX2 я Вам дам, а других изменений и не нужно (вернее нужно те же тесты оптимального разворачивания циклов bb[] провести именно на том компе и подобрать наилучший вариант, но работать будет любой вариант, лишь не оптимально). Но это ведь дополнительные 10-15 часов на компиляцию второго комплекта ускорителей ...
Как я понял там обещают выделить один поток, если комп не слишком старый, то это будет раза в два-три быстрее Вас, т.е. эквивалентно двум-трём Вашим потокам, т.е. более чем вдвое быстрее. Да, это существенно, стоит заняться. Но ИМХО всё же стоит реально оценить выигрыш и потребное время и уже по результатам принимать решение что и как далеко считать. Впрочем, это дело Ваше.
Да, 4с на паттерн это очень даже хорошо (что не 0.4с), это значит что накладные расходы (которые порядка десятой доли секунды) роли практически не играют и счёт почти не замедляют. Даже если там будет не 4с, а пусть 1.5с, всё равно это порядка 95% времени на полезную работу и лишь 5% на накладные расходы.
Больше мне сказать вроде бы нечего. Но если что — спрашивайте.
EUgeneUSДа, точно, в таблице
VAL для M48n21 два варианта, почему-то я взял первый. Сейчас уже не вспомню почему (видимо соблазнился переносом работы в ускорители, ведь 5 чисел проверять лучше 4-х), надо искать в теме говорил ли что-то по этому поводу (и были ли чёткие указания что второй лучше).
Если нужно, то сделаю и комплект ускорителей под второй вариант, кажется часа 3-4 хватит (скомпилить и выложить, на подробные тесты наверное забью, удобную величину step сами подберёте).