Как писать быстрые программы

Yadryara · 03.06.2026, 11:39

Перешёл было к 8-кам. Но потом всё же решил вернуться к 7-кам, проверить другое количество потоков. Чтобы преодолеть порчу номеров, о которой рассказывал выше стал считал больше юнитов и паттернов. Скорость из-за этого упала. Но сравнительную табличку отчасти удалось состряпать.
Удивительная и хорошая новость: похоже что оптимум не в районе 8-9 потоков, а повыше, может даже больше 12-ти.

Смотрел вариант только для ECM, который по скорости был почти оптимальный, то есть скорость нахождения переваливала через 500 тысяч. Как сказал выше, она снизилась, но из-за удобства сравниваю пока для низкоскоростного варианта:

Код:

8-я фильтрация: ECM 1,1,80   9-я: ECM 1,1,80

                                           Av. Speed
Potoks       Pat   D(192,7)    Sеc    S/P    Kor/24h
     6      1440      5647    1093    758     446792
     8      1440      5647     944    655     517161
    10      1440      5647     860    597     567379
    12      1440                              600000 ?

Чем больше потоков, тем сложнее добиться чтобы все те самые 120 юнитов посчитались ровно по одному разу. Та самая порча номеров периодически происходит.

И вот я всё-таки решил попытаться преодолеть это программно. Квен сказал что это из-за гонки. Пока не удаётся полностью решить.

Батник для Винды

(Батник)

Код:

@echo off
title Ubuntu Scripts (Root)
set CHUNK=10
set WIN_COUNT=12
set /a LAST=%WIN_COUNT%-1

for /L %%A in (0,1,%LAST%) do (
    start "" wsl.exe -d Ubuntu-24.04 -u root bash -c "cd /home/yadryara/D192-7/1-0-6-0/ECM && ./run_chunk.sh %CHUNK% %%A; exec bash"
    powershell -Command "Start-Sleep -Milliseconds 430"
)

Он запускает run_chunk.sh :

(Шелловский батник)

Код:

#!/bin/bash

# 1. Принудительно сохраняем C-код в файл
gp2c -g -o Test_26.gp.c Test_26.gp

# 2. Компилируем в разделяемую библиотеку (1 раз)
gcc -shared -O2 -fPIC -o Test_26.gp.so Test_26.gp.c $(pkg-config --cflags --libs pari 2>/dev/null || echo "-lpari")

# 3. Создаём .run-файл вручную (гарантирует загрузку .so и корректный выход)
cat > Test_26.gp.run << 'EOF'
install("init_Test_26","vp","init_Test_26","./Test_26.gp.so");
default(parisizemax, 8192M);
init_Test_26();
quit
EOF

# 4. Многократный запуск
CHUNK_SIZE=$1      # автоматически подставится из батника
SCRIPT_INDEX=$2    # автоматически подставится 0, 1, 2, 3... из цикла

START=$((SCRIPT_INDEX * CHUNK_SIZE  ))
END=$((START + CHUNK_SIZE - 1))

for i in {0..0}; do
  for j in $(seq $START $END); do

    FILE_NUM=$(( j / 2 + 1 ))
    INPUT_FILE="${FILE_NUM}.unit"

    ( echo "$i"; echo "$j" ) > "$INPUT_FILE" &

    CURRENT_INPUT_FILE="$INPUT_FILE" gp -q Test_26.gp.run &

  done
done

wait

Здесь запускается рабочая программа Test_26 на PARI/gp. Вот какие в ней релевантные строки:

Код:

install("init_Test_26", "vp", "init_Test_26", "./Test_26.gp.so");

\\ 2. Читаем имя файла из переменной окружения, которую задаст Bash
input_file_name = getenv("CURRENT_INPUT_FILE");

\\ Проверка на всякий случай
if (input_file_name == "", error("КРИТИЧЕСКАЯ ОШИБКА: Переменная CURRENT_INPUT_FILE пуста!"));

\\ 3. Читаем данные из файла (или FIFO-канала)
nomera = readvec(input_file_name);

\\print("Успешно прочитано из [", input_file_name, "]: i = ", nomera[1], ", j = ", nomera[2]);

Наконец-то добился что она вроде работает. Но не совсем так как надо.

Если

set CHUNK=1
set WIN_COUNT=12

То работает нормально, в каждом окне считается свой номер.

А если

set CHUNK=10
set WIN_COUNT=12

То в каждом окне одновременно будет пытаться считать по 10 потоков. А они должны исполняться последовательно, потому что у них один и тот же номер файла.

То есть нужно чтобы в 12-ти одновременно работающих окнах последовательно считались 10 разных номеров:

от 0 до 9 в одном окне,
от 10 до 19 в другом окне,
...
от 110 до 119 в последнем 12-м окне.

Yadryara · 04.06.2026, 08:15

Исправить оказалось неожиданно просто. Нужно было убрать & (параграф?) в конце двух строк.

"Уж сколько раз твердили миру":

Квен писал(а):

Отличная новость, что удалось запустить связку Windows + WSL + PARI/GP + C-код! Вы очень близко к идеалу.

"Но только всё не впрок,
И в сердце льстец
Всегда отыщет уголок" :-)

Благодаря этому нововведению смог посчитать набор вдвое меньше последнего, то есть 720 паттернов:

Код:

Rass prime:   0     119
Proga26   500       193
8-я фильтрация: ECM 1,1,80   9-я: ECM 1,1,80

Potoki   Count     Found    Тime    ms/      Speed
(okna)     pat   D(192,7)    sеc    Pat    kor/24h
     6     720      2883     521    723     478547
     8     720      2883     473    656     527528
    10     720      2883     439    610     567450
    12     720      2883     412    572     604962
    15     720      2883     412    572     604846
    20     720      2883     403    558     619487

Когда окон больше чем номинальное количество потоков (у меня 12), Демис вроде говорил что это называется гипертрейдинг. Но большее пока не решаюсь. Уже при 20 вывод заметно тормозил. Но, как видно, счёт почему-то быстрее был.

Dmitriy40 · 04.06.2026, 15:11

Yadryara в сообщении #1725482 писал(а):

Когда окон больше чем номинальное количество потоков (у меня 12), Демис вроде говорил что это называется гипертрейдинг.

Нет, гипертрейдинг это когда доступных (а не запущенных!) потоков больше количества ядер (т.е. больше 6 у Вас). Если в биосе отключите гипертрейдинг, то количество доступных потоков сократится до 6, по количеству ядер.

В принципе можно грубо оценить выигрыш от гипертрейдинга по таблице: 12 против 6, 605 против 480, выигрыш 605/480-1=26%.
Грубо потому что при 6 потоках вовсе не факт что они распределились по всем 6 ядрам и не мешали друг другу, так что реальный выигрыш может быть немного меньше. Но вообще выигрыш 20%-30% как раз и есть "средний по больнице" (для множества приложений), так что вполне на уровне. Но напомню что на асм+AVX2 выигрыш был 100% (вдвое быстрее), уж не знаю почему.
Ещё грубо потому что не проверили (или во всяком случае не указали) частоту ядер в разных вариантах, вполне может быть что при 12 запущенных потоках частота несколько ниже чем при 6, ведь нагрузка и соответственно тепловыделение больше.

Yadryara в сообщении #1725482 писал(а):

Уже при 20 вывод заметно тормозил. Но, как видно, счёт почему-то быстрее был.

Непонятно почему рост скорости только при 20 потоках, а не при 15.
Но сам факт роста скорости от превышения 12 активных/запущенных потоков означает что в коде есть "узкие места", где выполнение чего-то ждёт, причём скорее всего ждёт в ядре винды, не в коде PARI, потому и переключает на другие ожидающие потоки. Возможно следует уменьшить количество выводимой информации в консоль (заменив на вывод в файл, он существенно быстрее) или даже и в файлы тоже (других точек возможного ожидания вроде бы в коде нет). В вычислительных моментах ожидания быть не может, так что дело не в primesieve/factor/ecm/pollard и прочих вычислительных функциях.

Yadryara в сообщении #1725482 писал(а):

Нужно было убрать & (параграф?)

ИИ говорит это признак запуска строки в фоновом режиме, т.е. не дожидаясь окончания выполнение проходит дальше. Код не смотрел.

DemISdx · 04.06.2026, 18:09

Yadryara в сообщении #1725482 писал(а):

Демис вроде говорил что это называется гипертрейдинг.

Демис говорил, что у него процессоры Intel, а не AMD.
И что он использует (с включенным гипертреадингом) формулу: ("общее число ядер") - (1 ядро).
Тогда оставшегося ядра хватает на нормальную работу самой ОС Виндовс, при тяжелых расчетах, естественно.

(Оффтоп)

Демис не говорил, что в АМД есть гипертреадиг, там у них своя технология smt, кажется, называется.
В чем-то похожая на гипертреадинг...

Dmitriy40 · 04.06.2026, 18:51

DemISdx в сообщении #1725507 писал(а):

Демис не говорил, что в АМД есть гипертреадиг, там у них своя технология smt, кажется, называется.
В чем-то похожая на гипертреадинг...

Насколько я разбираюсь, идентична с точностью до названия. Ну может какие-то мелкие технические детали различаются, но без глубоких тестов до них не добраться, так что для программиста (про пользователей вообще молчу) это одно и то же. Хотя эффект может быть разным, да - на моей проге у меня было +50% скорости, у вас с Антоном +100%, хотя у тебя тоже интел как и у меня, но сильно новее.

-- добавлено через 7 минут --

И кстати SMT - общее название компьютерной технологии (английское сокращение), это интел извратилась с собственным названием.

Yadryara · 04.06.2026, 19:07

Благодарю.

Ранее писал, что для бо́льших объёмов счёта за один запуск, скорость падала. Видимо из-за увеличения потребления памяти. Поэтому решил пойти в обратную сторону: за один запуск проверять не по 12 и не по 6, а всего лишь по 3 паттерна. Причём разбил пополам тот самый интервал где нашлись эти 2883 кортежа. Довольно неравномерно разбились находки: 1415 + 1468. Может это и хорошо:

Код:

8-я фильтрация: ECM 1,1,80   9-я: ECM 1,1,80

Potoki   Count     Found    Тime    ms/      Speed
(okna)     pat   D(192,7)    sеc    Pat    kor/24h

    12     360      1415     204    564     601768
    15     360      1415     205    567     598751

    12     360      1468     207    574     614060
    15     360      1468     206    570     618251

20 потоков больше запустить не удалось, хотя два раза попытался. Окна открылись, но то 2, то 1 прога не запустилась. В причинах пока разбираться не стал.

Видимо, не стоит мучить комп. И делать выбор всё же в пользу 12-ти, а не 15 потоков. Накладные расходы времени (на компиляцию и запуск) сюда не включены. Вот такой рабочий файл формируется, например, для 12 потоков. Считается по 10 юнитов в потоке, в каждом юните по 3 паттерна:

(120 юнитов)

Код:

    18      19115         81360
    9      18187         42756
    11      17496         54321
    8      16982         40702
    9      18651         41692
    13      20972         53557
    12      19274         53793
    6      17089         30335
    15      20592         62937
    14      20235         59778
    12      19567         52987
    13      18920         59366
    10      17775         48608
    11      19654         48357
    8      17626         39215
    17      21951         66913
    10      19322         44716
    14      21305         56775
    9      18753         41465
    11      18415         51610
    15      21258         60965
    11      18384         51697
    14      21592         56021
    15      21745         59600
    12      20598         50335
    14      20704         58426
    9      19557         39761
    10      18389         46985
    8      18332         37705
    15      23154         55973
    13      22018         51013
    13      20623         54463
    5      16341         26437
    9      19950         38979
    14      21301         56786
    15      21524         60212
    9      19911         39054
    16      22831         60549
    9      18171         42793
    12      19780         52417
    8      18436         37492
    13      21818         51480
    21      25163         72106
    8      18299         37773
    9      19326         40236
    11      19921         47708
    16      23240         59484
    14      23378         51741
    9      18678         41632
    9      18667         41656
    5      16696         25874
    17      23052         63717
    3      16541         15670
    10      18994         45488
    13      21093         53250
    14      22741         53190
    12      19966         51928
    17      24777         59281
    7      18282         33082
    12      21686         47810
    11      20052         47397
    10      19733         43785
    7      18312         33028
    10      19452         44417
    15      21604         59989
    7      18544         32614
    13      20674         54329
    10      21089         40969
    14      22690         53310
    9      20318         38271
    13      21084         53273
    16      24477         56478
    14      21252         56917
    9      18282         42534
    11      20394         46602
    12      20753         49959
    14      23007         52575
    8      18390         37586
    5      18426         23446
    8      18543         37276
    14      21274         56858
    8      17986         38430
    8      19256         35895
    14      22040         54882
    9      20121         38646
    17      23012         63828
    17      23445         62649
    13      21118         53187
    9      20234         38430
    10      20055         43082
    23      28039         70873
    16      23443         58969
    16      24511         56399
    10      19518         44267
    9      19965         38948
    14      23022         52541
    13      21182         53026
    7      19170         31549
    10      19758         43729
    6      17408         29779
    20      25171         68650
    15      22414         57821
    13      21233         52899
    12      19950         51970
    13      21699         51763
    12      22870         45334
    14      21447         56399
    14      22583         53562
    10      20087         43013
    11      21315         44588
    10      20307         42547
    12      19305         53706
    16      23392         59097
    12      20726         50024
    11      18192         52243
    12      18686         55485
    13      18228         61619
    11      14883         63858
    17      18593         78997
    12      16425         63123

Здесь номер юнита, количество найденных в нём кортежей, время счёта в миллисекундах, скорость (кор/сут).

Затем я сверяю что все 120 юнитов посчитались, причём убеждаюсь, что они все разные и считаю по этому файлу другую стату, учитывая что потоки работали одновременно:

Код:

#vnun =             120
#vecsort(vnun,,8) = 120
#Set(vnun)        = 120

    12     360      1415     204    564     601768

То, что кортежи находятся именно одни и те же, пока не проверяю.

Dmitriy40 в сообщении #1725499 писал(а):

Ещё грубо потому что не проверили (или во всяком случае не указали) частоту ядер в разных вариантах,

Забыл где это смотреть.

DemISdx в сообщении #1725507 писал(а):

И что он использует (с включенным гипертреадингом) формулу: ("общее число ядер") - (1 ядро).
Тогда оставшегося ядра хватает на нормальную работу самой ОС Виндовс, при тяжелых расчетах, естественно.

Это в последний год Вы так делали.

А раньше (года три назад), помнится, что Вы попробовали какой-то перегруз (если не нравится слово гипертрейдинг) типа моего, то есть запускали потоки в количестве больше номинала и это давало выигрыш в скорости.

Dmitriy40 · 04.06.2026, 19:54

Yadryara в сообщении #1725516 писал(а):

Забыл где это смотреть.

Самое простое - в диспетчере задач на закладке производительность в подробном варианте показа.

DemISdx · 04.06.2026, 20:11

Yadryara в сообщении #1725516 писал(а):

А раньше (года три назад), помнится, что Вы попробовали какой-то перегруз (если не нравится слово гипертрейдинг) типа моего, то есть запускали потоки в количестве больше номинала и это давало выигрыш в скорости.

Что-то я сомневаюсь на счет выигрыша.
Наоборот, если правильно помню, это специально тестировал, чтобы показать, что идет просадка по времени.
Насыщение процессора исполняемым кодом всегда узкое место в нагруженных приложениях.

(Оффтоп)

И мало что изменилось за 20-ть лет, вот неплохой сборник по технологиям ЦПУ от 2006 года https://osp.ru/os/2006/06/2700454
Обратите внимание там: "логика SMT занимает 24% процессорного ядра Power5"
и "Xeon для многопоточности используется только 5% кристалла"
Насколько помню SMT в AMD пришла именно от IBM, со своими нюансами.

Правда и новинки появляются:
https://www.ittelo.ru/news/ibm-power11-obzor-arkhitektury-novogo-protsessora/

Т.е. SMT это может быть и 4-ре потока на ядро и 8-мь...
У Интела только два...

Dmitriy40 · 04.06.2026, 21:43

DemISdx в сообщении #1725524 писал(а):

Что-то я сомневаюсь на счет выигрыша.

Выигрыш может быть св случае если процесс ждёт кого-то сильно внешнего, причём внутри вызова функции ОС - т.е. это не память и не кэш, это на уровне внешних устройств, когда ожиданием управляет планировщик ОС. Только в таком случае планировщик может запустить больше потоков чем доступно аппаратно, а остальные при этом молча ждут пока сработают внешние устройства (диск, видео, сеть, клава/мышь).
В принципе такое может происходить при переполнении физической памяти (не выделенной, а именно записанной/используемой), когда процесс ждёт подкачки страницы с диска, может в этом дело.

DemISdx в сообщении #1725524 писал(а):

У Интела только два...

Не совсем, в ускорителях Xeon Phi на базе x86 используется 4 потока на ядро. Но это довольно специализированное устройство.

DemISdx · 05.06.2026, 16:42

Dmitriy40 в сообщении #1725529 писал(а):

Выигрыш может быть св случае если процесс ждёт кого-то сильно внешнего, причём внутри вызова функции ОС - т.е. это не память и не кэш, это на уровне внешних устройств, когда ожиданием управляет планировщик ОС. Только в таком случае планировщик может запустить больше потоков чем доступно аппаратно, а остальные при этом молча ждут пока сработают внешние устройства (диск, видео, сеть, клава/мышь).

Сложно сказать однозначно.

(Оффтоп)

Код:

last pid: 96702;  load averages:  1.27,  1.22,  1.18                                                                up 69+00:39:12  16:32:37
96 processes:  2 running, 94 sleeping
CPU 0: 11.0% user,  0.0% nice,  0.4% system,  0.0% interrupt, 88.6% idle
CPU 1: 39.8% user,  0.0% nice,  0.0% system,  0.0% interrupt, 60.2% idle
CPU 2: 32.3% user,  0.0% nice,  0.0% system,  0.0% interrupt, 67.7% idle
CPU 3: 17.7% user,  0.0% nice,  0.0% system,  0.4% interrupt, 81.9% idle
Mem: 1511M Active, 805M Inact, 273M Wired, 110M Cache, 85M Buf, 289M Free
Swap: 16G Total, 22M Used, 16G Free

  PID USERNAME       THR PRI NICE   SIZE    RES STATE   C   TIME    WCPU COMMAND
93268 c_icap          12  20    0 11908K  2572K select  0   0:00   0.00% c-icap
96691 c_icap          12  20    0 11908K  2484K lockf   0   0:00   0.00% c-icap
96692 c_icap          12  20    0 11908K  2484K lockf   0   0:00   0.00% c-icap
 2989 root             7  20  -15 64596K 54412K select  1 148:01   0.00% ipcad
 2806 bind             7  20    0   136M 88112K kqread  1  56:29   0.00% named
 3034 clamav           6  20    0 95860K  5360K uwait   0   0:49   0.00% clamav-milter
 2951 root             5  20    0 96268K 16900K uwait   1   1:07   0.00% spamass-milter
87315 clamav           3  20    0  1028M   970M uwait   3  13:08   0.00% clamd

Как видим четыре ядра а потоков в столбце THR много.
Тот-же bind может легко по нагрузкой доходить до 27-40 потоков...
Столбец С это ядро.

Intel Core i3-540 - это процессор начального уровня, выпущенный в начале 2010 года на базе микроархитектуры Nehalem (ядро Clarkdale). Имеет 2 ядра, 4 потока, работает на частоте 3,07 ГГц (фактически 3,066 ГГц) и оснащен встроенной графикой Intel HD.
OS 32-ух битная, хотя само по себе железо полностью х64.

Dmitriy40 в сообщении #1725529 писал(а):

в ускорителях Xeon Phi
на базе x86 используется 4 потока на ядро.

Прикольно. Не знал. Спасибо!

Yadryara · 06.06.2026, 09:48

Перешёл всё-таки к 8-кам. Сейчас пока таблицы не показываю, любопытный момент хочу отметить.

Ох уж эта ваша хвалёная ECM-ка. Понадобилось мне разложить частное от 23988512225629379739350400930984537953830696646654, это кандидат на 6-е место в цепочке из 8 чисел.

И ... my_ecm с настройками 1,1,80 почему-то выдала результат не

resecm = 339103; cha/resecm = 256630532478188287569313945430673509

, а

resecm = 1222831898214167; cha/resecm = 71166105154798351225974781

То бишь вместо всего лишь 6-значного фактора 339103 или даже 10-значного фактора 3606078089, был найден 16-значный фактор

339103 \cdot 3606078089 = 1222831898214167

.

Как говорится "... и узлом завязал на спине".

Алгоритм Полларда с настройками 1,1000 нашёл самый маленький фактор правильно:

res[3] = 339103; res[4] = 256630532478188287569313945430673509

Dmitriy40 · 06.06.2026, 11:43

Yadryara в сообщении #1725570 писал(а):

То бишь вместо всего лишь 6-значного фактора 339103 или даже 10-значного фактора 3606078089, был найден 16-значный фактор

339103 \cdot 3606078089 = 1222831898214167

.

Да, такое бывает. И с ECM, и с Поллардом.
Зато Z_ECM(87024183454951082879617066837377678922427,2,1,10) вполне себе находит делитель 339103. Как и с параметрами 1,5,80 (и вообще с любым 4<seed<240, кроме seed=100,101, с которыми находит второй делитель). После чего уже с параметрами 1,1,70 находит и второй небольшой делитель. Говорил же надо запускать несколько раз с разными B1 (не сразу 80, а сначала 10 или сколько не жалко), ровно как с factor(x,2^15) делали.

-- добавлено через 53 минуты --

И кстати, ведь делителей меньше 2^20 оставаться вообще не должно ...

-- добавлено через 17 минут --

Да и повторный вызов Z_ECM(1222831898214167,1,1,80) (и хоть B1=10) вполне себе находит первый делитель.

Yadryara · 06.06.2026, 14:20

Dmitriy40 в сообщении #1725572 писал(а):

И кстати, ведь делителей меньше 2^20 оставаться вообще не должно ...

Ещё как должны. Смотрим табличку:

Yadryara в сообщении #1724395 писал(а):

Код:

6-поточный счёт

Кортеж         Серия   Обсчитано   2^   n от   Найдено     Время   Милсек/   Скорость    Падение 
                       паттернов        0 до   D(192,L)   секунд   паттерн   корт/сут   скорости

D(192, 7)   1-0- 6-0         360   17   1e43      1464       522      1449     242526
D(192, 8)   1-0- 7-0         180   18   1e50       160       283      1567      49011        4.9

4-я колонка: для 8-к предпростые берутся до

2^{18}-2

. 5-я колонка: числа не более чем 50-значные.

Dmitriy40 в сообщении #1725572 писал(а):

Да и повторный вызов Z_ECM(

Повторные вызовы, как совсем недавно было установлено, в общем случае неэффективны. Надо как-то так подбирать параметры и алгоритм, чтобы максимально эффективно находить маленький фактор как можно быстрее.

Dmitriy40 · 06.06.2026, 14:58

Yadryara в сообщении #1725581 писал(а):

Повторные вызовы, как совсем недавно было установлено, в общем случае неэффективны.

Для разложения найденного составного делителя (именно в этом смысле повторный) - вполне эффективны (размер делителя обычно сильно меньше размера исходного числа).
Т.е. нахождение делителя зависит не только от rounds,seed,B1, но и от самого числа (первый вызов не нашёл, идентичный второй для меньшего числа находит).

wrest · 06.06.2026, 15:16

Yadryara в сообщении #1725570 писал(а):

Ох уж эта ваша хвалёная ECM-ка.

Yadryara в сообщении #1725570 писал(а):

И ... my_ecm с настройками 1,1,80 почему-то выдала результат не

Так вы ж советов не слушаете

wrest в сообщении #1724645 писал(а):

Вообще B1 меньшие 100 это дичь какая-то

Там должен трудиться Поллард.

-- добавлено через 2 минуты --

Yadryara в сообщении #1725581 писал(а):

Ещё как должны.

Для мелких делителей (до 2^20..2^22) самый быстрый способ их найти -- перебор.

Научный форум dxdy

Как писать быстрые программы