Закон Мура не скоро исчерпает себя?

GAA · 12/07/07 4549

bondkim137 в сообщении #1670395 писал(а):

Для задач ИИ - есть линейка Tesla, на них наоборот подрезано все остальное, нужна лицензия vGPU что б можно было ее увидеть,

Весной 2020 Nvidia отказалась от «слова» Tesla в наименовании продуктов (см., например, на ixbt). Т.е. выполняя поиск по слову Tesla мы будем получать ссылки на страницы с устаревшими устройствами. Вроде бы первоначально линейка Tesla была ориентирована не на ИИ, а вообще на вычисления (решение систем уравнений и т.п.). [Более того, в ранних моделях линейки Tesla вообще не было вывода на монитор.] Разве не так?

Upd Судя по слухам и обрывочным сообщениям в Сети, охлаждение становится критическим важным при 3D компоновке. В 3D Zen 5 (AMD Ryzen X 9YY0X3D: Ryzen 9 9950X3D, Ryzen 7 9800X3D, … ) кристалл с кэшем положили ниже вычислительного кристалла вроде для лучшего охлаждения. Предыдущие поколения 3D процессоров AMD (с кристаллом кэша сверху) имели частоты слегка ниже аналогичных процессоров без дополнительного кэша третьего уровня. В последнем поколении разница в частоте возможно уменьшится.

Изначально микроканальное охлаждение было скорее перспективными научно-исследовательскими проектами, чем готовым к применению комплексом технологий. В Сети было много новостных заметок, но я не сохранял ссылки и сходу нашел только довольно поверхностную заметку
Roger A. Горячий интерес к новейшим методам охлаждения// (электронный журнал) Радиолоцман. – 2014. – вып. 1.

По поводу «кровеносной системы мозга» можно посмотреть в
R. van Erp, R. Soleimanzadeh, L. Nela, G. Kampitsis & E. Matioli Co-designing electronics with microfluidics for more sustainable cooling. // Nature (2020), Vol 585, P. 211–216. https://doi.org/10.1038/s41586-020-2666-1.
[Понятно, что это более важно для Дата-Центров и суперкомпьютеров.]

GAA · 12/07/07 4549

zykov в сообщении #1657487 писал(а):

А какая разница?
И сейчас на большую плату можно много чипов напаять. Только сколько за все эти чипы заплатить придется?

Вроде очевидно: скорость обмена данными между сокетами ниже скорости обмена между (разными) плитками/чиплетами одного сокета (а последняя ниже скорости обмена между ядрами одной плитки/чиплета). Разве не так?

Dmitriy40 · 20/08/14 12227 Россия, Москва

Дело не только в скорости обмена, есть задачи и с низкой скоростью обмена, тут есть и другой фактор: взять 1000 отдельных оттестированных чипов, напаять их на плату и оттестировать готовое изделие - может оказаться дешевле попыток изготовить пластину с 1000 годными чипами. По современным техпроцессам выход годных ещё не настолько высок чтобы такие пластины получались массово, а городить схемы отключения и обхода отдельных чипов на пластине ... можно, но увеличивает размер каждого чипа и сложность проектирования и изготовления. В видеокартах примерно так и делают, когда могут отключить сразу группу ядер (один CU) если вдруг в нём где-то ошибка, и продать как менее дорогое изделие, а не выбрасывать целиком. С процами тоже делали (отключение части ядер по итогам тестирования кристалла), сейчас точно не знаю. Точных цифр брака я не знаю, помнится он выше единиц процентов, а на передовых техпроцессах и за десяток процентов (пруфов не имею). Т.е. изготовить полностью годную платину из сотен чипов - скорее чудо. Причём хотя ошибки и тяготеют к краям пластины, но не локализованы лишь там, могут быть (и реально будут) где угодно.

Надо вообще понимать что массовый рынок живёт совсем по другим законам, не всегда описываемым только физикой (и только экономикой). Именно массовый, отдельные уникальные экземпляры можно сделать намного лучше массовых - но и цена у них будет уникальная.

GAA · 12/07/07 4549

Да, с одной стороны скорость обмена, а если скорость обмена не критична, то компактность [, а если и компактность не критична, то потребление энергии], а с другой стороны — цена. Большие плитки дороги, поэтому сначала AMD, затем Intel, а потом и NVidia переходят к многопроцессорным сборкам [другими словами — многочиплетым (AMD), многоплиточным (Intel)]. По мере совершенствования техпроцессов будет расти количество ядер на чиплет/плитку. Например, первоначально у AMD было 4 ядра (точнее CCX содержал 4 ядра, а кристалл 8), сейчас, в основном, 8 и есть с 16 ядрами. Ясно, что чем больше ядер в одном чиплете — тем выше скорость обмена между ними [меньше обмена с другими чиплетами].
Вообще, блочный подход позволяет облегчить разработку разнообразных изделий. Нужен более мощный процессор — вставили больше вычислительных чиплетов/плиток.

Однако увеличение задержек портит всю малину. В Zen4 был не самый хороший IO чиплет (в котором, в частности, сидит контролер памяти). В 9 поколении Ryzen (с вычислительными ядрами Zen 5) IO чиплет из предыдущего поколения. Пропускной не хватает/задержки много портят. Первоначально AMD специально снизила частоты и стоимость, но народ не особо побежал в магазины за 9 поколением. Короче — это был провал. Немного исправили ситуацию Zen5 с 3D кэшем. (Кеш 3 уровня стоит на вычислительных чиплетах и увеличение его объёма слегка нивелирует недостатки IO.) Но даже если бы AMD и выпустила Ryzen 9 с новым IO чиплетом, то все рано задержки бы были выше, чем у процессоров на одном кристалле.

Уже более 20 лет серверные процессоры и процессоры для персоналок настольных/ноутбучных (по крайней мере, их производительного подмножества) — это по сути одни и те же процессоры, практически с одной архитектурой. У AMD это более явно, у Intel — менее явно (Intel больше выпускает процессоров — может и пострадать с разнообразием).
В частности 6 и 8 ядерные [настольные] Ryzen помимо одного вычислительного чиплета содержат IO чиплет как и 12/16 ядерные (в которых два вычислительных чиплета). Другой пример --- внедрение новых версий PCI. Они более востребованы на серверном рынке, но уже несколько поколений одновременно (в смысле поколений, не дат начала продаж) выходят и для настольных, и для серверных. Короче, массовый рынок он же и практически весь рынок. Остальное — экспериментальные изделия.

TSMC, конечно, продвигает свою технологию создания процессора на целую пластину, но это, действительно, слишком дорого. С переходом на диаметр пластин 450 мм размер плитки может увеличится, но вот переход отложили и когда начнут не известно. Поэтому до [монолитной] «надгробной плиты» в ближайшие десятки (а скорее всего и сотни лет) отрасль не доберётся. Но и из 450 мм пластин было бы очень достойно.

Upd Даже при чиплетной организации нужны подложки большого диаметра, в общем случае, размера. Нужно же на что-то лепить чиплеты. Использование подложек более 300 мм диаметра, конечно не так чудовищно сложно [как изготовление чиплетов/плиток на 450 мм пластинах], но всё же...

-- Sat 18.01.2025 20:44:42 --

Rasool в сообщении #1657365 писал(а):

Сейчас плотность интеграции элементов в микросхемах достигает около 5 нм. Тактовая частота микропроцессоров достигла свыше 3 ГГц. Сейчас это вроде бы уже на уровне исчерпания.

Если говорить о маркетинговых названиях техпроцессов, то не 5 нм, а 3 и 4 нм. [Да и частоты на настольных свыше 5ГГц. ] Но как и писал realeugene, это очень условные нанометры. И уже говорят о 2нм, 18А и 16A. High-NA EUV отодвинет границу коммерчески выгодных чипов. Также 2.5D и 3D (если решаться проблемы тепловыделения/энергопотребления). В общем до 2030 года есть на что надеяться.

Dmitriy40 · 20/08/14 12227 Россия, Москва

Уточню: размер пластины не главное, техпроцесс важнее, даже на 450мм пластине но по техпроцессу на 3-4 поколения старше (скажем по 22нм или лучше по 45нм) вполне может оказаться лишь пара дефектов где-нибудь с краю. Важна отработанность техпроцесса, а уж на каких пластинах дело третье. Но обычно новые пластины используют и с новыми техпроцессами (со старыми и так всё хорошо, а новые продукты продаются дороже и выгоднее), потому появляется зависимость от размера пластины, но это так сказать несколько "ложная" зависимость.

А для более корректного сравнения прогрессивности разных техпроцессов можно использовать не абстрактные нм, а плотность, (эквивалентных) транзисторов на квадратный сантиметр. Про частоты это ничего не скажет, а вот про стоимость готовых чипов вполне.

bondkim137 · 07/02/12 1446 Питер

GAA в сообщении #1670446 писал(а):

Вроде бы первоначально линейка Tesla была ориентирована не на ИИ, а вообще на вычисления (решение систем уравнений и т.п.). [Более того, в ранних моделях линейки Tesla вообще не было вывода на монитор.] Разве не так?

Там примерно такая картина: NVIDIA создавала очередную новую архитектуру, и на ней выпускала линейку ускорителей, которые можно условно разделить на три типа: consumer, professional и datacenter. Первые - геймерские, вторые для использования в рабочих целях, но на рабочих станциях: в отличие от геймерских они, как правило, имеют больше видео-выходов, ниже частоты, значительно холоднее, а также без ограничений в драйверах. Третьи ставились в сервера, и соответственно, не имели выходов вообще. И обычно требовали покупки доп. лицензий для своих драйверов, но зато поддерживали виртуализацию.

Наример:
- поколение Pascal:
GTX 1060 - геймерская
Quadro P2000 - профессиональная
Tesla P100 - серверная

- поколение Turing:
GTX 1660, 2060 - геймерские
Quadro RTX 4000 - профессиональная
Tesla T4 - серверная

- поколение Ampere:
RTX 3060 - геймерская
RTX A4000 - профессиональная
NVIDIA A100 - серверная

- поколение Ada:
RTX 4090
NVIDIA RTX 4000 SSF Ada
NVIDIA L40

Более ранние поколения не изучал, т.к. не занимался тогда GPU. И самые последние пока тоже, т.к. они неадекватно дорогие. Maxwell разве что попадались - это самые первые GPU, поддерживающие современные API, но они слишком медленные.
Забавный факт, что в Pascal произошел значительный прорыв в производительности. Настолько значительный, что в следующем поколении Turing были вдвое зарезаны по производительности ядра Multimedia - что б жизнь медом не казалась. До сих пор если захотите сделать видео-транскодер, то по цена/качество выгоднее всего использовать Quadro P1000. Только недавно Intel создал достойного конкурента - Arc A310/380

Что касается задач ИИ - то скачок начался с введения аппаратной поддержки тензорных вычислений (быстрого умножения матриц) в полноценном поколении Turing. Технически это можно делать и на геймерских картах, но делают это обычно на DC (серверных) ускорителях в следствие иных причин (в облачных сервисах проще организовывать использование 24/7, балансировку загрузки, защищать свой софт).

мат-ламер · 30/01/09 7437

bondkim137 в сообщении #1672590 писал(а):

Закон Мура не скоро исчерпает себя?

Если вернуться к стартовому вопросу, то у меня сложилось мнение, что закон Мура себя исчерпал. В классической формулировке он гласит, что каждые два года происходит удвоение мощности микропроцессоров. Сейчас такого уже нет. Можно проиллюстрировать на примере обсуждаемых выше видеокарт. Видеокарта RTX 4090 имеет 76 млрд транзисторов (в главном чипе). Пришедшая ей на смену через два года с небольшим RTX 5090 имеет 92 млрд транзисторов. Да, прогресс есть. Но он идёт уже не по экспоненте. В области миниатюризации подобрались практически к пределу. Вряд ли удастся радикально уменьшить размеры транзисторов. Вряд ли в рамках существующей технологии удастся радикально уменьшить энергопотребление процессоров. Тем не менее, потребность в вычислительных мощностях всё растёт и растёт. Может быть термояд поможет справиться с энергетическими потребностями? Я слышал, китайцы уже могут удерживать плазму в десятки миллионов градусов в течении 15 секунд (за точность не ручаюсь). И атомные реакторы на быстрых нейтронах они тоже развивают.

bondkim137 · 07/02/12 1446 Питер

мат-ламер в сообщении #1672746 писал(а):

Видеокарта RTX 4090 имеет 76 млрд транзисторов (в главном чипе). Пришедшая ей на смену через два года с небольшим RTX 5090 имеет 92 млрд транзисторов. Да, прогресс есть. Но он идёт уже не по экспоненте

Хуже. Они обе сделаны по технологии 5 нм, в 5090 засунули больше элементов и немного понизили частоту. Стало на треть больше памяти. Заявленая производительность выросла на 25%, пропускная способность памяти - на 75%, потребляемая мощность - на 25%. Но 3D-бенчмарки пока показывают только 5% прирост - возможно, движки тоже требуют оптимизации под новую архитектуру. В общем, это совсем не про закон Мура.
5090 vs 4090

GAA · 12/07/07 4549

GAA в сообщении #1670692 писал(а):

В общем до 2030 года есть на что надеяться.

Алексей Разин в заметке TSMC построит огромный комплекс фабрик для выпуска 1-нм чипов на юге Тайваня [3dnews] писал(а):

Три первые фазы Fab 25 будут ориентированы на выпуск 1,4-нм чипов и появятся в первую очередь, позднее будут достроены ещё три корпуса, в которых со временем будет освоен выпуск 1-нм чипов. Если же TSMC ускорит освоение техпроцессов в этом диапазоне, то три первых предприятия на площадке Fab 25 сразу начнут выпуск 1-нм продукции, а три последующих будут специализироваться уже на 0,7-нм. В южной части острова TSMC располагает предприятиями, выпускающими 5-нм и 3-нм продукцию, часть из них в дальнейшем также может быть переориентирована на работу с 1-нм и 0,7-нм технологиями.

Alex_Esh заметке Новые техпроцессы Intel 20A, 18A и 14A: что уже известно [DNS кдуб] писал(а):

Последний техпроцесс Intel, который упоминался ее представителями — Intel 10A. Информации о нем пока немного. Известно, что тестовое производство стартует в конце 2027 года, а готовые продукты появятся не раньше 2028-го.

[Что-то излишне оптимистично. Однако, готовностью 18A руководство Intel публично довольно (хотя по утечкам в Сети выход годных на декабрь 2024 крайне низок), а 20A Intel вроде решила пропустить.]
У TSMC, по слухам, проблемы решаемые: Всё идёт по плану: пробный выпуск 2-нм чипов для Apple оказался успешным. [Новость от 9 декабря 2024 на ixbt].

bondkim137 в сообщении #1670395 писал(а):

Для геймеров. [GAA — это о 5090]

В моделях xx90 памяти больше, чем нужно для игр. Вроде, эти модели позиционируют как: и поиграть, и поработать. А для 4k, в основном, 4080 почти хватало, а 5080 тем более; даже в 8k можно как-то поиграть: Обзор видеоускорителя Nvidia GeForce RTX 5080 на основе карты Palit GameRock RTX 5080 (16 ГБ) [ixbt, 3 февраля 2025].

bondkim137, вопрос: на чём лучше учиться программировать (численные расчёты) GPU? На игровой, или сразу брать Tesla на PCIe-16x. Что будет потеряно? Можно взять Pascal (они по цене терпимые, но чего в них нет [кроме устаревшей версии PCIe])? И почему «серверные»? [Вроде, если на PCIe-16x, то можно в обычную персоналку вставить.] Есть ли какие-то страницы в сети / статьи / книги с инфой?

bondkim137 · 07/02/12 1446 Питер

GAA в сообщении #1672936 писал(а):

bondkim137, вопрос: на чём лучше учиться программировать (численные расчёты) GPU? На игровой, или сразу брать Tesla на PCIe-16x. Что будет потеряно? Можно взять Pascal (они по цене терпимые, но чего в них нет [кроме устаревшей версии PCIe])? И почему «серверные»? [Вроде, если на PCIe-16x, то можно в обычную персоналку вставить.] Есть ли какие-то страницы в сети / статьи / книги с инфой?

Серверные - потому что их принято вставлять в сервера =) Кроме отсутствия видео-выходов, они, как правило, имеют пассивное охлаждение и что б их вставить в персоналку, к ней надо крепить турбину. Вместе с турбиной карта большая, уже не в каждый системник влезет. Я пробовал Tesla P100 с турбиной в персоналке. Пришлось убрать в корпусе стойку для HDD, что б она влезла. На нее ставились DC-драйвера, но в них была только Cuda, без 3D и без Multimedia. Она даже не видна, как графическая карта, а мне нужно было декодировать и обрабатывать видео. Что б увидеть ее как графический ускоритель, нужно vGPU-драйвера было ставить, причем в виртуальную машину, причем драйвера еще и платные, и купить их не так просто, особенно из РФ. Но если надо просто вычислять с помощью Cuda - то пойдет.

Пробовал игровые карты в профессиональных целях - в их драйверах есть искусственные ограничения по multimedia, что б, собственно, их не использовали в профессиональных целях, но они обходятся патчами (и надо еще позаботиться, что б драйвера сами не обновлялись). Вычисления 3D у профессиональных карт тоже более точные, чем у игровых, на уровне драйверов. Но похоже они касаются именно 3D-движка, вокруг vertex/pixel шейдеров (рендеринг, сэмплеры, блендеры). По части ручных вычислений (cuda/direct compute) я с точностью никаких проблем не заметил. Ну и еще остается энергопотребление/охлаждение и занимаемые размеры. На одних и тех же задачах игровые карты потребляют заметно больше, чем профессиональные. В частности, сравнивал тот же Pascal на примере GTX1070 (4Ux2S), Quadro P2000 (4Ux1S) и Quadro P1000 (2Ux1S) помимо Tesla P100

Я в итоге помучался и забил на игровые, остановился на профессиональных. Игровые у детей только стоят в компьютерах (разных вендоров) - периодически для сравнения тоже бывает запускаю там что-нить.

GAA · 12/07/07 4549

bondkim137, спасибо!

мат-ламер в сообщении #1672746 писал(а):

В классической формулировке он гласит, что каждые два года происходит удвоение мощности микропроцессоров. Сейчас такого уже нет

Для игровых нет особой необходимости в росте производительности, а для серверных:
«GPU Blackwell … содержит 208 млрд транзисторов. Для сравнения: GH100 имеет 80 млрд транзисторов. Вторая особенность заключается в том, что GPU Blackwell — это первый многочиповый GPU Nvidia. Он состоит из двух одинаковых кристаллов… Между собой кристаллы соединены шиной NV-High Bandwidth (NV-HBI) с пропускной способностью в 10 ТБ/с. <…> Вокруг GPU размещены восемь стеков памяти HBM3e суммарным объёмом 192 ГБ с 8192-битной шиной и пропускной способностью в невероятные 8 ТБ/с. Производится всё это по техпроцессу 4 нм,..., но это обновлённый техпроцесс TSMC 4NP.» Из новости о «серверных» на ixbt от 19 марта 2024.

Класс 5 нм содержит очень много техпроцессов: N5, N4, N5P, N4P, … Часть из техпроцессов этого класса ещё в плановой разработке. Они отличаются на 5-10% по производительности либо энергопотреблению. (Не сильно отличаются, но не требуется полностью перепроектировать чипы.)

О чипах для игровых
AD102 — N4,
GB102 — N4P.

bondkim137 · 07/02/12 1446 Питер

GAA в сообщении #1672936 писал(а):

В моделях xx90 памяти больше, чем нужно для игр

4090 и 5090 действительно опережают текущие игровые потребности. Но в играх помимо графического рендеринга можно решать задачи по построению реалистичных физических моделей, визуализировать деформации и т.д.. А также применять AI/ML/DL для поведения ботов. Подождем, посмотрим, какие возможности будут предлагать ведущие игровые движки.

GAA · 12/07/07 4549

GAA в сообщении #1673151 писал(а):

GB102 — N4P.

Опечатка. Должно быть: GB202 — N4P.

Научный форум dxdy

Закон Мура не скоро исчерпает себя?

Кто сейчас на конференции