2014 dxdy logo

Научный форум dxdy

Математика, Физика, Computer Science, Machine Learning, LaTeX, Механика и Техника, Химия,
Биология и Медицина, Экономика и Финансовая Математика, Гуманитарные науки




Начать новую тему Ответить на тему На страницу Пред.  1, 2
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение17.01.2025, 13:30 
Заслуженный участник


12/07/07
4539
bondkim137 в сообщении #1670395 писал(а):
Для задач ИИ - есть линейка Tesla, на них наоборот подрезано все остальное, нужна лицензия vGPU что б можно было ее увидеть,
Весной 2020 Nvidia отказалась от «слова» Tesla в наименовании продуктов (см., например, на ixbt). Т.е. выполняя поиск по слову Tesla мы будем получать ссылки на страницы с устаревшими устройствами. Вроде бы первоначально линейка Tesla была ориентирована не на ИИ, а вообще на вычисления (решение систем уравнений и т.п.). [Более того, в ранних моделях линейки Tesla вообще не было вывода на монитор.] Разве не так?

Upd Судя по слухам и обрывочным сообщениям в Сети, охлаждение становится критическим важным при 3D компоновке. В 3D Zen 5 (AMD Ryzen X 9YY0X3D: Ryzen 9 9950X3D, Ryzen 7 9800X3D, … ) кристалл с кэшем положили ниже вычислительного кристалла вроде для лучшего охлаждения. Предыдущие поколения 3D процессоров AMD (с кристаллом кэша сверху) имели частоты слегка ниже аналогичных процессоров без дополнительного кэша третьего уровня. В последнем поколении разница в частоте возможно уменьшится.

Изначально микроканальное охлаждение было скорее перспективными научно-исследовательскими проектами, чем готовым к применению комплексом технологий. В Сети было много новостных заметок, но я не сохранял ссылки и сходу нашел только довольно поверхностную заметку
Roger A. Горячий интерес к новейшим методам охлаждения// (электронный журнал) Радиолоцман. – 2014. – вып. 1.

По поводу «кровеносной системы мозга» можно посмотреть в
R. van Erp, R. Soleimanzadeh, L. Nela, G. Kampitsis & E. Matioli Co-designing electronics with microfluidics for more sustainable cooling. // Nature (2020), Vol 585, P. 211–216. https://doi.org/10.1038/s41586-020-2666-1.
[Понятно, что это более важно для Дата-Центров и суперкомпьютеров.]

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение18.01.2025, 18:28 
Заслуженный участник


12/07/07
4539
zykov в сообщении #1657487 писал(а):
А какая разница?
И сейчас на большую плату можно много чипов напаять. Только сколько за все эти чипы заплатить придется?
Вроде очевидно: скорость обмена данными между сокетами ниже скорости обмена между (разными) плитками/чиплетами одного сокета (а последняя ниже скорости обмена между ядрами одной плитки/чиплета). Разве не так?

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение18.01.2025, 19:50 
Заслуженный участник


20/08/14
11926
Россия, Москва
Дело не только в скорости обмена, есть задачи и с низкой скоростью обмена, тут есть и другой фактор: взять 1000 отдельных оттестированных чипов, напаять их на плату и оттестировать готовое изделие - может оказаться дешевле попыток изготовить пластину с 1000 годными чипами. По современным техпроцессам выход годных ещё не настолько высок чтобы такие пластины получались массово, а городить схемы отключения и обхода отдельных чипов на пластине ... можно, но увеличивает размер каждого чипа и сложность проектирования и изготовления. В видеокартах примерно так и делают, когда могут отключить сразу группу ядер (один CU) если вдруг в нём где-то ошибка, и продать как менее дорогое изделие, а не выбрасывать целиком. С процами тоже делали (отключение части ядер по итогам тестирования кристалла), сейчас точно не знаю. Точных цифр брака я не знаю, помнится он выше единиц процентов, а на передовых техпроцессах и за десяток процентов (пруфов не имею). Т.е. изготовить полностью годную платину из сотен чипов - скорее чудо. Причём хотя ошибки и тяготеют к краям пластины, но не локализованы лишь там, могут быть (и реально будут) где угодно.

Надо вообще понимать что массовый рынок живёт совсем по другим законам, не всегда описываемым только физикой (и только экономикой). Именно массовый, отдельные уникальные экземпляры можно сделать намного лучше массовых - но и цена у них будет уникальная.

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение18.01.2025, 20:54 
Заслуженный участник


12/07/07
4539
Да, с одной стороны скорость обмена, а если скорость обмена не критична, то компактность [, а если и компактность не критична, то потребление энергии], а с другой стороны — цена. Большие плитки дороги, поэтому сначала AMD, затем Intel, а потом и Nvidea переходят к многопроцессорным сборкам [другими словами — многочиплетым (AMD), многоплиточным (Intel)]. По мере совершенствования техпроцессов будет расти количество ядер на чиплет/плитку. Например, первоначально у AMD было 4 ядра (точнее CCX содержал 4 ядра, а кристалл 8), сейчас, в основном, 8 и есть с 16 ядрами. Ясно, что чем больше ядер в одном чиплете — тем выше скорость обмена между ними [меньше обмена с другими чиплетами].
Вообще, блочный подход позволяет облегчить разработку разнообразных изделий. Нужен более мощный процессор — вставили больше вычислительных чиплетов/плиток.

Однако увеличение задержек портит всю малину. В Zen4 был не самый хороший IO чиплет (в котором, в частности, сидит контролер памяти). В 9 поколении Ryzen (с вычислительными ядрами Zen 5) IO чиплет из предыдущего поколения. Пропускной не хватает/задержки много портят. Первоначально AMD специально снизила частоты и стоимость, но народ не особо побежал в магазины за 9 поколением. Короче — это был провал. Немного исправили ситуацию Zen5 с 3D кэшем. (Кеш 3 уровня стоит на вычислительных чиплетах и увеличение его объёма слегка нивелирует недостатки IO.) Но даже если бы AMD и выпустила Ryzen 9 с новым IO чиплетом, то все рано задержки бы были выше, чем у процессоров на одном кристалле.

Уже более 20 лет серверные процессоры и процессоры для персоналок настольных/ноутбучных (по крайней мере, их производительного подмножества) — это по сути одни и те же процессоры, практически с одной архитектурой. У AMD это более явно, у Intel — менее явно (Intel больше выпускает процессоров — может и пострадать с разнообразием).
В частности 6 и 8 ядерные [настольные] Ryzen помимо одного вычислительного чиплета содержат IO чиплет как и 12/16 ядерные (в которых два вычислительных чиплета). Другой пример --- внедрение новых версий PCI. Они более востребованы на серверном рынке, но уже несколько поколений одновременно (в смысле поколений, не дат начала продаж) выходят и для настольных, и для серверных. Короче, массовый рынок он же и практически весь рынок. Остальное — экспериментальные изделия.

TSMS, конечно, продвигает свою технологию создания процессора на целую пластину, но это, действительно, слишком дорого. С переходом на диаметр пластин 450 мм размер плитки может увеличится, но вот переход отложили и когда начнут не известно. Поэтому до [монолитной] «надгробной плиты» в ближайшие десятки (а скорее всего и сотни лет) отрасль не доберётся. Но и из 450 мм пластин было бы очень достойно.

Upd Даже при чиплетной организации нужны подложки большого диаметра, в общем случае, размера. Нужно же на что-то лепить чиплеты. Использование подложек более 300 мм диаметра, конечно не так чудовищно сложно [как изготовление чиплетов/плиток на 450 мм пластинах], но всё же...

-- Sat 18.01.2025 20:44:42 --

Rasool в сообщении #1657365 писал(а):
Сейчас плотность интеграции элементов в микросхемах достигает около 5 нм. Тактовая частота микропроцессоров достигла свыше 3 ГГц. Сейчас это вроде бы уже на уровне исчерпания.

Если говорить о маркетинговых названиях техпроцессов, то не 5 нм, а 3 и 4 нм. [Да и частоты на настольных свыше 5ГГц. ] Но как и писал realeugene, это очень условные нанометры. И уже говорят о 2нм, 18А и 16A. High-NA EUV отодвинет границу коммерчески выгодных чипов. Также 2.5D и 3D (если решаться проблемы тепловыделения/энергопотребления). В общем до 2030 года есть на что надеяться.

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение18.01.2025, 22:04 
Заслуженный участник


20/08/14
11926
Россия, Москва
Уточню: размер пластины не главное, техпроцесс важнее, даже на 450мм пластине но по техпроцессу на 3-4 поколения старше (скажем по 22нм или лучше по 45нм) вполне может оказаться лишь пара дефектов где-нибудь с краю. Важна отработанность техпроцесса, а уж на каких пластинах дело третье. Но обычно новые пластины используют и с новыми техпроцессами (со старыми и так всё хорошо, а новые продукты продаются дороже и выгоднее), потому появляется зависимость от размера пластины, но это так сказать несколько "ложная" зависимость.

А для более корректного сравнения прогрессивности разных техпроцессов можно использовать не абстрактные нм, а плотность, (эквивалентных) транзисторов на квадратный сантиметр. Про частоты это ничего не скажет, а вот про стоимость готовых чипов вполне.

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение03.02.2025, 00:48 
Аватара пользователя


07/02/12
1444
Питер
GAA в сообщении #1670446 писал(а):
Вроде бы первоначально линейка Tesla была ориентирована не на ИИ, а вообще на вычисления (решение систем уравнений и т.п.). [Более того, в ранних моделях линейки Tesla вообще не было вывода на монитор.] Разве не так?

Там примерно такая картина: NVIDIA создавала очередную новую архитектуру, и на ней выпускала линейку ускорителей, которые можно условно разделить на три типа: consumer, professional и datacenter. Первые - геймерские, вторые для использования в рабочих целях, но на рабочих станциях: в отличие от геймерских они, как правило, имеют больше видео-выходов, ниже частоты, значительно холоднее, а также без ограничений в драйверах. Третьи ставились в сервера, и соответственно, не имели выходов вообще. И обычно требовали покупки доп. лицензий для своих драйверов, но зато поддерживали виртуализацию.

Наример:
- поколение Pascal:
GTX 1060 - геймерская
Quadro P2000 - профессиональная
Tesla P100 - серверная

- поколение Turing:
GTX 1660, 2060 - геймерские
Quadro RTX 4000 - профессиональная
Tesla T4 - серверная

- поколение Ampere:
RTX 3060 - геймерская
RTX A4000 - профессиональная
NVIDIA A100 - серверная

- поколение Ada:
RTX 4090
NVIDIA RTX 4000 SSF Ada
NVIDIA L40

Более ранние поколения не изучал, т.к. не занимался тогда GPU. И самые последние пока тоже, т.к. они неадекватно дорогие. Maxwell разве что попадались - это самые первые GPU, поддерживающие современные API, но они слишком медленные.
Забавный факт, что в Pascal произошел значительный прорыв в производительности. Настолько значительный, что в следующем поколении Turing были вдвое зарезаны по производительности ядра Multimedia - что б жизнь медом не казалась. До сих пор если захотите сделать видео-транскодер, то по цена/качество выгоднее всего использовать Quadro P1000. Только недавно Intel создал достойного конкурента - Arc A310/380

Что касается задач ИИ - то скачок начался с введения аппаратной поддержки тензорных вычислений (быстрого умножения матриц) в полноценном поколении Turing. Технически это можно делать и на геймерских картах, но делают это обычно на DC (серверных) ускорителях в следствие иных причин (в облачных сервисах проще организовывать использование 24/7, балансировку загрузки, защищать свой софт).

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение03.02.2025, 17:33 
Заслуженный участник
Аватара пользователя


30/01/09
7167
bondkim137 в сообщении #1672590 писал(а):
Закон Мура не скоро исчерпает себя?

Если вернуться к стартовому вопросу, то у меня сложилось мнение, что закон Мура себя исчерпал. В классической формулировке он гласит, что каждые два года происходит удвоение мощности микропроцессоров. Сейчас такого уже нет. Можно проиллюстрировать на примере обсуждаемых выше видеокарт. Видеокарта RTX 4090 имеет 76 млрд транзисторов (в главном чипе). Пришедшая ей на смену через два года с небольшим RTX 5090 имеет 92 млрд транзисторов. Да, прогресс есть. Но он идёт уже не по экспоненте. В области миниатюризации подобрались практически к пределу. Вряд ли удастся радикально уменьшить размеры транзисторов. Вряд ли в рамках существующей технологии удастся радикально уменьшить энергопотребление процессоров. Тем не менее, потребность в вычислительных мощностях всё растёт и растёт. Может быть термояд поможет справиться с энергетическими потребностями? Я слышал, китайцы уже могут удерживать плазму в десятки миллионов градусов в течении 15 секунд (за точность не ручаюсь). И атомные реакторы на быстрых нейтронах они тоже развивают.

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение03.02.2025, 18:34 
Аватара пользователя


07/02/12
1444
Питер
мат-ламер в сообщении #1672746 писал(а):
Видеокарта RTX 4090 имеет 76 млрд транзисторов (в главном чипе). Пришедшая ей на смену через два года с небольшим RTX 5090 имеет 92 млрд транзисторов. Да, прогресс есть. Но он идёт уже не по экспоненте

Хуже. Они обе сделаны по технологии 5 нм, в 5090 засунули больше элементов и немного понизили частоту. Стало на треть больше памяти. Заявленая производительность выросла на 25%, пропускная способность памяти - на 75%, потребляемая мощность - на 25%. Но 3D-бенчмарки пока показывают только 5% прирост - возможно, движки тоже требуют оптимизации под новую архитектуру. В общем, это совсем не про закон Мура.
5090 vs 4090

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение04.02.2025, 13:00 
Заслуженный участник


12/07/07
4539
GAA в сообщении #1670692 писал(а):
В общем до 2030 года есть на что надеяться.
Три первые фазы Fab 25 будут ориентированы на выпуск 1,4-нм чипов и появятся в первую очередь, позднее будут достроены ещё три корпуса, в которых со временем будет освоен выпуск 1-нм чипов. Если же TSMC ускорит освоение техпроцессов в этом диапазоне, то три первых предприятия на площадке Fab 25 сразу начнут выпуск 1-нм продукции, а три последующих будут специализироваться уже на 0,7-нм. В южной части острова TSMC располагает предприятиями, выпускающими 5-нм и 3-нм продукцию, часть из них в дальнейшем также может быть переориентирована на работу с 1-нм и 0,7-нм технологиями.
Последний техпроцесс Intel, который упоминался ее представителями — Intel 10A. Информации о нем пока немного. Известно, что тестовое производство стартует в конце 2027 года, а готовые продукты появятся не раньше 2028-го.
[Что-то излишне оптимистично. Однако, готовностью 18A руководство Intel публично довольно (хотя по утечкам в Сети выход годных на декабрь 2024 крайне низок), а 20A Intel вроде решила пропустить.]
У TSMC, по слухам, проблемы решаемые: Всё идёт по плану: пробный выпуск 2-нм чипов для Apple оказался успешным. [Новость от 9 декабря 2024 на ixbt].

bondkim137 в сообщении #1670395 писал(а):
Для геймеров. [GAA — это о 5090]
В моделях xx90 памяти больше, чем нужно для игр. Вроде, эти модели позиционируют как: и поиграть, и поработать. А для 4k, в основном, 4080 почти хватало, а 5080 тем более; даже в 8k можно как-то поиграть: Обзор видеоускорителя Nvidia GeForce RTX 5080 на основе карты Palit GameRock RTX 5080 (16 ГБ) [ixbt, 3 февраля 2025].

bondkim137, вопрос: на чём лучше учиться программировать (численные расчёты) GPU? На игровой, или сразу брать Tesla на PCIe-16x. Что будет потеряно? Можно взять Pascal (они по цене терпимые, но чего в них нет [кроме устаревшей версии PCIe])? И почему «серверные»? [Вроде, если на PCIe-16x, то можно в обычную персоналку вставить.] Есть ли какие-то страницы в сети / статьи / книги с инфой?

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение04.02.2025, 16:44 
Аватара пользователя


07/02/12
1444
Питер
GAA в сообщении #1672936 писал(а):
bondkim137, вопрос: на чём лучше учиться программировать (численные расчёты) GPU? На игровой, или сразу брать Tesla на PCIe-16x. Что будет потеряно? Можно взять Pascal (они по цене терпимые, но чего в них нет [кроме устаревшей версии PCIe])? И почему «серверные»? [Вроде, если на PCIe-16x, то можно в обычную персоналку вставить.] Есть ли какие-то страницы в сети / статьи / книги с инфой?

Серверные - потому что их принято вставлять в сервера =) Кроме отсутствия видео-выходов, они, как правило, имеют пассивное охлаждение и что б их вставить в персоналку, к ней надо крепить турбину. Вместе с турбиной карта большая, уже не в каждый системник влезет. Я пробовал Tesla P100 с турбиной в персоналке. Пришлось убрать в корпусе стойку для HDD, что б она влезла. На нее ставились DC-драйвера, но в них была только Cuda, без 3D и без Multimedia. Она даже не видна, как графическая карта, а мне нужно было декодировать и обрабатывать видео. Что б увидеть ее как графический ускоритель, нужно vGPU-драйвера было ставить, причем в виртуальную машину, причем драйвера еще и платные, и купить их не так просто, особенно из РФ. Но если надо просто вычислять с помощью Cuda - то пойдет.

Пробовал игровые карты в профессиональных целях - в их драйверах есть искусственные ограничения по multimedia, что б, собственно, их не использовали в профессиональных целях, но они обходятся патчами (и надо еще позаботиться, что б драйвера сами не обновлялись). Вычисления 3D у профессиональных карт тоже более точные, чем у игровых, на уровне драйверов. Но похоже они касаются именно 3D-движка, вокруг vertex/pixel шейдеров (рендеринг, сэмплеры, блендеры). По части ручных вычислений (cuda/direct compute) я с точностью никаких проблем не заметил. Ну и еще остается энергопотребление/охлаждение и занимаемые размеры. На одних и тех же задачах игровые карты потребляют заметно больше, чем профессиональные. В частности, сравнивал тот же Pascal на примере GTX1070 (4Ux2S), Quadro P2000 (4Ux1S) и Quadro P1000 (2Ux1S) помимо Tesla P100

Я в итоге помучался и забил на игровые, остановился на профессиональных. Игровые у детей только стоят в компьютерах (разных вендоров) - периодически для сравнения тоже бывает запускаю там что-нить.

 Профиль  
                  
 
 Re: Закон Мура не скоро исчерпает себя?
Сообщение05.02.2025, 09:58 
Заслуженный участник


12/07/07
4539
bondkim137, спасибо!

мат-ламер в сообщении #1672746 писал(а):
В классической формулировке он гласит, что каждые два года происходит удвоение мощности микропроцессоров. Сейчас такого уже нет
Для игровых нет особой необходимости в росте производительности, а для серверных:
«GPU Blackwell … содержит 208 млрд транзисторов. Для сравнения: GH100 имеет 80 млрд транзисторов. Вторая особенность заключается в том, что GPU Blackwell — это первый многочиповый GPU Nvidia. Он состоит из двух одинаковых кристаллов… Между собой кристаллы соединены шиной NV-High Bandwidth (NV-HBI) с пропускной способностью в 10 ТБ/с. <…> Вокруг GPU размещены восемь стеков памяти HBM3e суммарным объёмом 192 ГБ с 8192-битной шиной и пропускной способностью в невероятные 8 ТБ/с. Производится всё это по техпроцессу 4 нм,..., но это обновлённый техпроцесс TSMC 4NP.» Из новости о «серверных» на ixbt от 19 марта 2024.

Класс 5 нм содержит очень много техпроцессов: N5, N4, N5P, N4P, … Часть из техпроцессов этого класса ещё в плановой разработке. Они отличаются на 5-10% по производительности либо энергопотреблению. (Не сильно отличаются, но не требуется полностью перепроектировать чипы.)

О чипах для игровых
AD102 — N4,
GB102 — N4P.

 Профиль  
                  
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 26 ]  На страницу Пред.  1, 2

Модераторы: Karan, Toucan, PAV, maxal, Супермодераторы



Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group