Řada GPU Instinct od AMD se stává populární v komunitě výpočetní techniky a umělé inteligence. Zde je důvod.
Není pochyb o tom, že NVIDIA nadále dominuje paralelnímu výpočetnímu prostoru se svými různými populárními řadami GPU. Ale s akcelerátory Instinct AI od AMD, které vybavují dva nejnovější a největší superpočítače (Frontier a El Capitan) a rostoucí podpora komunity pro jejich open-source platformu ROCm, NVIDIA možná našla svého největšího soupeře.
Co přesně jsou tedy akcelerátory Instinct AI od AMD? Čím jsou výkonní a jak si stojí ve srovnání s GPU Tensor od NVIDIA?
Co je to procesor AMD Instinct?
Procesory AMD Instinct jsou podnikový hardware používaný pro vysoce výkonné výpočty (HPC) a zpracování akcelerované umělou inteligencí. Na rozdíl od běžných GPU pro spotřebitele jsou GPU Instinct specializované tak, aby lépe zvládaly učení AI a další vysoce výkonné úkoly prostřednictvím inovací softwaru a hardwaru.
K napájení prvního superpočítače, který prolomil bariéru Exascale, byla použita řada grafických procesorů AMD Instinct s výkonem 1,1 EFLOP při operacích s dvojnásobnou přesností za sekundu. Superpočítače využívající GPU Instinct se v současnosti využívají k výzkumu léčby rakoviny, udržitelné energie a klimatických změn.
Jak procesory Instinct zrychlují AI a HPC
Pro nejvýkonnější mainstreamové servery a superpočítače na světě k dosažení zpracování na úrovni Exascale musely být akcelerátory AMD Instinct vybaveny několika technologickými upgrady a inovacemi.
Pojďme diskutovat o některých nových a aktualizovaných technologiích používaných na GPU AMD Instinct.
1. Vypočítat DNA (CDNA)
Nedávné akcelerátory AMD Instinct (počínaje MI100) využívaly firemní architekturu CDNA.
CDNA se primárně zaměřuje na funkce, jako je paralelní zpracování, hierarchie paměti a optimalizovaný výpočetní výkon prostřednictvím technologie Matrix Core. Dokonce i HPC a AI nebo strojové učení, které běží na jednotlivých serverech, může být podporováno CDNA, stejně jako obrovské počítače Exascale.
Technologie Matrix Core od AMD urychluje učení AI podporou operací se smíšenou přesností. Schopnost počítat s různou přesností umožňuje GPU Instinct efektivně vypočítat maticové operace na základě potřebné úrovně přesnosti.
Mezi nejoblíbenější formáty s přesností výpočtu patří FP64, FP32, FP16, BF16 a INT8. FP je zkratka pro Floating Point, BF pro Brain Floating Point a INT pro Integer. Čím vyšší číslo odpovídá formátu, tím přesnější je výpočet. Operace v 64bitové verzi je známá jako dvojitá přesnost. U 32bitů je to s jednoduchou přesností, u 16bitů s poloviční přesností a tak dále.
Vzhledem k tomu, že velká část trénovacích modelů hlubokého učení nevyžaduje přílišnou přesnost, schopnost vypočítat matici operace s poloviční přesností nebo dokonce čtvrtinovou přesností pro odvození výrazně snižují pracovní zátěž, a tím zrychlují AI učení se.
2. Paměť s vysokou šířkou pásma (HBM)
Každý akcelerátor AMD Instinct AI je dodáván s až 880 maticovými jádry. Vzhledem k tomu, že procesory AMD Matrix Core dokážou provádět 383 TFLOPs výpočtů s poloviční přesností, je potřeba mít ultrarychlou paměť. Nejnovější nabídky AMD Instinct jsou vybaveny High Bandwidth Memory (HBM) namísto obvyklé DDR4 nebo DDR5 RAM.
Na rozdíl od konvenční paměti používá HBM to, co je známé jako 3D skládaná architektura. Tento typ architektury odkazuje na designový přístup, kde jsou matrice DRAM vertikálně naskládány na sebe. To umožňuje, aby se raznice stohovaly na vertikální i horizontální ose, proto se nazývá 3D stohování.
Díky této technologii 3D stohování mohou mít HBM kapacitu fyzické paměti až několik stovek gigabajtů na modul, zatímco DRR5 může mít pouze desítky gigabajtů na modul. Kromě kapacity je také známo, že HBM mají vyšší výkon z hlediska přenosové rychlosti a lepší energetické účinnosti než běžné paměti DDR.
3. Tkanina Infinity
Další inovací obsaženou v GPU Instinct je technologie Infinity Fabric od AMD. Infinity Fabric je typ propojovacího systému, který chytrým dynamickým způsobem propojuje CPU a GPU. To umožňuje komponentám mezi sebou efektivně komunikovat.
S Infinity Fabric se nyní komponenty místo spojování komponent s běžnou sběrnicí spojují do sítě podobné síťovině, kde může být šířka pásma až několik stovek gigabajtů za sekundu.
Kromě síťového propojení používá Infinity Fabric také senzory zabudované v každé kostce k dynamickému řídit frekvenci, rychlosti přenosu dat a další adaptivní chování, optimalizovat výkon a minimalizovat latence.
4. Vývojová platforma ROCm
CUDA (compute unified device architecture) společnosti NVIDIA je nejrozšířenější vývojovou platformou pro trénování modelů umělé inteligence. Problém s CUDA je, že funguje pouze s GPU NVIDIA. To je jeden z hlavních důvodů, proč má NVIDIA drtivou většinu podílů na trhu s akcelerátory HPC a AI GPU.
Protože AMD chtělo získat větší kus trhu HPC a AI, muselo vyvinout vlastní platformu ROCm (Radeon Open Compute). ROCm je softwarová platforma s otevřeným zdrojovým kódem, která umožňuje používat GPU Instinct jako akcelerátory AI.
Ačkoli není nutně součástí hardwaru Instinct, ROCm je zásadní, pokud jde o přežití řady GPU Instinct. S ROCm, vývojáři a výzkumníci získají nástroje ROCm, kompilátor, ovladače jádra, celou řadu knihoven a přístup k rámcům, jako jsou TensorFlow a PyTorch, které mohou vyvíjet se svými přednostně programovací jazyk AI.
Jak se Instinct AI Accelerators porovnávají s Radeon GPU AI Accelerators?
AMD nabízí svou řadu GPU Instinct pro podniky a GPU Radeon pro běžné spotřebitele. Jak již bylo zmíněno dříve, Instinct GPU využívá architekturu CDNA od AMD, HBM a propojení Infinity Fabric. Naopak Radeon využívá architekturu RDNA od AMD, paměti DDR6 a Infinity Cache.
Ačkoli jsou akcelerátory AI méně schopné, řada Radeon akcelerátorů AI stále obsahuje jedno nebo dvě akcelerační jádra AI na výpočetní jednotku. Poslední GPU Radeon RX7900 XT má dvě akcelerační jádra AI na výpočetní jednotku, což umožňuje 103 TFLOPs špičkové poloviční přesnosti a 52 TFLOPs špičkových výpočtů s jednoduchou přesností.
Zatímco řada GPU Instinct je vhodnější pro LLM a HPC, akcelerátory Radeon AI lze použít pro jemné ladění předem trénovaných modelů, odvození a graficky náročné úlohy.
AMD Instinct vs. NVIDIA Tensor
Podle a Průzkum TrendForceNVIDA má 80% podíl na trhu serverových GPU, zatímco AMD má pouze 20%. Tento ohromující úspěch společnosti NVIDIA je způsoben tím, že jde o společnost, která se specializuje na návrh a montáž GPU. To jim umožňuje navrhovat výrazně výkonnější GPU, které nemají obdoby v jiných nabídkách.
Porovnejme Instinct MI205X od AMD a H100SXM5 od NVIDIA pomocí specifikací z Oficiální stránky AMD a Vlastní datasheet NVIDIA:
Model GPU |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Instinct MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Jak můžete vidět v tabulce, AMD MI250X funguje lépe, pokud jde o dvojnásobnou přesnost a poloviční přesnost výpočty, zatímco NVIDIA H100SXMS je mnohem lepší, pokud jde o matici s poloviční přesností a čtvrtinovou přesností výpočty. Díky tomu je AMD MI250X vhodnější pro HPC, zatímco NVIDIA H100SXMS s učením a inferencí AI.
Budoucnost procesorů Instinct od AMD
Ačkoli nejnovější nabídka AMD, MI250X, je navržena pro HPC, jejich nadcházející MI300 je více zaměřena na školení AI. Tento akcelerátor AI je oznámen jako APU, kombinující GPU a CPU v jednom balíčku. To umožňuje MI300 používat jejich architekturu CNDA3 Unified Memory APU, kde GPU a CPU budou používat pouze jednu paměť, což zvyšuje efektivitu a snižuje cenu.
Ačkoli AMD nebude dnes na trhu s akcelerátorem AI soutěžit s NVIDIA, jakmile bude MI300 uveden na trh a ROCm se stane vyleštěná, řada Instinct od AMD by mohla být dost dobrá na to, aby ukořistila významnou část trhu s akcelerátory AI. NVIDIA.