GPU Nvidia ušly dlouhou cestu, a to nejen z hlediska herního výkonu, ale také v jiných aplikacích, zejména v umělé inteligenci a strojovém učení. Dva hlavní faktory odpovědné za výkon GPU Nvidia jsou jádra CUDA a Tensor přítomná na téměř každém moderním GPU Nvidia, který si můžete koupit.
Ale co přesně tato jádra dělají, a pokud se obě používají v aplikacích umělé inteligence a strojového učení, jak se liší?
Co jsou jádra CUDA a k čemu se používají?
CUDA znamená Compute Unified Device Architecture, což příliš nevysvětluje jejich přítomnost v GPU. Tato jádra byla zavedena do řady GPU Nvidia v architektuře Maxwell 2014 a specializují se na paralelní zpracování.
Jsou docela podobné jádrům CPU, pokud jde o jejich fungování, ale lépe se s nimi manipuluje úkoly, včetně kryptografických hashů, fyzikálních enginů, projektů souvisejících s datovou vědou a dokonce i her rozvoj.
Když už jsme to probrali jak jádra CUDA ovlivňují herní výkon vašeho PC, jsou stejně užitečné při drcení čísel. I když i ty nejvýkonnější procesory mají dvouciferná jádra, GPU Nvidia jsou dodávány s několika tisíci jádry CUDA, díky čemuž jsou mnohem rychlejší při numerické zátěži. Navíc, protože tyto výpočty provádějí paralelně, získáte mnohem vyšší rychlosti s jádry CUDA.
CUDA jádra jsou rychlejší než běžná CPU jádra, pokud jde o drtivý počet, ale stále nejsou ideálním řešením. To proto, že nikdy nebyly určeny k použití tímto způsobem. CUDA jádra byla účelově navržena pro grafické zpracování a pro zvýšení herního výkonu GPU Nvidia.
Co jsou to tenzorová jádra a k čemu se používají?
Když se GPU začaly používat pro úlohy s umělou inteligencí a strojovým učením, Nvidia zavedla od roku 2017 jádra Tensor v architektuře Volta pro GPU svých datových center.
Trvalo však až architektura Nvidia Turing (GPU řady RTX 20), než se tato jádra dostala do spotřebitelských GPU. Pamatovat že zatímco karty řady GTX 16 jsou také založeny na architektuře Turing, neobsahují žádný ray tracing ani Tensor jádra.
Zatímco jádra CUDA byla adekvátní přinejlepším pro výpočetní zátěž, jádra Tensor zvýšila náskok tím, že byla výrazně rychlejší. Zatímco jádra CUDA mohou provádět pouze jednu operaci za takt, jádra Tensor zvládnou více operací, což jim dává neuvěřitelné zvýšení výkonu. V zásadě všechna jádra Tensor zvyšují rychlost násobení matrice.
Toto zvýšení rychlosti výpočtu přichází na úkor přesnosti, přičemž jádra CUDA jsou výrazně přesnější. To znamená, že pokud jde o trénovací modely strojového učení, jádra Tensor jsou mnohem efektivnější z hlediska výpočetní rychlosti a celkových nákladů; proto je ztráta přesnosti často zanedbávána.
Jak jádra Tensor a CUDA ovlivňují výkon GPU?
Jak už asi tušíte, zatímco jádra CUDA a Tensor zvládnou stejnou zátěž, obě jsou to specializovaná jádra pro vykreslování grafiky a numerické zátěže.
To znamená, že v závislosti na uživateli, na kterého je konkrétní GPU zaměřeno, bude mít různý počet jader. Pokud například vezmeme v úvahu RTX 4090, nejnovější a nejlepší herní GPU Nvidia pro spotřebitele, získáte mnohem více jader CUDA než jader Tensor. 16 384 jader CUDA až 512 jader Tensor, abychom byli konkrétní.
Pro srovnání, GPU Nvidia L40 pro datová centra, založené na stejné architektuře Ada Lovelace jako RTX 4090, má 18 176 jader CUDA a 568 jader Tensor. To se nemusí zdát jako tak velký rozdíl, ale může to výrazně ovlivnit výkon těchto GPU.
Pokud jde o teoretický výkon, L40 má 90,52 TFlops výkonu FP16 a FP32 a také 1414 GFlops výkonu FP64. Toto je masivní zvýšení výkonu ve srovnání s 82,58 TFlops výkonu FP16 a FP32 RTX 4090 a 1290 GFlops výkonu FP64.
Pokud se dobře neorientujete v číselných počtech výkonu GPU, výše uvedené údaje o výkonu GPU Nvidia s pohyblivou řádovou čárkou pro vás nemusí nic znamenat. Stručně však ukazují, že L40 je mnohem rychlejší než RTX 4090, pokud jde o numerické výpočty – ty potřebné pro pracovní zátěže založené na umělé inteligenci a strojovém učení.
Zlepšení výkonu je o to působivější, když vezmete v úvahu spotřebu energie dvou GPU. RTX 4090 má hodnocení TGP (nezaměňovat s TDP, je tu malý rozdíl) 450 W, zatímco L40 je dimenzován pouze na 300 W.
Obě tyto GPU budou spouštět hry a dobře trénovat váš model strojového učení. RTX 4090 však bude lepší ve spouštění her a L40 bude lepší v trénování modelů strojového učení.
CUDA jádra vs. Tenzorová jádra: Co je důležitější?
Obě jádra jsou stejně důležitá, bez ohledu na to, zda si GPU kupujete pro hraní her, nebo je dáváte do racku datového centra. Herní GPU pro spotřebitele Nvidia využívají spoustu funkcí AI (zejména DLSS) a mít na palubě jádra Tensor se může hodit.
Pokud jde o GPU datového centra, jádra CUDA a Tensor stejně většinu času pracují v tandemu, takže získáte obojí bez ohledu na GPU, který si vyberete. Místo toho, abyste se zaměřovali na konkrétní typ jádra ve vašem GPU, měli byste se více zaměřit na to, co grafická karta dělá jako celek a na typ uživatele, pro který je určena.
Jádra CUDA se specializují na zpracování grafických úloh, zatímco jádra Tensor jsou lepší na numerická. Pracují společně a jsou do určité míry zaměnitelné, ale zvládají své vlastní specializace, a proto existují především.
Různé GPU se specializují na různé aspekty. RTX 4090 snadno rozdrtí jakoukoli hru, kterou na ni hodíte, zatímco RTX 4060 zvládne pouze hraní v rozlišení 1080p. Pokud nehrajete pomocí svého GPU a potřebujete ho pouze pro drcení čísel nebo trénování neuronových sítí, GPU datového centra řady A, jako je A100 nebo dokonce L40, je tou nejlepší volbou.
Na vašich jádrech GPU záleží
Více jader GPU vám poskytne lepší celkový výkon, protože vaše GPU bude všestrannější a bude mít vyhrazené zdroje pro zpracování různých úkolů. Pořídit si naslepo GPU s nejvyšším počtem jader však není nejlepší rozhodnutí. Věnujte chvíli pečlivému zvážení vašeho případu použití, podívejte se na možnosti GPU jako celku a poté si vyberte.