Pokud podrobně sledujete počítačové novinky, mohli jste se už nejspíš doslechnout o projektu procesorů Tachyum Prodigy. Zajímavý je i proto, že jde o procesorový startup se slovenským zakladatelem. Tachyum je nicméně známé i tím, že toho hodně oznamovalo léta dopředu, zatímco jeho procesory, které podle marketingu měly být mimořádné, byly stále jenom na papíře. Teď však opravdu směřují k vydání, byť ne s okamžitou dostupností.
Tachyum založil v roce 2016 a od té doby mu šéfuje Radoslav Danilák, rodák z Prešova, který ovšem prošel návrhem čipů ve firmách Toshiba, Nvidia nebo Sandforce (které spoluzakládal). Firma Tachyum oznámila již před lety jako svůj hlavní produkt procesor Prodigy, který měl za cíl prolomit (tehdejší) relativní stagnaci serverových procesorů. A také měl být díky efektivnější architektuře odpovědí na omezení, která pomalu přináší zpomalující se vývoj výrobních procesů.
Prodigy má v krátkosti být při stejném výkonu výrazně menší a jednodušší čip, což má mít výhody v energetické efektivitě a přinést výhody v momentě, kdy se kvůli omezenému škálování výrobních procesů stane rozhodujícím faktorem to, která architektura z omezeného počtu tranzistorů vytěží nejvíc. Zdá se, že Prodigy na to jde cestou trošku připomínající Itanium a principy VLIW procesorů, což je mezi výkonnými procesory dnes řekněme unikátní přístup.
Jak už jsme nadhodili, firma oznámila svůj procesor již velmi dávno a často vydávala tiskové zprávy oznamující jeho příchod dlouho dopředu. Vzhledem k velmi ambiciózním výkonnostním cílům ve spojení s nestandardním VLIW přístupem proto u mnoha pozorovatelů panuje spíš skepse. Prodigy se nyní ale má konečně dostat do výroby, takže se snad dočkáme odpovědi na otázku, zda byl „hype“ reálný.
Tachyum Prodigy se 128 jádry jde do výroby
Firma nyní oznámila, že se chystá na začátek výroby procesoru Prodigy T16128, jenž by podle ní měl být ničím menším než nejvýkonnějším na světě. Má přitom být vysoce flexibilní v tom smyslu, že má poskytovat výkon pro standardní CPU úlohy, ale také vysoký numerický výkon v FP64 výpočtech jako GPU, a navíc ještě SIMD či tensorový výkon pro AI aplikace jako specializovaný akcelerátor AI. Tachyum to balí do označení „Univerzální procesor“.
Před dvěma lety Tachyum v plánech uvádělo 64jádrový procesor na 7nm procesu, nicméně to asi bylo přeskočeno. Vypadá to, že nyní chystaná architektura je spíš už nějaká nová vylepšená verze proti oné první 7nm generaci, která nakonec do výroby nešla. Firma místo toho dosud avizovala jen dostupnost simulované zkušební platformy, která ale běží na FPGA (jde o desku se čtyřmi FPGA simulujícími osm jader Prodigy, plus další desku simulující I/O a paměti).
Prodigy T16128 by mělo již používat 5nm proces (nevíme, zda od TSMC, nebo Samsungu) a má, jak již bylo řečeno, 128 jader s 64bitovou architekturou vlastního návrhu i vlastní instrukční sady. Procesor má mít údajně 16kanálový řadič, což by znamenalo „šířku sběrnice“ (pokud použijeme terminologii GPU) 1024 bitů. Podporovaná má být až rychlost DDR5-7200, což by dodávalo propustnost až 900 GB/s. Tolik kanálů DDR5 také znamená, že bude podporovaná vysoká kapacita pamětí, až 8 TB na socket. Pro disky a periférie bude procesor poskytovat 64 linek PCI Express 5.0.
Speciální architektura má umožnit toto CPU provozovat na velmi vysokých taktech – model Prodigy T16128 by prý měl běžet až na 5,7 GHz. Zřejmě právě při tomto taktu uvádí Tachyum výkonnostní čísla.
Podle Tachyum má Prodigy T16128 dosahovat výkon až 90 TFLOPS ve vědeckých výpočtech (patrně je řeč o FMA s dvojitou přesností FP64), ale nevíme úplně jistě, zda to není údaj třeba pro čtyřprocesorovou sestavu. V AI výpočtech (to se zřejmě bavíme o výkonu v maticových výpočtech) bude prý výkon tohoto procesoru až 12 PFLOPS.
Výrobce také uvádí, že v mnohojádrovém benchmarku SPECrate 2017 má výkon být až 4× lepší než u 40jádrového procesoru Intel Xeon Platinum 8380 (Ice Lake-SP) nebo 3× lepší proti 64jádru AMD Epyc 7763 (Zen 3/Milan). Výkon v AI výpočtech FP8 má prý být až šestkrát vyšší než u nejnovějšího počinu Nvidie H100 (s architekturou Hopper) a v FP64 třikrát vyšší. Ale zase nevíme, zda to není případ nějakého srovnávání hrušek a jablek. Jak toto vše dopadne, teprve uvidíme ve chvíli, kdy se Prodigy opravdu podaří dostat na trh.
Vedle tohoto ústředního modelu budou nabízené i ořezané verze. Prodigy T864 má být 64jádro s 64MB L2+L3 cache. Prodigy T832 bude mít 32 jader a 32 MB L2+L3 cache. Paměťový řadič je u těchto modelů jen osmikanálový s podporou DDR5-6400 (400 GB/s) a řadič PCIe Express 5.0 má jen 32 linek. Architektura jader je však u všech tří modelů patrně stejná a asi by měly být založené na stejném 5nm čipu.
Out-of-order architektura s širokým SIMD
Architekturu jádra již Tachyum částečně prezentovalo v roce 2020, ale nevíme, zda mezitím nebyla změněná, tehdy šlo o onen původně plánovaný 7nm čip. V roce 2020 například bylo uváděno, že jádro bude mít 16kB L1 datovou a 16kB L1 instrukční cache, 256kB L2 cache a 64jádrové CPU by mělo 32 MB L3 cache. Nyní se ale v datasheetu pro 5nm Prodigy T16128 uvádí 64kB+64kB L1 cache a 128 MB celkové L2 + L3 cache, což by mohlo být například 512 kB L2 cache na jádro a 64 MB L3 sdílené cache pro celé 128jádro.
Co zůstalo, je zřejmě 4-wide architektura jádra se čtyřmi ALU, která má údajně být typu out-of-order. V každém jádru by pak měly být dvě SIMD jednotky s šířkou 1024 bitů (tedy dvakrát širší než AVX-512 nebo ARM SVE u Fujitsu A64FX). Toto by mohl být další znak toho, že Tachyum už uvádí vylepšenou architekturu místo té prvně navržené, v roce 2020 se hovořilo o 512 bitových jednotkách. Tyto SIMD jednotky podporují vědecké výpočty v FP64 pro použití v superpočítačích, ale budou podporovat s úměrně vyšším výkonem i menší datové typy FP32, TF32, Bfloat16, Int8 a FP8.
Tip: Nový nejrychlejší superpočítač: Fugaku s procesory ARM dává 415 PFLOPS i bez GPU
Kromě univerzálního SIMD ale bude v jádrech také akcelerátor AI (neuronových sítí), tedy něco jako tensorová jádra v GPU od Nvidie. Tyto akcelerátory mají efektivní šířku 4096 bitů. Je možné, že jejich výkon bude zvýšen pomocí sparsity technik, podobně jako to dělá Nvidia.
Procesor má být vyráběn v pouzdru typu LGA (nebude tedy napevno pájený na desku) o rozměru 64 × 84 mm, bude tedy v obou dimenzích o několik milimetrů větší než procesory AMD Epyc nebo Threadripper pro socket SP3/TR4/sTRX4. Podporovány budou dvousocketové i čtyřsocketové sestavy. Pokud mají tato CPU v určité míře konkurovat specializovaným akcelerátorům a GPU, pak asi největší smysl budou mít ony 4S desky, aby v paralelismu dokázaly akcelerátorům (u nichž je normou několik GPU na jeden server) konkurovat.
Zatím nevíme TDP, ale dalo by se asi čekat někde v rozsahu 200–400 W, méně dnes v serverech nedává moc smysl z hlediska efektivní hustoty výkonu na určitý zabraný prostor.
Oznámení teď, ale výroba až příští rok
Toto oznámení je ze strany Tachyum opět ve značném předstihu před reálnou dostupností. Firma uvádí, že výroba těchto procesorů začne v roce 2023. Přinejlepším se tedy reálného prověření této architektury dočkáme příští rok. Do dalšího to snad nesklouzne, ale i tato možnost tu asi po předchozích zkušenostech zůstává. Je asi na místě pořád krotit očekávání, protože Tachyum slibuje velmi vysoké cíle, byť jde pořád jen o startup firmu. Zklamání asi není vyloučeno a obecně vůči slibům firmy často panuje podezřívavost.
Prodigy bude mít také svůj úkol komplikovaný v tom, že jde o novou architekturu, na kterou bude všechen software nutné portovat. Mnoho projektů bude mít podle Tachya nativní podporu (Linux, FreeBSD, GCC, Apache, SQLite, MongoDB, MariaDB, PHP, Perl, Pysthon, Tuby, TensorFlow, PyTorch a další), ale zatím na tomto poli není vidět mnoho výsledků. Přitom optimalizace a výkon kompilátorů bude platforma potřebovat jako sůl, protože bude dohánět několik dekád optimalizací pro procesory x86. Navíc pokud je ve hře architektura typu VLIW, mělo by na kompilátoru ležet větší břemeno než obvykle.
Tachyum bude mít i softwarové nástroje umožňující běh nenativních aplikací (pro x86, ARM a RISC-V), ale u těch zase bude snížený výkon. Přitom výkon potenciálně vyšší než u standardních procesorů x86 (případně ARM) má být vůbec ten důvod, proč exotickou platformu Prodigy použít – samozřejmě pokud hardware naplní to, co je slibováno. Na této emulaci ale v serverech mohou běžet nekritické komponenty, zatímco hlavní důležitá aplikace bude provozovatelem portována.
Je asi také možné, že pokud Prodigy uspěje, bude používáno na úzce definované konkrétní aplikace velkými hyperscalery a podobnými klienty, takže venku ve světě nakonec ani nemusí být nikde moc vidět. Pak by ani softwarová podpora často nemusela být ve veřejných repozitářích open source projektů.
Zdroje: Tachyum, Tom's Hardware