Sunway TaihuLight dosáhl 93 TFLOPS při
testování LinPackem, jeho teoretický výkon je ale až 125 PFLOPS.
Tvořen je klastrem 40 960 uzlů s celkem 1,31 PB operační
paměti a 10 649 600 procesorových jader. Nejedná se
totiž o typický stroj dneška s výpočetními GPU jako
hlavní silou. Připomíná spíše stroje BlueGene od IBM, jelikož
používá speciální na vysoký výpočetní výkon zaměřená CPU
vlastní architektury. Na první místo se dostal možná i díky
tomu, původně totiž v Číně zřejmě chtěli upgradovat
pomocí 14nm Xeonů Phi na více než 100 PFLOPS počítač
Tchien-che 2, ale tento plán zřejmě padl kvůli
exportním embargu.
Superpočítač Sunway TaihuLight
Procesory ShenWei SW26010
Procesory použité v tomto stroji
se jmenují ShenWei SW26010 (ShenWei je alternativní formou názvu Sunway) a navrženy byly v Shanghai
High Performance IC Design Center. Jeden má obří počet 260 jader,
jejichž architektura je poměrně jednoduchá. CPU je rozděleno do
čtyř komponent „Core Group“ (CG). V těch je po jednom
komplexnějším jádru MPE, po jednom paměťovém řadiči a blok
(matrice 8 × 8) celkem 64 jader označená jako CPE. Ta
jsou jednodušší než MPE a měla by vyvíjet většinu
výkonu. Složitější MPE slouží jako řídící element, ale má
samo i výpočetní FPU. Toto uspořádání hodně připomíná
procesor Sony/IBM Cell v PlayStation 3 s centrálním
PPE a koprocesory SPE. Je možné, že toto CPU je jím
inspirované.
Procesor Sunway/ShenWei SW26010, schéma
Architektura jader je out-of-order typu
RISC a neupřesněné instrukční sady, dle očekávání
používající instrukce stylu SIMD. MPE je 64bitové a má dvě
pipeline podporující údajně 264bitové vektorové instrukce.
Jádro má 32KB L1 cache a 26KB L2 cache.
Jádra v bloku
CPE mají podobně jako SPE v Cellu omezené schopnosti
a vyžadují, aby je MPE řídilo, což zkomplikuje
programování. Jsou údajně 62bitová(?) a podporují jen kód
v uživatelském prostoru (nikoliv jaderný). Mají jednu FPU
pipeline, která dokáže za cyklus provést 8 operací
v plovoucí řádové čárce (a to údajně na 64bitovými
čísly), šířka vektoru je opět 264 bitů. Tato jádra mají 16
KB L1 cache a 64KB lokální pracovní paměť SRAM. Jak už
bylo řečeno, každá ze čtyř CG má dvoukanálový paměťový
řadič s 8 GB DDR3-2133, celkem je tedy na jeden
procesor/uzel 32 GB operační paměti.
Frekvence jader je 1,45 GHz, což by
mělo procesoru SW26010 dávat teoretický výkon asi 3,06 TFLOPS
v dvojité přesnosti. Výkon na jedno CPU by byl tedy zhruba
v kategorii čipu Xeon Phi Knights Landing (14nm generace);
který z těchto dvou bude reálně výkonnější, bude záviset
hlavně na tom, kde se podaří lépe využít teoretický potenciál;
v praxi bude také důležitý poměr výkonu a spotřeby.
Superpočítač Sunway TaihuLight
Chlazení pro 28 MW
Celý systém Sunway TaihuLight se
nachází ve 40 kabinetech, v nichž jsou v každém čtyři
supernody, každý po 256 uzlech (každý má jeden procesor Sunway
SW26010). Při výpočtu o trvání 3,7 hodiny, při němž bylo
Linpackem zaznamenáno ono skóre 93 PFLOPS, měl systém spotřebu
v průměru 15,37 MW. Na jeden uzel/procesor tedy připadá
příkon 373,8 W. K tomu je ale třeba připočíst vodní
chlazení s výkonem 28 MW.
Slabinou počítače Sunway TaihuLight
je údajně propojovací logika a paměťový subsystém (ten
mají Xeony Phi mnohem robustnější), takže například
v benchmarku HPCG má jen malý zlomek teoretického výkonu
(0,3 %) a dopadá hůře něž třeba Tchien-che 2 (1,1 %)
nebo Titan
(1,2 %). Systém má být údajně využíván pro předpověď
počasí, geologické modelování, analýzu „velkých dat“,
biologické výzkumy či fyzikální či inženýrské simulace
a výpočty.
Zdroje: HPCWire,
TOP500, Oak
Ridge National Laboratory