Nový nejrychlejší superpočítač. Sunway TaihuLight pohání „čínské Celly“ ShenWei

20. 6. 2016

Sdílet

 Autor: Redakce

Už tomu jsou neuvěřitelné tři roky, co se do čela žebříčku nejvýkonnějších superpočítačů TOP500 dostal čínský superpočítač Tchien-che 2 (v anglické transkripci Tianhe 2) – respektive neuvěřitelné na tom je, že tam zůstal nesesazen až doposud. Až nyní tento stroj přemohl jiný superpočítač, ovšem opět z Číny. S výkonem změřeným na úrovni 93 PFLOPS (petaflops) je v aktuálním vydání žebříčku vůdcem počítač Sunway TaihuLight, umístěný ve Wuxi Supercomputer Center u Šanghaje. Jde přitom o docela pozoruhodný počítač, jelikož je založen na zcela specifické domácí architektuře.

Sunway TaihuLight dosáhl 93 TFLOPS při
testování LinPackem, jeho teoretický výkon je ale až 125 PFLOPS.
Tvořen je klastrem 40 960 uzlů s celkem 1,31 PB operační
paměti a 10 649 600 procesorových jader. Nejedná se
totiž o typický stroj dneška s výpočetními GPU jako
hlavní silou. Připomíná spíše stroje BlueGene od IBM, jelikož
používá speciální na vysoký výpočetní výkon zaměřená CPU
vlastní architektury. Na první místo se dostal možná i díky
tomu, původně totiž v Číně zřejmě chtěli upgradovat
pomocí 14nm Xeonů Phi na více než 100 PFLOPS počítač
Tchien-che 2, ale tento plán zřejmě padl kvůli
exportním embargu
.

Superpočítač Sunway TaihuLight
Superpočítač Sunway TaihuLight 

 

Procesory ShenWei SW26010

Procesory použité v tomto stroji
se jmenují ShenWei SW26010 (ShenWei je alternativní formou názvu Sunway) a navrženy byly v Shanghai
High Performance IC Design Center. Jeden má obří počet 260 jader,
jejichž architektura je poměrně jednoduchá. CPU je rozděleno do
čtyř komponent „Core Group“ (CG). V těch je po jednom
komplexnějším jádru MPE, po jednom paměťovém řadiči a blok
(matrice 8 × 8) celkem 64 jader označená jako CPE. Ta
jsou jednodušší než MPE a měla by vyvíjet většinu
výkonu. Složitější MPE slouží jako řídící element, ale má
samo i výpočetní FPU. Toto uspořádání hodně připomíná
procesor Sony/IBM Cell v PlayStation 3 s centrálním
PPE a koprocesory SPE. Je možné, že toto CPU je jím
inspirované.

 

Procesor Sunway/ShenWei SW26010, schéma
Procesor Sunway/ShenWei SW26010, schéma

Architektura jader je out-of-order typu
RISC a neupřesněné instrukční sady, dle očekávání
používající instrukce stylu SIMD. MPE je 64bitové a má dvě
pipeline podporující údajně 264bitové vektorové instrukce.
Jádro má 32KB L1 cache a 26KB L2 cache.

 

Jádra v bloku
CPE mají podobně jako SPE v Cellu omezené schopnosti
a vyžadují, aby je MPE řídilo, což zkomplikuje
programování. Jsou údajně 62bitová(?) a podporují jen kód
v uživatelském prostoru (nikoliv jaderný). Mají jednu FPU
pipeline, která dokáže za cyklus provést 8 operací
v plovoucí řádové čárce (a to údajně na 64bitovými
čísly), šířka vektoru je opět 264 bitů. Tato jádra mají 16
KB L1 cache a 64KB lokální pracovní paměť SRAM. Jak už
bylo řečeno, každá ze čtyř CG má dvoukanálový paměťový
řadič s 8 GB DDR3-2133, celkem je tedy na jeden
procesor/uzel 32 GB operační paměti.

Deska s dvěma uzly s SW26010
Deska s dvěma uzly s SW26010

Frekvence jader je 1,45 GHz, což by
mělo procesoru SW26010 dávat teoretický výkon asi 3,06 TFLOPS
v dvojité přesnosti. Výkon na jedno CPU by byl tedy zhruba
v kategorii čipu Xeon Phi Knights Landing (14nm generace);
který z těchto dvou bude reálně výkonnější, bude záviset
hlavně na tom, kde se podaří lépe využít teoretický potenciál;
v praxi bude také důležitý poměr výkonu a spotřeby.

Superpočítač Sunway TaihuLight
Superpočítač Sunway TaihuLight

 

Chlazení pro 28 MW

Celý systém Sunway TaihuLight se
nachází ve 40 kabinetech, v nichž jsou v každém čtyři
supernody, každý po 256 uzlech (každý má jeden procesor Sunway
SW26010). Při výpočtu o trvání 3,7 hodiny, při němž bylo
Linpackem zaznamenáno ono skóre 93 PFLOPS, měl systém spotřebu
v průměru 15,37 MW. Na jeden uzel/procesor tedy připadá
příkon 373,8 W. K tomu je ale třeba připočíst vodní
chlazení s výkonem 28 MW.

 

Superpočítač Sunway TaihuLight

Superpočítač Sunway TaihuLight

bitcoin_skoleni

Slabinou počítače Sunway TaihuLight
je údajně propojovací logika a paměťový subsystém (ten
mají Xeony Phi mnohem robustnější), takže například
v benchmarku HPCG má jen malý zlomek teoretického výkonu
(0,3 %) a dopadá hůře něž třeba Tchien-che 2 (1,1 %)
nebo Titan
(1,2 %). Systém má být údajně využíván pro předpověď
počasí, geologické modelování, analýzu „velkých dat“,
biologické výzkumy či fyzikální či inženýrské simulace
a výpočty.

Zdroje: HPCWire,
TOP500, Oak
Ridge National Laboratory