AMD Ryzen Threadripper 3990X je tu. Nejrychlejší CPU má problém s limity Windows

10. 2. 2020

Sdílet

Oproti první podzimní várce highednových CPU AMD Ryzen Threadripper 3000 s 24 a 32 jádry měl nejvýkonnější model Ryzen Threadripper 3990X s 64 jádry zpoždění pár měsíců, ale to už je za námi a v pátek se tento nový extrémní procesor začal prodávat. S tím vyšly i recenze. Ryzen Threadripper 3990X je podle očekávání celkově nejvýkonnější procesor pro PC, ale jak se ukazuje, má to dost háčků.

Ryzen Threadripper 3990X: zatím nejextrémnější x86 procesor pro PC

Pro rekapitulaci: Ryzen Threadripper 3990X (článek k jeho odhalení najdete zde) má nejvyšší možnou konfiguraci architektury Zen 2 – 64 jader v celkem osmi 7nm CPU čipletech a 128 vláken. S tím je spojeno celkem 256 L3 cache, která ale není uniformní, každá čtyři jádra mají svých 16 MB. Co je však omezeno, je konektivita a paměťový řadič, jenž je skrouhnutý jen na čtyři kanály s podporou DDR4-3200 s ECC (ale ne registrovaných modulů). V platformě TRX40 pak je z procesoru vyvedeno až 56 linek PCI Express 4.0 a dalších až 16 linek PCIe 4.0 může jít z čipové sady (ta je připojená přes PCIe 4.0 ×8).

Takt procesoru Threadripper 3990X je 2,9 GHz v základu a 4,3 GHz v maximálním turbo boostu. Výkon v jednovláknové aplikaci tedy nejrychlejší na světě nebude (zde bude mít pořád prvenství mainstreamová platforma Intelu, Core i9-9900K a v budoucnu i9-10900K). Ovšem toto CPU má dle očekávání rekordní výkon pro vícevláknové úlohy, zde bude konkurovat i sestavě s dvěma nejrychlejším CPU Intelu (Xeon Platinum 8280), přičemž 1S alternativa má mnohé výhody.

Specifikace procesoru AMD Ryzen Threadripper 3990X Specifikace procesoru AMD Ryzen Threadripper 3990X

TDP je ponecháno na 280 W jako u 24 a 32 jádra. Podle AnandTechu přes dvojnásobný počet jader 3990X drží relativně vysoké frekvence boostu na všech jádrech – u modelu 3970X naměřili okolo 3,81 GHz, u 3990X okolo 3,45 GHz, takže pokles byl jen asi 10 %. Podle údajů z čidel CPU se při plné zátěži spotřeba jednotlivých jader dostává na pouhých 3,0–3,1 W, ovšem „uncore“ pak přidává dalších nějakých 80 W.

Spotreba Ryzenu Threadripper 3990X na jednotliva jadra podle AnandTechu Spotřeba Ryzenu Threadripper 3990X připadající na jednotlivá jádra podle AnandTechu

Testy jsou venku

Recenze Threadripperu 3990X publikoval například AnandTech, Tom's Hardware, německý ComputerBase, případně se můžete používat na test zohledňující operační systém Linux na Phoronixu či test zaměřující se na použití v pracovních stanicích od ServeTheHome. V galerii zde se můžete podívat na na některé souhrnné grafy výkonu z těchto recenzí.

Z testů vyplynulo, že Threadripper 3990X není rozhodně CPU pro každého a každý program (a to i když odhlédneme od ceny). Kromě toho, že aplikace často kvůli různým svým limitům přestávají škálovat při méně než 128 vláknech, je zdá se značným omezením scheduler ve Windows, kvůli kterému se nedá plný výkon dosáhnout ani v některých případech, kdy by to zátěž měla umožňovat. Je to vidět například i ve srovnání s Linuxem, kde má Threadripper 3990X větší průměrný nárůst výkonu proti 32jádrovému modelu než v recenzích s Windows.

Prumerny vykon Ryzenu Threadripper 3990X na Linuxu v testu Phoronixu Průměrný výkon Ryzenu Threadripper 3990X na Linuxu v testu Phoronixu.

Pozor: Windows 10 neumí s 64jádrem pracovat

AnandTech upozorňuje, že po překročení počtu 64 vláken (nevčetně) se mění přístup Windows k procesoru. Do této chvíle funguje scheduler CPU (plánovač) uniformně, ale Windows má limit 64 vláken – to byl původně zřejmě tvrdý limit, ale pak byla přidána podpora pro více vláken tak, že systém přiděluje vlákna do jednotlivých „Processor Groups“, které ale pořád mají maximálně po 64 vláknech.

Běžné procesory mající méně něž 32 jader s SMT/HT se do tohoto limitu vejdou a znamená to, že rozdělení na skupiny vláken nastane jen u vícesocketových stanic či serverů. A tam se skupiny kryjí s rozdělením na jednotlivé fyzické procesory čili NUMA uzly. Ovšem Epycy a Threadrippery se 48 a 64 jádry už Windows také rozdělí na skupiny vláken, ačkoliv jde fyzicky o jediné CPU nechovající se jako víceuzlová NUMA sestava. Ve správci úloh přesto uvidíte, že Windows systém považují za dvousocketový.

Prumerny vykon Ryzenu Threadripper 3990X v testu ComputerBase vicevlaknove aplikace Průměrný výkon Ryzenu Threadripper 3990X v testu ComputerBase - vícevláknové aplikace, Windows

Důsledky jsou hodně významné. Standardní program pro Windows je schopen používat jen vlákna z jedné procesorové skupiny, pokud nemá napsanou/zakompilovanou speciální podporu pro tyto procesorové skupiny – což asi většina aplikací nemá. Pokud není připravený, pak ho OS automaticky bude umisťovat jenom na 64 vláken skupiny, ve které byl spuštěný a vlákna z dalších skupin bude ignorovat. To pak znamená, že úloha vlastně poběží jenom na 32jádru, na polovině Threadripperu 3990X. Logicky tedy dostanete jen stejný nebo horší výkon, jako na Threadripperu 3970X.

Threadripper 3990X Windows 10 Pro Enterprise SMT AnandTech Případ, kdy Threadripper 3990X pod Windows 10 Pro vykazuje nižší výkone se zapnztým SMT kvůli problému scheduleru s více jak 64 vlákny. Windows 10 Enterprise část ztraceného výkonu získává zpátky, pořád je ale výhodnější vypnout SMT. Aplikace totiž není schopná naalokovat si víc než 64 vláken

AnandTech z tohoto důvodu testoval Threadripper 3990X také s vypnutým SMT, což sice hodně omezí teoretický mnohovláknový výkon, ale kvůli této limitaci Windows bylo takto mnoho aplikací rychlejších. Místo 32 jader s SMT totiž dostaly 64 vláken vždy na plných 64 fyzických jádrech. Toto samozřejmě není vůbec optimální, i když tím dostanete alespoň nějaké navýšení výkonu proti modelu 3970X.

Windows for Workstations pomůže, ale jenom trochu

AnandTech dále upozorňuje, že s Threadripperem 3990X není dobré používat Windows 10 Professional (běžné Windows 10 už vůbec ne, ty podporují maximálně jen 64 vláken) a je lepší pořídit Windows 10 Enterprise nebo Windows 10 for Workstations pro pracovní stanice. Tyto verze mají upravený scheduler pro vyšší výkon na takto mnohajádrových CPU a AnandTech to skutečně v testech zaznamenal.

Ovšem tyto edice W10 stále neřeší problém s procesorovými skupinami. Pouze získávají zpět část ztraceného výkonu, takže 64jádro se zapnutým SMT je rychlejší než na běžných Windows 10. Stále ale často vychází horší výkon, než po vypnutí SMT, místo aby se výkon dostal někam výš.

Aktualizováno (17. 2. 2020):

Podle AMD by Wndows 10 for Workstations neměly mít vyšší výkon a výsledky, které publikoval AnandTech, by zřejmě mohly být způsobené nějakou chybou. Toto potvrzuje Tom's Hardware, který s verzí Enterprise rozdíly nezaznamenal. AMD doporučuje používat normální Windows 10 Pro, nicméně plně aktualizované.

Co každopádně pořád platí, je problém s procesorovými skupinami. Ani W10 Pro, ani Enterprise/Workstation neřeší problém, že CPU s více jak 64 vlákny je plánovačem rozděleno do dvou skupin a aplikace nemohou využít všechna jádra, pokud toto nemají explicitně ošetřeno. Ani poslední aktualizace od Microsoftu toto neodstraňují.

AMD jinak také doporučuje aktualizovat Windows 10 na verzi 18362.535 (aktualizace KB4530684), nicméně to stále neřeší problém s omezením jedné procesorové skupiny na 64 vláken.

Obezlička: nástroj Groupextend

Nastroj Goupextend v Process Lasso Nastroj Goupextend v aplikaci Process Lasso

Pokud program má onu speciální podporu, pak si může přidělit i vlákna v ostatních skupinách. Je také zřejmě možné toto přidělení udělat manuálně. Tvůrci aplikace Process Lasso vyvíjejí pro tento účel nástroj nazvaný Groupextend, jenž dovoluje běžné aplikaci bez explicitní podpory pro procesorové skupiny využít všechna jádra/vlákna v systému. Tento program monitoruje vlákna procesu a manuálně přiřazuje ty, které se nevejdou do nativní skupiny, na vlákna v dalších skupinách (může tedy být nutné nejprve vynutit v nastaveních aplikace patřičný počet vláken). Groupextend je samostatný nástroj, ale od verze 9.6.1.1 beta je dostupný jako funkce také v aplikaci Process Lasso.

Využitelnost Threadripperu 3990X pro různé náročné výpočty, kompilace a jiné činnosti je jak už bylo řečeno zdá se lepší na Linuxu. Ale i tady platí, že velký nárůst výkon proti modelu 3970X stojícím polovinu dostanete jen v některých programech, přičemž nejlépe ze všeho jde procesoru 3D rendering – ten AMD považuje za primární devizu procesoru. Ve velkém množství případů to ale asi není ani tak zahlcením čtyřkanálového řadiče pamětí nebo tím, že 64 jader je už limitováno spotřebou, ale často povahou samotných zátěží, kdy část jader už není vůbec zapojená.

Enkódování videa například s dalšími vlákny nad dejme tomu 24 až 32 začíná škálovat hůř (recenze většinou nezkoušejí spouštět více instancí takových úloh najednou). Na 64–128 vláken zdá se vůbec neškáluje třeba software od Adobe v rámci testu SPEC Workstation. V takových případech tedy výkon, který v recenzích vychází, neodpovídá schopnostem, které CPU teoreticky má.

bitcoin_skoleni

Doporuceni AMD pro sestavy s Threadripperem 3990X Doporučení AMD pro sestavy s Threadripperem 3990X, aby procesor nelimitovaly bottlenecky například v diskovém subsystému. Paradoxně jsou preferována některá konkrétní SSD na bázi PCIe 3.0 ×4, jelikož jejich řadiče mají vyšší IOPS než řadič Phison E16 v PCIe 4.0 SSD. Pokud hodláte používat Linux, doporučuje jinak AMD distribuci Clear Linux, která je sponzorovaná Intelem, její výkonnostní optimalizace ji ale činí nejrychlejší volbou i pro procesory AMD

Výjimečné CPU – pro ty, kdo ho potřebují

Threadripper 3990X je tak rekordmanem v parametrech i výkonu, ale zároveň taky zůstává hodně okrajovou záležitostí. Pokud byste se živili například tím renderováním, pak pro vás i jeho na poměry PC vysoká cena může být výhodná a bude pro vás výjimečným hardwarem. Ale bude to platit právě jen pro konkrétní úlohy, které na této platformě dobře fungují.

Ještě uvidíme, zda toto případě nezlepší budoucí Windows schopné pracovat s více vlákny nebo řešení třetích stran jako zmíněný nástroj Process Lasso/groupextend. Ale asi se nedá moc čekat, že se Microsoft přizpůsobí tomuto poměrně okrajovému hardwaru nějak rychle. Je sice logické, aby postupně svůj scheduler přepsal pro nativní kompatibilitu s mnohavláknovými aplikacemi, ale firma podle všeho nepočítala s tím, že tato nutnost nastane takto brzy.

Ryzen Threadripper 3990X: výkon, výsledky v recenzích