Překvapení první: PCI Express nahradilo QPI
Zatímco Knights Ferry byla karta do slotu PCI Express…
…Knights Corner vypadá jako procesor. Tím, že Intel zavrhl použití čipu architektury MIC jako herního grafického akcelerátoru, se nemusel omezovat na sběrnici PCI Express a namísto toho zvolil vlastní QPI, které propojuje Xeony ve víceprocesorových serverech. Říká vám něco název „Torrenza“? Tak kdysi (přibližně v roce 2007) nazývalo AMD technologii specializovaných akcelerátorů pro víceprocesorové servery, které by se zasazovaly do standardních socketů po bok Opteronů. Samozřejmě s použitím sběrnice HyperTransport. Kde je Torrenze konec?
Balení Knights Corner vzdáleně připomíná LGA 1567, které používají Xeony MP architektur Nehalem-EX a Westmere-EX, jeho tvar je ale více obdélníkový. Jelikož do oficiálního vydání Knights Corner ještě několik měsíců zbývá, pravděpodobně se díváte na podobu budoucích Xeonů vycházejících z architektury Sandy Bridge. Podle již vydaných Sandy Bridge-E lze soudit, že i Xeony MP se pochlubí čtyřkanálovým řadičem pro paměti (to jest šířka 256 bitů), čili Knights Corner nebude ani bez GDDR5 strádat. A do slotů DIMM na desce lze instalovat více paměti, než kolik lze umístit na kartu.
Přechod od PCI Express ke QPI a LGA balení má více důvodů, z nichž nejspíše převažují ty obchodní: chcete-li Knights Corner, musíte si koupit server s Xeony. Výroba akcelerátoru pro standardní socket je ale pro Intel také levnější a zvládne ji vlastními kapacitami, zatímco pro výrobu karet do PCI Express by se nejspíše musel obrátit na některého z tchajwanských nebo čínských dodavatelů.
Dost ale bylo komentářů stranou, nyní už se vrhneme na detaily o Knights Corner neboli KNC (třípísmenné zkratky používá Intel i pro jiné své produkty – ostatně NHM, SNB, LRB a HSW vám nejspíše budou povědomé).
Více než 50 jader, 1 TFLOPS výkonu
Čip je vyráběn 22nm technologií a má „více než 50 jader“. Píšu v přítomném čase, neboť Intel už má jejich funkční vzorky a ty dosahují výkonu 1 TFLOPS v benchmarku DGEMM. Možná si vzpomenete, jak se AMD chlubilo výkonem 1 TFLOPS u grafického čipu RV770 v Radeonu HD 4870. Tenkrát to ale bylo jenom teoretické číslo, Knights Corner této mety dosahuje v reálném testu, a navíc v double precision (tedy při výpočtech s 64bitovou přesností). Tesla 2090 od Nvidie ve stejném testu „udělá“ jen 665 GFLOPS.
Jedna aplikace napsaná a zkompilovaná pro používání více x86 jader bude fungovat i na Knights Corner. Nechce se mi sice věřit, že to bude zcela plug & play, nicméně oproti CUDA nebo OpenCL je to z hlediska vývojáře velký pokrok. Je ale tato výhoda natolik veliká, aby položila (už alespoň trochu zavedené) akcelerátory Nvidia Tesla na lopatky?
Zdroj: X-bit labs 1 | 2