Soutěž s Intelem nejen o procesor Core i7

Mirek Jahoda

21. 4. 2009

přidejte názor

Soutěžní otázky

Jak se jmenuje nástupce architektury Nehalem pro 32nm proces?
a) Larrabee
b) Westmere
c) Penryn
Jakou technologií jsou současné procesory Intel Core i7 vyráběny?
a) 65nm
b) 45nm
c) 32nm
Jak se nazývá technologie použitá u Intel Core i7, která umožňuje současný běh více výpočetních vláken na jednom fyzickém jádru?
a) Hyper-Threading
b) Quickpath
c) Turbo Boost

Ceny

procesor Intel Core i7 920 (Bloomfield, 2,66 GHz)
Intel Sponsored BMW Sauber F1 Team collection: pánské tričko a čepice
Intel Sponsored BMW Sauber F1 Team collection: mini batůžek a čepice

Za poskytnutí cen do soutěže děkujeme společnosti Intel

Nezapomeňte si přečíst

Termíny a další pravidla

Soutěž bude probíhat do 11. května. Po tu dobu tedy budete moci pomocí soutěžního formuláře odesílat správné odpovědi. Po tomto dnu bude soutěž uzavřena a do týdne budete na stránkách ExtraHardware.cz seznámeni se správnými odpovědmi a přezdívkami či částmi e-mailových adres tří výherců. Podmínkou zařazení mezi soutěžící je právě jedno (nikoli tedy více) vyplnění a odeslání formuláře.

Architektura procesorů Core i7 (Nehalem)

Kdo už někdy viděl nějakou tu fotografii procesoru, určitě si dobře
uvědomuje, že tolik pinů či kontaktních plošek jen tak nějaký procesor
nemá. Na Core i7 jich napočítáte 1366, pouzdro procesoru se tak nazývá
LGA 1366 (Land Grid Array). Je oproti pouzdrům procesorů řad Pentium 4
až Core 2 (LGA 775) větší, a Core i7 vyžaduje (nejen) proto novou
základní desku s novou paticí.

Novinek není v Core i7 málo, shrňme si alespoň jako
pozvánku k dalšímu rozboru architektury základní inovace a klíčové
vlastnosti:

4 jádra nativně, nejedná se tedy o spojení dvou jader pomocí FSB
HyperThreading umožňuje spustit až 8 vláken na 4 jádrech
Intel Turbo Boost dokáže „přetaktovat“ vytížená jádra a nebo naopak vypnout nevytížená
8 MB sdílená L3 cache (Intel Smart Cache)
integrovaný tříkanálový řadič pamětí DDR3 až do 1066 MHz
Intel QuickPath Interconnect – výkonná sběrnice pro komunikaci s čipovou sadou

V posledních letech zavedl Intel chytrý způsob modernizace svých
procesorů. Zatímco Pentium 4 (architektura NetBurst) bylo svého času
možno označit za zcela nový procesor, o žádném jeho následovníku už to
tak úplně neplatí. Core Duo (jádro Yonah) z počátku roku 2006
si vypůjčilo výpočetní jednotky z Pentia M, quad-pumped FSB pochází z
architektury NetBurst, novinkou byla L2 cache sdílená (přesněji řečeno
dynamicky rozdělovaná) mezi dvěma jádry. O půl roku později představené
Core 2 Duo (Conroe), první člen nové architektury Core, pouze vyměnila výpočetní jádra za nově navržená, výkonnější.

Architektura Nehalem přejímá s minimálními změnami výpočetní jednotky
Core. Zbavuje se ale zastaralé sběrnice FSB, přesouvá paměťový řadič do
procesoru a radikálně mění systém vyrovnávacích pamětí (cache).

Změny v jádrech

Samotná výpočetní jádra přeci jen doznala
drobných změn. Byla přidána podpora instrukcí SSE4.2, byl vylepšen
alogirtmus predikce větvení kódu a také funkce „macro fusion“, což byla
jedna z novinek v architektuře Core. Macro fusion umožňuje sloučit
některé dvojice instrukcí do jedné, takže jsou obě vykonány v jednom
taktu. Nehalem přidává podporu několika nových fúzí, v první řadě ale
řeší nedostatek Core, které neumělo používat macro fusion v 64bitovém
prostředí. Další změnou je návrat HyperThreadingu, tedy schopnosti
počítat na jednom jádře dvě vlákna zároveň.

Integrovaný paměťový řadič

Jádro Bloomfield dostalo do vínku
tříkanálový řadič podporující výhradně moduly DDR3. Budoucí čistě
desktopové deriváty Nehalemu, které budou používat platformu LGA 1156,
budou mít řadič klasický dvoukanálový. Jeho integrace do procesoru zde
nebude mít ani tak význam pro výkon, jako pro nízkou cenu, neboť do CPU
se přesune i řadič PCI Express a severní můstek čipsetu tak vůbec
nebude potřeba.

QuickPath Interconnect

Starý
quad-pumped Front Side Bus nahradila sběrnice jménem QuickPath
Interconnect (QPI). U první generace se budou používat dvě rychlosti:
4,8 GT/s a 6,4 GT/s. GT znamená GigaTransfer a číslo tedy udává počet
přenosů za sekundu, jinými slovy je to takt sběrnice a můžeme GT/s
nahradit za GHz. QPI má šířku 20 bitů, jeho propustnost je tedy 12,
respektive 16 GB/s. FSB (šířka 64 bitů) na 1600 MHz může teoreticky
přenést až 12,8 gigabajtů za sekundu, QPI je ale full duplex linka,
čili může zároveň přenášet stejný objem dat opačným směrem, a
samozřejmě není zatěžována komunikací procesoru s jeho operační pamětí.

Úloha severního můstku, který už neobsahuje paměťový
řadič, byla redukována na zprostředkování komunikace mezi procesorem
(QPI), jižním můstkem (DMI) a grafickými akcelerátory a ostatními
zařízeními (PCI Express).

Zpátky ke QuickPath. V desktopovém
prostředí není možné tak rychlou sběrnici smysluplně využít. QPI ovšem
bude mít význam pro servery, kde jej budou procesory používat také ke
komunikaci mezi sebou a budou si přes něj vyměňovat obsahy svých
operačních pamětí. K tomuto účelu budou mít serverové Nehalemy čtyři
nezávislé QPI řadiče. Jak asi z tohoto povídání vyplývá, jedna QPI
linka vždy spojuje jen dvě zařízení. Narozdíl od FSB jej tedy nelze
sdílet mezi dvěma čipy v jednom balení. Nemusí to nutně znamenat, že už
nikdy neuvidíme žádný „slepenec“, leč implementace tohoto řešení by
narážela na nové překážky.

V podstatě stejným způsobem funguje
sběrnice HyperTransport, kterou AMD používá už od dob prvních Athlonů
64. HyperTransport je oproti QPI širší, 32bitový. Současné procesory
AMD řady Phenom používají HyperTransport 3.0 na 3,6 GHz, což jim
poskytuje 14,4 GB/s propustnosti jedním směrem (HyperTransport je
taktéž full duplex).

Cache

Jak už jsem zmínil, přepracován byl subsystém cache. První modely Core i7 kódově označené Bloomfield
se chlubí osmimegabajtovou sdílenou L3 cache, každé jádro pak má 256 kB
vlastní cache L2. Že by opět inspirace u AMD? Ne tak docela. AMD totiž
používá takzvané exkluzivní cache, zatímco Intel vsadil na cache
inkluzivní. Co tyto pojmy znamenají?

V inkluzivním systému cache platí, že data v L1 a L2 jsou
(duplicitně) uloženy také v L3. Nevýhoda je tedy zřejmá: celková
kapacita je omezena velikostí cache nejvyšší úrovně – konkrétně zde je
to 8 MB. Tento přístup má ale i své výhody. Pokud výpočetní jádro hledá
data, která jsou kdesi v cache uložena, při postupném prohledání
vlastní L1, vlastní L2 a sdílené L3 na ně dříve či později narazí.

Naopak
v exkluzivní cache jsou data uložena právě jednou, což umožňuje
optimálnější využití její fyzické kapacity. To ale znamená, že data
mohou být uložena ve vlastní cache jednoho jádra, ke kterému ostatní
jádra nemají přímý přístup a je-li najednou potřeba data přesunout
(třeba proto, že operační systém přemístí vlákno z jednoho jádra na
druhé), vznikají nepříjemné latence.

Tolik ke srovnání s konkurencí, neméně zajímavé je ale i srovnání s předchozí generací, tedy Core 2 Quad (Yorkfield). Yorkfield se skládá ze dvou čipů Penryn, které každé obsahuje 6 MB L2 cache sdílené mezi jádra. Celkem je tedy vyrovnávací paměti dokonce o polovinu více, než u Bloomfieldu.
Každé výpočetní jádro má L1 cache (32 kB pro data, 32 kB pro instrukce)
s latencí tří cyklů. L2 je vzhledem ke své velikosti velmi rychlá, její
latence je 14 cyklů.

Nehalem zachovává kapacitu L1 cache, ale
zvyšuje její latenci na čtyři cykly. L2 má latenci 10 cyklů (ovšem její
kapacita je pouze 256 kB). A konečně, L3 má velmi vysokou latenci 40
cyklů (a k tomu 16cestnou asociativitu oproti 24cestné u L2
architektury Core). Na Beyond3D fóru se rozhořela diskuze,
zdali je nový systém cache zodpovědný za to, že Core i7 je v některých
případech (konkrétně ve hrách) pomalejší, než stejně taktované Core 2
Quad. Ať už to tak je nebo ne, faktem zůstává, že architektura Nehalem
je optimalizována pro počítání více vláken naráz, tedy pro typicky
serverové úlohy a práci s multimédii, zatímco náročné jednovláknové
aplikace mu tolik nesvědčí – jak ostatně uvidíte v následujících
kapitolách s testy výkonu. Výkon v jednovláknových úlohách ale
kompenzuje nová funkce pojmenovaná…

Turbo Mode

Je-li
Turbo Mode aktivní, v případě potřeby se vytížená jádra přetaktují,
zatímco ta nevytížená jsou vypnuta. Přetaktování se děje změnou
násobiče. Jak je vidět na schématu platformy v bloku věnovaném sběrnici
QPI, procesor (a také northbridge i southbridge) odvozuje svůj takt od
jednoho generátoru, který poskytuje frekvenci 133,33 MHz, proto se takt
jednotlivých jader v Turbo Mode mění v těchto krocích.

Každé
jádro má vlastní násobič, může tedy dojít k případu, kdy dvě jádra
budou vypnutá a zbylá dvě poběží každé na jiné frekvenci.

Vyplněním a odesláním výslovně souhlasíte s tím, že
vydavatel časopisu, obchodní firma Extra Publishing, s. r. o.,
Hrnčířská 23, 602 00 Brno, IČ 27689247, může využít vámi poskytnuté
osobní údaje (v tomto případě e-mail) k
obchodním a marketingovým nabídkám, a to až do písemného odvolání
vašeho souhlasu. Režim poskytnutí
osobních údajů se řídí aktuálním zněním Zákona o ochraně osobních údajů
č. 101/2000 Sb. Kdykoliv po vašem odmítnutí vám okamžitě přestanou být
zasílány další obchodní a marketingové nabídky.

Vstoupit do diskuse

Mirek Jahoda

Témata:

Procesory

Sdílet

Soutěžní otázky

Ceny

Nezapomeňte si přečíst

Termíny a další pravidla