Haswell je zde. Inovace a architektura nové generace procesorů Intel

1. 6. 2013

Sdílet

 Autor: Redakce

Vývojová strategie Intelu je jak známo charakterizována heslem „Tick-Tock“. To neznamená, že by inženýři střídavě tikali a tokali, nýbrž že v každoročně přicházející nové generaci procesorů vždy dojde buď k radikálnímu přepracování architektury, nebo mírným úpravám a přechodu na novější výrobní proces (ten je totiž riskantní, pokud by ho firma spojila s nevyzkoušenou architekturou). Haswell je generací prvního druhu, tedy tockem (asi nebudu jediný, kdo u tick-tocku nikdy neví, co je tick a co je tock). Na 22nm procesoru, od loňska prověřeném generací Ivy Bridge, tedy přichází procesor se značně vylepšenou architekturou.

Haswell pro desktopHaswell pro desktop

Novinek přináší Haswell víc než dost. Oficiální i neoficiální zdroje byly v průběhu loňska a letoška docela sdílné, takže vytrvalí čtenáři již spoustu věcí vlastně znají. V tomto článku najdete všechny možné teoretické informace o nových procesorech a s nimi spojené platformě, zatímco na ExtraHardware si budete moci přečíst praktickou recenzi desktopových modelů Core i5-4670K a Core i7-4770K s patřičnými testy výkonu.

Ačkoliv jsme vás čtenáře krmili informacemi, že Haswell vyjde 4. června (júna) na Computexu, stalo se to, že Intel ukončil embargo na část informací již dnes. Tento den tedy byly odhaleny čtyřjádrové varianty Haswellu. Pojďme se na tyto modely podívat. Nejprve v rychlosti přehled těch mobilních.

Mobilní modely (řada M)
Mobilní modely (řada M)

Mobilní modely (řada H)
Mobilní modely (řada H)

Řada M je u Intelu tradiční, tato čtyřjádra pro větší a dražší notebooky se instalují do mobilního socketu. Naproti tomu procesory s písmenem H v názvu se vyrábí v provedení BGA, určeném k permanentnímu připájení na základní desku. Výhodou řady H bude lepší grafické jádro – dokonce to nejlepší, jaké bude Intel mít. U čtyřjádrových čipů řady M (nemluvě již o extrémním MX) Intel počítá s instalací dedikované grafiky; řadu H však očividně chápe jako „APU“, určené k běhu s integrovaným grafickým jádrem. Těmito kousky pochopitelně mobilní segment končit nebude, více však Intel zatím oficiálně neodhalil.

Haswell pro desktop: rub a lícHaswell pro desktop: rub a líc

Nyní ještě seznam procesorů desktopových. Ty si zájemci budou instalovat do nového socketu LGA 1150 (bohužel nekompatibilního s generací Ivy Bridge a Sandy Bridge). Pozorné oko odhalí jednu výjimku – procesor Core i7-4770R, což je čip v provedení BGA. Ten se bude také přímo pájet na základní desku.

Desktopové modely 1

Desktopové modely 2

Desktopové modely 3

Čtyřjádrová verze Haswellu, která byla dnes odhalena, obsahuje dle Intelu 1,4 miliardy tranzistorů a křemík samotný měří 177 mm². To by alespoň mělo platit pro kousky vybavené prostřední verzí grafického jádra (HD 4600). Výše zmíněné řady H a R mají grafiku s větším přídělem výpočetních jednotek, takže jejich velikost by měla být vyšší. Dosti však již otálení, pojďme se podívat na ony technologické novinky – počínaje architekturou CPU.

Haswell: snímek jádra na waferu
Haswell: snímek jádra na waferu

 

Úvod a přehled modelů

Architektura CPU: posílené vykonávání out-of-order, čtvrtá ALU

Architektura Haswellu představuje docela radikální změnu oproti předchozím představitelům této vývojové linie (Sandy Bridge a Ivy Bridge), byť celková struktura zůstává stejná. Haswell přidává nové instrukční sady a zároveň je upraven pro vyšší celkový výkon na stejném taktu – jednak posílením a prohloubením celého systému vykonávání instrukcí mimo pořadí („out-of-order execution“), zároveň však po delší době přidává do jádra samotné nové výpočetní jednotky.

A to hned tu stěžejní – Haswell je (pokud vím) prvním procesorem architektury x86, jehož jádro disponuje čtyřmi ALU. Procesory Intel doposud disponovaly jen trojicí těchto jednotek pro základní celočíselné a logické operace (nově přidaná ALU jinak vykonává i bitové posuny). Pro srovnání: Bulldozer má na jádro dvě ALU, totéž P6, Bobcat, Jaguar či Atom; K7, K8 a K10, jakož i Conroe, Nehalem a Sandy Bridge mají tři. Zároveň přibyla i další (druhá) jednotka pro zpracovávání větvení a také nová AGU (provádějící ukládání do paměti). Další jednotky také zvyšují potenciální výkonnostní zisky aktivování HT.

Porty a organizace jednotek v jádře CPU
Porty a organizace jednotek v jádře CPU

S přidáním jednotek souvisí přepracování jejich celkového zapojení. Jádra Intelu používají systém portů, na něž jsou různé jednotky navěšeny, a v závislosti na své výbavě tak port může přijímat různé druhy instrukcí. Jelikož zejména porty 0 a 1 byly v minulosti poněkud přecpané, zvyšuje Haswell počet portů že šesti na osm (nové jsou 6 a 7), což by mělo omezit případy, kdy sice procesor měl volné jednotky, nemohl je však využít proto, že port již byl zabrán jinou operací. Nové uspořádání můžete vidět na slajdu z IDF 2013.

Vedle toho se Intel tradičně pokusil vymáčknout víc z dostupných výpočetních jednotek jejich efektivnějším využíváním a předcházením situacím, kdy procesor musí zastavit činnost. Jak je u nových architektur obvyklé, byla vylepšena predikce větvení. Jelikož Haswell má stejně dlouhou pipeline jako Sandy Bridge, je ztráta cyklů vlivem špatně odhadnutého větvení stejná jako u této architektury. Schopnější má být i přednačítání dat z paměti a CPU se efektivněji vyrovnává se situací, kdy nenajde data v cache a musí do paměti.

Parametry L1 a L2 cache
Parametry L1 a L2 cache

Systém mezipamětí cache byl také posílen. L1 a L2 mají stejnou latenci, velikost i asociativitu. L1 je tedy 32KB, osmicestná, a má latenci 4 cykly. Taktéž osmicestná 256KB L2 má latenci 11 cyklů. Jak při čtení, tak při zápisu mají mezipaměti dvojnásobnou propustnost. Zápisy a čtení z L1 probíhají v šířce 32 bytů (což odpovídá 256bitovému vektoru AVX), přičemž za takt lze učinit jeden zápis a dvě čtení (tedy 64 B). Mezi L1 a L2 lze přenést 64 B za takt. Přístup do cache by měl také být rychlejší v situacích, kdy data překračují hranici řádků (tzv. „cache line split“) a údajně byly eliminovány konflikty mezi jednotlivými banky. Další změnou je silnější TLB pro L2 cache.

 

Haswell zvětšuje různé buffery (zásobníky či fronty), které používá systém vykonávání instrukcí out-of-order. Procesor má díky tomu větší prostor k zařazování a přehazování instrukcí z kódu programu, což mu umožňuje lépe vytížit dostupné prostředky jádra, a tím dosáhnout vyššího výkonu (a to jak vícevláknového při použití HT, tak jednovláknového).

Out-of-order buffery Haswellu
Out-of-order buffery Haswellu

Jak narostly buffery mezi generací Sandy Bridge a Haswellem, můžete vidět na slajdu (který ukazuje i srovnání s Nehalemem). Jak vidíte, procesor nyní pracuje až se 192 instrukcemi a naráz může mít ve frontě 72 čtení z paměti a 42 zápisů. Zvětšily se i fyzické registry, takže procesor si bude moci „schovat“ více hodnot, čímž se omezí tlak na čtení a zápis do paměti v situacích, kdy registry definované architekturou x86/x64 nestačí. Z dalších vylepšení lze zmínit například také vyšší výkon při virtualizaci.

Haswell, virtualizace
Haswell, virtualizace

AVX2, TSX, BMI, FMA… co je nového pro programátora

Architektonické změny pokračují v Haswellu přidáním poměrně utěšené snůšky nových instrukcí. Před dvěma lety vydal Intel s architekturou Sandy Bridge nové vektorové instrukce AVX, pracující nad taktéž novou sadou 256bitových registrů. Dva roky na to Intel pokračuje s AVX2 (či AVX 2.0). Pokud znáte historii instrukcí SIMD, stačí asi, když vám řeknu, že AVX2 jsou jako SSE2, ale 256bitové. Zatímco AVX obsahovaly v podstatě pouze operace nad čísly s plovoucí desetinnou čárkou, AVX2 sadu kompletují přidáním operací celočíselných.

Haswell tímto rozšiřuje dostupnost 256bitových vektorových instrukcí na všechny druhy aritmetických operací. Zatímco původní AVX mělo význam zejména pro vědecké výpočty, celočíselné operace v AVX2 jsou zase požehnáním pro multimediální software – v tuto chvíli je již používá enkodér x264, nicméně v naší testovací metodice se to kvůli starší verzi ještě neprojeví. x264 ale mimochodem naráží na omezení formátu H.264, mnoho operací totiž 256bitový vektor nevyužije, a proto v nich AVX2 oproti instrukcím SSE2-SSE4 nepodává zrychlení. Protože však nastupující formát H.265 používá větší bloky a transformace, bude mu zřejmě AVX2 užitečnější.
Doplněno: Dle vývojářů zvedá momentálně (tj. v aktuální verzi) AVX2 celkový výkon enkodéru x264 asi o 5 %.

Haswell - nové instrukce
Haswell - nové instrukce

Naopak opět vědce potěší přítomnost instrukčního rozšíření FMA. Škarohlídi a příznivci AMD si zde připíší body – konkurence má tyto instrukce, kombinující do jedné operace sčítání a násobení, již od Bulldozeru. Intel podporuje jen destruktivní formu FMA3 (kdy výsledek přepíše jeden ze vstupních registrů dle volby programátora), zatímco AMD podporuje nedestruktivní FMA4 (v Bulldozeru) i FMA3 (v Piledriveru). Za tímto zmatkem stojí nerozhodnost Intelu, který nejdříve preferoval FMA4, ale pak obrátil na FMA3 v momentu, kdy už AMD z původního FMA3 přešlo právě na FMA4 a bylo již pozdě na nápravu.

Nové instrukce: FMA
Nové instrukce: FMA

FMA může u některých operací teoreticky až zdvojnásobit propustnost při výpočtu, v praxi ale většina algoritmů takové zisky nedocílí. Pro potřeby výpočtů v plovoucí desetinné čárce také Haswell podporuje instrukce někdy označované zkratkou F16C. Ty provádějí konverze hodnot s pouze poloviční, 16-bitovou přesností (základní či také jednoduchá přesnost hodnot s plovoucí řádovou čárkou je 32 bitů).

Podporovány by měly být i méně důležité nové sady BMI1, BMI2 a instrukce MOVBE (která slouží ke konverzi endianity dat).

TSX: paralelní výpočty bez zbytečného strachu

Hodně zajímavou a potenciálně revoluční novinkou může být hardwarová podpora konceptu zvaného transakční paměť. Tato technologie se bude skrývat pod značkou TSX (Transactional Synchronization Extensions). Jejím cílem je odstranit překážky pro paralelizaci úloh, vyplývající ze synchronizace jednotlivých vláken programu. Při vícevláknovém programování je totiž nutno hlídat, aby dvě vlákna najednou nepřistupovala do stejné oblasti paměti. Mohla by si totiž navzájem přepsat data, případně přečíst nesprávná data, protože ta byla jiným vláknem změněna.

Nové instrukce: TSX
Nové instrukce: TSX

Konvenčním řešení těchto synchronizačních problémů je použití zámků, které zajistí, aby ke konfliktům nedošlo. To však má negativní dopad na výkon, neboť vlákna musí čekat na uvolnění zámků a procesor není plně využit. Místo paralelní práce často jedno vlákno musí počkat, až první skončí – v extrémním případě bude výkon odpovídat jednojádrovému procesoru.

TSX: Hardware Lock Elision a Restricted Transactional Memory
TSX: Hardware Lock Elision a Restricted Transactional Memory

TSX dokáže tyto problémy podchytit na hardwarové úrovni. Procesor umožní paralelní spuštění dvou či více potenciálně konfliktních vláken bez zamykání a sleduje, zda se někde nevyskytne problém. Pokud ke konfliktu v přístupu k paměti či registrům skutečně dojde, výpočet se zruší a neslučitelné transakce jsou provedeny znovu, ovšem s uzamčením, které konfliktu předejde. Ve velké části případů se však riskování vyplatí a všechny úlohy v pořádku proběhnou paralelně – zatímco dříve by některé musely preventivně čekat. Díky tomu procesor stihne vykonat více práce.

Fungování TSX
Fungování TSX

Sledování paměťových přístupů se děje prostřednictvím L1 cache. Jde sice o hardwarovou funkci, vyžaduje ale softwarovou podporu ze strany programu. TSX bude existovat ve dvou variantách. Ta jednodušší, kterou Intel označuje jako Hardware Lock Elision (hardwarové ignorování zámku), by měla umožňovat běh kódu s podporou TSX i na starších CPU. Kritické sekce jsou totiž označeny kódy (instrukce XACQUIRE/XRELEASE), které starší procesory ignorují a správně použijí zámky. Druhá metoda, Restricted Transactional Memory, bude dávat programátorům širší možnosti, ovšem za cenu nekompability kódu se staršími CPU (TSX bude zřejmě vyžadováno pro spuštění programu). Tato metoda se totiž bude spoléhat na nové instrukce – XBEGIN, XEND, XTEST a XABORT.

 

Uncore Haswellu

Také infrastruktura kolem jader CPU, L3, severního můstku a grafické karty (tzv. uncore) vychází u Haswellu velice úzce z předchozí generace procesorů. Jádra přiléhají k blokům cache L3 a to vše je se severním můstkem (který obsahuje paměťový řadič) a grafikou propojeno prstencovou sběrnicí. Intel v této architektuře provedl drobné změny, zejména za účelem zvýšení výkonu.

Jednotlivé sekce L3 cache mají k dispozici větší propustnost (mělo by dojít k rozdělení celkového provozu na data a ostatní informace, přičemž obojí dostane vyhrazenou trasu). Zároveň sběrnice lépe vyvažuje zátěž, takže sdílení přenosového pásma (zejména co se týče provozu mířícího do paměťového řadiče) probíhá efektivněji. Přístup do paměti by měl dosahovat lepšího výkonu díky lepšímu řazení (fronty jsou delší).

Uncore Haswellu
Uncore Haswellu

Zároveň byla infrastruktura vyladěna za cílem snížení spotřeby, a to jak co se týče spotřeby při provozu, tak při nečinnosti. Bloky L3 jsou například nyní odděleny od příslušných jader, což umožňuje nezávislé řízení jejich spotřeby. Řízení provozu na sběrnici se řídí i hledisky spotřeby (a limitů TDP).

 

A dostáváme se k další velké změně. Procesory Haswell budou totiž přinejmenším v některých variantách vybavené relativně velikou a rychlou pamětí eDRAM (její velikost zatím nemáme potvrzenu, mohlo by jít o 128 MB na 512bitové sběrnici). O té jsme původně soudili, že bude sloužit toliko jako dedikovaná grafická paměť, nakonec je však skutečnost o poznání zajímavější.

Uncore Haswellu s grafikou GT3 a eDRAM
Uncore Haswellu s grafikou GT3 a eDRAM

Nakonec se z této paměti totiž vyklubala regulérní L4 cache, tedy mezipaměť čtvrté úrovně. Je plně sdílená mezi grafikou, hardwarem pro akceleraci videa a samotnými jádry CPU. K jejímu obsahu tedy bude mít přístup jakýkoliv program, nejen grafické úlohy, byť není zcela jasné, zda se chová úplně transparentně jako ostatní paměti cache. Zajímá-li vás, jak tato exotika vypadá na fotografii, můžete se pokochat snímkem čtyřjádrového Haswellu řady H nebo R, na němž jsou oba čipy dobře vidět. eDRAM je onen menší čip vpravo.

Haswell s integrovanou grafickou eDRAM (Zdroj: VR-Zone)
Haswell s integrovanou grafickou eDRAM (Zdroj: VR-Zone)

Grafické jádro: od bídy v Celeronech po Iris Pro

Jak již můžete vcelku dlouho vědět, Intel nachystal u Haswellu tři výkonnostní stupně grafických jader místo tradičních dvou (neformálně se hovoří o GT1, GT2 a GT3). Nová šarže GT3 obsadí výkonnostní příčku nad tím, co měl Intel doposud, a navíc od ní bude ještě existovat speciální verze s onou integrovanou eDRAM. Samotná architektura výpočetních jednotek (EU), či chcete-li shaderů, je ovšem přejata z generace Ivy Bridge. Podporovány jsou standardy DirectX 11.1, OpenGL 4.0 a OpenCL 1.2, Intel ovšem vyvinul i svá vlastní a specifická rozšíření (PixelSync a InstantAccess, viz zde).

Nová názvosloví grafiky Intel. Přichází Iris
Nová názvosloví grafiky Intel. Přichází Iris

Vedle existence tří (či čtyř) verzí čipu to Intel zamíchá také značením, viz ostatně příslušný slajd. Verze GT1 bude zřejmě rezervována pro Celerony a Pentia a zůstane jí název HD Graphics bez číslovky. Místo šesti EU jako doposud bude mít tato verze hned deset jednotek, takže výkon bude o něco lepší. Z GT2 se stane HD 4200, 4400 nebo 4600. Toto jádro dostanou desktopové procesory, jakož i notebookové čipy řad M, MQ a MX (tedy vše, co se osazuje do patice) a také Xeony E3 1200 v3, tam však půjde o „profesionální“ verze P4600 a P4700. GT2 má 20 jednotek EU (v Ivy Bridge to bylo jen 16).

Nejzajímavější kus, tedy GT3 s 40 jednotkami, se nachází jen v čipech s pouzdrem BGA, které se pájejí přímo na desku. Pro dvoujádrovou mobilní řadu U s TDP to 15 W bude Intel toto jádro označovat jako Intel HD 5000, pro modely s vyšším TDP pak Intel použije jméno Iris 5100. Čtyřjádrové čipy v provedení BGA, tedy mobilní řada H a desktopová R pak dostanou i zmíněnou eDRAM. Tato nejvýkonější varianta se bude nazývat Iris Pro 5200.

Schéma grafické architektury Haswellu
Schéma grafické architektury Haswellu

Schéma grafické architektury Haswellu: GT3
Schéma grafické architektury Haswellu: GT3

Je to snad poprvé, co Intel volí pro své grafické jádro jméno podobné tomu, co používá AMD (dříve ATi) a Nvidia. Dosavadní názvy (Extreme Graphics, Graphics Media Accelerator, HD Graphics) byly spíše nenápadné. Se zvučným Iris jako by se ale Intel odrážel k frontálnímu útoku na grafickou oblast. Stejně jako se k Radeonu a GeForce přidává Iris, přestává být Intel druhořadou silou a přechází rozmnožit první ligu – takové má alespoň asi být poselství za novou značkou, v praxi to Intel tak lehké mít nebude.

Pryč s HD, 4K na jeho místo!

Na tento rok Intel avizoval rozjezd obrazovek s rozlišením až dvakrát jemnějším než je dnes standardní „Full HD“ čili 1920 × 1080 bodů. Haswell tedy navyšuje podporovaná rozlišení až na takzvané „4K“. Maximální rozlišení grafiky bude záviset na několika věcech, zejména však na použitém výstupu. Přes DisplayPort bude Haswell díky povýšení na verzi 1.2 podporovat až rozlišení 3840 × 2160 bodů (frekvence 60 Hz) a totéž i přes rozhraní eDP na zabudovaném LCD v notebooku. HDMI bude také podporovat rozlišení 4K (až 4096 × 2304 bodů), ovšem jen do 24 Hz.

Analogový výstup nebude k dispozici na procesorech s integrovanou čipovou sadou (řady U a Y), na konvenčních procesorech se separátním jižním můstkem (který obsahuje potřebná hardware) však ano a zvládne 1920 × 1200 bodů při 60 Hz. Jeho aktivace nicméně omezí maximální rozlišení na primárním eDP (tedy obrazovce notebooku) na 2880 × 1800 bodů. Procesory s integrovanou čipovou sadou pak budou mít nezávisle na tom omezeno rozlišení přes eDP i DisplayPort na 3200 × 2000 bodů.

Haswell - maximální podporovaná rozlišení
Haswell - maximální podporovaná rozlišení

Obecně grafika zvládá provoz tří monitorů. Pro notebooky bude důležitá funkce Panel Self Refresh. Spočívá v umístění paměťového bufferu přímo do LCD, z něhož pak může být obnovován obraz bez jakéhokoli zásahu zbytku počítače. Pokud se tedy na obrazovce nic neděje, může se CPU i s grafikou směle vypnout. To doposud možné nebylo, grafické jádro totiž muselo stůj co stůj (obvykle šedesátkrát za sekundu) „přemalovávat“ obraz, ať byl jakýkoliv. Samozřejmě, pro použití tohoto zlepšováku potřebuje notebook speciální (složitější a dražší) LCD, takže v praxi to minimálně ze začátku asi bude vzácností.

Haswell přináší novou verzi technologie Intel WiDi s číslem 4.1, která má dosahovat nižších latencí a také bude šetřit energii, pokud cílové zařízení podporuje technologii Panel Self Refresh. Pokud totiž přenášíte obraz z notebooku běžícího na baterie, bezdrátové streamování je poměrně náročné na energii.

Quick Sync

Přítomen je i obvod Quick Sync, tedy specializovaný blok pro multimediální úlohy. V Haswellu také doznává značných změn. Integrovaný dekodér podporuje video o rozlišení 4K (oficiální materiály nehovoří o přesném rozlišení, zdá se však, že podporováno bude 3840 × 2160 i 4096 × 2304 bodů), přibude také dekódování formátů MJPEG, MVC a SVC.

Rozšířeny byly možnosti post-processingu: nově lze konvertovat gamut a snímkovou frekvenci. Dále se Intel chlubí „vylepšením“ pleťových tónů a také stabilizací třesoucího se videa pomocí kompenzace globálního pohybu scény. Tyto funkce nyní zřejmě budou mít svůj vyhrazený hardware (Video Quality Engine), zatímco dříve Intel pro post-processing používal jednotky EU (důvodem je opět snížení spotřeby).

Úprava pleťových odstínů pomocí Video Quality Engine
Úprava pleťových odstínů pomocí Video Quality Engine

Značně vylepšený je integrovaný enkodér. Přibyla mu podpora nových formátů, a sice klasického MPEG-2, a (což je zajímavější) také SVC. To je formát založený na H.264, který umožňuje jeden stream dekódovat v několika různých rozlišeních. Video produkované enkodérem je tedy zároveň použitelné v široké škále různě výkonných zařízení (mobil tedy dostane nenáročné video, zatímco desktop kvalitní HD s vysokým datovým tokem). Tedy pokud SVC podporují; tento formát není zrovna rozšířen; mohl by se ale vedle internetového streamování dobře uplatnit ve videokonferenčním softwaru.

 

Dle dostupných testů je Quick Sync již dnes jedním z nejlepších hardwarových enkodérů; v Haswellu si však má kvalita výstupního videa ještě o něco polepšit. Mělo by být možné nastavit určité parametry pro zvýšení kvality obrazu na úkor rychlosti, dostupné snad budou tři profily – rychlý, normální a vysoká kvalita. Celkově má být převod videa ale opět rychlejší než v Ivy Bridge.

Spotřeba a výdrž

Intel zdůrazňuje prakticky u všech komponent Haswellu, že mu šlo zejména o efektivitu a spotřebu; zaměření na mobilní sféru je zcela evidentní. V propagačních slajdech si můžete přečíst, že Haswell přinese největší zlepšení výdrže na baterie v dosavadní historii, o čtvrtinu nižší spotřebu v zátěži, či až dvacetinásobní snížení spotřeby v nečinnosti… to pochopitelně s lepší integrovanou grafikou a konečně i lepšími jádry CPU. Ve firemních testech údajně dokáže z 50Wh baterie vymáčknout devět oproti šesti hodinám videa, či dvojnásobnou výdrž v režim uspání do paměti S3 (viz slajd).

Slajd ke spotřebe Haswellu
Slajd ke spotřebe Haswellu

Jako obvykle platí, že verdikt nad spotřebou a výdrží na baterie může vynést jen test konkrétního hardwaru, omezme se tedy na to, co pro zkrocení spotřeby Intel udělal. V prvé řadě to bude snížení TDP. To se sice zdá se nebude týkat mobilních procesorů řady M (tedy typických čipů pro notebooky, tradičně s TDP 35 W), redukce se však plně projeví u modelů se sníženou spotřebou (řada U). Tam, kde ULV modely mívaly tradičně TDP 17W TDP, snižuje Intel tuto hodnotu na 15 W, ovšem s tím, že nyní je v ní nově zahrnuta i spotřeba integrované čipové sady.

Slajd k výdrži
Slajd k výdrži

Srovnání spotřeby mobilního Haswellu a Ivy Bridge
Srovnání spotřeby mobilního Haswellu a Ivy Bridge

Turbo Haswellu by mělo být optimalizováno pro nejnižší možnou spotřebu, stejně jako třeba chování linky obstarávající propojení mezi procesorem a čipovou sadou. Procesor agresivněji používá power gating k vypínání neužívaných bloků (nezávisle na sobě může odpojovat jádra, L3 cache, grafiku a interní prstencovou sběrnici). Haswell má „hlubší“ úsporné stavy (C7), snižující spotřebu nečinného procesoru, a navíc je jejich přepínání rychlejší – což je dovoluje vkládat častěji.

S0ix: spěte při práci, aniž by na to někdo přišel

Potenciálně největší dopad na výdrž mobilního zařízení má však režim S0ix, alias „Active Idle“. Jeho cílem je zachovat počítač v aktivním režimu při spotřebě tak nízké, že se blíží odběru při režimu spánku (S3). Právě režim S0ix může spotřebu v nečinnosti srazit až na zmíněnou dvacetinu konvenčních hodnot. Jde vlastně o hybridní stav mezi spánkem (S3) a aktivním režimem (S0).

Procesor v tomto režimu používá techniky podobné stavu, kdy je uspán, z pohledu operačního systému však zůstává zapnutý. Zatímco skutečné uspání stojí čas, mezi S0ix a S0 se procesor přepíná relativně rychle. Navíc vše probíhá transparentně pro operační systém, který se tak vůbec nestará o tom, zda je procesor „v limbu“, či ne. Přepínání mezi skutečně aktivním stavem a „aktivní nečinností“ (S0ix) si procesor řeší sám interně.
Doplněno: Režim S0ix budete moci využít pouze s čipy kategorie ULV (je možné, že vyžaduje Haswell s integrovaným jižním můstkem), to znamená mobilní procesory řad U a Y.

S0ix, alias Active Idle
S0ix, alias Active Idle

Intel se také snaží snížit spotřebu celého počítače (potažmo mobilního zařízení). Údajně by měl s výrobci spolupracovat na výběru komponent, aby klíčový hardware nebyl například v ultrabooku „zabit“ zlobivými komponentami s přílišným odběrem energie. Jednou z možností, jak vylepšit spotřebu, je například použití LCD s funkcí Panel Self Refresh, kterou jsme zmiňovali v kapitole o grafickém jádře.

Při vývoji úsporných technik pro Haswell se Intel údajně inspiroval svými zkušenostmi s výrobou čipů Atom pro telefony a tablety. Spotřeba v nečinnosti již u Haswellu údajně může atakovat hodnoty dosahované u tabletů (pochopitelně za použití adekvátních periférií, například úsporného úložiště typu eMMC). Postupným snižováním spotřeby v zátěži (škálováním výkonu směrem dolů) se proto zřejmě Haswell či jeho nástupci stanou i přímými konkurenty procesorů ARM.

 

Podobně jako tabletové procesory Atom tak zařízení s Haswellem teoreticky může běžet v takzvaném režimu „connected standby“, kdy je schopno udržovat připojení na internet a například přijímat emaily, volání (nebo tweety) či aktualizace z webu. Zároveň však potřebuje minimum elektřiny a vydrží na baterii několik dní či snad i týdnů.

Integrované napěťové regulátory a problém se zdroji ATX

Honba za nižší spotřebou se dotkne i desktopu, a to ve dvou ohledech – prvně změnami v napájení procesoru: Jak jste si mohli přečíst zde, Haswell ve jménu větší efektivity integruje na čip napěťové regulátory. Zatímco dříve bylo nutno CPU zásobovat několika druhy napětí, Haswell již bude zvnějšku napájen jen jedním napětím okolo 2 V, z kterého si již sám vytvoří to, co potřebuje (separátní napájení má prstencová sběrnice, jádra, L3 cache, severní můstek a grafika). Zůstává nicméně ještě separátní napájecí větev pro zásobování pamětí. Díky tomu je možné udržovat naživu jejich obsah i v momentě, kdy je CPU zcela odpojeno.

Schéma napájení Haswellu pomocí integrovaného regulátoru napětí
Schéma napájení Haswellu pomocí integrovaného regulátoru napětí

Druhým dopadem na uživatele desktopových CPU je již asi dostatečně známá „aféra“ s nekompatibilitou zdrojů. I ta pramení v honbě za snížením spotřeby. V nečinnosti, konkrétně při pobytu ve stavech C6 a C7, může Haswell odebírat značně menší proud, než tomu bylo u procesorů předchozích generací. Jelikož ale minimální zátěž, která byla v minulosti předepisovaná pro zdroje ATX na 12V větvi napájející CPU, činí celého 0,5 A, může se procesor Haswell svou spotřebou dostat natolik pod „potřebnou“ hodnotu, že to zdroj neunese. Když mu odběr na 12V větvi klesne pod minimální úroveň, může se vypnout či začít generovat napětí mimo normu.

 

Intel proto pro procesory Haswell stanovil novou hodnotu minimální zátěže na 12V větvi, která je jen 0,05 A. Výrobci zdrojů už na tento stav začínají reagovat a průběžně uveřejňují seznamy svých modelů, které tomuto požadavku vyhovují. Modely, u kterých je potvrzená kompatibilita, shromažďujeme do tabulky, kterou si můžete prohlédnout zde.

Ani pokud „kompatibilní“ zdroj nemáte, nemusíte zoufat. Problém se totiž týkají jen zmíněných úsporných stavů C6 a C7. Pokud jejich používání zakážete, bude se vaše CPU chovat postaru a na žádný problém nenarazíte. Podle zatím dostupných údajů budou takto z výroby nastavené všechny desky, takže by se v reálném provozu neměly vyskytnout problémy. Režimy C6 a C7 budou v základu vypnuté a v případě zájmu (a odpovídajícího vybavení) si je bude moci uživatel zapnout v BIOSu.

Čipové sady

Procesory Haswell pochopitelně budou doprovázet nové čipové sady, které byly doposud kódově označovány jako Lynx Point. Jako obvykle Intel uvede několik variant (fyzicky jde o totéž, jen některé funkce jsou vypnuté). Nadšencům pro hardware je určena sada Z87, pro běžné užití pak H87; dále pak Intel uvede minimálně ještě sady B85 pro menší firmy a Q85 a Q87 pro ty větší. V mobilní sféře pak se pak budete potýkat s modely QM87, HM87 a HM86. Nemáme bohužel zrovna přesné informace o tom, co Intel u konkrétních verzí vypnul (například nevíme, jak to bude s virtualizací), základní obrázek si nicméně můžete udělat z dostupných schémat.

Haswell - schémata čipsetů Haswell - schémata čipsetů Haswell - schémata čipsetů Haswell - schémata čipsetů Haswell - schémata čipsetů

Mezi nejvýraznější změny, které se dotknou běžného uživatele, je podpora až šesti portů USB 3.0 (kromě B85 a Q85). Všechny sady také podporují šest portů SATA, a to vždy na rychlosti 6 Gb/s. Z čipové sady se vystěhovaly digitální obrazové vstupy do procesoru a nadále již poskytuje pouze analogový výstup. Ve jménu světlých zítřků byla zcela odstraněna sběrnice PCI. Situace s přetaktováním se nemění, k plnému využití jeho možností budete potřebovat sadu Z87, která také jediná podporuje rozdělení linek slotu PCI Express ×16 za účelem provozu SLI či CrossFire.

Srovnání čipových sad sedmé a osmé řady
Srovnání čipových sad sedmé a osmé řady

Specialitou je jednočipová varianta Haswellu pro ultrabooky (tedy dvoujádra řad U a Y) v provedení BGA. Ta má totiž svůj čipset integrován v pouzdře. A tento model má několik specialit. Nepodporuje například disky SATA v režimu IDE a také ztratil funkci analogového obrazového výstupu. Zvládnout by měl čtveřici portů USB 3.0 a osm USB 2.0, čtyři porty SATA (tři na rychlosti 6 Gb/s), přidává dvojici sériových rozhraní a také SDIO. Z procesoru je vyvedených 6 linek PCI Express 2.0, dalšími osmi je spojen s procesorem (tzv. OPI, čili „On Package Interface“). Sběrnice DMI ani FDI použita není a z procesoru samotného již další linky PCI Express nevycházejí.

Varianta čipsetu integrovaná v pouzdře čipů ULV
Varianta čipsetu integrovaná v pouzdře čipů ULV

Pozor na první revize čipových sad, aneb chyba v USB 3.0

U čipových sad je nicméně třeba upozornit na jednu věc. Intelu se opět podařilo seknout při návrhu nepříjemnou chybu, která byla bohužel objevena příliš krátce přes uvedením, než aby ji bylo možno včas opravit (podobně jako při uvedení minulého „tocku“, tedy Sandy Bridge). Jde o to, že zařízení připojená k rozhraní USB 3.0 se po probuzení ze spánku nemusí korektně „zresuscitovat“ a uživatel je bude muset odpojit a připojit. Chyba se údajně týká jen omezeného okruhu klíčenek pro USB 3.0 a není kritická. Pouze budete muset znovu načíst soubory otevřené před uspáním, zruší se vám přehrávání videa a tak podobně. Ztráta či poškození dat prý nehrozí.

Čipová sada Z87...
Čipová sada Z87...

... a její zadek.
... a její zadek.

Jak již bylo řečeno, na výrobu nové revize už nebylo dost času. Intel se proto rozhodl, že nebude uvedení Haswellu na trh zdržovat, a čipsety pošle výrobcům i s chybou. Základní desky, které si zprvu budete moci koupit, budou tedy tímto neduhem postiženy. Opravená revize C2 se má z továren dostat až během července (júla), je třeba ale počítat s určitou setrvačností. Stoprocentně korektní desky a notebooky bych tedy čekal ažněkdy s podzimem. Chyba se jinak týká jen samostatných čipových sad, u jižního můstku integrovaného v jednočipovém Haswellu se ji zřejmě podařilo zachytit včas, či shodou okolností nevznikla.

 

Závěr. Aneb TL;DR…

Nyní na závěr byste určitě rádi viděli nějaké stručné zhodnocení toho, co s Haswellem Intel předvedl (obzvláště, pokud jste předchozí kapitoly jen přelétli). Nu, na tuto architekturu se lze dívat různě. Zájemci o desktopový procesor si možná už stěžují, že se po letech čekání z hlediska výkonu či taktů zase nic světoborného nekoná (a v mnoha ohledech budou mít pravdu). Leckoho naproti tomu může nadchnout integrace paměti eDRAM či napěťových regulátorů. Považte, desítky wattů příkonu, transformované tranzistory přímo v procesoru.

Programátoři otevřou láhev, protože bude na světě konečně procesor s plnou podporou 256bitových instrukcí SIMD, o rozšíření FMA nemluvě. Jiní programátoři bude ještě zmámenější, protože transakční paměť je něco ve světě procesorů pro PC naprosto nového.

Taháky Haswellu dle Intelu
Taháky Haswellu dle Intelu

Haswell bude bezesporu velkou událostí v noteboocích (a placatých či jinak progresivních zařízeních, která by notebooky údajně chtěla nahradit). Na různých vylepšeních snižujících spotřebu odvedl Intel kupu práce, problém je jediný: toto ovoce ukáže svou chuť až v konkrétních zařízeních, ve kterých Haswell najde domov. Autor těchto řádků zde tedy nemůže říct: „ano, bude to pecka!“ Výdrž na baterii nám ale nepochybně vzroste, na klíně nám to bude méně topit a na design zaměřené notebooky možná budou (už zase) o něco tenčí.

Haswell ultrabookům
Haswell ultrabookům

Na Haswellu a jeho mediální propagaci je vidět, jak moc se Intel snaží z počítače udělat atraktivní zařízení. Dnešní PC zdaleka nejsou šedé bedny (dobrá, můj desktop šedý je, ale budiž), nicméně proti tabletům a chytrým telefonům, které jakoby dnes táhly veškerou pozornost, je PC velké, těžkopádné a trochu staromódní (totéž lze říci i o tradičním notebooku). Co na tom, že je funkční, zvládne ohromnou šíři úloh a flexibilností či výkonem zadupe celý „post-PC“ sektor do země.

 

Aby tato popelka nezůstala na ocet, snaží se jí Intel zatraktivnit – z velkých desktopů se stanou maličké (NUC) či počítače „typu all-in-one“, z velkých notebooků malé, dotykové, a třeba ještě konvertibilní. BGA pouzdra procesorů, snaha dotlačit je na nižší TDP, za tím vším je snaha, aby PC bylo stejně atraktivní, malé, lehké a mobilní jako ony „post-PC“ hračky. Přitom si však zachovalo své funkce. Myslím, že takovéto omlazení hardwaru PC (a procesorů architektury x86) může být potenciálně velmi důležitou věcí, neboť zachová seriózní funkcionalitu PC i v případě, že PC jako takové takzvaně umře a svět skutečně ovládnou telefony a podobná zařízení.

ICTS24

Na takovýto černý scénář ovšem nevěřím (slabé prodeje PC jsou způsobeny tím, že lidé nepotřebují zatím vyměnit své existující počítače, nikoliv tím, že by na ně zanevřeli). I tak ovšem iniciativa Intelu svět počítačového hardwaru může revitalizovat. I pokud by celá tato snaha „být cool“ byla pomýlená, Haswell přináší spoustu technologických novinek, za které určitě zaslouží pochvalu. Byť tyto inovace třeba teď hned neovlivňují výsledky benchmarků.

Haswell, krabička desktopového modelu
Haswell, krabička desktopového modelu