Microsoft spolu s výrobci notebooků a procesorů plánuje příchod tzv. AI PC (a svou vlastní verzi prý chystá také Apple, až vydá procesory M4). Tato zařízení budou potřebovat výrazně vyšší výkony, aby mohla provozovat pokročilé neuronové sítě lokálně na vlastním hardwaru. Intel se teď pochlubil výkonem chystaných procesorů Lunar Lake, které přijdou koncem roku do mobilních zařízení jako Core Ultra druhé generace.
Lunar Lake jsou čipletové procesory používající 3nm výrobní proces TSMC, které vyjdou na konci roku 2024 nebo začátkem roku 2025 jako Core Ultra druhé generace a budou specializované na mobilní segment, zatímco výkonnější procesory bude ve stejné generaci zajišťovat sesterská architektura Arrow Lake.
Intel již před nedávnem sdělil, že Lunar Lake má mít víc než trojnásobný AI výkon v TOPS proti první generaci Core Ultra (Meteor Lake), u níž se uvádí jen 10 TOPS, nicméně nesdělil přesné číslo. Nyní během akce Vision 2024, kde také oznámil 4nm procesory Meteor Lake do socketu LGA 1851, ale CEO Patrick Gelsinger prozradil, že výkon dosáhne 45 TOPS, což má být laťka Microsoftu pro lokální umělou inteligenci.
Gelsinger ale teď řekl další, zajímavější číslo – souhrnný výkon celé platformy, čímž se myslí i se zahrnutím jader CPU a GPU. Takto má mobilní procesor Lunar Lake dosáhnout víc než 100 TOPS. Pokud počítáme, že jádra CPU, která mají jen 256bitové SIMD instrukce AVX2 a VNNI256, budou pravděpodobně dodávat jen jednotky TOPS, pak z toho vychází, že integrovaná grafika Lunar Lake by mohla dodávat okolo 50 TOPS (ne-li víc) výkonu pro AI aplikace.
Hodně dobré iGPU v Lunar Lake?
Pokud AI ponecháme na chvíli stranou, toto by mohlo znamenat, že procesor má hodně výkonné GPU, s kterým by mohl překvapit například v herních handheldech (zda to bude dost, aby nachytal AMD nepřipravené, to je jiná otázka). AI výkon v TOPS obvykle znamená operace s 8bitovými celočíselnými hodnotami (INT8). Pokud by tento výkon byl poskytovaný na jednotkách XMX, pak to nic moc neříká o standardním grafickém výkonu, ale pozor – u integrované grafiky v Meteor Lake Intel XMX vyhodil, protože duplikují funkci NPU. To samé by tedy mohlo být provedené u Lunar Lake, které ovšem používá už novou architekturu Xe2 LPG (Battlemage), takže předpoklady založené na dnešní generaci GPU Intel Arc a Meteor Lake nemusí platit (v dobrém i ve zlém).
Pokud Lunar Lake nemá XMX a 50 TOPS dosahuje na svých klasických výpočetních jednotkách, pak by výkon GPU v hodnotách FP32 mohl být okolo 12,5 TFLOPS (protože u SIMD jednotek jsou operace s čtvrtinovou šířkou datového typu 4× výkonnější). A to není na integrované GPU vůbec špatné, Ryzeny 8000 „Hawk Point“ by měly na grafice Radeon 780M mít 8,3 TFLOPS, a to je ještě po započtení dual-issue architektury RDNA 3. Bez této funkce, jejíž praktický přínos je zatím spíš omezený, by to byla polovina (nicméně podobně to může být i s TFLOPSy u Battlemage a Lunar Lake). Mimochodem, mobilní Ryzen 9 8945HS (nyní nejvýkonnější notebookový procesor v nabídce AMD, má oficiálně udávaný celkový výkon platformy 39 TOPS, v porovnání s oním >100 TOPS u Lunar Lake. AMD ale do té doby také může vydat novou generaci Strix Point.
Je tedy možné, že grafika Lunar Lake bude překvapivě nadupaná a mohlo by v případě, že se Intelu podaří včas dosáhnout dobré stability a optimalizace ovladačů, jít o takové malé mobilně-herní monstrum. Ještě je tu tedy jedna možnost, na kterou je třeba si dát pozor: Pokud by těch 100 TOPS bylo v operacích INT4, pak by vycházel grafický výkon v FP32 pouze poloviční, tedy cca 6,25 TFLOPS). Uvidíme, zda v tomto není háček…
Lunar Lake by podle tohoto paradoxně mohlo být úplně na ruby proti tomu, co byste od Intelu historicky čekali – tedy může být slabší hlavně ve výkonu CPU (oproti vysokému výkonu GPU a NPU), kde nabízí jen čtyři velká jádra a čtyři malá E-Core, což by se při tradičním pohledu dalo asi označit za ekvivalent šesti velkých jader.
Architektura E-Core u procesorů Lunar Lake a Arrow Lake ale prý bude značně vylepšená (objevují se drby, že by dokonce mohla ukázat větší pokroky než nové P-Core), takže je možné, že SoC bude schopný dodávat víc výkonu, než se zdá ze suché informace, že má konfiguraci 4+4. Samozřejmě ale nevíme, jak dobře bude Lunar Lake schopno potenciální výkon realizovat v rámci omezených spotřeb, s nimiž bude muset v noteboocích operovat.
Celkový AI výkon může být ošidná metrika
Je třeba upozornit, že je dost otázka, zda nějaké aplikace budou vůbec schopné využít celé takto udávané „výkony platformy“ jako těchto 100 TOPS, tedy kombinovaný výkon CPU, GPU i NPU. Potřebovaly by totiž rozložit své výpočty mezi různé výpočetní backendy s různým přístupem k paměti a různou architekturou, nemluvě o tom, že jde o různá zařízení, která nejsou nijak spojená dohromady.
Obvykle se s tím asi aplikace nebudou párat a poběží buď jen na GPU, nebo jenom na NPU, případně s nějakou asistencí procesoru či GPU pro část pomocných výpočtů, preprocessingu a různých obslužných operací, které nepoběží přímo na maticovém hardwaru NPU nebo na GPU. Dost bude samozřejmě i záležet na tom, pro jaké backendy aplikace bude napsaná a odladěná, z tohoto důvodu může někdy zůstat specializovaný hardware, který by teoreticky určitou AI mohl pohánět, nevyužitý.
Zdroj: Tom’s Hardware