Intel uvádí Myriad X, miniaturní akcelerátor pro AI a strojové vidění s výkonem 4 TOPS

29. 8. 2017

Umělá Inteligence – a hardware sloužící jako její výpočetní zdroje – jsou dnes považovány za velmi perspektivní oblast. Nepřekvapí proto, že se do ní snaží dostat Intel, hledající další místa pro expanzi v situaci, kdy se osobních počítačů prodává každoročně spíš méně. Polovodičový obr na umělou inteligenci útočí dokonce na několika frontách – chystá pro ni Xeony Phi Knights Mill, zcela specializované akcelerátory Nervana, ale i FPGA Altera. A pro umělou inteligenci má ještě čtvrtou technologii – čipy Myriad získané akvizicí firmy Movidius. Nedávno byl uveden na trh demonstrační a vývojářský hardware pro tyto procesory, klíčenka Neural Computing Stick, založená na dřívější, druhé generaci technologie, čipu Myriad 2. Krátce na to má ale teď Intel hotového následníka: zcela nový čip Myriad X, který nyní uvádí na trh.

16nm Movidius

Intel (a Movidius) označuje čipy Myriad jako „VPU“, což znamená visual processing unit. Jde totiž o akcelerátory míněné ani ne tak na obecnou umělou inteligenci, ale na tzv. počítačové vidění, kdy neuronová síť analyzuje obrazová data například z kamery. A s aplikací se počítá přímo v zařízeních, které takto „vidět“ potřebují, například v robotech, dronech, bezpečnostních kamerách a podobných zařízeních. Čipy Myriad jsou proto malé a úsporné SoC, což umožňuje jejich integraci třeba i na USB klíčenku. Jde tedy o zcela jinou kategorii než výpočetní GPU a jiné výkonné akcelerátory, které se v souvislosti s umělou inteligencí vynořují (například TPU Googlu).

Čip Movidius Myriad X, verze s integrovanou pamětí LPDDR4

Čip je vyráběn u TSMC, proti předchozí generaci ale na podstatně modernější technologii. Myriad 2 ještě používal 28nm proces, ale Myriad X přechází na FinFETové tranzistory na 16nm procesu (konkrétně 16nm FFC). Jde o malý čip s BGA pouzdrem o rozměru 8,1 × 8,8 mm, který podporuje připojení na rozhraní USB 3.1 (předchůdce uměl jen USB 3.0) a nově také PCI Express 3.0. Primárně ale asi bude často používáno hlavně USB, které je častěji dostupné jako periférie na různých levných ARM čipech pro embedded použití. Intel bohužel neuvádí spotřebu, patrně by ale opět měla být někde okolo 1–2 W.

Myriad X je složen z několika komponent. Obsahuje čtyři obecná procesorová jádra. K tomu je navíc připojeno 16 vektorových jednotek nazvaných SHAVE (Streaming Hybrid Architecture Vector Engine) s architekturou typu VLIW o šířce slova 128 bitů. Výpočty by měly být možné v celočíselných 8bitových hodnotách a v FP16. Jednotky mají přístup k 2,5 MB integrované rychlé paměti přímo v čipu, kromě toho pak čip podporuje také externí paměť LPDDR4. Ta může být vně na PCB, ale Intel bude dodávat také variantu s 512 MB (4 Gb) paměti LPDDR4 napájené na pouzdro čipu.

Schéma čipu Myriad X

Neural Compute Engine

A ještě zvlášť je pak integrován specializovaný akcelerátor pro AI kód, tedy neuronové sítě – ten se pro změnu jmenuje Neural Compute Engine. Tento akcelerátor má mít teoretický výkon pro aplikaci neuronových sítí až 1 TOPS (tera operací za sekundu) a je u čipu myriad X nový, předchozí čip používal jen obecné vektorové jednotky. Celý čip má jinak mít výpočetní výkon až 4 TOPS (obdoba TFLOPS, ale v celočíselných operacích). Zdá se tedy, že jeho obecnější vektorové jednotky určené pro další zpracovávání obrazu mají větší důležitost, než samotná akcelerace AI. Myriad X má podle Intelu být až 10× výkonnější než Myriad 2, ovšem patrně jde o ideální situaci, firma zmiňuje, že tento rozdíl ve výkonu nastává při běhu více neuronových sítí současně.

Kromě AI akcelerátoru jsou navíc integrované i různé speciální bloky pro zpracování obrazu. Je jich přes dvacet a přebírají zpracování různých specifických úloh (Intel uvádí například výpočty hloubky stereoskopického obrazu, detekci pohybu v obrazu, tzv. „optical flow“). V typické aplikaci by čip měl být připojen k jedné nebo více kamerám či senzorům – podporuje jich až osm s HD rozlišením, pro jejich připojení je vyvedeno 16 rozhraní MIPI CSI. Podle Intelu je údajně možno zpracovat až 700 megapixelů za sekundu. Pro výstup má pak čip pro změnu hardwarové enkodéry videa, zvládající 30 snímků za vteřinu v 4K HEVC nebo H.264 a 60 snímků za vteřinu ve formátu MJPEG.

Pro procesory bude dostupné SDK obsahující kompilátor pro neuronové sítě a framework pro vývoj vlastních aplikací používajících strojové učení a zpracování obrazu na čipu VPU. Neuronové sítě by mělo by být možné na čip portovat z frameworků Caffe a Tensorflow pomocí automatické konverze. Kdy nicméně tyto čipy budou dostupné pro zákazníky, v materiálech Intelu uvedeno není. V nějaké dostupné formě pro experimentování se nejspíš objeví až relativně za dlouho, jelikož Neural Compute Stick s předchozím 28nm čipem se sotva dostal na trh.