Strojové učení či umělá inteligence je dnes možná nejperspektivnější oblastí výpočetní techniky. Dobře se do ní podařilo naskočit Nvidii, ale hardware pro tuto oblast nabízí nebo by chtěla nabízet celá řada větších i menších firem. Nyní se k nim přidává i britský ARM, známý procesorovými jádry používanými v čipech pro mobilní zařízení.
„AI“ projekt firmy ARM nese jméno Trillium. ARM pod tímto názvem vyvine procesory, respektive koprocesory speciálně určené pro výpočty umělé inteligence. Na této architektuře pak budou moci být založené jednak akcelerátory integrované třeba v mobilním SoC, ale třeba a specializované čipy pro auta nebo samostatné výkonné čipy pro datacentra, podobné třeba TPU od Googlu. Fungovat to přitom bude na obchodním modelu, který spektakulárně zafungoval u mobilů: ARM architekturu navrhne a zpřístupní výměnou za licenční poplatky a samotné fyzické procesory či akcelerátory už pak bude moci vyrábět kdokoli.
V rámci projektu Trillium chystá ARM dvě linie procesorů: jednu pro strojové učení (procesor ML), druhou pro detekci objektů (procesor OD). Obojí budou výrazně specializované architektury, bude tedy možné mluvit o „ASIC“ čipech. Zcela specializované obvody by přitom pro tuto roli měli být řádově efektivnější než dnes používaná GPU – na stejný výkon jim má stačit mnohem menší čipy a také méně energie. Obecně se proto očekává, že ASICy nahradí v této roli GPU, takže ARM zde má příležitost svou architekturou zaujmout důležité pozice. Přechod na ASICy ostatně větří i Nvidia, neboť její Tensor Cores v architektuře Volta jsou krok tímto směrem, byť stále spojený s obecným GPU.
Už první generace AI procesorů Trillium má dle ARMu přinést masivní navýšení efektivity proti GPU a CPU, firma ale zatím nezveřejnila moc detailů a zatím prozradila jen jejich obecnou „vizi“. Toto IP bude partnerům poprvé dostupné někdy v průběhu letošního roku, v praxi se tedy objeví až za nějakou dobu – ARM ve své prezentaci udává jako příklady 7nm čipy, takže se asi bavíme o produktech, které přijdou na svět až někdy v roce 2019 nebo později.
Procesor ML
Procesor ML, tedy ona první kategorie procesorů pro strojové učení – čili pro aplikaci (tzv. inferenci) neuronových sítí – by podle dokumentů ARMu být založená na paralelní architektuře s jádry kombinujícími bloky s fixní funkcí a programovatelnou část. Akcelerátory založené na této architektuře mají do mobilních čipů přinést výkon víc než 4,6 TOPS (tera operací za sekundu, ekvivalent TFLOPS, ale v 8bitových celočíselných operacích). Různými optimalizacemi má být možné výkon ještě navýšit, efektivita má ale být až 3 TOPS na jeden spotřebovaný watt. Z toho vyplývá, že ARM počítá s akcelerátory o zátěžové spotřebě okolo 1,5 W.
Pro srovnání: Tensor Cores v GPU Nvidia GV100 (Volta) mají dnes udávaný výkon 120 TOPS při TDP 300 W, takže teoreticky 0,4 TOPS/W. Implementace v Tegře Xavier by měla být efektivnější, jak jste nás upozornili v komentářích, s 1,0 TOPS/W. Každopádně ARM má zatím architekturu těchto procesorů jen na papíře, takže je třeba jeho čísla brát s rezervou.
Procesor OD
Zatímco první IP bude pro strojové učení, druhá architektura (procesor OD), kterou ARM chystá, bude specializovaná na prvotní detekci objektů v obrazových datech. To lze sice také provádět neuronovými sítěmi a dnes se tak činí, ovšem architektura ARMu má být pro tuto roli speciálně navržena a bude díky tomu efektivnější. Oba akcelerátory by v praxi ovšem měly spolupracovat. Procesor OD by například v obraze či videu (zmíněno je rozlišení FullHD při 60 snímcích za vteřinu) v reálném čase vyhledávala věci, třeba postavy a tváře, které je třeba dále identifikovat, a neuronová síť běžící na procesoru ML by poté důkladněji analyzovala už jen tento vybraný subset dat, aby například osoby identifikovala.
Procesor OD kromě samotného nalezení lidí na videu dokáže ale také rozpoznat jejich gesta, jakým směrem jsou otočeni nebo jejich trajektorie při analýze více snímků.
První generace těchto licenčních architektur mají být určené zejména pro mobilní použití, tedy coby akcelerátory s relativně malou spotřebou. V následujících pokoleních ale ARM zřejmě chce zaútočit i na pole výkonnějších samostatných akcelerátorů, takže by tyto čipy asi mohly začít konkurovat čipům od Nvidie v datacentrech nebo v automobilech. Spolu s architekturami pro ně bude samozřejmě vyvíjen také sofware, který by měl spolupracovat se zavedenými framewoeky jako NNAPI v Androidu, mxnet, Caffe, Caffe2 a TensorFlow. ARM chce údajně stavět na open source kódu, což by také mohlo být plusem.
ARM dorazil na párty pozdě, dokázat by ale mohl hodně
Pokud by se ARMu podařilo se v této oblasti prosadit podobně jako v mobilní oblasti s procesorovými jádry (a nyní již i GPU), mohly by AI architektury Trillium mít velký význam. ARM jako dominantní AI hráč by byl asi pozitivní v tom, že by přinesl poměrně standardizovanou a otevřenou platformu pro strojové učení. Uživatelé by pak mohli volit pro své potřeby hardware od mnoha různých výrobců, podobně jako je dnes pestrý výběr procesorů ARM. Taková komoditizace by zřejmě také zaručila, že AI procesory budou poměrně levné a dostupné, zatímco momentálně dominující proprietární řešení mají tendenci být dost drahá.
Ovšem zda se takový průlom ARMu povede, to je dost ve hvězdách. O obor AI se ucházejí i třeba těžké váhy jako Intel (s ASICy Nervana, a čipy/IP Movidius) a ARM do něj vstupuje poměrně pozdě. Čistě v mobilech by ale asi díky svým existujícím vztahům mohl mít s AI bloky Trillium slušnou šanci, což může být odrazový můstek pro další expanzi.