Umělá inteligence na GPU má konkurenci z Číny, ASIC Cambricon má výkon 166 TOPS

27. 5. 2018

Trhu s výkonnými čipy pro výpočty umělé inteligence (či přesněji strojového učení/neuronových sítí) dominuje momentálně Nvidia. Ovšem vesměs se očekává, že by se tento trh měl postupně z obecných GPU přesunout na specializované obvody (čipy „ASIC“) navržené čistě pro AI. Takovým ASICem jsou TPU (nedávno byla představena jejich třetí generace) od Googlu a vyvíjí je také Intel ve své divizi Nervana. Čipy se ale zatím neobjevily v praxi a vypadá to, že tohoto papírového favorita předejde nečekaný nový hráč. A to firma Cambricon z Číny.

Cambricon jste zatím asi nemuseli zaregistrovat, ale nejde o úplně nové jméno. Tato firma totiž vyvinula AI blok „NPU“, který se loni na podzim objevil v procesorech Kirin 970 od HiSiliconu (Huawei) jako jeden z prvních speciálních akcelerátorů strojového učení v mobilech. Architektura Cambriconu se ale neomezí jen na nízkospotřebové aplikace v mobilech. Firma nyní vypustila také samostatnou a lze říci vysoce výkonou verzi, která by měla být schopna přímo konkurovat GPU používaným pro strojové učení v serverech a podobných nasazeních.

Výkon až 166 TOPS

Samostatný AI ASIC má označení Cambricon MLU100 a jde o čip vyráběný na 16nm procesu TSMC. Architektura je označená MLUv1 (MLU znamená Machine Learning Unit), ale jde zřejmě o variantu licencovatelného IP Cambricon-1A, které je použito ve zmíněném SoC Kirin jako jeho NPU. Zde je však vyškálována do značně větších rozměrů. MLU100 může dosahovat TDP 80–110 W, přičemž v 80W režimu běží na taktu 1,0 GHz a má vyvíjet teoretický výpočetní výkon 64 TFLOPS. Vedle toho je možné použít režim „high performance“ s taktem 1,3 GHz, který zvýší spotřebu až na oněch 110 W a výkon na 83,2 TFLOPS. Nejde o přetaktování, ale o regulérní konfiguraci, proti standardnímu režimu je v ní o něco snížena efektivita (což bude důvod, proč není tento takt výchozí).

Tyto výkony platí pro operace s plovoucí čárkou o poloviční přesnosti (FP16), které jsou pro strojové učení nejpopulárnější. MLU100 ale podporuje také výpočty s 8bitovými celočíselnými hodnotami (INT8), v nichž je výkon dvojnásobný. V standardním režimu tedy 128 TOPS a v HP dokonce 166,4 TOPS. Cambricon MLU100 by se při použití těchto datových typů hrubým teoretickým výkonem dal srovnat s GPU Volta GV100 od Nvidie (120 TFLOPS pomocí Tensor Cores, které ale používají FP16), a to i přes výrazně nižší spotřebu. Otázka ale je, jaká bude u obou řešení reálná „výtěžnost“ tohoto výkonu; čistě TOPS/TFLOPS tedy nemusí být všechno.

ČIp Cambricon ML100. Respektive jeho kovoý rozvaděč tepla (Zdroj: WikiChip)

Čip je vybaven pamětí typu DDR4 s kapacitou 16 nebo 32 GB, jejíž šířka sběrnice je 256 bitů (fyzicky 288 bitů, jelikož je používáno ECC). Běží na 3200 MHz efektivně a dodává tak čipu jen relativně nízkou propustnost (ve srovnání s nejvýkonnějšími GPU) 102,4 GB/s. Také TPU od Googlu začínalo v první generaci s pamětí DDR3 a v další generaci dosáhlo výrazného zrychlení asi mimo jiné díky výkonnějším pamětem. Je možné, že Cambricon také zvolil DDR4 pro začátek jako cestu nejmenšího odporu, a při dalším vývoji půjde stejným směrem a nasadí GDDR5 nebo HBM2.

Camrbicon ML100 v provedení karty PCI Express ×16, aktivní chladič

Cambricon by zřejmě mohl prodávat i samostatné čipy (ty by mohly být použity v určeních jako jsou samořídící automobily), ale pro serverová nasazení nabízí ASIC MLU100 ve formě akcelerátorové karty do slotu PCI Express ×16. Podle dostupných fotografií (či vizualizací) zabírá dva sloty a má nasazeno aktivní chlazení připomínající grafické karty (radiální ventilátor a průběžně profukovaný pasiv). Vedle toho ale má existovat i pasivní model, kde bude pasiv ochlazován průvanem vytvářeným ventilátory serverového šasi. V tomto ohledu tedy vypadá MLU100 stejně jako typické serverové výpočetní karty.

Pasivní provedení pro rackové servery

Jelikož Google TPU samo neprodává a nabízí je jen jako službu svého Cloudu, vypadá to, že by Cambricon MLU100 mohl být prvním ASICem konkurujícím v strojovém učení čipům GPU. Firma ale bude samozřejmě muset kromě hardwaru úspěšně zajistit také softwarovou stránku. Zdá se, že by měla mít dostupná SDK pro frameworky TensorFlow, Caffe a MXNet. Tyto akcelerátory si již také našly i nějaká uplatnění, nabízí je Lenovo jako možnost ve svých serverech ThinkSystem SR650, ovšem zatím asi ještě nejsou fyzicky dostupné.

Tento akcelerátor nebude poslední „Machine Learning Unit“, kterou čínská firma vyprodukuje. Podle webu WikiCHip bude následovat čip MLU200, který má zřejmě mít větší možnosti a flexibilitu (a nejspíš i výkon). Zatímco MLU100 je určen pro inferenci, tedy aplikaci hotových neuronových sítí, MLU200 má zvládat jak inferenci, tak trénování. Zda půjde stále o 16nm čip, nebo už bude použit 7nm proces, nevíme. Pro 7nm výrobu má Cambricon vyvinuté IP označení Cambricon-1M, jež má pro mobilní účely dosáhnout energetické efektivity až 5 TOPS/1 W a být dostupné ve variantách pro výkon 2, 4 nebo 8 TOPS. Pro srovnání, ARM u svého vlastního nedávno představeného licenčního IP pro umělou inteligenci Trillium slibuje 3 TOPS/1 W, rovněž na 7nm procesu.

Vstoupit do diskuse

Sdílet

Výkon až 166 TOPS

Autor článku

Jan Olšan

Témata:

Nejnovější

Anketa

Stali jste se někdy terčem nějakého podvodu?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Srovnání linuxových kompresorů dat: různé kompresní poměry a rychlost

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Využití knihovny scikit-learn pro zpracování a analýzu přirozeného jazyka (NLP), 2.část

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Asahi Linux na počítači od Apple: podpora hardware po čtyřech letech

Čeští středoškoláci očekávají vypuštění své družice na oběžnou dráhu. Má tam pálit laserem po jiných

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Umělá inteligence na GPU má konkurenci z Číny, ASIC Cambricon má výkon 166 TOPS

Sdílet

Výkon až 166 TOPS

Autor článku

Anketa

Stali jste se někdy terčem nějakého podvodu?

Kvíz týdne

Návody a tipy

Z našich webů

Srovnání linuxových kompresorů dat: různé kompresní poměry a rychlost

Krátké vlny: Odklad práva na digitální služby a Milouš Jakeš o kyberbezpečnosti

Stříteský: Obchodníci dostávají v zahraničí vyšší sankce a slevy mají výrazně omezené

Využití knihovny scikit-learn pro zpracování a analýzu přirozeného jazyka (NLP), 2.část

„Nemáme na tom zájem“. Opozice znovu brzdí televizní poplatky

Jak uplatní pracující důchodci u zaměstnavatele slevu na pojistném?

Asahi Linux na počítači od Apple: podpora hardware po čtyřech letech

Čeští středoškoláci očekávají vypuštění své družice na oběžnou dráhu. Má tam pálit laserem po jiných

Oznámení o osvobozených příjmech: Shrnutí povinností pro fyzické osoby

Dále u nás najdete

World of Warcraft slaví 20 let a stále se hraje

Ať Google prodá prohlížeč Chrome, navrhuje ministerstvo

Papírové letáky budou zpoplatněny, může jít o desetník za kus

Edge zkouší nový trik na uživatele Chromu

Čeští středoškoláci očekávají vypuštění své družice

Svařák bez alkoholu je skvělá varianta pro těhotné či abstinenty

Firmy mají řešit byznys, ne hledat účtenky, razí Fidoo

Vánoční slevy operátorů? Daleko za očekáváním

Prokletí slavného spisovatele: duševní poruchy a sebevraždy

SSD už také mají obrovskou kapacitu – až 122 TB

Deepl nově umí překládat v reálném čase řeč

Prémiové AI funkce: Stojí za příplatek?

Češi riskují s daty, podceňují zálohy i bezpečnost

Bezplatný Microsoft PC Manager vylepšen

Nitroděložní tělíska jsou spolehlivá a hodí se i pro mladé ženy

Od pokeru do dílny: Vyrábí v ní nábytek z ohýbaného betonu

USA zastavují dodávky pokročilých AI čipů TSMC do Číny

Ročně dostane ledvinu deset dětí, důležitá je velikost

Nejlepší dobou, kdy začít péct perníčky, je měsíc před Vánoci

Jihlava a Havlíčkův Brod mění daň z nemovitostí. Co další města?