Cortana dostane mnohem lepší vizuální vyhledávač. Pomůže jí Adam

15. 7. 2014

Pamatujete, když Google sestavil umělou neuronovou síť se 16 000 procesorovými jádry a nechal ji vyblbnout na 10 milionech obrázcích z náhledů videí z YouTube? Síť bez předchozích znalostí se začala učit a dokázala poznávat podobné objekty. Nakonec našla 20 000 různých předmětů, nejčastěji lidské obličeje, těla nebo kočky. Síť nevěděla, co vidí, ale na obrázcích našla stejné vzory a dokázala je přiřadit k sobě.

Výzkumné oddělení Microsoftu tento pokus samo cituje a chválí, ale zároveň reaguje pokročilejší verzí neuronové sítě, která je přesnější, rychlejší a úspornější. Google dal dohromady miliardu synapsí (spojení mezi jednotlivými umělými neurony), Microsoft sestavil řešení se dvěma miliardami synapsemi.

Stále je to o dva řády méně, než má lidský mozek, který slouží jako vzor. Vědci odhadují, že je v něm okolo 100 miliard neuronů a 100 bilionů synapsí. Výpočetní výkon se tedy stále nemůže rovnat našim biologickým procesorů, nesrovnatelná je také spotřeba. Příkon mozku, můžeme-li to tak nazvat, je okolo 20 W, kdežto počítačové farmy si řeknou o megawatty.

Ale zpět k Microsoftu. Jeho řešení nazvané jako Projekt Adam má nejen dvojnásobek spojení, ale je prý 50× rychlejší, dvakrát přesnější a k jeho provozu stačí 30× méně počítačů než neuronová síť Googlu. Je tedy více než tisíckrát efektivnější. Microsoft slibuje, že je i lépe škálovatelná, lze tedy přidávat další počítače a rozšiřovat výkon.

Klíčem je využití asynchronní architektury, kde se stav jednotlivých neuronů aktualizuje nezávisle na sobě, místo synchronní, kde je tento proces řízen centrálně. A zde s vyšším počtem počítačů roste režie, a tím padá výkon.

Co Adam umí? Microsoft jej vyškolil ve vizuálním vyhledávání. Předhodil mu 14 milionů obrázků z katalogu ImageNet, které jsou roztříděny do 22 000 kategorií. Díky tomu Adam dokáže poznat, že je na obrázku například pes. A nejen to, určí i rasu a skupinu. Microsoft konkrétně uvádí rozdíly mezi Welsh Corgi Pembroke a Welsh Corgi Cardigan.

Během 18 měsíců vědci vytvořili systém, který obrázky rozpoznává v pěti až šesti krocích, běžně se prý používají dva nebo tři. Co krok, to zpřesnění. Zůstaneme-li u obrázků psů, ta v první vrstvě odhalí obrysy. V další se zaměří na srst. Ve třetí sleduje další části těla jako tvar očí a uší. Čtvrtá monitoruje celkové postavení těla a pátá se zaměřuje na přesnější detaily, například obličeje.

Neuronová síť se časem zpřesňuje podobně jako člověk. Malé dítě pochopí, jak vypadá auto. Dospělejší jedinec už pozná část auta odraženou na lesklém povrchu, případně rychle jedoucí vůz, který ale jinak vypadá jako šmouha. Člověk ví, že je to auto. Obyčejný počítač by viděl jen cosi rozmazaného.

Použití v praxi? Adam a jemu podobné systémy lze nasadit ve vyhledávačích (Bing) a asistentech v mobilu (Cortana). Vyfotíte obrázek a telefon vám řekne, co vidí. Nejsou to jen rasy psů. Microsoft si věří, že jednou pozná konkrétní potravinu a díky tomu napíše její energické a nutriční hodnoty. Nebo budete mít vyrážku na kůži a mobil řekne, co to je a jestli je to vážné. Na druhém videu je vidět Adam v akci s Cortanou.

Sci-fi technologie nejsou až tak daleko. Strojové učení se nehodí jen k vizuálnímu vyhledávání ale všemu, k čemu je lépe přizpůsoben mozek. Běžné výpočty podle předem známých vzorců zvládají rychleji stávající architektury počítač. Neuronové sítě se samy učí a hledají významy. To se hodí také k analýze textu, řeči nebo překladu mezi jazyky.

Zdroj: Microsoft