Google učí umělou inteligenci, jak na fotografii poznat místo, které zachycuje

4. 3. 2016

Zaměstnanci Googlu Tobias Weyand a James Philbin spolu s Iljou Kostrikovem z Technické univerzity v Cáchách pracují na systému PlaNet. Jde o konvoluční neuronovou síť, která má napodobit, jak obrázky zpracovává mozek. Slouží k určení místa zachyceného na fotografii.

Svět rozdělený do geografických buněk

Vědci získali 126 milionů fotografií s vyplněnou polohou v EXIFu. Podle polohy je systém rozdělil do 26 263 geografických buněk. Neuronová síť tvořená 200 procesorovými jádry pak dva a půl měsíce vyhledávala souvislosti a vytvořila přes 97 milionů parametrů. U člověka by parametrem byl tvar budovy, barvy scenérie, zvířata, ale počítač vidí pouze podobné uspořádání pixelů.

Tvůrčí tým nechal vytrénovaný PlaNet analyzovat 2,3 milionu fotek z Flickru. Ty měly vyplněné geotagy, ale PlaNet je nebral v potaz, sloužily pouze pro ověření přesnosti. U 3,6 % fotografií dokázal systém určit umístění v na úrovni ulic, v 10,1% případů na úrovni měst, ve 28,4 % určil správně zemi a ve 48 % kontinent.

S takovou přesností PlaNet funguje

To na první pohled nevypadá dobře, jenže mezi fotkami byly i portréty, snímky domácích mazlíčků nebo jídel. U nich se nemá čeho chytit člověk ani počítač. Vědci si všimli, že PlaNet dokázal rozpoznat krajiny, budovy, sochy, rostliny, zvířata nebo typické národní znaky jako červené telefonní budky.

PlaNet pak srovnali s konkurenčním řešením Im2GPS a jeho datovou sadou čítající 237 fotek. Byl čtyřikrát přesnější v určení přesné polohy v úrovni ulic a o polovinu lépe odhadly i stát a kontinent. Došlo i na srovnání s trénovanými lidmi, testu se zúčastnilo 10 špičkových hádačů ze soutěžního webu GeoGuessr. V 50 kolech dokázal přesněji určit polohu počítač. Medián odchylek geopolohy byl u PlaNetu 1100 km, u člověka 2300 km.

Tyhle obrázky mu dělaly problémy (Pred: odhad, GT: skutečné místo)

Pro Google by to v budoucnu mohlo znamenat, že vylepší svůj vyhledávač i štítkování ve službě Fotky. Bude mít k dispozici větší datovou sadu pro učení, teoreticky může získat lepší výsledky. Navíc by si mohl pomoci dalšími daty. Tvůrci ve studii tvrdí, že například z fotky croissantu není možné pozici odhadnout, protože to již není ryze francouzská záležitost. Pokud se však ve stejném albu nebo s podobným datem pořízení u jednoho uživatele najde i fotka Eiffelovy věže, jde pravděpodobně o croissant koupený v Paříži.