Google vám bude rozumět i na diskotéce. Vyvinul k tomu technologii

16. 4. 2018

Sdílet

 Autor: Redakce

Možná už jste slyšeli o tzv. fenoménu koktejlové párty. Lidský mozek se dokáže soustředit na jednotlivé hlasy, přestože stejně hlasitě slyší mluvit i další lidi, případně jej ruší jiný šum. Osoba, kterou chce poslouchat, mu však připadá hlasitější.

Vědci tento jev studují již přes 60 let, ale zatím stále neví, jak přesně v tomto případě neuronová soustava dokáže hlasy oddělovat. Několik studií ukázalo, že záleží například na směru, ze kterých zvuky přicházejí, a že lepšímu porozumění pomáhá, když osobu vidíme mluvit.

Co je však přirozené pro člověka, s tím si těžko poradí počítač. Osm výzkumníků Googlu vypracovalo studii Looking to Listen at the Cocktail Party a v rámci ní vytvořili umělou neuronovou síť, která se naučila separovat hlasy.

Google Cocktail party Google od sebe dokáže oddělit dva současně mluvící hlasy

Trénink probíhal na 90 000 videích z YouTubu. Z přednášek na TED Talks a návodových videí vystříhali 2000 hodin záznamů, na kterých byly vidět obličeje osob a na pozadí nebyla hudba ani jiné ruchy. Software díky tomu poznal, jak vypadá zvukový spektrogram mluvící osoby i kdy osoba mluví, protože sleduje také vizuální stránku.

Výsledek je hodně přesvědčivý. Google dokázal oddělit dva současně hovořící komiky i sportovní moderátory, odstranil hluk v kavárně apod. Na stránce projektu najdete desítky ukázek včetně srovnání s konkurenčními programy. Těžko posoudit, nakolik účelově Google vybral videa, ale dle ukázek má nad rivaly navrch.

K čemu je tato technologie dobrá? Typicky bude využívaná pro strojové přepisy videozáznamů, vylepšení automaticky generovaných titulků na YouTubu nebo různé asistenční služby. Kupříkladu Skype dokáže v reálném čase překládat mluvené slovo do jiného jazyka. S podobnou technologií mu to půjde i v rušném prostředí. Případně při videohovoru zapnete filtr, který ztlumí bušení do klávesnice, štěkajícího psa nebo hluk zvenčí. Google sám tvrdí, že zkoumá, do kterých produktů technologii nasadí.

bitcoin_skoleni