Microsoft dosáhl milníku. Hlas rozpozná stejně dobře jako člověk

21. 8. 2017

Výzkumný tým Microsoftu vylepšil svou neuronovou síť určenou pro rozpoznávání a přepis mluveného slova do textové podoby. Už loni dosáhl míry chybovosti jen 5,9 %, což podle výzkumu odpovídá i lidským zapisovatelům. Pokud by ale zapisovatelů na stejném vzorku pracovalo více, chybovost by klesla na 5,1 %. A stejný milník teď po úpravě algoritmů pokořil i software Microsoftu.

Měření proběhlo dle metodiky Switchboard založené na vzorku 2400 telefonických záznamů s více než 500 lidmi. Switchboard se pro testování úspěšnosti rozpoznávání používá již přes 20 let. IBM ji už zpochybňuje a samo používá náročnější korpus CallHome. V něm lidští zapisovatelé dosahují chybovosti v průměru 6,8 %, software pak 10,3 %.

Microsoft CallHome nevyužívá, ale přistoupil na letošního poznámku IBM, že aby se stroj vyrovnal člověku, musí na Switchboardu chybovost klesnout na 5,1 %. To tedy Microsoft nakonec splnil. Dvanáctiprocentního zlepšení dosáhl doplněním nového akustického modelu a zlepšením predikce slov založené na historii hovoru.

Firma dodává, že je teprve na začátku. Musí ještě vylepšit citlivost rozpoznávání v zašuměném prostředí, lépe si poradit s různými přízvuky a také neuronovou síť naučit více jazyků. Lepší rozpoznávání hlasu pomůže zdokonalit Cortanu, překladač a jiné produkty.