Google se prý naučil lépe mluvit česky. Poslechněte si nový hlas

28. 8. 2019

Sdílet

Už jsou to tři roky, co vývojáři Googlu, resp. jeho sesterské společnosti DeepMind představili novou technologii WaveNet, která mj. přináší nový model syntézy hlasu. Google využívá neuronové sítě běžící na jeho vlastních procesorech TPU k tomu, aby se naučily generovat zvukové vlny odpovídající jednotlivým hláskám. Nejdříve tedy zpracují kvanta textů a jejich namluvené podoby, z čehož se následně samy naučí mluvit. A jde jim to lépe než stávajícím konkatenativním nebo parametrickým modelům, které využívají fragmenty skutečných hlasů, resp. lidmi připravené zvukové vlny.

Nové hlasy vytvořené neuronovými sítěmi začal Google ve svých produktech používat před rokem a půl, nejdříve jen v americké angličtině, ale později přidal i další jazyky. Od letošního února WaveNet mluví i slovensky a nově se naučil také česky. Google na svém blogu oznámil, že přidal 33 dalších hlasů a kromě češtiny umí ještě mandarínskou čínštinu, vietnamštinu, indickou angličtinu nebo maďarštinu. WaveNet tak mluví již 95 hlasy v 33 různých jazycích či jejich mutacích, u některých jazyků má více hlasů (různé varianty mužský i ženských).

Přidání nových jazyků bude důležité pro budoucí rozšíření služeb jako je Google Assistant, ale i dalších aplikacích. Překladač zatím stále mluví starým hlasem, ale předčítání v Google Go využívá nový model. Hlas WaveNetu nezní tolik roboticky, trhaně. Má lepší intonaci a přirozeněji na sebe navazují jednotlivé věty. Je však zvláštní, že zatímco v češtině a slovenštině nejsou mezi parametrickým modelem a WaveNetem tak velké rozdíly, v angličtině je to do očí (vlastně uší) bijící. Český parametrický hlas může paradoxně někomu vyhovovat více, protože zvuk je hlasitější a čistší, zatímco WaveNet zní jako by na něj byla aplikována příliš vysoká komprese.

TIP: Google připravuje nový překladač. Bude mluvit vaším hlasem

Hlasovou syntézu v různých jazycích si můžete vyzkoušet na cloud.google.com/text-to-speech. Stejný web je také místo, kde si mohou firmy i jednotlivci objednat hlasovou syntézu Googlu, aby ji mohli využívat ve svých produktech. Na videích níže najdete ukázky v češtině a angličtině.

Čeština: základní parametrický model

Čeština: WaveNet

Americká angličtina: základní parametrický model

ICTS24

Americká angličtina: WaveNet