Google umí lépe překládat do češtiny. Přibližuje se mluvené řeči

20. 4. 2017

Sdílet

 Autor: Redakce

Loni na podzim Google oznámil největší změnu ve svém překladači za posledních deset let. Do té doby používal standardní statistický frázový model, který hledal mezi dvěma spárovými slovníky stejná slova nebo slovní spojení. Dokázal tak přeložit všechna slova ve větě, díky zapojení sady pravidel použil i správné skloňování/časování nebo jiné perličky daného jazyka, ale výsledek nemusel dávat smysl.

Pak do překladů zapojil neuronovou síť, která se učí chápat smysl napsaného textu. Překlad už netvoří na základě frází, ale celých vět. Z počátku zapojil neuronové sítě jen do hlavních světových jazyků, teď je přidává i do češtiny nebo slovenštiny. Přirozenější a smysluplnější věty budou zatím dostupné jen mezi češtinou a angličtinou. Mezi češtinou a například němčinou se použije původní frázový model.

Zjistili jsme, že neuronová technologie zpracovává jazyky lépe, když se jich učí několik najednou. Stejně jako se člověk snadněji naučí novou cizí řeč, pokud už zná příbuzné jazyky. Máme například víc dat pro hindštinu než pro maráthštinu a bengálštinu a zjistili jsme, že když se je systém učí všechny současně, zkvalitní se všechny překlady o mnoho víc, než kdyby se je systém učil každý zvlášť,“ říká Google.

Novinka je dostupná ve webovém Překladači, vyhledávači a aplikacích pro Android (Play Store) a iOS (App Store). Brzy bude fungovat i v integrovaném překladači stránek v prohlížeči Chrome.

Co je na tomto systému překladu nového?

(Oficiální text Googlu bez redakčních úprav.)

Neuronový i statistický systém strojového překladu vycházejí z obrovského množství oficiálních překladů stejných dokumentů do vícero jazyků. Z nich systémy určují, jaký je mezi těmito jazyky vztah. Rozdíl je v tom, jak každý z těchto systémů tato data využívá. Neuronový překlad se neučí jazyky jako takové, ale sám se učí, jak překládat zadané texty, tak aby co nejvíce odpovídaly textům, které jsme mu poskytli k učení. Zatímco statistický systém porovnává vložená data podle předem zadaných gramatických vzorců.

bitcoin_skoleni

Podrobněji: Jedním ze způsobů, kterým se model „sám“ učí, je určování míry podobnosti jednotlivých slov a frází. Díky tomu neuronový překlad lépe pracuje s mnohoznačnými i řídce užívanými slovy. Dokáže totiž odhadnout jejich použití podle známých slov stejného druhu.

Například, slovo „tuřín“ se v běžné mluvě příliš nevyskytuje, ale neuronový systém na základě dat odhadne, že s ním ve větě může pracovat podobně jako se slovy „mrkev“ nebo „brambora“. K podobným závěrům je schopen dojít i na základě vstupů z různých jazyků, které se učí současně – když budeme mít více ukázkových vět o bramborách v holandštině než v islandštině, odhadne systém na základě znalostí z holandštiny, jak mluvit o bramborách islandsky.