Google umí lépe překládat do češtiny. Přibližuje se mluvené řeči

20. 4. 2017

Loni na podzim Google oznámil největší změnu ve svém překladači za posledních deset let. Do té doby používal standardní statistický frázový model, který hledal mezi dvěma spárovými slovníky stejná slova nebo slovní spojení. Dokázal tak přeložit všechna slova ve větě, díky zapojení sady pravidel použil i správné skloňování/časování nebo jiné perličky daného jazyka, ale výsledek nemusel dávat smysl.

Pak do překladů zapojil neuronovou síť, která se učí chápat smysl napsaného textu. Překlad už netvoří na základě frází, ale celých vět. Z počátku zapojil neuronové sítě jen do hlavních světových jazyků, teď je přidává i do češtiny nebo slovenštiny. Přirozenější a smysluplnější věty budou zatím dostupné jen mezi češtinou a angličtinou. Mezi češtinou a například němčinou se použije původní frázový model.

„Zjistili jsme, že neuronová technologie zpracovává jazyky lépe, když se jich učí několik najednou. Stejně jako se člověk snadněji naučí novou cizí řeč, pokud už zná příbuzné jazyky. Máme například víc dat pro hindštinu než pro maráthštinu a bengálštinu a zjistili jsme, že když se je systém učí všechny současně, zkvalitní se všechny překlady o mnoho víc, než kdyby se je systém učil každý zvlášť,“ říká Google.

Novinka je dostupná ve webovém Překladači, vyhledávači a aplikacích pro Android (Play Store) a iOS (App Store). Brzy bude fungovat i v integrovaném překladači stránek v prohlížeči Chrome.

Co je na tomto systému překladu nového?

(Oficiální text Googlu bez redakčních úprav.)

Neuronový i statistický systém strojového překladu vycházejí z obrovského množství oficiálních překladů stejných dokumentů do vícero jazyků. Z nich systémy určují, jaký je mezi těmito jazyky vztah. Rozdíl je v tom, jak každý z těchto systémů tato data využívá. Neuronový překlad se neučí jazyky jako takové, ale sám se učí, jak překládat zadané texty, tak aby co nejvíce odpovídaly textům, které jsme mu poskytli k učení. Zatímco statistický systém porovnává vložená data podle předem zadaných gramatických vzorců.

Podrobněji: Jedním ze způsobů, kterým se model „sám“ učí, je určování míry podobnosti jednotlivých slov a frází. Díky tomu neuronový překlad lépe pracuje s mnohoznačnými i řídce užívanými slovy. Dokáže totiž odhadnout jejich použití podle známých slov stejného druhu.

Například, slovo „tuřín“ se v běžné mluvě příliš nevyskytuje, ale neuronový systém na základě dat odhadne, že s ním ve větě může pracovat podobně jako se slovy „mrkev“ nebo „brambora“. K podobným závěrům je schopen dojít i na základě vstupů z různých jazyků, které se učí současně – když budeme mít více ukázkových vět o bramborách v holandštině než v islandštině, odhadne systém na základě znalostí z holandštiny, jak mluvit o bramborách islandsky.

Vstoupit do diskuse

Sdílet

Co je na tomto systému překladu nového?

Autor článku

Lukáš Václavík

Témata:

Nejnovější

Anketa

Nakupujete u čínských prodejců?

Témata

Návody a tipy

Jak na Netflixu najít perfektní film během pár sekund? Tajnou zkratkou jsou skryté kódy ve vyhledávání

Usínáte pravidelně u YouTube? Nová funkce vám ušetří peníze za elektřinu

Jak vložit elektronický podpis do PDF dokumentu? Jde to snadno a zdarma

Jak zjistit heslo Wi-Fi sítě, ke které jste připojeni? Na počítači s Windows nebo na smartphonu snadno

Šest nejlepších vychytávek od Mapy.cz. Znáte je všechny?

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Google umí lépe překládat do češtiny. Přibližuje se mluvené řeči

Sdílet

Co je na tomto systému překladu nového?

Autor článku

Anketa

Nakupujete u čínských prodejců?

Kvíz týdne

Návody a tipy

Z našich webů

Intel končí s plány na x86S, navrací se ke standardní x86, Qualcomm vyhrál dílčí bitvu o ARM

Evropský Starlink se rozjíždí, Rusko zase testovalo odpojení od internetu, ruské zneužití softwaru…

Reklama přímo v systému televize? Kdyby nešla vypnout, koleduje si Philips o problém

OSA chce 90 Kč z každého chytrého telefonu, Nejvyšší soud souhlasí

Češi vyslali svařovacího robota do vesmíru a brzy to zkusí znovu. Připravují se však na víc

Tuzemské cestovní náhrady v roce 2025

Zálohování s Baculou: otevřený systém pro komplexní scénáře

Krátké vlny: Priority polského předsednictví a útoky na cloudovou infrastrukturu

Přinášíme souhrn příběhů podnikatelů roku 2024. Inspirujte se jejich nadšením

Dále u nás najdete

Neplaťte si IT kurzy sami, využijte dotace od EU

Simona Kijonková: Dívala jsem se na investice za 1,4 miliardy

Vánoce v minulosti: Oplzlé koledy, bujaré veselí a na večeři hrachová kaše.

Minimální mzda v roce 2025 vzroste, zaručená mzda končí

Outlook, jak ho známe, končí. Co ho nahradí a kdy?

Rekord Lindy Bartošové. Slast je na Wave nejúspěšnější

Počítače s procesory AMD a Intel se dočkají některých Copilot+ funkcí

Změna komunikace Petra Fialy se nepovedla, je v ní vidět křečovitost

Nedostatečné zabezpečení koncových zařízení ohrožuje firmy

Tyhle věci nezapomeňte do konce roku udělat, ušetříte tisíce

Tuzemské cestovní náhrady v roce 2025

Intel vydal slušnou grafickou kartu Arc B580

Celofán nepatří do plastu a rozbité ozdoby nesmí do skla

Na počítači od Apple nemusíte mít jen macOS

Beey dokáže rozpoznat, který poslanec mluví

Zranitelnost v Google Chrome umožňuje vzdálené spuštění kódu

Technologické trendy, které se v roce 2025 nestanou

Let's Encrypt příští rok nabídne certifikáty jen na šest dnů

Reklama přímo v systému televize: Co kdyby nešla vypnout?

Naše pleť je pruhovaná, lidské tělo svítí