SERIÁL: Google vsází všechny karty na strojové učení (II.)

V druhém pokračování seriálu o společnosti Google a jejich aktivitách v oblasti strojového učení se v hlavních rolích objeví oblíbené služby Překladač a Dokumenty. Jakou urazily cestu od svého vzniku a co je čeká v blízké budoucnosti? A kdy konečně budou automatické překlady dosahovat úrovně rodilého mluvčího? I to se dozvíte v dnešním článku.

28. dubna 2006 byla poprvé spuštěna služba Google Translator neboli česky prostě Překladač. Po třinácti letech provozu je tato platforma nejznámějším automatickým slovníkem a překladačem na internetu. Její provoz je stále úplně zadarmo a v současnosti nabízí překlad do (a z) 103 světových jazyků. Podle statistik Googlu službu denně využívá více než půl miliardy uživatelů stolních počítačů i chytrých telefonů nebo tabletů. Už jen z tak obrovského čísla je jasné, že se jedná o další monopol internetového giganta. Kvalita překladu se navíc každým dnem zlepšuje…

Překladač – Od statistik po strojové učení

Jak ale celý proces funguje? Dříve Překladač při zadání požadované fráze začal vyhledávat souhlasící vzory v nepřeberné databázi (nejen) oficiálních dokumentů. Mezi nimi byla například obrovská databáze Evropského parlamentu nebo Organizace spojených národů. Potom statisticky vyhodnocoval nejlepší možný překlad. Podle tohoto způsobu práce dostala tato technologie i své jméno – Statistical Machine Translation (SMT – Statistický strojový překlad). Jak ale každý, kdo službu někdy využil ví, výsledky vždy nebyly zrovna dvakrát přesné. Překlady Googlu byly často zesměšňovány a ze samotného Překladače se na internetu stala tak trochu stala nadávka pro překlady na špatné úrovni obecně.

V Googlu ale na nic nečekali. A když statistické algoritmy nefungovaly dle očekávání, přišlo na řadu strojové učení. V listopadu 2016 byl Překladač přeprogramován na technologii Google Neural Machine Translation (GNMT – Neurální strojový překlad). Rozdíl spočívá v tom, že algoritmy dnes už každou větu nepřekládají kousek po kousku, ale najednou. Dokáží při tom rozpoznat kontext věty a tuto znalost využít na výsledný překlad jako celek. Například v překladu z češtiny do angličtiny (a naopak) se dnes už můžeme setkat s obzvlášť působivou přesností a systém GNMT je postupně integrován do dalších jazyků.

V posledních měsících ve Spojených státech testovali Google Překladač napříč nemocnicemi v oblastech s multikulturním obyvatelstvem. A výsledky jsou více než uspokojivé. Z celkem 647 vět bylo celkem 594 zcela správně přeloženo do španělštiny, zatímco do mnohem složitější čínštiny bylo správných 522 případů. Ve zbytku případů se většinou jednalo o drobnější chyby, pro úplnost výzkumu ale byly vyhodnoceny i případy, ve kterých by neporozumění eventuálně mohlo způsobit pacientům komplikace – 15 z 53 nepřesných vět ve španělštině a 50 ze 125 chybných čínských frází. Celkový progres algoritmů lze jen obtížně přesně vykalkulovat, Google ale nepochybuje, že do několika let se tato služba celosvětově dostane na prakticky stoprocentní míru úspěšnosti.

Google Docs – Nová úroveň kontroly gramatiky

Vlastní textový procesor v Googlu spustili už v březnu 2006. I díky rozmachu cloudových platforem a Google Disku se i Google Docs dnes těší obrovské popularitě. Pro lidi, kteří spolupracují na nejrůznějších projektech je online úprava v reálném čase prostě mnohem efektivnějším řešením než neustálé přeposílání souborů ve Wordu. A v Googlu samozřejmě nasadili strojové učení i sem.

To se týká převážně kontroly gramatiky, a i když v českém prostředí zatím není na takové úrovni jako ta od Microsoftu, v anglicky mluvících zemích dosahuje opravdu pozoruhodné úspěšnosti. V lednu tohoto roku byl spuštěn nový nástroj, se kterým přichází úplně nová generace kontroly správnosti textu.

Google prý nyní dokáže rozpoznat nejen zcela očividné chyby, ale také pochopit komplexnější pravidla pravopisu a zvyklostí, které se mohou lišit i region od regionu. Algoritmy Googlu se v podstatě samy učí na správných větách, identifikují jejich modely a stavbu, a následně nabyté znalosti dovedou použít při opravě prakticky libovolné věty. Na vizuálu níže vidíte, jak algoritmus strojového učení opravuje překlady z angličtiny do francouzštiny.

(Zdroj: https://techcrunch.com/wp-content/uploads/2019/02/Grammar-Gif.gif)

U obou služeb je jasné, že angličtina bude hrát ještě nějakou dobu první housle. Jakmile ale v Googlu dané algoritmy vypilují (téměř) do dokonalosti, je jasné, že dalším cílem společnosti bude dosáhnout takové úrovně v globálním měřítku. Budoucnost už klepe na dveře.

Nečetli jste první díl seriálu? Najdete ho zde (odkaz).


Petr Myšák

Petr Myšák

S Petrem se setkáte na první nezávazné schůzce, v NEXT Vision je zodpovědný za projektové řízení a návrh marketingových strategií. Vystudoval ČVUT, webdesignu a on-line marketingu se věnuje od roku 2006. Rád sportuje, věnuje se horské turistice.

Přidejte komentář


Tento web používá k poskytování služeb soubory cookie. Používáním tohoto webu s tím souhlasíte.     OK   Další informace