Több száz milliárd szóból tanul fordítani a Google

MTI Sajtóadatbank, 2010. április 20. 10:10

Még 2004-ben történt, hogy a Google vezetőit gondolkodóba ejtette egy dél-koreai felhasználó e-mailje. A levélíró koreai nyelven arról tájékoztatta a céget, hogy a Google a kedvenc keresőmotorja, ám amikor az üzenetet Sergey Brin, a cég egyik alapítója angolul akarta olvasni, a Google fordítóprogramja a következő szöveget adta ki: The sliced raw fish shoes it wishes. Google green onion thing (A szeletelt nyershal cipőz neki kívánságokat. Google zöldhagyma dolog)

 Brin rögtön kijelentette, hogy "ennél azért a cégnek többet illene tudnia" Ma, hat évvel később, a Google ingyenes fordító szolgáltatása 52 nyelven elérhető, és hetente több száz millió alkalommal használják internetes oldalak és más szövegek átültetésére. Alon Lavie pittsburghi egyetemi tanár a fordítót méltatva egyebek között azt emelte ki, hogy a program széles körű nyelvi szolgáltatást nyújt, és nem korlátozódik kijelölt témákra.

 Az alkalmazásról riportot készítő The New York Times úgy véli, hogy a megállapítás azért fontos, mert a vállalat ambíciói a keresőprogramon kívüli területeken eddig vegyes sikerrel jártak: digitális könyvtárával kapcsolatos tervéért bíróságokon kell küzdenie, az általa indított Buzz közösségi hálózat pedig adatvédelmi aggodalmakat keltett. A Google gyors előretörése a fordítási bizniszben ellenben éppen azt példázza, hogy milyen remek eredményeket lehet elérni, ha a rendelkezésére álló nyers számítógépes kapacitást céltudatosan, összetett problémák megoldására fordítja. Az általa kiépített webes adatközpontok együttesen lényegében a világ legnagyobb számítógépét alkotják, és ezt a lehetőséget a Google szemlátomást a fordítási technológia határainak kiterjesztésére aknázza ki. Nemrég például képelemzéssel kombinálta a fordítóprogramot, lehetővé téve, hogy egy mobiltelefonos fotó német nyelvű szövege angolul is olvasható legyen.

Roppant nehéz feladat

A mesterséges értelem számára a fordítás jelenti az egyik legnagyobb feladatot. A számítógépes tudósok évtizedeken át a nyelvi szabályokra alapozódó megközelítéssel kísérleteztek: megtanították a komputernek a két kiválasztott nyelv grammatikáját, egyidejűleg pedig ellátták a megfelelő szókészletekkel. Az 1990-es évektől azonban egyre inkább a statisztikai módszert helyezik előtérbe. Ugyanis úgy találták, hogy ha a számítógépbe betárolnak több százezer vagy több millió oldal szöveget és azok emberek által készített fordítását, a program meglehetősen pontosan el fogja találni a jó megoldást új szövegek átültetésekor.

 Persze ehhez a technikához óriási adatmennyiségre és nagy számítógépes háttérre van szükség - a Google éppen ezeken a területeken van előnyben. "A mi infrastruktúránk nagyszerűen megfelel ennek, olyan kapacitásokkal rendelkezünk, amelyekről mások még csak nem is álmodhatnak" - mondta Vic Gundotra, a Google egyik alelnöke az amerikai lapnak.

 Az automatikus fordítógépek távolról sem tökéletesek, a fordítóknak még sokáig nem kell félteniük állásukat. A szakértők szerint egy mondat feldarabolása, átültetése és újbóli összeillesztése olyan feladat, amely a számítógép számára rendkívül nehéz. Ám a Google szolgáltatása elég lehet ahhoz, hogy egy újságcikk lényegét visszaadja, és így milliók számára biztosítsa a gyors megértést. "Ha hipp-hopp nyersfordítás kell, a Google a jó forrás" - véli Philip Resnik, a Marylandi Egyetem szakértője.

 Akárcsak vetélytársai, amelyek közül az IBM és a Microsoft a legjelentősebb, a Google is betáplálja gépeibe az ENSZ hat nyelven készülő dokumentumait és az Európai Parlament vitáinak huszonhárom nyelven rögzített jegyzőkönyveit: ezzel a nyersanyaggal fejleszti folyamatosan a legelterjedtebb nyelvek átültetésére szolgáló programját. Emellett a világhálóról és könyvdigitalizálójából is kimásolt szövegeket, hogy még több nyelvre tanítsa meg a fordítót, sőt ezekből a szövegekből eszközcsomagot is készít, amely letölthető, és segíti a felhasználókat. Ez ugyan soha nem fog jelentős pénzt hozni, legalábbis az online hirdetésekhez képest, de több szempontból is hasznos lehet.

...de egyre jobb gyorsan


 Mivel a Google-reklámok mindenütt megjelennek, minden, ami előmozdítja megértésüket, a cég hasznára válik. Új alkalmazások is adódnak. Nemrég a társaság bejelentette, hogy beszédfelismerő programot dolgozott ki, amelynek segítségével írott szövegaláírást kapcsolhatnak az angol nyelvű You Tube videofelvételekhez, ami aztán további 50 nyelven is olvasható lesz. "Ez a technológia ledöntheti a nyelvi korlátokat, segítségével bárki érintkezhet bárki mással" - jelentette ki Franz Och német kutató, aki a Google gépi fordítóprogramját fejlesztő csoport vezetője.

 Och korábban egyetemen dolgozott, és kezdetben vonakodott belépni a Google-hoz, mert attól félt, hogy a cég csupán melléktémának tekinti majd a fordítási projektet. Csak akkor fogadta el az ajánlatot, amikor Larry Page, a Google másik alapítója személyesen is felhívta, hogy biztosítsa arról: elsőrendű fontosságú számukra a fordítás tökéletesítése. A kutató végül 2004-ben csatlakozott a Google-hoz, és hamarosan megtapasztalhatta, hogy minden segítséget megkap.

 Míg más cégek hasonló programjai egymilliárd szóból álló szövegmintával teremtenek meg egy nyelvi modellt, a Google jóval messzebbre ment: több száz milliárd angol szóból álló szöveget táplált be az alkalmazás céljára. "Minél több szöveget dolgoztunk fel, annál jobb lett a modell" - magyarázza Ochs. A vállalat nem véletlenül nyerte el a komplex fordítóprogramok értékelésére kiírt kormánypályázatot. (folyt.)

A kutató persze elismeri, hogy van még tennivaló bőven, de a "javulás üteme gyors". A magyar nyelv esetében talán ez az ütem kissé lassúbb, ugyanis az utóbbi mondat angol eredetijét - The translation system still needs improvement, but it is getting better fast - a Google ma még így ülteti át Petőfi nyelvére: "A fordító rendszer továbbra is szükség van javulás, de egyre jobb gyorsan".
 

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Van még idő jelentkezni az „Az Év Honlapja” pályázatra!

2020. október 15. 12:15

EasyBID – Header Bidding megoldás az Adverticumtól

2020. október 8. 15:45

A Bosch új koronavírus tesztje 39 perc alatt ad megbízható eredményt

2020. szeptember 30. 14:58

A vírusveszély miatt idén online rendezik meg a cégvezetők csúcskonferenciáját

2020. szeptember 21. 10:11
online sportfogadás