Üzlet és nyelvészet a XXI. században

Beszélgetés Prószéky Gáborral, a Morphologic ügyvezető igazgatójával

Kovács Gyôzô Kovács Gyôzô, 2001. április 13. 19:23
Egy repülőket tervező cég legjobb szakemberei kiszámították, hogy a dongó – nagy teste, kis szárnyfelülete és fesztávja miatt – nem képes repülni. A dongó erről persze nem tud, de mégis repül. Ez a vicc jut az ember eszébe akkor, amikor a Morphologic történetét hallgatja, hiszen jó tíz évvel ezelőtt mindenki azt mondta, hogy számítógépes nyelvészettel Magyarországon nem érdemes foglalkozni. Prószéky Gábort, a cég ügyvezető igazgatóját és maroknyi csapatát ez azonban nem különösebben érdekelte. Így eshetett meg, hogy cikkünk egy Morphologic helyesírás-ellenőrzőn is átfuthatott.
Prószéky Gábor: – Elszántak voltunk, és megéreztük, hogy a világban hamarosan információrobbanás fog bekövetkezni. Sokat segített, hogy 1990-ben megszűnt az embargó, bejöttek a PC-k, megjelentek a személyi szoftverek. Az emberiség tudása így egyre inkább átkerült a számítógépekbe. A szöveget már nemcsak számítógépen készítették, hanem azon is olvasták. Ekkor találtuk ki az első alkalmazást, a helyesírás-ellenőrzést. A magyar nyelv sajátosságai miatt az első feladatunk az volt, hogy a szavakat ne felsoroljuk egymás mellett, hanem valamiféle algoritmussal írjuk le összetételüket, azaz a szótő és a toldalékok kapcsolódását. Ezt minden magyar anyanyelvű kisgyermek spontán tudja, a számítógép viszont nem. Ezért első eszközünktől e minimális igény teljesítését – a magyar nyelv toldalékolásai szabályinak tökéletes ismeretét – vártuk. A "konkurenseink" úgy látták, hogy egy ilyen program elkészítése nagy befektetést jelent, és egyáltalán nem biztos, hogy ebből – 1991-ben – egy eladható termék fog születni. Arra azonban nem számított senki -– legyünk őszinték, még mi sem igazán –, hogy ha a terméket beépítik valahova, például a korai szövegszerkesztőkbe, akkor azt el lehet adni.

Business Online: – De végül is így történt…

P. G.: – 1992-ben megkeresett bennünket a Microsoft, hogy ők is beépítenék azt a nyelvi programot, amelyet már máshol alkalmaztunk. Nagyon féltünk attól, hogy ha a programunkat eladjuk a Microsoftnak, akkor nem tudjuk eladni a saját piacunkon. Egyszerűen nem tudtuk elképzelni, hogy a Microsoft mondjuk 100-szor több terméket képes eladni... Végül – valami "isteni sugallatra" – mégis belementünk az üzletbe. Azóta persze kiderült, hogy nem százszor, hanem lényegesen többször nagyobb ez a piac. Ha jól emlékszem, abban az időben legfeljebb néhány 100 darabot tudtunk a helyesírás-ellenőrző és elválasztó programunkból eladni. Ma a Magyarországon fejlesztett szoftverek között ugyanez a program, a Helyes-e? kelt el eddig a legnagyobb – több mint egymilliós – példányszámban.

B. O.: – Ezek után felvetődik a kérdés, hogy Önök nyelvészek, akik nagyon jól megtanultátok a programozás technológiáját, vagy fordítva?

P. G.: – Én eredetileg programtervező matematikus vagyok, de már az egyetemen elkezdtem nyelvészetet tanulni. A kollégáim, akikkel együtt kezdtünk el dolgozni, valamennyien az informatikában járatos emberek voltak, de mindenkinek van valami kis beütése vagy inkább elkötelezettsége a nyelvtudományok iránt. A Morphologic titka éppen ez, hogy mi mindent a nyelvész és az informatikus szemével egyszerre láttuk. Az akkor induló konkurenciát, a Nyelvésznek hívott másik helyesírás-ellenőrző programot ezen az alapon lehetett a versenyben legyőzni.

B. O.: – Folytassuk a cég történetét: ez után mi következett?

P. G.: – A helyesírás-ellenőrző program után nagyon hamar megjelent az elválasztó program, mert a számítógépes nyomda jobban igényelte, mint a helyesírás-ellenőrző programot. Ezt követően született meg a nyelvhelyesség-ellenőrző programcsomag, amely a szószintű ellenőrzésre való helyesírás-ellenőrzőből, a nyelvtani vagy mondatellenőrzőből, az elválasztó programból, valamint egy szinonimaszótárból tevődött össze. Utóbbi eszköz intelligenciájára álljon itt egy példa. A szinonimákat például egy klikkelés révén lehet előhívni. Ezekből kiválasztom azt a szót, amelyet a szövegben lévő kifejezés helyett használni szeretnék. Majd ismét egy kattintás, s a kiválasztott szó úgy megy vissza a szövegbe, hogy a szövegkörnyezettől függően felveszi mindazokat a ragokat, amelyek az eredeti szóhoz is kapcsolódtak. Persze annak megfelelően, ahogyan a szótő is megváltozott.

B. O.: – Ezt hallgatva, s látva az internet térhódítását, az embernek az az érzése támad, hogy a nyelvi technológiáknak csak most jött el igazán az ideje…

P. G.: – Mi is így látjuk, hiszen a nyelvészet és az informatika révén számos probléma megoldható. Vegyük például a keresőgépeket. A mai rendszerek nem információt, hanem betűsorozatokat keresnek egy nagyobb, másik betűsorozatban. Így egyáltalán nem biztos, hogy a megadott betűsorozat valóban azt írja le, amit keresek. Ha például a "tőzsde" szót írtam be, akkor egészen biztosan nem jön elő a "tőzsdét" vagy a "tőzsdék". Persze megtehetem, hogy rákérdezek a különböző alakokra, amitől sokkal több információhoz jutok, de a "börze" szóra a normál kereső egészen biztosan nem kap egyetlen találatot sem, pedig az is ugyanazt jelenti. És akkor még nem beszéltünk arról, hogy a keresett szónak léteznek a különböző nyelvekre fordított alakjai is. Egyre több olyan kísérlet van (mi is ilyeneket fejlesztgetünk), ahol a cél az internetes és esetleg a fordítással összekötött – nem a betűk, hanem a tartalom szerinti – keresés. S ha már az internetről beszélünk, el kell mondanom, hogy a MoBiDic – az angol–magyar, a magyar–angol, a német–magyar, illetve a magyar–német szótár és a szókincstár – a hálózaton ugyancsak megtalálható. Most tervezzük a szakszótárak speciális megjelenítését is, ami teljesen ingyenes. Az internet fejlődésével természetesen lesznek más, nem ingyenes szolgáltatásaink.

B. O.: – Egy másik érdekes elgondolásból született a MoBiMouse, amely a magánemberek körében vált népszerű alkalmazássá.

P. G.: – A MoBiMouse technológia másfél évvel ezelőtt született, a lényege, hogy a felhasználó az egérrel rááll a kívánt szóra, s megjelenik minden információ, amit csak tudni akar. A program érdekessége nemcsak ebből adódik, hanem abból is, hogy vizsgálja a szövegkörnyezetet, így kiszűr minden olyan értelmezést, amely annak alapján irrelevánsnak tűnik.

B. O.: – Ezt a megoldást talán másra is célszerű lenne alkalmazni. Önök bizonyára elgondolkodtak már ezen...

P. G.: – Igen, bár konkrét termék még nincs, de mindenféle adatbázis olvasását, értelmezését megkönnyítené ez a technológia. Például egy bróker – akinek a gépén rajta vannak a tőzsdén szereplő cégek nevei, a gép pedig csatlakozik a tőzsdei adatbázishoz –, ha a részvények pillanatnyi értékét akarja megtudni, elég, ha rátolja a kurzort a cég nevére. A program a tőzsdei adatfájlból kiolvassa, és a képernyőn megjeleníti a kívánt adatokat.

Ma, ha valaki egy adatbázishoz hozzá akar férni, meg kell tanulnia az ismeretlen adatbázis technológiáját, kapcsolatot kell létesítenie vele, nyitni és csukni kell ablakokat, hogy az adatokat megkapja. Ha az adatbázis nyilvános, akkor a MoBiMouse for X technológiával az adatokhoz való hozzáférést a rendszer elvégzi, és megjeleníti az adatokat abban a formában, amelyre éppen szükség van, például táblázatosan. Ha a felhasználónak gyors információra van szüksége, akkor azt a MoBiMouse-szal azonnal meg tudja kapni.

"Sajnos" annyi az ötletünk, hogy nem győzzük a megvalósításukat. Valamikor hárman indultunk, ma pedig 15-en vagyunk, de ez is kevés. Egyébként nem panaszkodhatom, mert a nagy nemzetközi cégek, mint például a Microsoft, a Lotus, a Rank Xerox és mások, folyamatosan vásárolnak licencjogokat tőlünk, és így cégünk nem csak tudományosan, de gazdaságilag is stabil. Ezenkívül technológiákat is adunk el, nyelvi leírásokat, de szoftvertechnológiát is, amit az aktuális Microsoft-termékbe – például az Office-ba – beépítünk. A Xeroxnak is mi fejlesztettük ki a lengyel és a magyar nyelvi adatbázisát.

B. O.: – A másik oldalról közelítve: egyre több olyan projektről hallani, amely az emberi szellem papíron lévő kincseit elektronikus adattárakba fogja átmenteni. Tudomásunk szerint a Morphologic is dolgozik egy karakterfelismerőn, amely a rossz minőségű szövegek olvasására, bevitelére is képes lesz.

P. G.: – Valóban így van. Módszerünk hasonlít ahhoz, amikor egy szöveget csak részleteiben látunk, s ezekből próbáljuk meg kitalálni – nyelvi készségünk segítségével – annak tartalmát. Ebben térünk el a szimpla betűfelismerésen alapuló szoftverektől.

B. O.: – Talán nem tévedek, ha azt mondom, hogy a nyelvészet kapcsán a legnagyobb kihívást a gépi fordítás jelenti. A Morphologicot mennyire izgatja ez a téma?

P. G.: – A mai tudásunk szerint nem az a gépi fordítás várható, se tőlünk, se mástól, amely mindent kitalál helyettünk, hanem amely a fordítási tudást lopja el tőlünk. Azt szoktam mondani, hogy amikor Deep Blue nyert Kaszparov ellen, az nem az elektronika diadala volt az emberi agy felett, hanem az emberi agy diadala egy másik emberi agy felett. A gép ugyanis mindig az emberektől vett játszmákból válogatott. Ha egy sakkozót úgy nevelnek, hogy nagyon sok játszmát tanuljon meg, a sok ezer akkor is kevesebb, mint a sok millió. A mennyiséggel lehet győzni, de a milliót az emberektől kell elvenni.

Ennek az analógiájára: ha sok jó fordítás érhető el számunkra, akkor semmi mást nem kell csinálni, mint megnézni, hogy az én mondatom, amelyet le akarok fordítani, nem szerepel-e valahol az adatbázisban. Ha a mondat már megvan egy neves fordítónál, akkor ne szégyelljük elvenni, és felhasználni, s utána jöhet a következő mondat. Ha nagyon sok mintát adunk a gépnek, akkor tulajdonképpen nem a gép fordít, hanem korábban valaki már lefordította, amit a gép számára elérhetővé tettünk. Valószínűleg egy ilyen jellegű gépi fordításé a jövő. Ha ez nem megy, akkor a gép előveheti az "eszét", de az soha nem lesz olyan, mint Kosztolányi "Alice csodaországban"-fordítása.

Kulcsszavak: Morphologic +céginfo

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Ingyenes digitális platform segít a tanároknak és diákoknak az érettségire való felkészülésben

2024. április 20. 11:36

Itt a világ első, Swarovski kristályba ágyazott autós kijelzője

2024. április 10. 14:55

A csevegőprogramokat vizsgálta az NMHH

2024. április 2. 13:14

Megvannak az IAB 2023-as Legjobb szakdolgozat pályázatának nyertesei

2024. március 25. 15:50