Helyesírás a számítógépes szövegszerkesztés korában

A "rádiós-láger" és a "cumi-süveg"

Farkas Miklós, 2005. július 30. 10:20

Érdekes informatikai területtel és egyben a mindennapok gyakorlati problémájával foglalkozik Prószéky Gábor nemrég megjelent, A nyelvtechnológia (és) alkalmazásai című kötetében (Aranykönyv Kiadó, eVilág kiskönyvtár, 2005). Bár a cím száraz szakmai tanulmányt sejtet, a könyv mégsem, sőt nem is elsősorban az informatikusoknak és a nyelvészeknek szól, hanem a számítógépet használó hétköznapi ember számára nyújt hasznos és könnyen érthető információkat. A szerző a kötetben - és lapunknak adott interjújában - számos érzékletes, ám sokszor elrettentő példával világítja meg az elektronikus szövegszerkesztés során felbukkanó helyesírási hibák okait, és mutat rá kiküszöbölésük lehetséges módjaira.

- Kezdjük szó szerint az elején: miért szerepel a könyv címében zárójelben az és szócska?

- Ebben a kis kötetben arról olvashatunk elsősorban, hogy mi is az a nyelvtechnológia, és hogy mire használják a mai számítógépes alkalmazásokban az elért eredményeket. Ahhoz azonban, hogy az alkalmazások alapvető működési módját megismerjük, minimális ismeretekkel kell rendelkeznünk a számítógépes nyelvleírásról. Ha az alapokat kimerítően tárgyalnánk, valóban jogos volna A nyelvtechnológia és alkalmazásai cím. Ám mivel nem ezek az alapismeretek alkotják a legfőbb mondandót, hanem az alkalmazások, felmerült, hogy mégis A nyelvtechnológia alkalmazásai címet volna okosabb használni. Azonban, hogy mégse vezessük félre a kedves Olvasót, mindkét címet meghagytuk, és kissé formalista módon ennek kifejezésére az opcionalitást - azaz a szabadon választhatóságot - jelző zárójel használatához folyamodtunk.

- Essünk túl a kötelezőnek mondható szakmai kérdésen is: mi a nyelvtechnológia lényege?


- A nyelvtechnológia (hosszabb nemzetközi nevén: human language technologies, rövidítve: HLT) az informatikának az az ága, ahol a számítógépes alkalmazás az emberi nyelvvel találkozik, és a gép ebben a helyzetben a nyelvi képességekkel bíró emberéhez - legalábbis ebben az alkalmazási környezetben - hasonló reakciókat ad. A humán nyelvtechnológia határterülete többek között a leíró nyelvészet, a formális nyelvek elmélete, a lexikográfia és a szoftvertechnológiák. Mivel manapság az akár felolvasásra, akár kinyomtatásra szánt anyagok - újságcikkek, tudományos írások, előadások, disszertációk, könyvek, törvénytervezetek, hozzászólások, feljegyzések, fordítások, levelek - közel 100 százaléka számítógépen készül, óriási azoknak a felelőssége, akik például a helyesírásra igényes felhasználót gépi eszközökkel segítik, illetve ezekről a lehetőségekről tájékoztatják. Az internet terjedésével a felelősség nő: a nyelvhelyesség-ellenőrző programok által ellenőrzött (de legalábbis ellenőrizhető) anyagokat naponta többmilliónyian olvassák, a keresőprogramokat további milliók használják, a gépi szótárak és fordítóeszközök segítségével pedig százezrek fordítanak.

A nyelvtechnológia súlyát épp az adja, hogy napjainkban a számítógép alapvetően és elsősorban a kinyomtatandó, felolvasandó - és egyre inkább elektronikus formában is használatos - dokumentumok előállításának eszköze.

A nyelvtechnológia tehát nem arról szól, hogy a nyelvészt hogyan segíti munkájában a számítógép, hanem sokkal inkább arról, hogy a nyelvészet eredményei hogyan tehetők elérhetővé a számítógép számára. Más szavakkal: a nyelvtechnológia nem számítógép a nyelvtudományban, hanem nyelvtudomány a számítógépben.

- Ön szerint mi az oka, hogy az elmúlt évszázadok míves nyomdai munkáihoz képest manapság elképesztően sok a formailag igénytelen és nyelvtanilag hibás kiadvány?


- Kezdjük azzal, hogy a számítógéppel való információszerzés hatása az olvasásra elgondolkoztató. Ma több hibás írott nyelvi minta található az interneten, mint bárhol, bármikor korábban. Azelőtt kizárólag a tipográfiai és nyelvhelyességi ügyekben képzett és igényes nyomdász volt az, aki sokak által elérhető szövegeket hozott létre. Ezt a szerepet ma bárki magáénak mondhatja, ám az egykori nyomdászok szakismeretét nem. Ennek megfelelő minőségűek a sokak szemében valódi nyomdaterméknek tűnő felületes kiadványok.

Vannak persze a helyesírást támogató szoftverek, de sok felhasználó büszkén állapítja meg, hogy ő még mindig jobban tudja a nyelvtant, mint az erre szolgáló programok. Leszögezhetjük, hogy ez így is van jól. A felhasználó a legtöbb nyelvi programtól vagy többet, vagy kevesebbet vár, mint amennyit az teljesíteni képes. A problémák általában ebből a jelenségből adódnak. Emlékezzünk csak vissza: a számítógép előtti időkben az írógép billentyűzetének használata több okból sem okozott a számítógép billentyűzetén való gépeléshez hasonló nehézségeket. Egyrészt azért, mert az írógép nem játszhatta el az okos gép szerepét, s így senki nem várhatta el tőle a hibák kijavítását, másrészt pedig azért, mert még ha volt is szabványos, minden magyar ékezetes betűt tartalmazó billentyűkiosztás, a legtöbb berendezésen akkor sem lehetett tökéletes helyesírással gépelni, ha valaki szeretett volna.

- Akkor tehát támaszkodhatunk a szövegszerkesztőnk helyesírás-ellenőrző programjára, vagy sem?


- A nyelvi programrendszer, mint minden számítógépes rendszer, tartalmazhat hibákat. A helyesírási programok a norma szerinti írás algoritmizálásának segítségével a nem algoritmizálható jelenségek számának csökkentését célozzák meg. Azt előfeltételezik tehát, hogy a norma követése közben kétféle feladatot old meg az efféle számítógépes rendszer használója: egyrészt felülbírálja a nem algoritmizálható normajelenségek "túlbuzgó" gépi kezelését, másrészt elfogadja a gép által ajánlott korrekciókat. Fontos tehát összefoglalni, hogy a számítógéppel készülő dokumentumokban milyen normától való eltérésekre, azaz nyelvhelyességi hibákra számíthatunk. A szóellenőrzésre készített modell sem a szavak jelentését, sem környezetüket nem vizsgálja, ezért például az értelmes szóhibák vagy a hibás különírás jelzésére alkalmatlan. A nyelvhelyesség-ellenőrzőknek nevezett programok ezzel szemben olyan helyesírás- és stílusellenőrző programok, amelyek átlépik a szóhatárt, azaz a szavaknál nagyobb nyelvi szerkezetekkel foglalkoznak. A teljes mondat elemzését végző eljárások a legtöbb nyelv esetében ma még túl bonyolultak ahhoz, hogy elfogadható helyesírás-ellenőrző program épülhessen rájuk.

A számítógéppel írt szövegek hibái között a szóhibák egyébként sokkal gyakoribbak, mint a mondathibák. Általában elmondható, hogy a szóellenőrző programok az íráshibák 80-85 százalékát képesek kiszűrni, míg a szóhatáron túl működő szoftverek további 5-10 százalékot ismernek fel. Így a szó- és nyelvhelyesség-ellenőrző programok az összes íráshiba kb. 85-95 százalékát tudják felismerni, és ezek jelentős részéhez javításokat is ajánlanak.

- Vannak-e a magyar nyelvnek olyan jellegzetességei, amelyek különleges kezelést kívánnak a nyelvhelyességi programok készítőitől?


- A magyar helyesírás szabályaira épített eszköz létrehozásakor a szabályok egy része könnyen számítógépesíthetőnek bizonyult, másokkal azonban egyszerűen nem lehetett mit kezdeni: számos esetben az írásmód a szövegkörnyezet jelentésétől, illetve a kommunikációs helyzettől függ, erre nézve pedig a program által egyszerre vizsgált szövegrészből nem lehet információt nyerni.

A kidolgozandó nyelvi modell szempontjából lényeges, hogy végiggondoljuk: a számítógépnek milyen helyesírási hibákra kell felkészülnie. Ha egy nyelvnek részletes helyesírási szabályzata van - márpedig a magyar ilyen -, akkor a nyelvi eszköz készítői megtehetnék, hogy a nyelvi modellt és a javítási mechanizmusokat szigorúan a szabályokhoz alkalmazkodva alkotják meg. Azonban ezek a szabályok nem a számítógépes nyelvi programok számára jól megfogalmazható igények szerint alakultak ki, és kezelésük sokszor a művelt anyanyelvi beszélő számára is problémát okoz. A nem kellő egzaktsággal megfogalmazott szabályrendszer és a történeti okokból megtartott kivételek nagy száma nehezíti a komputerizálást. A számítógépes modellben a nyelvi jelenségeket kimerítően kategorizálni kell, mert a gép nem tudja az emberhez hasonlóan alkalmazni a szabályzatban előírt analógiákat - ezeket a modellt készítő nyelvésznek végig kell vezetnie a modellben leírt valamennyi kifejezésen.

Érdekes tapasztalat, hogy azok, akik az anyanyelvükön írnak, egészen más hibákat követnek el, mint azok, akik ugyanazt a nyelvet idegen anyanyelvűként használják. Ezért - különösen elterjedt, "nagy" nyelvek esetén - megfontolandó lehet, hogy kétféle helyesírás-ellenőrző program készüljön: egy az anyanyelvi, egy pedig az idegen anyanyelvű nyelvhasználók számára. Ugyanis sok esetben nemcsak magát a nyelvet, hanem értelemszerűen a lehetséges hibákat is modellezni kell, így a két különböző helyesírás-ellenőrző gyökeresen eltérő hibamodelleket igényelhet.

- Milyen hibák fordulnak elő a leggyakrabban számítógépes szövegszerkesztéskor?


- A gépelés során a leggyakoribb hibák a betűtévesztések, a kihagyások, a betűcserék és a fölösleges betűk beszúrása. A hiba legtöbbször szóellenőrzéssel észlelhető, kivéve, ha a tévesztés eredménye értelmes szó. A számítógép, ha csak a szavakat ellenőrzi, alkalmatlan az úgynevezett értelmes hibák felismerésére és javítására. Értelmes hibáról akkor beszélünk, ha gépelési vagy helyesírási hiba folytán "helyes", azaz a szóellenőrző program által ismert kifejezés jön létre a helyett a szó helyett, amelyet a felhasználó írni akart. Ilyen például, ha "mellett" helyett "mellet" kerül a szövegbe, vagy ha valaki a "rét" helyett a "tér" szót írja. Mivel a magyar számítógép- és írógép-billentyűzeten az r és a t betű egymás mellett van, könnyű melléütni.

A gépelés együtt jár néhány tipikus, nyelvfüggetlen hibával. Ilyen például a betűk kihagyása (pl. magyr), duplázása (pl. magyaar), az idegen betű beszúrása (pl. magyaer) és a melléütés (pl. nagyar). Ez utóbbi már némiképp nyelvfüggő, mert a billentyűzetkiosztás nyelvenként változhat. Ennél sokkal nagyobb probléma, ha a klaviatúrán esetleg nagyobb távolságban elhelyezkedő karakterek valamiképpen kapcsolatba hozhatók egymással, így tévesztésük tipikus lehet. Gondoljunk csak a magyar és az angol billentyűzet eltéréséből adódó y/z problémára (pl. ház/*háy). Mivel a hagyomány fontos szempont a helyesírási rendszerek megfogalmazásakor, az írásban olyan nehézségekkel is meg kell küzdenünk, mint az ly/j probléma (pl. papagáj/*papagály, bója/*bólya) vagy a mamut/*mammut probléma. A jelek, számok, dátumok, idegen alakok toldalékolása sokszor még a jobb helyesírónak gondolt embereket is megtréfálja. Gondoljunk csak a következő tipikus hibákra: %-kal/*%-al, 0-s/*0-ás, április 2-a/*április 2-sodika, Nantes-tal/*Nantesszal. (A *-gal jelölt példák a helytelenek.)

- Hogyan lehetséges, hogy olykor maga a gép rontja el az eredetileg helyesen beírt szöveget? Gondoljunk például az újságokban hemzsegő elválasztási hibákra...

- A példák sorát én is folytathatnám, például a dátumokban gyakran megjelenő nagy kezdőbetűs hónapokkal (2005. Május 30.). Ilyenkor gyakran a számítástechnikát okoljuk, pedig a gép csak azt hajtja végre, amire beprogramozták - ráadásul itt nem is a helyesírási programokról van szó...

A nagybetűs hónapnevek elszaporodásának oka az automatikus nagybetűsítő modul ismeretének hiánya. 2005. Május 30. nagybetűs hónapneve láttán nem a "Nem nagybetűvel írjuk!" (egyébként jogos) felszólítás a segítség, hanem a ma hazánkban leggyakrabban használt szövegszerkesztő program megfelelő ismerete. A hibát ugyanis - legalábbis az első időkben - nem a gépelő követi el, mert ő minden bizonnyal tudja, hogy a hónapok neve kisbetűvel írandó. Ezzel szemben az említett programban van egy - kikapcsolható - automatikus betűcserét végző modul, amely minden mondat elejét a gépelő megkérdezése nélkül nagybetűsíti, s mivel az évszám után pontot talál, a hónapot már az új mondat kezdetének véli. Ezt a modult nem a magyar nyelvhelyességi programok készítői dolgozták ki. Természetesen a helyzet javulna, ha ez a mondatkezdet-nagybetűsítési lehetőség mindenkinél állandóan ki lenne kapcsolva, ehhez viszont nem elég a hagyományos nyelvművelői felszólítás, ráadásul nem is könnyű megtalálni a "Mondatok első betűje" opciót.

Az elválasztóprogramot nem, vagy legalábbis nem a magyar változatot használó szövegeiben két gyakori típushibával találkozhatunk. Az egyik esetben a sorok belsejébe kerül egy nem a számítógépes elválasztóprogram által, hanem kézzel betett elválasztójel (pl. bel-sejében), a másik esetben pedig a nem magyar elválasztóprogram használata miatt rossz helyre kerül a kötőjel (pl. elválas-ztás). Tudni kell, hogy a morfológiai elemzőre épülő elválasztóprogram által felajánlott elválasztás elvileg 100 százalékos (elvileg, hiszen elírás mindig lehet az adatbázisban, de az könnyen javítható), hiszen ismeretlen szavakat nem választ el automatikusan, az ismertekre pedig az algoritmus helyesen működik. Az ilyenkor kézzel betett kötőjelek sor belsejébe kerülése miatt nem a gépi elválasztást kell szidni, hanem a nem hivatásos tördelő ismereteit kellene bővíteni. Ilyen esetben ugyanis a - sajnos sokak által nem ismert - lágy elválasztójeleket kell használni, s így kizárólag akkor jelenik meg a kiskötőjel, ha a szó a sor végén ténylegesen elválasztási pozícióba kerül. Minden más esetben a jel nem látható.

A másik esetről viszont nyugodtan állíthatjuk, hogy az "elválas-ztás" típusú szörnyűségeket egy jól működő magyar elválasztóprogram soha nem követi el. Ilyenkor az a valószínű, hogy az így elválasztott szöveg létrehozója nem ismerte a nyelvi formázás fogalmát. Ez valójában egy nem látható kijelölés, amelynek az a hatása, hogy a szöveget magyarnak formázva magyarul, angolnak formázva angolul, svédnek formázva svédül fogja ellenőrizni, illetve elválasztani a program. E kijelölés ismeretének hiányában az utoljára (gyárilag vagy mások által) beállított nyelv elválasztási szabályai fogják megpróbálni az adott szöveg nyelvén, például magyarul írt szavakat a másik, éppen beállított nyelv szabályai szerint elválasztható részekre szabdalni. Az elválasztás - nyelvtől függetlenül - ki is kapcsolható, ám még ehhez is kell némi szövegszerkesztő-ismeret. A nyelvőr ilyenkor nem elégedhet meg a puszta "Ne használd, abból baj nem lehet!" felszólítással. A hibás elválasztások tehát az elválasztóprogram ismeretének hiányából fakadnak.

Mondok egy másik példát a magyar nyelv speciális elválasztásaira. A rádiósláger" szó esetében számunkra természetes, hogy az melyik két szóból tevődik össze, így nyilvánvaló, hogy a "rádió-sláger" a helyes elválasztás. A morfológiával felvértezett számítógép viszont lehetséges morfémahatárt lát - joggal - a "rádiós"és a "láger" határán is. A komputernek azonban nincsenek emlékei, és nem érti a jelentést. De ha megértetjük vele, akkor ennek mintájára a "cumisüveg" szót "cumi-süveg" alakban szeretné elválasztani. Az anyanyelvi beszélők rögtön tudják, hogy a "rádiósláger"-nél alkalmazott szabály a "cumisüveg" esetében nem működik. A gépnek tehát mindent meg kell előre mondani, különben nem várhatunk el tőle helyes működést.

Sokszor tehát képzettségünkön, szellemi önállóságunkon múlik, hogy vitába merünk-e szállni a gép ítéleteivel, vagy feltétel nélkül megbízunk bennük. Honfitársaink egy része van annyira bizonytalan a saját helyesírásában, hogy örömmel veszi, ha eligazítják az írott szövegben végzett tévelygései közben. A nyelvművelőknek kellene tudatosítaniuk az emberekben, hogy mit kell, mit lehet és mit nem szabad ráhagyni a számítógépes nyelvhelyességi rendszerre, a nyelvművelők nagy része viszont nem is ismeri a gépi eszközök logikáját.

A könyv ára: 690 Ft.

Kapható a Líra és Lant könyvesboltjaiban.

Megrendelhető a kiadónál:

Aranykönyv Kiadó,
1028 Budapest, Kő u. 45.
Fax: (06-1) 397-5397
e-mail: arany.kiado@axelero.hu
Web: http://www.evilagonline.hu
Kulcsszavak: könyv

LazIT ROVAT TOVÁBBI HÍREI

A tervezői gondolkodás eszközeivel alakítják a holnapot a Samsung és az EdisonKids kihívásának diákcsapatai

Kiválasztották a Samsung és az EdisonKids által meghirdetett Megoldások a holnapért kihívás legjobb 50 diákcsapatát. A fenntarthatóság, a jövő oktatása és a közösség hívószavára összesen 120 jövőformáló és kreatív pályázat érkezett az ország számos pontjáról. A továbbjutók új készségekkel és ismeretekkel gazdagodhatnak a Megoldások a holnapért speciális tanulási platformján, hogy újszerű megoldást dolgozhassanak ki az általuk felvetett problémára. Az oktatási anyagok összeállításában, a diákok tervezői gondolkodásának elmélyítésében idén ismét kulcspartner a Cellux Csoport. A csapatokat támogató tanárok mentorálásában a Hősök Tere Alapítvány ad szakmai segítséget.

2024. március 28. 14:07

A Philips Monitors E1 terméksorozat három új, többcélú modellel bővül

A Philips Monitors E1 sorozata ebben a hónapban három új modellel bővül. Az irodai felhasználók és távmunkában dolgozók számára szükséges összes alapvető funkcióval ellátott új modellek segítenek a felhasználóknak a kapcsolattartásban és növelik a termelékenységüket, mindezt versenyképes áron. 

2024. március 28. 13:27

Országszerte elérhetővé válik a Netrevalók program

A Netrevalók program sikeres tavalyi indulása után idén az Informatikai és Könyvtári Szövetséggel kötött megállapodással országos szintűvé válik a kezdeményezés, és 27 fővárosi könyvtár mellett 48 vidéki intézmény is csatlakozik a programhoz. Így összesen már 45 településen lesz elérhető a generációk digitális edukálását célzó program. A digitális infrastruktúra fejlesztése érdekében a Magyar Telekom a Fővárosi Szabó Ervin Könyvtár és az Informatikai és Könyvtári Szövetség részére 100- 100 darab monitort adományoz a programban résztvevő könyvtárak számára.

2024. március 28. 11:50

Még szélesebb körben elérhetők a Galaxy AI funkciók a One UI 6.1 frissítéssel

Még több Galaxy felhasználó léphet be a mobil AI új korszakába: a One UI 6.1 frissítéssel korábbi készülékeken is elérhetővé válnak a Galaxy AI funkciók március 28-tól. A Galaxy S23 széria, az S23 FE, a Z Fold5 és a Z Flip5 készülékek, valamint a Tab S9 termékcsalád tagjain is elérhetők lesznek azok a lehetőségek, melyeket az idén bemutatott Galaxy S24 széria felhasználói már kipróbálhattak.

2024. március 27. 19:13

A telefonálástól a nagyképernyős streamelésig – így alakította át az életünket 3 évtized alatt a mobiltechnológia

1994. március 26-án, 30 évvel ezelőtt indította a Yettel az első kereskedelmi GSM szolgáltatást Magyarországon, akkor még Pannon GSM néven. Nem csak a márka, a mobiltechnológia is számos újításon ment keresztül a három évtized alatt. Az akkoriban még csak hangszolgáltatást nyújtó méregdrága belépési díjtól indulva mára korlátlan hang- és adatcsomagok, szélsebes mobilinternet érhető el megfizethető áron, mind mobilon, mind az otthonokban, mobilhálózati alapokon. 30 év fejlődése, aminek mára a lakosság és az üzleti felhasználók is a nyertesei lettek.

2024. március 27. 16:55

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Megvannak az IAB 2023-as Legjobb szakdolgozat pályázatának nyertesei

2024. március 25. 15:50

A 2024-es év fordulópont lehet az IT munkaerőpiacon?

2024. március 20. 10:09

Nők az informatikában – Számít a nemek aránya a munkahelyen?

2024. március 12. 20:53

Szemünk előtt zajlik az e-kereskedelem mohácsi csatája

2024. március 6. 13:05