Helyesírás a számítógépes szövegszerkesztés korában
A "rádiós-láger" és a "cumi-süveg"
Érdekes informatikai területtel és egyben a mindennapok gyakorlati problémájával foglalkozik Prószéky Gábor nemrég megjelent, A nyelvtechnológia (és) alkalmazásai című kötetében (Aranykönyv Kiadó, eVilág kiskönyvtár, 2005). Bár a cím száraz szakmai tanulmányt sejtet, a könyv mégsem, sőt nem is elsősorban az informatikusoknak és a nyelvészeknek szól, hanem a számítógépet használó hétköznapi ember számára nyújt hasznos és könnyen érthető információkat. A szerző a kötetben - és lapunknak adott interjújában - számos érzékletes, ám sokszor elrettentő példával világítja meg az elektronikus szövegszerkesztés során felbukkanó helyesírási hibák okait, és mutat rá kiküszöbölésük lehetséges módjaira.
- Kezdjük szó szerint az elején: miért szerepel a könyv címében zárójelben az és szócska?
- Ebben a kis kötetben arról olvashatunk elsősorban, hogy mi is az a nyelvtechnológia, és hogy mire használják a mai számítógépes alkalmazásokban az elért eredményeket. Ahhoz azonban, hogy az alkalmazások alapvető működési módját megismerjük, minimális ismeretekkel kell rendelkeznünk a számítógépes nyelvleírásról. Ha az alapokat kimerítően tárgyalnánk, valóban jogos volna A nyelvtechnológia és alkalmazásai cím. Ám mivel nem ezek az alapismeretek alkotják a legfőbb mondandót, hanem az alkalmazások, felmerült, hogy mégis A nyelvtechnológia alkalmazásai címet volna okosabb használni. Azonban, hogy mégse vezessük félre a kedves Olvasót, mindkét címet meghagytuk, és kissé formalista módon ennek kifejezésére az opcionalitást - azaz a szabadon választhatóságot - jelző zárójel használatához folyamodtunk.
- Essünk túl a kötelezőnek mondható szakmai kérdésen is: mi a nyelvtechnológia lényege?
- A nyelvtechnológia (hosszabb nemzetközi nevén: human language technologies, rövidítve: HLT) az informatikának az az ága, ahol a számítógépes alkalmazás az emberi nyelvvel találkozik, és a gép ebben a helyzetben a nyelvi képességekkel bíró emberéhez - legalábbis ebben az alkalmazási környezetben - hasonló reakciókat ad. A humán nyelvtechnológia határterülete többek között a leíró nyelvészet, a formális nyelvek elmélete, a lexikográfia és a szoftvertechnológiák. Mivel manapság az akár felolvasásra, akár kinyomtatásra szánt anyagok - újságcikkek, tudományos írások, előadások, disszertációk, könyvek, törvénytervezetek, hozzászólások, feljegyzések, fordítások, levelek - közel 100 százaléka számítógépen készül, óriási azoknak a felelőssége, akik például a helyesírásra igényes felhasználót gépi eszközökkel segítik, illetve ezekről a lehetőségekről tájékoztatják. Az internet terjedésével a felelősség nő: a nyelvhelyesség-ellenőrző programok által ellenőrzött (de legalábbis ellenőrizhető) anyagokat naponta többmilliónyian olvassák, a keresőprogramokat további milliók használják, a gépi szótárak és fordítóeszközök segítségével pedig százezrek fordítanak.
A nyelvtechnológia súlyát épp az adja, hogy napjainkban a számítógép alapvetően és elsősorban a kinyomtatandó, felolvasandó - és egyre inkább elektronikus formában is használatos - dokumentumok előállításának eszköze.
A nyelvtechnológia tehát nem arról szól, hogy a nyelvészt hogyan segíti munkájában a számítógép, hanem sokkal inkább arról, hogy a nyelvészet eredményei hogyan tehetők elérhetővé a számítógép számára. Más szavakkal: a nyelvtechnológia nem számítógép a nyelvtudományban, hanem nyelvtudomány a számítógépben.
- Ön szerint mi az oka, hogy az elmúlt évszázadok míves nyomdai munkáihoz képest manapság elképesztően sok a formailag igénytelen és nyelvtanilag hibás kiadvány?
- Kezdjük azzal, hogy a számítógéppel való információszerzés hatása az olvasásra elgondolkoztató. Ma több hibás írott nyelvi minta található az interneten, mint bárhol, bármikor korábban. Azelőtt kizárólag a tipográfiai és nyelvhelyességi ügyekben képzett és igényes nyomdász volt az, aki sokak által elérhető szövegeket hozott létre. Ezt a szerepet ma bárki magáénak mondhatja, ám az egykori nyomdászok szakismeretét nem. Ennek megfelelő minőségűek a sokak szemében valódi nyomdaterméknek tűnő felületes kiadványok.
Vannak persze a helyesírást támogató szoftverek, de sok felhasználó büszkén állapítja meg, hogy ő még mindig jobban tudja a nyelvtant, mint az erre szolgáló programok. Leszögezhetjük, hogy ez így is van jól. A felhasználó a legtöbb nyelvi programtól vagy többet, vagy kevesebbet vár, mint amennyit az teljesíteni képes. A problémák általában ebből a jelenségből adódnak. Emlékezzünk csak vissza: a számítógép előtti időkben az írógép billentyűzetének használata több okból sem okozott a számítógép billentyűzetén való gépeléshez hasonló nehézségeket. Egyrészt azért, mert az írógép nem játszhatta el az okos gép szerepét, s így senki nem várhatta el tőle a hibák kijavítását, másrészt pedig azért, mert még ha volt is szabványos, minden magyar ékezetes betűt tartalmazó billentyűkiosztás, a legtöbb berendezésen akkor sem lehetett tökéletes helyesírással gépelni, ha valaki szeretett volna.
- Akkor tehát támaszkodhatunk a szövegszerkesztőnk helyesírás-ellenőrző programjára, vagy sem?
- A nyelvi programrendszer, mint minden számítógépes rendszer, tartalmazhat hibákat. A helyesírási programok a norma szerinti írás algoritmizálásának segítségével a nem algoritmizálható jelenségek számának csökkentését célozzák meg. Azt előfeltételezik tehát, hogy a norma követése közben kétféle feladatot old meg az efféle számítógépes rendszer használója: egyrészt felülbírálja a nem algoritmizálható normajelenségek "túlbuzgó" gépi kezelését, másrészt elfogadja a gép által ajánlott korrekciókat. Fontos tehát összefoglalni, hogy a számítógéppel készülő dokumentumokban milyen normától való eltérésekre, azaz nyelvhelyességi hibákra számíthatunk. A szóellenőrzésre készített modell sem a szavak jelentését, sem környezetüket nem vizsgálja, ezért például az értelmes szóhibák vagy a hibás különírás jelzésére alkalmatlan. A nyelvhelyesség-ellenőrzőknek nevezett programok ezzel szemben olyan helyesírás- és stílusellenőrző programok, amelyek átlépik a szóhatárt, azaz a szavaknál nagyobb nyelvi szerkezetekkel foglalkoznak. A teljes mondat elemzését végző eljárások a legtöbb nyelv esetében ma még túl bonyolultak ahhoz, hogy elfogadható helyesírás-ellenőrző program épülhessen rájuk.
A számítógéppel írt szövegek hibái között a szóhibák egyébként sokkal gyakoribbak, mint a mondathibák. Általában elmondható, hogy a szóellenőrző programok az íráshibák 80-85 százalékát képesek kiszűrni, míg a szóhatáron túl működő szoftverek további 5-10 százalékot ismernek fel. Így a szó- és nyelvhelyesség-ellenőrző programok az összes íráshiba kb. 85-95 százalékát tudják felismerni, és ezek jelentős részéhez javításokat is ajánlanak.
- Vannak-e a magyar nyelvnek olyan jellegzetességei, amelyek különleges kezelést kívánnak a nyelvhelyességi programok készítőitől?
- A magyar helyesírás szabályaira épített eszköz létrehozásakor a szabályok egy része könnyen számítógépesíthetőnek bizonyult, másokkal azonban egyszerűen nem lehetett mit kezdeni: számos esetben az írásmód a szövegkörnyezet jelentésétől, illetve a kommunikációs helyzettől függ, erre nézve pedig a program által egyszerre vizsgált szövegrészből nem lehet információt nyerni.
A kidolgozandó nyelvi modell szempontjából lényeges, hogy végiggondoljuk: a számítógépnek milyen helyesírási hibákra kell felkészülnie. Ha egy nyelvnek részletes helyesírási szabályzata van - márpedig a magyar ilyen -, akkor a nyelvi eszköz készítői megtehetnék, hogy a nyelvi modellt és a javítási mechanizmusokat szigorúan a szabályokhoz alkalmazkodva alkotják meg. Azonban ezek a szabályok nem a számítógépes nyelvi programok számára jól megfogalmazható igények szerint alakultak ki, és kezelésük sokszor a művelt anyanyelvi beszélő számára is problémát okoz. A nem kellő egzaktsággal megfogalmazott szabályrendszer és a történeti okokból megtartott kivételek nagy száma nehezíti a komputerizálást. A számítógépes modellben a nyelvi jelenségeket kimerítően kategorizálni kell, mert a gép nem tudja az emberhez hasonlóan alkalmazni a szabályzatban előírt analógiákat - ezeket a modellt készítő nyelvésznek végig kell vezetnie a modellben leírt valamennyi kifejezésen.
Érdekes tapasztalat, hogy azok, akik az anyanyelvükön írnak, egészen más hibákat követnek el, mint azok, akik ugyanazt a nyelvet idegen anyanyelvűként használják. Ezért - különösen elterjedt, "nagy" nyelvek esetén - megfontolandó lehet, hogy kétféle helyesírás-ellenőrző program készüljön: egy az anyanyelvi, egy pedig az idegen anyanyelvű nyelvhasználók számára. Ugyanis sok esetben nemcsak magát a nyelvet, hanem értelemszerűen a lehetséges hibákat is modellezni kell, így a két különböző helyesírás-ellenőrző gyökeresen eltérő hibamodelleket igényelhet.
- Milyen hibák fordulnak elő a leggyakrabban számítógépes szövegszerkesztéskor?
- A gépelés során a leggyakoribb hibák a betűtévesztések, a kihagyások, a betűcserék és a fölösleges betűk beszúrása. A hiba legtöbbször szóellenőrzéssel észlelhető, kivéve, ha a tévesztés eredménye értelmes szó. A számítógép, ha csak a szavakat ellenőrzi, alkalmatlan az úgynevezett értelmes hibák felismerésére és javítására. Értelmes hibáról akkor beszélünk, ha gépelési vagy helyesírási hiba folytán "helyes", azaz a szóellenőrző program által ismert kifejezés jön létre a helyett a szó helyett, amelyet a felhasználó írni akart. Ilyen például, ha "mellett" helyett "mellet" kerül a szövegbe, vagy ha valaki a "rét" helyett a "tér" szót írja. Mivel a magyar számítógép- és írógép-billentyűzeten az r és a t betű egymás mellett van, könnyű melléütni.
A gépelés együtt jár néhány tipikus, nyelvfüggetlen hibával. Ilyen például a betűk kihagyása (pl. magyr), duplázása (pl. magyaar), az idegen betű beszúrása (pl. magyaer) és a melléütés (pl. nagyar). Ez utóbbi már némiképp nyelvfüggő, mert a billentyűzetkiosztás nyelvenként változhat. Ennél sokkal nagyobb probléma, ha a klaviatúrán esetleg nagyobb távolságban elhelyezkedő karakterek valamiképpen kapcsolatba hozhatók egymással, így tévesztésük tipikus lehet. Gondoljunk csak a magyar és az angol billentyűzet eltéréséből adódó y/z problémára (pl. ház/*háy). Mivel a hagyomány fontos szempont a helyesírási rendszerek megfogalmazásakor, az írásban olyan nehézségekkel is meg kell küzdenünk, mint az ly/j probléma (pl. papagáj/*papagály, bója/*bólya) vagy a mamut/*mammut probléma. A jelek, számok, dátumok, idegen alakok toldalékolása sokszor még a jobb helyesírónak gondolt embereket is megtréfálja. Gondoljunk csak a következő tipikus hibákra: %-kal/*%-al, 0-s/*0-ás, április 2-a/*április 2-sodika, Nantes-tal/*Nantesszal. (A *-gal jelölt példák a helytelenek.)
- Hogyan lehetséges, hogy olykor maga a gép rontja el az eredetileg helyesen beírt szöveget? Gondoljunk például az újságokban hemzsegő elválasztási hibákra...
- A példák sorát én is folytathatnám, például a dátumokban gyakran megjelenő nagy kezdőbetűs hónapokkal (2005. Május 30.). Ilyenkor gyakran a számítástechnikát okoljuk, pedig a gép csak azt hajtja végre, amire beprogramozták - ráadásul itt nem is a helyesírási programokról van szó...
A nagybetűs hónapnevek elszaporodásának oka az automatikus nagybetűsítő modul ismeretének hiánya. 2005. Május 30. nagybetűs hónapneve láttán nem a "Nem nagybetűvel írjuk!" (egyébként jogos) felszólítás a segítség, hanem a ma hazánkban leggyakrabban használt szövegszerkesztő program megfelelő ismerete. A hibát ugyanis - legalábbis az első időkben - nem a gépelő követi el, mert ő minden bizonnyal tudja, hogy a hónapok neve kisbetűvel írandó. Ezzel szemben az említett programban van egy - kikapcsolható - automatikus betűcserét végző modul, amely minden mondat elejét a gépelő megkérdezése nélkül nagybetűsíti, s mivel az évszám után pontot talál, a hónapot már az új mondat kezdetének véli. Ezt a modult nem a magyar nyelvhelyességi programok készítői dolgozták ki. Természetesen a helyzet javulna, ha ez a mondatkezdet-nagybetűsítési lehetőség mindenkinél állandóan ki lenne kapcsolva, ehhez viszont nem elég a hagyományos nyelvművelői felszólítás, ráadásul nem is könnyű megtalálni a "Mondatok első betűje" opciót.
Az elválasztóprogramot nem, vagy legalábbis nem a magyar változatot használó szövegeiben két gyakori típushibával találkozhatunk. Az egyik esetben a sorok belsejébe kerül egy nem a számítógépes elválasztóprogram által, hanem kézzel betett elválasztójel (pl. bel-sejében), a másik esetben pedig a nem magyar elválasztóprogram használata miatt rossz helyre kerül a kötőjel (pl. elválas-ztás). Tudni kell, hogy a morfológiai elemzőre épülő elválasztóprogram által felajánlott elválasztás elvileg 100 százalékos (elvileg, hiszen elírás mindig lehet az adatbázisban, de az könnyen javítható), hiszen ismeretlen szavakat nem választ el automatikusan, az ismertekre pedig az algoritmus helyesen működik. Az ilyenkor kézzel betett kötőjelek sor belsejébe kerülése miatt nem a gépi elválasztást kell szidni, hanem a nem hivatásos tördelő ismereteit kellene bővíteni. Ilyen esetben ugyanis a - sajnos sokak által nem ismert - lágy elválasztójeleket kell használni, s így kizárólag akkor jelenik meg a kiskötőjel, ha a szó a sor végén ténylegesen elválasztási pozícióba kerül. Minden más esetben a jel nem látható.
A másik esetről viszont nyugodtan állíthatjuk, hogy az "elválas-ztás" típusú szörnyűségeket egy jól működő magyar elválasztóprogram soha nem követi el. Ilyenkor az a valószínű, hogy az így elválasztott szöveg létrehozója nem ismerte a nyelvi formázás fogalmát. Ez valójában egy nem látható kijelölés, amelynek az a hatása, hogy a szöveget magyarnak formázva magyarul, angolnak formázva angolul, svédnek formázva svédül fogja ellenőrizni, illetve elválasztani a program. E kijelölés ismeretének hiányában az utoljára (gyárilag vagy mások által) beállított nyelv elválasztási szabályai fogják megpróbálni az adott szöveg nyelvén, például magyarul írt szavakat a másik, éppen beállított nyelv szabályai szerint elválasztható részekre szabdalni. Az elválasztás - nyelvtől függetlenül - ki is kapcsolható, ám még ehhez is kell némi szövegszerkesztő-ismeret. A nyelvőr ilyenkor nem elégedhet meg a puszta "Ne használd, abból baj nem lehet!" felszólítással. A hibás elválasztások tehát az elválasztóprogram ismeretének hiányából fakadnak.
Mondok egy másik példát a magyar nyelv speciális elválasztásaira. A rádiósláger" szó esetében számunkra természetes, hogy az melyik két szóból tevődik össze, így nyilvánvaló, hogy a "rádió-sláger" a helyes elválasztás. A morfológiával felvértezett számítógép viszont lehetséges morfémahatárt lát - joggal - a "rádiós"és a "láger" határán is. A komputernek azonban nincsenek emlékei, és nem érti a jelentést. De ha megértetjük vele, akkor ennek mintájára a "cumisüveg" szót "cumi-süveg" alakban szeretné elválasztani. Az anyanyelvi beszélők rögtön tudják, hogy a "rádiósláger"-nél alkalmazott szabály a "cumisüveg" esetében nem működik. A gépnek tehát mindent meg kell előre mondani, különben nem várhatunk el tőle helyes működést.
Sokszor tehát képzettségünkön, szellemi önállóságunkon múlik, hogy vitába merünk-e szállni a gép ítéleteivel, vagy feltétel nélkül megbízunk bennük. Honfitársaink egy része van annyira bizonytalan a saját helyesírásában, hogy örömmel veszi, ha eligazítják az írott szövegben végzett tévelygései közben. A nyelvművelőknek kellene tudatosítaniuk az emberekben, hogy mit kell, mit lehet és mit nem szabad ráhagyni a számítógépes nyelvhelyességi rendszerre, a nyelvművelők nagy része viszont nem is ismeri a gépi eszközök logikáját.
A könyv ára: 690 Ft.
Kapható a Líra és Lant könyvesboltjaiban.
Megrendelhető a kiadónál:
Aranykönyv Kiadó,
1028 Budapest, Kő u. 45.
Fax: (06-1) 397-5397
e-mail: arany.kiado@axelero.hu
Web: http://www.evilagonline.hu
Kapcsolódó cikkek
- Intelligens könyvkötés
- Egy új alkalmazás tweetjeink után ajánl könyvet
- A-tól Z-ig jövő: Knyiga-fesztivál Belgrádban
- Bookline: Ha nyár, akkor szórakozás
- Közösségi könyvkiadás: Sikerkönyv az olvasók igényei szerint
- Buda Ferenc szerint az informatika forradalma megbolygatta a könyvkiadás rendjét
- Az e-kereskedelem marketinges szemmel
- Új e-könyv téma: sport, Forma 1…
- A könyvkiadás harmadik útja: független publikálás
- Megöli az e-könyv a nyomtatottat Nagy-Britanniában
LazIT ROVAT TOVÁBBI HÍREI
Tovább bővül az Euronics – két új áruházzal és több mint 5 ezer átvevőponttal készültek
Jelentős fejlesztésekkel és új forgatókönyvvel fordul rá az ünnepi szezonra az Euronics. November közepéig két új áruház nyílt Dunaharasztiban és Kecskeméten, de jelentősen bővül az átvevőpontok száma is. A műszaki cikkeket, szórakoztatóelektronikai termékeket forgalmazó vállalatnak így összesen 67 üzlete és 5400 átvevő helye van, utóbbiak száma ráadásul jövőre már 8500-ra rúghat a Foxpost és a Packeta egyesülésének eredményeként.
Elindult a Google 2024. novemberi Core, alap-algoritmus frissítése
A Google elindította a legújabb algoritmus frissítését. A „2024. novemberi Core-frissítés” körülbelül két hétig fog tartani, amíg teljesen érvénybe lép. Szuhi Attila, az ITE.hu alapítója és főszerkesztője mutatja a részleteket.
Hogyan formálja át az AI az életünket, a munkánkat és a globális társadalmunkat?
Az AI fejlődése nemcsak technológiai szempontból hoz forradalmi változásokat, hanem társadalmi és gazdasági hatásai révén is alapjaiban formálja át mindennapi életünket, az emberi döntéshozataltól kezdve, az iparágak hatékonyságán át egészen a közvélemény (át)formálásáig. A Neuron Solutions által szervezett AI Night rendezvény célja az volt, hogy elismert szakértőkkel és a különböző iparágak képviselőivel egy kötetlen beszélgetés keretében tárja fel azokat a kihívásokat és lehetőségeket, amelyekkel az AI használata során a vállalatok, a munkavállalók és a társadalom egésze szembesül.
Rangos szabadalmi díjat nyert az LG innovatív megoldása
Valószínűleg minden autóvezető találkozott már azzal a szituációval, amikor egy komplex csomópontban, bonyolult kereszteződésnél, ismeretlen útvonalon a megszokottnál nagyobb kihívást jelent a tájékozódás, a továbbhaladáshoz szükséges távolságok vagy az irányok azonosítása. Az LG Electronics (LG) által kifejlesztett kiterjesztettvalóság-technológia (AR) éppen erre kínál megoldást, mégpedig úgy, hogy az autóba épített kijelzőn egyértelmű, az irányokat mutató, könnyen értelmezhető utasításokat, illetve különböző vezetési forgatókönyveket jelenít meg 3D-s grafikák generálásával.
A KPMG a Corvinus stratégiai partnere lett
Stratégia megállapodást kötött Magyarország első számú üzleti, gazdaság- és társadalomtudományi egyeteme, a Budapesti Corvinus Egyetem és a KPMG, hazánk egyik vezető könyvvizsgáló, adó- és üzleti tanácsadó cége. Az egyetem és a tanácsadó cég közötti együttműködés három alappilléren nyugszik; ezek az oktatás, a kölcsönös tudásátadás, valamint a tehetséggondozás-, tehetségek utánpótlása.