Feláldozzák a pontosságot a gyorsaság oltárán - Gyakran hibáznak a keresőmotorok (1. rész)

MTI Sajtóadatbank, 2012. március 15. 08:10

Voltaképpen a személyes népszerűség mérésének kézenfekvő módja lehet, hogy valaki begépeli a saját nevét egy keresőbe: a kapott találatok száma sok mindenről árulkodhat. A BBC újságírója azonban inkább egy közismert embert választott, próbaképpen Tim Harford - közgazdász, a The Financial Times újságírója, a Világbank tanácsadója, a BBC More or Less című műsorának vezetője, akinek magyarul A leleplezett gazdaság címmel jelent meg kötete - nevét írta a Google-be, és 835 000 találatot könyvelhetett el. Illetve 325 000-et. Vagy 285 000-et. Az eltérő eredményekért elég volt pár métert megtennie a szomszédos számítógépekig a BBC szerkesztőségi irodájában…

    Hogy mi az oka ennek a hatalmas eltérésnek? Viszonylag egyszerű a magyarázat: a keresőmotor pontossága - a kiadott eredmények száma - alapvetően attól függ, hogy milyen számítógépről indítják a keresést, és azon milyen Google-verzió fut. A Google-nak egy időben több tükörszerveren is üzemel egy-egy példánya, és a találatok száma azon is múlik, hogy ezek közül éppen melyik a legkevésbé leterhelt.

Két gyakori keresztnév: 68 millió találat


    Az eredmények ráadásul perszonalizáltak: igazodnak a korábban indított keresésekhez és a keresést indító személy földrajzi elhelyezkedéséhez is.
    A BBC cikkét jegyző Ruth Alexander még egy meghökkentő adattal szolgált: amikor a saját nevére keresett rá, 68 millió (!) találatot könyvelhetett el. Pedig nem írt könyveket, filmekben sem játszott főszerepet, és nagyon sokan valószínűleg sohasem hallottak róla. Annak, hogy mégis ilyen webes "hatalmassággá", a keresőmotorok kedvencévé vált, meglehetősen prózai oka van: neve két népszerű keresztnévből tevődik össze.
    A keresők adta eredmények tehát félrevezetőek lehetnek, és a találatok száma mit sem jelent, ha valaki nem gépeli be az aposztrof (') jeleket a keresett név vagy kifejezés elejére és végére, vagy ha túlzottan tág értelmű fogalmakat használ. Vagyis: ostoba kérdésre csak ostoba válasz születhet.

Ahány találat, annyi oldal?


    Ráadásul egy Google-bajnokhoz méltó módon, mérnöki pontossággal megfogalmazott keresőkérdés esetén sem szabad vakon elfogadni a találatok számát. Azt hihetnénk ugyanis, hogy amikor 68 millió találatot jelez a Google számlálója, akkor elvileg 68 millió olyan oldal létezik, amelyeken megtalálható a beírt kifejezés. De szó sincs róla.
    Egy tanulmány készítői három keresőmotor eredményeit vetették össze, mégpedig olyan kérdések alapján, amelyek 1000-nél kevesebb találatot eredményeztek. Megállapították, hogy még a legjobban teljesítő keresőmotor is hajlamos arra, hogy csak úgy összecsapja a számításokat, és a három közül egyik sem szolgált egzakt információval arról, hogy valójában hány dokumentum szerepel a találatok között - megelégedtek az egyszerű becsléssel.
    A kutatók azt tapasztalták, hogy a számok akkor még elég pontosak voltak, amikor egyetlen szó alapján kellett keresni, de valahányszor hozzáadtak egy új szót a kereséshez, annál pontatlanabbá váltak a mennyiségi adatok.
    "Nyolcvan százaléknyi időt használva fel a becslések megbízhatóan alakultak, csupán 10 százalék volt a hibák aránya - meséli Ahmet Uyar, a törökországi Mersin Egyetem számítástechnikai részlegének vezetője. - Viszont ha kétszavas kérdéseket tettünk fel, a találatok pontossága majdnem a felére csökkent."

Feleződik a pontosság


    Amikor pedig a kutatók ötre növelték a keresendő szavak számát, a pontos találatok száma ismét a felére csökkent. A legjobban teljesítő keresőmotor becslése ugyanakkor csupán 10 százalékkal tért el a valóságos dokumentumok mennyiségétől, a rendelkezésre álló idő kevesebb mint 20 százalékát használva fel.
    A BBC munkatársa is tett egy próbát egy ötsoros limerick - kötött formájú, abszurd vagy obszcén elemekkel teletűzdelt - versike első részével (a 11 szóból álló sor egy dardzsilingi fiatalember buszra szállásának történetét örökíti meg). A keresés 15 találatot eredményezett, majd a kihagyott eredményeket is listázva 29-re nőtt a szám, de ezek közül a kereső csak 21-et mutatott.
    A szakértők azzal magyarázzák a jelenséget, hogy a sebesség érdekében kell tolerálni a pontosság hiányosságait. A színfalak mögött üzemelő szuperszámítógépeknek ugyanis nagyon gyorsan kell működniük, miközben rengeteg dokumentumot azonosítanak, kirostálva közülük a reklámcélú "szemetet" és az olyan oldalakat, ahol a keresett szó környezetét ugyanazok a kifejezések alkotják - mindezt kevesebb, mint egy-két másodperc alatt.
    És gondoljunk csak bele, hogy mekkora a világháló, amelyen keresniük kell! A keresőmotorok valószínűleg ennek csak egy töredékét térképezik fel.

Reménytelen mindent megtalálni

    1999-ben a kutatók megpróbálták megbecsülni, hogy a világháló mekkora hányada is szerepel a főbb keresők indexeiben - az akkor a Nature-ben publikált tanulmány szerint mindössze 16 százalékát dolgozták fel az összes oldalnak.
    És bár azóta a keresőmotorok hatalmasat fejlődtek, maga az internet is nagyon gyorsan bővült, és valószínű, hogy a keresőmotorok ma is csak az információ egy viszonylag kis részét lehetnek képesek lefedni. És ez vélhetően örökre így is marad.
    Az angliai Wolverhampton Egyetemen dolgozó és a web mérésével foglalkozó professzor, Mike Thelwall szerint a keresőmotorok sohasem fogják megtalálni a weben található valamennyi oldalt. Ennek oka, hogy egyszerűen nem létezik egyetlen olyan hatalmas lista sem, amelyen valamennyi weboldal szerepelne. (folyt.)