Nemcsak élőben, a helyszínen vagy a TV képernyője előtt ülve szurkoltuk végig a 2017-es vizes vb-t. Aktívak voltunk a közösségi médiában is, szinte minden részeredményt és eredményt azonnal kommentált a magyarok jó része. Az elmúlt napokban leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le – derült ki az adatbányászattal foglalkozó Clementine elemzéséből.
A közösségi oldalak közül a magyarok leggyakrabban a Facebook-ot használják, így a vizes vb alatt is itt született a legtöbb bejegyzés. A szurkolók több, mint háromezer nyilvános bejegyzésben osztották meg, hol és hogyan szurkolnak a magyar sportolóknak, milyen eseményeken vettek részt vagy melyik sportág a kedvencük. Kommentálták természetesen az eredményeket is.
Az adatbányászattal foglalkozó Clementine azt vizsgálta, milyen hashtag-eket és szavakat, kifejezéseket használtunk a leggyakrabban az elmúlt napokban, a vb-vel kapcsolatban, nem számítva a hivatalos, minden bejegyzésben előforduló #fina, #finabudapest, #avizosszekot kifejezéseket.
A cég egy rövid, de igen látványos videóban foglalta össze napi bontásban az eredményt. A #hashtag-ekből, szógyakoriságokból gyakorlatilag kirajzolódik a teljes program. Így például a nyitónapon még a #megnyitó vezetett, majd később az egyes sportágak, sportolók nevei, valamint a #döntö kifejezések is beléptek. A teljes vb ideje alatt leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le.
A sportágak közül a #szinkronuszas, a #toronyugras, az #úszás és kapcsolódó szavak (számok) mint a távokat jelző 200, 400 vagy a versenyszámokra utaló vegyes, váltó, valamint a #vizilabda kifejezések szerepeltek leginkább, ezek közül is kiemelkedett a #vizilabda. A sportolók közül pedig a legtöbbször Cseh László, Hosszú Katinka, Kenderesi Tamás neve szerepelt a vizsgált szövegekben.
„A szövegbányászat célja, hogy a nagy mennyiségben, ömlesztett, szöveges formában rendelkezésre álló adatokból strukturált információt nyerjünk ki. Erre volt szükségünk, amikor arra voltunk kíváncsiak, hogy a vizes világbajnokság ideje alatt hogyan alakulnak a vélemények a social médiában. Letöltöttük tehát a #finabudapest2017 és #avizösszeköt hashtaggel ellátott nyilvános bejegyzéseket. Az adatokat rendszereztük és elemezhető formába hoztuk, különválasztottuk a hashtageket, a bejegyzés szövegét, valamint időpontját. Ezeket nem manuálisan, hanem szövegbányászati eszközökkel dolgoztuk fel, az IBM SPSS platformba integrált magyar nyelvi elemzésre képes Clemtext megoldásunk segítségével. A szövegbányászat angol nyelvterületen már régóta alkalmazott technológia, sokan használjuk is a rá épülő alkalmazásokat, amikor például a telefonunkon a Google Asszisztenst vagy Siri-t hívjuk segítségül. Magyarországon azonban ma még kevesen látják, vagy legalábbis kevesen használják ki az ezen adatokban rejlő lehetőségeket, pedig a technológia már magyar nyelven is adott” – mondta Körmendi György, a Clementine ügyvezető igazgatója. A Clementine immár 10 éve foglalkozik aktívan magyar nyelvű szövegbányászattal, ez idő alatt több magyar nagyvállalatnál, szervezetnél támogatta a technológia bevezetését és egyedi üzleti alkalmazások implementációját, melyek mind a Clemtext megoldás révén jöttek létre.