Beszélt és írott magyar szöveg feldolgozását lehetővé tevő modellt építettek a Pécsi Tudományegyetemen
Mindenki szívesebben használja az anyanyelvét chat és más automatizált alkalmazásokban. Mivel azonban a magyar nyelvet mindössze 15 millióan beszélik világszerte, a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvereket. A Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata felismerve ezt a problémát a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítette és betanította saját BERT-large modelljét magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével.
A Pécsi Tudományegyetem számára kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás, amióta partnerkapcsolatot építettek ki a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül 2019-ben.
A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.
A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.
“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.
Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.
A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterséges intelligencia modellek építésével, munkába állításával, menedzsmentjével és nyomonkövetésével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint például az adatkezelés.
A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.
Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott.
“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet.
A Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.
Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid-19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt.
A projekt teljes ismertetője ezen a linken olvasható.
Kapcsolódó cikkek
- Német művész érkezik a SZTAKI-ba, hogy robotot építő robotot építsen
- A Xiaomi öt új okoseszközt mutatott be
- A Dell Technologies Omnia szoftverével felgyorsíthatók az innovációs folyamatok
- Az adathalászat által legjobban sújtott brand továbbra is a Microsoft
- A hibrid munkakörnyezet több érzékenységet és rugalmasságot kíván meg a vezetőktől
- A jövő AI alapú ellátási láncai most alakulnak
- A Fujitsu mesterséges intelligenciája vigyázza a Nürburgring versenypálya biztonságát
- OMSZ–Dyntell: látják a jövőt
- Digitális készségekkel vértezte fel magát a hazai civil szektor
- MI TUDÁSKÖZPONTOK: Robotszimuláció támogatja az önvezető járművek fejlesztését
Megoldás ROVAT TOVÁBBI HÍREI
A digitális bankolás jövője: személyre szabott ügyfélélmény és új generációs technológiák
A Deloitte legfrissebb, Digital Banking Maturity 2024 kutatásának eredményeiből kiderül, hogy a COVID-19 járvány idején elindult digitalizációs folyamatok nemhogy nem lassultak, hanem új lendületet kaptak a bankszektorban az elmúlt évek során, alkalmazkodva az ügyfelek folyamatosan bővülő igényeihez. A fejlesztések fókuszában a funkciók mennyisége helyett, egyre inkább a személyre szabottság, az ügyfélélmény fokozása és a költséghatékonyság kapott hangsúlyt. Emellett a korábban elhanyagolt területek, például a digitális jelzálog is előtérbe kerültek.
OMV: 2025 végéig országszerte elérhető lesz az ultragyors töltőhálózat
Országszerte 15 helyszínen már igénybe vehetőek az OMV új gyorstöltői. A társaság még idén megduplázza ultragyors töltéssel üzemelő töltőállomásai számát, 2025 végéig pedig közel 50 helyszínen összesen 80 villámtöltő pont működik majd az országban. A töltők legalább 100 kW teljesítmény leadására képesek, ami később több helyszínen akár a 200 kW-ot is elérheti, a hálózati kapacitás függvényében. Az OMV saját applikációt is fejlesztett a töltőkhöz, amiben most különleges akciókkal várja az autósokat.
Nemzetközi szintre lép a karbonlábnyom-csökkentő magyar startup
Balogh Petya és az általa fémjelzett STRT Holding Nyrt., valamint két másik befektető látott fantáziát a digitális marketing tevékenységek, így a weboldalak és e-mail kampányok karbonlábnyomának csökkentésére specializálódott Carbon.Crane-ben. A világszinten naponta küldött 350 milliárd e-mail* és a 200 millió aktívan üzemelő weboldal** – a háttérben dolgozó szerverparkok miatt – egyre nagyobb, ráadásul egyre növekvő részét teszi ki a globális karbonkibocsátásnak, erre dolgozott ki egyedi megoldásokat a 100%-ban magyar tulajdonú és hazai alapítású startup. Az egyedi és innovatív szolgáltatásokat nemzetközi szinten is értékeli a szakma, amit legutóbb a MediaSpace Global Changemakers' Awards 2024 díjával ismert el.
Újabb kutatás cáfolja az AI-félelmeket
A Unisys friss kutatása szerint mind az alkalmazottak, mind a munkáltatók pozitívnak ítélik meg a mesterséges intelligencia (AI) munkahelyi hatását. A Magyarországon több mint 700 szakembert foglalkoztató vállalat négy országban elvégzett felmérése azt mutatja, hogy az AI alkalmazása növelheti a dolgozói elégedettséget, és segítheti a gyorsabb karrierépítést, míg a vállalatvezetők szerint versenyképességüket veszélyezteti, ha nem építik be a technológiát a működésükbe.
A Mikulás sem egyedül dolgozik, a cégednek sem kell
Egyre több vásárló igyekszik elkerülni a december végi vásárlási dömpinget, így az online megrendelések száma a karácsonyt megelőző hónapokban akár az éves átlag többszörösére is ugorhat. Az áruházak számára ilyenkor kiemelten fontos a forgalom maximalizálása, de a megugró ügyfélszolgálati igények kielégítése és a zökkenőmentes kiszolgálás biztosítása komoly kihívásokat jelent.