Beszélt és írott magyar szöveg feldolgozását lehetővé tevő modellt építettek a Pécsi Tudományegyetemen

forrás: Prím Online, 2021. augusztus 27. 12:55

Mindenki szívesebben használja az anyanyelvét chat és más automatizált alkalmazásokban. Mivel azonban a magyar nyelvet mindössze 15 millióan beszélik világszerte, a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvereket. A Pécsi Tudományegyetem (PTE) Alkalmazott Adattudományi és Mesterséges Intelligencia-csapata felismerve ezt a problémát a Microsoft Azure mesterséges intelligencia és az ONNX Runtime megoldások alkalmazásával megépítette és betanította saját BERT-large modelljét magyar nyelven, méghozzá kevesebb, mint 200 munkaóra és 1000 euró befektetésével.

A Pécsi Tudományegyetem számára kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás, amióta partnerkapcsolatot építettek ki a Microsoft Mesterséges Intelligencia Tudásközpont program keretein belül 2019-ben.

 

A nagy mennyiségű magyar nyelvű adat kezelését megkönnyítendő a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű BERT-large modell (HILBERT) létrehozása jelentette, ami egy nyílt forráskódú gépi tanulás keretrendszer. A modell célja, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

 

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

 

 

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta el Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke. Ráadásul a csapat már ismerte az Azure szolgáltatást, ez is egy érv volt mellette.

 

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

 

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterséges intelligencia modellek építésével, munkába állításával, menedzsmentjével és nyomonkövetésével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint például az adatkezelés.

 

 

 

A modell működéséhez egyébként legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges, ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

 

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott.

 

“200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte büszkén Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. “Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívja fel a figyelmet.

 

A Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.

 

Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid-19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt.

 

A projekt teljes ismertetője ezen a linken olvasható.

Megoldás ROVAT TOVÁBBI HÍREI

Innováció a légi szállítmányozásban

A DSV egy hazánkban innovációnak számító, korábban még sosem alkalmazott átvilágítási szolgáltatás elindításával új export légiszállítási lehetőségeknek nyit kaput. A Budapest Liszt Ferenc Nemzetközi Repülőtér közvetlen közelében található raktárukban már 2-8 Celsius-fokos környezetben is átvilágítási szolgáltatás nyújtására lesznek a továbbiakban képesek, ezzel pedig fellendítik a BUD Airport gyógyszerexport tevékenységét. A fejlesztés egy gyógyszeripari üzleti esemény keretein belül debütált 2024. április 23-án, Vecsésen.

2024. április 24. 19:50

Tovább terjeszkedik a belga-magyar logisztikai raktárfejlesztő-vállalat

A belga-magyar tulajdonosi háttérrel rendelkező Weerts Logistics Park (WLP) HUR One Kft. közel 55 000 m2 alapterületű logisztikai csarnokot épít Debrecen szomszédságában, Ebesen. A WLP az első külföldi érdekeltséggel is rendelkező beruházó, amelyik előre, megrendelésállománnyal még nem rendelkező, spekulatív módon fejleszt a Hajdú-Bihar-Vármegyei székhely térségében. A kitűnő lokációjú beruházásra a debreceni repülőtér és az épülő BMW gyár közelében kerül sor. 

2024. április 24. 14:46

Jön a MI Expo! Kiderül, hogyan formálja át az iparágakat az AI

Vajon lesz értéke az emberi munkának az AI-korszakban? Milyen munkaerőt tud kiváltani az AI már 2024-ben? Hogyan változtatja meg a munkaköröket a technológiai forradalom? Ilyen és efféle kérdéseket fognak körbejárni a MI Expo előadói június 11-én a Lurdy Házban. A rendezvény célja, hogy betekintést engedjen a kkv-k számára az iparágukat érintő legfontosabb változásokba.

2024. április 24. 13:11

Újabb húszezer laptopot szállít a Delta Systems Kft. az iskoláknak

A tavaly őszi szállítás után idén újabb, csaknem 20 ezer laptopot kapnak Békés, Jász-Nagykun-Szolnok, Baranya és Somogy vármegye diákjai a Delta Systems Kft. közreműködésével mintegy 4 milliárd forint értékben. A Klebelsberg Központ nevében eljáró Digitális Kormányzati Ügynökség (DKÜ) a csaknem húszezer darab notebook beszerzésével kapcsolatos közbeszerzés nyerteseként nevezte meg a Delta Systems Kft. vezette konzorciumot, mellyel a négy vármegye tanulói számára biztosítják a digitális oktatáshoz való egyenlő hozzáférés feltételeit. 

2024. április 24. 10:12

Kövess minket a Facebookon!

Cikkgyűjtő

További fontos híreink

Ingyenes digitális platform segít a tanároknak és diákoknak az érettségire való felkészülésben

2024. április 20. 11:36

Itt a világ első, Swarovski kristályba ágyazott autós kijelzője

2024. április 10. 14:55

A csevegőprogramokat vizsgálta az NMHH

2024. április 2. 13:14

Megvannak az IAB 2023-as Legjobb szakdolgozat pályázatának nyertesei

2024. március 25. 15:50