Bár még sokat kell dolgozni az MI magyar nyelvi tudásán, több időt hagy a nyelvtudósoknak a kreativitáshoz

2025.02.05. | szerző: Andor Márió

Évek óta építik a magyar ChatGPT-t, de hamarosan egy még nagyobb dobással rukkolnak elő a HUN-REN Nyelvtudományi Kutatóközpont kutatói. Nyelvmodell-kiértékelő rendszerük segíthet tökéletesíteni a magyar nyelvi modellekre épülő szolgáltatásokat, például ennek segítségével kiválaszthatóak a választékosabban és helyesebben beszélő ügyfélszolgálati chatbotok. A HUN-REN NYTK főigazgatójával és AI-nagykövetével beszélgettünk aktuális kutatásaikról és a mesterséges intelligencia kihívásairól, lehetőségeiről.

Negyven országból csaknem 150 ember érkezett arra a budapesti konferenciára, amelyet 2025. január 28–30-án tartottak a HUN-REN Nyelvtudományi Kutatóközpont Lexikológiai Intézetének szervezésében. A COST UniDive nemzetközi projekt 3. közgyűlésének központi témája volt a mesterséges intelligencia és nyelvtechnológiai eszközök beilleszthetősége a nyelvi kutatásokba és alkalmazásokba.

Bár a magyar nyelv technológiai támogatása jelentősen javult az utóbbi években, továbbra is kihívást jelent, hogy minőségi generált szövegeket kapjunk. A nagy nyelvi modellek, például a ChatGPT és más generatív modellek gyakran nem elég pontosak a kisebb nyelvek esetében. A magyar nyelvre fejlesztett PULI rendszerek célja, hogy ezt a hiányosságot áthidalják, és olyan nyelvi modelleket biztosítsanak, amelyek képesek megfelelő minőségű és stilisztikailag helyes magyar szövegeket generálni.

Ma már egyre több területen használnak mesterséges intelligenciát ügyfélszolgálati feladatokra is, hiszen ugyanazon információk többszöri elismétlésére sokkal hatékonyabb egy AI-alapú programot alkalmazni, mint embereket. Azonban a gépek válaszai nem mindig tökéletesek, illetve mi sem mindig helyesen tesszük fel a kérdéseinket. A HUN-REN NYTK készülő kiértékelő rendszere ezeken a problémákon segíthet. „Egy ügyfélszolgálati eszköznél nagyon fontos, hogy a generált válaszok helyesen megfogalmazott magyar válaszok legyenek, hiszen a felhasználó észre fogja venni a furcsa mondatokat és a rossz szinonimákat is” – mondta Ligeti-Nagy Noémi, a HUN-REN NYTK Nyelvtechnológiai Kutatócsoportjának vezetője, aki egyben a kutatóközpont AI-nagykövete is.

Még fejlesztik a PULI-t, de már jön a HuGME is

A jövő kihívása abban rejlik, hogy a magyar nyelvtechnológiai fejlesztések hogyan tartsanak lépést a globális trendekkel, miközben megőrzik a nyelvi sajátosságainkat. Az olyan hazai fejlesztések, mint például a PULI vagy a hamarosan debütáló HuGME kiértékelő rendszer biztosítják, hogy a magyar nyelvű AI-alapú alkalmazások megbízhatók és pontosak legyenek. Az akadémiai és ipari szféra együttműködését ezek a nyelvtechnológiai innovációk segíthetik, valamint az, ha a magyar nyelv megfelelő támogatást kaphat a digitális térben.

Prószéky Gábor, a HUN-REN NYTK főigazgatója szerint a HuGME nemzetközi szinten is kiemelt jelentőségű lesz, hiszen nem sok nyelv létezik a mesterséges intelligencia világában, amelynek saját nyelvi ellenőrző-kiértékelő programot írtak volna. Egy ilyen alkalmazásra azért is van szükség, mivel nem ismerjük, hogy a nagy nyelvi modelleket használó generatív AI-ok pontosan honnan szerzik be, illetve honnan tanulják a különböző szavakat, mondatokat, szinonimákat. A HuGME révén viszont ellenőrzött képet kaphatunk a generatív modellek képességeiről és korlátairól. A nyilvánosan elérhető, magyar nyelvi modellek tesztelésére alkalmas kiértékelő rendszer célja, hogy objektív módon mérje a generált szövegek helyességét, nyelvtani struktúráját és tartalmi megbízhatóságát. Az ilyen rendszerek kulcsfontosságúak a nyelvtechnológia további fejlődése szempontjából, mivel biztosítják, hogy a magyar nyelvű modellek ne csak formailag legyenek pontosak, hanem tartalmilag is.

Mit csinál a nyelvvel az MI?

Jó pár éve az SMS-t, majd a különböző chat-programokat és az emojikat okolták írott kommunikációnk változásáért. Ma a mesterséges intelligenciától féltik szép magyar nyelvünket fogadott és fogadatlan prókátorok. Prószéky Gábor úgy véli, az SMS-ekre jellemző ékezetnélküliség és rövidítések nem voltak közvetlen hatással a nyelvünkre, ezért sem tart attól, hogy a ChatGPT miatt átalakulna a nyelvünk. Kutatóközpontjuk programja, a HuGME is azért „dolgozik” majd, hogy a mesterséges intelligencia nyelvhasználata még tökéletesebb legyen. „A hanyag vagy sietős írás eddig sem befolyásolta tényleges írásbeli világunkat, bár kétségtelen, a hangzó világ erősen előretört” – tette hozzá a főigazgató, aki szerint a következő generációk már javarészt csak beszélni fognak a mobiljukhoz, mert kényelmetlenné fog válni az írás.

Ugyanakkor a nyelvi modellek használatánál nemcsak a helyességre, hanem a stílusra is figyelnünk kell. Például a ChatGPT-t fel kell szólítani, nem szabad kérdezni, udvariaskodni vele, hanem nagyon határozottan kell utasítani: például írd meg ezt, fordítsd le azt, csináld meg amazt. „De ettől még nem fogunk utána ugyanígy kommunikálni a gyerekeinkkel vagy a kollégáinkkal, ami egy teljes eltérő szituáció, mint ahogy másként beszélünk egy konferencián és máshogy este otthon, a vacsoránál” – hangsúlyozta Ligeti-Nagy Noémi tudományos munkatárs.

Elveszi-e a nyelvtudósok munkáját az MI?

Egy régi anekdota szerint a 19. században úgy tartották, hogy a rengeteg ló ürüléke miatt nem lehet majd közlekedni az utcákon a 20. században. Azonban jött az autó, és nem így lett. Néhány évtizede még nem sokan látták előre a gépi fordítás térhódítását, pedig mára átalakította jóformán az egész világot az AI. Talán éppen ezért is hasonlította Prószéky Gábor a mesterséges intelligencia megjelenését, hatalmas népszerűségét és hirtelen felfutását az ősrobbanáshoz: úgy véli, hogy akkor sem volt tudható, hogy végül lesz egy Földünk, amelyen a civilizáció már a mesterséges intelligenciánál tart.

Az MI-nek köszönhetően a HUN-REN NYTK-nál többek közt közép- és ómagyar szövegeket is feldolgoznak számítógépeken, amire korábban nem volt lehetőség. „Olyan régi leleteken és olyan tudományágakban tudjuk rekonstruálni az egykori nyelvállapotokat, amelyekből a teljes kultúratörténetünk építkezik. A mesterséges intelligenciával nemcsak a jövőnket tehetjük könnyebbé, hanem saját múltunkat is jobban megismerhetjük” – emelte ki Prószéky Gábor.

Az elmúlt időszakban irgalmatlan mennyiségű adat zúdult a nyelvészek nyakába az MI-nek köszönhetően. A leghatékonyabb alkalmazásokhoz a HUN-REN tavaly ősszel útnak indított AI 4 Science programján keresztül is hozzájuthatnak a kutatók. A mesterséges intelligencia olyan minőségű és mennyiségű kéziratot tud rövid idő alatt feldolgozni, amelyre korábban esélyünk sem volt. „Úgy gondolom, most egy lecsillapodós időszak következik” – mondta Ligeti-Nagy Noémi, aki úgy látja, hogy nem lehet a végtelenségig termelni az adatokat. „Most végre juthat idő azon kreatív feladatokra, amelyekre eddig nem volt lehetőség a kevésbé kreatívnak számító adatfeldolgozások miatt” – tette hozzá.

A mesterséges intelligencia ugyanis nem a kreatív részét teszi hozzá a munkához – a kutatók szerint arra ma is csak az ember képes. „Hiába készítették el Beethoven X. szimfóniáját az MI-vel, az nem ugyanaz, mintha Beethoven alkotta volna azt meg. Az MI csak az első kilenc mű alapján készített valami hasonlót, ami olyan, mintha az lenne, de valójában mégsem az. Hiszen a III. szimfónia sem az első kettőből jött létre, és a IX-et sem az első nyolc alapján rakta össze a zseniális zeneszerző. Ezért sem gondolom, hogy a mesterséges intelligencia elvenné a kreatív emberek munkáját” – fejtette ki a HUN-REN NYTK főigazgatója.

A HUN-REN Magyar Kutatási Hálózat célja, hogy Európa egyik leghatékonyabb kutatási szervezetévé váljon, és jelentős mértékben hozzájáruljon Magyarország társadalmi és gazdasági sikeréhez. A 2025. január elsején életbe lépett törvény megfelelő keretet nyújt ahhoz, hogy a HUN-REN a kihívásokra jobban reagáló, együttműködő, a teljesítményt szem előtt tartó, jól működő hálózattá alakuljon, amely biztosítja a tudományos kutatás szabadságát, a felfedező kutatások folytatásának lehetőségét, miközben multidiszciplináris válaszokat kínál a hazai és nemzetközi közösséget érintő komplex kérdésekre. A szervezetében korszerűsödő Magyar Kutatási Hálózatban dolgozók hosszú távú, következetes, értékkövető és teljesítményközpontú finanszírozási rendszerre, egymást erősítő struktúrára és működésre, versenyképes bérekre, valamint tervezhető kutatói életpályára számíthatnak.