Számolni még jobban tudunk, de minden más területen vernek minket a nagy AI-modellek

A Peak csoport mesterséges intelligencia üzletága, a PeakX csapata átfogó kutatást végzett a jelenleg legismertebb mesterséges intelligencia (AI) modellek teljesítményéről. Az eredményeket március 12-én mutatták be a sajtó képviselőinek. Az eseményhez kapcsolódóan Érczfalvi András a Peak alapítójával, Suppan Mártonnal beszélgetett a Trend FM Monitor Délután című műsorában.

A PeakX csapata azt vizsgálta, hogy valós, nem laboratóriumi környezetben milyen eredményeket érnek el a legismertebb AI-modellek a szövegértési, matematikai és más tudományterületekre vonatkozó teszteken. A modellek azokat a feladatsorokat oldották meg, amelyekkel az országos kompetenciafelméréseken a hatodikos, nyolcadikos és tizedikes diákok felkészültségét mérik. A kutatás során a pontosság mellett fontos szempont volt a gyorsaság, a költségek, az erőforrásigény is.  

Az eredményeket bemutató eseményének külön érdekessége volt, hogy a résztvevők élőben követhették a tesztek megoldását és értékelését, amire viszonylag ritkán van lehetőség – a mesterséges intelligenciával foglalkozó vállalatok inkább prezentációkat, feltételezéseket ismertetnek, korábban laboratóriumi körülmények között rögzített demókat mutatnak be.

A felmérése során hat szolgáltató 10 modelljét vizsgálták. Az eredmények alapján az látszik, hogy a matematikában egyelőre elég rosszul teljesítettek a modellek, két kivétellel gyengébben, mint a diákok, minden más területen felülmúlták azonban az iskolákban mért eredményeket.

A kutatás részletes eredményei ennél természetesen jóval több hasznos információval szolgálnak. A tapasztalatok egyfajta ajánlást is jelenthetnek akár a vállalatoknak, akár az oktatási intézményeknek a technológia alkalmazásához. Rávilágítanak például arra, hogy az egyes területeken van olyan modell, ami majdnem ugyanolyan jól teljesít, mint egy másik, de hússzor olcsóbb annál. Ennek olyan esetekben lehet például jelentősége, amikor nem kell nagyon pontosnak lenni, elég, ha gyorsan és költséghatékonyan darálja a modell a feladatokat.

A PeakX mesterséges intelligencia ügynökei, amelyek a bemutatott a kísérletsorozatot vezérelték nem csak kompetenciatesztek kitöltésére jók, hanem egyebek mellett hiperperszonalizált oktatási anyagok előállítására, tudásanyag visszamérésére is alkalmazhatók nagyon könnyen és nagyon egyszerűen. A PeakX célja az, hogy ezeket minél több gyakorlati helyzetbe implementálják, segítve és élvezetesebbé téve ezzel a tanulást.  

A beszélgetés az alábbi Spotify-linken hallgatható meg. A kutatás eredményeiről szóló összefoglaló innen érhető el.