A PeakX, a Peak csoport mesterséges intelligencia üzletágának csapata átfogó kutatást végzett a jelenleg legismertebb modellek teljesítményéről. Arra voltak kíváncsiak, hogy valós környezetben milyen eredményeket érnek el szövegértési, matematikai és egyéb tudományterületeken. Az eredmények szemléletesen igazolták azt a hipotézist, hogy az ezekről publikált laboratóriumi benchmark-tesztek gyakran túlzottan optimista képet festenek a modellek képességeiről.
Az AI modellek teljesítményének vizsgálata
A kutatás során a nagy nyelvi modelleknek a magyarországi kompetenciamérések során a 6., 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk. A PeakX csapata 70 szövegértési és 70 matematikai feladatot használt az AI modellek tesztelésére, kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel. Az AI modellek által adott válaszokat objektív pontozási rendszerrel értékelték.
A teszt során az alábbi szempontokat is figyelembe vették:
- Gyorsaság: Mennyi idő alatt képes az AI megoldani a feladatokat?
- Erőforrásigény és költségek: Mennyire hatékony az egyes modellek működtetése?
- Pontosság: Hogyan teljesítenek az AI modellek valós iskolai feladatokon a benchmarkokhoz képest?

Főbb eredmények
Az elemzés során a PeakX csapata megállapította, hogy a vizsgált AI modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén:
Erősségek és gyengeségek:
- OpenAI o1 – Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
- Anthropic Sonnet 3.7 – Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
- xAI Grok2 – Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
- Gemini 2.0 „Flash” – Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
- Mistral Large – Relatív olcsó, de általános tudása korlátozottabb.
- Deepseek – Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre és hajlamos fura hibákat véteni.
Összességében elmondható, hogy míg az érvelő (reasoning) modellek lassabbak és drágábbak, de minden kategóriában jobb eredményt értek el, mint a többi modell. Az eredmények azt mutatják, hogy a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket. Különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg lemaradásuk.
A kompetenciamérésről
A magyarországi kompetenciamérés a 6., 8. és 10. évfolyamos diákok tudását méri két fő területen:
- Szövegértés: A diákok olvasási és értelmezési képességeit vizsgálja, a PISA-méréshez hasonlóan gyakorlati fókuszú feladatokkal.
- Matematika: Nem lexikális tudást, hanem gyakorlati problémamegoldó képességet mér, mindennapi élethelyzetekből vett példák alapján.
A feladatlapok zárt végű kérdéseket tartalmaznak, és évfolyamfüggetlen skálán mérik a tanulók teljesítményét, lehetővé téve a fejlődésük összehasonlítását.
A Peakről
A Peak egy innovatív pénzügyi és technológiai vállalatcsoport, amely fintech, AI és digitális banki megoldások fejlesztésére és implementálására specializálódott. A cégcsoport különböző üzletágai – többek között a Peak Fintech Solutions, PeakX, Peak Advisory és Peak Media – révén széleskörű szolgáltatásokat nyújt, a tanácsadástól kezdve a beyond banking termékek fejlesztésén át egészen az AI-alapú megoldásokig. A PeakX, a Peak mesterséges intelligencia üzletága, az AI-alapú alkalmazások és automatizált rendszerek fejlesztésére összpontosít, különös figyelmet fordítva az oktatási és pénzügyi szektorra.