Mesterséges intelligencia vs. ember: Itt buknak el a legfejlettebb nyelvi modellek!

A PeakX, a Peak csoport mesterséges intelligencia üzletágának csapata átfogó kutatást végzett a jelenleg legismertebb modellek teljesítményéről. Arra voltak kíváncsiak, hogy valós környezetben milyen eredményeket érnek el szövegértési, matematikai és egyéb tudományterületeken. Az eredmények szemléletesen igazolták azt a hipotézist, hogy az ezekről publikált laboratóriumi benchmark-tesztek gyakran túlzottan optimista képet festenek a modellek képességeiről.

Az AI modellek teljesítményének vizsgálata

A kutatás során a nagy nyelvi modelleknek a magyarországi  kompetenciamérések során a 6., 8. és 10. osztályos diákok által kitöltött teszteket kellett megoldaniuk. A PeakX csapata 70 szövegértési és 70 matematikai feladatot használt az AI modellek tesztelésére, kiegészítve történelem, természettudomány és digitális kultúra kérdésekkel. Az AI modellek által adott válaszokat objektív pontozási rendszerrel értékelték.

A teszt során az alábbi szempontokat is figyelembe vették:

  • Gyorsaság: Mennyi idő alatt képes az AI megoldani a feladatokat?
  • Erőforrásigény és költségek: Mennyire hatékony az egyes modellek működtetése?
  • Pontosság: Hogyan teljesítenek az AI modellek valós iskolai feladatokon a benchmarkokhoz képest?
(Forrás: Peak sajtóesemény)

Főbb eredmények

Az elemzés során a PeakX csapata megállapította, hogy a vizsgált AI modellek között jelentős eltérések tapasztalhatók a szövegértési és matematikai feladatok terén:

Erősségek és gyengeségek:

  • OpenAI o1 – Kiemelkedő általános tudással rendelkezik, erős szövegértési és matematikai képességekkel, viszont lassú és drága.
  • Anthropic Sonnet 3.7 – Kiváló szövegértési teljesítményt mutatott, gyors és költséghatékony, azonban komplex matematikai feladatokban gyengébb.
  • xAI Grok2 – Rendkívül gyors és olcsó, de a matematikai feladatok terén kifejezetten rosszul teljesített.
  • Gemini 2.0 „Flash” – Kiemelkedő szövegértési képességekkel bír, de az összetettebb következtetési feladatokban alulmaradt.
  • Mistral Large – Relatív olcsó, de általános tudása korlátozottabb.
  • Deepseek – Olcsó és gyors, kiemelkedő következtetési képességekkel, de nem képes vizuális elemzésre és hajlamos fura hibákat véteni.
(Forrás: PeakX)
(Forrás: PeakX)

Összességében elmondható, hogy míg az érvelő (reasoning) modellek lassabbak és drágábbak, de minden kategóriában jobb eredményt értek el, mint a többi modell. Az eredmények azt mutatják, hogy a nagy nyelvi modellek a problémamegoldó és analitikus készségeket igénylő területeken még nem képesek egyértelműen helyettesíteni az embereket. Különösen a komplex matematikai készségeket igénylő feladatoknál mutatkozik meg lemaradásuk. 

(Forrás: PeakX)
(Forrás: PeakX)

A kompetenciamérésről

A magyarországi kompetenciamérés a 6., 8. és 10. évfolyamos diákok tudását méri két fő területen:

  • Szövegértés: A diákok olvasási és értelmezési képességeit vizsgálja, a PISA-méréshez hasonlóan gyakorlati fókuszú feladatokkal.
  • Matematika: Nem lexikális tudást, hanem gyakorlati problémamegoldó képességet mér, mindennapi élethelyzetekből vett példák alapján.

A feladatlapok zárt végű kérdéseket tartalmaznak, és évfolyamfüggetlen skálán mérik a tanulók teljesítményét, lehetővé téve a fejlődésük összehasonlítását.

A Peakről

A Peak egy innovatív pénzügyi és technológiai vállalatcsoport, amely fintech, AI és digitális banki megoldások fejlesztésére és implementálására specializálódott. A cégcsoport különböző üzletágai – többek között a Peak Fintech Solutions, PeakX, Peak Advisory és Peak Media – révén széleskörű szolgáltatásokat nyújt, a tanácsadástól kezdve a beyond banking termékek fejlesztésén át egészen az AI-alapú megoldásokig. A PeakX, a Peak mesterséges intelligencia üzletága, az AI-alapú alkalmazások és automatizált rendszerek fejlesztésére összpontosít, különös figyelmet fordítva az oktatási és pénzügyi szektorra.

(Forrás: Peak sajtóesemény)
(Forrás: Peak sajtóesemény)
Peak sajtóesemény
peakPeakX