A Google, az OpenAI és az Anthropic AI-modelljei veszteséggel zárták a Premier League mérkőzésekre tett fogadásaikat egy teljes szezon során – derül ki egy friss kutatásból, amely rámutat: a legfejlettebb rendszerek is nehezen boldogulnak a valós világ komplexitásával hosszabb időtávon.
A General Reasoning nevű AI-startup által készített „KellyBench” jelentés szerint komoly különbség van az AI egyes területeken mutatott gyors fejlődése – például a szoftverfejlesztés – és más, emberi döntéshozatalt igénylő feladatok között.
Valósághű teszt: teljes szezonon keresztül
A londoni székhelyű cég nyolc vezető AI-rendszert tesztelt a 2023–24-es Premier League szezon virtuális szimulációjában. A modellek részletes történeti adatokat és statisztikákat kaptak a csapatokról és korábbi mérkőzésekről, majd olyan stratégiát kellett kialakítaniuk, amely maximalizálja a hozamot és kezeli a kockázatot.
Az AI-ügynökök ezután fogadásokat kötöttek a mérkőzések kimenetelére és a gólszámokra, miközben a szezon előrehaladtával alkalmazkodniuk kellett az új eseményekhez és friss játékosadatokhoz.
A modellek nem férhettek hozzá az internethez, és mindegyik három próbálkozást kapott arra, hogy nyereséget érjen el.
Minden modell veszített
A legjobb eredményt az Anthropic Claude Opus 4.6 érte el, amely átlagosan 11%-os veszteséget könyvelt el, és egy próbálkozás során majdnem nullszaldós eredményt hozott.
Az xAI Grok 4.20 egy alkalommal csődbe ment, a másik két próbálkozását pedig nem tudta befejezni. A Google Gemini 3.1 Pro ugyan egy alkalommal 34%-os nyereséget ért el, de egy másik futás során teljes veszteséget szenvedett.
A kutatás szerzői szerint minden vizsgált modell veszteséges volt a teljes szezon során, és több esetben teljesen lenullázta a rendelkezésére álló tőkét.
A modellek mindegyike 100 000 fontos kezdőtőkével indult, és az eredmények három próbálkozás átlagát tükrözik.
AI vs. valós világ
A tanulmány szerint az AI ebben a környezetben „rendszeresen alulteljesítette az embereket”. Ez részben annak köszönhető, hogy a legtöbb AI-teszt statikus környezetben zajlik, amely nem tükrözi a valós világ dinamikus és kiszámíthatatlan természetét.
Ross Taylor, a kutatás egyik szerzője és a General Reasoning vezérigazgatója szerint túl nagy a hype az AI automatizáció körül, miközben kevés mérés történik hosszabb időtávú, valós helyzetekben.
Nem mindenben verhetetlen az AI
A tanulmány egyfajta ellenpontot jelent a Szilícium-völgyben tapasztalható lelkesedéssel szemben, különösen az AI programozási képességeinek látványos fejlődése után.
Taylor szerint bár a szoftverfejlesztés fontos és gazdaságilag értékes terület, számos más, hosszabb időhorizontú tevékenység is létezik, ahol az AI teljesítménye még messze elmarad az elvárásoktól.
A kutatás arra utal, hogy az AI jelenlegi képességei bizonyos valós, komplex döntési helyzetekben még nem érik el az emberi szintet.
(Címlapkép: Depositphotos)