Elbuktak a fogadásokon az AI-modellek a Premier League szezonban

A Google, az OpenAI és az Anthropic AI-modelljei veszteséggel zárták a Premier League mérkőzésekre tett fogadásaikat egy teljes szezon során – derül ki egy friss kutatásból, amely rámutat: a legfejlettebb rendszerek is nehezen boldogulnak a valós világ komplexitásával hosszabb időtávon.

A General Reasoning nevű AI-startup által készített „KellyBench” jelentés szerint komoly különbség van az AI egyes területeken mutatott gyors fejlődése – például a szoftverfejlesztés – és más, emberi döntéshozatalt igénylő feladatok között.

Valósághű teszt: teljes szezonon keresztül

A londoni székhelyű cég nyolc vezető AI-rendszert tesztelt a 2023–24-es Premier League szezon virtuális szimulációjában . A modellek részletes történeti adatokat és statisztikákat kaptak a csapatokról és korábbi mérkőzésekről, majd olyan stratégiát kellett kialakítaniuk, amely maximalizálja a hozamot és kezeli a kockázatot.

Az AI-ügynökök ezután fogadásokat kötöttek a mérkőzések kimenetelére és a gólszámokra, miközben a szezon előrehaladtával alkalmazkodniuk kellett az új eseményekhez és friss játékosadatokhoz.

A modellek nem férhettek hozzá az internethez, és mindegyik három próbálkozást kapott arra, hogy nyereséget érjen el.

Minden modell veszített

A legjobb eredményt az Anthropic Claude Opus 4.6 érte el, amely átlagosan 11%-os veszteséget könyvelt el, és egy próbálkozás során majdnem nullszaldós eredményt hozott.

Az xAI Grok 4.20 egy alkalommal csődbe ment, a másik két próbálkozását pedig nem tudta befejezni. A Google Gemini 3.1 Pro ugyan egy alkalommal 34%-os nyereséget ért el, de egy másik futás során teljes veszteséget szenvedett.

A kutatás szerzői szerint minden vizsgált modell veszteséges volt a teljes szezon során, és több esetben teljesen lenullázta a rendelkezésére álló tőkét.

A modellek mindegyike 100 000 fontos kezdőtőkével indult, és az eredmények három próbálkozás átlagát tükrözik.

AI vs. valós világ

A tanulmány szerint az AI ebben a környezetben „rendszeresen alulteljesítette az embereket”. Ez részben annak köszönhető, hogy a legtöbb AI-teszt statikus környezetben zajlik, amely nem tükrözi a valós világ dinamikus és kiszámíthatatlan természetét.

Ross Taylor, a kutatás egyik szerzője és a General Reasoning vezérigazgatója szerint túl nagy a hype az AI automatizáció körül, miközben kevés mérés történik hosszabb időtávú, valós helyzetekben.

Nem mindenben verhetetlen az AI

A tanulmány egyfajta ellenpontot jelent a Szilícium-völgyben tapasztalható lelkesedéssel szemben, különösen az AI programozási képességeinek látványos fejlődése után.

Taylor szerint bár a szoftverfejlesztés fontos és gazdaságilag értékes terület, számos más, hosszabb időhorizontú tevékenység is létezik, ahol az AI teljesítménye még messze elmarad az elvárásoktól.

A kutatás arra utal, hogy az AI jelenlegi képességei bizonyos valós, komplex döntési helyzetekben még nem érik el az emberi szintet.

(Forrás: Financial Times)

(Címlapkép: Depositphotos)

AI football mesteréséges intelligencia premier league