A mesterséges intelligenciák tanítása ismét fejlődik

Egy friss kutatás azt vizsgálja, mi történik, ha a mesterséges intelligencia nem hetekig bolyong magára hagyva egy feladaton, hanem időnként emberi tanácsot kap. Az APOLLO nevű módszer pontosan ezt kínálja: az ember időről időre belenéz a gép munkájába, és csak akkor szól, ha az rossz irányba indul. A tanulmányt egyetemi és ipari kutatók közösen készítették, és október 31-én tették közzé az arXivon.

Az ötlet

Képzeljünk el egy napokig tartó kutatási feladatot: modelltanítás, adatbázisok összeállítása, kódírás, hibajavítás, eredmények kiértékelése. Ha egy ember mindvégig ott ülne, és minden lépést diktálna, az rettentően drága lenne. Ha viszont a gépet teljesen magára hagyjuk, könnyen letérhet az útról, és a végén semmi sem sikerül. Az APOLLO a kettő között kínál középutat: az ember időnként ránéz, hol tart a rendszer, és csak akkor avatkozik be, ha zsákutcát vagy stratégiai hibát lát. Így akár harminc órás feladatok is végigkísérhetők anélkül, hogy az emberi felügyelőnek minden percben jelen kellene lennie.

Aszinkron felügyelet és okos szűrés

Az APOLLO két fogást kombinál. Az első az aszinkron emberi útmutatás ahol az emberi felügyelő nem folyamatosan figyel, hanem időről időre ellenőrzi az állapotot, és szükség esetén beavatkozik. Mondhatja például: „nézd meg előbb a dokumentációt”, „használd inkább ezt a könyvtárat”, vagy „ne most értékelj, várd meg a tanítás végét”. Ezeket az utasításokat a rendszer a kontextusba építi, hogy a modell ténylegesen megtanulja, mikor mit érdemes tennie. A második a lépésszintű szűrés ami azt jelenti hogy amikor elkészül egy munkafolyamat, kiszűrik azokat a lépéseket, amelyek hibásak voltak vagy ellentmondtak az emberi tanácsnak. Így a tanításhoz csak a jó döntések maradnak, és a rendszer nem tanulja meg a rossz mintákat.

Mit mutatnak a számok

A módszert az InnovatorBench nevű tesztfeladaton próbálták ki, ahol a rendszernek valódi kutatási munkát kell végeznie: adatokat gyűjteni, modelleket tanítani, eredményeket értékelni. A kutatók arról számolnak be, hogy az APOLLO-val tanított GLM-4.5 modell teljesítménye több mint 50 százalékkal javult a kiindulási változathoz képest, és 28 százalékkal felülmúlta azt a verziót is, amely emberi beavatkozás nélkül tanult. Ráadásul az APOLLO-val tanított modell tovább is bírta. Míg az eredeti GLM-4.5 nagyjából négy óra után nem tudott tovább fejlődni, az APOLLO-val hosszabb távon is folyamatosan javultak az eredmények.

Miért fontos ez a pénzügyben

A bankoknál és fintech cégeknél sok hosszú, többlépésen átívelő feladat van. Ügyfélkérések kivizsgálása, adatbázisok átnézése és tisztítása, bonyolult tranzakciós minták felismerése, automatizált jelentések készítése. Ha a mesterséges intelligencia megtanulja, mikor érdemes megvárni egy folyamat végét, mikor kell újraértékelni egy eredményt, és hogyan ossza be hatékonyan a számítási erőforrásokat, jóval megbízhatóbban tud dolgozni. Az APOLLO azt mutatja, hogy nem kell minden apró lépést diktálni: elég időnként korrigálni, ha letér a helyes útról. Ez olcsóbb, gyorsabb, és a végén olyan rendszer születik, amely sokkal jobban érti a feladatot.

Mire figyeljünk

Az emberi felügyelet minősége kulcsfontosságú. Az emberi felügyelőnek nem elég a hibákra rámutatni: általános elveket is tanítania kell — hogyan érdemes dokumentációt olvasni, mikor célszerű új eszközt kipróbálni, miért fontos a türelem hosszú futtatásoknál. Ugyanilyen lényeges, hogy a szűrés során a rossz lépéseket tényleg kidobjuk — ha a rendszer azt tanulja meg, hogy vakon módosítson fájlokat az aktuális állapot vizsgálata nélkül, vagy ne használja a rendelkezésre álló segédeszközöket, abból később gond lesz. Az APOLLO ereje éppen abban rejlik, hogy az emberi tudást és a gépi tanulást okosan ötvözi a hosszú távú feladatokban.

Forrás: Fu, Dayuan, et al. APOLLO: Asynchronous Rollout with Guidance for Agent Optimization, arXiv, 2025. október 31.

Címlapkép: Depositphotos