Így próbálják a tech óriások megszelídíteni az AI ügynököket

A mesterséges intelligencia körül most minden a lehetőségekről szól. Önállóan döntő, több lépésben gondolkodó, eszközöket használó AI-ügynökök képe lebeg a szemünk előtt, amelyek emberi beavatkozás nélkül oldanak meg összetett feladatokat. A lelkesedés részben indokolt, a várakozások egy része azonban sokszor elhomályosít egy nagyon egyszerű, mégis meghatározó igazságot: az AI nem varázslatból, hanem adatokból épül fel. Ha az adat nem elérhető, nem értelmezhető, vagy épp nem megbízható, akkor az ügynök sem lesz több egy bizonytalanul működő automatizmusnál. Az elmúlt hetekben a Google, az AWS és több iparági szereplő is ugyanarra a pontra mutatott rá: az agentic AI jövője nem elsősorban modellkérdés, hanem adat- és infrastruktúrakérdés.

A nagyvállalati valóság: szétszórt adatok, vak ügynökök

A Google szerint a vállalati AI-ügynök fejlesztések egyik első igazán komoly akadálya meglepően hétköznapi: az ügynökök nem férnek hozzá megfelelő minőségű, megfelelően előkészített adatokhoz. Nem arról van szó, hogy ne lenne adat – sokkal inkább arról, hogy az információk tipikusan szétszórva élnek különféle felhőplatformokon, helyszíni rendszerekben és régi mainframe-eken, miközben a dokumentáció, az adatleírások és a metaadatok gyakran hiányosak vagy következetlenek.

Egy AI-ügynöknek viszont nem elég „látnia” az adatot: értenie is kell, hogy mit jelent, honnan származik, milyen körülmények között jött létre, és mennyire tekinthető megbízhatónak. Ha mindez nincs rendben, akkor az ügynök kénytelen találgatni, márpedig vállalati környezetben a találgatás nem stratégia, hanem kockázat.

Ebben a logikában érthetővé válik, miért helyezi a Google a hangsúlyt arra, hogy a Gemini és más modellek pontos, jól dokumentált adatokhoz és olyan metaadatokhoz jussanak, amelyek kontextust adnak az információknak. A megoldási irányt a Google egy Ab Initióval közös partnerségen keresztül mutatja be: a BigQuery a tárolás és analitika szerepét viszi, a Dataplex Universal Catalog az adatok és metaadatok katalogizálását és irányítását, miközben az Ab Initio „semleges hubként” kapcsolja össze a különböző forrásokat hibrid, többfelhős környezetben, és egységesíti a metaadatokat.

A lényeg itt nem az, hogy minden adatot egyetlen helyre költöztessenek, hanem az, hogy a metaadatok össze legyenek fésülve, így követhető legyen az adatok útja, akár mezőszintig visszamenően is, és mindez erős irányítási, auditálhatósági és megfelelőségi keretrendszerbe kerüljön. A végső cél, a Google megfogalmazása szerint, az, hogy a Gemini gazdagabb kontextust kapjon: így az ügynökök pontosabban tudnak következtetni, átláthatóbban tudnak működni, és a vállalatok nagyobb kontrollt gyakorolhatnak felettük.

Az AWS menedzseli az ügynököket

Miközben a Google elsősorban az adat-hozzáférés és a metaadatok rendbetételének oldaláról közelít, az AWS egy másik, ugyanolyan kritikus pontra fókuszál: arra, hogyan lehet egy agentikus rendszerről bizonyítani, hogy tényleg megbízható. Az AWS állítása szerint ma már önmagában az, hogy egy modellt „beszédre bírjunk”, vagyis hogy képes legyen válaszolni, nem számít nehéz feladatnak. A valódi kihívás akkor kezdődik, amikor az ügynöknek több lépést kell végrehajtania, eszközöket kell használnia, különböző rendszerekből kell információt előhívnia, és mindezt konzisztensen, újra és újra megbízható módon kell produkálnia.

Az Amazon arra is rámutat, hogy a hagyományos AI-tesztelés sokszor kizárólag a végső választ vizsgálja, ami félrevezető lehet. Egy agentikus rendszerben ugyanis a hiba gyakran nem a mondatban van, hanem a folyamatban: lehet, hogy az ügynök félreértette a kérést, rossz eszközt választott, rossz paraméterezéssel futtatta, nem a megfelelő kontextust hívta le a memóriából, vagy egyszerűen elakadt a feladat egyik köztes lépésénél. Ha csak a végső kimenetet nézzük, ezek a problémák könnyen rejtve maradnak, pedig épp ezek döntik el, hogy egy ügynök valóban bevethető-e éles környezetben.

Az AWS ezért olyan értékelést szorgalmaz, amely az ügynököt teljes rendszerként kezeli, és lépésről lépésre méri, mi történt a futás során. Ennek az alapja a jó bemenet, különösen a trace fájlok, amelyek rögzítik, mit tett az ügynök minden egyes lépésben, valamint az úgynevezett „golden” adathalmazok, amelyek ismert, ellenőrzött, megbízható válaszokat tartalmaznak, és lehetővé teszik a regressziós tesztelést, amikor az ügynök idővel változik, fejlődik, vagy egyszerűen új környezetbe kerül. Az Amazon által leírt munkafolyamatban a csapatok trace-eket táplálnak be, automatizált metrikákat generálnak, az eredményeket dashboardokra vagy tárolórendszerekbe publikálják, majd éles környezetben is figyelik a teljesítményromlást riasztásokkal, és rendszeres emberi felülvizsgálattal.

A mért dimenziók itt messze túlmutatnak azon, hogy „jó-e a válasz”. A fókuszban a végső válasz minősége mellett a feladat sikeressége, az eszközhasználat pontossága és a memóriahasználat relevanciája áll, vagyis az, hogy az ügynök a legjobb kontextust találta-e meg a döntésekhez. Az AWS szerint saját rendszereikben történelmi naplókat és szimulált interakciókat is használnak adathalmazok építésére, így az ügynök viselkedése összevethető ismert kimenetekkel, és a hibák pontosan beazonosíthatók még a bevezetés előtt, illetve utána is, amikor a rendszer már valós felhasználói helyzetekben működik.

A „last mile” adatprobléma

A VentureBeat egy különösen ismerős vállalati dilemmát emel ki: sok cég képes arra, hogy tiszta, stabil adatokat előkészítsen riportokhoz és dashboardokhoz, csakhogy az AI ügynököknek nem erre a fajta adatra van igazán szükségük. Az ügynökök tipikusan operatív adatokkal dolgoznak, amelyek gyakran rendezetlenek, hiányosak, állandóan változnak és sokszor akkor is félig strukturált vagy strukturálatlan formában érkeznek, amikor valós idejű döntéseket kellene támogatniuk. A legnagyobb bukások gyakran nem ott történnek, hogy a modell „rossz szöveget” generál, hanem ott, hogy a tökéletlen adat olyan formában jut el valódi felhasználókhoz, amely félrevezeti a rendszert, és így a döntések vagy ajánlások megbízhatatlanná válnak.

Erre a problémára kínál választ az Empromptu, amely szerint az adat-előkészítést nem háttérfolyamatként, hanem az AI-alkalmazás szerves részeként kell kezelni. A „golden pipeline” koncepció lényege, hogy a nyers operatív adatok és az AI-funkciók közé egy automatizált réteg kerül, amely több forrásból (fájlokból, adatbázisokból, API-kból és strukturálatlan dokumentumokból) gyűjti be az információt, majd tisztítja és strukturálja azt, címkézéssel és dúsítással pótolja a hiányosságokat, végül pedig irányítási kontrollokat, például audit nyomokat és hozzáférési szabályokat alkalmaz.

Ami igazán érdekessé teszi a megközelítést, az a beépített visszacsatolási kör: minden adattranszformáció naplózva van, és össze van kötve az ügynök teljesítményével, így a rendszer nemcsak azt látja, hogy megtisztítottuk az adatot, hanem azt is, hogy ez a tisztítás javított-e vagy rontott az ügynök pontosságán. Ha egy lépés látszólag rendezi az adatokat, de közben csökkenti az ügynök teljesítményét, a pipeline ezt képes érzékelni és felszínre hozni.

Az agentikus AI valójában adat-infrastruktúra projekt

Ha a fenti három nézőpontot egy mondatban kellene összefoglalni, akkor az így hangzana: az AI ügynök sikere sokkal kevésbé múlik a modellek „okosságán”, és sokkal inkább azon, hogy a vállalatok képesek-e rendet tenni az adataik körül. Ehhez nemcsak adatminőség kell, hanem metaadat, adatleszármazás, governance, auditálhatóság, megfelelőség, és olyan mérési-értékelési keret, amely nem a végső mondatot bírálja, hanem a teljes folyamatot érti és kontrollálja.

A modellek gyorsan fejlődnek, de ettől még nem lesznek automatikusan megbízható ügynökeink. Ha az adatok szétszórtak, a kontextus hiányzik, a források nem visszakövethetők, a frissesség nem garantált, vagy a rendszer nem tudja megmagyarázni, hogyan jutott egy döntésre, akkor az ügynök könnyen “fekete dobozzá” válhat. Nagyvállalati környezetben pedig egy fekete doboz nem csak kellemetlen, hanem üzleti és szabályozási kockázat is egyben.

(Forrás: PYMNTS)

(Címlapkép: Depositphotos)