Megjelentek az AI ügynökök amik előre gondolkoznak

Az elmúlt években megtanulhattuk, hogy a mesterséges intelligencia nem csak elemző eszköz. Egyre inkább önálló szereplő is aki ajánlatokat tesz, folyamatokat irányít, kockázatokra figyelmeztet. Mégis a legtöbb mai rendszer úgy dönt mint egy elemző, aki megnézi mi történik most, és erre reagál. Egy friss, két napja publikált kutatás azt vizsgálja, mi történik akkor, ha az AI megpróbál egy lépéssel előrébb gondolkodni. Vizuálisan és konceptuálisan is tanulmányozza a helyzetet, és az alapján választ, hogy milyen jövőbeli állapotot okozna a reakciója.

Miről szól az UNeMo valójában?

A szerzők egy olyan rendszert mutatnak be, amelyet virtuális terekben mozgó ügynököknek terveztek. Ezek az ügynökök képeket látnak, szöveges utasításokat kapnak, és végig kell menniük egy útvonalon egy ismeretlen környezetben. Az UNeMo kulcsa, hogy nem csak az aktuális látvány és instrukció alapján választja ki a következő lépést hanem előbb megbecsüli, mi lesz az eredménye annak, ha az adott lépést tényleg megteszi. Ehhez egy úgynevezett multimodális világmodellt használ. Ez a modell a vizuális jeleket, a nyelvi információt és a tervezett reakciót együtt dolgozza fel. A rendszer ebből próbálja megjósolni a következő vizuális állapotot, így az ügynök nem csak azt látja, ahol éppen áll, hanem azt is, hová jutna el a döntés után. A világmodell mellett a másik fontos elem egy hierarchikus döntési mechanizmus. Először születik egy nyers javaslat arra, hogy merre lépjen az ügynök, majd a világmodell ezután lefuttatja, hogyan nézne ki a világ a javasolt lépés után. Ha a várt állapot nem illeszkedik jól a célhoz vagy az instrukcióhoz, a döntés finomodik. A navigációs politika és a világmodell együtt, folyamatos visszacsatolással tanulnak. Így az ügynök idővel egyre jobban tud tájékozódni olyan helyzetekben is, amelyeket korábban még nem látott.

Mi köze ennek a pénzügyhöz?

Ha a virtuális folyosók helyére piacokat, ügyfélportfóliókat és tranzakciós hálózatokat képzelünk, az analógia gyorsan egyértelművé válik. Egy hitelbírálati vagy csalás előrejelző rendszer ma többnyire úgy viselkedik, mint egy egyszerű elemző. A most elérhető adatok, szabályok és modellek alapján egyetlen lépést választ, amiben eldönti, hogy elfogad, blokkol vagy manuális ellenőrzést kér. Egy UNeMo szerű gondolkodásmódnál a kérdés nem az lenne, hogy egy tranzakció most gyanús-e. Sokkal inkább az, hogy milyen állapotba jutunk, ha engedjük. Mit lép az ügyfél ezután? Hogyan változik a kockázat a következő lépések során? Milyen mintázat rajzolódik ki, ha több hasonló döntést is meghozunk egymás után? Egy hiteldöntésnél ugyanez a logika azt jelenti, hogy a modell nem csak a jelenlegi állapotot nézi. Rövid távú jövőképeket épít az ügyfél várható pályájáról, és ezek alapján értékeli a kockázatot. AI alapú tanácsadóknál és neobankok ügyfélútjainál a világmodell segíthet abban, hogy a rendszer ne csak azt találja ki, melyik ajánlat „illik” a profilhoz hanem azt is megpróbálja előre látni, hogy egy adott ajánlat után hogyan fog viselkedni az ügyfél. Hogyan változik a kockázati étvágya és az elégedettsége, és milyen további lépéseket érdemes ajánlani. Ugyanez a logika a belső operációra is átültethető. Egy AI-ügynök végig tudja gondolni, hogyan alakul egy ticket vagy vizsgálat sorsa, ha egy adott lépést választunk, és olyan döntést javasolhat, amely a teljes folyamatot optimalizálja, nem csak az aktuális státuszt.

Mit érdemes ebből hazavinni a bankoknak és fintech cégeknek?

A tanulmány egy kutatási irányt képvisel. Nem kész terméket ad a banki IT-nek. Mégis fontos jelzés hogy a jövő AI-rendszerei a pénzügyben valószínűleg nem elégszenek meg azzal, hogy a jelen pillanat alapján döntenek. Világmodellt építenek az adatokból, és rövid távú szimulációkat futtatnak arról, milyen következményei lesznek az egyes akcióknak. Ez új lehetőségeket, de új kockázatokat is hoz. Ha a világmodell rosszul tanul, a jövőképei félrevezethetik a döntéseket. Ha túl nagy szabadságot kap, elmosódhat a határ az automatizált döntés és az emberi felelősség között. A gyakorlatban ez azt jelenti, hogy már ma érdemes úgy szervezni az adatokat és folyamatokat, hogy azok alkalmasak legyenek egy későbbi világmodell számára. Összekapcsolható legyen a számok világa a narratívákkal, szabályokkal és ügyfélinterakciókkal. Közben ragaszkodni kell a szigorú emberi kontrollhoz. Fontos ragaszkodni az átlátható döntési keretekhez, amelyek pontosan rögzítik, miről dönthet az AI önállóan, és mikor kell emberi jóváhagyás. Az UNeMo kutatása azt mutatja meg, hogyan lehet egy AI-t rávenni, hogy minden lépés előtt megnézze, milyen világba érkezik, ha az adott lépést megteszi. Ha ezt a gondolkodásmódot átvisszük a pénzügyre, akkor nem csak az lehet kérdés, hogy mit lát a modell ma. Az is, hogy milyen jövőt rajzol magának minden döntés előtt, és mi mennyire engedjük, hogy ez a rajz befolyásolja a pénzügyi rendszer működését. Nem hagyhatjuk hogy ezek a rendszerek a jövőben felelőtlenül profilozzanak embereket és ez a profilozás döntse el valós személyek sorsát.

Forrás: Changxin Huang et al., UNeMo: Collaborative Visual-Language Reasoning and Navigation via a Multimodal World Model.

Címlapkép: Depositphotos