Az AI-kutatás most egy új, gyakorlati korszak határán áll: nem elég „okosan” válaszolni, az MI-nek dolgoznia is kell. A LIMI (Less Is More for Intelligent Agency) tanulmány ezt a fordulatot nevezi ügynökségnek (agency): az a képesség, hogy egy rendszer önállóan találjon problémákat, alkosson hipotéziseket, és eszközöket használva végre is hajtsa a megoldást. A szerzők szerint ez jelzi az „AI-ügynökség korának” kezdetét.
A fő állítás: nem több adatra van szükségünk a további fejlődéshez
A nyelvi modelleknél megszoktuk, hogy a teljesítmény nagyjából a tanítóadat mennyiségével skálázódik. A LIMI ezzel megy szembe: stratégiailag válogatott, kevés – de jó – példából tanítja meg a rendszert ügynökségre. A csapat együttműködő szoftverfejlesztési és tudományos munkafolyamatokra fókuszált, és azt találta, hogy a viselkedés minősége fontosabb, mint a mennyiség.
Meglepő számok
A LIMI mindössze 78 gondosan kialakított mintán tanulva 73,5%-ot ért el egy „átfogó ügynökségi benchmarkon”, miközben több, sokkal nagyobb adatkészleten tréningezett csúcsmodellnél is jobban teljesített (például Kimi-K2-Instruct 24,1%, DeepSeek-V3.1 11,9%, Qwen3-235B-A22B-Instruct 27,5%, GLM-4.5 45,1%). A szerzők kiemelik: 10 000 mintán tanított rendszerekhez képest 53,7%-os javulást értek el 128-szor kevesebb példával. Ezt nevezik „Agency Efficiency Principle”-nek: az ügynökség nem adatmennyiségből, hanem magas minőségű, ügynökséget demonstráló példák kurálásából bukkan elő.
Miért fontos ez a pénzügyi szektornak?
1) Alacsonyabb belépési küszöb ügynökprojektekhez. Ha valóban elég néhány tucat, gondosan kurált példa, akkor egy bank vagy fintech nem kényszerül több tízezer annotált esetre, hogy ügynökalapú rendszert állítson össze – elég lehet a saját, kontrollált folyamataiból kiválogatott „mesterpéldák” gyűjteménye. Gondoljunk ügyfélszolgálati utólagos teendők lezárására, vagy belső fejlesztői „Change Request” folyamatok automatizálására.
2) Gyorsabb kísérletezés, kisebb kockázattal. A nagy, heterogén adathalmazok gyűjtése nemcsak költséges, hanem compliance-szempontból is kockázatos. A LIMI üzenete: célozzunk kevesebb, de jól definiált, auditálható példára, amelyek a tényleges eszközhasználatot és döntési lépéseket mutatják be.
3) „Dolgozó” ügynökök a back-office-ban. A tanulmány a tool-használatot és a workflow-k kivitelezését emeli ki. Ez egybevág a pénzügyre jellemző RPA/IPA-világgal: a következő generációs ügynök képes lehet KYC/AML ellenőrzések előkészítésére, kockázati riportok frissítésére, vagy incidenskezelési feladatok eszközszintű végrehajtására – nem csak javaslatot ad, hanem meg is csinálja.
Mit jelent ez a gyakorlatban?
- Folyamat-leltár: jelöljünk ki 1-2 jól behatárolt, eszközhasználattal végrehajtható folyamatot (pl. „fraud jelzés ellenőrzési playbook”).
- Példakurálás: készítsünk 20–100 darab „mesterpéldát”, ahol világos a cél, a döntési pontok és a szükséges eszközök hívása (API-k, belső rendszerek).
- Értékelés ügynökségre, nem csak pontosságra: mérjük, hogy az ügynök önállóan kezdeményez-e, jól választ-e eszközt, és végigviszi-e a feladatot – nem elég a szöveges helyesség.
- Governance & guardrail: mivel a rendszer ténylegesen cselekszik, engedélyezési lépcsők, naplózás és visszagörgethetőség kötelező.
Óvatos megjegyzések
A LIMI eredményei ígéretesek, de érdemes kérdezni: mennyire általánosítható a kiválasztott workflow-kon túl, hogyan állja a sarat biztonsági- és megfelelőségi környezetben, és milyen a benchmark ökológia érettsége (valóban lefedi-e a pénzügyi valós feladatokat). A szerzők állításai erősek – a 73,5%-os összpont és a 78 minta valóban figyelemre méltó –, de a helyi validáció és a belső, éles pilot továbbra is elengedhetetlen, mielőtt egy bank kritikus folyamatain futtatnánk.
Összegzés: A LIMI szerint az AI-ügynökség nem adat-óriásprojektekből születik, hanem jó példákból. A fintech számára ez felszabadító üzenet: kisebb, ellenőrizhető, olcsóbb tréninggel is építhetünk olyan ügynököket, amelyek nemcsak gondolkodnak – dolgoznak is.
(Címlapkép: Depositphotos)