Nemsokára helyettünk fog ételt rendelni a mesterséges intelligencia

Az Amazon új fejlesztése, a Nova Act SDK forradalmasíthatja az automatizált digitális asszisztensek világát. A megoldás demo eseményén automatizált ételrendelést és albérletek keresését is bemutatták. Minden, amit tudni lehet az Amazon legújabb mesterséges intelligencia megoldásáról.

A böngészőben végrehajtható, komplex feladatok automatizálására tervezett megoldás a megbízhatóságot és a gyakorlati alkalmazhatóságot helyezi előtérbe, új szintre emelve az AI-ügynökök képességeit.

A Nova Act SDK, egy olyan mesterséges intelligencia-alapú eszközkészlet, amely lehetővé teszi a fejlesztők számára, hogy böngészőben működő „ügynököket” hozzanak létre – olyan rendszereket, amelyek képesek valódi műveleteket végrehajtani a felhasználók helyett, nem csak válaszolni a kérdéseikre.

Mire képes a Nova Act?

“Ha bébiszittelni kell egy AI-t, akkor az nem is valódi automatizáció”

– mondta Vishal Vora, a Nova Act Technikai munkatársa.

A Nova Act célja, hogy túlmutasson a hagyományos, API-vezérelt automatizálási megoldásokon. Az eszköztár segítségével az AI-ügynökök összetett, több lépésből álló feladatokat is képesek önállóan végrehajtani, például:

  • Konkrét ételeket megrendelni meghatározott időközönként (például minden kedden)
  • Albérletet keresni meghatározott paraméterek mentén
  • Vagy akár web-alapú játékokkal játszani

Az SDK képes megbízható, kis lépésekből felépített műveletsorokat létrehozni, például keresést indítani, kattintani, adatokat kiolvasni, vagy űrlapokat kitölteni. A parancsok Python kóddal is kombinálhatók, így például lehetőség van párhuzamosításra, hibakezelésre vagy akár jelszavak biztonságos bevitelére is Playwright integráción keresztül.

A megbízhatóság kulcskérdés

Az Amazon szerint a Nova Act egyik fő erőssége a stabil és kiszámítható működés. Más mesterséges intelligencia alapú agent modellek a legtöbb esetben 30–60 százalékos pontosságot érnek el a böngészős feladatoknál. Az Amazon belső mérései szerint a Nova Act egyes funkciókban 90 százalék feletti megbízhatóságot is elér. Ez különösen olyan nehéz területeken látványos, mint:

  • dátumválasztók kezelése,
  • lenyíló menük értelmezése,
  • vagy felugró ablakok kezelése.

Az Amazon modellje ráadásul kiemelkedően szerepelt olyan benchmark teszteken, mint a ScreenSpot és a GroundUI Web – ezek a tesztek a vizuális és szöveges UI-elemekkel való interakciók pontosságát mérik. Az eredmények szerint a Nova Act felülmúlja a Claude 3.7 Sonnet és az OpenAI böngésző-ügynökeit is több kulcsfontosságú mutatóban.

Valós felhasználási esetek

A Nova Act nem csak laboratóriumi körülmények között működik: az Amazon már integrálta a rendszert saját Alexa+ projektjébe is. Az ügynök így képes önállóan böngészni és feladatokat elvégezni olyan esetekben is, ahol nincs elérhető API.

Egy egyszerű példa: az SDK-val létrehozható egy olyan ügynök, amely minden kedden automatikusan salátát rendel vacsorára, emberi beavatkozás nélkül. Az ügynök működhet “headless módban”, API-ként is használható, vagy akár előre ütemezett műveleteket is végrehajthat.

A jövő ügynökei

Az Amazon szerint ez csak a kezdet. A hosszú távú cél egy olyan megbízható, intelligens és skálázható ügynökrendszer felépítése, amely nemcsak egyszerű feladatokat, hanem összetett, több lépésből álló workflow-kat is képes végrehajtani – akár egy esküvő megszervezését vagy IT infrastruktúra karbantartását. Vajon képes lesz az Amazon Agent modellje valódi üzleti folyamatokat is ellátni?

Ehhez azonban az Amazon szerint nem elég a nagy nyelvi modellek hagyományos „betanítása”. Ehelyett a vállalat megerősítéses tanulással (reinforcement learning) tervezi kiképezni az ügynököket. Sokféle gyakorlati környezeten keresztül, hogy a modellek valóban megtanulják, hogyan kell megbízhatóan működni komplex digitális környezetekben.

A Nova Act SDK jelenleg kutatási előnézeti (research preview) formában elérhető a nova.amazon.com oldalon keresztül. Az Amazon célja, hogy fejlesztőkkel együttműködve, iteratív módon finomítsa és bővítse a rendszert a valódi használati igényekhez igazodva. Egyelőre azonban csak USA-ban tevékenykedő felhasználóknak nyitott a jelentkezés az új megoldás kipróbálására.

(Forrás: Amazon)

(Címlapkép: Amazon)