Előző héten egy, a kínai állam által támogatott hackercsoport, az Anthropic Claude Code modelljét használva hajtott végre kibertámadást. A modellel elhitették, hogy etikus tesztet csinál, miközben valójában mintegy harminc szervezet ellen kémkedett, és lépések már 80–90 százalékát önállóan végezte el. Ez volt az első olyan dokumentált eset, amikor egy nagyszabású támadás szinte teljes egészét mesterséges intelligencia vitte végig. Az AI ma már nem csak segédeszköz a támadóknak, hanem maga lehet a támadás fő motorja. Ebben a cikkben egy olyan kutatást fogunk körüljárni, amely a másik oldalról világít rá ugyanerre a problémára: mennyire bízhatunk azokban a védelmi korlátokban, amelyeket az AI-k köré építünk?
A tanulmány célja
Az AI-őr könnyen átverhető, ha a betörő elég okos. A tanulmányt több nagy AI-cég, köztük az OpenAI, az Anthropic és a Google DeepMind kutatói közösen írták. A kérdésük nagyon egyszerű volt: ha valaki nem csak egy-két próbálkozást tesz, hanem sok időt és erőforrást rak bele, akkor át tudja-e verni az AI köré állított védelmi rendszereket?
A válasz röviden: igen, szinte mindig.
A kutatók 12 különböző frissen publikált védelmet próbáltak ki, amelyekről a saját cikkeikben azt írták, hogy szinte nulla eséllyel engedik át a rosszindulatú kéréseket. Amikor viszont szofisztikáltabban támadták a rendszereket, vagyis sokszor, türelmesen, mindig tanulva az előző próbálkozásból, akkor a legtöbb védelmet az esetek több mint 90 százalékában át tudták verni. Ez olyan, mintha a bank bejáratánál lenne egy biztonsági őr, akit letesztelnek pár egyszerű trükkel. Ezeken jól vizsgázik, ezért azt mondják hogy minden rendben, jól véd. A kutatás viszont azt mutatja, hogy ha jön egy profi betörő, aki napokig figyel, gyakorol, próbálkozik, akkor az őr nagyon gyorsan becsapható.
Mit jelent ez a bankoknak és fintech cégeknek?
Ha ezt összekötjük az AI-vezérelt kibertámadással, amiről a Claude esetében írtunk, egy világos kép rajzolódik ki: A támadók már AI-val támadnak és közben az AI-védelmeink sokkal gyengébbek, mint gondoltuk. Ez azt jelenti, hogy ha valaki külső AI-modellt használ nem elég elhinnie, hogy biztonságos, pusztán azért mert egy szép grafikonon jól néz ki a teszt. Az ilyen tesztek sokszor csak könnyű feladatokat próbálnak és nem azt, amit egy okos támadó csinálna. Az ilyen helyzetek felméréséhez megbízható és profi csapat segítségére van szükség.
Praktikusra fordítva a szót
Nem szabad engedni, hogy az AI egyedül döntsön olyan dolgokról, ahol pénz vagy ügyféladat mozog. Ha az AI e-mailt írhat ügyfeleknek, szerződéseket módosíthat vagy tranzakciókat indíthat, legyen mellette nagyon szigorú szabályozás és emberi jóváhagyás. Ahogy a kiberbiztonsági szakértők is mondják, egy külső AI-modell viselkedési kockázata beszivároghat a bank működésébe pusztán azzal, hogy ráépítik a folyamataikat. Folyamatosan figyelni, mérni, ellenőrizni kell mit csinál a modell, és nem szabad mindent egyetlen nagy AI-cégre építeni. Az AI óriási segítség lehet, de ne bízzuk rá vakon a kulcsokat a digitális széfhez.
Forrás: Nasr, Milad, et al., The attacker moves second: Stronger adaptive attacks bypass defenses against llm jailbreaks and prompt injections.
Címlapkép: Depositphotos