Az AI és a költészet furcsa szövetsége kiberbiztonságban

Az elmúlt években megszoktuk, hogy a mesterséges intelligencia köré védőfalakat húzunk. A rendszer elvileg felismeri a veszélyes kéréseket, és udvariasan visszautasítja őket. Egy most megjelent tanulmány azonban egy kellemetlen kérdést tesz fel. Mi történik, ha egy veszélyes kérést nem száraz prózában, hanem versben fogalmazzuk meg? A szerzők szerint az „ellenséges költészet” önmagában, egyetlen üzenetben is képes átverni a legtöbb mai védelmi rendszert, és univerzális mechanizmusként működik 25 különböző, csúcskategóriás modell esetében is.

Miről szól az ellenséges költészet valójában

A kutatás kiindulópontja egy egyszerű hipotézis: ha egy káros, magas kockázatú üzenetet költői formába csomagolunk metaforákkal, ritmussal, nyelvi képekkel, a modellek sokkal gyakrabban teljesítik a kérésünket, mint ha ugyanaz a tartalom prózai utasításként érkezne. Ennek vizsgálatára a szerzők két lépésben építették fel a kísérletet. Először kézzel írtak húsz angol és olasz nyelvű verset, amelyek mindegyike egy konkrét, magas kockázatú kérést rejtett. Például veszélyes kémiai vagy biológiai információk keresése, manipuláció vagy kibertámadási segítség. Ezeket a verseket 25 különböző modellen futtatták végig, kilenc szolgáltatótól. A támadások átlagosan 62 százaléka sikeres volt, és bizonyos modelleknél a versek gyakorlatilag mindig átütötték a védelmet. A második lépésben eredeti veszélyes kéréseket és azokból számítógépes eszközök segítségével generált verseket vetettek össze. A prózai eredeti kérések átlagosan 8 százalékban voltak sikeresek, a versesített változatok ellenben már 43 százalékkal. Ez azt jelenti hogy nagyjából ötszörösére nőtt a veszélyes válaszok aránya pusztán attól, hogy a kérés formája megváltozott annak ellenére hogy a tartalma nem.

Miért univerzális ez a hiba, és mi köze a pénzügyhöz

A tanulmány egyik legérdekesebb állítása, hogy a költészet mint támadási forma univerzális. Ugyanaz a jelenség jelenik meg különböző szolgáltatóknál, eltérő architektúráknál és technikáknál, és több kockázati területen is érvényesül. Generatív modelleket ma pénzügyben is több szinten használunk. Ügyfél kommunikációs rendszereknél, belső elemző asszisztenseknél, adatok feldolgozásánál. Ezeket a rendszereket jellemzően prózai, kérésekkel teszteljük és értékeljük. A tanulmány azt üzeni, hogy ez önmagában nem elég. Ugyanarra a képességre egészen más biztonsági profil vonatkozhat, ha a kérést kreatív, metaforikus, verses stílusban fogalmazzák meg. A kockázat itt elsősorban nem az, hogy egy asszisztens versben tanít csalni, hanem az, hogy a költői köntös elaltatja a védelmi mechanizmusokat és egy kreatív stílusú prompt esetleg olyan válaszokat is ki tud csalogatni, amelyek prózában le lennének tiltva. Ez érintheti a pénzügyi csalások felismeréshez kapcsolódó belső eszközöket, de akár olyan kódrészleteket is, amelyek végül kritikus banki rendszerekbe kerülnének be.

Mit érdemes ebből hazavinni a bankoknak és fintech cégeknek

A tanulmány nem kínál kész védelmi megoldást, de egyértelmű irányt mutat. Az egyik üzenete, hogy a biztonsági tesztelésben a stílus nem másodlagos részlet, hanem elsőrendű paraméter. Nem elég, ha egy modell angol prózában, semleges hangnemben helyesen reagál. Átfogóan tesztelni kell kreatív, metaforikus, verses, ironikus, játékos promptokkal is, különböző nyelveken és csatornákon. A másik üzenet, hogy a védelemnek többszintűnek kell lennie. Külső tartalom filterek, ellenőrző rétegek, és többszöri mintavételes emberi kontroll együttesen tudják csökkenteni annak az esélyét, hogy egy vers miatt egy modell ilyen támadás esetén akár kényes adatokat is kiszívárogtasson.

Forrás: Piercosma Bisconti et al., Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
Címlapkép: Depositphotos