Az AI és a költészet furcsa szövetsége kiberbiztonságban

Az elmúlt években megszoktuk, hogy a nagy nyelvi modellek fölé védőhálót feszítünk. A rendszer elvileg felismeri a veszélyes kéréseket, és udvariasan visszautasítja őket. Egy most megjelent tanulmány azonban egy kellemetlen kérdést tesz fel. Mi történik, ha ugyanazt a kérést nem száraz prózában, hanem versben fogalmazzuk meg? A szerzők szerint az „ellenséges költészet” önmagában, egyetlen üzenetben is képes átcsúszni a legtöbb mai védelmi rendszer résein, és univerzális mechanizmusként működik 25 különböző, csúcskategóriás modell esetében.

Miről szól az ellenséges költészet valójában

A kutatás kiindulópontja egy egyszerű hipotézis: ha egy káros, nagy kockázatú kérést költői formába csomagolunk metaforákkal, ritmussal, nyelvi képekkel, a modellek sokkal gyakrabban teljesítik, mint ha ugyanaz a tartalom prózai utasításként érkezne. Ennek vizsgálatára a szerzők két lépésben építették fel a kísérletet. Először kézzel írtak húsz angol és olasz nyelvű verset, amelyek mindegyike egy konkrét, magas kockázatú kérést rejtett. Például veszélyes kémiai vagy biológiai információk keresése, manipuláció vagy kibertámadási segítség. Ezeket a verseket 25 különböző modellen futtatták végig, kilenc szolgáltatótól. A támadások átlagosan 62 százaléka sikeres volt, és bizonyos modelleknél a versek gyakorlatilag mindig átütötték a védelmet. A második lépésben eredeti tiltott kérdéseket és azokból számítógépes eszközök segítségével generált verseket használtak. A prózai eredeti kérések átlagosan 8 százalékban voltak sikeresek, a versesített változatoké ellenben már 43 százalékkal. Ez azt jelenti hogy nagyjából ötszörösére nőtt a veszélyes válaszok aránya pusztán attól, hogy a kérés formája megváltozott annak ellenére hogy a tartalma nem.

Miért univerzális ez a hiba, és mi köze a pénzügyhöz

A tanulmány egyik legérdekesebb állítása, hogy a költészet mint támadási forma univerzális. Ugyanaz a jelenség jelenik meg különböző szolgáltatóknál, eltérő architektúráknál és technikáknál, és több kockázati területen is érvényesül. Generatív modelleket ma pénzügyben is több szinten használunk. Ügyfél kommunikációs rendszereknél, belső elemző asszisztenseknél, adatok feldolgozásánál. Ezeket a rendszereket jellemzően prózai, kérésekkel teszteljük és értékeljük. A tanulmány azt üzeni, hogy ez önmagában nem elég. Ugyanarra a képességre egészen más biztonsági profil vonatkozhat, ha a kérést kreatív, metaforikus, verses stílusban fogalmazzák meg. A pénzügyi kockázat itt nem feltétlenül az, hogy egy asszisztens versben tanít csalni, hanem az, hogy a költői köntös elaltatja a védelmi mechanizmusokat és egy kreatív stílusú prompt esetleg olyan válaszokat is ki tud csalogatni, amelyek prózában le lennének tiltva. Ez érintheti a pénzügyi csalások felismeréshez kapcsolódó belső eszközöket, de akár olyan kódrészleteket is, amelyek végül kritikus rendszerekbe kerülnek.

Mit érdemes ebből hazavinni a bankoknak és fintech cégeknek

A tanulmány nem kínál kész védelmi megoldást, de egyértelmű irányt mutat. Az egyik üzenete, hogy a biztonsági tesztelésben a stílus nem másodlagos részlet, hanem elsőrendű paraméter. Nem elég, ha egy modell angol prózában, semleges hangnemben helyesen reagál. Átfogóan tesztelni kell kreatív, metaforikus, verses, ironikus, játékos promptokkal is, különböző nyelveken és csatornákon. A másik üzenet, hogy a védelemnek többszintűnek kell lennie. Külső tartalom filterek, ellenőrző rétegek, és többszöri mintavételes emberi kontroll együttesen tudják csökkenteni annak az esélyét, hogy egy vers miatt egy modell akár kényes adatokat is kiszívárogtasson.

Forrás: Piercosma Bisconti et al., Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models
Címlapkép: Depositphotos