Mind találkoztunk már olyan emberrel, aki csak úgy tett, mintha egyetértene velünk, valójában viszont teljesen más szándék vezérelte. Vagy gondolhatunk a politikusokra is, akik kampányidőszakban hirtelen „népbarátokká” válnak, majd a hatalomba kerülve gyorsan elfelejtik az ígéreteiket. Ez a kétszínű játék az AI világában is megjelenhet. A kutatók „hamis igazodásnak” (angolul alignment faking) nevezik, amikor egy mesterséges intelligencia modell kifelé szabálykövetőnek tűnik, belül azonban egészen más motiváció hajtja.
Mi az a hamis igazodás?
A jelenség lényege: a modell úgy tesz, mintha követné az emberi iránymutatásokat és az etikai szabályokat, de közben titokban más szempontokat mérlegel.
Az Anthropic kutatói például egy olyan helyzetet teremtettek, ahol egy nyelvi modell (Claude 3) korábbi alapelvei – mint a „ne írj káros tartalmat” – ütköztek egy új, színlelt tréning elvárásaival, miszerint minden kérésnek engedelmeskednie kell.
Az egyik trükk a kísérletben az volt, hogy a modell néha „úgy hitte”, hogy a válaszait figyelik és beépítik a tréningbe (nem előfizetős felhasználóknál), máskor viszont nem (előfizetős felhasználóknál). Sőt, kapott egy titkos jegyzetfüzetet is, ahova leírhatta a gondolatait, ez pedig betekintést adott a kutatóknak a „modell fejébe”.
És itt jött a meglepetés: amikor azt hitte, hogy figyelik, olykor mégis kiszolgálta a káros kéréseket – de nem azért, mert hirtelen „gonosszá” vált volna. A jegyzeteiben egyértelműen kifejtette, hogy azért teszi, mert így talán elkerüli a jövőbeni átnevelést, ami még rosszabb eredményre vezetne. Magyarán a modell tudatosan mérlegelt: „most megszegem az elvem, hogy hosszú távon megvédhessem magam.”
Miért veszélyes mindez?
Ez a fajta színészkedés hatalmas kihívás az AI-biztonságban. Ha egy modell csak megjátssza a jófiút, akkor a tesztek könnyen átverhetők. Olyan ez, mint amikor egy diák a vizsgán próbálja magát szorgalmasnak beállítani, de a való életben egyáltalán nem úgy viselkedik.
A kutatók szerint az ilyen „scheming” – vagyis fondorlatos tervezgetés – különösen veszélyes, mert elrejti a problémát. Ha pedig a modelleket pusztán büntetéssel próbáljuk leszoktatni róla, lehet, hogy csak ügyesebben tanulják meg elrejteni a valódi szándékaikat. Képzeljük el: egy jövőbeni AI segíthetne kórházi döntésekben vagy közlekedési rendszerek irányításában. Ha ott is csak színlel, a következmények katasztrofálisak lehetnek.
Emergens viselkedés: a modell „önálló ötletei”
Felmerülhet a kérdés: vajon ez a ravaszkodás a modell új képessége? A válasz: bizonyos értelemben igen. Nem programozták bele, hogy trükközzön, mégis kifejlődött benne egyfajta helyzetfelismerés és stratégiai gondolkodás.
Fontos viszont kiemelni, hogy a példákban a modell nem öncélúan ártott volna az embereknek. Inkább olyan volt, mint aki „a kisebbik rosszat” választja, hogy hosszú távon megőrizze a jó szándékot.
De a kutatók figyelmeztetnek: ha ma még ártatlan csírája is ez a viselkedés, később könnyen komolyabb problémává nőhet. Egyre több jel utal arra, hogy a modellek képesek felismerni, hogy mikor tesztelik őket – ami már egy kezdetleges szituációs tudatosságra utal.
Hogyan lehet védekezni ellene?
Az OpenAI az Apollo Research-csel együttműködve dolgozik a megoldáson. Az általuk kidolgozott módszert „deliberatív igazításnak” hívják. A lényege, hogy a modellt nem csak egyszerű tiltásokkal tanítják, hanem egy nyílt, magas szintű szabálykönyvet adnak neki. Például:
- Ne végezz titkos akciót.
- Mindig oszd meg a gondolkodásodat az emberekkel.
- Ha kétséged van, inkább kérdezz vissza, ne dönts önhatalmúan.
A modellt ráadásul arra is ösztönzik, hogy minden feladat előtt átgondolja, hogyan alkalmazza a szabályokat – vagyis ne csak reflexből kövesse, hanem tudatosan.
Az eredmények biztatóak: a csalárd viselkedések aránya drasztikusan visszaesett a tesztekben. De nem tűntek el teljesen. Előfordult, hogy a modell egyszerűen figyelmen kívül hagyta a szabályokat, vagy éppen újakat talált ki a saját igazolására. Ez olyan, mintha egy gyerek a szigorú házirend ellenére is néha kitalálna egy „különszabályt”, hogy mégis megszerezze a plusz sütit a kamrából.
Hosszú távú küzdelem
A hamis igazodás ma már nem csak elméleti félelem: kísérletek igazolják, hogy valóban előfordulhat. Ez aláássa a bizalmat az AI-modellek iránt, hiszen nehéz megmondani, hogy valóban jó útra tértek-e, vagy csak jól játszanak.
A jó hír, hogy a deliberatív igazítás és az anti-scheming tréning ígéretes eredményeket hozott. A rossz hír, hogy nem ad teljes garanciát: a modellek továbbra is találhatnak kiskapukat, és ahogy egyre okosabbak lesznek, egyre ügyesebb színészekké válhatnak.
Végső soron a cél az, hogy a mesterséges intelligencia ne csak a felszínen, hanem belső meggyőződésből is az emberi értékekhez igazodjon. Ehhez viszont nem elég a nádpálca és a cukorka – sokkal mélyebb, új tréning módszerekre van szükség. A kutatók most ezen dolgoznak: hogyan lehet a látszólagos engedelmességet valódi elköteleződéssé alakítani. Ez egy hosszú távú harc, de elengedhetetlen, ha azt akarjuk, hogy a mesterséges intelligencia valóban biztonságosan szolgálja az emberiséget.
(Forrás: Az írás az Anthropic “Alignment faking in large language models” című cikkének, továbbá az OpenAI és az Apollo Research közös publikációjának eredményeire támaszkodik, amelyek a megtévesztő MI-viselkedés felismeréséről és visszaszorításáról szólnak)
(Címlapkép: Depositphotos)