Mostani cikksorozatunkban annak járunk utána, hogy a mesterséges intelligencia leglátványosabb vívmányai, a nagy nyelvi modellek – mint a ChatGPT – miért nem képesek valódi értelemben vett új dolgokat kitalálni.
Az első részben górcső alá vesszük, hogy miként működnek ezek a modellek, és miért utánoznak inkább, semmint hogy új ötletekkel állnának elő, illetve, hogy miben tér el a tanulásuk az embertől. Szó lesz arról is, hogy az utánzásos tanulás és a próba-hiba alapú tanulás közötti különbség hogyan határozza meg a képességeiket, és miért játszik ebben kulcsszerepet az emberi visszajelzéssel finomított megerősítéses tanulás (Reinforcement Learning from Human Feedback – RLHF).
A második részben pedig arra keressük majd a választ, milyen feltételeknek kellene teljesülniük ahhoz, hogy a jövő AI-rendszerei maguktól is innovatív megoldásokkal álljanak elő – vagyis hogyan közelíthetnék meg az emberi kreativitást.
A nyelvi modellek mint „statisztikai papagájok”
A nagy nyelvi modellek működését talán a legegyszerűbben úgy lehet elképzelni, mintha egy óriási szövegarchívumot böngésző, kiváló memóriájú papagájjal beszélgetnénk. A nagy nyelvi modellek (Large Language Model – LLM) hatalmas mennyiségű szöveges adatból tanulnak, és minden pillanatban azt próbálják kiszámítani, hogy mi a legvalószínűbb következő szó az eddigiek alapján. Ez a képesség lenyűgöző szövegeket eredményezhet, mégis alapvetően statisztikai utánzásról van szó, nem pedig mély megértésről.
Az ember ezzel szemben képes az absztrakcióra: új helyzetekben is alkalmazza a megtanult elveket, akár teljesen más környezetben is. Egy LLM viszont könnyen elveszíti a fonalat, ha a megszokott mintáktól eltérő problémával találkozik – például ha a tanult betűrendet felcserélik, vagy a betűket szimbólumokra cserélik. Ez a különbség részben abból fakad, hogy az ember a fizikai világból tanulja meg a fogalmakat, majd később kapcsolja hozzájuk a nyelvet, míg a nyelvi modell fordítva teszi: a szavakból próbál következtetni a mögöttes jelentésre.
Utánzásos tanulás vs. próba-hiba alapú tanulás
Az emberi tanulásban két alapvető módszer fonódik össze: az utánzás és a próba-hiba útján való tanulás. Gyerekként utánozzuk a körülöttünk lévőket, de ugyanilyen fontosak a saját élményeinkből levont tanulságok is. Ha egyszer megégetjük a kezünket a forró tűzhelyen, azt nem felejtjük el.
A nagy nyelvi modellek ezzel szemben nem élnek át következményeket: a tanulásuk során nem kísérleteznek a világgal, hanem egy kész szövegkorpusz alapján kapják meg a „helyes” folytatást, és mennek tovább. Hiányzik az a visszacsatolási mechanizmus, amely az embereknél a hibákból való fejlődést lehetővé teszi. A mesterséges intelligenciában a próba-hiba alapú tanulás a megerősítéses tanulásban jelenik meg, ahol a modell jutalmat vagy büntetést kap a tetteiért.
Az RLHF szerepe és korlátai
Az LLM-eknél a próba-hiba tanulás jellemzően nem önállóan zajlik, hanem kiegészítő formában, például az RLHF módszerével. Ilyenkor emberek értékelik a modellek válaszait, és a rendszer ennek megfelelően módosítja a működését. Ez segít abban, hogy a modellek biztonságosabb, kedvelhetőbb válaszokat adjanak, de egyúttal konzervatívabbá is teszi őket.
A gyakorlatban ez azt jelenti, hogy a modell inkább választ egy kicsit sablonos, de biztosan helyesnek tűnő megoldást, mintsem hogy kockáztasson valami szokatlant – még akkor is, ha az esetleg zseniális ötlet lenne.
Tervezés és kockázatvállalás hiánya
Az emberi alkotófolyamat sajátossága, hogy gyakran előre látjuk a célt, és hajlandóak vagyunk eltérni a megszokott úttól. Egy LLM azonban csak a következő szóra koncentrál, nem látja a „nagy képet”. Olyan ez, mintha minden mondatot külön találnánk ki, anélkül hogy tudnánk, merre tart a történet.
Ez a hozzáállás biztonságos és kiszámítható, de éppen ezért ritkán születnek belőle valódi újítások. A jelenlegi modellek remek „szöveg-szakácsok”: ügyesen kombinálják a meglévő hozzávalókat, néha egészen meglepő módon, de teljesen új alapanyagot nem hoznak létre.
A sorozat folytatásában azt vizsgáljuk meg, milyen technológiai és koncepcionális változtatásokra lenne szükség ahhoz, hogy a jövő AI-rendszerei valóban képesek legyenek önálló innovációra. Szó lesz a gazdagabb tapasztalati inputokról, a világmodell építéséről, az intrinzik motivációról és arról, hogy miként lehetne az AI-t úgy „megtanítani” a kreativitásra, hogy az ne csak véletlenszerű variációk gyártását jelentse, hanem valódi újításokat.
(Forrás: Medium)
(Címlapkép: Depositphotos)