A ChatGPT zsákutca? – A Turing-díjas kutató elárulta, milyen lesz az AI igazi jövője

A mesterséges intelligencia (AI) világában kevés név bír akkora tekintéllyel, mint Richard Sutton, a megerősítéses tanulás (reinforcement learning, RL) egyik atyja, a 2024-es Turing-díj kitüntetettje, és számos alapfogalom megalkotója. Legutóbbi interjújában azonban Sutton meglepő kijelentést tett: szerinte a ma uralkodó nagy nyelvi modellek (Large Language Models, LLMs), mint a ChatGPT, zsákutcát jelentenek az AI fejlődésében. De mit ért ezalatt, és mi lehet a valódi út az emberi szintű intelligencia felé?

Az utánzás korlátai

Sutton alapvető kritikája, hogy az LLM-ek nem tanulnak a világból, csak az emberektől. Ezek a modellek óriási mennyiségű szöveget dolgoznak fel, és abból tanulják meg, hogyan folytassanak egy mondatot vagy párbeszédet a lehető legvalószínűbben. Csakhogy ez puszta imitáció, nem valódi megértés, hangsúlyozza Sutton.

Egy LLM célja nem az, hogy hatással legyen a világra, hanem hogy pontosan jósolja meg a következő szót. „A következő szó megjóslása nem igazi cél” – mondja Sutton –, „hiszen nem irányul a világ megváltoztatására.” Az ilyen rendszerek nem tudják, mit jelent a siker vagy a kudarc, mivel nincsenek belső motivációik, jutalmaik vagy tapasztalataik.

A valódi intelligencia: tapasztalatból tanulni

A megerősítéses tanulás ezzel szemben a világban való cselekvésről szól. Egy mesterséges intelligencia ügynök (AI agent) döntéseket hoz, jutalmat vagy büntetést kap, majd ezekből a visszajelzésekből tanulja meg, hogyan érje el a célját. Ez a tapasztalati, célorientált tanulás Sutton szerint az intelligencia valódi lényege.

Az LLM-ek ezzel szemben nem rendelkeznek „világmodellel” – azaz nem tudják megjósolni, mi fog történni, ha cselekszenek. Csak azt jósolják meg, mit mondana egy ember arról, hogy mi történik. Sutton hasonlata szerint ez olyan, mint elolvasni az összes szakácskönyvet, de soha nem főzni egyetlen ételt sem. Az AI így sosem tanulja meg, hogyan reagál a világ a tetteire, éppen ezért nem is fejlődik tapasztalatból.

A „Keserű tanulság” újraértelmezve

Sutton 2019-es híres esszéje, The Bitter Lesson, arról szólt, hogy az AI fejlődését nem az emberi szakértelem, hanem a nyers számítási teljesítmény és a tanulás vitte előre. Ez igaz volt a deep learningre is: a rendszer nem kézzel kódolt szabályokból, hanem adatokból tanult.

De Sutton most azt mondja: az LLM-ek esetében ez a tanulság félúton elakadt. Bár ezek a modellek hatalmas skálán tanulnak, a tudásuk mégis emberi szövegekből származik. Mit teszünk majd, ha elfogy az emberi adat? Az internetes szövegkorpusz véges, és Sutton szerint az LLM-ek már a plafon közelében járnak. A továbblépéshez olyan rendszerekre lesz szükség, amelyek saját tapasztalatból tanulnak, nem másoktól.

Az „élmény paradigmája”: az AI, ami mindig tanul

Sutton szerint a jövő az „élmény paradigmája”: olyan AI-rendszerek, amelyek folyamatosan tanulnak a világban való jelenlétük során. Nincs többé külön betanítási és alkalmazási fázis: a tanulás és a működés egybeolvad. Minden pillanatban, amikor az agent érzékel, dönt és cselekszik, új tapasztalatot gyűjt.

Ennek a víziónak négy alapeleme van:

  1. Politika (Policy): az aktuális döntéshozatali stratégia.
  2. Értékfüggvény (Value function): a hosszú távú siker becslése.
  3. Világmodell: a környezet következményeinek előrejelzése.
  4. Észlelés: a külvilág értelmezése és belső reprezentációja.

Ezek együtt alkotnak egy tanuló, önjavító rendszert, amely a saját hibáiból fejlődik, épp mint egy gyermek vagy egy állatkölyök.

Tanulni, mint a gyerekek: nem utánozni, hanem próbálkozni

Sutton szerint az emberi tanulás sem az utánzáson alapul, hanem a próbálkozás és tévedés mechanizmusán. A csecsemő nem másolja a felnőttek mozdulatait – saját tapasztalatai alapján fedezi fel, mit tehet a testével és a környezetével. Az utánzás csak később, a magasabb szintű tanulásban jelenik meg.

Ezért tartja Sutton a felügyelt tanulást („mutasd meg a jó választ”) is természetellenesnek. A természetben nincsenek tanárok: a túlélés és a fejlődés mindig a közvetlen tapasztalat eredménye. Ha az AI is az intelligens élethez hasonlóan akar tanulni, ugyanígy kell működnie.

A jövő intelligenciája: az AI, ami él

Sutton optimista, de reálisan látja a jövőt. Elkerülhetetlennek tartja, hogy az emberiség megalkossa saját „utódait” az evolúcióban – olyan AI-okat, amelyek önállóan tanulnak és fejlődnek. Szerinte ez nem félelmetes, hanem természetes folyamat: ahogy mi is túlnőttünk elődeinken, úgy az általunk teremtett intelligencia is túlnő majd rajtunk.

A kérdés nem az, hogy megállítható-e ez a folyamat, hanem az, hogyan irányítható-e bölcsen. Ahogy Sutton fogalmaz:

„A mesterséges intelligencia az emberiség gyermeke – rajtunk múlik, milyen értékeket örököl.”

Újraértelmezett intelligencia

Richard Sutton üzenete világos: a jelenlegi LLM-forradalom csupán az AI-fejlődés egyik állomása, nem a végcél. Az emberi szövegek utánzásával nem születik meg a valódi megértés, ahhoz a világban való cselekvésre és tanulásra van szükség. A következő nagy lépés tehát nem egy még nagyobb modell lesz, hanem egy folyamatosan tanuló, célvezérelt agent, amely saját élményeiből épít tudást.

Ahogy Sutton mondja, az igazi intelligencia nem az utánzásban, hanem a tapasztalásban rejlik. És lehet, hogy a jövő legokosabb gépei épp úgy tanulnak majd, mint mi magunk: kísérletezve, hibázva és közben egyre jobban megértve a világot.

(Forrás: The Neuron)

(Címlapkép: Depositphotos)