Érkezik az o3 – ez már az AGI lenne?

Az OpenAI nemrég bejelentette legújabb mesterséges intelligencia modelljét, az o3-mat. Ugyan egyelőre még nem érhető el mindenki számára, a bejelentés alapján komoly lépést jelenthet a generatív mesterséges intelligencia területén. Sokan arról beszélnek, hogy a modell átlépte az AGI (Artificial General Intelligence – mesterséges általános intelligencia) határát. Valóban így van? Egyáltalán mi az az AGI?

Újabb AI modell érkezik

Az OpenAI 2024-et egy sor bejelentéssel zárta ezek közül utoljára érkezett az o3 modell, a már publikusan is elérhető o1 modell következő szintje. Az o3 egyelőre csak a kiválasztott tesztelők számára elérhető el, a bejelentéskor január végére ígérték az o3-mini nyilvános publikálását.

Nem véletlen, hogy egyelőre csak a mini verzió érkezik meg. Az o3-nak ugyanis akár több, mint 1 000 dollár értékű számítási kapacitásra van szüksége egyetlen lekérdezéshez, ahhoz, hogy a jelenleg publikált eredményeket érje el. Az o3-mini nagyságrendekkel olcsóbb és gyorsabb azonban ennek megfelelően gyengébb képességekkel is rendelkezik.

Mit tud az o3, amit más modell nem?

Az o3 ugyanazokon a területeken erős, ahol már az o1 is kiemelkedő volt, de az új modell még elődjét is felülmúlja. A programozási és matematikai feladatokon rendkívüli módon teljesít az o3. Kódírásban jobban teljesít tapasztalt programozóknál, matematikai diákolimpiai feladatokon pedig átlagosan alig 1-2 feladatot nem képes helyesen megválaszolni.

Mi az az AGI?

Az elmúlt időszakban a téma iránt érdeklődők rendszeresen olvashattak az AGI-ról, azaz az általános mesterséges intelligenciáról. Az AGI egy jelenleg nem létező és nem is teljesen definiált technológia, amely a következő nagy lépést jelentheti a mesterséges intelligencia területén.

Azt, hogy mi is azaz AGI mindenki kicsit másképpen definiálja. Például a Google szerint egy AGI rendszer:

  • Leképezi az emberi agy kognitív képességeit.
  • Általános, több területen felhasználható készségekkel rendelkezik.
  • Jelentős mértékű általános tudással rendelkezik a világról.

Az OpenAI missziójában arról ír, hogy az AGI „egy olyan rendszer mely túlteljesíti az embereket a legtöbb gazdaságilag is megtérülő tevékenységben”. Ez a definíció is, ahogy a legtöbb, kissé homályos. Persze ez nem véletlen hiszen egy nem létező fejlesztésről van szó, ami ráadásul napjaink legnagyobb technológiai ugrását jelentheti. Sam Altman, az OpenAI vezérigazgatója, rendszeresen jelöli meg hosszútávú víziójaként az AGI kifejlesztését, mint technológiai választ az emberiség problémáira.

Azonban nem hagyhatjuk figyelmen kívül az AGI üzleti és marketing értékét sem. Az AGI-t üldöző vállalatok láthatóan igyekeznek minél nagyobb „hype-pal” körülvenni az AGI témakört. Az OpenAI pedig meg is határozott egy konkrét célt, ami a technológia elérést jelentené. A definíció viszont nem tudományos vagy technológiai szempontból közelíti meg a kérdést, hanem pénzügyi szempontok alapján. Az OpenAI ugyanis megegyezett partnerével, a Microsofttal, hogy egy olyan rendszer tekinthető AGI-nak mely önmagában képes legalább 100 milliárd dollárnyi profitot termelni (ez a világ legnagyobb vállalatainak profitjával vetekszik). Ez két fontos dolgot jelent. Egyrészt ez lesz az a pont, ahol a Microsoft az OpenAI-al kötött szerződésüknek megfelelően elveszíti a hozzáférést az AI cég technológiájához. Másrészről kiemelendő, hogy profitról van szó, azaz az egyre növekvő költségekkel is számolnia kell az OpenAI-nak. Egyes előrejelzések szerint azonban az OpenAI 2029-ig nem fog profitot termelni, bár a mesterséges intelligencia fejlődésének ütemét látva ez könnyen megváltozhat.

Nem mindenki ilyen megengedő az AGI definíciójával kapcsolatban. Az egyik legelismertebb mesterséges intelligencia kutató, Fei-Fei Li állítása szerint „nem is érti miről beszélnek” az AGI-al kapcsolatban. Szerinte például még nem érdemes ebbe a kérdésbe túlságosan belemenni.

Akkor most AGI az o3 vagy sem?

A leginkább objektívnak elfogadott AGI tesztet az Arc Prize non-profit cég készítette és fejleszti folyamatosan. Az Arc Prize Arc AGI tesztjének lényege, hogy nem előre meghatározott feladatokon és adatokon teszteli a nagy nyelvi modellek (LLM) képességeit, hanem azt vizsgálja, milyen hatékonysággal oldanak meg olyan problémákat, amiket korábban még nem láttak, tehát milyen könnyen tudnak új képességekre szert tenni akár csak egy ember. Az Arc AGI teszt meglepően egyszerű és egy átlag ember másodpercek alatt képes megoldani a legtöbb tesztkérdést (erről az Arc Prize főoldalán magunk is meggyőződhetünk). Látva az LLM-ek képességeit nem feltétlenül intuitív, hogy az ilyen feladatok kifejezetten nehezek számukra.

Az Arc AGI egyik tesztkérdése.

Amiért nagy jelentőséggel bír az o3 az pedig az Arc AGI teszten nyújtott teljesítménye miatt lehet igazán. Messze túlszárnyalva minden más modellt, az o3 87,5 százalékos eredményt ért el a teszten. Összehasonlításképpen az o1 csupán 32 százalékot, ami eddig kifejezetten jó eredménynek számított. A 87,5 százalék azért is különleges, mert az átlagos emberi teljesítményt ezen a teszten 85 százalékra teszik azaz az o3 túlteljesített egy átlag embert.

Az Arc Prize elismeri az eredményt, de kimondják, hogy ez ennek ellenére nem AGI. Az o3 továbbra sem képes teljesíteni nagyon egyszerűnek tűnő feladatokat, illetve a hamarosan elinduló Arc-AGI-2 teszten (ami egy tovább fejlesztett benchmark) előzetes futtatások során az o3 csupán 30 százalék körül teljesített.

Mire lenne szükség az AGI-hoz?

Az LLM-ek működése leegyszerűsítve három fázisból épül fel. Memorizálják az adatokat, előhívják az adatokat majd alkalmazzák az adatokat a felhasználó által adott promptra (utasításra). Ez nagyon hatékony abban az esetben, ha már meglévő információkkal kell dolgoznia egy modellnek, de elbukik abban az esetben, ha ismeretlen adatokra lenne szüksége egy probléma megoldásához.

Az Arc Prize szerint két dologra van szükség, ahhoz, hogy egy mesterséges intelligencia modell új problémákat legyen képes megoldani. Hatalmas mennyiségű strukturált adatra és annak kezelésére (ez már eddig is ment az LLM-eknek), illetve arra a képességre, hogy ezeket az adatok megfelelő módon, proaktívan rendszerezze a legjobb válasz érdekében. Utóbbira törekszenek az ‘o’ sorozatú modellek és ebben ugrott most nagyot az o3, ami megmagyarázhatja a kiugró eredményt. Az o3 (és már az o1 is ezen az elven működött) saját magának ad instrukciókat és értékeli saját válaszait folyamatosan javítva azokat. Jelenleg ez a leghatékonyabb módja az Arc AGI teszt megoldásának, azonban korántsem biztos, hogy ez így fog maradni.

Már most látszik, hogy egy eddig is jól ismert adottsága a nagy nyelvi modelleknek limitálhatja ezt a megközelítést. A nagy nyelvi modellek nem determinisztikusak, azaz nem mindig ugyanazt a választ fogják adni ugyanarra az inputra. Tehát nem olyanok, mint egy számítógépes program, amit, ha végtelen sokszor lefuttatunk mindig ugyanazt az outputot adja. Miért fontos ez, nem mindegy, hogyha kicsit változik a válasza, ha egyébként megfelelő? Abból a szempontból nem, hogy a most létező nagynyelvi modellek végső soron csak magukat képesek ellenőrizni, de nem tudnak „kilépni a valóságba” (például lefutatni egy általuk írt programot) és ellenőrizni, hogy minden kétséget kizáróan helyes választ adtak. Emberi beavatkozásra van szükség, ahhoz, hogy validáljuk az eredményeket és ahhoz is, hogy ebből képes legyen tanulni a modell.

Összefoglalóan úgy tűnik nagy lépést ért el az OpenAI az o3-mal, de érdemes óvatosan használni az AGI fogalmát és a limitációkat is figyelembe venni a technológiai sikerek mellett.

(Forrás: Arc Prize, OpenAI, TechCrunch)
(Címlapkép: Depositphotos)

AGIChatGPTo1o3openaiSam Altman