Mesterséges intelligencia, emberi memória

Egy új kutatást publikált a Deepseek ami abból a megfigyelésből indul ki, hogy a nyelv feldolgozása emberekben valójában többféle feladat keveréke. Van benne sok olyan rész, ami inkább felidézés, például nevek, visszatérő fordulatok, tipikus szókapcsolatok. Emellett ott van a valódi gondolkodás, amikor a szöveg logikáját kell összerakni, következtetni, több állítást összehangolni. A szerzők ezt az elvet ültették át a modell felépítésébe, és így jutottak el egy új fajta memória modul ötletéhez.

Mi volt a gond a régi felépítéssel

A mai nagy nyelvi modellekben a Transformer réteg mindenre ugyanazt a rendszert használja. Ha egy gyakori több szavas név kerül elő, a modell nem egyszerűen előveszi egy memóriából, hanem rétegről rétegre felépíti, mintha újra kiszámolná azt, ami valójában régóta ismert és sokszor ismétlődő minta. Ez azért probléma, mert a korai rétegek ideje és figyelme elmegy a könnyű, de gyakori feladatokra, és kevesebb marad abból a mélységből, ami a bonyolultabb gondolkodáshoz kellene. A kutatás nyelvén ez azt jelenti, hogy a modell drága számítással próbálja meg utánozni azt, ami egy célzott felidézéssel olcsón megoldható lenne.

Mit csinál a külön memória modul

A javasolt megoldás lényege, hogy a modell kap egy olyan dedikált részt, ami kifejezetten a gyors felidézésre való. A modul a szöveg helyi mintáiból indul ki, például az egymást követő néhány tokenből, és ezek alapján egy nagy táblából azonnal kikeres egy hozzá tartozó vektort. Ezt úgy kell elképzelni, mint egy nagyon gyors címtárazást, ahol a bemenet mint egy kulcs, a kimenet pedig egy előre eltárolt emléktöredék. A modul ezután nem vakon ráönti ezt a kimenetet a modell állapotára, hanem a pillanatnyi kontextus alapján eldönti, mennyire érdemes felhasználni. Ha a felidézett minta nem illik a mondat jelentéséhez, akkor a hatása visszafogható. Ezzel a memória rész egyszerre marad gyors és mégis alkalmazkodó.

Miért lett ettől jobban gondolkodó a modell

A legfontosabb következmény nem csak az, hogy több tényt tud előhúzni. Az igazi nyereség az, hogy a modellnek nem ugyanazt a belső erőforrását kell megosztania emlékezés és gondolkodás között. A statikus, sokszor ismételt nyelvi minták kezelését átadja a memória modulnak, így a folyamat gerince felszabadul a korai, rutinszerű összerakási lépések alól. A modell elemzései azt mutatják, hogy emiatt a modell mintha egy “mélyebb” modell lenne, több gondolkozási kapacitással, mert hamarabb jut el olyan belső állapotokhoz, amelyek korábban csak későbbi rétegekben jelentek meg. Magyarán gyorsabban túljut az egyszerű felismerésen, és több réteget tud valódi következtetésre használni. Ezt erősíti meg az is, hogy a javulás nemcsak tudáskérdésekben látszik, hanem általános érvelési feladatokban is.

A különválasztás gyakorlati üzenete

A megközelítés üzenete egyszerűen megfogalmazható. Ha egy rendszernek egyszerre kell emlékeznie és gondolkodnia, akkor érdemes ezt a két funkciót szerkezetileg is elválasztani. A memória modul a gyors, helyi, sablonos mintákért felel, míg a számítási rész a rugalmas, kontextusfüggő gondolkodásért. Ez a szétválasztás közelebb áll ahhoz, ahogyan az emberi agyban is különböző folyamatok szolgálják a felidézést és a magasabb szintű következtetést. A kutatás azt mutatja, hogy ettől nem csak “több tudás” fér el, hanem javul a gondolkodás minősége is, mert a modell nem saját magát terheli feleslegesen ugyanazzal a feladattal két külön cél érdekében.

Forrás: Cheng, Xin, et al. “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models.” 

Címlapkép: Depositphotos