Az elmúlt években sokszor úgy beszéltünk a mesterséges intelligenciáról, mintha a fejlődés legfőbb mércéje az lenne, mennyire szépen és mennyire hosszan tud válaszolni egy rendszer. A képet is értő modelleknél ugyanez a logika terjedt el. Megmutatunk egy fotót vagy egy videórészletet, felteszünk egy kérdést, majd a rendszer szöveget ír, szóról szóra, mintha egy beszélgetésben ülne velünk szemben. Ez látványos, csak közben drága és lassú is, és nem azért, mert a gép ne lenne gyors, hanem mert ez a fajta szövegírás sok apró lépésből áll. Minden lépésnél újra és újra dönteni kell, mi legyen a következő szó, és ez különösen fájdalmas akkor, amikor a világból érkező jel valójában folyamatos, mint egy élő videó.
Gondolatok nyelv nélkül
A csatolt publikáció egy egyszerű, de erős gondolatból indul ki. Sok helyzetben nem az a fontos, hogy a rendszer pontosan milyen mondatot ír le, hanem az, hogy ugyanarra a jelentésre jut e, mint mi. Ha egy videón valaki felvesz egy esernyőt, a helyes válasz lehet az is, hogy esni fog, és az is, hogy készül az esőre, és az is, hogy esernyőt vesz a kezébe. A mondatok különböznek, de a lényeg közös. A szerzők ezért azt javasolják, hogy a rendszer ne a szavakat próbálja egyből legyártani, hanem először csak egy rövid, sűrített jelentéslenyomatot állítson elő, amiből később, ha tényleg kell, lehet mondatot formálni. Úgy képzelhetjük el, mintha a rendszer előbb csendben összerakná magában, miről szól a helyzet, és csak utána döntene arról, hogy ezt érdemes e kimondani, és ha igen, hogyan.
Előbb gondol aztán beszél
A tanulmányban bemutatott megközelítés lényege tehát az, hogy a kép és a kérdés alapján a modell egy számokból álló rövid leírást készít, amely a válasz értelmét hordozza. Ehhez a rendszer a képet és a videót először összefoglalja egy tömör belső állapottá, majd ebből és a kérdésből megpróbálja kitalálni, milyen jelentésű válasz lenne helyes. A helyes válasz szövegét ugyanakkor nem kell minden alkalommal végigírnia. A szöveg csak egy későbbi, opcionális lépés. Ez a felosztás azért fontos, mert a drága rész jellemzően az, amikor a gép hosszú mondatokat állít elő. Ha a feladat lényege a megértés, akkor a rendszer sokszor már azelőtt jól működhet, hogy egyetlen mondatot is „kimondana”.
Összehasonlítás
A szerzők nem csak elméletben érvelnek emellett. Olyan összehasonlítást végeznek, ahol mindent igyekeznek azonosan tartani, ugyanazt a képfeldolgozó részt, ugyanazt az adatbeállítást, ugyanazt a tanítási hosszt. A különbség lényegében annyi, hogy az egyik esetben a modell a szöveget próbálja lépésről lépésre megtanulni, a másik esetben pedig a jelentés sűrített lenyomatát. Ebben a tiszta felállásban azt találják, hogy a jelentésre építő megközelítés gyorsabban tanul és kevesebb erőforrással jut jobb eredményre. A cikk külön kiemeli, hogy a jobb teljesítmény nem feltétlenül nagyobb modellből jön, hanem abból, hogy a rendszernek nem kell annyit küzdenie a nyelv felszíni változatosságával, és inkább arra fókuszálhat, ami a feladat szempontjából közös.
Videókban a lényeg
A megközelítés egyik legérdekesebb következménye a videós használatban látszik. Egy élő közvetítésben vagy egy hosszú felvételben a legtöbb pillanat nem hordoz új információt. A háttér nem változik, a szereplők ugyanazt csinálják, a jelenet értelme stabil marad. Ha a rendszer mégis minden pillanatban szöveget gyárt, akkor rengeteg felesleges munkát végez. A tanulmányban szereplő rendszer ezzel szemben képes arra, hogy folyamatosan frissítse a belső jelentését, és csak akkor kezdjen el ténylegesen mondatokat alkotni, amikor a jelentés érdemben megváltozik. Ez a gyakorlatban azt jelenti, hogy kevesebbszer kell „megszólalnia”, miközben a lényegi információ mégis megmarad. A szerzők egy olyan teszten is bemutatják ezt, ahol a cél nem egyszerűen egy szép leírás, hanem az, hogy a hosszú videó során időben jelezze a fontos változásokat, és közben a lehető legkevesebb szövegalkotással éljen. Az eredmények alapján ez a válogatós megszólalás jelentős számítási spórolást ad úgy, hogy a minőség nem esik látványosan.
A megoldás sokszínűsége
A tanulmány emellett arra is rámutat, hogy ez a jelentésközpontú gondolkodás sokféle feladatra jól illeszkedik. Vannak helyzetek, amikor nem is kell szöveget írni, csak azt kell eldönteni, melyik címke illik a látottakra, vagy hogy egy szöveges leírás melyik videóhoz passzol legjobban. Ilyenkor különösen előnyös, ha a rendszer eleve egy közös jelentéstérben dolgozik, mert a hasonlóságokat egyszerűbben lehet mérni. Máskor pedig szükség van válaszokra, kérdések megértésére, rövid magyarázatokra. A cikkben bemutatott megoldás ezt úgy kezeli, hogy a megértés közös alap, a szöveg pedig egy választható kimenet. Amikor kell, tud beszélni, amikor nem kell, akkor nem pazarol erre energiát.
A megértés és a beszéd szétválasztása
A szerzők a végén óvatosak, ami kifejezetten jó jel. Nem állítják, hogy ezzel mindent megoldottak, és nem azt mondják, hogy a szöveget generáló modelleknek vége. Inkább azt hangsúlyozzák, hogy a képet és videót értő rendszereknél érdemes szétválasztani a megértést és a beszédet, mert a kettő nem ugyanaz a probléma. A megértés sokszor gyors és tömör belső állapotokkal is elvégezhető, a beszéd pedig lehet célzott és ritkább. Ha a következő években egyre több olyan alkalmazás jelenik meg, ahol a mesterséges intelligenciának nem egy álló képre kell válaszolnia, hanem folyamatosan kell követnie a világot, akkor ez a különválasztás nem csak kényelmes ötlet lesz, hanem gyakorlati kényszer.
Emberibb modellek
A cikk legfontosabb üzenete így végül meglepően emberi. Nem attól értünk meg valamit, hogy rögtön el is mondjuk. Először rendet teszünk magunkban, és csak utána fogalmazunk. A publikáció azt állítja, hogy a gépeknél is lehet értelme ennek a sorrendnek, és ha így építjük fel a multimodális rendszereket, akkor gyorsabb, takarékosabb és a valós idejű helyzetekhez jobban illeszkedő mesterséges intelligenciát kaphatunk.
Címlapkép: Depositphotos
Forrás: Chen, Delong, et al. “VL-JEPA: Joint Embedding Predictive Architecture for Vision-language.”