A kutatók és fejlesztők ma már nemcsak azzal küzdenek, hogy jó ötletük legyen, hanem azzal is, hogy egyáltalán képben maradjanak. Naponta ezresével jelennek meg új cikkek, konferenciaanyagok és előnyomatok, miközben egyetlen döntéshez is sokszor több különböző terület eredményeit kell összeolvasni. Ebben a helyzetben merül fel egyre gyakrabban a kérdés, hogy vajon a nagy nyelvi modellek tudnak e segíteni úgy, hogy közben ne találjanak ki tényeket, és ne adjanak meggyőző, de hamis hivatkozásokat.
Egy új megközelítés azt ígéri, hogy a válasz nemcsak szép lesz, hanem ellenőrizhető is.
Egy friss Nature-ben megjelent tanulmány egy olyan rendszert mutat be, amely kifejezetten a tudományos irodalom szintézisére készült, és a válaszait konkrét, visszakereshető idézetekkel támasztja alá. A szerzők egy OpenScholar nevű, visszakereséssel támogatott nyelvi modellt ismertetnek, amely a kérdéshez releváns szövegrészeket keres meg egy óriási nyílt hozzáférésű (Open Access) gyűjteményben, majd ezek alapján ír összefoglaló választ. A rendszer egyik alapköve egy nyílt adattár, amely negyvenöt millió tudományos cikkre épül, és több százmillió beágyazással támogatja a gyors keresést.
A legnagyobb ígéret az, hogy a hivatkozás többé nem dísz, hanem bizonyíték.
A tanulmány egyik legkeményebb állítása az, hogy az általános célú modellek friss szakirodalom idézésekor meglepően gyakran tévednek, és sok esetben nem létező cikkeket hivatkoznak. A szerzők mérése szerint a GPT-4o gyakran gyártott kitalált hivatkozásokat, amikor a feladat kifejezetten a legújabb kutatásokra támaszkodó válasz írása volt. Ezzel szemben az OpenScholar célja az, hogy a válasz minden érdemi állításához a ténylegesen visszakeresett szövegrészekből adjon támaszt, és a hivatkozások pontossága a szerzők szerint megközelíti a szakértői szintet.
Nem elég keresni, szerkeszteni is kell.
A rendszer logikája nem áll meg annál, hogy bedob néhány találatot a modell elé. A kutatók egy olyan folyamatot írnak le, ahol a modell először készít egy kezdeti vázlatot, majd saját magának visszajelzéseket fogalmaz meg arról, mi hiányzik, mi pontatlan, mit kellene jobban alátámasztani, és ezután újabb keresésekkel és finomításokkal javítja a szöveget. A végén egy külön lépésben ellenőrzi, hogy a hivatkozásra érdemes állítások tényleg kapjanak megfelelő forrást. Ez a körkörös, önellenőrző működés azért érdekes, mert a tudományos írásban a pontosság és a visszakereshetőség legalább annyira fontos, mint a gördülékeny szöveg.
Mérni kellett azt is, amit eddig nehéz volt mérni.
A szerzők nemcsak egy rendszert építettek, hanem egy új mércét is adtak hozzá. Létrehoztak egy ScholarQABench nevű értékelési keretrendszert, amely több tudományterületen kér számon hosszabb, több cikket összefogó válaszokat, és nem elégszik meg azzal, hogy a szöveg jól hangzik. A feladatok és a szakértői válaszok összeállítása komoly munka volt, és a kiértékelés is több szempontot néz, például a tartalmi lefedettséget, a szervezettséget, a relevanciát és a hivatkozások helyességét. A cikk szerint még egy kisebb, nyílt modellváltozat is versenyképes eredményeket tudott hozni, és bizonyos beállításokban javítani tudta egy erős alapmodell válaszainak helyességét is.
A kutatóknak ez nem kényelmi funkció, hanem idő és hibakockázat kérdése.
Egy olyan eszköz, amely széles körből keres, majd összerakja a közös nevezőket, miközben minden fontos állítást visszaköt az eredeti forrásokhoz, képes lehet csökkenteni a félreértések esélyét. A tanulmány azt is megemlíti, hogy a nyilvános demót sok tízezren használták, és rengeteg kérdés érkezett be különböző tudományterületekről, ami arra utal, hogy a probléma valós és tömeges.
A laikusoknak pedig ez lehet az első kapu a szakirodalomhoz.
A tudományos cikkek nyelve és szerkezete sokszor zárt ajtó a nem szakmabelieknek, még akkor is, ha a téma őket is érinti. Ha egy rendszer képes közérthetően és megalapozottan válaszolni, és közben megmutatja, hogy melyik állítás melyik publikációból jön, az egyszerre tanít és biztonságot ad. A hivatkozások itt nem akadémiai dísznek számítanak, hanem annak jelzésének, hogy a magyarázat ellenőrizhető, és nem egy magabiztos improvizáció eredménye.
A fintech világában pont ugyanez a kihívás, csak más a szakirodalom.
A pénzügyi technológia egyszerre támaszkodik tudományos eredményekre és gyorsan változó szabályozási, piaci, illetve biztonsági információkra. Egy termékdöntés mögött ott vannak a csalásmegelőzés és kockázatkezelés kutatásai, a viselkedéstudományos megállapítások, a kriptográfiai módszerek, a gépi tanulási modellek torzításairól szóló tanulmányok, és ott vannak a jogszabályok és felügyeleti ajánlások is. Itt is könnyű elveszni, és itt is drága a tévedés. A visszakereséssel támogatott nyelvi modellek előnye fintech környezetben az, hogy képesek lehetnek egy kérdést úgy megválaszolni, hogy közben a válasz visszakövethető marad.
Mire lenne ez egyáltalán jó?
Ha egy kockázatelemző azt kérdezi, milyen kutatások szólnak amellett, hogy egy adott ügyfél azonosítási lépés csökkenti a visszaéléseket, akkor egy ilyen rendszer nemcsak összefoglalhat, hanem hivatkozhat is. Amikor egy termékcsapat azt vizsgálja, hogyan érdemes értesítéseket megfogalmazni, hogy csökkenjen a pánik és nőjön a megértés, akkor a válasz mögé oda lehet tenni a releváns viselkedéstudományos és felhasználói kutatásokat. Ha egy compliance csapatnak gyorsan kell áttekintenie, mit mond több forrás egy új követelmény értelmezéséről, akkor az ellenőrizhető, forrásokra hivatkozó szintézis csökkentheti az ad hoc keresgélés és a félreolvasás kockázatát. A tanulmányban bemutatott megoldás éppen ezt az ellenőrizhetőséget próbálja beépíteni a folyamatba azzal, hogy a generálás mellé kötelezően odateszi a bizonyítékot is.
A bizalom kulcsa az, hogy a rendszer bevallja, amit nem tud, és megmutassa, amit tud.
A pénzügyekben a szép szöveg önmagában nem érték, sőt veszély lehet. A tanulmány egyik üzenete az, hogy a pusztán paraméterekben tárolt tudásra építő modellek tudományos témákban könnyen hallucinálnak, és a hivatkozásoknál különösen gyakori a meggyőzőnek tűnő tévedés. Fintech területen ez ugyanúgy igaz, csak itt a tévedés nem egy rossz irodalomjegyzék, hanem rossz döntés, rosszul kezelt kockázat vagy félreérthető tájékoztatás lehet. Ezért fontos az a szemlélet, hogy a modell ne a memóriájából improvizáljon, hanem a legjobb elérhető forrásokból dolgozzon, és a válaszát folyamatosan ellenőrizze.
A nyílt megközelítés azért is számít, mert pénzügyekben az átláthatóság nem extra, hanem alapelv.
A cikk szerzői hangsúlyozzák, hogy a rendszer és az értékelés hibái nyíltan elérhetők, beleértve a modelleket, az adattárat és a mérési keretrendszert is. Ez a gondolat fintech területen különösen ismerős, mert a termékeknek és döntéseknek auditálhatónak kell lenniük. Egy nyílt, reprodukálható, forrásokra építő szintézisrendszer könnyebben illeszthető olyan folyamatokba, ahol később meg kell magyarázni, hogy mi miért hangzott el, mi mi alapján lett leírva, és miért megbízható.
A technológia nem váltja ki a szakértőt, de új szintre emelheti a munkáját.
A tanulmány maga is jelzi, hogy a rendszereknek vannak korlátai, például nem mindig találják meg a legreprezentatívabb cikkeket, és a hozzáférés kérdései is számítanak, amikor nem minden anyag nyílt. Mégis, a lényeg az, hogy egy jól megépített, visszakereséssel és ellenőrzéssel támogatott nyelvi modell nem egyszerűen gyorsabb kereső, hanem olyan rendszer, ahol a forrás, a gondolat és a hivatkozás egy helyre kerül. Ez a kutatóknak időt adhat, a laikusoknak megértést adhat, a fintech piac szereplőinek pedig egy olyan eszközt adhat, amely a gyors döntések világában is ragaszkodik a bizonyítékhoz.
Címlapkép: Depositphotos
