Az AI, ami okos — de vajon megfontolt?

Egy pár napos kutatás szerint a nagy nyelvi modellek (LLM-ek) nemcsak beszélnek, hanem „okoskodnak” is — de még gyakran máshogy, mint mi, emberek. Ez a friss összehasonlító vizsgálat több vezető modellt (GPT, Claude, DeepSeek, Gemini, Grok, Llama, Mistral, Perplexity, Sabiá) állított szembe emberekkel nyolc, kifejezetten logikai és absztrakt következtetési feladatra tervezett kérdésben. A különbségek látványosak, és jól kirajzolják, hol törik meg a gépi „józan ész”.

Mi derült ki

A kép vegyes. Vannak feladatok, ahol a modellek megközelítik az emberi szintet, de a dedukciós láncoknál gyakran elcsúsznak. Amikor több, gyengén jelölt információt kell következetesen összefűzni, a válasz könnyen lesz tetszetős, mégis hibás. A vizsgálat márkától független mintázatra utal: a különbségek több ökoszisztémán átívelnek, és nem egyetlen modelltípus gyengeségeiről szólnak.

Mit jelent ez a pénzügyben

A bankoknál és fintech cégeknél a következtetés minősége közvetlenül kapcsolódik a kockázathoz és a megfeleléshez. Hitelbírálatnál a „szép indoklás” mit sem ér, ha kimarad egy kulcsfeltétel. Csalásfelderítésnél a jelek ritkán ordítanak; a kismértékű, de összefüggő anomáliák lánca adja a mintát, amelyet egy laza következtetési lépés elmaszatolhat. Ügyféltámogatásnál egy logikai hiba rossz díjinformációhoz vagy téves jogosultsági válaszhoz vezethet, ami ügyfél- és reputációs kockázat. Mesterséges intelligencia alapú tanácsadásnál és termékajánlásnál a jogszabályi megfelelés nemcsak adatkezelés, hanem következetes szabályalkalmazás kérdése is, utólag visszafejthető indoklással.

Hogyan építsünk rá biztonságosan

A megoldás nem az, hogy lemondunk a nyelvi modellekről, hanem az, hogy köréjük építünk egy olyan keretrendszert, amely a kritikus következtetéseket kényszerpályára teszi. Érdemes a szabad nyelvi megértést definíciókkal vagy tudásgráffal kiegészíteni, amely explicit feltételeket és kivételeket érvényesít. Fontos a következtetési nyomvonal rögzítése is: mely premisszákból, milyen lépésekben jutott el a rendszer a válaszig, és ez hogyan támasztható alá forrásokkal. Hasznos az automatikus ellentmondás-teszt, amely minden kimenetet összevet a bemeneti feltételekkel és ellenpéldákat keres. A valós kockázathoz illeszkedő, fintech-specifikus értékelésre van szükség: díjplafonok, kivételkezelés, termékfeltételek, ügyfélpanasz-szcenáriók. Ahol a hiba ára túl nagy, maradjon ember a hurokban, és a modell eredménye legyen javaslat, ne végső döntés.

Mire figyeljünk

A benchmarkok könnyen félrevezetnek, ha nem mérik a többpremisszás, szakmaspecifikus problémákat. A modellek verziói gyorsan változnak, így a ma elfogadható teljesítmény holnap módosulhat. A beszállítói felelősségben a konkrét ügyfélszcenáriók számítanak igazán: hogyan kezeli a rendszer a homályos kérdéseket, a kivételeket, a szabályok ütközését, és mennyire átlátható a döntési út.

Forrás: Human-Level Reasoning: A Comparative Study of Large Language Models on Logical and Abstract Reasoning. Szerző: Benjamin Grando Moreira.

Címlapkép: Depositphotos