A mesterséges intelligencia 5 arca – melyik hozza a legtöbb profitot?

A mesterséges intelligencia (Artificial Intelligence – AI) ma már a mindennapi üzleti döntéseink egyik legfontosabb eszköze. Ahhoz azonban, hogy egy vezető vagy termékmenedzser valóban megértse, mire képes a mesterséges intelligencia, érdemes átlátni a különböző tanulási módszerek logikáját. A felügyelt, felügyelet nélküli, önfelügyelt, megerősítéses, és a humán visszajelzéseken alapuló (Reinforcement Learning from Human Feedback – RLHF) tanulás mind másképp működik, más problémára való, és sok esetben egymásra is épülhetnek.

Vegyünk példaként egy banki környezetet, ahol csalásdetektálásra, ügyfélszegmentálásra vagy éppen intelligens chatbot fejlesztésére szeretnénk AI-t alkalmazni. Hogyan dönthetjük el, melyik megközelítés a megfelelő?

Felügyelt tanulás – amikor tudjuk, mit akarunk

A felügyelt tanulás legegyszerűbben úgy írható le, mintha egy tanár előre megadná a helyes válaszokat, és a diák addig gyakorolna, amíg hibátlanul vissza nem mondja. Az algoritmus címkézett adatokon tanul, vagyis a rendszer előre ismert bemenet-kimenet párokat kap, és ezek alapján tanulja meg a helyes összefüggéseket. Pénzügyi környezetben ez például akkor hasznos, ha a bank hitelkockázatot szeretne előre jelezni. A múltbeli ügyfelek adatai – jövedelem, hitelmúlt, visszafizetés vagy csőd – alapján a modell képes megtanulni, hogy egy új ügyfél esetében mi a valószínű kimenet.

A felügyelt tanulás nagy előnye, hogy pontos és megbízható modellek hozhatók létre, ha elég jó minőségű címkézett adat áll rendelkezésre. Hátránya viszont, hogy ezeknek az adatoknak az előállítása időigényes és költséges, hiszen szakértői munkát igényel. Az üzleti gyakorlatban gyakran előfordul, hogy már van egy nagy általános tudású modell, amelyet csak testre kell szabni egy adott feladatra. Ilyenkor jön szóba a felügyelt finomhangolás, amelynél az előre betanított modellt további példákkal igazítjuk egy konkrét alkalmazási területhez, például banki ügyfélszolgálati párbeszédekhez.

Felügyelet nélküli tanulás – amikor nincs előre válasz

Előfordul, hogy nincs előre címkézett adatunk, mégis szeretnénk kiaknázni a meglévő információkat. A felügyelet nélküli tanulás pontosan ezt teszi lehetővé: a modell önállóan keres mintázatokat és struktúrákat a nyers adatokban. Például egy bank esetében a hatalmas ügyféladatbázisban a rendszer automatikusan csoportokat képezhet a hasonlóságok alapján. Így kirajzolódhat például egy fiatal, digitális ügyfelekből álló csoport, egy prémium szolgáltatásokat használó vagyonos ügyfélcsoport, esetleg egy konzervatív, offline bankolók csoportja.

Ez a megközelítés anomáliák felfedezésére is hasznos, hiszen a modell képes kiemelni a szokatlan tranzakciókat, amelyek akár csalásra is utalhatnak. A felügyelet nélküli tanulás tehát segít felfedezni azokat az összefüggéseket, amelyeket emberi szemmel nehezen vennénk észre. Ugyanakkor az eredmények értelmezést igényelnek, mert nincs egyértelmű „helyes válasz”, amelyhez mérhetnénk őket.

Önfelügyelt tanulás – amikor a gép saját magát tanítja

Az önfelügyelt tanulás a felügyelt és a felügyelet nélküli módszerek között helyezkedik el. A lényege, hogy a rendszer saját adataiból hoz létre tanítófeladatokat. Egy szöveges példánál a modell megtanulhatja kitalálni a hiányzó szót egy mondatból úgy, hogy előtte kitakarjuk azt. Ilyenkor formálisan van helyes válasz, de azt nem ember adja meg, hanem maga az adat rejti magában.

A modern nagy nyelvi modellek – például a GPT – pontosan így tanultak meg nyelvet érteni és generálni. Hatalmas szövegkorpuszokon gyakorolták, hogyan kell a következő szót megjósolni, és ezzel olyan széleskörű tudásra tettek szert, amelyet később felügyelt finomhangolással lehetett specializálni konkrét feladatokra. Az önfelügyelt tanulás tehát egy rendkívül hatékony módszer a tudás megalapozására, amely később további üzleti értéket termelhet.

Megerősítéses tanulás – próbálkozással a sikerig

A megerősítéses tanulás egészen más szemléletet követ, mint a korábbiak. Itt a rendszer nem előre meghatározott példákból tanul, hanem saját tapasztalatai alapján. Az ügynök akciókat hajt végre egy környezetben, majd jutalmat vagy büntetést kap a cselekedetei következményei után.

Egy befektetési alap például alkalmazhat ilyen algoritmust portfóliókezelésre vagy tőzsdei kereskedésre. A modell különféle vásárlási és eladási döntéseket hoz, majd a hozam alapján kap visszajelzést. Idővel rájön, mely stratégiák növelik a nyereséget, és melyek vezetnek veszteséghez. Ez a módszer sokkal inkább hasonlít arra, ahogyan az emberek is tanulnak. Ugyanakkor csak akkor használható biztonságosan, ha van szimulációs környezet vagy kontrollált tesztelés, hiszen egy bank nem kísérletezhet élesben az ügyfeleken.

RLHF – amikor az emberi ítélet a mérce

Vannak helyzetek, amikor a siker definíciója nem mérhető pusztán számokkal. A Reinforcement Learning from Human Feedback (RLHF) éppen ezt a problémát oldja meg: a megerősítéses tanulást emberi visszajelzésekkel egészíti ki.

Egy banki chatbot példáján keresztül ez úgy néz ki, hogy a modell már önfelügyelt és felügyelt tanuláson is átesett, tehát képes válaszolni az ügyfél kérdéseire. Azonban azt is szeretnénk, hogy a válaszai udvariasak, segítőkészek és a bank szabályzatának megfelelőek legyenek. Tesztfelhasználók ilyenkor értékelik a chatbot válaszait, a rendszer pedig megtanulja, mely reakciók felelnek meg legjobban az emberi elvárásoknak. Ezáltal a chatbot nemcsak pontos, hanem ügyfélbarát is lesz.

Az RLHF egyik legnagyobb erőssége, hogy képes figyelembe venni azokat a finom, szubjektív szempontokat, amelyeket egy hagyományos modell nem tudna. Ugyanakkor költséges is, mivel nagy mennyiségű emberi visszajelzést igényel, és az értékelések következetessége sem mindig garantált.

Hogyan válasszunk módszert üzleti helyzetben?

Az, hogy melyik módszer a megfelelő, alapvetően attól függ, milyen adatok állnak rendelkezésünkre, milyen problémát szeretnénk megoldani, és mennyire fontos az emberi tényező. Ha van sok címkézett adat, akkor a felügyelt tanulás a legjobb választás, mert pontos előrejelzést ad. Ha nincsenek címkék, de rengeteg adat van, érdemes felügyelet nélküli tanulással keresni bennük mintázatokat. Ha kevés a címkézett adat, de sok a nyers információ, akkor önfelügyelt tanulás vagy előtanított modellek használata lehet célravezető. Ha dinamikus döntéshozatalról van szó, például kereskedési stratégiák optimalizálásáról, a megerősítéses tanulás bizonyulhat a leghasznosabbnak. Amennyiben a siker szubjektív és az emberi elvárásokhoz való igazodás a lényeg, akkor az RLHF bevezetése adhat hozzáadott értéket.

A gyakorlatban azonban gyakran nem elegendő egyetlen módszer. A legfejlettebb mesterséges intelligencia rendszerek, például a ChatGPT, több lépésből álló tanulási folyamaton mennek keresztül. Először önfelügyelt tanulással általános nyelvi és világismeretet szereznek, majd felügyelt finomhangolással konkrét feladatra szabják őket, végül RLHF segítségével emberi visszajelzésekkel csiszolják a válaszaikat. Egy kisebb, jól körülhatárolt üzleti problémánál viszont sokszor elég egyetlen módszer, például egy egyszerű felügyelt regressziós modell az eladások előrejelzésére.

Záró gondolat

A mesterséges intelligencia tanulási formái nem univerzális csodafegyverek, hanem különböző eszközök egy szerszámosládában. Másikra van szükség, ha pontos előrejelzést szeretnénk, és másikra, ha új mintákat akarunk felfedezni vagy emberi preferenciákhoz akarjuk igazítani a modellt. A felügyelt tanulás precíz és konkrét, a felügyelet nélküli felfedező, az önfelügyelt a tudásalap megteremtője, a megerősítéses a tapasztalati tanulás eszköze, míg az RLHF a finomhangolás művészete.

Az üzleti siker kulcsa az, hogy felismerjük mikor melyik módszer illik leginkább a feladatunkhoz, és ha szükséges, kombináljuk őket, hogy a lehető legtöbbet hozzuk ki az AI-ból.

(Forrás: Medium)

(Címlapkép: Depositphotos)