A Google új megközelítést jelentett be a hangalapú kereséshez: a Speech-to-Retrieval (S2R) a kimondott kérdésből közvetlenül a keresési szándékot olvassa ki. Az eredmény: gyorsabb, megbízhatóbb találatok – kevesebb félrehallásból fakadó mellélövés. A vállalat ezzel párhuzamosan megnyitotta a Simple Voice Questions (SVQ) adathalmazt is, amely 17 nyelven, 26 lokációból gyűjt rövid hang alapú kérdéseket. A S2R-alapú Voice Search több nyelven már élesben fut.
Az ötlet
Képzeljünk el egy keresőt, amely nem a betűket számolja, hanem a jelentést „fogja meg”. A hagyományos kaszkádmodell (ASR → szöveg → keresés) minden apró félreértést magával sodor: ha a „scream” „screen”-né válik, a találatok sora is félremegy. Az S2R ezt a törékeny köztes lépést hagyja ki: az audiojelet és a dokumentumokat közös reprezentációs térbe képzi, és a hangból közvetlenül a releváns találatokhoz ugrik. A kérdés így nem az, hogy „pontosan milyen szavak hangzottak el?”, hanem az, hogy „milyen információt keres az ember?”.
Kevesebb tévedés, gyorsabb találat
A Google mérései szerint az automatikus beszédfelismerés szószintű hibaaránya (WER) nem jó előrejelzője annak, mennyire lesznek hasznosak a találatok (MRR): a kapcsolat nyelvfüggő és összetett. Logikus tehát a szövegképzés helyett magát a visszakeresést optimalizálni – így vág az S2R a probléma közepébe, és a gyakorlatban is számottevő ugrást hoz a pontosságban.
Mit jelent ez az SEO-nak?
A hangalapú keresés S2R-rel kevésbé a kulcsszavak, sokkal inkább a felhasználói szándék köré szerveződik. Ez a gyakorlatban azt jelenti, hogy a „jó SEO” még inkább tematikus, kérdés-válasz szerkezetű és entitás-központú: világos, strukturált tartalom (schema markup), egyértelmű definíciók, kontextusba ágyazott válaszok és megbízhatóságot jelző jelek (E-E-A-T). A long-tail, beszélgetéses jellegű keresések felértékelődnek, míg a puszta kulcsszó-variálás veszít a jelentőségéből – mert a rendszer már nem a „mit mondtál pontosan?”, hanem a „mit szeretnél megtudni?” kérdésre optimalizál.
Miért fontos ez a pénzügyben
A bankoknál és fintech cégeknél a jövő ügyfélélménye hangalapú AI-asszisztensekre épül, amelyek a belső tudásbázisokban és adatbázisokban (díj- és kondíciós listák, termékleírások, folyamat-GYIK, tranzakciós metainfók) keresnek természetes nyelvű kérdésekre. Ha a rendszer nem szavakat, hanem szándékot ért, csökken az elakadás, rövidül a hívásidő/chat, nő az elsőre megoldott esetek aránya. Például: „Mennyi a vállalkozói csomag havidíja?”, „Mutasd a szeptemberi kártyadíjakat!”, „Hogyan igényelhetek előtörlesztést?” – a S2R-logika a legrelevánsabb válaszhoz vezet, még ha a kérdés pontatlan vagy akadozó is. Ez egyszerre jelent jobb élményt és alacsonyabb kiszolgálási költséget.
Mire figyeljünk
Az S2R nem varázspálca: a végső rangsorolás továbbra is több száz jel alapján dönt, a nyelvi sajátosságok számítanak, és adatvédelmi/biztonsági szempontból is fegyelmezett megvalósítást igényel. A siker kulcsa a jó tudásbázis-higiénia (naprakész tartalom, egyértelmű fogalomtár, konzisztens entiták), a strukturált adatok, valamint a megfelelés (PII-kezelés, naplózás, hozzáférés-szabályozás). Jó hír, hogy a Google nyílt adatkészletekkel (SVQ) és benchmarkkal (MSEB) támogatja az ökoszisztémát – ez felgyorsíthatja a gyártásra kész megoldások érését.
Forrás: Ehsan Variani, Michael Riley: Speech-to-Retrieval (S2R): A new approach to voice search, Google Research Blog, 2025. október 7.
(Címlapkép: Depositphotos)