Egyre jobbak a beszélő vagy a beszédet értő berendezések – nem utolsósorban magyar kutatásoknak köszönhetően –, de a tökéletes gépi beszéd még mindig utópia.
Lemezbontanál, hazaverziónyilas, szjaalanyjam. Ezek az értelmes darabokból álló szavak jól mutatják, milyen félreértések keserítik meg a beszédfelismerő számítógépes program életét. De az ilyen melléfogások dacára is – mondta el a HVG-nek Somos Sándor, a budapesti Digital Natives cég ügyvezetője – jó körülmények között, például csöndes stúdióban, szépen beszélő tévéhíradós esetében a gép már az elhangzottak 80 százalékát fölismeri, ami elég ahhoz, hogy a felvételben úgy lehessen keresni, mint egy írott szövegben.
Magyar tévéműsorok felvételeiben turkálva folyamatosan működik is a beszédfelismerés és a címkefelhő készítése az elhangzott szövegekből a cég által üzemeltetett Mindroom internetes oldalon, amely a budapesti Műegyetem alapkutatásain és az AITIA Zrt.-ben kidolgozott technológián alapul. Sőt a mai számítógépekkel már az elhangzással egy időben is lehetne többé-kevésbé használható leiratot készíteni, aminek az egyik gyakorlati alkalmazása néhány év múlva válhat fontossá, amikor Magyarországon napi többórányira terjesztik ki a nagyobb tévék műsor-feliratozási kötelezettségét.
A hangfelismerés legkorszerűbb módszerei bonyolult matematikai eljárásokon alapulnak, egyiküket azért hívják rejtett Markov-modellnek, mert még a kutató sem tudja, mi zajlik a gép agyában, pusztán a végeredménnyel szembesül. (Andrej Markov orosz matematikus XIX. század végi valószínűség-számítási elméletét az 1960-as években kezdték a gyakorlatban alkalmazni, először beszédfelismerésre, de azóta még a genetikában is elterjedt.) A gép hangmintákat igyekszik felismerni, és – szódarabkák, szaknyelven morfémák felhasználásával – megpróbálja hozzájuk passzítani az általa legvalószínűbbnek tartott szavakat. Szótárát főképp tulajdonnevekkel érdemes rendszeresen frissíteni. A híradókból kiszűrt címszavak között a Mindroom oldalán nemrég előkelő helyen szerepelt a tarló – a gép e szó képzett alakjának vélte a főpolgármester nevét.
Az sem jó viszont, ha túl nagy a szavak választéka, mert a gép eltéved a rengeteg lehetőség között. A Mindroom rendszere ezért más-más szótárat táplál a gépbe a hír- és közéleti témákhoz, a bulvárműsorokhoz, a szakszövegekhez. Pontosabban nem is szótárakat, hanem a mai számítógépes nyelvészetben alkalmazott korpuszokat, azaz szövegtárakat, amelyekben a gép nem egyszerűen szavakat talál, hanem azt, hogy mely szavak milyen környezetben szoktak előfordulni. Ha például a kórházi leletek diktálás utáni leírására idomított gép a fenyőfa szót hallaná, nyilván megpróbálna más, orvosi szövegbe jobban illő szót keresni. Egyelőre háromszónyi szövegkörnyezetet tud vizsgálni a gép, de kutatók szerint már megfelelő pontosságot hozhatna, ha hatig eljutnának. Egy-egy ilyen korpusz mintegy 25 millió szó – nagyjából 50 Háború és békének megfelelő – szöveget tartalmaz.
Avalószínűség-számításon alapuló módszert megtapasztalhattuk, amikor az interjú közben Somos elindította a programot, és a képernyőn minduntalan törlődött a már megjelenített szöveg, ahogyan a gép a későbbi szavak alapján visszatért egy háttérbe szorított, de utóbb mégis logikusabbnak tűnő értelmezéshez. A spontán szöveget – ráadásul ismeretlen beszélőét – a gép, főképp betanítás nélkül, egyelőre jóval pontatlanabbul adja írásba, mint a híradófelvételeket. De még az utóbbiakban is akadtak félreértések, köztük értelemzavaróak is, és árulkodó jel volt, ahogyan a gép egy-egy mikrofonreccsenést vagy más zajt kétségbeesetten igyekezett értelmes szóként azonosítani.
A romló hallású emberek által ismert koktélparti-effektus (amikor nehéz szétválasztani a beszédet a háttérzajtól) a beszédfelismerés egyik legnagyobb akadálya – magyarázta a HVG-nek Németh Géza, a budapesti Műegyetem távközlési és médiainformatikai tanszékének docense. Ha még a felvétel közben nem szűrik ki a zajt, akkor utóbb már nincs mit tenni. A beszédfelismerő rendszerek közül ezért azok a legmegbízhatóbbak, amelyek egyetlen ember hangjához vannak idomítva (angolul már vannak jellegzetes beszédhibákat is felismerni képes szoftverek), és tovább javítja a hatásfokot, ha szűkebb szókincsű szakszöveggel dolgoznak.
A magyar kutatók előtt álló feladat nehézségét illusztrálja, hogy míg angolul nagyjából 20 ezer szóval a szövegek 97,5 százaléka megérthető, a németben négyszer, a magyarban legalább tízszer ennyit kell a gépbe táplálni ugyanehhez a szinthez. A magyar szöveg felismerését a szabadabb szórend és a ragozott alakok is nehezítik. Magyar, finn és török kutatók már kísérleteznek olyan matematikai modellekkel, amelyek ügyesebben hámozzák ki a szótöveket, mint ha levagdosnák a ragokat, toldalékokat a nyelvtani szabályok szerint.
Könnyebb helyzetben vannak az okostelefonok vagy autós navigációs készülékek, amelyek közül a jobbak már értik a parancsokat, és válaszolni is tudnak. E készülékek azonban más versenyszámban indulnak: legföljebb néhány száz menüponttal, telefonszámmal és névvel kell boldogulniuk.
Élethű beszéd egyelőre csak szűkebb témakörökben és sok emberi munka árán állítható elő, a hibátlan és témafüggetlen automatikus szöveg–beszéd-átalakítás még utópia – olvasható abban a könyvecskében, amelyet októberben osztottak szét az Akadémia pesti székházában, a Nyelv- és Beszédtechnológiai Platform (tudományos műhelyeket és piaci cégeket tömörítő szövetség) konferenciáján. A beszédgeneráló – Németh szavaival: beszédkeltő – szoftverek lehetőségeit illusztrálja a tanszék beszédtechnológiai laboratóriumának honlapjáról bárki által elérhető időjárásjelentés-felolvasó, amely zavarba ejtő módon majdnem úgy hangzik, mintha élő ember beszélne. E mögött azonban hosszú előkészítő munka van. Internetről gyűjtött meteorológiai szövegekből válogatták ki a legjellemzőbb mondatokat, és ezekből olvasott föl körülbelül ötórányit egy színésznő. Mindezt azért, hogy a felvett mondatokban a gyakoribb szavak többféle hanglejtéssel is szerepeljenek, például vessző után, a mondat elején, közepén vagy végén. Így a gép a legalkalmasabbat választja ki, ebből adódik a többnyire helyes hangsúlyozás. A gépvezérelt hang inkább csak olyankor torzul el, amikor az ismeretlen szavakat szótöredékekből vagy éppen hangokból kell összebarkácsolni.
A technika mai állása mellett ez a körülményes eljárás nem alkalmazható bármilyen szöveg felolvasására. Egyszerűbb szoftverek is képesek viszont bármit fölolvasni jól érthető, de robotszerű hangon. Az emberi beszéd és a robotszerű felolvasás keverékét hallhatja, aki felhívja a Gyógyszervonalat – az itthon kapható medicinák hangos ismertetőjét. A több ezer gyógyszer között aligha lehetne egy telefonos menürendszerben eligazodni, ezért a gép a gyógyszer nevének bemondására reagál, felismeri és a biztonság kedvéért emberi hangon visszaolvassa. Innen lehet eljutni a használati útmutatóig, amely már robotszerű tájszólással hangzik el. A robothangnak is megvannak a maga előnyei, például a vakoknak szánt felolvasószoftverek azért is ezt a módszert alkalmazzák, mert tetszés szerint gyorsítható a szöveg.
Az emberi hangon beszélő gép hátrányait Németh és társai már akkor tapasztalták, amikor az 1990-es évek elején a nagy budapesti telefonszám-változások idején gépi és emberi hangon is készítettek rövidke tájékoztatókat. Az utóbbinál másfélszer annyi ideig volt foglalt a hálózat, mert a telefonálók rendre visszakérdeztek: nem tudná-e kapcsolni az új számot vagy legalább a tudakozót. A France Telecom nemrég emberi beszédszintetizátort fejlesztett, de a mérnökök megdöbbenésére az ügyfelek arrogánsnak tartották. Mint kiderült, az ügyfélszolgálatos beszélgetés hétköznapi helyzetéhez képest a gép túl lassan és érthetően beszélt, mire a gyanútlan telefonálók arra gondoltak, hogy hülyének nézi őket ez a szájbarágós pasas.
BEDŐ IVÁN