Beke András (NYTI)

Beszélõváltások akusztikai-fonetikai elemzése és gépi detektálása spontán diskurzusokban

 

Az ember-gép verbális kommunikációban számos részfeladatot modelleztek már magyar nyelven, mint a beszéd gépi megértését (beszédfelismerés), illetve a gépi beszéd-elõállítást (beszédszintézis), a beszélõ személy gépi azonosítását a beszéde alapján (beszélõfelismerés). Ezen részfolyamatok a társalgásban kapcsolódnak össze, ahol a folyamat nem egyoldalú, vagyis nem csak beszédfelismerésrõl vagy beszéd-elõállításról van szó. A társalgásban körkörös folyamatok zajlanak, ami a beszélõk váltakozásából adódik, ezért fontos ezeknek a folyamatoknak a gépi lekövetése, elõjelzése. Azt a rendszert, amelyben a beszélõk váltakozását írják le gépi eszközökkel, a beszédtechnológiában beszélõdetektálásnak (speaker diarization) nevezik. Az elõadás célja egy olyan gépi megvalósítás bemutatása, amely magyar nyelvû spontán társalgásokban automatikusan detektálja a beszélõket akusztikai-fonetikai információk alapján; megoldást ad arra a kérdésre, hogy „*Mikor ki beszél?*” (Jin et al. 2004). Az általunk javasolt beszélõdetektáló rendszer alapvetõen nem-ellenõrzött tanulási eljárásokon alapul. A beszélõdetektálás során a folyamatos társalgásokat automatikusan beszélõkre szegmentáljuk, így a társalgások szövegeit egyes beszélõkhöz rendelhetjük. Az így létrehozott szöveg könnyebben feldolgozható más, például tartalomkinyerõ algoritmusok számára is. A rendszer elméleti keretét a konverzációelemzés adja, ahol a társalgás strukturális módon épül fel (Garfinkel 1967; Goffman 1983; Schegloff 1992; Sacks et al. 1974; Sacks 1992; Iványi 2001; Stokoe 2006).  

A beszélõdetektálás kimenete számos más kutatás bemenetét képezi, mint például a beszédaktusok és a beszélõi szerepek nyelvészeti vizsgálata, a beszélõfelismerés, a beszédfelismerés stb.