Héja Enikõ

Nyelvtechnológiai eszközök a szótárkészítés támogatására

Idõpont: 2011. május 31.  

 

Az elõadásban egy olyan módszert mutatok be, amely automatikus eszközökkel támogatja kétnyelvû szótárak készítését. Bár egyelõre nem létezik olyan nyelvtechnológiai eljárás, amely önmagában képes lenne kész szótárak elõállítására, az elõadásban amellett érvelek, hogy a javasolt módszer alkalmas a lexikográfiai munka hatékonyabbá tételére.

Párhuzamos korpuszokon végzett automatikus szóillesztéssel és a megfelelõ kontextusok listázásával olyan háttéranyag (proto-szótár) állítható elõ, amely a gyakorlati elõnyökön túl a szótárak minõségének javításához is hozzájárulhat.  

Elsõsorban azért, mert – megfelelõ méretû reprezentatív korpusz használatával – a javasolt megközelítés garantálja, hogy a legrelevánsabb fordítások szerepeljenek a szótárban. További elõnyt jelent, hogy ha több fordítás is elérhetõ, automatikusan generált fordítási valószínûségek alapján ezeket sorrendezhetjük, így biztosítva, hogy a leggyakrabban használt fordítási ekvivalensek szerepeljenek elöl a szótári bejegyzésben. Ezen felül, mivel az összes korpuszbeli példamondat könnyen hozzáférhetõ, a poliszém jelentések közül nagy mennyiségû természetes adat alapján választhatjuk ki a legmegfelelõbbet.  

A javasolt módszer a fordított irányú szótár elkészítését is könnyebbé teszi.

A fenti elõnyök mellett az eljárásnak két fõ nehézséggel kell szembe néznie.

Egyfelõl, a kevéssé használt nyelvek esetében - a viszonylag kevés elérhetõ digitális erõforrás miatt - a megfelelõ méretû párhuzamos korpuszok létrehozása rendkívül idõigényes feladat. Mivel a proto-szótár mérete függ a párhuzamos korpusz méretétõl, és valódi lexikográfiai haszna csak a megfelelõ lefedettségû proto-szótáraknak van, az elõadásban választ keresek arra is, hogy hogyan növelhetõ az eredményül kapott proto-szótár mérete egy megadott méretû párhuzamos korpusz mellett.   

Másfelõl, az alkalmazott módszer további hátránya, hogy önmagában nem kezeli a többszavas kifejezéseket, így jelen formájában nem alkalmas kollokációk, igei szerkezetek fordításainak automatikus kinyerésére. A többszavas kifejezések elõzetes detekciójával ez a probléma kezelhetõnek tûnik.