Váradi Tamás
Nyelvtechnológia - nyelvészeknek
2006. november 30.
Az előadás igyekszik áttekinteni hol tart, mivel foglalkozik a nyelvtechnológia. Nem összefüggő történetet mesél, hanem arra összpontosít, hogy milyen nyelvészeti kérdéseket vet fel a nyelvtechnológia, és mit hasznosíthat a gyakorló nyelvész a nyelvtechnológia alkalmazásából?
Az alábbi kérdések kerülnek terítékre:
A nyelvtechnológia és nyelvtudomány kapcsolata.
Mi a sajátos a nyelvtechnológia módszereiben, melyek a lehetőségei és a korlátai?
Mi a nyelvészet a korpusznyelvészetben?
Mire jó a korpusz és mire nem? Kell-e egyáltalán korpusz, ha van Web?
Van-e reprezentatív korpusz, és mi az, amit reprezentál?
Korpusznyelvészet és rokon területeinek viszonya: szociolingvisztika, nyelvi változat elemzés, nyelvhasználat és normakutatás.
A gyakoriság szerepe a nyelvi modellálásban.
A statisztikai módszerek alkalmazása.
Párhuzamos korpuszok készítése és használata.
A korpusz annotálás tartalmi és módszertani kérdései.
A nyelvi elemzési lánc és szintjei: a lexikai, szintaktikai és szemantikai elemzés eredményei.
A korpusz annotáció technikája: az XML kódolás.
Az előadás második része áttekintést
ad a gyakorló nyelvész számára elérhető és munkába fogható eszközökről,
amelyekkel saját korpuszt lehet összeállítani és lekérdezni, valamint nyelvi
elemzést végezni.
A figyelem központjában a NooJ nevű ingyenes, átfogó nyelvészeti elemző
keretrendszer áll (www.nooj4nlp.net),
amely az Intézetben végzett fejlesztés eredményeként magyar nyelvi komplex
elemzés céljára is használható.
Reményeim szerint az előadás mindazoknak hasznosnak bizonyulhat, akik nyelvi
leírással, a nyelv illetve a nyelvhasználat elemzésével foglalkoznak, nagyszámú
nyelvi adatot kezelnek különösen, ha megvan bennük az igény arra, hogy
adataikat, elgondolásaikat a puding próbájának is alávessék.