Nyelvtechnológiai Kutatócsoport |
||||||||||||
Nyitólap > Osztályok > Nyelvtech/Alknyelv > Nyelvtechnológia > Eszközök > XAIRA XAIRA XML-alapú komplex korpuszlekérdező rendszer – magyar változat Mi a Xaira?A program neve az XML Aware Indexing and Retrieval Architecture kifejezés kezdőbetűiből összerakott mozaikszó. Mint a neve is mutatja, a Xaira egy olyan eszköz, amely nyelvészeti adatok keresését, kivonatolását és megjelenítését teszi lehetővé XML erőforrásokból, például nyelvi korpuszokból.A Xaira fejlesztői Lou Burnard és Tony Dodd. A program terjesztője az Oxford University Computing Services-hez tartozó Research Techonologies Service. A Xaira elődje a Sara, amelyet a British National Corpus projekt részeként fejlesztettek ki. A Xaira két fontos dologban különbözik a Sara-tól. Egyfelől a programcsomag egy indexáló komponenssel bővült, ami azt jelenti, hogy a Xaira segítségével bármilyen korpuszt lekérdezhetünk. Másfelől a Xaira SGML helyett XML formátumú szövegeket kezel. A Xaira tehát lehetővé teszi, hogy elkészítsük saját korpuszunkat. LetöltésekXaira – magyar változatOnline súgó a magyar változathoz Xaira a sourceforge.net -enXaira – angol nyelvű dokumentáció Miért jó a Xaira-t használni?Azért, mert ingyenesen hozzáférhető a GNU PBL licensz alapján, platformfüggetlen, és a Windows alatt futó változathoz a kliens és a kliens használatát leíró részletes súgó magyarul is rendelkezésre áll.Kiknek ajánlott a Xaira?A Xaira hasznos lehet mindazoknak, akik nyelvi adatokkal dolgoznak, például nyelvtanároknak, alkalmazott és elméleti nyelvészettel foglalkozóknak. Fontos hangsúlyozni, hogy mivel a Xaira támogatja a Unicode szabványt, gyakorlatilag bármilyen karakterkészlettel rendelkező nyelv lekérdezésére és megjelenítésére használható, feltéve, hogy a megfelelő Unicode karakterkészlet már installálva van.A Xaira használatárólBár a szoftver az 1.10-es változat óta stabilnak mondható, még jelenleg is fejlesztés alatt áll, így előfordulhat, hogy egyes funkciók nem megfelelően működnek.Az eszköz három fő komponensből áll: az indexálóból, a szerverből, valamint a kliensből. Az indexálást és a szerver létrehozását a programcsomagban található xaira-tools.exe segítségével végezhetjük el. A kliens program (xaira.exe ) pedig interfészként szolgál a felhasználó és a korpusz szerver között. Így tehát az első lépcsőfok egy lekérdezhető korpusz elkészítésében annak indexálása. A Xaira természetesen csak azokat az információkat tudja figyelembe venni az indexálás során, amelyek a korpuszban kódolva vannak. Így tehát, hogy mennyire tudjuk kihasználni a kliens által nyújtott lehetőségeket, nagyban függ a használt korpuszban található annotáció gazdagságától.
Az annotációról rövidenA korpusz annotálása során a korpuszt a szövegekre vagy a szöveg egyes elemeire vonatkozó információval látjuk el. Ezt a korpusz szövegeiben kódolt hozzáadott információt nevezzük annotációnak. Egy korpusz annotációja tartalmazhatja például a szövegekre vonatkozó bibliográfiai adatokat, szófaji vagy szintaktikai információkat. Az annotálást végezhetjük kézzel, de a nagyobb korpuszok annotálása mindig automatikus eszközökkel történik. Ilyen korpuszannotáló eszköz például a magyar modullal is rendelkező szabályalapú INTEX/NooJ. Az annotáció különböző formátumú lehet, a Xaira indexáló komponense azonban csak a jólformált XML szövegek feldolgozására alkalmas. Minimális esetben ez azt jelenti, hogy a feldolgozni kívánt szöveget csak két XML jelölőelemmel látjuk el: <text>korpusz szövege</text> tagekbe ágyazzuk. A xaira-tools beépített szabályok alapján tokenizálja a feldolgozandó szöveget, amely az indexálás után lekérdezhetővé válik.Ebben az esetben csak arra kell ügyelni, hogy a szöveg kódolása UTF-8 legyen, vagy ha attól eltérő, akkor az alábbiak alapján specifikáljuk a kódolást a korpusz fejlécében: <?xml version="1.0" encoding="iso-8859-2" ?> . Ez a fejléc egy közép-európai karakterkódolású korpuszhoz tartozik. Ha az XML-ről többet kíván megtudni, kattintson ide. Az indexálásról rövidenMint már említettük, az indexálás szükséges ahhoz, hogy egy korpuszt lekérdezhetővé tegyünk. Az indexálás a legtöbb esetben nagyon egyszerűen elvégezhető az Index Wizard segítségével. Az Index wizard indításához nem kell mást tennie, mint elindítania axaira-tools.exe -t, majd a File menüből kiválasztania az Index wizard parancsot. A Xaira disztribúció része egy az indexálást segítő angol nyelvű súgó. Ez azonban még nem teljes. Ez egy rövid összefoglaló a wizard használatáról, ha a korpuszunk csak kevés jelölőelemet tartalmaz. Részletes angol nyelvű útmutató az indexálásról.
A lekérdezésről rövidenA lekérdezéseket a kliens program segítségével futtathatja. A kliens program és a hozzátartozó meglehetősen részletes súgó most már szinte teljes egészében rendelkezésre áll magyarul is. Kattintson ide, ha a Súgót online kívánja megtekinteni.A magyar változat elkészítése Héja Enikő munkája.
|
Nyelvtech/AlknyelvNyelvtechnológiaEszközök NooJ |