MTA Nyelvtudományi Intézet

  Nyelvtechnológiai Kutatócsoport

[English version]

Nyitólap > Osztályok > Nyelvtech/Alknyelv > Nyelvtechnológia > Eszközök  > XAIRA

XAIRA XML-alapú komplex korpuszlekérdező rendszer – magyar változat

Mi a Xaira?

A program neve az XML Aware Indexing and Retrieval Architecture kifejezés kezdőbetűiből összerakott mozaikszó. Mint a neve is mutatja, a Xaira egy olyan eszköz, amely nyelvészeti adatok keresését, kivonatolását és megjelenítését teszi lehetővé XML erőforrásokból, például nyelvi korpuszokból.
A Xaira fejlesztői Lou Burnard és Tony Dodd. A program terjesztője az Oxford University Computing Services-hez tartozó Research Techonologies Service.
A Xaira elődje a Sara, amelyet a British National Corpus projekt részeként fejlesztettek ki. A Xaira két fontos dologban különbözik a Sara-tól. Egyfelől a programcsomag egy indexáló komponenssel bővült, ami azt jelenti, hogy a Xaira segítségével bármilyen korpuszt lekérdezhetünk. Másfelől a Xaira SGML helyett XML formátumú szövegeket kezel. A Xaira tehát lehetővé teszi, hogy elkészítsük saját korpuszunkat.

Miért jó a Xaira-t használni?

Azért, mert ingyenesen hozzáférhető a GNU PBL licensz alapján, platformfüggetlen, és a Windows alatt futó változathoz a kliens és a kliens használatát leíró részletes súgó magyarul is rendelkezésre áll.

Kiknek ajánlott a Xaira?

A Xaira hasznos lehet mindazoknak, akik nyelvi adatokkal dolgoznak, például nyelvtanároknak, alkalmazott és elméleti nyelvészettel foglalkozóknak. Fontos hangsúlyozni, hogy mivel a Xaira támogatja a Unicode szabványt, gyakorlatilag bármilyen karakterkészlettel rendelkező nyelv lekérdezésére és megjelenítésére használható, feltéve, hogy a megfelelő Unicode karakterkészlet már installálva van.

A Xaira használatáról

Bár a szoftver az 1.10-es változat óta stabilnak mondható, még jelenleg is fejlesztés alatt áll, így előfordulhat, hogy egyes funkciók nem megfelelően működnek.
Az eszköz három fő komponensből áll: az indexálóból, a szerverből, valamint a kliensből. Az indexálást és a szerver létrehozását a programcsomagban található xaira-tools.exe segítségével végezhetjük el. A kliens program (xaira.exe) pedig interfészként szolgál a felhasználó és a korpusz szerver között. Így tehát az első lépcsőfok egy lekérdezhető korpusz elkészítésében annak indexálása. A Xaira természetesen csak azokat az információkat tudja figyelembe venni az indexálás során, amelyek a korpuszban kódolva vannak. Így tehát, hogy mennyire tudjuk kihasználni a kliens által nyújtott lehetőségeket, nagyban függ a használt korpuszban található annotáció gazdagságától.

Az annotációról röviden

A korpusz annotálása során a korpuszt a szövegekre vagy a szöveg egyes elemeire vonatkozó információval látjuk el. Ezt a korpusz szövegeiben kódolt hozzáadott információt nevezzük annotációnak. Egy korpusz annotációja tartalmazhatja például a szövegekre vonatkozó bibliográfiai adatokat, szófaji vagy szintaktikai információkat. Az annotálást végezhetjük kézzel, de a nagyobb korpuszok annotálása mindig automatikus eszközökkel történik. Ilyen korpuszannotáló eszköz például a magyar modullal is rendelkező szabályalapú INTEX/NooJ. Az annotáció különböző formátumú lehet, a Xaira indexáló komponense azonban csak a jólformált XML szövegek feldolgozására alkalmas. Minimális esetben ez azt jelenti, hogy a feldolgozni kívánt szöveget csak két XML jelölőelemmel látjuk el: <text>korpusz szövege</text> tagekbe ágyazzuk. A xaira-tools beépített szabályok alapján tokenizálja a feldolgozandó szöveget, amely az indexálás után lekérdezhetővé válik.
Ebben az esetben csak arra kell ügyelni, hogy a szöveg kódolása UTF-8 legyen, vagy ha attól eltérő, akkor az alábbiak alapján specifikáljuk a kódolást a korpusz fejlécében: <?xml version="1.0" encoding="iso-8859-2" ?> . Ez a fejléc egy közép-európai karakterkódolású korpuszhoz tartozik.
Ha az XML-ről többet kíván megtudni, kattintson ide.

Az indexálásról röviden

Mint már említettük, az indexálás szükséges ahhoz, hogy egy korpuszt lekérdezhetővé tegyünk. Az indexálás a legtöbb esetben nagyon egyszerűen elvégezhető az Index Wizard segítségével. Az Index wizard indításához nem kell mást tennie, mint elindítania a xaira-tools.exe-t, majd a File menüből kiválasztania az Index wizard parancsot. A Xaira disztribúció része egy az indexálást segítő angol nyelvű súgó. Ez azonban még nem teljes. Ez egy rövid összefoglaló a wizard használatáról, ha a korpuszunk csak kevés jelölőelemet tartalmaz. Részletes angol nyelvű útmutató az indexálásról.

A lekérdezésről röviden

A lekérdezéseket a kliens program segítségével futtathatja. A kliens program és a hozzátartozó meglehetősen részletes súgó most már szinte teljes egészében rendelkezésre áll magyarul is. Kattintson ide, ha a Súgót online kívánja megtekinteni.

A magyar változat elkészítése Héja Enikő munkája.
 
  vissza  
Nyitólap
Osztályok
Nyelvtech/AlknyelvNyelvtechnológiaEszközök 
XAIRANooJ