Mi a Xaira?
A program neve az
XML Aware Indexing and Retrieval Architecture kifejezés kezdőbetűiből összerakott mozaikszó. Mint a neve is mutatja, a Xaira egy olyan eszköz, amely nyelvészeti adatok keresését, kivonatolását és megjelenítését teszi lehetővé
XML erőforrásokból, például nyelvi korpuszokból.
A Xaira fejlesztői Lou Burnard és Tony Dodd. A program terjesztője az Oxford University Computing Services-hez tartozó Research Techonologies Service.
A Xaira elődje a
Sara, amelyet a
British National Corpus projekt részeként fejlesztettek ki. A Xaira két fontos dologban különbözik a Sara-tól. Egyfelől a programcsomag egy indexáló komponenssel bővült, ami azt jelenti, hogy a Xaira segítségével bármilyen korpuszt lekérdezhetünk. Másfelől a Xaira SGML helyett XML formátumú szövegeket kezel. A Xaira tehát lehetővé teszi, hogy elkészítsük saját korpuszunkat.
Miért jó a Xaira-t használni?
Azért, mert ingyenesen hozzáférhető a GNU PBL licensz alapján, platformfüggetlen, és a Windows alatt futó változathoz a kliens és a kliens használatát leíró részletes súgó magyarul is rendelkezésre áll.
Kiknek ajánlott a Xaira?
A Xaira hasznos lehet mindazoknak, akik nyelvi adatokkal dolgoznak, például nyelvtanároknak, alkalmazott és elméleti nyelvészettel foglalkozóknak. Fontos hangsúlyozni, hogy mivel a Xaira támogatja a Unicode szabványt, gyakorlatilag bármilyen karakterkészlettel rendelkező nyelv lekérdezésére és megjelenítésére használható, feltéve, hogy a megfelelő Unicode karakterkészlet már installálva van.
A Xaira használatáról
Bár a szoftver az 1.10-es változat óta stabilnak mondható, még jelenleg is fejlesztés alatt áll, így előfordulhat, hogy egyes funkciók nem megfelelően működnek.
Az eszköz három fő komponensből áll: az indexálóból, a szerverből, valamint a kliensből. Az indexálást és a szerver létrehozását a
programcsomagban található
xaira-tools.exe
segítségével végezhetjük el. A kliens program (
xaira.exe
) pedig interfészként szolgál a felhasználó és a korpusz szerver között. Így tehát az első lépcsőfok egy lekérdezhető korpusz elkészítésében annak indexálása. A Xaira természetesen csak azokat az információkat tudja figyelembe venni az indexálás során, amelyek a korpuszban kódolva vannak. Így tehát, hogy mennyire tudjuk kihasználni a kliens által nyújtott lehetőségeket, nagyban függ a használt korpuszban található annotáció gazdagságától.
Az annotációról röviden
A korpusz annotálása során a korpuszt a szövegekre vagy a szöveg egyes elemeire vonatkozó információval látjuk el. Ezt a korpusz szövegeiben kódolt hozzáadott információt nevezzük annotációnak. Egy korpusz annotációja tartalmazhatja például a szövegekre vonatkozó bibliográfiai adatokat, szófaji vagy szintaktikai információkat. Az annotálást végezhetjük kézzel, de a nagyobb korpuszok annotálása mindig automatikus eszközökkel történik. Ilyen korpuszannotáló eszköz például a magyar modullal is rendelkező szabályalapú
INTEX/NooJ. Az annotáció különböző formátumú lehet, a Xaira indexáló komponense azonban csak a
jólformált XML szövegek feldolgozására alkalmas. Minimális esetben ez azt jelenti, hogy a feldolgozni kívánt szöveget csak két XML jelölőelemmel látjuk el:
<text>korpusz szövege</text> tagekbe ágyazzuk. A xaira-tools beépített szabályok alapján tokenizálja a feldolgozandó szöveget, amely az indexálás után lekérdezhetővé válik.
Ebben az esetben csak arra kell ügyelni, hogy a szöveg kódolása UTF-8 legyen, vagy ha attól eltérő, akkor az alábbiak alapján specifikáljuk a kódolást a korpusz fejlécében:
<?xml version="1.0" encoding="iso-8859-2" ?> . Ez a fejléc egy közép-európai karakterkódolású korpuszhoz tartozik.
Ha az XML-ről többet kíván megtudni, kattintson ide.
Az indexálásról röviden
Mint már említettük, az indexálás szükséges ahhoz, hogy egy korpuszt lekérdezhetővé tegyünk. Az indexálás a legtöbb esetben nagyon egyszerűen elvégezhető az Index Wizard segítségével. Az Index wizard indításához nem kell mást tennie, mint elindítania a
xaira-tools.exe
-t, majd a
File menüből kiválasztania az
Index wizard parancsot. A Xaira disztribúció része egy az indexálást segítő angol nyelvű súgó. Ez azonban még nem teljes.
Ez egy rövid összefoglaló a wizard használatáról, ha a korpuszunk csak kevés jelölőelemet tartalmaz.
Részletes angol nyelvű útmutató az indexálásról.
A lekérdezésről röviden
A lekérdezéseket a kliens program segítségével futtathatja. A kliens program és a hozzátartozó meglehetősen részletes súgó most már szinte teljes egészében rendelkezésre áll magyarul is.
Kattintson ide, ha a Súgót online kívánja megtekinteni.
A magyar változat elkészítése
Héja Enikő munkája.