Az XML - eXtensible Markup Language (Kiterjesztett Jelölő Nyelv) - egy a W3C által kifejlesztett, jelölő nyelvekre vonatkozó szabvány.
Egy XML dokumentumban speciális címkék (<csúcsos zárójelek>) - a továbbiakban tagek - határolják az XML elemeket. A teljes dokumentum is egy XML elem, de ezen belül lehetnek más típusú elemek is. Például minden bekezdés elejét és végét jelölhetjük a <p> XML taggel, vagy egy bekezdésen belül minden mondat elejét és végét az <s> XML taggel.
Egy korpuszban lehet nagyon sok, vagy nagyon kevés XML jelölőelem. A Xaira indexáláskor csak azokat a jelölőelemeket használhatja, amelyek megtalálhatóak a korpuszban.
A Xaira a következő célok megvalósítására használja fel a korpuszban található XML információt:
A Xaira belső kontroll fájljai szintén XML formátumúak, továbbá az eredményeket is elmenthetjük más alkalmazások számára XML formátumban. Az XQL protokoll (amelyben a Xaira-lekérdezéseket alkotó parancsok íródnak) szintén egy XML alkalmazás.
Egy terminológiai megjegyzés
Egy XML dokumentum különböző részeire az alábbi terminológia segítségével utalhatunk. Az XML elemeket csúcsos zárójelbe tett tagek határolják. Az XML tagek mindig párokból állnak: egy nyitó tagből és egy záró tagből. Bármi (más elemeket is beleértve), ami a nyitó és a záró tag között fordul elő, az a szóbanforgó elem tartalma.
Egy XML elemhez tartozó nyitó tag további információkat is tartalmazhat, amit attribútumokként illetve ezek értékeiként tárol. Minden attribútum egy bizonyos típusú információt rendel egy bizonyos típusú elemhez, és minden attribútum rendelkezik egy konkrét értékkel. Ezeket a következőképpen fejezhetjük ki:
Például:
A fenti példában egy mondatelemet jelölnek az <s> tagek. A mondat tartalma a szöveg maga: Sötét, viharos éjszaka volt. Az elem csak egy attribútummal rendelkezik, amely az n. Ezen attribútum értéke 3, amely azt az információt hordozza, hogy példánk a szöveg harmadik mondata.