A Unicode egy - a Xaira által is használt - nemzetközi karakterkódolási szabvány.
A karakterkódolás azt határozza meg, hogy a Xaira-ban milyen karakterek (betűk, számok, stb.) használhatóak. Szerencsére a Unicode szabvány az összes elterjedt írásrendszer minden karakterét lefedi (sőt, még néhány ritkábban használt írásrendszer karaktereit is).
Eszerint tehát a Xaira bármilyen korpusz lekérdezésére alkalmas, amennyiben a korpusz kódolása a Unicode szabvány szerint történt.
A Unicode-ot egy sok ezer cellából álló hatalmas táblázatként képzelhetjük el. Minden cellában egy karakter - betű, szám vagy egyéb szimbólum - található. Minden karakter saját névvel és számmal (karakterkód) rendelkezik. Az "U+" prefixum és a karakterkód együttese pontosan meghatározza, hogy melyik karakterről is van szó. Az alábbiakban néhány példát találhat:
U+0041 | LATIN CAPITAL LETTER A (Latin nagy A) |
U+0391 | GREEK CAPITAL LETTER ALPHA (Görög nagy alfa) |
U+06A9 | ARABIC LETTER KEHEH (Arab karakter) |
U+0D48 | MALAYALAM VOWEL SIGN AI (Malajálam magánhagzó) |
U+1487 | CANADIAN SYLLABICS SOUTH-SLAVEY KOH (Egy kanadai szótagírás egy szimbóluma) |
(A fenti számok hexadecimálisak, azaz a tizenhatos számrendszeren alapulnak. Ezért nemcsak számjegyeket tartalmazhatnak, hanem betűket is A-tól F-ig. Ez a jelenlegi tárgyalás szempontjából azonban nem fontos.)
A teljes Uncode táblázatot (vagy karaktertérképet) a Xaira-ban található Unicode párbeszédpanelben vagy a Windows karaktertérképen tekintheti meg. Mindkét esetben a nagyméretű táblázatnak a képernyőn csak egy kis része jelenik meg.
A Uncode táblázat tartományokból áll. Minden tartomány egy írásrendszernek vagy a karakterek valamilyen más csoportjának felel meg. Így például 0370 és a 03FF közötti tartomány a cirill karaktereket tartalmazza; míg a 2700 és 27BF közötti pedig a Dingbats karaktereket: tipográfiai szimbólumokat és ornamentumokat. A Xaira képes felismerni a különböző tartományokba eső karakterek közötti különbséget, és a karaktereket megfelelő módon jeleníti meg. További részleteket itt találhat.
Ha a Unicode szabvány részletes dokumentációjára kíváncsi, keresse fel a http://www.unicode.org címen található weboldalt.