Néhány szó a Unicode-ról

A Unicode egy - a Xaira által is használt - nemzetközi karakterkódolási szabvány.

A karakterkódolás azt határozza meg, hogy a Xaira-ban milyen karakterek (betűk, számok, stb.) használhatóak. Szerencsére a Unicode szabvány az összes elterjedt írásrendszer minden karakterét lefedi (sőt, még néhány ritkábban használt írásrendszer karaktereit is).

Eszerint tehát a Xaira bármilyen korpusz lekérdezésére alkalmas, amennyiben a korpusz kódolása a Unicode szabvány szerint történt.

A Unicode-ot egy sok ezer cellából álló hatalmas táblázatként képzelhetjük el. Minden cellában egy karakter - betű, szám vagy egyéb szimbólum - található. Minden karakter saját névvel és számmal (karakterkód) rendelkezik. Az "U+" prefixum és a karakterkód együttese pontosan meghatározza, hogy melyik karakterről is van szó. Az alábbiakban néhány példát találhat:

U+0041 LATIN CAPITAL LETTER A (Latin nagy A)
U+0391 GREEK CAPITAL LETTER ALPHA (Görög nagy alfa)
U+06A9 ARABIC LETTER KEHEH (Arab karakter)
U+0D48 MALAYALAM VOWEL SIGN AI (Malajálam magánhagzó)
U+1487 CANADIAN SYLLABICS SOUTH-SLAVEY KOH (Egy kanadai szótagírás egy szimbóluma)

(A fenti számok hexadecimálisak, azaz a tizenhatos számrendszeren alapulnak. Ezért nemcsak számjegyeket tartalmazhatnak, hanem betűket is A-tól F-ig. Ez a jelenlegi tárgyalás szempontjából azonban nem fontos.)

A teljes Uncode táblázatot (vagy karaktertérképet) a Xaira-ban található Unicode párbeszédpanelben vagy a Windows karaktertérképen tekintheti meg. Mindkét esetben a nagyméretű táblázatnak a képernyőn csak egy kis része jelenik meg.

A Uncode táblázat tartományokból áll. Minden tartomány egy írásrendszernek vagy a karakterek valamilyen más csoportjának felel meg. Így például 0370 és a 03FF közötti tartomány a cirill karaktereket tartalmazza; míg a 2700 és 27BF közötti pedig a Dingbats karaktereket: tipográfiai szimbólumokat és ornamentumokat. A Xaira képes felismerni a különböző tartományokba eső karakterek közötti különbséget, és a karaktereket megfelelő módon jeleníti meg. További részleteket itt találhat.

Ha a Unicode szabvány részletes dokumentációjára kíváncsi, keresse fel a http://www.unicode.org címen található weboldalt.