A lemmákról és a lemmatizációs sémákról

A Xaira által használt elemzési eljárások a szó fogalmára épülnek. A szavakat a lexikon tartalmazza. Mindazonáltal a lexikonban található egyes szavak között más és más viszony áll fenn. Vannak szavak amelyek közelebbi kapcsolatban állnak egymással, mint a többiek. Például a "van", a "volt" és a "lesz" ugyanazon címszó alá tartozó bejegyzések, ilyen értelemben tehát közelebb vannak egymáshoz, mint a "kutya" és a "macska", amelyek önálló lexikai tételek. A lemmák és a lemmatizációs sémák segítségével lehetőségünk van az ilyen jellegű kapcsolatok formális leírására.

Elöljáróban definiáljunk néhány idevonatkozó fogalmat:

Egy Romhányi Józseftől idézett példát véve:

"Legyen már belőled légy! Legyen, mint minden legyen, rajtad is hat láb legalább."

A "legyen" szóalak háromszor fordul elő. Van olyan előfordulása, amikor ige, ekkor lemmája (a Magyar Nemzeti Szövegtár alapján) a "lesz". A másik előfordulása főnévi, ekkor a lemma megegyezik az alanyesetű szóalakkal, ez tehát nem más, mint a "légy".

A lemmát is figyelembevéve többféle keresést is végrehajthatunk:

Láttuk tehát, hogy a Xaira lehetővé teszi a keresés folyamán a lemmára való hivatkozást.

Lemmatizációs sémák a Xaira-ban

Lemmatizációs sémákat a korpusz indexálása során hozhatjuk létre, ha a korpusz tartalmazza a sémához szükséges Hozzáadott-kulcs információt. Mint már említettük, ezek az információk a tokenekhez tartozó XML jelölőelemekben találhatók. Lemmatizációs sémát csak a korpusz újraindexálásával adhatunk hozzá.

A Xaira rendelkezik egy alapértelmezett null lemmasémával. Ez - használt korpusztól függetlenül - mindig elérhető. Ez a séma minden különböző szóalakot külön lexikai tételnek tekint. Egy szófaji kódokat is tartalmazó korpuszban a vár főnév lemmája különbözik a vár ige lemmájától. Ez onnan látszik, hogy külön tételként szerepelnek a Szó lekérdezése párbeszédpanelben valamint a kollokációk gyakorisági listájában is. Egy olyan korpuszban azonban, amely nem rendelkezik szófaji információkkal, a két szónak megegyezik a lemmája.

Többféle lemmatizációs sémát is alkalmazhatunk: a British National Corpus-hoz például három lemma séma tartozik (a null-t is beleértve). A bnc nevű lemma séma esetén azok a szavak vannak egy címszó alá csoportosítva, amelyek csak a szófajukban térnek el. A lancs lemmatizációs séma alkalmazása pedig az azonos szótővel rendelkező szavakat csoportosítja azonos címszó alá. Ekkor a sing, sings, sang, sung és az igeként előforduló singing tartoznak egy csoportba. A Magyar Nemzeti Szövegtárban ezzel szemben csak két lemma séma található, az egyik az alapértelmezett null, a másik a lemma, amely a lancs lemmasémához hasonló kimenetet eredményez.