A Hozzáadott-kulcsokról

A legtöbb esetben a keresést a keresési kifejezés (szó, minta, frázis, stb.) alakja határozza meg. Ekkor a keresési kulcs nem más, mint az adott szónak, mintának vagy frázisnak az aktuális alakja.

A kulcsnak azonban nem muszáj feltétlenül az alaknak lenni. Ha az Ön által használt korpusz tartalmaz olyan XML jelölőelemeket, amelyek információt hordoznak az egyes szavakról, akkor ezeket az információkat is használhatja keresési kifejezésként. Ezek az információk a hozzáadott-kulcsok.

Tekintsük át az alábbiakban, hogy hogyan is működik egy ilyen lekérdezés!

A hozzáadott-kulcsok a korpuszban található tokenizáló elemek attribútumértékei. Tokenizáló elemnek azt az XML elemet nevezzük, amelyet arra használunk, hogy a korpuszt elkülönülő szóegységekre vagyis tokenekre bontsunk. A tokenizáló elem általában a <w>. Így például, az a mondat, hogy "Az oktatási rendszer reformját időszerű és szükséges folyamatnak tartom", tokenizálva a következőképpen fest:

<w>Az</w> <w>oktatási</w> <w>rendszer</w> <w>reformját</w> <w>időszerű</w> <w>és</w> <w>szükséges</w> <w>folyamatnak</w> <w>tartom</w>

A <w> elemen megjelenő bármelyik attribútumot lehet hozzáadott-kulcsként használni. A Hozzáadott-kulcs információ egyik leggyakoribb fajtája a szófaji információ. Ekkor minden <w> taghez tartozik egy olyan attribútum, amelynek az értéke a szófajra vonatkozó információ.

Megjegyzés: a morfológiailag gazdag, agglutináló nyelvekben, mint például a magyar, a szófaji besorolás nem elégséges. Ehelyett inkább a morfoszintaktikai leírásra szokás hivatkozni. Ez az érték a Magyar Nemzeti Szövegtárban a <w> elem msd attribútumán van feltüntetve. Ennek fényében a fenti mondat ábrázolása így néz ki:

<w msd="Det">Az</w><w msd="A.NOM">oktatási</w><w msd="N.NOM">rendszer</w><w msd="N.PSe3.ACC">reformját</w><w msd="A.NOM">időszerű</w><w msd="Con">és</w><w msd="A.NOM">szükséges</w><w msd="N.DAT">folyamatnak</w><w msd="V.Te1">tartom</w>

A mondat ezen reprezentciójából megtudhatjuk, hogy az első token névelő, a második token alanyesetű melléknév, a harmadik pedig alanyesetű főnév; stb.

A Hozzáadott-kulcs egy másik nagyon gyakori fajtája a lemma vagyis a címszó. A Magyar Nemzeti Szövegtárban minden <w> elem tartalmaz egy olyan attribútumot, amelynek értéke az adott token lemmája. Ha a lemmákat ábrázoljuk, a fenti mondathoz az alábbi reprezentációt rendelhetjük:

<w lemma="az">Az</w><w lemma="oktatási">oktatási</w><w lemma="rendszer">rendszer</w><w lemma="reform">reformját</w><w lemma="időszerű">időszerű</w><w lemma="és">és</w><w lemma="szükséges">szükséges</w><w lemma="folyamat">folyamatnak</w><w lemma="tart">tartom</w>

A fenti példából láthatjuk, hogy a "reformját" token lemmája a "reform" és a "tartom" token lemmája a "tart". A Magyar Nemzeti Szövegtárban a szóban forgó attribútum neve lemma. Bár a címszókat megadó attribútumnak ez a széleskörben elfogadott elnevezése, választhatunk más nevet is az attribútumnak.

Természetesen lehetséges a lemmára és a szófaji besorolásra vonatkozó információkat egyszerre szerepeltetni: ilyenkor egy <w> elemhez két attribútum társul. (Sőt a <w> elemhez tartozó további attribútumokat is felvehetünk.)

A program a korpusz indexálása során megkülönbözteti a lemmákat és a szófaji információkat tartalmazó Hozzáadott-kulcsokat. Ez azt jelenti, hogy a Xaira tudja, hogy a lemmatizációt vagy szófaji információt tartalmazó lekérdezések végrehajtásakor melyik attribútumot vegye figyelembe. A lemmákat használhatjuk a Szó lekérdezése parancs alkalmazásakor vagy a kollokációk számolásakor; a szófaji információkat pedig a Hozzáadott-kulcs lekérdezések esetében.