Szó lekérdezése

Az indexálás során a program létrehoz egy lexikont. Egy szó lekérdezésekor a Xaira ebben a lexikonban keres, majd egy listában megjeleníti a keresett kifejezésre illeszkedő sztringeket. A következő lépésben egy olyan lekérdezést indíthat el, amely a listában található szavakat a korpuszbeli előfordulásuk kontextusával együtt jeleníti meg. A listából egyszerre több szót is kiválaszthat.

Ha egy szóra kíván rákeresni a korpuszban, jelölje ki a Szó lekérdezése parancsot a Fájl menü Új lekérdezés almenüjében, vagy nyomja meg a Szó lekérdezése gombot az eszköztárban. Ekkor megjelenik a Szó lekérdezése párbeszédpanel:

A párbeszédpanel tetején egy kis szövegdoboz található. Első lépésként írjon be ide egy keresési kifejezést. A keresési kifejezés lehet egy teljes szó, de lehet ennek egy tetszőleges része is. A Xaira a lexikonból kikeresi az adott karaktersorozatra illeszkedő szóalakokat.

A szövegdoboz melletti gombbal a billentyűzet párbeszédpanelt nyithatja meg.

Miután megadta a keresési kifejezést, nyomja meg a KERESÉS gombot. Az alábbi példában az "az" sztringre - többek között - a következő találatokat kaptuk:

Azt látjuk, hogy a listában minden "az"-zal kezdődő karaktersorozat megjelenik: a listában tehát nemcsak az "az" szerepel, hanem az "azonban", az "azonnal" és még további 121 kifejezés.

A Minta választónégyzet megjelölése esetén a szövegdobozba beírt kifejezést a Xaira mintaként fogja értelmezni, amikor a korpusz indexfájljaiban keres. Ilyenkor csak azok a kifejezések jelennek meg a listában, amelyek pontosan illeszkednek a megadott mintára. Például, ha a megadott mintánk az "az..", a program a négybetűs "az"-zal kezdődő kifejezéseket fogja keresni.

A párbeszédpanel középső részében információk láthatók az indexben talált szavakról. Az első oszlopban a lexikonban szereplő szavak listája található. A második oszlop a szavakhoz tartozó gyakoriságot tartalmazza (vagyis azt, hogy az egyes szavak hányszor fordulnak elő a korpuszban). A harmadik oszlopban az adott szóhoz tartozó és a korpuszban előforduló szóalakok száma látható.

Ha a lista elemeit más szempont szerint kívánja rendezni, kattintson az oszlopok feletti fejlécekre. A "Gyakoriság" fejlécre kattintva a szavakat előfordulásuk gyakorisága alapján rendezi, ha a "Szó" fejlécre kattint, a lista elemei ismét ábécé sorrendben jelennek meg.

Ha menteni kívánja a lexikonban talált szavak listáját, nyomja meg a MENTÉS gombot. Ekkor a program a listából egy szövegállományt készít. A szövegállomány lehet XML vagy egy egyszerűbb listázó formátum.

Ha a listában megjelenő szavak korpuszbeli előfordulásaira kíváncsi, jelölje ki azokat az ablakban az egérrel. Ahogy az a Windows programokban szokásos, több elemet is kijelölhet egyszerre, ha úgy kattint az egyes elemekre, hogy közben lenyomva tartja a CTRL billentyűt. A SHIFT billentyű folyamatos nyomva tartása mellett két tetszőleges szóra kattintva, a két szóban forgó kifejezésen kívül az összes olyan kifejezést is kijelöli, amelyek a listában a két elem között fordulnak elő.

Ha futtatni kíván egy lekérdezést, a megfelelő szavak kijelölése után nyomja meg a LEKÉRDEZÉS gombot. A találatokat a program egy új lekérdező ablakban jeleníti meg.

Ha a párbeszédpanelt lekérdezés futtatása nélkül be kívánja zárni, nyomja meg a jobb felső sarokban található X jelzésű gombot, vagy az ESC billentyűt.

Szó lekérdezése: Szóalakok parancs

Ha Ön olyan korpusszal rendelkezik, amely tartalmaz szófajokra vonatkozó Hozzáadott-kulcs információt, és az indexálás során a program ezeket az információkat figyelembe vette, akkor a szófaji adatok felhasználhatóak a Szó lekérdezése parancs alkalmazásakor.

Előfordulhatnak olyan szavak, amelyek - a környezettől függően - más és más szófaji besorolással rendelkeznek. Ilyen kifejezés például a tudatom. Ez a sztring egyszerre ige és főnév. Az igei előfordulásra az "Ezennel tudatom a Közgyűléssel, hogy lemondok", míg főnévire a "Tudatom rejtett zugaiban bújkál" kifejezésekben találhatunk példát. Ha a program az indexálás során a szófaji információt is figyelembe vette, lehetséges egy karakterfüzérnek csak a főnévi illetve csak az igei előfordulásaira keresni.

A "Szóalakok" oszlopból kiderül, hogy egy adott kifejezéshez hány szóalak tartozik a korpuszban. Ha az Ön által használt korpusz nem különböztet meg eltérő szóalakokat, vagy az indexálás során nem veszi figyelembe a szófaji információkat, ez a szám mindig 1 lesz. Abban az esetben, ha egy szóhoz több szóalak is tartozik, a "Szóalakok" választónégyzet kijelölésével megjelenítheti az adott szó szóalakok szerinti csoportosítását.

Az alábbi példában a terem sztring volt a keresési kifejezés. Korpuszunkban 43 olyan szó van, amely erre illeszkedik. A párbeszédpanelből az is kiderül, hogy ezek közül ábécé sorrendben az elsőnek, a "terem"-nek, háromféle alakja is előfordul. Ezt a szót kiválasztva, egy újabb ablak jelenik meg, amely az egyes szóalakokat már külön-külön tartalmazza:

A szóalak listában a fenti ablakból kiválasztott szóalak vagy szóalakok találhatók és minden egyes szóalakhoz tartozó gyakoriság. A középső oszlopokban a hozzáadott-kulcsok értékei láthatóak, amelyek alapján a program csoportokba sorolta a terem egyes előfordulásait. Ebben az esetben két hozzáadott-kulcsot használtunk: az msd-t (morfoszintaktikai deskripció) valamint a ctag-et . Így tehát a Szó lekérdezése párbeszédpanelből megtudható, hogy a szóban forgó korpusz a terem sztring 9 előfordulását tartalmazza, amelyből 5 előfordulás Ve3, 2 előfordulás N.PSe1.NOM, és 2 előfordulás N.NOM msd kóddal rendelkezik.

Ha egy adott szóalakra kíván keresni (pl. a terem igei előfordulására), jelölje azt ki a szóalaklistából, majd nyomja meg a LEKÉRDEZÉS gombot.

Ha több elemet is kiválasztott a szólistából, több ezekhez tartozó szóalakot is lekérdezhet. Az alábbi példában a terem és a teremt igei előfordulásait kérdeztük le (ez utóbbinak ez az összes előfordulása).

Megjegyzés: a Szóalakok parancs szerepe enyhén módosul, ha Ön lemmasémát is használ. Idevonatkozó további részleteket az alábbiakban találhat.

A Letöltés vezérlők a Szó lekérdezése párbeszédpanelben

A "Vezérlők" választónégyzet kijelölésével újabb, a Szó lekérdezése párbeszédpanelhez tartozó paneleket jeleníthet meg, amelyeken további, szólekérdezésre vonatkozó beállításokat adhat meg. Az egyik panelben a letöltendő találatok számára vonatkozó megszorításokat adhat meg, míg a másik panelben annak eldöntésére nyílik lehetősége, hogy a lekérdezés futtatása során alkalmaz-e lemmasémát (további információkat erről lásd később).

Tehát az első panel beállításaival a letöltendő találatok (vagyis a KERESÉS gomb megnyomása után megjelenített illeszkedő szavak) számára vonatkozó korlátozásokat hozhat létre:

A három rádiógomb valamelyikének kijelölésével határozhatja meg, hogy hány találatot kíván letölteni. Ha minden, az indexben található megoldást le akar tölteni, válassza az első rádiógombot. Ez a szokásos alapértelmezett beállítás.

Ha csak a korpuszban leggyakrabban előforduló szavakra kíváncsi, válassza a második rádiógombot és írja be a megjeleníteni kívánt szavak számát.

A letöltendő találatokat gyakorisági tartomány meghatározásával is korlátozhatja. Válassza ki a harmadik rádiógombot, majd a legördülő listából jelöljön ki egy operátort és írjon be egy számot a megfelelő szövegablakba. A listában az alábbi operátorok találhatóak:

< a gyakoriság kisebb, mint...
<= a gyakoriság kisebb vagy egyenlő, mint...
= a gyakoriság egyenlő...
> a gyakoriság nagyobb, mint...
>= a gyakoriság nagyobb vagy egyenlő, mint...

Így például, ha olyan szóalakokra kíváncsi, amelyek leglább 5-ször fordulnak elő, válassza ki a >= operátort, és a szövegdobozba írja be az 5-öt. Ha a kevesebbszer, mint 10-szer előforduló szavakat akarja letölteni, válassza ki a < operátort a listából és írja be a 10-et, ahogy az alábbi példában is látható:

Minden itt beállított változtatás a program bezárásáig mindaddig érvényben marad, amíg meg nem változtatja azokat. (Még akkor is, ha a Letöltés panel éppen rejtve van.)

A Lemmatizációs sémák használata

A Lemmák panel segítségével olyan szócsoportokat is kereshet a lexikonban, amelyek ugyanazzal a lemmával rendelkeznek:

A Lemmák panelben látszik, hogy jelenleg nincsen aktív lemmatizációs séma (vagyis az aktív séma a "null"). Ez a beépített alapértelmezett beállítás, amely egyáltalán nem csoportosítja a szavakat, hanem minden szóalakot külön lemmának tekint (részletekért kattintson ide). A lemmatizációs séma váltása egyszerű: válasszon egy új sémát a legördülő listából, majd nyomja meg az ALKALMAZ gombot. Ezáltal megváltozik a szólista tartalma is: szóalakok helyett lemmák fognak szerepelni benne.

Akárcsak a szóalakok szófaji kódok alapján való megkülönböztetése , a lemmatizáció is a hozzáadott-kulcsokon alapul

A másik lemmatizációs lehetőség - találóan - a "lemma" nevet viseli. A séma alkalmazása által kiváltott hatást az alábbi ábra szemlélteti:

Amint az a fenti képen látható az aranyosak eltűnt a listáról, mivel a lemmája megegyezik az aranyos lemmájával.

Ha nem a "null" lemmatizációs sémát alkalmazzuk, a párbeszédpanel Szóalakok listájában felsorolt elemek és a párbeszédpanel alján található szóalakok kicsit módosítva jelennek meg. Fenti példánkon szemléltetve: az "aranyos" szóhoz (vagyis a lemmához) két szóalak fog tartozni a fenti ablakban, amelynek a korpuszban két szóalak felel meg. Ez az alsó ablakban látható:

Az ábrából látható, hogy az "aranyos" lemmához kapcsolodó két szóalak, az aranyos és aranyosak rendre az A.NOM és az A.PL.NOM szófaji kódot kapták. (Eszerint az előbbi alanyesetű melléknév, míg az utóbbi többesszámú alanyesetű melléknév.)

A kiválasztott lemmatizációs séma mindaddig érvényben marad, amíg újra meg nem változtatja azt (még akkor is, ha a Lemmák panel rejtve marad).