Nyelvtechnológiai Kutatócsoport |
||||||||||||
Nyitólap > Osztályok > Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály > Nyelvtechnológiai Kutatócsoport > Projektek > MGTSZ Magyar Generatív Történeti Szintaxis (MGTSZ) MTA Nyelvtudományi Intézet2009–2013
A régi magyar nyelv szintaxisának kutatását célzó
projekt során létrejött
az összes ómagyar szövegemléket
tartalmazó egységes nyelvi adatbázis,
mely mintegy kétmillió szövegszót tartalmaz.
Pályázat azonosítója: NK 78074 – Támogató :
OTKA
Az extrém mértékben heterogén anyag számba vétele után az elektronikusan nem hozzáférhető kódexeket digitalizáltuk. A teljes betűhű korpuszt egységes kódolással láttuk el, a változatos hangjelölést is egységesítettük. 11 kódex és 23 rövidebb szövegemlék esetében elkészült a szöveg normalizálása, e lépés során elhagytuk a helyesírási esetlegességeket megtartva minden ma nem létező nyelvi konstrukciót. Egy mai magyar szövegekre kifejlesztett morfológiai elemzőt – a szótár valamint a szabályrendszer bővítése által – adaptáltunk ómagyar szövegekre. Ennek segítségével elkészült 4 kódex morfológiailag elemzett és egyértelműsített változata. A Régi Magyar Konkordancia elnevezésű korpuszlekérdező felületen 47 kódex, 24 rövidebb szövegemlék és 244 levél teljes szövege hozzáférhető. Nyelvi örökségünk fontos szelete vált a projekt révén elektronikusan feldolgozhatóvá, kutathatóvá és elérhetővé minden érdeklődő számára.
|
NyitólapOsztályokNyelvtech/AlknyelvNyelvtechnológiaProjektek MGTSZ2Finn-OTKATrendMinerSlovake.euSzlovák-magyarECOINNOBraille-rövidírásINNETMATRICAhelyesírás.mta.huEFNILEX Media MonitorCESARMONYEKiTranslate4.euAMICUSCLARAHuComTechBUSZI-2PlatformIgei szerkezetekCLARINCACAOTartalomelemzésMagyar WordNetGépi fordító MEOE-SzókincsEUROVOCINLEXNyelvi PortálMondatszintaxisMNSZ onlineNewsProMATCHPADMNSZCONCEDETELRIMULTEXT-EAST |