MTA Nyelvtudományi Intézet

  Nyelvtechnológiai Kutatócsoport


[English version]

Nyitólap > Osztályok > Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály > Nyelvtechnológiai Kutatócsoport > Projektek > MGTSZ

Magyar Generatív Történeti Szintaxis (MGTSZ)

MTA Nyelvtudományi Intézet
2009–2013
A régi magyar nyelv szintaxisának kutatását célzó projekt során létrejött az összes ómagyar szövegemléket tartalmazó egységes nyelvi adatbázis, mely mintegy kétmillió szövegszót tartalmaz.

Az extrém mértékben heterogén anyag számba vétele után az elektronikusan nem hozzáférhető kódexeket digitalizáltuk. A teljes betűhű korpuszt egységes kódolással láttuk el, a változatos hangjelölést is egységesítettük. 11 kódex és 23 rövidebb szövegemlék esetében elkészült a szöveg normalizálása, e lépés során elhagytuk a helyesírási esetlegességeket megtartva minden ma nem létező nyelvi konstrukciót. Egy mai magyar szövegekre kifejlesztett morfológiai elemzőt – a szótár valamint a szabályrendszer bővítése által – adaptáltunk ómagyar szövegekre. Ennek segítségével elkészült 4 kódex morfológiailag elemzett és egyértelműsített változata.

A Régi Magyar Konkordancia elnevezésű korpuszlekérdező felületen 47 kódex, 24 rövidebb szövegemlék és 244 levél teljes szövege hozzáférhető.

Nyelvi örökségünk fontos szelete vált a projekt révén elektronikusan feldolgozhatóvá, kutathatóvá és elérhetővé minden érdeklődő számára.
Pályázat azonosítója: NK 78074 – Támogató : OTKA
 
  vissza  
NyitólapOsztályokNyelvtech/AlknyelvNyelvtechnológiaProjektek
MGTSZ2Finn-OTKATrendMinerSlovake.euSzlovák-magyarECOINNOBraille-rövidírásINNETMATRICAMGTSZhelyesírás.mta.huEFNILEX Media MonitorCESARMONYEKiTranslate4.euAMICUSCLARAHuComTechBUSZI-2PlatformIgei szerkezetekCLARINCACAOTartalomelemzésMagyar WordNetGépi fordító MEOE-SzókincsEUROVOCINLEXNyelvi PortálMondatszintaxisMNSZ onlineNewsProMATCHPADMNSZCONCEDETELRIMULTEXT-EAST