2006. évi jelentés

MTA Nyelvtudományi Intézet
Nyelvtechnológiai Kutatócsoport
Nyitólap > Osztályok > Nyelvtech/Alknyelv > Nyelvtechnológia > Jelentések > 2006
2006. évi jelentés
1. Jelentés a Nyelvtechnológiai Osztály 2006. évi tevékenységéről

I. Az osztály fő feladatai a beszámolási évben.

Eredményesen közreműködni a magyar-angol gépi fordító, ontológiaépítő,
és természetes dialógus modelláló projektekben, illetve a 2006-ban
induló új NKFP/Jedlik pályázatban. A GVOP Magyar WordNet projekt
keretén belül elkészíteni a teljes magyar igei WordNet adatbázis
75%-át (kb. 7000 synsetet), a konzorciumi partnerekkel közösen pedig a
főnévi és melléknévi ontológia 75%-át.  Kidolgozni az elkészült
általános ontológia gyakorlati alkalmazását bemutató információkinyerő
rendszerhez szükséges anaforafeloldó mechanizmust.

Kialakítani egy nagyjából 2000 fogalmi csomópontból álló rendszert a
Magyar Egyesített Ontológia csúcsontológiájában. Finomhangolni a
csúcsontológia pszichikai tartományra vonatkozó részhálózatát a
Jedlik-pályázatban felmerülő igények illetve tanácsok figyelembe
vételével. Szorosabbra fűzni a szakmai kapcsolatokat Marcus Kracht
kutatócsoportjával.

Együttműködni a CLEF 2006 nemzetközi információ visszakereső
verseny lebonyolításában.

Előkészíteni az MNSZ átdolgozott változatát, a hozzáférés
hatékonyságának növelésével. A lekérdező és kezelőfelület átdolgozása,
prototípus elkészítésével.

A meglévő nyelvtechnológiai eszközkészletet továbbfejleszteni az MNSZ új
változatának elkészítéséhez, dokumentumosztályozó és szövegértést
támogató alkalmazásokhoz.

Nyelvtechnológiai, számítógépes nyelvészeti kutatások: főnévi igeneves
konstrukciók korpuszalapú vizsgálata, a magyar nyelv szintaktikai
elemzése véges állapotú eszközökkel, gépi tanulási algoritmusok a
magyar morfoszintaxis automatikus elsajátításában.


Összefoglaló (5 sor): Az osztály legfontosabb feladata a beszámolási
évben a futó pályázatok (magyar-angol gépi fordító, ontológiaépítő,
magyar wordnet fejlesztő, számítógépes tartalomelemző projektumok)
keretében nyelvi adatbázisok és nyelvfeldolgozó, nyelvelemző
alkalmazások fejlesztése. Ezen munkálatok mellett az MNSZ korszerű,
további friss anyagokkal kiegészített és megnövelt színvonalú
szolgáltatást nyújtó változatának előkészítése is kiemelt feladat.


II. Az év folyamán elért kiemelkedő kutatási eredmények.  
(A kutatási, fejlesztési eredmények bemutatása.)

Az osztály eredményesen teljesítette az NKFP-2/042/04. sz. Magyar
Egységes Ontológia (MEO) NKFP-projektben vállalt feladatait. Az év
során hat különböző lexikai tartomány (ún. relációs mikroelmélet)
mélységbe menő kidolgozása történt meg, s ennek kapcsán több száz
lexikai egység formalizált leírására került sor. (Lásd
http://ontologia.hu/meo/docs/microtheo/). A Nyelvtechnológiai
osztályon folyó munkálatok keretében elkészült egy közel 90 oldalas
munkadokumentum, amely a jelentésreprezentációs eljárás alapjainak
igen alapos leírását tartalmazza.
http://ontologia.hu/Members/varasdi/MEO_jelrep00601.pdf/download
címen. A munkálatról egy többszerzős előadás született a IV. Magyar
Számítógépes Nyelvészeti Konferenciára.

A projektumban részt vettek: Héja Enikő, Varasdi Károly

Az év közepére elkészült a Kárpát-medencei Magyar Nyelvi Korpusz
beszélt nyelvi anyagának összeállítása, a hálózati hozzáférés
kialakítása. (http://corpus.nytud.hu/kmmk/beszelt_nyelv.html)

A projektumban részt vettek: Oravecz Csaba

A Cross-Language Evaluation Forum (CLEF) 2006 nemzetközi információ
visszakereső verseny keretében erőforrások fejlesztése: strukturált
témaleírások (30 darab). Az információkinyerőrendszer-találatok
relevanciájának kiértékelése során mintegy 22 ezer, 50 témakörbe
tartozó hír kézi ellenőrzésére került sor.
(http://corpus.nytud.hu/CLEF/).

A projektumban részt vettek:  Bottyán Gergely, Gyarmati Ágnes

A Gépford2 (NKFP 2/008/2004) projektumban 6,000 igei rekord
lefordítása, a szemantikai jegyek tartalmának és a kódolás
módszertanának kidolgozása, a nyílt tokenosztályokat leíró
nyelvtan kiépítése, és a projektben használt morfológiai elemző
továbbfejlesztése volt a 2006 év feladata. 
Az Elnöki Keret támogatásával a tervezett 6 000 helyett összesen 20 000 
magyar tétel lefordításával befejeződött az osztályon készült igei
vonzatkeret-adatbázis rekordjainak angolra fordítása.

Az alábbi forrásokból összesen 4800 újabb magyar vonzatkerettel és kollokációval
bővült a fordítórendszer lexikonja:

* A Magyar Nemzeti Szövegtár újságnyelvi alkopuszából reguláris
nyelvtanokkal gyűjtött, majd statisztikai módszerekkel megszűrt 17,700
vonzatkeret-jelölt kézi válogatása után 1558 valódi vonzatkeretettel.

* Az automatikusan gyűjtött igemódosítós szerkezeteket tartalmazó
 listából 2045 tételt került az adatbázisba.

* Az SzTE újságnyelvi korpuszából készített igei kollokációs listából
kézzel válgatott 1152 rekord épült be az adatbázisba.


A projekt keretében elkészült a Mazsola nevű segédeszköz
(http://corpus.nytud.hu/mazsola/), mely komplex igei vonzatkeretek
lekérdezésére szolgál. A munka eredményeképp a magyar-angol igei
vonzatszótár kb 9,200 rekorddal bővült.  A projektumban kódolandó
szemantikai jegyek listája végeleges formát öltött. A magyar és angol
WordNet adatbázisokból az ott kódolt, és a fordítóprogram számára is
szükségesnek minősített jegyek átkerültek a projektbe.  Elkészült 15
ezer szó szemantikai jegyeinek bekódolása a kidolgozott kódolási
módszertan alapján, valamint a nyílt tokenosztályok (named entity)
elemzésére szolgáló nyelvtan. Ennek alapján személynevek, földrajzi
nevek, intézménynevek, számok és dátumok kezelhetők.  Elkészült a 300
tételből álló vonzatos melléknévi adatbázis korrektúrája és fordítása.
A magyar morfológiai szótárban szereplő, de a kétnyelvű szótárakból
még hiányzó 11 ezer összetett szó gépi fordításának korrektúrájából az
év végéig az első 1080 kifejezés ellenőrzését sikerült elvégezni.
Több részfeladat is elkészült a projektben használt morfológiai elemző
minőségének javítására. Ez a munka elsősorban az elemző túlzott
produktivitásának visszaszorítására irányult.

A projektumban részt vettek: Gábor Kata, Gyarmati Ágnes, Jenei Erzsébet, Héja
Enikő, Oravecz Csaba, Sass Bálint

A Magyar EuroWordNet építése és alkalmazása információkinyerő
rendszerekben (GVOP - 2004 - 3.1.1) projektum során a magyar igei
WordNet szemantikai hálójának egy, a magyar nyelv sajátosságainak
jobban megfelelő rendszere készült el. Az igei szinonima halmazok
(synset-ek) száma 1000-ről 3000-re nőtt, ezzel a tervezett igei
synsetek mennyiségének mintegy 70 %-a került kidolgozásra. A magyar
WordNet számára számos új reláció meghatározása történt meg. A
konzorciumi partnerekkel együttműködve elkészült a melléknévi WordNet
90%-a. Elkészült a koreferenciafeloldó mechanizmus elméleti háttere,
amely az általános ontológia gyakorlati alkalmazását bemutató
információkinyerő rendszerhez szükséges , valamint továbbfejlesztettük
az információkinyerő rendszer számára kidolgozott eseménykeretek
formátumát.

A projektumban részt vettek: Cziczelszki Judit, Gyarmati Ágnes, Kuti Judit,
Oravecz Csaba, Sass Bálint, Tóth Marianna, Vajda Péter, Varasdi Károly

A 2006-ban induló Jedlik projektum ("A nemzeti és etnikai identitás
vizsgálata történelmi eseményekre vonatkozó szövegek narratív
alakzatainak mondatszint fölötti számítógépes tartalomelemzése révén")
keretében az első részben a nyelvtani feldolgozás alapját jelentő
magyar morfológiai modul elkészítése történt meg, a második részben
pedig magasabb szintű nyelvi elemzéseket lehetővé tevő erőforrások
(nyelvtani gráfok, szemantikai szótárak) kialakítására került sor. 

A projekt során kifejlesztett magyar morfológiai modullal a projekt
szöveganyagát leelemezve létrejött az a nagy lefedettséget biztosító
szótár, melyet a korpusz bármely részére alkalmazva lehetővé vált a
magasabb szintű nyelvi elemzés. Ennek során különféle pszichológiai
szempontból releváns szóosztályokat reprezentáló listák álltak elő. Az
elkészült listák felhasználásával lokális szintaktikai viszonyokat
leíró szabályok készültek. A fejlesztési munka koordinálása
rendszeres workshopok keretében történt meg. A számszerű adatok a
fejlesztett erőforrások tekintetében az alábbiak:

Jedlik korpusz (2006. szeptemberi állapot): - 1,66 millió szövegszó,
14 témakörben - 95812 szóalak - 24434 felismert lemma - 21272
ismeretlen szóalak (79563 ismeretlen szövegszó, ami a teljes korpusz
5%-át teszi ki). Ezek nagy része tulajdonnév, rossz helyesírású alak,
kis gyakoriságú szó)

Az elkészült szótárak:
- mentális szótár: 494, ill. 288 igei tő, plusz szabályok (gráfok)
- érzelemszótár: 731 szótő, 5 kategóriában, különböző jegyekkel
- aktív-passzív szótár: 9666 igei tő besorolása 7 témakörbe
- közelítés/távolítás/iránynélküli igék: 350+596+716

A NooJ keretrendszerhez elkészült a magyar igei vonzatkeret-adatbázis
szótár változata és az első kétnyelvű (magyar-angol) NooJ főnévszótár
(10,000 szó).

Számítógépes morfológiai fejlesztések keretében elkészült az alaktani
adatbázis exportja a Nagyszótár számára, az alaktani adatbázison
alapuló elemző Noojra és a Xerox véges állapotú eszközkészlete alá,
valamint  a MOKK morphdb.hu adatbázisán alapuló elemző és generáló
ugyancsak a Xerox eszközkészletében.

A projektumban részt vettek: Nagy Viktor, Vajda Péter

A Magyar Nemzeti Szövegtár bővítésének előkészítése során az alábbi
anyagok beszerzése történt meg:
- blogok a freeblog.hu-ról (jelenleg 60 millió szó)
- újabb hivatalos dokumentumok (jelenleg 2,5 millió szó)
- internetes fórumok (index.hu) (jelenleg 410 millió szó).
Elkészült a szövegtár új webes lekérdezőfelületének prototípusa is.

Kifejlesztésre került egy MNSZ-modul az NLTK Lite számítógépes
nyelvelemző keretrendszer programkönyvtárához.

A projektumban részt vettek: Nagy Viktor, Sass Bálint

Összefoglaló (15 sor): 

Az osztály eredményesen teljesítette feladatait a Magyar Egységes
Ontológia projekt keretében: az év során hat különböző lexikai
tartomány ún. relációs mikroelmélet mélységbe menő kidolgozása történt
meg, s ennek kapcsán több száz lexikai egység formalizált leírására
került sor. (Lásd http://ontologia.hu/meo/docs/microtheo/). Az év
közepére elkészült a Kárpát-medencei Magyar Nyelvi Korpusz beszélt
nyelvi anyagának összeállítása, a hálózati hozzáférés
kialakítása. (http://corpus.nytud.hu/kmmk/beszelt_nyelv.html) A
magyar-angol gépi fordítási projektben az Elnöki Keret segítségével
a tervezett 6000 helyett 20000 igei vonzatkeret fordítása készült el. 
A magyar Wordnet fejlesztési projektben elkészült 2000 igei szinonima csoport és a
magyar melléknévi állomány 90%-a.  Az MNSZ újabb változatához
előfeldolgozásra került mintegy 470 millió szó, és elkészült az új
hálózati lekérdezőeszköz prototípusa.  A Pszichológiai Intézettel
együttműködésben végzett Jedlik projektum keretében elkészült a
nemzeti és etnikai identitást feltérképező narratív visszaemlékezések
korpusza (1,6 m szó) valamint az elemzéshez szükséges morfológiai
szótárak és felszini elemző eszközök.
 
III. Hazai kapcsolatok és pályázatok (felsőoktatási munka is)

Hazai szakmai kapcsolataink továbbra is aktívak. A közös
projektmunkákban is megtestesülő együttműködés a Morphologic Kft-vel
és a Szegedi Tudományegyetemmel valamint a BME Média Oktatási és
Kutatási Központtal 3 nagy pályázatra (magyar-angol gépi fordító,
valamint ontológiaépítő NKFP, és magyar wordnet fejlesztő GVOP
pályázat) is kiterjed.

Több munkatárs is szoros munkakapcsolatban dolgozik a BME Média
Oktatási és Kutatási Központtal szabadon felhasználható
nyelvtechnológia eszközök kifejlesztésében, tudományos publikációk
elkészítésében (MSZNY 2006 2 közös tanulmánya, EACL 2006, LREC 2006
konferenciák 2 tanulmánya).

Az osztály 15 munkatársa vett részt a számítógépes nyelvészet
legfontosabb éves hazai rendezvényén, a harmadik alkalommal
megrendezett Magyar Számítógépes Nyelvészeti Konferencián, ahol a
munkatársak összesen 10 előadásban illetve poszteres bemutatóban
számoltak be kutatási eredményeikről.

Az osztály jelenleg 4 hazai pályázat keretében folytat
kutató-fejlesztő munkát. A legnagyobb jelentőségű a MorphoLogic
Kft-vel és a Szegedi Tudományegyetem Informatikai Tanszékcsoportjával
együtt elnyert, magyar-angol gépi fordítórendszer kifejlesztését célzó
projekt. Kiemelendő még a beszámolási évben zárult legfelsőbb szintű
ontológia megalkotására irányuló "Magyar Egyesített Ontológia (MEO)"
NKFP pályázat, melyben a hazai nyelvtechnológia ezen ágával foglalkozó
valamennyi szereplője részt vett. Ugyancsak jelentős projektum a Magyar
ontológia építése és alkalmazása információkinyerő rendszerekben GVOP
pályázat. Ebben az évben indult az újabb NKFP (Jedlik) pályázat az MTA
Pszichológiai Kutatóintézetével illetve a Morphologic Kft.-vel és a
Szegedi Tudományegyetemmel közösen.

2006-ban az osztály munkatársai több konferencia illetve előadássorozat
szervezésében működtek közre:

* Február 20-án az osztály adott otthont a Magyar Alkalmazott Nyelvészek
és Nyelvtanárok Egyesülete igen sikeres vitaülésének, "Korpuszok,
szövegfeldolgozó eszközök és alkalmazásaik" címmel, ahol a munkatársak
7 előadásban adtak bevezetőt a számítógépes szövegfeldolgozás
alapjaiba. (http://corpus.nytud.hu/manye/)

* Bottyán Gergely vezető szerepet vállalt az "Antal László és a mai
magyar nyelvtudomány" konferencia szervezésében, melynek célja a
magyar nyelvtudomány strukturalista hagyományai és a számítógépes
nyelvészet szélesebb körben (egyetemi hallgatók számára is) való
népszerűsítése volt. A 13 meghívott előadóból 6 az Intézet munkatársa
(Kenesei István, Komlósy András, Kálmán László, Rebrus Péter,
Törkenczy Miklós, Kiefer Ferenc, Váradi
Tamás). (https://eotvos.elte.hu/wiki/Angol/antalkonferencia). Szintén
Bottyán Gergely működött közre az Angol-Amerikai Műhely
I. házikonferenciájának szervezésésben (ELTE Eötvös József Collegium,
200 6. május 12.).

2006-ban több munkatárs is végzett oktató illetve oktatásszervező
munkát: Bottyán Gergely Az ELTE Eötvös József Collegium Angol-Amerikai
Műhelyének vezetésében vett részt (a kurzuskínálat összeállítása és az
oktatók munkájának koordinálása); Sass Bálint a PPKE Információ
Technológia Karán, Nagy Viktor az ELTE BTK alkalmazott nyelvészet,
ELTE Elméleti nyelvészet szakán, Oravecz Csaba az ELTE Elméleti
nyelvészet szakán és Doktori programjában, és a Bölcsészettudományi
Kar BA programjában, Varasdi Károly ELTE Elméleti nyelvészet, a PPKE
Elméleti Nyelvészet szakán, valamint Váradi Tamás a Miskolci Egyetem
Angol Nyelvészeti Tanszékén és az ELTE Fordító- és Tolmácsképző
Doktori Iskolájában oktatott.

A beszámolási évben megkezdődött a Terminológiai Innovációs Központtal
(TermIK) való együttműködés alapjainak kidolgozása.

IV. Nemzetközi kapcsolatok és pályázatok (felsőokt. is)

Az osztály továbbra is aktívan részt vesz az INTEX/NooJ nyelvészeti
fejlesztőközösség munkájában is. A szokásos évi nemzetközi INTEX
konferencián 2 előadásban számoltak be a munkatársak a magyar
rendszer fejlesztési munkálatairól.

Az osztály vezető szerepet vállalt a Cross-Linguistic Evaluation Forum
(CLEF) európai szakmai egyesület által szervezett számítógépes
nyelvészeti alkalmazások versenyében, melyhez az osztály készítette
elő a nyelvi infrastruktúrát, és végezte a beérkezett eredmények
kiértékelését. Az együttműködés keretében újabb strukturált
témaleírások (30 darab) készültek, melyek az európai kutatóközösség
számára más célú kutatáshoz is rendelkezésre állnak.

Továbbra is fennáll a szakmai kapcsolat a Bolgár Tudományos Akadémia
Párhuzamos Nyelvi Modellezés Intézetével, ahol Kiril Simov vezetésével
a CLaRK nyelvi fejlesztő rendszert készítik.

Az elmúlt évben jelentős számban vettek részt (8 munkatárs) és adtak
elő (10 előadás) az osztály munkatársai nemzetközi konferenciákon és
workshopokon (XXVth International Conference on Lexis and Grammar,
9. INTEX/NooJ workshop, CESCL, Fintal'06, IX. Logic and Language,
LREC2006, TALN2006). Váradi Tamás meghívott előadást tartott a prágai
Károly Egyetemen a Cseh Nemzeti Korpusz Intézet szervezésében.

Október 30-31-én az osztály adott otthont a CLARIN (Common Language
Resources and Technology Infrastructure) projektum
(http://www.mpi.nl/clarin/) 30 fős nemzetközi munkamegbeszélésének.
A projekt az EU 7. Kutatási Keretprogramjának egyik kiemelt pályázata,
melyben Váradi Tamás vezető koordinátori szerpet tölt be, egyben az
intézet regionális központként szerepel.

A nemzetközi tudományos kapcsolatok további kiterjesztésében fontos
eredmény, hogy az idei évtől Váradi Tamás nemzetközi koordinátor az
ESFRI (European Strategy Forum on Research Infrastructures)
társadalomtudományi (Social Sciences and the Humanities)
munkacsoportjában.

Az osztály jelentős létszámban vett részt az intézet által rendezett
CESCL (Central European Student Conference in Linguistics)
szervezésében és lebonyolításában (2006. május 29-31.,
http://www.nytud.hu/cescl/), Varasdi Károly pedig szervezője volt a
Logic and Language IX. nemzetközi konferenciának. (Besenyőtelek,
2006. augusztus 24-26.)

Az osztály a beszámolási évben nyert el egy a XEROX kutatóközpont
által koordinált nemzetközi pályázatot, melyben 9 külföldi és egy
hazai partnerrel közösen digitális könyvtári adatbázisokban való
többnyelvű keresés támogatására fejlesztenek
eszközöket. (Cross-language Access to Catalogues And On-line libraries
- CACAO).

V. Az év folyamán MEGJELENT legfontosabb publikációk

Kuti Judit, Varasdi Károly, Cziczelszki Judit, Gyarmati Ágnes, Nagy
Anikó, Tóth Marianna, Vajda Péter.  Igei wordnet és igei
eseményszerkezet ábrázolása.  In: Alexin Z., Csendes D. (szerk.):
MSZNY2006 - IV. Magyar Számítógépes Nyelvészeti Konferencia, SZTE,
Szeged, 2006, p. 97-108.

Gábor K. Héja E.: Szemantikai igeosztályok tesztelése
az MNSz-ben. In: Alexin Z., Csendes D. (szerk.): A Magyar Számítógépes
Nyelvészeti Konferencia 2006 rendezvényen elhangzott előadások kötete,
Szegedi Tudományegyetem Nyomdája, Szeged, 2006, pp. 147-156

Gábor K. Héja E.: Predikátumok és szabad határozók. In: Kálmán
L. (szerk): A titkos kötet. Nyelvészeti tanulmányok Bánréti Zoltán és
Komlósy András tiszteletére, Tinta kiadó, Budapest 2006.

Gábor K. Héja E.: A Rule-based Analysis of Complements and
Adjuncts. In: Proceedings of the third international seminar on
Computer Treatment of Slavic and East-European
Languages. Bratislava,Slovakia.

Varasdi Károly, Kuti Judit: Fiktív mozgás és
eseményszerkezet. Világosság, 2006.

Nagy Viktor.  A magyar főnévi inflexió statisztikai modellje.  In
Gecső Tamás szerk.: Nyelvi kompetencia - kommunikatív kompetencia
Tinta Könyvkiadó, Budapest, 2006. p. 254-262.

András Kornai, Péter Halácsy, Viktor Nagy, Csaba Oravecz, Viktor Trón,
Dániel Varga.  Web-based frequency dictionaries for medium density
languages.  In Proceedings of the EACL 2006 Workshop on Web as a
Corpus, edited by Adam Kilgarriff, Marco Baroni, pages 1-9. 2006.

Simon Eszter, Farkas Richárd, Halácsy Péter, Sass Bálint, Szarvas
György és Varga Dániel.  A HunNER korpusz.  In: Alexin Z., Csendes
D. (szerk.): MSZNY2006, IV. Magyar Számítógépes Nyelvészeti
Konferencia, Szegedi Tudományegyetem, Szeged, 2006., p. 373-376.

Sass Bálint.
Extracting Idiomatic Hungarian Verb Frames.
In: Salakoski, T., Ginter, F., Pyysalo, S., Pahikkala, T. (eds):
FinTAL'06, LNAI 4139, Turku, Finnország, 2006, p. 303-309.

Viktor Trón, Péter Halácsy, Péter Rebrus, András Rung, Péter Vajda,
Eszter Simon.  Morphdb.hu: Hungarian lexical database and
morphological grammar.  In: Dr. S.Nagy Katalin és dr. Szakadát István
(szerk.) Média és Társadalom, Műegyetemi kiadó, Budapest, 2006,
p. 283-290.

Rebrus Péter, Kornai András, Vajda Péter.  The annotation system for
HunMorph.  In: Dr. S.Nagy Katalin és dr. Szakadát István (szerk.) 
Média és Társadalom, Műegyetemi kiadó, Budapest, 2006, p. 291-302.

Viktor Trón, Péter Halácsy, Péter Rebrus, András Rung, Péter Vajda,
Eszter Simon.  Morphdb.hu: Hungarian lexical database and
morphological grammar.  In: Proceedings of 5th International
Conference on Language Resources and Evaluation. ELRA, pages
1670-1673.

Péter Halácsy, András Kornai, Csaba Oravecz, Viktor Trón and Dániel
Varga.  Using a morphological analyzer in high precision POS tagging
of Hungarian.  In Proceedings of the fifth international conference on
Language Resources and Evaluation, LREC2006, Genoa, 2006.

Beáta Gyuris - László Kálmán - Christopher Pinón - Károly Varasdi
(eds.): Proceedings of the Ninth Logic and Language Conference (MTA
Nyelvtudományi Intézet -- ELTE Elméleti Nyelvészet Tanszék)

Varasdi Károly. On the Role of Verbal Particles in the Progressive in
Hungarian. In: Acta Linguistica Hungarica, Vol. 53(4), 2006.,
p. 449-466. 

Varasdi Károly, Gyarmathy Zsófia, Simonyi András és Szeredi Dániel. Az
általános ontológia egy új modellje, In: Magyar Számítógépes
Nyelvészeti Konferencia 2006, SzTE Informatikai Tanszékcsoport,
Szeged, 2006., p. 73-84.

Varasdi Károly, Szakadát István, Szőts Miklós, Gyepesi György, Ungváry
Rudolf, Simonyi András, Gyarmathy Zsófia, Szaszkó Sándor és Szeredi
Dániel. MEO ontológiamodell. In: Alexin Zoltán és Csendes Dóra
(szerk.): Magyar Számítógépes Nyelvészeti Konferencia 2006, SzTE
Informatikai Tanszékcsoport, Szeged, 2006., p. 377-383.

Varasdi Károly. On the Progressive and the Imperfective. PhD
disszertáció. (ELTE BTK Nyelvtudományi Doktori Iskola, Elméleti
Nyelvészet Doktori Program)

Váradi Tamás. Részleges gépi fordítás a Nooj rendszerben. In: Magyar
Számítógépes Nyelvészeti Konferencia 2006, SzTE Informatikai
Tanszékcsoport, Szeged, 2006., p. 202-210.

2. A  Nyelvtechnológiai Osztály kutatási célkitűzései 2007. évre

Eredményesen közreműködni a magyar-angol gépi fordító, és a
számítógépes tartalomelemző NKFP/Jedlik pályázatban. A GVOP Magyar
WordNet projekt keretén belül elkészíteni a teljes vállalt magyar
WordNet adatbázist.

Együttműködni a CLEF 2007 nemzetközi információ visszakereső
verseny lebonyolításában.

Elkészíteni az MNSZ átdolgozott változatát, a hozzáférés
hatékonyságának növelésével. A lekérdező és kezelőfelület új
változatát használatba állítani.

A meglévő nyelvtechnológiai eszközkészlet továbbfejlesztését befejezni
az MNSZ új változatának elemzéséhez, dokumentumosztályozó és
szövegértést támogató alkalmazásokhoz.

Elkészíteni a CLARIN EU. pályázat végleges anyagát, és a projekt
előkészítő munkálatait megkezdeni.

Megkezdeni a munkálatokat a 2006-ban elnyert CACAO (Cross-language
Access to Catalogues And On-line libraries) pályázat keretén belül.

A Fonetikai Osztállyal együttműködve megkezdeni egy korszerű,
nemzetközi szabványok szerint kialakítandó beszélt nyelvi
korpusz összeállításának munkálatait.

Korpusznyelvészeti, számítógépes nyelvészeti kutatások: a magyar nyelv
szintaktikai elemzése véges állapotú eszközökkel, gépi tanulási
algoritmusok a magyar morfoszintaxis automatikus elsajátításában, igei
bővítményszerkezet kutatása.


2.b.  A  Nyelvtechnológiai Osztály kutatási célkitűzései 2008. évre

2008-ra az osztály rendelkezésére álló nyelvi erőforrások
felhasználásával az alábbi kiadványok megjelentetése fontos célként
szerepel:

* Az osztályon több éve fejlesztett vonzatkeret adatbázison
 alapuló vonzatszótár keretgyakorisági adatokkal.

* Az MNSZ átdolgozott és továbbfejlesztett változatán alapuló
gyakorisági szótár.

Pályázatok működtetése:

* A számítógépes tartalomelemző NKFP/Jedlik pályázat eredményes
befejezése.

* A CLARIN projektumban a nyelvi erőforrások és technológiák
regionális központ kialakítása.
vissza
Nyelvtech/Alknyelv Nyelvtechnológia Jelentések
2006