Nyelvtechnológiai Kutatócsoport |
||||||||||||
Nyitólap > Osztályok > Nyelvtech/Alknyelv > Nyelvtechnológia > Jelentések > 2006 2006. évi jelentés 1. Jelentés a Nyelvtechnológiai Osztály 2006. évi tevékenységéről I. Az osztály fő feladatai a beszámolási évben. Eredményesen közreműködni a magyar-angol gépi fordító, ontológiaépítő, és természetes dialógus modelláló projektekben, illetve a 2006-ban induló új NKFP/Jedlik pályázatban. A GVOP Magyar WordNet projekt keretén belül elkészíteni a teljes magyar igei WordNet adatbázis 75%-át (kb. 7000 synsetet), a konzorciumi partnerekkel közösen pedig a főnévi és melléknévi ontológia 75%-át. Kidolgozni az elkészült általános ontológia gyakorlati alkalmazását bemutató információkinyerő rendszerhez szükséges anaforafeloldó mechanizmust. Kialakítani egy nagyjából 2000 fogalmi csomópontból álló rendszert a Magyar Egyesített Ontológia csúcsontológiájában. Finomhangolni a csúcsontológia pszichikai tartományra vonatkozó részhálózatát a Jedlik-pályázatban felmerülő igények illetve tanácsok figyelembe vételével. Szorosabbra fűzni a szakmai kapcsolatokat Marcus Kracht kutatócsoportjával. Együttműködni a CLEF 2006 nemzetközi információ visszakereső verseny lebonyolításában. Előkészíteni az MNSZ átdolgozott változatát, a hozzáférés hatékonyságának növelésével. A lekérdező és kezelőfelület átdolgozása, prototípus elkészítésével. A meglévő nyelvtechnológiai eszközkészletet továbbfejleszteni az MNSZ új változatának elkészítéséhez, dokumentumosztályozó és szövegértést támogató alkalmazásokhoz. Nyelvtechnológiai, számítógépes nyelvészeti kutatások: főnévi igeneves konstrukciók korpuszalapú vizsgálata, a magyar nyelv szintaktikai elemzése véges állapotú eszközökkel, gépi tanulási algoritmusok a magyar morfoszintaxis automatikus elsajátításában. Összefoglaló (5 sor): Az osztály legfontosabb feladata a beszámolási évben a futó pályázatok (magyar-angol gépi fordító, ontológiaépítő, magyar wordnet fejlesztő, számítógépes tartalomelemző projektumok) keretében nyelvi adatbázisok és nyelvfeldolgozó, nyelvelemző alkalmazások fejlesztése. Ezen munkálatok mellett az MNSZ korszerű, további friss anyagokkal kiegészített és megnövelt színvonalú szolgáltatást nyújtó változatának előkészítése is kiemelt feladat. II. Az év folyamán elért kiemelkedő kutatási eredmények. (A kutatási, fejlesztési eredmények bemutatása.) Az osztály eredményesen teljesítette az NKFP-2/042/04. sz. Magyar Egységes Ontológia (MEO) NKFP-projektben vállalt feladatait. Az év során hat különböző lexikai tartomány (ún. relációs mikroelmélet) mélységbe menő kidolgozása történt meg, s ennek kapcsán több száz lexikai egység formalizált leírására került sor. (Lásd http://ontologia.hu/meo/docs/microtheo/). A Nyelvtechnológiai osztályon folyó munkálatok keretében elkészült egy közel 90 oldalas munkadokumentum, amely a jelentésreprezentációs eljárás alapjainak igen alapos leírását tartalmazza. http://ontologia.hu/Members/varasdi/MEO_jelrep00601.pdf/download címen. A munkálatról egy többszerzős előadás született a IV. Magyar Számítógépes Nyelvészeti Konferenciára. A projektumban részt vettek: Héja Enikő, Varasdi Károly Az év közepére elkészült a Kárpát-medencei Magyar Nyelvi Korpusz beszélt nyelvi anyagának összeállítása, a hálózati hozzáférés kialakítása. (http://corpus.nytud.hu/kmmk/beszelt_nyelv.html) A projektumban részt vettek: Oravecz Csaba A Cross-Language Evaluation Forum (CLEF) 2006 nemzetközi információ visszakereső verseny keretében erőforrások fejlesztése: strukturált témaleírások (30 darab). Az információkinyerőrendszer-találatok relevanciájának kiértékelése során mintegy 22 ezer, 50 témakörbe tartozó hír kézi ellenőrzésére került sor. (http://corpus.nytud.hu/CLEF/). A projektumban részt vettek: Bottyán Gergely, Gyarmati Ágnes A Gépford2 (NKFP 2/008/2004) projektumban 6,000 igei rekord lefordítása, a szemantikai jegyek tartalmának és a kódolás módszertanának kidolgozása, a nyílt tokenosztályokat leíró nyelvtan kiépítése, és a projektben használt morfológiai elemző továbbfejlesztése volt a 2006 év feladata. Az Elnöki Keret támogatásával a tervezett 6 000 helyett összesen 20 000 magyar tétel lefordításával befejeződött az osztályon készült igei vonzatkeret-adatbázis rekordjainak angolra fordítása. Az alábbi forrásokból összesen 4800 újabb magyar vonzatkerettel és kollokációval bővült a fordítórendszer lexikonja: * A Magyar Nemzeti Szövegtár újságnyelvi alkopuszából reguláris nyelvtanokkal gyűjtött, majd statisztikai módszerekkel megszűrt 17,700 vonzatkeret-jelölt kézi válogatása után 1558 valódi vonzatkeretettel. * Az automatikusan gyűjtött igemódosítós szerkezeteket tartalmazó listából 2045 tételt került az adatbázisba. * Az SzTE újságnyelvi korpuszából készített igei kollokációs listából kézzel válgatott 1152 rekord épült be az adatbázisba. A projekt keretében elkészült a Mazsola nevű segédeszköz (http://corpus.nytud.hu/mazsola/), mely komplex igei vonzatkeretek lekérdezésére szolgál. A munka eredményeképp a magyar-angol igei vonzatszótár kb 9,200 rekorddal bővült. A projektumban kódolandó szemantikai jegyek listája végeleges formát öltött. A magyar és angol WordNet adatbázisokból az ott kódolt, és a fordítóprogram számára is szükségesnek minősített jegyek átkerültek a projektbe. Elkészült 15 ezer szó szemantikai jegyeinek bekódolása a kidolgozott kódolási módszertan alapján, valamint a nyílt tokenosztályok (named entity) elemzésére szolgáló nyelvtan. Ennek alapján személynevek, földrajzi nevek, intézménynevek, számok és dátumok kezelhetők. Elkészült a 300 tételből álló vonzatos melléknévi adatbázis korrektúrája és fordítása. A magyar morfológiai szótárban szereplő, de a kétnyelvű szótárakból még hiányzó 11 ezer összetett szó gépi fordításának korrektúrájából az év végéig az első 1080 kifejezés ellenőrzését sikerült elvégezni. Több részfeladat is elkészült a projektben használt morfológiai elemző minőségének javítására. Ez a munka elsősorban az elemző túlzott produktivitásának visszaszorítására irányult. A projektumban részt vettek: Gábor Kata, Gyarmati Ágnes, Jenei Erzsébet, Héja Enikő, Oravecz Csaba, Sass Bálint A Magyar EuroWordNet építése és alkalmazása információkinyerő rendszerekben (GVOP - 2004 - 3.1.1) projektum során a magyar igei WordNet szemantikai hálójának egy, a magyar nyelv sajátosságainak jobban megfelelő rendszere készült el. Az igei szinonima halmazok (synset-ek) száma 1000-ről 3000-re nőtt, ezzel a tervezett igei synsetek mennyiségének mintegy 70 %-a került kidolgozásra. A magyar WordNet számára számos új reláció meghatározása történt meg. A konzorciumi partnerekkel együttműködve elkészült a melléknévi WordNet 90%-a. Elkészült a koreferenciafeloldó mechanizmus elméleti háttere, amely az általános ontológia gyakorlati alkalmazását bemutató információkinyerő rendszerhez szükséges , valamint továbbfejlesztettük az információkinyerő rendszer számára kidolgozott eseménykeretek formátumát. A projektumban részt vettek: Cziczelszki Judit, Gyarmati Ágnes, Kuti Judit, Oravecz Csaba, Sass Bálint, Tóth Marianna, Vajda Péter, Varasdi Károly A 2006-ban induló Jedlik projektum ("A nemzeti és etnikai identitás vizsgálata történelmi eseményekre vonatkozó szövegek narratív alakzatainak mondatszint fölötti számítógépes tartalomelemzése révén") keretében az első részben a nyelvtani feldolgozás alapját jelentő magyar morfológiai modul elkészítése történt meg, a második részben pedig magasabb szintű nyelvi elemzéseket lehetővé tevő erőforrások (nyelvtani gráfok, szemantikai szótárak) kialakítására került sor. A projekt során kifejlesztett magyar morfológiai modullal a projekt szöveganyagát leelemezve létrejött az a nagy lefedettséget biztosító szótár, melyet a korpusz bármely részére alkalmazva lehetővé vált a magasabb szintű nyelvi elemzés. Ennek során különféle pszichológiai szempontból releváns szóosztályokat reprezentáló listák álltak elő. Az elkészült listák felhasználásával lokális szintaktikai viszonyokat leíró szabályok készültek. A fejlesztési munka koordinálása rendszeres workshopok keretében történt meg. A számszerű adatok a fejlesztett erőforrások tekintetében az alábbiak: Jedlik korpusz (2006. szeptemberi állapot): - 1,66 millió szövegszó, 14 témakörben - 95812 szóalak - 24434 felismert lemma - 21272 ismeretlen szóalak (79563 ismeretlen szövegszó, ami a teljes korpusz 5%-át teszi ki). Ezek nagy része tulajdonnév, rossz helyesírású alak, kis gyakoriságú szó) Az elkészült szótárak: - mentális szótár: 494, ill. 288 igei tő, plusz szabályok (gráfok) - érzelemszótár: 731 szótő, 5 kategóriában, különböző jegyekkel - aktív-passzív szótár: 9666 igei tő besorolása 7 témakörbe - közelítés/távolítás/iránynélküli igék: 350+596+716 A NooJ keretrendszerhez elkészült a magyar igei vonzatkeret-adatbázis szótár változata és az első kétnyelvű (magyar-angol) NooJ főnévszótár (10,000 szó). Számítógépes morfológiai fejlesztések keretében elkészült az alaktani adatbázis exportja a Nagyszótár számára, az alaktani adatbázison alapuló elemző Noojra és a Xerox véges állapotú eszközkészlete alá, valamint a MOKK morphdb.hu adatbázisán alapuló elemző és generáló ugyancsak a Xerox eszközkészletében. A projektumban részt vettek: Nagy Viktor, Vajda Péter A Magyar Nemzeti Szövegtár bővítésének előkészítése során az alábbi anyagok beszerzése történt meg: - blogok a freeblog.hu-ról (jelenleg 60 millió szó) - újabb hivatalos dokumentumok (jelenleg 2,5 millió szó) - internetes fórumok (index.hu) (jelenleg 410 millió szó). Elkészült a szövegtár új webes lekérdezőfelületének prototípusa is. Kifejlesztésre került egy MNSZ-modul az NLTK Lite számítógépes nyelvelemző keretrendszer programkönyvtárához. A projektumban részt vettek: Nagy Viktor, Sass Bálint Összefoglaló (15 sor): Az osztály eredményesen teljesítette feladatait a Magyar Egységes Ontológia projekt keretében: az év során hat különböző lexikai tartomány ún. relációs mikroelmélet mélységbe menő kidolgozása történt meg, s ennek kapcsán több száz lexikai egység formalizált leírására került sor. (Lásd http://ontologia.hu/meo/docs/microtheo/). Az év közepére elkészült a Kárpát-medencei Magyar Nyelvi Korpusz beszélt nyelvi anyagának összeállítása, a hálózati hozzáférés kialakítása. (http://corpus.nytud.hu/kmmk/beszelt_nyelv.html) A magyar-angol gépi fordítási projektben az Elnöki Keret segítségével a tervezett 6000 helyett 20000 igei vonzatkeret fordítása készült el. A magyar Wordnet fejlesztési projektben elkészült 2000 igei szinonima csoport és a magyar melléknévi állomány 90%-a. Az MNSZ újabb változatához előfeldolgozásra került mintegy 470 millió szó, és elkészült az új hálózati lekérdezőeszköz prototípusa. A Pszichológiai Intézettel együttműködésben végzett Jedlik projektum keretében elkészült a nemzeti és etnikai identitást feltérképező narratív visszaemlékezések korpusza (1,6 m szó) valamint az elemzéshez szükséges morfológiai szótárak és felszini elemző eszközök. III. Hazai kapcsolatok és pályázatok (felsőoktatási munka is) Hazai szakmai kapcsolataink továbbra is aktívak. A közös projektmunkákban is megtestesülő együttműködés a Morphologic Kft-vel és a Szegedi Tudományegyetemmel valamint a BME Média Oktatási és Kutatási Központtal 3 nagy pályázatra (magyar-angol gépi fordító, valamint ontológiaépítő NKFP, és magyar wordnet fejlesztő GVOP pályázat) is kiterjed. Több munkatárs is szoros munkakapcsolatban dolgozik a BME Média Oktatási és Kutatási Központtal szabadon felhasználható nyelvtechnológia eszközök kifejlesztésében, tudományos publikációk elkészítésében (MSZNY 2006 2 közös tanulmánya, EACL 2006, LREC 2006 konferenciák 2 tanulmánya). Az osztály 15 munkatársa vett részt a számítógépes nyelvészet legfontosabb éves hazai rendezvényén, a harmadik alkalommal megrendezett Magyar Számítógépes Nyelvészeti Konferencián, ahol a munkatársak összesen 10 előadásban illetve poszteres bemutatóban számoltak be kutatási eredményeikről. Az osztály jelenleg 4 hazai pályázat keretében folytat kutató-fejlesztő munkát. A legnagyobb jelentőségű a MorphoLogic Kft-vel és a Szegedi Tudományegyetem Informatikai Tanszékcsoportjával együtt elnyert, magyar-angol gépi fordítórendszer kifejlesztését célzó projekt. Kiemelendő még a beszámolási évben zárult legfelsőbb szintű ontológia megalkotására irányuló "Magyar Egyesített Ontológia (MEO)" NKFP pályázat, melyben a hazai nyelvtechnológia ezen ágával foglalkozó valamennyi szereplője részt vett. Ugyancsak jelentős projektum a Magyar ontológia építése és alkalmazása információkinyerő rendszerekben GVOP pályázat. Ebben az évben indult az újabb NKFP (Jedlik) pályázat az MTA Pszichológiai Kutatóintézetével illetve a Morphologic Kft.-vel és a Szegedi Tudományegyetemmel közösen. 2006-ban az osztály munkatársai több konferencia illetve előadássorozat szervezésében működtek közre: * Február 20-án az osztály adott otthont a Magyar Alkalmazott Nyelvészek és Nyelvtanárok Egyesülete igen sikeres vitaülésének, "Korpuszok, szövegfeldolgozó eszközök és alkalmazásaik" címmel, ahol a munkatársak 7 előadásban adtak bevezetőt a számítógépes szövegfeldolgozás alapjaiba. (http://corpus.nytud.hu/manye/) * Bottyán Gergely vezető szerepet vállalt az "Antal László és a mai magyar nyelvtudomány" konferencia szervezésében, melynek célja a magyar nyelvtudomány strukturalista hagyományai és a számítógépes nyelvészet szélesebb körben (egyetemi hallgatók számára is) való népszerűsítése volt. A 13 meghívott előadóból 6 az Intézet munkatársa (Kenesei István, Komlósy András, Kálmán László, Rebrus Péter, Törkenczy Miklós, Kiefer Ferenc, Váradi Tamás). (https://eotvos.elte.hu/wiki/Angol/antalkonferencia). Szintén Bottyán Gergely működött közre az Angol-Amerikai Műhely I. házikonferenciájának szervezésésben (ELTE Eötvös József Collegium, 200 6. május 12.). 2006-ban több munkatárs is végzett oktató illetve oktatásszervező munkát: Bottyán Gergely Az ELTE Eötvös József Collegium Angol-Amerikai Műhelyének vezetésében vett részt (a kurzuskínálat összeállítása és az oktatók munkájának koordinálása); Sass Bálint a PPKE Információ Technológia Karán, Nagy Viktor az ELTE BTK alkalmazott nyelvészet, ELTE Elméleti nyelvészet szakán, Oravecz Csaba az ELTE Elméleti nyelvészet szakán és Doktori programjában, és a Bölcsészettudományi Kar BA programjában, Varasdi Károly ELTE Elméleti nyelvészet, a PPKE Elméleti Nyelvészet szakán, valamint Váradi Tamás a Miskolci Egyetem Angol Nyelvészeti Tanszékén és az ELTE Fordító- és Tolmácsképző Doktori Iskolájában oktatott. A beszámolási évben megkezdődött a Terminológiai Innovációs Központtal (TermIK) való együttműködés alapjainak kidolgozása. IV. Nemzetközi kapcsolatok és pályázatok (felsőokt. is) Az osztály továbbra is aktívan részt vesz az INTEX/NooJ nyelvészeti fejlesztőközösség munkájában is. A szokásos évi nemzetközi INTEX konferencián 2 előadásban számoltak be a munkatársak a magyar rendszer fejlesztési munkálatairól. Az osztály vezető szerepet vállalt a Cross-Linguistic Evaluation Forum (CLEF) európai szakmai egyesület által szervezett számítógépes nyelvészeti alkalmazások versenyében, melyhez az osztály készítette elő a nyelvi infrastruktúrát, és végezte a beérkezett eredmények kiértékelését. Az együttműködés keretében újabb strukturált témaleírások (30 darab) készültek, melyek az európai kutatóközösség számára más célú kutatáshoz is rendelkezésre állnak. Továbbra is fennáll a szakmai kapcsolat a Bolgár Tudományos Akadémia Párhuzamos Nyelvi Modellezés Intézetével, ahol Kiril Simov vezetésével a CLaRK nyelvi fejlesztő rendszert készítik. Az elmúlt évben jelentős számban vettek részt (8 munkatárs) és adtak elő (10 előadás) az osztály munkatársai nemzetközi konferenciákon és workshopokon (XXVth International Conference on Lexis and Grammar, 9. INTEX/NooJ workshop, CESCL, Fintal'06, IX. Logic and Language, LREC2006, TALN2006). Váradi Tamás meghívott előadást tartott a prágai Károly Egyetemen a Cseh Nemzeti Korpusz Intézet szervezésében. Október 30-31-én az osztály adott otthont a CLARIN (Common Language Resources and Technology Infrastructure) projektum (http://www.mpi.nl/clarin/) 30 fős nemzetközi munkamegbeszélésének. A projekt az EU 7. Kutatási Keretprogramjának egyik kiemelt pályázata, melyben Váradi Tamás vezető koordinátori szerpet tölt be, egyben az intézet regionális központként szerepel. A nemzetközi tudományos kapcsolatok további kiterjesztésében fontos eredmény, hogy az idei évtől Váradi Tamás nemzetközi koordinátor az ESFRI (European Strategy Forum on Research Infrastructures) társadalomtudományi (Social Sciences and the Humanities) munkacsoportjában. Az osztály jelentős létszámban vett részt az intézet által rendezett CESCL (Central European Student Conference in Linguistics) szervezésében és lebonyolításában (2006. május 29-31., http://www.nytud.hu/cescl/), Varasdi Károly pedig szervezője volt a Logic and Language IX. nemzetközi konferenciának. (Besenyőtelek, 2006. augusztus 24-26.) Az osztály a beszámolási évben nyert el egy a XEROX kutatóközpont által koordinált nemzetközi pályázatot, melyben 9 külföldi és egy hazai partnerrel közösen digitális könyvtári adatbázisokban való többnyelvű keresés támogatására fejlesztenek eszközöket. (Cross-language Access to Catalogues And On-line libraries - CACAO). V. Az év folyamán MEGJELENT legfontosabb publikációk Kuti Judit, Varasdi Károly, Cziczelszki Judit, Gyarmati Ágnes, Nagy Anikó, Tóth Marianna, Vajda Péter. Igei wordnet és igei eseményszerkezet ábrázolása. In: Alexin Z., Csendes D. (szerk.): MSZNY2006 - IV. Magyar Számítógépes Nyelvészeti Konferencia, SZTE, Szeged, 2006, p. 97-108. Gábor K. Héja E.: Szemantikai igeosztályok tesztelése az MNSz-ben. In: Alexin Z., Csendes D. (szerk.): A Magyar Számítógépes Nyelvészeti Konferencia 2006 rendezvényen elhangzott előadások kötete, Szegedi Tudományegyetem Nyomdája, Szeged, 2006, pp. 147-156 Gábor K. Héja E.: Predikátumok és szabad határozók. In: Kálmán L. (szerk): A titkos kötet. Nyelvészeti tanulmányok Bánréti Zoltán és Komlósy András tiszteletére, Tinta kiadó, Budapest 2006. Gábor K. Héja E.: A Rule-based Analysis of Complements and Adjuncts. In: Proceedings of the third international seminar on Computer Treatment of Slavic and East-European Languages. Bratislava,Slovakia. Varasdi Károly, Kuti Judit: Fiktív mozgás és eseményszerkezet. Világosság, 2006. Nagy Viktor. A magyar főnévi inflexió statisztikai modellje. In Gecső Tamás szerk.: Nyelvi kompetencia - kommunikatív kompetencia Tinta Könyvkiadó, Budapest, 2006. p. 254-262. András Kornai, Péter Halácsy, Viktor Nagy, Csaba Oravecz, Viktor Trón, Dániel Varga. Web-based frequency dictionaries for medium density languages. In Proceedings of the EACL 2006 Workshop on Web as a Corpus, edited by Adam Kilgarriff, Marco Baroni, pages 1-9. 2006. Simon Eszter, Farkas Richárd, Halácsy Péter, Sass Bálint, Szarvas György és Varga Dániel. A HunNER korpusz. In: Alexin Z., Csendes D. (szerk.): MSZNY2006, IV. Magyar Számítógépes Nyelvészeti Konferencia, Szegedi Tudományegyetem, Szeged, 2006., p. 373-376. Sass Bálint. Extracting Idiomatic Hungarian Verb Frames. In: Salakoski, T., Ginter, F., Pyysalo, S., Pahikkala, T. (eds): FinTAL'06, LNAI 4139, Turku, Finnország, 2006, p. 303-309. Viktor Trón, Péter Halácsy, Péter Rebrus, András Rung, Péter Vajda, Eszter Simon. Morphdb.hu: Hungarian lexical database and morphological grammar. In: Dr. S.Nagy Katalin és dr. Szakadát István (szerk.) Média és Társadalom, Műegyetemi kiadó, Budapest, 2006, p. 283-290. Rebrus Péter, Kornai András, Vajda Péter. The annotation system for HunMorph. In: Dr. S.Nagy Katalin és dr. Szakadát István (szerk.) Média és Társadalom, Műegyetemi kiadó, Budapest, 2006, p. 291-302. Viktor Trón, Péter Halácsy, Péter Rebrus, András Rung, Péter Vajda, Eszter Simon. Morphdb.hu: Hungarian lexical database and morphological grammar. In: Proceedings of 5th International Conference on Language Resources and Evaluation. ELRA, pages 1670-1673. Péter Halácsy, András Kornai, Csaba Oravecz, Viktor Trón and Dániel Varga. Using a morphological analyzer in high precision POS tagging of Hungarian. In Proceedings of the fifth international conference on Language Resources and Evaluation, LREC2006, Genoa, 2006. Beáta Gyuris - László Kálmán - Christopher Pinón - Károly Varasdi (eds.): Proceedings of the Ninth Logic and Language Conference (MTA Nyelvtudományi Intézet -- ELTE Elméleti Nyelvészet Tanszék) Varasdi Károly. On the Role of Verbal Particles in the Progressive in Hungarian. In: Acta Linguistica Hungarica, Vol. 53(4), 2006., p. 449-466. Varasdi Károly, Gyarmathy Zsófia, Simonyi András és Szeredi Dániel. Az általános ontológia egy új modellje, In: Magyar Számítógépes Nyelvészeti Konferencia 2006, SzTE Informatikai Tanszékcsoport, Szeged, 2006., p. 73-84. Varasdi Károly, Szakadát István, Szőts Miklós, Gyepesi György, Ungváry Rudolf, Simonyi András, Gyarmathy Zsófia, Szaszkó Sándor és Szeredi Dániel. MEO ontológiamodell. In: Alexin Zoltán és Csendes Dóra (szerk.): Magyar Számítógépes Nyelvészeti Konferencia 2006, SzTE Informatikai Tanszékcsoport, Szeged, 2006., p. 377-383. Varasdi Károly. On the Progressive and the Imperfective. PhD disszertáció. (ELTE BTK Nyelvtudományi Doktori Iskola, Elméleti Nyelvészet Doktori Program) Váradi Tamás. Részleges gépi fordítás a Nooj rendszerben. In: Magyar Számítógépes Nyelvészeti Konferencia 2006, SzTE Informatikai Tanszékcsoport, Szeged, 2006., p. 202-210. 2. A Nyelvtechnológiai Osztály kutatási célkitűzései 2007. évre Eredményesen közreműködni a magyar-angol gépi fordító, és a számítógépes tartalomelemző NKFP/Jedlik pályázatban. A GVOP Magyar WordNet projekt keretén belül elkészíteni a teljes vállalt magyar WordNet adatbázist. Együttműködni a CLEF 2007 nemzetközi információ visszakereső verseny lebonyolításában. Elkészíteni az MNSZ átdolgozott változatát, a hozzáférés hatékonyságának növelésével. A lekérdező és kezelőfelület új változatát használatba állítani. A meglévő nyelvtechnológiai eszközkészlet továbbfejlesztését befejezni az MNSZ új változatának elemzéséhez, dokumentumosztályozó és szövegértést támogató alkalmazásokhoz. Elkészíteni a CLARIN EU. pályázat végleges anyagát, és a projekt előkészítő munkálatait megkezdeni. Megkezdeni a munkálatokat a 2006-ban elnyert CACAO (Cross-language Access to Catalogues And On-line libraries) pályázat keretén belül. A Fonetikai Osztállyal együttműködve megkezdeni egy korszerű, nemzetközi szabványok szerint kialakítandó beszélt nyelvi korpusz összeállításának munkálatait. Korpusznyelvészeti, számítógépes nyelvészeti kutatások: a magyar nyelv szintaktikai elemzése véges állapotú eszközökkel, gépi tanulási algoritmusok a magyar morfoszintaxis automatikus elsajátításában, igei bővítményszerkezet kutatása. 2.b. A Nyelvtechnológiai Osztály kutatási célkitűzései 2008. évre 2008-ra az osztály rendelkezésére álló nyelvi erőforrások felhasználásával az alábbi kiadványok megjelentetése fontos célként szerepel: * Az osztályon több éve fejlesztett vonzatkeret adatbázison alapuló vonzatszótár keretgyakorisági adatokkal. * Az MNSZ átdolgozott és továbbfejlesztett változatán alapuló gyakorisági szótár. Pályázatok működtetése: * A számítógépes tartalomelemző NKFP/Jedlik pályázat eredményes befejezése. * A CLARIN projektumban a nyelvi erőforrások és technológiák regionális központ kialakítása.
|
Nyelvtech/AlknyelvNyelvtechnológiaJelentések |