Nyitólap >
Adatbázisok >
Szovjet táborok magyar foglyainak adatbázisa
Szovjet táborok magyar foglyainak adatbázisa
Magyarország 2019-ben megkapta Oroszországtól a 682000 magyar hadifogoly és
civil elhurcolt alapvető adatait tartalmazó kartonok szkennelt képét, és az
ebből készített adatbázist.
Az adatbázisban a magyar foglyok által bediktált személyes adatok cirill
betűkkel szerepelnek, ahogy azt az adatokat lejegyző orosz katona éppen
hallotta. Ezen túl még egy torzulást szenvedett az adat, mikor a 2010-es évek
során az orosz kollégák elkészítették a kartonok alapján az adatbázist úgy, hogy
70 évvel korábbi kézírás alapján kellett rögzíteniük az általuk nem értett
magyar nyelvű de cirill betűkkel leírt szövegeket.
Az adatok automatikus orosz-magyar átírását, helyreállítását a Nyelvtudományi
Intézetben végeztük.
A feladat tehát Ковач Йожеф → Kovács József transzkripció megvalósítása volt. A
nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a
legritkább esetben ad helyes megoldást. Tömegesen találkozunk, olyan nehezen
algoritmizálható esetekkel, mint: Цилбауер → Zielbauer, Дейло →
Béla, Саотморской → Szatmár, Гонграмеде → Csongrád vagy Кишкупфьилстьгаза →
Kiskunfélegyháza. Sokszor több egyenrangú esetleges megoldás adódik, pl: Эрин →
Ernő;Ervin;Erik.
Előadás a munkálatokról a 2020-as Magyar Tudomány Ünnepén.
Publikáció és előadás a
2021-es Magyar Számítógépes Nyelvészeti Konferencián.
Az automatikus átíró-helyreállító eszköz a github-on.
A munkálat eredménye: a 2021. február 25-én megnyílt, Magyar
Nemzeti Levéltár által üzemeltetett kereshető adatbázis.
Egy hadifogoly visszaemlékezése arra, hogy mi múlik azon, hogy az
ember Hegyi vagy esetleg Gegyi – a h-g csere az egyik tipikus elírás – néven
szerepel a névsorban. Ez
itt a kérdés, M5, 2021. február 22. a 13. perctől.
Hír az ELKH oldalán.
Módosítva: 2021.03.24.
|
|