Természetesnyelv-feldolgozás projekt: Gépi szövegelemzés a TK kutatási adatrepozitóriumaiban

Pilot projektünk célja20. Század Hangja és a TK Kutatási Dokumentációs Központ (KDK) digitális társadalomtudományos archívumokban őrzött interjús gyűjteményekből vett mintán végzett különböző gépi szövegelemzési technikák tesztelésével az archívumokon belüli kereshetőség javítása volt. A projekt a KDK és a SZTAKI Elosztott Rendszerek Osztályának együttműködésében valósult meg. A legmegfelelőbb technika kiválasztása, alkalmazása és validálása után az eredményeket egy repozitóriumi kereső bétaverziójába integráltuk. Végeredményben az egyes interjúkhoz gépileg hozzárendeltünk olyan metaadatokat, amelyek információt adnak a szövegek (interjúk, interjúrészletek) tartalmáról, az egymással (akár több gyűjteményen át) összefüggő, adott kutatási kérdések szempontjából releváns szövegek, szövegrészek helyéről a kutatók számára.

Az interjús szövegekhez előbb manuálisan, majd gépi segítséggel tárgyszavakat, tárgymutatót generáltunk, melyek megfelelőségét kutatóink ellenőrizték. Az eredmények validálása a kutatók által utólagosan nem ellenőrzött, kizárólag gépileg elemzett dokumentumok esetében is jól használható tárgyszavazást, tárgymutató-generálást eredményez. Az interjúkhoz társított tárgyszavak vagy címkék nem egyszerűen a szövegben megtalálható kulcsszavak vagy azok szinonimái, hanem egy nemzetközi társadalomtudományos tezaurusz, az ELSST használatával készült fogalmi háló elemei, melyek révén feltárhatók a szövegekben rejlő szociológiai jelenségek. Emellett lépéseket tettünk a NER (Named Entity Recognition) irányába is. A szövegekben azonosítottunk névelemeket és időmegjelöléseket, majd wikifikáltuk, vagyis Wikidata tudásgráfhoz, illetve Geonames, VIAF, PIM és más névterekhez kapcsoltuk őket.

A jobb kereshetőség érdekében a gépi feldolgozással kapott absztrakt tárgyszavakat és névelemeket több új metaadatmezőben társítjuk a dokumentumokkal. Ezáltal a meglévő dokumentumok új kutatások számára nyílnak meg. A tárgyszavakat angolra is lefordítjuk, így archívumaink külföldi kutatók számára is kereshetővé válnak. Ezáltal a nyelvi elszigeteltség miatt eddig hozzáférhetetlen hazai forrásokat teszünk láthatóvá és elérhetővé a nemzetközi kutatói közösség számára. A gépi feldolgozás eredményeit vizuálisan is bemutatjuk: egyrészt a névelemek kiemelésével és szócikkekhez kapcsolásával, másrészt feltárva és megjelenítve az egyes témák, tárgyszavak gyakoriságát és a közöttük lévő kapcsolatokat.

A projekt kapcsán csatlakoztunk a CESSDA (Consortium of European Social Science Data Archives) munkájához. Az együttműködés során a Nyelvtudományi Kutatóközponttal (NYTK) való kooperációban elkészült az ELSST több mint 3300 kifejezést tartalmazó, angol nyelvű társadalomtudományos tezaurusz magyar fordítása, amely 2022. szeptembere óta online is elérhető. Projektünkben továbbá együttműködtünk a Budapesti Műszaki és Gazdaságtudományi Egyetemmel (BME), hogy a BEAST (BEA – mint BEszéltnyelvi Adatbázis – Speech Transcriber) magyar beszédleiratozó szoftver hatásfokát növeljük. A BEAST OTKA és MILAB támogatással, a NYTK és a BME kooperációjával készülő, nyílt forráskódú, kutatási célokra szabadon használható rendszer, a SpeechBrain kódjára épül, és a legmodernebb transzformer neurális struktúrákat használja.

A szociológiai források iránt érdeklődő kutatók számára az interjús dokumentumokat feltáró munkánk eredménye a TK KDK repozitóriumai számára készülő közös online keresőfelületen lesz látható. A pilot projekt a Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) támogatásával valósult meg.

 

Résztvevő kutatók:

TK KDK: Gárdos Judit, Egyed-Gergely Júlia, Havadi Gergő, Horváth Anna, Jakab Miklós, Meiszterics Enikő, Vajda Róza

SZTAKI: Micsik András, Kovács László, Martin Dániel, Marx Attila, Pataki Balázs, Siket Melinda

További kutatók: Annus Szabolcs, Antal Emese, Filep Georgina, Lipp Veronika, Matyasovszky-Németh Márton, Neményi Mária, P. Tóth Tamás, Sass Bálint, Szöllősi Melinda

 

Publikációk:

Egyed-Gergely Júlia, Vajda Róza, Gárdos Judit, Horváth Anna, Meiszterics Enikő, Micsik András, Martin Dániel, Marx Attila, Pataki Balázs, Siket Melinda. Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok. In: Tick, József; Kokas, Károly; Holl, András (szerk.) Valós térben - az online térért: Networkshop 31: országos konferencia. 2022. április 20–22. Debreceni Egyetem. Budapest, Magyarország, HUNGARNET Egyesület, MTA Könyvtár és Információs Központ, 364 p. pp. 161–169., 2022

Gárdos Judit, Egyed-Gergely Júlia, Horváth Anna, Pataki Balázs, Vajda Róza, Micsik András: Identification of social scientifically relevant topics in an interview repository. A natural language processing experiment. Review alatt.

 

Konferencia-előadások:

FAIRsFAIR (EOSC alprojekt) Final Event 2022. Gárdos Judit: The National Perspective, online kerekasztal-beszélgetés. 2022. 01. 26.

Networkshop 31: országos konferencia 2022. Egyed-Gergely Júlia, Micsik András, Vajda Róza: Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok – előadás. Debreceni Egyetem, 2022. 04. 20–22.

STS-hub.de 2023. Circulations Conference. Gárdos Judit, Horváth Anna, Vajda Róza: ‘NLP and metadata for large sociological interview collections. Aachen, 2023. 03. 16.