Intervju s ra─Źunalnim znanstvenikom Jorgeom Gracijom

1566

Glavna uprava za pismeno prevo─Ĺenje Europske komisije u Luxembourgu 23. listopada organizirala je seminar o jezi─Źnim povezanim otvorenim podacima za terminologiju, koji su predstavili istaknuti znanstvenici Elena Montiel-Ponsoda i Jorge Gracia.

Prevoditelji, terminolozi i sta┼żisti iz Komisije i Parlamenta imali su priliku prisustvovati ovom seminaru i saznati vi┼íe o povezanim podacima. To je uklju─Źivalo prednosti takve tehnologije za jezi─Źne resurse, kao i saznanje vi┼íe o postoje─çim modelima jezi─Źnih informacija predstavljenih kao povezani podaci.

Nadahnuti ovom prezentacijom, dvoje polaznika Odjela za koordinaciju terminologije razgovaralo je sa svakim od dva govornika. Danas, TermCoord objavljuje prvi od njih, s ra─Źunalnim znanstvenikom, Jorgeom Gracijom.

Podru─Źje interesa g. Gracije pro┼íiruje se, me─Ĺu ostalim, na podudaranje jezi─Źnih otvorenih podataka i ontologije. Ovakva istra┼żivanja mogla bi promijeniti na─Źin na koji sastavljamo, pohranjujemo i radimo s terminolo┼íkim bazama podataka, a to je razlog za┼íto smo odlu─Źili uklju─Źiti ovaj intervju u seriju publikacija ÔÇ×Za┼íto je terminologija ti strast?ÔÇŁ Tako─Ĺer ─çe uskoro biti online intervju sa supredstavnicom gore spomenutog seminara Elena Montiel-Ponsoda.


Jorge Gracia diplomirao je fiziku na Sveu─Źili┼ítu u Zaragozi, gdje je stekao doktorat iz ra─Źunalnih znanosti s temom ÔÇ×Integracije i tehnike disambigacije za smanjenje semanti─Źke heterogenosti na webuÔÇŁ (2009.). Trenutno radi kao docent na Sveu─Źili┼ítu u Zaragozi. Prije toga radio je u ra─Źunalnom savjetovanju u Barceloni, a u novije vrijeme kao postdoktorski istra┼żiva─Ź na Sveu─Źili┼ítu Polit├ęcnica u Madridu, sudjeluju─çi u vode─çim istra┼żiva─Źkim projektima u podru─Źju semantike i in┼żenjerstva znanja. Bio je gostuju─çi istra┼żiva─Ź u vode─çim istra┼żiva─Źkim centrima kao ┼íto su Institut za medije znanja (Open University, UK), INRIA (Grenoble, Francuska), Universit├á di Roma ÔÇ×La SapienzaÔÇŁ (Italija) i CITEC na Sveu─Źili┼ítu u Bielefeldu (Njema─Źka). Njegova glavna podru─Źja istra┼żivanja su Semantic Web, Linguistic Linked Data, Ontology Matching i Query Interpretation. Bio je supredsjedatelj W3C Best Practices for Multilingual Linked Open Data Community Group (W3C Best Practices for Multilingual Linked Open Data Community Group), a trenutno je supredsjedatelj zajednice zajednice W3C Ontology Lexica, gdje je limun-Ontolex model je razvijen.


1. Vi ste ra─Źunalni znanstvenik i ve─çina va┼íih najnovijih istra┼żiva─Źkih projekata odnosi se na obradu prirodnog jezika i jezi─Źne resurse na Webu podataka. ┼áto vas najvi┼íe fascinira u tim projektima?

Razumijevanje prirodnog jezika pomo─çu strojeva dugoro─Źni je cilj umjetne inteligencije. Na┼íe istra┼żivanje, u sjeci┼ítu lingvistike i semanti─Źke mre┼że, ima skromnije ciljeve, ali jo┼í uvijek je korak u tom smjeru. Ono ┼íto smatram najizazovnijim i fascinantnim je inherentno neprecizna priroda ljudskog jezika, toliko razli─Źita od formalnih i strukturiranih jezika koje ra─Źunala koriste za pokretanje svojih programa. Stoga je vrlo korisno kada, putem ra─Źunalnog programa, mo┼żete izvu─çi neke uvide iz jezi─Źnih podataka, formalizirati semantiku odre─Ĺenih entiteta ili zaklju─Źiti novo znanje.

2. ┼áto su povezani podaci i za┼íto su korisni za jezi─Źne resurse, terminologiju i rje─Źnike?

Povezani podaci odnose se na skup najboljih praksi za razotkrivanje, dijeljenje i povezivanje podataka na webu. Takvi podaci mogu se odnositi na prakti─Źki sve, uklju─Źuju─çi dokumente, ljude, fizi─Źke objekte i apstraktne koncepte. Kao rezultat toga, pojavljuje se ÔÇ×Mre┼ża podatakaÔÇŁ u kojoj su poveznice na razini podataka, kao ekvivalent ÔÇ×tradicionalnomÔÇŁ webu, u kojem se poveznice uspostavljaju na razini dokumenata (npr. hiperveze izme─Ĺu internetskih stranica). Kada se primjenjuju na jezi─Źne resurse, predstavljamo i povezujemo jezi─Źne podatke te pridonosimo rastu takozvanog jezi─Źnog povezanog oblaka otvorenih podataka.

Objavljivanje jezi─Źnih resursa jer povezani podaci pru┼żaju jasne prednosti i vlasnicima podataka i korisnicima podataka, kao ┼íto je ve─ça neovisnost od formata podataka specifi─Źnih za odre─Ĺenu domenu ili API-ja specifi─Źnih za odre─Ĺenog dobavlja─Źa (umjesto toga se upotrebljavaju dobro uspostavljeni standardi World Wide Web Consortiuma), kao i lak┼íi pristup jezi─Źnim podacima i njihova ponovna uporaba od strane softvera za semanti─Źki softver. Zapravo, povezani podaci omogu─çuju lak┼íe povezivanje skupova podataka koje su izradili razli─Źiti ljudi i za razli─Źite svrhe u jedinstveni grafikon, tako da se kombinirane informacije mogu lak┼íe prije─çi, ispitati i analizirati.

3. Mo┼żete li nam dati neke primjere povezanih podataka u terminologiji? Koje rezultate terminolozi mogu dobiti ako koristimo Povezane otvorene podatke i kako se razlikuju od rezultata koje dobivamo kroz tradicionalne baze podataka koje danas koristimo?

Zanimljiv primjer povezanih podataka u terminologiji je Terminoteca RDF, napor koji smo zapo─Źeli kada sam bio dio Ontology Engineering Group (Universidad Polit├ęcnica de Madrid), usmjeren na pretvaranje niza vi┼íejezi─Źnih terminologija u ┼ápanjolskoj u povezane podatke. Kao rezultat toga, dobili smo jedinstveni grafikon gdje su terminolo┼íki podaci koji su u po─Źetku bili isklju─Źeni lako otkriti jednostavnim upitima. Isti tipovi upita nisu nemogu─çi kroz tradicionalne baze podataka, ali su daleko od jednostavnosti i dolaze po cijeni gubitka Web-centri─Źnih aspekata (u Webu podataka pojmovi su definirani na jedinstven na─Źin na web ljestvici i mogu se otkriti/pretra┼żiti putem Web standarda).

4. Prema va┼íem mi┼íljenju, koje informati─Źke vje┼ítine treba imati terminolog?

Prema mojem mi┼íljenju, moderni terminolozi ne moraju biti IT stru─Źnjaci, ve─ç barem biti svjesni novih tehnologija koje mogu utjecati na njihov rad i biti otvoreni prema njima. To ─çe im dati sposobnost odabira onoga ┼íto je najbolje za njihov rad, kao i sposobnost boljeg komuniciranja njihovih potreba s tehnolozima.

5. IATE je baza podataka s vi┼íe od milijun vi┼íejezi─Źnih unosa, a neki skupovi podataka njezina sadr┼żaja su povezani podaci. ┼áto bi zahtijevalo da se cijela baza podataka pretvori u povezane podatke i koje bi bile prednosti toga?

Demonstrator povezanih podataka IATE-a koji je izgra─Ĺen u kontekstu europskog projekta LIDER pokazao je izvedivost primjene tehnika povezanih podataka na tako va┼żan resurs, ali se temeljio na otvorenom podskupu podataka. Trebalo bi provjeriti status svih podataka u smislu licenciranja i ponovne uporabe kako bi se omogu─çila potpuna migracija. Ako do─Ĺe do te konverzije, podaci IATE-a bili bi spremni za ponovnu uporabu od strane softverskih agenata i aplikacija povezanih s podatkovnim softverom te za njihovo me─Ĺusobno povezivanje s drugim resursima u oblaku za jezi─Źne povezane otvorene podatke.

6. Ti si radio na limun model, model jezi─Źnih informacija kao povezani podaci. Kako se interoperabilnost tog modela mo┼że upotrebljavati za prevo─Ĺenje i/ili terminologiju, odnosno za IATE?

limun, ako se koristi za predstavljanje prijevoda, mo┼że biti korisno na dvije razine: prvo, na razini zastupljenosti znanja, a drugo na razini me─Ĺudjelovanja podataka.

Prvo, jedan od aspekata limun u koji sam bio vi┼íe uklju─Źen, zajedno s kolegama na Universidad Polit├ęcnica de Madrid, bio je u razvoju modula za predstavljanje prijevoda i terminolo┼íkih varijacija. Ovaj modul, nazvan ÔÇ×vartransÔÇŁ, obuhva─ça potrebe za reprezentacijom pri ra─Źunovodstvu prijevoda i varijacija. Ako netko treba bogatu zastupljenost prevoditeljskih odnosa kao povezanih podataka, na primjer, kako bi se zabilje┼żilo podrijetlo prijevoda, usmjerenost (izvorni/ciljni jezici) ili vrsta prijevoda (npr. ÔÇ×izravni prijevodÔÇŁ, ÔÇ×kulturni ekvivalentÔÇŁ itd.), ovaj modul mo┼że biti vrlo koristan.

Drugo, povezani podaci omogu─çuju vam povezivanje prijevoda iz razli─Źitih vi┼íejezi─Źnih/bilingualnih izvora podataka i rje─Źnika u jedinstveni grafikon, ─Źime mo┼żete lako zaklju─Źiti nove prijevode izme─Ĺu prvotno isklju─Źenih jezika koji nisu izri─Źito definirani u izvornim podacima. U skladu s tim, suorganiziram zajedni─Źki zadatak ÔÇ×Translation Inference Across Rje─ŹnikaÔÇŁ (https://tiad2019.unizar.es/) s idejom istra┼żivanja i uspore─Ĺivanja tehnika koje zaklju─Źuju takve neizravne prijevode.

7. Jo┼í jedan projekt u kojem ste sudjelovali zove se Apertium, platforma za strojno prevo─Ĺenje. Mo┼żete li nam jo┼í malo objasniti o ovom projektu?

Apertium platforma otvorenog koda za razvoj strojnog prevo─Ĺenja temeljenog na pravilima, koju je u po─Źetku razvio Universitat dÔÇÖAlacant u ┼ápanjolskoj, a sada u rukama ┼íire i vrlo aktivne zajednice. Nisam izravno sudjelovao u ovom uzbudljivom projektu, ali sam uzeo neke od njihovih resursa i transformirao ih kako bih obogatio oblak jezi─Źnih povezanih otvorenih podataka. Na primjer, obitelj dvojezi─Źnih rje─Źnika izgra─Ĺena je kao dio Apertium, koje su iskoristili prevoditeljski sustavi. Ono ┼íto smo u─Źinili je pretvoriti dvadeset i dva takva rje─Źnika u RDF (osnovni formalizam za prikaz podataka kao povezanih podataka) i objaviti ih na webu. Nazvali smo ovu inicijativu ÔÇ×Apertium RDFÔÇŁ, ┼íto je lijepa demonstracija kori┼ítenja limun zastupati i me─Ĺusobno povezivati dvojezi─Źne rje─Źnike na Webu podataka.

8. Vodite blog na kojem pi┼íete o ra─Źunarstvu i semanti─Źkom webu. U kojoj mjeri vjerujete da blog i drugi dru┼ítveni mediji poma┼żu kako bi ljudi do┼íli do vas i znanja koje dijelite?

Na┼żalost, ne posve─çujem puno vremena blogu, iako planiram to promijeniti u bliskoj budu─çnosti. Smatram da je ovaj format na─Źin razmjene znanja koji vrlo dobro nadopunjuje znanstvene radove, koje je te┼że konzumirati nestru─Źnjacima. Osim toga, pisanje unosa na blogu je vrlo dobra vje┼żba staviti svoje ideje u red i formulirati ih na pristupa─Źniji na─Źin.

9. Lynx to je novi projekt na kojem ti i tvoj tim radite. Mo┼żete li opisati koji je cilj projekta?

Ukratko, ideja o Lynx izraditi grafikon pravnog znanja kojim ─çe se integrirati i povezati heterogeni izvori podataka o uskla─Ĺenosti, uklju─Źuju─çi zakonodavstvo, sudsku praksu, standarde i druge privatne ugovore, kako bi se podr┼żao razvoj pametnih usluga za uskla─Ĺivanje sa zakonodavstvom. Vi┼íejezi─Źni aspekt vrlo je va┼żan u projektu jer se glavni problemi u pogledu pravne uskla─Ĺenosti obi─Źno javljaju preko granica i jezika. Tehnike Povezanih podataka su temeljne u ovom projektu, koji se koriste i za predstavljanje znanja i za povezivanje.

10. Kako predvi─Ĺate budu─çnost jezi─Źnih i terminolo┼íkih resursa, kao i rje─Źnika?

Mislim da se rje─Źnici i terminologije moraju rije┼íiti svojih fizi─Źkih granica kako bi postali rodno digitalni. Iako postoje mnogi elektroni─Źki rje─Źnici, ve─çina ih se jo┼í uvijek dr┼żi tiskane forme i opona┼ía hijerarhijske strukture koje se mogu na─çi na papiru. No, to je samo jedan od mnogih mogu─çih aran┼żmana leksi─Źkih informacija. U paradigmi povezanih podataka svaki element leksikona (leksi─Źki unos, leksi─Źki smisao, prijevod, oblik itd.) mo┼że biti ÔÇ×gra─Ĺanin prve klaseÔÇŁ i postati sredi┼íte grafi─Źke strukture koja ─çe omogu─çiti mnoge druge mogu─çe aran┼żmane i stavove o informacijama.

Povezani podaci pokazali su se korisnima za jezi─Źne resurse op─çenito, posebno kada je rije─Ź o terminologijama i rje─Źnicima. Pomo─çu takvih tehnologija predvi─Ĺamo vi┼íe ujedinjenih/povezanih grafova terminologija i rje─Źnika na webu, oboga─çenih njihovom vezom s drugim resursima. Izazov koji je u tijeku je izgradnja rje─Źnika/terminologija ÔÇ×povezanih podatakaÔÇŁ (do sada smo pretvorili postoje─çe), koji ─çe otvoriti polje novim uzbudljivim mogu─çnostima i novim (jo┼í nezamislivim) oblicima rada s leksikografskim podacima.


Intervjuirala Olga Vamvaka ÔÇô sta┼żistica za terminologiju u Odjelu za terminologiju Europskog parlamenta (Luxembourg).

Diplomirala je me─Ĺunarodne odnose i organizacije te magistrirala prevo─Ĺenje i radila na nastavi jezika. Govori gr─Źki, engleski, ─Źe┼íki i francuski.