Συνέντευξη με τον επιστήμονα υπολογιστών Jorge Gracia

1569

Στις 23 Οκτωβρίου, η Γενική Διεύθυνση Μετάφρασης της Ευρωπαϊκής Επιτροπής στο Λουξεμβούργο διοργάνωσε σεμινάριο για τα γλωσσικά ανοικτά δεδομένα για την ορολογία, το οποίο παρουσιάστηκε από τους εξέχοντες επιστήμονες Elena Montiel-Ponsoda και Jorge Gracia.

Μεταφραστές, ορολόγοι και ασκούμενοι από την Επιτροπή και το Κοινοβούλιο είχαν την ευκαιρία να παρακολουθήσουν αυτό το σεμινάριο και να μάθουν περισσότερα σχετικά με τα συνδεδεμένα δεδομένα. Αυτό περιελάμβανε τα οφέλη αυτής της τεχνολογίας για τους γλωσσικούς πόρους, καθώς και την ανακάλυψη περισσότερων σχετικά με τα υπάρχοντα μοντέλα γλωσσικών πληροφοριών που αντιπροσωπεύονται ως Συνδεδεμένα Δεδομένα.

Εμπνευσμένοι από την παρουσίαση αυτή, δύο από τους ασκούμενους της Μονάδας Συντονισμού Ορολογίας έδωσαν συνέντευξη σε καθέναν από τους δύο ομιλητές. Σήμερα, η TermCoord δημοσιεύει το πρώτο από αυτά, με τον επιστήμονα υπολογιστών, Jorge Gracia.

Ο τομέας ενδιαφέροντος του κ. Gracia επεκτείνεται, μεταξύ άλλων, στην αντιστοίχιση γλωσσικών ανοικτών δεδομένων και οντολογίας. Έρευνα όπως αυτή θα μπορούσε να αλλάξει τον τρόπο με τον οποίο συγκεντρώνουμε, αποθηκεύουμε και εργαζόμαστε με βάσεις δεδομένων ορολογίας, και αυτός είναι ο λόγος για τον οποίο αποφασίσαμε να συμπεριλάβουμε αυτή τη συνέντευξη στη σειρά εκδόσεων «Γιατί η Ορολογία σας πάθος;» Μια εξίσου ενδιαφέρουσα συνέντευξη με τη συνπαρουσιάστρια του προαναφερθέντος σεμιναρίου, κυρία Elena Montiel-Ponsoda, θα είναι επίσης σύντομα online.


Jorge Gracia είναι κάτοχος πτυχίου Φυσικής από το Πανεπιστήμιο της Σαραγόσα, όπου έλαβε επίσης διδακτορικό στην Επιστήμη των Υπολογιστών με διατριβή με τίτλο «Τεχνικές Ένταξης και Αποσαφήνισης για τη Μείωση της Σημασιολογικής Ετερογένειας στον Ιστό» (2009). Σήμερα εργάζεται ως επίκουρος καθηγητής στο Πανεπιστήμιο της Σαραγόσα. Προηγουμένως, εργάστηκε σε συμβουλευτικές υπηρεσίες υπολογιστών στη Βαρκελώνη και, πιο πρόσφατα, ως μεταδιδακτορικός ερευνητής στο Universidad Politécnica de Madrid, συμμετέχοντας σε κορυφαία ερευνητικά προγράμματα για τη σημασιολογία και τη μηχανική της γνώσης. Έχει διατελέσει επισκέπτης ερευνητής σε κορυφαία ερευνητικά κέντρα όπως το Ινστιτούτο Μέσων Γνώσης (Ανοικτό Πανεπιστήμιο, Ηνωμένο Βασίλειο), το INRIA (Grenoble, Γαλλία), το Università di Roma «La Sapienza» (Ιταλία) και το CITEC στο Πανεπιστήμιο του Bielefeld (Γερμανία). Οι κύριες ερευνητικές του περιοχές είναι το Σημασιολογικό Ιστό, Γλωσσικά Συνδεδεμένα Δεδομένα, Οντολογική Αντιστοίχιση και Ερμηνεία Ερωτήσεων. Είναι συμπρόεδρος της ομάδας W3C Best Practices for Multilingual Linked Open Data Community Group και επί του παρόντος είναι συμπρόεδρος της ομάδας της κοινότητας W3C Ontology Lexica, όπου λεμόνι-Ontolex το μοντέλο έχει αναπτυχθεί.


1. Είστε επιστήμονας υπολογιστών και τα περισσότερα από τα τελευταία ερευνητικά σας έργα αφορούν την επεξεργασία φυσικής γλώσσας και τους γλωσσικούς πόρους στο διαδίκτυο των δεδομένων. Τι σας γοητεύει περισσότερο με αυτά τα έργα;

Η κατανόηση της φυσικής γλώσσας από τις μηχανές είναι ένας μακροπρόθεσμος στόχος της τεχνητής νοημοσύνης. Η έρευνά μας, στη διασταύρωση της γλωσσολογίας και του σημασιολογικού ιστού, έχει πιο μετριοπαθείς στόχους, αλλά εξακολουθεί να είναι ένα βήμα προς αυτή την κατεύθυνση. Αυτό που θεωρώ πιο προκλητικό και συναρπαστικό είναι η εγγενώς ανακριβής φύση της ανθρώπινης γλώσσας, τόσο διαφορετική από τις επίσημες και δομημένες γλώσσες που χρησιμοποιούν οι υπολογιστές για να εκτελέσουν τα προγράμματά τους. Ως εκ τούτου, είναι πολύ επιβράβευση όταν, μέσω ενός προγράμματος υπολογιστή, είστε σε θέση να εξαγάγετε κάποιες ιδέες από γλωσσικά δεδομένα, να επισημοποιήσετε τη σημασιολογία ορισμένων οντοτήτων ή να συμπεράνετε νέες γνώσεις.

2. Τι είναι τα Συνδεδεμένα Δεδομένα και γιατί είναι χρήσιμα για τους γλωσσικούς πόρους, την ορολογία και τα λεξικά;

Τα συνδεδεμένα δεδομένα αναφέρονται σε ένα σύνολο βέλτιστων πρακτικών για την έκθεση, την κοινή χρήση και τη σύνδεση δεδομένων στον Ιστό. Αυτά τα δεδομένα μπορούν να αναφέρονται σε πρακτικά οτιδήποτε, συμπεριλαμβανομένων εγγράφων, ανθρώπων, φυσικών αντικειμένων και αφηρημένων εννοιών. Ως αποτέλεσμα, εμφανίζεται ένας «Ιστός Δεδομένων» στον οποίο οι σύνδεσμοι βρίσκονται στο επίπεδο των δεδομένων, ως αντιστάθμισμα του «παραδοσιακού» Ιστού, στον οποίο οι σύνδεσμοι δημιουργούνται στο επίπεδο των εγγράφων (π.χ. υπερσυνδέσεις μεταξύ ιστοσελίδων). Όταν εφαρμόζεται σε γλωσσικούς πόρους, αντιπροσωπεύουμε και συνδέουμε τα γλωσσικά δεδομένα και συμβάλλουμε στην ανάπτυξη του λεγόμενου νέφους γλωσσικών συνδεδεμένων ανοικτών δεδομένων.

Η δημοσίευση γλωσσικών πόρων ως Συνδεδεμένων Δεδομένων προσφέρει σαφή πλεονεκτήματα τόσο για τους κατόχους δεδομένων όσο και για τους χρήστες δεδομένων, όπως μεγαλύτερη ανεξαρτησία από μορφές δεδομένων που αφορούν συγκεκριμένους τομείς ή API για συγκεκριμένο προμηθευτή (αντ’ αυτού χρησιμοποιούνται καθιερωμένα πρότυπα της Κοινοπραξίας World Wide Web), καθώς και ευκολότερη πρόσβαση και επαναχρησιμοποίηση των γλωσσικών δεδομένων από λογισμικό σημασιολογικού περιεχομένου. Στην πραγματικότητα, τα Συνδεδεμένα Δεδομένα επιτρέπουν την ευκολότερη σύνδεση συνόλων δεδομένων που δημιουργούνται από διαφορετικούς ανθρώπους και για διαφορετικούς σκοπούς σε ένα ενιαίο γράφημα, έτσι ώστε οι συνδυασμένες πληροφορίες να μπορούν πιο εύκολα να διασταυρωθούν, να αναζητηθούν και να αναλυθούν.

3. Θα μπορούσατε να μας δώσετε μερικά παραδείγματα Συνδεδεμένων Δεδομένων στην ορολογία; Ποια αποτελέσματα μπορούν να λάβουν οι ορολόγοι εάν χρησιμοποιούμε τα Συνδεδεμένα Ανοικτά Δεδομένα και πώς διαφέρουν από τα αποτελέσματα που λαμβάνουμε μέσω των παραδοσιακών βάσεων δεδομένων που χρησιμοποιούμε σήμερα;

Ένα ενδιαφέρον παράδειγμα Συνδεδεμένων Δεδομένων στην ορολογία είναι το Terminoteca RDF, μια προσπάθεια που ξεκινήσαμε όταν ήμουν μέλος του Ομίλου Μηχανικών Οντολογίας (Universidad Politécnica de Madrid), που επικεντρώθηκε στη μετατροπή μιας σειράς πολύγλωσσων ορολογιών στην Ισπανία σε Συνδεδεμένα Δεδομένα. Ως αποτέλεσμα, λάβαμε ένα ενιαίο γράφημα όπου ορολογικά δεδομένα που αρχικά αποσυνδέθηκαν ήταν εύκολα ανιχνεύσιμα με απλά ερωτήματα. Οι ίδιοι τύποι ερωτημάτων δεν είναι αδύνατοι μέσω των παραδοσιακών βάσεων δεδομένων, αλλά απέχουν πολύ από την απλή και έρχονται στο τίμημα της απώλειας πτυχών με επίκεντρο τον Ιστό (στο Web of Data, οι όροι ορίζονται με μοναδικό τρόπο σε κλίμακα Web και μπορούν να ανακαλυφθούν/αναζητηθούν μέσω των προτύπων Web).

4. Κατά τη γνώμη σας, ποιες δεξιότητες πληροφορικής χρειάζεται να έχει ένας ορολόγος;

Κατά τη γνώμη μου, οι σύγχρονοι ορολόγοι δεν χρειάζεται να είναι ειδικοί στον τομέα της πληροφορικής, αλλά τουλάχιστον να γνωρίζουν τις νέες τεχνολογίες που μπορούν να έχουν αντίκτυπο στο έργο τους και να είναι ανοιχτόμυαλοι απέναντί τους. Αυτό θα τους δώσει την ικανότητα να επιλέγουν τι είναι καλύτερο για το έργο τους, καθώς και την ικανότητα καλύτερης επικοινωνίας των αναγκών τους με τους τεχνολόγους.

5. Η IATE είναι μια βάση δεδομένων με πάνω από ένα εκατομμύριο πολύγλωσσες καταχωρήσεις και ορισμένα σύνολα δεδομένων του περιεχομένου της είναι Συνδεδεμένα Δεδομένα. Τι θα απαιτούσε για να μετατραπεί ολόκληρη η βάση δεδομένων σε Συνδεδεμένα Δεδομένα και ποια θα ήταν τα πλεονεκτήματα αυτής της διαδικασίας;

Η επίδειξη συνδεδεμένων δεδομένων της IATE που κατασκευάστηκε στο πλαίσιο του ευρωπαϊκού έργου LIDER έδειξε τη σκοπιμότητα της εφαρμογής τεχνικών συνδεδεμένων δεδομένων σε έναν τόσο σημαντικό πόρο, αλλά αυτό βασίστηκε σε ένα ανοικτό υποσύνολο των δεδομένων. Η κατάσταση του συνόλου των δεδομένων όσον αφορά την αδειοδότηση και τη δυνατότητα επαναχρησιμοποίησης θα πρέπει να ελέγχεται ώστε να είναι δυνατή η πλήρης μετάβαση. Εάν πραγματοποιηθεί αυτή η μετατροπή, τα δεδομένα της IATE θα είναι έτοιμα για επαναχρησιμοποίηση από πράκτορες και εφαρμογές λογισμικού που έχουν επίγνωση συνδεδεμένων δεδομένων και για τη διασύνδεσή τους με άλλους πόρους στο γλωσσικό υπολογιστικό νέφος ανοικτών δεδομένων.

6. Δούλεψες πάνω στο λεμόνι μοντέλο, ένα μοντέλο γλωσσικών πληροφοριών ως Συνδεδεμένα Δεδομένα. Πώς μπορεί να χρησιμοποιηθεί η διαλειτουργικότητα αυτού του μοντέλου για τη μετάφραση ή/και την ορολογία, δηλαδή για την IATE;

λεμόνι, όταν χρησιμοποιείται για την αναπαράσταση των μεταφράσεων, μπορεί να είναι χρήσιμη σε δύο επίπεδα: πρώτον, σε επίπεδο εκπροσώπησης της γνώσης και, δεύτερον, σε επίπεδο διαλειτουργικότητας δεδομένων.

Πρώτον, μία από τις πτυχές της λεμόνι στην οποία συμμετείχα περισσότερο, από κοινού με τους συναδέλφους μου στο Universidad Politécnica de Madrid, υπήρξε η ανάπτυξη μιας ενότητας για την εκπροσώπηση των μεταφράσεων και των ορολογικών παραλλαγών. Η ενότητα αυτή, που ονομάζεται «vartrans», καλύπτει τις ανάγκες εκπροσώπησης κατά τη λογιστική αντιμετώπιση των μεταφράσεων και των παραλλαγών. Εάν κάποιος χρειάζεται μια πλούσια αναπαράσταση των μεταφραστικών σχέσεων ως Συνδεδεμένα Δεδομένα, για παράδειγμα, για να καταγράψει την προέλευση της μετάφρασης, την κατευθυντικότητα (πηγή/στοχευμένες γλώσσες) ή το είδος της μετάφρασης (π.χ. «άμεση μετάφραση», «πολιτιστικό ισοδύναμο» κ.λπ.), η ενότητα αυτή μπορεί να είναι πολύ χρήσιμη.

Δεύτερον, τα συνδεδεμένα δεδομένα σας επιτρέπουν να συνδέσετε μεταφράσεις από διαφορετικές πολύγλωσσες/δίγλωσσες πηγές δεδομένων και λεξικά σε ένα ενιαίο γράφημα, ώστε να μπορείτε εύκολα να συναγάγετε νέες μεταφράσεις μεταξύ αρχικά αποσυνδεδεμένων γλωσσών που δεν είχαν οριστεί ρητά στα αρχικά δεδομένα. Στο πλαίσιο αυτό, συνδιοργανώνω ένα «Μεταφραστικό συμπέρασμα μεταξύ των λεξικών» που μοιράστηκε το έργο (https://tiad2019.unizar.es/) με την ιδέα της διερεύνησης και σύγκρισης τεχνικών που συνάγουν τέτοιες έμμεσες μεταφράσεις.

7. Ένα άλλο έργο στο οποίο συμμετείχατε ονομάζεται Απέρτιο, μια πλατφόρμα αυτόματης μετάφρασης. Θα μπορούσατε να μας εξηγήσετε λίγο περισσότερα σχετικά με αυτό το έργο;

Απέρτιο είναι μια πλατφόρμα ανοιχτού κώδικα για την ανάπτυξη της μηχανικής μετάφρασης που βασίζεται σε κανόνες, που αναπτύχθηκε αρχικά από το Universitat d’Alacant στην Ισπανία, και τώρα στα χέρια μιας ευρύτερης και πολύ δραστήριας κοινότητας. Δεν συμμετείχα σε αυτό το συναρπαστικό έργο άμεσα, αλλά πήρα μερικούς από τους πόρους τους και τους μεταμόρφωσα για να εμπλουτίσω το σύννεφο των Γλωσσικών Συνδεδεμένων Ανοιχτών Δεδομένων. Για παράδειγμα, μια οικογένεια δίγλωσσων λεξικών χτίστηκε ως μέρος του Απέρτιο, η οποία αξιοποιήθηκε από τα μεταφραστικά συστήματα. Αυτό που κάναμε ήταν να μετατρέψουμε είκοσι δύο τέτοια λεξικά σε RDF (ο βασικός φορμαλισμός για να αντιπροσωπεύσουμε τα δεδομένα ως Συνδεδεμένα Δεδομένα) και να τα δημοσιεύσουμε στο διαδίκτυο. Ονομάσαμε αυτή την πρωτοβουλία «Apertium RDF», η οποία είναι μια ωραία επίδειξη της χρήσης του λεμόνι να αναπαριστά και να διασυνδέει δίγλωσσα λεξικά στον Ιστό των Δεδομένων.

8. Έχετε ένα blog όπου γράφετε για την πληροφορική και το Σημασιολογικό Ιστό. Σε ποιο βαθμό πιστεύετε ότι το blog και άλλα μέσα κοινωνικής δικτύωσης βοηθούν ώστε οι άνθρωποι να σας προσεγγίσουν και τις γνώσεις που μοιράζεστε;

Δυστυχώς, δεν αφιερώνω πολύ χρόνο στο blog, αν και σκοπεύω να το αλλάξω στο εγγύς μέλλον. Θεωρώ ότι αυτή η μορφή είναι ένας τρόπος ανταλλαγής γνώσεων που συμπληρώνει πολύ καλά τις επιστημονικές εργασίες, οι οποίες είναι πιο δύσκολο να καταναλωθούν από μη ειδικούς. Εκτός από αυτό, γράφοντας μια εγγραφή στο blog είναι μια πολύ καλή άσκηση για να βάλετε τις ιδέες σας σε τάξη και να τις διατυπώσετε με πιο προσιτό τρόπο.

9. Lynx είναι το νέο έργο στο οποίο εργάζεστε εσείς και η ομάδα σας. Θα μπορούσατε να περιγράψετε ποιος είναι ο στόχος του έργου;

Με λίγα λόγια, η ιδέα της Lynx πρόκειται να δημιουργήσει ένα διάγραμμα νομικών γνώσεων που θα ενσωματώνει και θα συνδέει ετερογενείς πηγές δεδομένων συμμόρφωσης, συμπεριλαμβανομένης της νομοθεσίας, της νομολογίας, των προτύπων και άλλων ιδιωτικών συμβάσεων, για τη στήριξη της ανάπτυξης έξυπνων υπηρεσιών για τη συμμόρφωση με τις νομικές διατάξεις. Η πολυγλωσσική πτυχή είναι πολύ σημαντική στο έργο, δεδομένου ότι τα κύρια ζητήματα της συμμόρφωσης με τις νομοθετικές διατάξεις λαμβάνουν χώρα συνήθως διασυνοριακά και γλωσσικά. Οι τεχνικές των Συνδεδεμένων Δεδομένων είναι βασικές σε αυτό το έργο, οι οποίες χρησιμοποιούνται τόσο για την αναπαράσταση της γνώσης όσο και για τη σύνδεσή της.

10. Πώς οραματίζεστε το μέλλον για τους πόρους της γλώσσας και της ορολογίας, καθώς και για τα λεξικά;

Νομίζω ότι τα λεξικά και οι ορολογίες πρέπει να απαλλαγούν από τα φυσικά τους όρια για να γίνουν εγγενώς ψηφιακά. Αν και υπάρχουν πολλά ηλεκτρονικά λεξικά εκεί έξω, τα περισσότερα από αυτά εξακολουθούν να κολλούν στην έντυπη έκδοση της φόρμας και μιμούνται τις ιεραρχικές δομές που μπορεί κανείς να βρει στο χαρτί. Αλλά αυτό είναι μόνο μία από τις πολλές πιθανές ρυθμίσεις των λεξικών πληροφοριών. Στο παράδειγμα των Συνδεδεμένων Δεδομένων, οποιοδήποτε στοιχείο του λεξικού (λεξική εισαγωγή, λεξιλογική έννοια, μετάφραση, μορφή κ.λπ.) μπορεί να είναι «πολίτης πρώτης κατηγορίας» και να γίνει το κέντρο μιας γραφικής δομής, η οποία θα επιτρέψει πολλές άλλες πιθανές ρυθμίσεις και απόψεις σχετικά με τις πληροφορίες.

Τα συνδεδεμένα δεδομένα έχουν αποδειχθεί χρήσιμα για τους γλωσσικούς πόρους γενικά, ιδιαίτερα όταν πρόκειται για ορολογίες και λεξικά. Μέσω αυτών των τεχνολογιών, προβλέπουμε πιο ενοποιημένα/συνδεδεμένα γραφήματα ορολογίας και λεξικών στο διαδίκτυο, εμπλουτισμένα μέσω της σύνδεσής τους με άλλους πόρους. Μια εκκρεμής πρόκληση είναι η δημιουργία «Linked Data native» λεξικών/ορισμών (μέχρι στιγμής έχουμε μετατρέψει τα υπάρχοντα), τα οποία θα ανοίξουν το πεδίο σε νέες συναρπαστικές δυνατότητες και νέες (μη οραματιζόμενες) μορφές εργασίας με λεξικογραφικά δεδομένα.


Συνέντευξη της Olga Vamvaka — ασκούμενης ορολογίας στη Μονάδα Συντονισμού Ορολογίας του Ευρωπαϊκού Κοινοβουλίου (Λουξεμβούργο).

Είναι κάτοχος πτυχίου Διεθνών Σχέσεων και Οργανισμών και MA στη Μετάφραση και έχει εργαστεί στη διδασκαλία γλωσσών. Μιλάει ελληνικά, αγγλικά, τσεχικά και γαλλικά.