Ορολογία: μια υπολογιστική προσέγγιση στην ορολογία

2039

Η αυξανόμενη ανταλλαγή εμπειριών και γνώσεων μεταξύ των πεδίων της Επεξεργασίας Φυσικής Γλώσσας (NLP), της Ανάκτησης Πληροφοριών, της Γλωσσολογίας Corpus, της Υπολογιστικής Γλωσσολογίας, της Μηχανικής Γνώσης και της Τεχνητής Νοημοσύνης έχει ανοίξει νέες μεθοδολογικές και εφαρμοστικές προοπτικές στην Ορολογία.

Η ορολογία είναι ένα διεπιστημονικό πεδίο που ασχολείται με την εφαρμογή της Υπολογιστική Γλωσσολογία (η επιστήμη των υπολογιστών εφαρμόζεται στην ανάλυση και τη σύνθεση των γλωσσικών δεδομένων) και Γλωσσική Μηχανική (δημιουργία πόρων και εργαλείων NLP) ορολογία και ορολογικές εργασίες.

Ως εκ τούτου, η «Terminotics» μπορεί να θεωρηθεί ως λέξη μείγματος, συνδυάζοντας τόσο την «Τερμινολογία» όσο και την «Πληροφορική».

Αυτός ο προσανατολισμός, ο οποίος άρχισε να αναδύεται στα μέσα της δεκαετίας του’80, έφερε επανάσταση στη δουλειά των γλωσσικών επαγγελματιών, οδηγώντας σε μια προσέγγιση βασισμένη στην ανάλυση των σωμάτων για την εξαγωγή και τη συλλογή όρων.

Αυτή η νέα πειθαρχία έχει:

  • να επιταχυνθεί και να αυτοματοποιηθεί το ερευνητικό έργο χάρη στα εργαλεία εξόρυξης ορολογίας·
  • διευκόλυνση της διαχείρισης ορολογίας, ανάκτησης και επικαιροποίησης της ορολογίας με τη δημιουργία ορολογικών βάσεων δεδομένων.

Το Τμήμα Τεχνολογίας Μετάφρασης (TIM) του Πανεπιστημίου της Γενεύης προσφέρει ένα μεταπτυχιακό μάθημα για την Terminotics (ονομάζεται Terminotique και κρατείται από Η κ. Donatella Pulitano στα γαλλικά). Παρέχει βαθιά γνώση του τρόπου χρήσης και αξιολόγησης των διαθέσιμων ηλεκτρονικών εργαλείων λεξικογραφικής και ορολογίας και του λογισμικού διαχείρισης ορολογίας.

Αυτό το μάθημα διερευνά τρεις βασικούς τομείς ενδιαφέροντος για την Terminotics:

  • Διαχείριση ορολογίας 
  • Εξαγωγή ορολογίας
  • Επαλήθευση ορολογίας

Διαχείριση ορολογίας

Η διαχείριση ορολογίας πραγματοποιείται με εξειδικευμένα προϊόντα λογισμικού που έχουν σχεδιαστεί για να συλλέγουν, να διαχειρίζονται και να έχουν πρόσβαση στα δεδομένα μιας συλλογής ορολογίας.

Multiterm
MultiTerm

Αυτά τα εργαλεία είναι επίσης γνωστά ως TMS (συστήματα διαχείρισης ορολογίας), και μπορούν να χρησιμεύσουν για διάφορους σκοπούς, όπως η τεκμηρίωση και η κατάρτιση ορολογίας, η ανάκτηση πληροφοριών, η διαχείριση θησαυρού, η πολύγλωσση παραγωγή εγγράφων και η διαχείριση ορολογικών εγγράφων, γλωσσαρίων και βάσεων όρων. 

Για να λειτουργήσει αποτελεσματικά, ένα TMS θα πρέπει να είναι συμβατό με τους υπάρχοντες επεξεργαστές κειμένου και τα εργαλεία CAT και θα πρέπει να είναι σε θέση να επεξεργάζεται και να διαχειρίζεται απεριόριστο αριθμό καταχωρίσεων ορολογίας. Τα διαφορετικά πεδία σε μια καταχώρηση ορολογίας θα πρέπει να είναι αρκετά μεγάλα ώστε να ενσωματώνουν όλα τα δεδομένα (όρο, συνώνυμο, πηγή, πλαίσιο, κ.λπ.) χωρίς να χρειάζεται να τα περιορίσουν ή να τα αποθηκεύσουν σε άλλο πεδίο.

Επιπλέον, το λογισμικό πρέπει να είναι σε θέση να υποστηρίζει ειδικούς χαρακτήρες και υπερσυνδέσμους και ένα συγκεκριμένο πεδίο θα πρέπει να προορίζεται για κάθε γλώσσα. Ακόμη και αν η συλλογή αφορά μόνο δύο γλώσσες, μπορεί να είναι χρήσιμο να υπάρχει η δυνατότητα ενσωμάτωσης ισοδύναμων σε πρόσθετες γλώσσες. Η αναζήτηση πρέπει να είναι εύκολη και να βασίζεται σε διάφορα κριτήρια αναζήτησης (ανά πεδίο, συνδυασμούς λέξεων κ.λπ.) και θα πρέπει να επιτρέπει τη φιλική προς τον χρήστη και την απλή επεξεργασία των πληροφοριών.

Η επιλογή ενός TMS εξαρτάται από διάφορους παράγοντες:

  • το λειτουργικό σύστημα και την αρχιτεκτονική λογισμικού·
  • τη χρήση και τον σκοπό για τον οποίο προορίζεται·
  • επίπεδα και δικαιώματα πρόσβασης των χρηστών· 
  • τον αριθμό και το είδος των γλωσσών που θα υποστηριχθούν·
  • τα δεδομένα που πρέπει να περιλαμβάνονται σε καταχώριση ορολογίας·
  • την ανάγκη εισαγωγής ή ανταλλαγής δεδομένων (και μορφότυπων)·
  • την ανάγκη διαχείρισης των δεδομένων πολυμέσων·
  • τους διαθέσιμους πόρους (για την εγκατάσταση του συστήματος και τη συντήρησή του).

Τα MultiTerm, TermStar, MultiTrans, Déjà Vu, QTerm, Across και Fusion είναι παραδείγματα TMS που διατίθενται στην αγορά.

Εξαγωγή ορολογίας

Πριν προχωρήσει στην ταυτοποίηση των υποψηφίων, ο ορολόγος πρέπει να διαθέτει διάφορους πόρους, συμπεριλαμβανομένων των μεγάλων σωματείων που μπορεί να είναι μονόγλωσσα ή δίγλωσσα. Μόλις συγκεντρωθεί το σώμα, ο ορολόγος μπορεί να ξεκινήσει με τον προσδιορισμό των όρων υποψηφίων, χρησιμοποιώντας ένα αυτόματο σύστημα. 

SDL Extract
Εκχύλισμα SDL

Ένας εξολκέας ορολογίας αποτελείται από ένα σύνολο προγραμμάτων υπολογιστών που προσπαθούν να εξαγάγουν μονάδες ορολογίας από ένα μηχανογραφημένο σώμα. Μπορεί να χρησιμοποιηθεί για την εξαγωγή όρων υποψηφίων, τη συλλογή χρήσιμων πληροφοριών για ορολογικές και ορολογικές εργασίες, τη συμπλήρωση των υπαρχουσών καταχωρήσεων και την εύρεση συνεγκαταστάσεων. Ωστόσο, αυτό το είδος εργαλείου έχει σημαντικούς περιορισμούς: δημιουργεί «θόρυβο», δηλαδή την ανάκτηση άσχετων όρων υποψηφίων, και «σιωπή», η οποία ορίζεται ως μη ανάκτηση του σχετικού όρου υποψηφίους από τη βάση δεδομένων και, ως εκ τούτου, απαιτεί χειροκίνητη παρέμβαση. 

Οι εκχυλιστές μπορούν να βασίζονται είτε σε στατιστική είτε σε γλωσσική προσέγγιση και μπορούν να πραγματοποιηθούν σε μονόγλωσσα ή δίγλωσσα σώματα. Τα εργαλεία που βασίζονται στο στατιστικό σύστημα λειτουργούν συγκρίνοντας πανομοιότυπες επαναλαμβανόμενες συμβολοσειρές χαρακτήρων ανεξάρτητα από τις γλώσσες και δεν απαιτούν προηγούμενη λαμματοποίηση.

Η εξαγωγή του όρου υποψηφίους με βάση μια γλωσσική διαδικασία συνήθως περιλαμβάνει κατάτμηση (tokenization), μορφολογική ανάλυση και λαμματοποίηση, επισήμανση και αποσαφήνιση και εκχύλιση. Αυτά τα εργαλεία υλοποιούν μια πλήρη μορφολογική ανάλυση για τον προσδιορισμό του λήμματος για κάθε λέξη και τον προσδιορισμό των ορίων λέξεων (σημεία στίξης, συζευγμένα ρήματα κ.λπ.), οδηγώντας σε πιο ακριβή και πειστικά αποτελέσματα.

Η επιλογή του λογισμικού εξαγωγής εξαρτάται από:

  • τη μορφή των εγγράφων που πρέπει να εξαχθούν·
  • την ύπαρξη καταλόγου κενών λέξεων για τις σχετικές γλώσσες·
  • την απαραίτητη υποδομή ΤΠ·
  • την ανάγκη άντλησης άλλων πληροφοριών πέραν του όρου «υποψήφιος»·
  • διαθέσιμοι πόροι.

SDL Extract, Synchro Term και ApSIC Xbench είναι παραδείγματα όρων εκχυλιστές που διατίθενται στην αγορά.

Επαλήθευση ορολογίας

Ο επαληθευτής ορολογίας είναι ένα πρόγραμμα ή ενότητα που χρησιμοποιείται για να ελεγχθεί αν η συνιστώμενη ορολογία χρησιμοποιείται στα έγγραφα πηγής και στόχου και έχει ως στόχο να ανιχνεύσει και να αναφέρει ασυνέπειες ορολογίας, σύνταξης και ορθογραφίας. Τα εργαλεία αυτά είναι απαραίτητα κατά την (ημι)αυτοματοποίηση συγκεκριμένων διαδικασιών και μπορούν να χρησιμοποιηθούν πριν ή μετά τη μετάφραση ή την αναδιατύπωση εγγράφων. 

Κατά την αναθεώρηση κειμένου, ένα εργαλείο ελέγχου ελέγχει συνήθως για αριθμούς, μορφές αριθμών, ημερομηνίες, μορφοποίηση, ετικέτες, μη μεταφρασμένα ή αντιγραμμένα τμήματα, στίξη, ορθογραφία και γραμματική.

Συνήθως, ένας ελεγκτής ορολογίας μπορεί να βασίζεται σε ένα στατιστικό σύστημα ή ένα γλωσσικό σύστημα. Ένα στατιστικό σύστημα συγκρίνει τις συμβολοσειρές χαρακτήρων και δημιουργεί μια λίστα με τους απορριφθέντες όρους και μερικές φορές ανιχνεύει παραλλαγές ορθογραφίας ή φόρμες. Ένα γλωσσικό σύστημα δημιουργεί μια πρόταση όρων υποψηφίων, προσδιορίζοντας σύνθετα πρότυπα μορφοποίησης λέξεων για κάθε γλώσσα.

Για να εκτελέσει με επιτυχία, ο ελεγκτής πρέπει να είναι στον επεξεργαστή κειμένου, με το Word Add-Ins, έτσι ώστε να μπορεί να αντιμετωπίσει τις ασυνέπειες ορολογίας στη ρίζα τους. Επίσης, η χρησιμοποιούμενη ορολογία πρέπει να περιλαμβάνει την κατηγορία «κανονιστική κατάσταση», η οποία είναι απαραίτητη για την ανίχνευση όρων που έχουν καταργηθεί.

Στο τέλος, το εργαλείο ελέγχου θα παράγει ένα σχολιασμένο κείμενο με διαφορετικά χρώματα για κάθε ένα από τα προβλήματα που εντοπίστηκαν και μια περίληψη των ζητημάτων, που συνήθως περιέχονται σε μια έκθεση.

Όταν τα εργαλεία CAT δεν ενσωματώνουν τον επαληθευτή ορολογίας, ο γλωσσικός επαγγελματίας μπορεί να προβεί σε χειροκίνητη αναθεώρηση με βάση τους κανόνες που περιέχονται στον οδηγό στυλ.

Η επιλογή του λογισμικού επαλήθευσης εξαρτάται από:

  • τη μορφή των εγγράφων που πρέπει να ελεγχθούν·
  • τις γλώσσες προς εξέταση·
  • την απαραίτητη υποδομή ΤΠ (συμπεριλαμβανομένης της δυνατότητας αλληλεπίδρασης με τις τράπεζες ορολογίας)·
  • τους διαθέσιμους πόρους (περιπλοκότητα και διαμόρφωση των γλωσσικών συστημάτων, προετοιμασία των εγγράφων που πρέπει να ελεγχθούν)·
  • η ανάγκη εξεύρεσης υποψηφίων.

Η ορολογία είναι απαραίτητη στο έργο των «παραδοσιακών ομάδων χρηστών», όπως οι τεχνικοί μεταφραστές, οι διερμηνείς, οι ορολόγοι, οι ειδικοί τυποποίησης και οι σχεδιαστές γλωσσών. Εκτός από αυτές, υπάρχουν και άλλες ομάδες χρηστών, όπως τεχνικοί συγγραφείς, εμπειρογνώμονες θεματικού πεδίου, ειδικοί τεκμηρίωσης (όπως οι μεταγλωττιστές των θησαυρών), ειδικοί πληροφοριών και μηχανικοί γνώσης.

Η αποτελεσματική διαχείριση της ορολογίας μπορεί να επηρεάσει την ταχύτητα της μετάφρασης, τη συνέπεια και την ποιότητα του κειμένου-στόχου. Μπορεί επίσης να βοηθήσει στη μείωση του κόστους και να διευκολύνει τους γρήγορους χρόνους διεκπεραίωσης της μετάφρασης, γεγονός που αποτελεί καθοριστικό παράγοντα σε αυτή την εποχή των έντονων πιέσεων της αγοράς. Στο τέλος, το κλειδί για την επιτυχία είναι η πλήρης γνώση αυτών των εργαλείων εργασίας, τα οποία αναμφίβολα έχουν σχετικά οφέλη για τους γλωσσικούς επαγγελματίες.

 

ΠΗΓΕΣ

Magris M., Musacchio M.T., Rega L., Scarpa F., (2001). Εγχειρίδιο ορολογίας. Aspetti teorici, metodologici e applicativi. Ο Χοεπλί. Ο Μίλανο.

Marzà N.E., (2009). Η εξειδικευμένη λεξικογραφική προσέγγιση: Ένα βήμα παραπέρα στο Λεξικό Making. Εκδόσεις Πίτερ Λανγκ. Ο Μπερν.

Olejnik S., (1999). Eurologos Μηχανογραφημένη Μεταφραστική Τεχνολογία, [Online], διαθέσιμο στη διεύθυνση: http://www.francamente2.com/wp-content/uploads/2014/10/Traductique-EN.pdf [Προσβάστηκε στις 5 Οκτωβρίου 2020].

Section de terminologie de la Chancellerie fédérale, (2014). Recommandations relatives à la terminologie, CST — Conférence des Services de traduction des États européens [Πρόσβαση 5 Οκτωβρίου 2020].

Ορολογία, [ONLINE], Διατίθεται στη διεύθυνση: https://sierterm.es/content/terminotics/?lang=en [Προσβάστηκε στις 5 Οκτωβρίου 2020].

Terminotique, Programme des cours, Université de Genève, διαθέσιμο στη διεύθυνση: https://wwwi.unige.ch/cursus/programme-des-cours/web/teachings/details/2020-BTM0907?year=2020.

Το Τμήμα Μεταφραστικής Τεχνολογίας (TIM), Université de Genève, https://www.unige.ch/fti/en/faculte/departements/dtim/.

Wright S.E., Budin G., (1997). Εγχειρίδιο Διαχείρισης Ορολογίας. Εκδοτική εταιρεία John Benjamins. Στο Αμστερνταμ.


Written by Μαρία Κάρμεν Σταϊάνο, ένας λάτρης της τεχνολογίας μετάφρασης με εμπειρία στη διαχείριση έργων και την τοπικοποίηση. Κατέχει πτυχίο στη Γλωσσική και Πολιτιστική Διαμεσολάβηση και Μεταπτυχιακό στην Εξειδικευμένη Μετάφραση στο Πανεπιστήμιο της Νάπολης «L’Orientale».