Κείμενο, λέξεις, Μορφές: δυνατότητες αυτόματης εξαγωγής ορολογίας

1235

This week we would like to present the master thesis of Hans Friedrich Witschel.

Ο αρχικός τίτλος του είναι «Κείμενο, Wörter, Morpheme — Möglichkeiten einer automatischen Terminologie-Extraktion».

Ο καθηγητής Witschel είναι επί του παρόντος λέκτορας στο Πανεπιστήμιο Εφαρμοσμένων Επιστημών της Βόρειας Ελβετίας. Η διατριβή του κέρδισε το βραβείο GSCL 2005, που απονέμεται από τη διάσημη Γερμανική Εταιρεία Υπολογιστικής Γλωσσολογίας. Μπορείτε να διαβάσετε παρακάτω την πλήρη περίληψη μεταφρασμένη στα αγγλικά:

Η παρούσα εργασία ασχολείται με ένα υποπεδίο της Εξόρυξης Κειμένου, καθώς επιδιώκει να εξαγάγει πληροφορίες (σε αυτή την περίπτωση τεχνική ορολογία) από το κείμενο της φυσικής γλώσσας. Η διατριβή αναφέρει ότι σε πολλούς τομείς της Μεταλλευτικής Κειμένου ο συνδυασμός διαφορετικών μεθόδων μπορεί να είναι χρήσιμος, προκειμένου να αντιμετωπιστεί ο πλούτος της φυσικής γλώσσας.
Οι μέθοδοι που χρησιμοποιούνται για την εξαγωγή ορολογίας είναι στατιστικής και γλωσσικής (ή βάσει προτύπων) φύσης. Για την εξαγωγή τους, έχουν εκπονηθεί ορισμένα απαραίτητα χαρακτηριστικά των τεχνικών όρων, τα οποία είναι σημαντικά για την εξαγωγή τους. Για παράδειγμα, το γεγονός ότι πολλοί τεχνικοί όροι είναι ονομαστικές φράσεις μιας συγκεκριμένης μορφής θα μπορούσε να χρησιμοποιηθεί άμεσα για την αναζήτηση ορισμένων Π(τέχνη)Ο(στ)Α)(Peech) πρότυπα, ενώ η κατανομή των όρων στα τεχνικά κείμενα οδήγησε σε μια στατιστική προσέγγιση (διαφορική ανάλυση). Μαζί με ορισμένες άλλες, οι προσεγγίσεις αυτές έχουν ενσωματωθεί σε μια διαδικασία η οποία είναι σε θέση να μάθει από τα σχόλια του χρήστη και να βελτιώσει την αναζήτηση ορολογίας σε περισσότερα βήματα.
Αρκετές παράμετροι της διαδικασίας έχουν μείνει μεταβλητές, δηλαδή ο χρήστης μπορεί να τις προσαρμόσει ανάλογα με τις ανάγκες του. Κατά την εξέταση των αποτελεσμάτων βάσει δύο τεχνικών κειμένων από διαφορετικούς τομείς, κατέστη σαφές ότι, αν και οι διαφορετικές διαδικασίες μπορούν πράγματι να ενσωματωθούν καλά, οι βέλτιστες τιμές των μεταβλητών παραμέτρων, ακόμη και η επιλογή των εφαρμοζόμενων μεθόδων, εξακολουθούν να εξαρτώνται τόσο από το κείμενο όσο και από τον τομέα.
Αυτό δείχνει επίσης τους περιορισμούς της προσέγγισης που παρουσιάζεται, καθώς και πολλές μεθόδους εξόρυξης κειμένων γενικά: η πολύπλευρη φύση της γλώσσας, ακόμη και με τον συνδυασμό πολλών διαδικασιών, καθιστά αδύνατη τη δημιουργία ενός συστήματος που λειτουργεί εξίσου καλά για όλα τα κείμενα.
Το ερώτημα αν αυτό μπορεί να αντιμετωπιστεί με την «αναγνώριση τομέα» και την επακόλουθη δυναμική προσαρμογή των παραμέτρων μπορεί ακόμη να επιτευχθεί, δεν θα μπορούσε να απαντηθεί στην παρούσα διατριβή και θα πρέπει να αποτελέσει αντικείμενο περαιτέρω ερευνών.

Η πλήρης διατριβή του Δρ Witschel είναι διαθέσιμη ΕΔΩ.

Αν ενδιαφέρεστε για άλλες διατριβές και εργασίες σχετικά με την ορολογία και τη γλωσσολογία, ελέγξτε το Διατριβές και έγγραφα το τμήμα.



Εισαγωγή και μετάφραση από τα γερμανικά σχετικά με Cosimo Palma, Επικοινωνία ασκούμενος στη Μονάδα Συντονισμού Ορολογίας του Ευρωπαϊκού Κοινοβουλίου (Λουξεμβούργο).