Texte, Mots, Morphemes: possibilités d’extraction terminologique automatique

1236

This week we would like to present the master thesis of Hans Friedrich Witschel.

Son titre original est «Texte, Wörter, Morpheme — Möglichkeiten einer automatischen Terminologie-Extraktion».

Le professeur Witschel est actuellement chargé de cours à l’Université des sciences appliquées du Nord-Suisse. Sa thèse lui a valu le prix GSCL 2005, décerné par la prestigieuse Société allemande de linguistique informatique. Vous pouvez lire ci-dessous le résumé complet traduit en anglais:

Cet article traite d’un sous-domaine de Text Mining, car il cherche à extraire des informations (en l’occurrence la terminologie technique) du texte en langage naturel. La thèse indique que dans de nombreux domaines de Text Mining, la combinaison de différentes méthodes peut être utile, afin de faire face à la richesse du langage naturel.
Les méthodes utilisées pour l’extraction terminologique sont de nature statistique et linguistique (ou fondée sur le modèle). Pour les déduire, certaines caractéristiques nécessaires des termes techniques ont été élaborées, qui sont pertinentes pour leur extraction. Par exemple, le fait que de nombreux termes techniques sont des phrases nominales d’une certaine forme pourrait être utilisé directement pour rechercher certains P(art)O(F)S(Peech) les modèles, tandis que la distribution des termes dans les textes techniques a conduit à une approche statistique (analyse différentielle). Avec d’autres, ces approches ont été intégrées dans une procédure. qui est capable d’apprendre des commentaires de l’utilisateur et d’affiner la recherche terminologique en plusieurs étapes.
Plusieurs paramètres de la procédure ont été laissés variables, c’est-à-dire que l’utilisateur peut les adapter en fonction de ses besoins. En examinant les résultats sur la base de deux textes techniques provenant de domaines différents, il est apparu clairement que, bien que les différentes procédures puissent être bien intégrées, les valeurs optimales des paramètres mutables, même la sélection des méthodes appliquées, dépendent toujours du texte et du domaine.
Cela montre également les limites de l’approche présentée, ainsi que de nombreuses méthodes Text-Mining en général: la nature multiforme du langage, même avec la combinaison de plusieurs procédures, rend impossible la création d’un système qui fonctionne aussi bien pour tous les textes.
La question de savoir si cette question peut être abordée par la «reconnaissance de domaine» et l’ajustement dynamique ultérieur des paramètres peut encore être réalisée, n’a pas pu être répondue dans cette thèse et devrait faire l’objet d’autres recherches.

La thèse complète du Dr Witschel est disponible ici.

Si vous êtes intéressé par d’autres thèses et articles sur la terminologie et la linguistique, consultez notre Thèses et Papiers section.



Introduit et traduit de l’allemand par Cosimo Palma, Stagiaire en communication à l’unité de coordination terminologique du Parlement européen (Luxembourg).