Warum Terminologieextraktion?

1831

funnel-helpEs besteht kein Zweifel, dass Terminologie in vielen Bereichen wie Ăśbersetzung, Normung, technische Dokumentation und Lokalisierung eine sehr wichtige Rolle spielt.

Fachrichtungen wie verschiedene Bereiche des Rechts und der Industrie haben alle erhebliche Mengen an fachspezifischen Terminologien. Darüber hinaus können viele Dokumentinitiatoren ihre eigene bevorzugte Terminologie verwenden. Die Recherche der spezifischen Begriffe, die erforderlich sind, um eine bestimmte Übersetzung zu vervollständigen, ist eine zeitaufwändige Aufgabe.

Der Versuch einer ersten Terminologieextraktion unter Verwendung von Begriffsextraktionswerkzeugen hat sich jedoch als sehr zeitsparend erwiesen. Trotz der Tatsache, dass die Extraktionswerkzeuge die Extraktion erleichtern, muss die daraus resultierende Liste der Kandidatenbegriffe von einem Humanterminologen oder Ăśbersetzer ĂĽberprĂĽft werden. Daher ist der Prozess der Begriffsextraktion computergestĂĽtzte statt vollautomatisch.

Begriffsextraktion kann definiert werden als die Operation der Identifizierung von Term-Kandidaten in einem bestimmten Text.

Es kann entweder einsprachig oder mehrsprachig (in der Regel zweisprachig) sein. Monolinguale Begriffextraktion versucht, einen Text oder Korpus zu analysieren, um Kandidatenbegriffe zu identifizieren, während mehrsprachige Begriffsextraktion bestehende Quelltexte zusammen mit ihren Übersetzungen analysiert, um potenzielle Begriffe und ihre Entsprechungen zu identifizieren.

Die Term-Extraktion umfasst in der Regel vier Schritte: die Zusammenstellung eines Korpus, die Extraktion von Term-Kandidaten, die Validierung des Begriffs Kandidaten und die automatische oder halbautomatische Erstellung terminologischer Aufzeichnungen.

Die Vorbereitung von Term-Extraktionsprojekten erfordert ein erhebliches menschliches Eingreifen: der Korpus fĂĽr die Extraktion muss vorbereitet werden, die verwendete Software muss eingerichtet werden, Wortlisten mĂĽssen importiert und Extraktionsregeln erstellt werden.

Es gibt drei Hauptbegriffextraktionsansätze, die normalerweise im Terminologiemanagement implementiert werden: linguistisch, statistisch oder hybrid.

Sprachlich

Term-Extraktionstools, die einen sprachlichen Ansatz verwenden, versuchen typischerweise, Wortkombinationen zu identifizieren, die bestimmten morphologischen oder syntaktischen Mustern entsprechen (z. B. „Adjektiv + Nomen“ oder „Noun+Noun“). Zu diesem Zweck werden Parser, part-of-speech taggers und morphological Analyzer verwendet, um den Inhalt des Korpus zu annotieren. Term-Kandidaten werden mit verschiedenen Muster-Matching-Techniken gefiltert. Offensichtlich ist der sprachliche Ansatz stark sprachabhängig, da sich Begriffsbildungsmuster von Sprache zu Sprache unterscheiden. Folglich sind Begriffeextraktionswerkzeuge, die einen sprachlichen Ansatz verwenden, im Allgemeinen darauf ausgelegt, in einer einzigen Sprache (oder eng verwandten Sprachen) zu arbeiten, und können nicht leicht auf die Arbeit mit anderen Sprachen ausgedehnt werden. Daher eignen sie sich nicht gut für die Integration in TM-Systeme, die in der Regel sprachunabhängig sind.

Statistik

Term-Extraktionstools, die einen statistischen Ansatz verwenden, suchen im Grunde nach wiederholten Sequenzen lexikalischer Elemente. Oft kann die Frequenzschwelle, die sich auf die Anzahl der Male bezieht, die ein Wort oder eine Wortfolge wiederholt werden muss, um als Kandidatenbegriff zu gelten, vom Benutzer festgelegt werden. Die Hauptstärke des statistischen Ansatzes ist seine Sprach-Unabhängigkeit.

Hybrid-Hybrid

Selbst wenn der sprachlich basierte Ansatz den Benutzern besser abgegrenzte Term-Kandidaten ermöglicht, erzeugt dieser Ansatz zu viel „Lärm“ (d. h. Nicht-Begriffe, übliche Ausdrücke). Auf der anderen Seite ist die Gefahr, „Schweigen“ zu erzeugen (d. h. Kandidaten mit niedrigem Frequenzwert zu vermissen), mit nur einem rein statistischen Ansatz viel höher.

Aus diesem Grund ist der häufigste Ansatz in dem Begriff Extraktion der hybride Ansatz, der sowohl statistische als auch sprachliche Informationen verwendet. Obwohl der Hauptteil solcher Ansätze statistisch ist, werden syntaktische Regeln und Filter integriert, um die Auswahl von Kandidatenbegriffen mit bestimmten syntaktischen Strukturen zu ermöglichen.

Neben der Genauigkeit bei der Auswahl des Begriffs Kandidaten sind weitere wichtige Bewertungskriterien fĂĽr die Terminologieextraktion die unterstĂĽtzten Dateiformate und Sprachen. Nicht alle Extraktionstools unterstĂĽtzen alle Formate, in denen Texte verfĂĽgbar sind.

Ein großes Problem sind auch die unterstützten Sprachen. Für westeuropäische Sprachen wie Englisch, Deutsch oder Französisch ist es einfacher, ein gutes linguistisches oder hybrides Extraktionswerkzeug zu finden. Für osteuropäische oder asiatische Sprachen ist das Angebot für solche Werkzeuge jedoch wirklich schlecht.

Tools zur Terminologieextraktion

Unterschiedliche Anwender, unterschiedliche Unternehmen und Institutionen bedeuten unterschiedliche Herausforderungen für den Begriff Extraktionsprojekte und unterschiedliche Erwartungen und Notwendigkeiten. Deshalb gibt es kein einziges „bestes Werkzeug“ für die Begriffsextraktion. Jeder Benutzer sollte Tests durchführen, bevor er das richtige Extraktionswerkzeug für seine Projekte wählt.

Es gibt viele kommerzielle Terminologieextraktoren wie zum Beispiel SDL TermExtract, SDL Phrase Finder oder Synchroterm.

Einige kostenlose Translation Memory Systeme bieten auch eine hervorragende integrierte automatische Terminologieextraktion wie zum Beispiel Similis oder Across Personal Edition.

Sie können auch kostenlose Term-Extraktionstools als termmine, AntConc oder Fivefilter finden.

Die meisten Tools zur Terminologieextraktion bieten Listen des Begriffs Kandidaten, die direkt validiert oder exportiert werden können, z. B. in *.txt oder *.csv für eine externe Validierung.

Obwohl eine Reihe von Tools zur Terminologieextraktion verfügbar sind, scheint es, dass nicht alle von ihnen den tatsächlichen Bedürfnissen von Übersetzern, Dolmetschern oder Terminologen gerecht werden. Diese Benutzergruppen erwarten Tools, die korrekt abgegrenzte Term-Kandidaten, Begriffserkennung und Begriffsvariantenerkennung liefern, Eigenschaften, die den Termvalidierungsprozess weniger zeitaufwändig und effektiver machen würden.