Text, Words, Morphemes: possibilities for an automatic terminology extraction

1142

This week we would like to present the master thesis of Hans Friedrich Witschel.

Naslov izvirnika se glasi ÔÇ×Text, W├Ârter, Morpheme ÔÇô M├Âglichkeiten einer automatischen Terminologie-ExtraktionÔÇť.

Profesor Witschel je trenutno predavatelj na Univerzi uporabnih znanosti v Severni ┼ávici. Za njegovo diplomsko delo je prejel nagrado GSCL 2005, ki jo podeljuje presti┼żno nem┼íko zdru┼żenje za ra─Źunalni┼íko jezikoslovje. Spodaj si lahko preberete celoten povzetek, preveden v angle┼í─Źino:

Ta ─Źlanek obravnava podpolje besedilnega rudarjenja, saj ┼żeli pridobiti informacije (v tem primeru tehni─Źno terminologijo) iz besedila naravnega jezika. V diplomskem delu je navedeno, da je na mnogih podro─Źjih besedilnega rudarjenja kombinacija razli─Źnih metod lahko koristna za spopadanje z bogastvom naravnega jezika.
Metode, ki se uporabljajo za ekstrakcijo terminologije, so statisti─Źne in jezikovne narave (ali metode, ki temelji na vzorcu). Za njihovo izpeljavo so bile izdelane nekatere potrebne zna─Źilnosti tehni─Źnih izrazov, ki so pomembne za njihovo ekstrakcijo. Na primer, dejstvo, da so ┼ítevilni tehni─Źni izrazi nazivni izrazi dolo─Źene oblike, se lahko neposredno uporabi za iskanje nekaterih P(umetnost)O(F)S(Peech) vzorci, medtem ko je porazdelitev izrazov v tehni─Źnih besedilih privedla do statisti─Źnega pristopa (diferencialna analiza). Skupaj z nekaterimi drugimi so bili ti pristopi vklju─Źeni v postopek. ki se lahko u─Źi iz povratnih informacij uporabnika in izbolj┼ía terminolo┼íko iskanje v ve─Ź korakih.
Ve─Ź parametrov postopka je ostalo spremenljivih, tj. uporabnik jih lahko prilagodi svojim potrebam. Med preu─Źevanjem rezultatov na podlagi dveh tehni─Źnih besedil z razli─Źnih podro─Źij je postalo jasno, da so optimalne vrednosti spremenljivih parametrov, tudi izbor uporabljenih metod, kljub temu, da so razli─Źni postopki dejansko dobro integrirani, ┼íe vedno odvisne od besedila in podro─Źja.
To ka┼że tudi omejitve predstavljenega pristopa, pa tudi ┼ítevilne metode projektiranja besedil na splo┼íno: ve─Źplastna narava jezika, tudi s kombinacijo ve─Ź postopkov, onemogo─Źa ustvarjanje sistema, ki deluje enako dobro za vsa besedila.
Vpra┼íanje, ali je to mogo─Źe re┼íiti s prepoznavanjem domen in posledi─Źno dinami─Źno prilagoditvijo parametrov, ┼íe vedno ni bilo mogo─Źe odgovoriti v tej nalogi in bi moralo biti predmet nadaljnjih raziskav.

Celotna teza Dr. Witschela je na voljo here.

Če vas zanimajo druge teme in prispevki o terminologiji in jezikoslovju, si oglejte naše Teze in papirji sekcija.



Uvod in prevod iz nem┼í─Źine za Cosimo Palma, Pripravnik za komuniciranje v oddelku Evropskega parlamenta za usklajevanje terminologije (Luxembourg).