This week we would like to present the master thesis of Hans Friedrich Witschel.
Naslov izvirnika se glasi „Text, Wörter, Morpheme – Möglichkeiten einer automatischen Terminologie-Extraktion“.
Profesor Witschel je trenutno predavatelj na Univerzi uporabnih znanosti v Severni Švici. Za njegovo diplomsko delo je prejel nagrado GSCL 2005, ki jo podeljuje prestižno nemško združenje za računalniško jezikoslovje. Spodaj si lahko preberete celoten povzetek, preveden v angleščino:
Ta članek obravnava podpolje besedilnega rudarjenja, saj želi pridobiti informacije (v tem primeru tehnično terminologijo) iz besedila naravnega jezika. V diplomskem delu je navedeno, da je na mnogih področjih besedilnega rudarjenja kombinacija različnih metod lahko koristna za spopadanje z bogastvom naravnega jezika.
Metode, ki se uporabljajo za ekstrakcijo terminologije, so statistične in jezikovne narave (ali metode, ki temelji na vzorcu). Za njihovo izpeljavo so bile izdelane nekatere potrebne značilnosti tehničnih izrazov, ki so pomembne za njihovo ekstrakcijo. Na primer, dejstvo, da so številni tehnični izrazi nazivni izrazi določene oblike, se lahko neposredno uporabi za iskanje nekaterih P(umetnost)O(F)S(Peech) vzorci, medtem ko je porazdelitev izrazov v tehničnih besedilih privedla do statističnega pristopa (diferencialna analiza). Skupaj z nekaterimi drugimi so bili ti pristopi vključeni v postopek. ki se lahko uči iz povratnih informacij uporabnika in izboljša terminološko iskanje v več korakih.
Več parametrov postopka je ostalo spremenljivih, tj. uporabnik jih lahko prilagodi svojim potrebam. Med preučevanjem rezultatov na podlagi dveh tehničnih besedil z različnih področij je postalo jasno, da so optimalne vrednosti spremenljivih parametrov, tudi izbor uporabljenih metod, kljub temu, da so različni postopki dejansko dobro integrirani, še vedno odvisne od besedila in področja.
To kaže tudi omejitve predstavljenega pristopa, pa tudi številne metode projektiranja besedil na splošno: večplastna narava jezika, tudi s kombinacijo več postopkov, onemogoča ustvarjanje sistema, ki deluje enako dobro za vsa besedila.
Vprašanje, ali je to mogoče rešiti s prepoznavanjem domen in posledično dinamično prilagoditvijo parametrov, še vedno ni bilo mogoče odgovoriti v tej nalogi in bi moralo biti predmet nadaljnjih raziskav.
Celotna teza Dr. Witschela je na voljo here.
Če vas zanimajo druge teme in prispevki o terminologiji in jezikoslovju, si oglejte naše Teze in papirji sekcija.
Uvod in prevod iz nemščine za Cosimo Palma, Pripravnik za komuniciranje v oddelku Evropskega parlamenta za usklajevanje terminologije (Luxembourg).