Tekst, rije─Źi, Morfemi: mogu─çnosti automatskog izvla─Źenja terminologije

1153

Ovaj tjedan ┼żelimo predstaviti diplomski rad Hansa Friedricha Witschela.

Njegov izvorni naslov glasi ÔÇ×Tekst, W├Ârter, Morpheme ÔÇô M├Âglichkeiten einer automatischen Terminologie-ExtraktionÔÇŁ.

Profesor Witschel trenutno je predava─Ź na Veleu─Źili┼ítu Sjever-┼ávicarska. Njegov rad osvojio mu je nagradu GSCL 2005, koju dodjeljuje presti┼żno njema─Źko dru┼ítvo za ra─Źunalnu lingvistiku. U nastavku mo┼żete pro─Źitati cijeli sa┼żetak preveden na engleski jezik:

Ovaj rad bavi se potpodru─Źjem rudarstva teksta, jer nastoji izvu─çi informacije (u ovom slu─Źaju tehni─Źku terminologiju) iz teksta prirodnog jezika. U radu se navodi da u mnogim podru─Źjima Text Mining kombinacija razli─Źitih metoda mo┼że biti korisna kako bi se nosila s bogatstvom prirodnog jezika.
Metode koje se koriste za izvla─Źenje terminologije su statisti─Źke i jezi─Źne prirode (ili na temelju uzoraka). Kako bi ih se dobilo, razra─Ĺene su neke potrebne zna─Źajke tehni─Źkih pojmova, koje su relevantne za njihovo izvla─Źenje. Na primjer, ─Źinjenica da su mnogi tehni─Źki pojmovi nazivni izrazi odre─Ĺenog oblika mogla bi se izravno upotrijebiti za tra┼żenje odre─Ĺenih P(umjetnost)O(F)S(Peech) obrasci, dok je raspodjela pojmova u tehni─Źkim tekstovima dovela do statisti─Źkog pristupa (diferencijalna analiza). Zajedno s nekima, ti su pristupi integrirani u postupak. koji je u stanju u─Źiti iz povratnih informacija korisnika i suziti terminolo┼íko pretra┼żivanje u vi┼íe koraka.
Nekoliko parametara postupka ostalo je varijabilno, tj. korisnik ih mo┼że prilagoditi svojim potrebama. Ispitivanjem rezultata na temelju dvaju tehni─Źkih tekstova iz razli─Źitih podru─Źja postalo je jasno da, iako se razli─Źiti postupci doista mogu dobro integrirati, optimalne vrijednosti promjenjivih parametara, ─Źak i odabir primijenjenih metoda, i dalje ovise i o tekstu i o domeni.
To pokazuje i ograni─Źenja predstavljenog pristupa, kao i mnoge metode rudarstva teksta op─çenito: vi┼íedimenzionalna priroda jezika, ─Źak i uz kombinaciju nekoliko postupaka, onemogu─çuje stvaranje sustava koji jednako dobro funkcionira za sve tekstove.
Pitanje mo┼że li se to rije┼íiti ÔÇ×prepoznavanjem domenaÔÇŁ i naknadnom dinami─Źkom prilagodbom parametara jo┼í uvijek se mo┼że posti─çi, nije se moglo odgovoriti u ovom diplomskom radu i trebalo bi biti predmet daljnjih istra┼żivanja.

Cjeloviti rad dr. Witschela je dostupan ovdje.

Ako ste zainteresirani za druge teze i radove o terminologiji i lingvistici, pogledajte našu Teze i dokumenti u odjelu.



Predstavljena i prevedena s njema─Źkog jezika ÔÖ¬ Cosimo Palma, Sta┼żist za komunikaciju u Odjelu za terminolo┼íku koordinaciju Europskog parlamenta (Luxembourg).