Za┼íto va─Ĺenje terminologije?

1814

funnel-helpNema sumnje da terminologija ima vrlo va┼żnu ulogu u mnogim razli─Źitim podru─Źjima kao ┼íto su prevo─Ĺenje, standardizacija, tehni─Źka dokumentacija i lokalizacija.

Tematska podru─Źja kao ┼íto su razli─Źiti sektori prava i industrija imaju znatne koli─Źine terminologije specifi─Źne za odre─Ĺeno podru─Źje. Osim toga, mnogi inicijatori dokumenata mogu koristiti vlastitu preferiranu terminologiju. Istra┼żivanje specifi─Źnih uvjeta potrebnih za dovr┼íenje bilo kojeg prijevoda je dugotrajan zadatak.

Me─Ĺutim, poku┼íaj po─Źetnog izvla─Źenja terminologije kori┼ítenjem alata za va─Ĺenje termina pokazao se vrlo ┼ítedljivim. Me─Ĺutim, unato─Ź ─Źinjenici da alati za va─Ĺenje olak┼íavaju va─Ĺenje, popis kandidata koji iz toga proizlazi mora provjeriti ljudski terminolog ili prevoditelj. Stoga je proces ekstrakcije pojma ra─Źunalno potpomognut, a ne potpuno automatski.

Izvla─Źenje pojma mo┼że se definirati kao postupak identifikacije kandidata za pojam u odre─Ĺenom tekstu.

Mo┼że biti jednojezi─Źna ili vi┼íejezi─Źna (obi─Źno dvojezi─Źna). Jednojezi─Źna ekstrakcija termina poku┼íava analizirati tekst ili korpus kako bi se identificirali uvjeti kandidata, dok vi┼íejezi─Źno izvla─Źenje termina analizira postoje─çe izvorne tekstove zajedno s njihovim prijevodima u poku┼íaju identifikacije potencijalnih pojmova i njihovih ekvivalenta.

Pojam va─Ĺenje op─çenito uklju─Źuje ─Źetiri koraka: sastavljanje korpusa, izvla─Źenje kandidata za mandat, potvr─Ĺivanje mandata kandidata i automatsko ili poluautomatsko stvaranje terminolo┼íkih zapisa.

Za pripremu projekata za va─Ĺenje termina potrebna je znatna ljudska intervencija: potrebno je pripremiti korpus za ekstrakciju, postaviti kori┼íteni softver i uvesti popise rije─Źi i stvoriti pravila za ekstrakciju.

Postoje tri glavna termina pristupa ekstrakcije koji se obi─Źno primjenjuju u upravljanju terminologijom: jezi─Źna, statisti─Źka ili hibridna.

Jezikoslovni jezik

Alati za ekstrakciju termina koji koriste jezi─Źni pristup obi─Źno poku┼íavaju identificirati kombinacije rije─Źi koje odgovaraju odre─Ĺenim morfolo┼íkim ili sintakti─Źkim uzorcima (npr. ÔÇ×pridjev + imenicaÔÇŁ ili ÔÇ×imenica + imenicaÔÇŁ). U tu svrhu parseri se koriste za ozna─Źavanje sadr┼żaja korpusa s dijelom govora i morfolo┼íkim analizatorom. Kandidati za pojam filtriraju se razli─Źitim tehnikama podudaranja uzoraka. O─Źito je jezi─Źni pristup uvelike ovisan o jeziku jer se obrasci formiranja pojma razlikuju od jezika do jezika. Stoga su alati za va─Ĺenje termina koji primjenjuju jezi─Źni pristup op─çenito osmi┼íljeni za rad na jednom jeziku (ili usko povezanim jezicima) i ne mogu se lako pro┼íiriti na rad s drugim jezicima. Stoga nisu prikladni za integraciju u sustave TM-a, koji su obi─Źno neovisni o jeziku.

Statisti─Źki podaci

Terminski alati za ekstrakciju pomo─çu statisti─Źkog pristupa u osnovi tra┼że ponovljene sekvence leksi─Źkih predmeta. ─îesto frekvencijski prag, koji se odnosi na broj puta da se rije─Ź ili slijed rije─Źi mora ponoviti kako bi se smatrao izrazom kandidata, korisnik mo┼że odrediti. Glavna snaga statisti─Źkog pristupa je njegova jezi─Źna neovisnost.

Hibridni

─îak i ako, slijede─çi lingvisti─Źki pristup korisnici mogu dobiti bolje razgrani─Źene kandidate za pojam, ovaj pristup ima tendenciju da proizvodi previ┼íe ÔÇ×bukeÔÇŁ (tj. ne-pojmovi, uobi─Źajeni izrazi). S druge strane, koriste─çi samo statisti─Źki pristup, opasnost od stvaranja ÔÇ×ti┼íineÔÇŁ (tj. propustiti kandidate koji se pojavljuju s niskom frekvencijom) je mnogo ve─ça.

Zato je naj─Źe┼í─çi pristup u izrazu ekstrakcija hibridni, koriste─çi statisti─Źke i jezi─Źne informacije. Iako je glavni dio takvih pristupa statisti─Źki, ugra─Ĺena su sintakti─Źka pravila i filtri kako bi se omogu─çilo biranje predlo┼żenih pojmova koji imaju odre─Ĺene sintakti─Źke strukture.

Osim to─Źnosti u odabiru termina kandidata, ostali va┼żni kriteriji za ocjenjivanje terminologije su podr┼żani formati datoteka i jezici. Nisu svi alati za va─Ĺenje podr┼żavaju sve vrste tekstova formata dostupni u.

Veliki problem su i podr┼żani jezici. Za zapadnoeuropske jezike kao ┼íto su engleski, njema─Źki ili francuski lak┼íe je prona─çi dobar jezi─Źni ili hibridni alat za ekstrakciju. Me─Ĺutim, za isto─Źnoeuropske ili azijske jezike ponuda za takve alate je vrlo lo┼ía.

Alati za va─Ĺenje terminologije

Razli─Źiti korisnici, razli─Źite tvrtke i institucije zna─Źe razli─Źite izazove za pojam ekstrakcije projekata i razli─Źita o─Źekivanja i potrebe. Zato ne postoji jedan ÔÇ×najbolji alatÔÇŁ za izvla─Źenje pojma. Svaki korisnik treba provesti testove prije odabira pravog alata za va─Ĺenje za svoje projekte.

Postoji mnogo komercijalnih terminoloških ekstraktora kao što su na primjer SDL TermExtract, SDL Phrase Finder ili Synchroterm.

Neki besplatni sustavi memorije tako─Ĺer nude izvrsnu ugra─Ĺenu automatsku terminologiju ekstrakciju kao na primjer Similis ili Across Personal Edition.

Tako─Ĺer mo┼żete prona─çi besplatne alate za va─Ĺenje termina kao termmin, AntConc ili petfiltera.

Ve─çina terminolo┼íkih alata za va─Ĺenje navodi popise termina kandidata koji se mogu izravno potvrditi ili izvesti za npr. u *.txt ili *.csv za vanjsku validaciju.

Iako su dostupni brojni alati za va─Ĺenje terminologije, ─Źini se da ne zadovoljavaju sve stvarne potrebe prevoditelja, tuma─Źa ili terminologa. Te skupine korisnika o─Źekuju alate koji omogu─çuju pravilno razgrani─Źene kandidate za termine, priznavanje termina i prepoznavanje varijanti termina, svojstva koja bi postupak validacije termina u─Źinili manje dugotrajnim, a terminologija djelotvornija.