Zakaj terminologija?

1832

funnel-helpNedvomno ima terminologija zelo pomembno vlogo na ┼ítevilnih razli─Źnih podro─Źjih, kot so prevajanje, standardizacija, tehni─Źna dokumentacija in lokalizacija.

Vsa tematska podro─Źja, kot so razli─Źni pravni sektorji in industrija, imajo velike koli─Źine terminologije, specifi─Źne za posamezna podro─Źja. Poleg tega lahko mnogi pobudniki dokumentov uporabljajo svojo najprimernej┼ío terminologijo. Raziskovanje posebnih izrazov, potrebnih za dokon─Źanje katerega koli prevoda, je zamudna naloga.

Vendar se je poskus za─Źetne ekstrakcije terminologije z uporabo orodij za pridobivanje izrazov izkazal za zelo prihranek ─Źasa. Kljub temu, da orodja za ekstrakcijo olaj┼íujejo ekstrakcijo, mora seznam kandidatov za kandidate preveriti ─Źlove┼íki terminolog ali prevajalec. Zato je postopek ekstrakcije izrazov ra─Źunalni┼íko podprt in ne popolnoma avtomatski.

Izraz ekstrakcija se lahko opredeli kot postopek identifikacije kandidatov v danem besedilu.

Lahko je enojezi─Źna ali ve─Źjezi─Źna (obi─Źajno dvojezi─Źna). Enojezi─Źni izraz ekstrakcija posku┼ía analizirati besedilo ali korpus, da bi prepoznali kandidatne izraze, medtem ko ve─Źjezi─Źno pridobivanje izrazov analizira obstoje─Źa izvorna besedila skupaj z njihovimi prevodi, da bi opredelili morebitne izraze in njihove enakovredne izraze.

Izraz ekstrakcija obi─Źajno vklju─Źuje ┼ítiri korake: priprava korpusa, ekstrakcija izrazov kandidatov, potrditev izraza kandidati in samodejno ali polavtomatsko ustvarjanje terminolo┼íkih zapisov.

Priprava terminskih projektov pridobivanja zahteva obse┼żno ─Źlove┼íko posredovanje: pripraviti je treba korpus za ekstrakcijo, vzpostaviti je treba uporabljeno programsko opremo, uvoziti je treba sezname besed in oblikovati pravila za ekstrakcijo.

Obstajajo trije glavni terminski pristopi, ki se obi─Źajno uporabljajo pri upravljanju terminologije: jezikoslovno, statisti─Źno ali hibridno.

Jezikoslovje

Orodja za ekstrakcijo izrazov, ki uporabljajo jezikovni pristop, obi─Źajno posku┼íajo identificirati besedne kombinacije, ki se ujemajo z dolo─Źenimi morfolo┼íkimi ali sintakti─Źnimi vzorci (npr. V ta namen se za ozna─Źevanje vsebine korpusa uporabljajo raz─Źlenjevalci, ozna─Źevalci dela govora in morfolo┼íki analizator. Termin kandidati se filtrirajo z uporabo razli─Źnih tehnik ujemanja vzorcev. Seveda je jezikovni pristop mo─Źno odvisen od jezika, saj se vzorci oblikovanja izrazov razlikujejo od jezika do jezika. Zato so orodja za ekstrakcijo izrazov, ki uporabljajo jezikovni pristop, na splo┼íno zasnovana tako, da delujejo v enem jeziku (ali tesno povezanih jezikih), in jih ni mogo─Źe enostavno raz┼íiriti na delo z drugimi jeziki. Zato niso primerni za integracijo v sisteme TM, ki so obi─Źajno neodvisni od jezika.

Statisti─Źni podatki

Izraz orodja za ekstrakcijo, ki uporabljajo statisti─Źni pristop, v bistvu i┼í─Źejo ponavljajo─Źe se sekvence leksikalnih elementov. Pogosto lahko uporabnik dolo─Źi frekven─Źni prag, ki se nana┼ía na ┼ítevilo krat, da je treba besedo ali zaporedje besed ponoviti, da se ┼íteje za kandidatni izraz. Glavna prednost statisti─Źnega pristopa je njegova jezikovna neodvisnost.

Hibridni

Tudi ─Źe lahko uporabniki z uporabo jezikovnega pristopa dobijo bolje razmejene kandidate, ta pristop ponavadi povzro─Źi preve─Ź ÔÇ×hrupaÔÇť (tj. nepogoji, obi─Źajni izrazi). Po drugi strani pa je z uporabo zgolj statisti─Źnega pristopa nevarnost ustvarjanja ÔÇ×ti┼íineÔÇť (tj. zamuda kandidatov, ki se pojavljajo z nizko frekvenco) veliko ve─Źja.

Zato je najpogostej┼íi pristop v izrazu ekstrakcija hibridni pristop, ki uporablja statisti─Źne in jezikovne informacije. ─îeprav je glavni del tak┼ínih pristopov statisti─Źna, so sintakti─Źna pravila in filtri vklju─Źeni, da se omogo─Źi izbira kandidatovih izrazov, ki imajo dolo─Źene sintakti─Źne strukture.

Poleg natan─Źnosti pri izbiri izraza kandidati so tudi druga pomembna merila za ocenjevanje terminologije podprti formati in jeziki. Vsa orodja za ekstrakcijo ne podpirajo vseh vrst besedil v formatih.

Velik problem so tudi podprti jeziki. Za zahodnoevropske jezike, kot so angle┼í─Źina, nem┼í─Źina ali franco┼í─Źina, je la┼żje najti dobro jezikovno ali hibridno orodje za ekstrakcijo. Za vzhodnoevropske ali azijske jezike pa je ponudba za tak┼ína orodja zelo slaba.

Orodja za ekstrakcijo terminologije

Razli─Źni uporabniki, razli─Źna podjetja in institucije pomenijo razli─Źne izzive za izraz projekti pridobivanja ter razli─Źna pri─Źakovanja in potrebe. Zato ni enega samega ÔÇ×najbolj┼íega orodjaÔÇť za izraz ekstrakcijo. Vsak uporabnik mora opraviti teste, preden izbere pravo orodje za ekstrakcijo za svoje projekte.

Obstaja veliko komercialnih terminoloških ekstraktorjev, kot so na primer SDL TermExtract, SDL Phrase Finder ali Synchroterm.

Nekateri brezpla─Źni prevajalski pomnilni┼íki sistemi ponujajo tudi odli─Źno vgrajeno avtomatsko ekstrakcijo terminologije, kot je na primer Similis ali Across Personal Edition.

Najdete lahko tudi brezpla─Źna orodja za ekstrakcijo izrazov kot termmin, AntConc ali petfiltrov.

Ve─Źina orodij za ekstrakcijo terminologije vsebuje sezname kandidatov, ki jih je mogo─Źe neposredno potrditi ali izvoziti npr. v *.txt ali *.csv za zunanjo validacijo.

─îeprav so na voljo ┼ítevilna orodja za ekstrakcijo terminologije, se zdi, da vsa ne izpolnjujejo dejanskih potreb prevajalcev, tolma─Źev ali terminologov. Te uporabni┼íke skupine pri─Źakujejo orodja, ki zagotavljajo ustrezno razmejene izraze kandidatov, prepoznavanje izrazov in prepoznavanje razli─Źic izrazov, lastnosti, zaradi katerih bi bil postopek potrjevanja izrazov manj zamuden, terminologija pa u─Źinkovitej┼ía.