09 July 2010

OmegaT - gratis CAT- tool -

Computer Aided Translation Tools: OmegaT - gratis CAT-tool -

Computer Aided Translation
Recent ben ik begonnen met computer aided translation. Voorlopig met behulp van een open source programma ( OmegaT ). Kijken wat het oplevert.

Onderstaande bespreking van OmegaT is van Jan Reitsma. Het copyright berust ook bij hem.

Wat is een CAT-tool?

Vertalers maken steeds vaker gebruik van ondersteunende software. Dergelijke programma's worden meestal samengevat onder de gemeenschappelijke titel "Computer Aided Translation" (in het kort CAT). Hoewel de term Computer Aided Translation eigenlijk over heel uiteenlopende computerprogramma's kan gaan, werken de veel van die zogenaamde CAT-tools toch enigszins vergelijkbaar: ze 'onthouden' vertaalde tekstfragmenten in een zogenaamd 'vertaalgeheugen', en hierdoor kan de vertaler sneller werken.
Zo werkt het

Als een vertaler een lang tekstdocument met ettelijke herhalingen moet vertalen, is zo'n vertaaltool erg handig. Het programma verdeelt de tekst allereerst in kleinere segmenten. Afhankelijk van de instellingen kan o.a. worden gesegmenteerd aan de hand van zinnen, alinea`s, werkbladcellen, enzovoort. De vertaler werkt vervolgens per segment; hierbij hoeft hij niet te letten op de opmaak van het oorspronkelijke document - die heeft de CAT-tool 'uitgefilterd' zodat alleen de tekst zichtbaar is. Maar het wezenlijke van een CAT-tool is het gebruik van het vertaalgeheugen. Wanneer er een segment opduikt dat enigszins lijkt op een eerder vertaald segment, geeft het programma een voorstel uit dit geheugen, dat de vertaler vervolgens kan overnemen en bewerken. Dit scheelt veel werk, vooral als er regelmatig langere soortgelijke fragmenten voorkomen. Ook helpt een CAT-tool het woordgebruik consistenter te maken, wat handig is bij o.a. technische of juridische vertalingen.
Een gratis vertaaltool: OmegaT

Er zijn veel verschillende vertaaltools in de omloop, variërend van klein en simpel tot grote, dure softwarepaketten. Een voorbeeld van een gratis CAT-tool met GNU-licentie is OmegaT. Een actieve community van programmeurs en andere enthousiastelingen houdt zich bezig met de ontwikkeling van dit programma. Er verschijnen met regelmaat nieuwe versies. OmegaT is platform-onafhankelijk, de gebruiker moet alleen beschikken over Java Runtime Environment, en dat is gratis beschikbaar voor alle gangbare besturingssystemen.
Om met OmegaT aan de slag te gaan, moet eerst een 'project' worden aangemaakt waarin de te vertalen bestanden moeten worden geïmporteerd. Met het importeren 'filtert' OmegaT de te vertalen tekst uit en 'segmenteert' deze vervolgens. Daarna verschijnt er een overzicht met de bestandsnamen, de aantallen segmenten en het aantal identieke segmenten. Er kunnen meerdere documenten tegelijk in hetzelfde project worden geladen, zelfs complete mappenstructuren met submappen. Hierdoor kan goed overzichtelijk worden gewerkt en hoeven er niet steeds nieuwe documenten te worden geladen. Na het compleet vertalen van een bestand gaat OmegaT vanzelf door naar het volgende document. Het programma creëert zelf nieuwe vertaalde bestanden, waardoor opschonen (het verwijderen van brontekst, tags, enz.) niet nodig is.
Te vertalen bestandsformaten

OmegaT kan veel bestandsformaten direct inlezen, o.a. OpenOffice.org, OpenDocument, Microsoft Open XML, (X)HTML, HTML, ASCII tekst (.txt, etc.) of gecodeerde tekst. Momenteel ondersteunt OmegaT geen Microsoft Office-bestandsformaten, maar dit kan gemakkelijk worden verholpen door de documenten in OpenOffice te converteren naar het OpenDocument-formaat, wat doorgaans zonder problemen verloopt. Ook voor verschillende andere formaten (o.a. LateX) bestaan goede mogelijkheden voor conversie.
Translation Memory

Een internationaal erkend standaardformaat voor Translation Memories is het zogenaamde TMX-formaat. Het invoeren van dit formaat heeft ertoe geleid dat vertalers nu gemakkelijk hun vertaalgeheugens kunnen uitwisselen. Ook opdrachtgevers die veel verschillende vertalers aan het werk hebben, kunnen nu, ongeacht de software van de vertaler, zelf een eigen Translation Memory beschikbaar stellen. OmegaT maakt ook gebruik van het TMX-formaat. Intern slaat het zijn Translation Memory op als TMX versie 1.4, maar het kan ook oudere versies tot versie 1.4a importeren; uitwisseling met andere programma's is dus relatief eenvoudig.
De 2CV onder de CAT-tools

Sommige CAT-tools werken als geïntegreerde plugins binnen de tekstverwerker Microsoft Word. De gebruiker blijft hierbij in zijn oude vertrouwde omgeving en er komen alleen een paar 'knoppen' en functies bij. OmegaT is daarentegen geen plugin maar een losstaand programma, wat natuurlijk even wennen is. Geavanceerde functies van tekstverwerkers zoals autocorrectie zijn in OmegaT niet beschikbaar. Ook een spellingscontrole was er lange tijd niet, maar daarin is verandering gekomen: in de nieuwste versie 1.8 kan inmiddels de spelling worden gecontroleerd. Verder is de 'look' van het programma niet erg modern. Er zijn geen 'knoppen' voor de functies, er is weinig kleur op het scherm en er moet vooral met toetsencombinaties of menu's worden gewerkt. Minpuntjes die sommige nieuwe gebruikers kunnen afschrikken. Anderzijds is OmegaT betrouwbaar, ondersteunt het veel bestandsformaten en biedt het een uitstekende zoekfunctie die in een keer alle bestanden van het complete project doorzoekt. Heel handig voor wie snel wil weten waar bepaalde woorden of passages ook alweer voorkwamen. En last but not least: omdat het een open source-programma is, staat het iedereen vrij mee te werken aan de ontwikkeling ervan.
Voor wie vaak of zelfs professioneel vertaalt, is het OmegaT zeker de moeite van het uitproberen waard. Ik hoorde OmegaT eens "de 2CV onder de vertaaltools" noemen: eenvoudig en een beetje bedaagd, maar robuust en het doet wat je ervan verwacht.

Kijk voor informatie op de site van OmegaT.

No comments: