Programa-guia d’activitats d’aula d’Informàtica Aplicada a la Traducció∗ Mikel L. Forcada Departament de Llenguatges i Sistemes Informàtics Universitat d’Alacant, E-03071 Alacant Curs 2008–2009 1 Índex Què estudiarem en aquest curs? Act. 1.1 El nom d’aquesta assignatura és Informàtica Aplicada a la Traducció. Si mireu el pla d’estudis, veureu que el descriptor de l’assignatura és 1 Què estudiarem en aquest curs? 1 2 Ordinadors i programes 1 3 Internet 3 4 Textos i formats 3 5 Usos de la traducció automàtica 5 6 Ambigüitat 5 Com a primera aproximació, responeu les preguntes següents: 7 Com funciona tomàtica? 7 1. Quin creieu que és el significat dels conceptes que apareixen en el descriptor? En concret, què s’entén per traducció automàtica i semiautomàtica? la traducció au- 8 Avaluació de la traducció automàtica 9 9 Memòries de traducció 9 10 Bases de dades lèxiques “Accés als instruments de treball per al suport a la tasca de traductor. Traducció automàtica i semiautomàtica i integració de sistemes” 2. Com creieu que es pot aplicar la informàtica a la traducció? Quina part del treball la realitzaria l’ordinador (automàticament) i quina part realitzarien els professionals? Doneu-ne detalls. 10 3. Heu usat ja algun programa dels que es poden aplicar a la traducció? Quin? 4. Què us agradaria aprendre en aquesta assignatura? ∗ c 2008 Universitat d’Alacant. Aquest material pot ser distribuı̈t, copiat i exhibit si el nom de l’autor es mostra en els crèdits. Les obres derivades han de distribuir-se sota els mateixos termes de llicència que el treball original. Més detalls: http://creativecommons.org/licenses/by-sa/ 3.0/deed.ca. Podeu demanar els fonts LaTeX a l’autor ([email protected]). 2 Ordinadors i programes Act. 2.1 Acı́ teniu algunes descripcions informàtiques (algunes, quasi prehistòriques!). 1 2 ORDINADORS I PROGRAMES És probable que no les entengueu completament, però si creieu que n’enteneu alguna part, podrı́eu provar a definir-la en el grup menut i explicar-la després al grup gran. A poc a poc les anirem desxifrant entre tots. 1. La màquina que té Toni a casa (comprada a finals de 1992) és un 386 de 40 MHz, amb 4 MB de RAM i un disc fix de 203 MB; l’adaptador de vı́deo és SuperVGA. Té dues unitats de disquet, una de tres polzades i mitja i l’altra de cinc i quart, i ratolı́, per descomptat. A més, li ha instal·lat un lector de CD-ROM de velocitat quàdrupla, una placa de so SoundBlaster i un mòdem de 2400 bps. Té instal·lats els sistemes operatius DOS 6.2 i Windows 3.1. 2. La màquina del despatx de Petra (de l’any 1998) és un Pentium II a 400 MHz, amb 64 MB de RAM i un disc dur de 20 gigabytes. Té una unitat de disquet de 3,5 polzades i un lector de CD-ROM 40×. No s’hi ha instal·lat ni Windows ni DOS ni OS/2, sinó una versió antiga de Linux. 2 Microsoft Windows 98 Second Edition, Windows Millennium Edition, Windows NT 4.0 amb Service Pack 6, Windows 2000 amb Service Pack 2, Windows XP Professional o Home Edition, Windows XP Tablet PC Edition, 32MB de RAM (64MB recomanats), 60MB d’espai lliure en el disc. 6. Requisits del navegador Mozilla 1.5 per a Windows: Windows 95, 98, o 98SE, Windows Millenium Edition, Windows NT 4.0, Windows 2000, o Windows XP; processador de la clase Intel Pentium (233 MHz o més ràpid recomanat); 64 MB de RAM; 26 MB d’espai lliure al disc. 7. Per a instal·lar el sistema operatiu GNU-Linex és necessari un Pentium a 200 MHz amb 1,5 GB de disc dur, 64 MB de RAM i una targeta gràfica de 4 MB. 8. Els CD-R que has comprat no valen, perquè només tenen 650 MB. Per a guardar tot necessitem un d’aquells de 700 MB. Si tens un CD-RW, millor, no siga que ens equivoquem. 9. Com que el fitxer té 2 MB, no cap en un 3. Martı́ es va comprar el 2004 un ordinadisquet. Farem un CD-ROM perquè te’l dor en MegaTrastos: té una placa base pugues emportar. ASUS A7s DDR 333, processador AMD 10. La impressora que tinc a casa és d’injec2600 xp, 256 MB de RAM DDR a 333 ció; té una resolució de 720 × 360 dpi i un MHz, unitat de disquet de 3”5 de denalimentador de 40 fulls. sitat alta, disc dur de 40 GB a 7200 rpm Seagate, teclat, ratolı́ PS2, targeta gràfica ATI 7000 amb 64 MB de RAM i eixi- Act. 2.2 Ara que ja sabem una miqueta més sobre ordinadors, responeu les qüestions següents: da de TV, Unitat enregistradora de CD LG 52×–24×–52×, i una unitat lectora de 1. El programa SPANAM, es podria execuDVD LG a 16×. tar en l’ordinador de Toni? I en el de Pe4. Per a executar els programes de traductra? Per què? ció automàtica de l’Organització Pana2. Es pot instal·lar GNU-Linex en l’ordinamericana de la Salut ENGSPAN i SPAdor de Petra? NAM, cal un Pentium, 64 MB de RAM, la xarxa d’àrea local Novell Netware o 3. Es pot instal·lar Acrobat Reader 6.0 per a Windows NT/2000, una unitat de CDWindows en l’ordinador de Petra? ROM i 50 MB d’espai al disc dur per sis4. Es pot instal·lar Mozilla 1.5 per a Wintema. Els programes treballen amb dodows en l’ordinador de Martı́? cuments RTF, ASCII, ANSI, SGML, XML i HTML. 5. Pot un ordinador basat en un processa5. Requisits d’Acrobat Reader 6.0 per a Windows: processador Intel Pentium, dor Pentium executar programes escrits per a un processador 386? 4 TEXTOS I FORMATS 3 6. Quanta informació cap en un disquet de 3,5 polzades de densitat alta (HD)? 144 MB? 720 kB? 1,44 MB? saber què coneixeu sobre el tema. Per això, digueu: 1. Què creieu que és Internet? Podrı́eu proposar una definició provisional per a millorar-la posteriorment en classe? 7. Quantes combinacions diferents es poden fer amb 5 bits? 8. Quants bytes hi ha en un megabyte? 2. Per a què pot servir Internet? Més concretament, en què creieu que pot servir a una persona que es dedica professionalment a la traducció? 9. Quin dispositiu és necessari per a connectar l’ordinador de casa nostra a Internet per via telefònica? 10. Quina velocitat del processador és més tı́pica en un PC actual? 30 MHz? 300 MHz? 3000 MHz? 3. De quina classe són els documents tı́pics d’internet? En quin format estan escrits? 4. Com s’especifica en Internet on és un recurs (servei o document) concret? Quines parts té aquesta especificació? Què especifica cada part? 11. Quina capacitat té un disc dur tı́pic actualment? 100 GB? 100 MB? 100 kB? Act. 2.3 Parlem ara de programes: 5. Com es busca en Internet un recurs quan no sabem on és (si és que hi és)? 1. Què vol dir la paraula programa en la vida quotidiana? Penseu en expressions on apareix el mot programa. 6. Què és l’E-mail? Quins altres serveis similars a l’E-mail coneixeu? 2. A la vista del que us inspiren aquestes definicions, com definirı́eu un programa d’ordinador? 3. On resideix un programa abans d’instal·lar-lo en el vostre ordinador? Com s’hi guarda? 4. On resideix després d’haver-l’hi instal·lat? 5. On ha de ser per a poder ser executat? Quan canvia de lloc? Qui el canvia? Act. 2.4 I ara, parlem de fitxers: 1. Què és un fitxer? 2. On resideixen els fitxers en un ordinador? 3. Què pot contenir un fitxer d’ordinador? 4. En un disquet podrı́em tenir els fitxers un darrere de l’altre, sense organitzarlos, perquè no hi caben molts, però, com s’organitzen els fitxers en un disc fix o en un CD-ROM, on en caben molts més? 3 Internet Act. 3.1 Abans d’una explicació d’algunes nocions bàsiques sobre Internet, és molt important 7. De quantes maneres ens podem connectar a Internet des de casa? En què es diferencien? S’ha de pagar? 4 Textos i formats Act. 4.1 Tal com vam veure en el primer bloc d’activitats, quan algú vol utilitzar l’ordinador per a fer una traducció, en algun punt ha de manipular o generar un text informatitzat. Indiqueu com fa per a generar aquest text i quines eines informàtiques —programari, maquinari— usa (procureu donar noms i definicions tan precises com pugueu). No oblideu que els textos es poden generar també sense haver de teclejar-los. Act. 4.2 Com qualsevol tipus de dades, els textos informatitzats s’emmagatzemen com a seqüències de bits (bé: agrupats de 8 en 8, és a dir, com a seqüències d’octets o de bytes). Hi ha moltes maneres diferents d’emmagatzemar textos informatitzats, és a dir, d’organitzar en octets la informació que contenen. De fet, normalment s’ha d’especificar de quina manera concreta s’ha emmagatzemat un text, ja que cada programa espera que els textos estiguen organitzats d’una o de diverses 4 TEXTOS I FORMATS maneres determinades i també els genera organitzats d’una o de diverses maneres determinades. Us proposem que reflexioneu una mica sobre els aspectes següents: 1. Els textos contenen, a més d’altres informacions, els caràcters amb què els idiomes formen els mots. (a) Com s’emmagatzemen els caràcters en forma d’octets? (b) Per què passa de vegades que no podem veure bé tots els caràcters d’un text? (per exemple, veiem bé els caràcters no accentuats que la llengua del document té en comú amb la llengua anglesa, però no veiem bé altres caràcters) (c) A més dels sistemes d’escriptura alfabètics com els nostres, hi ha sistemes d’escriptura amb conjunts de caràcters molt més grans, com ara els sil·làbics, amb centenars de sı́mbols —devanagari (Índia), hangul (coreà), hiragana i katakana (japonés), etc.—, o els ideogràfics, amb milers de sı́mbols —xinés, kanji japonés, etc. Com s’emmagatzemen els textos escrits en aquests sistemes? (d) I si en un mateix document es mesclen diversos sistemes d’escriptura? 2. Però els textos informatitzats, a més dels caràcters que formen les paraules, contenen molta informació addicional. (a) Quins elements d’informació addicional solen portar els textos informatitzats a més de les seqüències de caràcters que formen els mots? (b) Per a què serveix aquesta informació addicional? És diferent aquesta informació segons quina siga l’aplicació del text informatitzat? (c) Com s’emmagatzema aquesta informació en forma d’octets? És possible usar caràcters per a representarla, de manera que es podrien veure amb un editor de textos bàsic? Com? 4 (d) Imaginem que ens han encarregat traduir un text informatitzat. En la llengua d’origen és costum posar en cursives tant els mots estrangers (“Sprachgefühl”) com els termes nous quan es defineixen per primera volta (“Un octet és...”), se sagna la primera lı́nia de tots els paràgrafs, i els números de secció porten un punt al final (“1.1. Introducció”), però en la llengua d’arribada els termes nous van en negretes (“Un octet és ...”), se sagna la primera lı́nia de tots els paràgrafs excepte la del primer paràgraf d’una secció, i els números de secció no porten punt al final (“1.1 Introducció”). És adequat emmagatzemar els textos atenent només a la presentació visual? Com seria més adequat emmagatzemar-los? 3. De vegades el mateix text s’ha de presentar de maneres diferents: complet en un navegador, resumit en la pantalla d’un telèfon mòbil, imprés com a document de gran qualitat, llegit en veu alta a un invident, etc. Com fem per a no tenir tantes versions com mitjans per a cada document? 4. A més dels descrits, enumereu d’altres problemes associats a les diferències en els esquemes d’emmagatzematge dels textos informatitzats. Act. 4.3 Com ja sabeu, els processadors de textos més usuals segueixen, en la mesura del possible, un disseny wysiwyg (anglés: what you see is what you get, “el que veieu és el que obtindreu”): la presentació es basa en una o diverses finestres, cada una de les quals mostra una secció de l’estat actual d’algun dels documents de text informatitzats que estem creant i modificant (els documents que tenim oberts). El text es mostra tan paregut com siga possible a la versió impresa que se’n produirà, quant a format, tipus de lletra, etc. Aquest disseny fa que la persona escriptora tendisca a centrar-se en els atributs visuals del text, ja que confia que una bona presentació transmetrà a les persones lectores l’estructura lògica que la 6 AMBIGÜITAT 5 persona escriptora té en el seu cap per al document. veu alta), després de pensar una miqueta en situacions on s’usa el mot traducció. Però un disseny de documents guiat únicament per la presentació té inconvenients molt importants. Fixeu-vos en la següent situació problemàtica: Act. 5.2 Quin interés pot tenir la traducció automàtica? Quins usos i camps d’aplicació se us acut que pot tenir? Act. 5.3 Indiqueu, preliminarment, però amb tot el detall que pugueu, quines caracterı́stiques del treball de traducció de textos penseu que fan difı́cil la seua automatització. Joaquim ha decidit que els tı́tols de secció de l’informe anual que li han encarregat estaran en Helvetica de 14 punts, negreta i els de subsecció en Arial de 12 punts, negreta cursiva. A Marina, la seua directora, no li agraden aixı́ i li’ls ha fet canviar a Lucida Sans de 14, negreta i Lucida de 12, negreta sense cursives. Com que l’informe ha d’estar acabat per a demà de matı́, Joaquim es queda a l’oficina fins a les 11 de la nit, canviant un a un els tipus de lletra del tı́tols de seccions i subseccions. A l’endemà, de matı́, Marina li passa un document amb una secció més que s’ha d’inserir entre la 4 i la 5. Joaquim no pot anar a esmorzar: ha de canviar els números de seccions i subseccions a partir de la 5 i repassar si s’ha de canviar alguna referència que es faça des d’una part del text a una secció pel seu número. Act. 5.4 És necessari que un sistema de traducció automàtica sempre faça traduccions perfectes de qualsevol text per a ser útil? Si no, quin nivell d’imperfecció es podria tolerar? Per què? Doneu exemples i penseu en situacions concretes. Activitats opcionals Act. 5.5 Si tenim temps, podem fer en aquest punt una tempesta d’idees sobre els sistemes de traducció automàtica: 1. En què consisteix la tasca? 2. Quin aspecte creieu que hauria de tenir (per a qui l’usa) un sistema de traducció automàtica? Com hauria d’estar dissenyat perquè fóra fàcil d’usar? 3. Com creieu que funciona? Quines tasques bàsiques fa? De quines parts es compon? Tenen els processadors de textos actuals solucions perquè Joaquim no passe per aquest calvari una i altra vegada? Quina relació té això amb el que hem discutit en l’activitat anterior? 5 Usos de tomàtica la traducció 4. En quina informació es basa cada una de les parts? Quan acabem l’activitat haurı́em de ser capaços de fer un diagrama de blocs preliminar d’un sistema genèric de traducció automàtica. au6 Ambigüitat Act. 5.1 En el primer bloc del curs vam avançar una definició preliminar de traducció au- Act. 6.1 L’ambigüitat de les llengües naturals és tomàtica. Abans de tractar els aspectes relauna de les caracterı́stiques que fa que la tratius a l’automatització, convé que ens planteducció automàtica siga especialment difı́cil. gem què entenem per traducció i reflexionem Podrı́eu definir breument el concepte d’amun poc sobre aquest concepte. Podrı́eu probigüitat? Per què el llenguatge humà és amvar a definir-lo amb tot el detall que pugueu bigu? Per què l’ambigüitat dificulta la traduc(prepareu-ne una definició per a llegir-la en ció? 6 AMBIGÜITAT Act. 6.2 Considereu les frases ambigües següents: 1. Vaig veure Joan parlant amb Maria i li vaig dir que no vingués avui a casa. (A qui ho vaig dir?) 2. Porta quaderns i llibres vells per a cremar en la ximenera. (Els quaderns, vells també?) 3. A Catalunya, la millor estació és aquesta. (L’estiu? L’estació ferroviària de Sants?) 4. Qui diu que va venir? (1: “Qui diu això?”; 2: “Diu que va venir... qui?”) 5. Les finestres de la casa que va pintar Joan són grans. (Què va pintar Joan, les finestres de la casa o la casa?) 6. És molt amic de Joan. (Qui?) 7. Porta les claus de l’armari gran (les claus que l’obrin o les claus que hi ha allà?). 8. Viu la festa (1: “Ell participa de la festa”; 2: “Participa de la festa!”; 3: “Vaig veure la festa”). 9. (en)1 I saw her duck under the table (1: “Vaig veure enu ànec sota la taula”; 2: “Vaig veure com s’ajupia (per a amagarse) sota la taula”) 10. (en) Time flies like an arrow (exemple clàssic amb tres interpretacions possibles: busqueu-les). 11. (en) “I saw the girl with the telescope” (un altre clàssic). 12. (en) “Sue went to put the key under the doormat. When she lifted it up, a cockroach quickly scampered across the path” (it és doormat o key?) (Arnold et al. 1994). Els exemples contenen ambigüitats de molts tipus diferents. Fins i tot entre dues llengües molt similars com l’espanyol i el català, l’ambigüitat pot estar associada a l’existència de més d’una traducció possible (l’elecció de la interpretació incorrecta pot donar lloc a un error de traducció). Fixeu-vos en els casos següents: 13. Nadie conocı́a el destino del avión secuestrado 1 Els exemples usen els codis ISO-639-2 (http://www. loc.gov/standards/iso639-2/php/code_list.php) per a indicar les llengües diferents del català. 6 T1: Ningú no coneixia el destı́ de l’avió segrestat (anaven a morir) T2: Ningú no coneixia la destinació de l’avió segrestat (Washington?) 14. Este vino de Jerez para el trabajo T1: Aquest vi de Xerès atura el treball (té massa alcohol i no hi ha manera de treballar) T2: Aquest va venir de Xerès per al treball (falten obrers i va venir de molt lluny) 15. Les pidió que fueran como él les habı́a enseñado T1: Els va demanar que anaren com ell els havia ensenyat (en autobús) T2: Els va demanar que foren com ell els havia ensenyat (honestos i sincers) 16. Te vendo un coche T1: T’embene un cotxe (amb benes) T2: Et venc un cotxe (perquè necessite diners) 17. Almohadas y mantas amarillas T1: Coixins i mantes grogues (les mantes només) T2: Coixins i mantes grocs (les mantes i els coixins) 18. Como tenı́a puntos de Teleplús, compré el partido que el Lucentum ganó por doce puntos T1: Com que tenia punts de Teleplús, vaig comprar el partit que el Lucentum va guanyar de 12 punts (Tau 87, Lucentum 99) T2: Com que tenia punts de Teleplús, vaig comprar el partit que el Lucentum va guanyar per 12 punts (I encara em queden 30 punts en el saldo del satèl·lit) 19. Me han dado los análisis de mis almendros y se los he tenido que enseñar al inspector de agricultura T1: M’han donat les anàlisis dels meus ametlers i li’ls he hagut d’ensenyar a l’inspector d’agricultura (li he ensenyat els ametlers) 7 COM FUNCIONA LA TRADUCCIÓ AUTOMÀTICA? T2: M’han donat les anàlisis dels meus ametlers i li les he hagut d’ensenyar a l’inspector d’agricultura (li he ensenyat les anàlisis) 20. El camarero trajo el postre y se fue; lo miré con deseo 7 Quin tipus d’ambigüitat representa cada cas? Com podria un sistema de traducció automàtica resoldre l’ambigüitat? 7 Com funciona la traducció automàtica? T1: El cambrer va portar les postres i se’n va anar; les vaig mirar amb desig (feia temps que no havia menjat arròs Act. 7.1 Una aproximació preliminar —i bastant rudimentària— a la traducció automàtica és amb llet) l’anomenada traducció mot per mot: el sisteT2: El cambrer va portar les postres i se’n va ma llig el text original mot a mot i d’esanar; el vaig mirar amb desig (si camiquerra a dreta, substitueix cada mot originava aixı́, com seria al llit?) nal per un mot equivalent en llengua meta2 21. ¿A qué médico dijeron que irı́an? i escriu els mots un a un i en el mateix ordre en el text meta, de manera que l’ordre T1: A quin metge van dir que hi anirien? dels mots es conserva (aquesta aproximació (Pregunte pel metge a qui van explil’anomenarem en classe “model 0”). Indicar la intenció d’anar a algun lloc) queu alguns problemes d’aquesta aproximaT2: A ca quin metge van dir que anirien? ci ó, inspirant-vos en les traduccions mot per (Pregunte pel metge que van dir que mot seg üents, i indiqueu com es podrien revisitarien) soldre en una estratègia més avançada de traducció automàtica (que anomenarem “model Proveu de classificar aquestes ambigüitats i 1”). les de la llista anterior usant algun esquema que estiga motivat lingüı́sticament. Act. 6.3 Indica què fa que els textos ambigus següents siguen especialment difı́cils de tractar en un sistema de traducció automàtica, encara que majoria de les persones puguen elegir la interpretació correcta: 1. (en) “The soldiers shot at the women and I saw them fall” (“Els soldats van disparar a les dones i els vaig veure caure” —els soldats— o “...i les vaig veure caure” —les dones—). 1. (es) El oso apareció tarde → (ca) *El goso va aparèixer trigui 2. (en) The computer expert’s large table is full → (ca) *El ordinador expert gran taula és ple 3. (es) El satélite enviaba una buena señal pero sin datos especı́ficos. → (ca) *El satèl·lit enviava una bona senyal però sense dades especı́fics 4. (es) Menos mal que sólo murieron sesenta y cinco personas → (ca) *Menys malament que només van morir seixanta i cinc persones 2. “Va agarrar les claus de la cadira” (hi ha claus que òbriguen cadires? tenen pany les cadires?) Act. 7.2 Indiqueu alguns problemes no resolts pel “model 1”, proposat durant la realització de 3. “Les assessories fiscals ajuden molt quan l’activitat anterior i feu un esbós de les poss’han de preparar les declaracions de la sibles estratègies de solució que s’haurien renda però aixı́ i tot les odie”. d’incloure en un model més avançat. Per a 4. (conversa entre dues dones) “Vas tenir inspirar-vos, fixeu-vos en les frases següents relacions amb el teu home abans de i les traduccions produı̈des per un sistema casar-te amb ell?” “Jo no, i tu?” “Jo sı́, “model 1”. però no sabia que acabaria casant-se amb 2 El millor possible, el més freqüent, etc. tu”. 7 COM FUNCIONA LA TRADUCCIÓ AUTOMÀTICA? 8 1. (a) (cat.) No volem més problemes → Act. 7.3 Els sistemes descrits fins ara realitzen la (esp.) ? No volamos más problemas. traducció en tres fases, que es corresponen amb tres mòduls o subprogrames ben defi(b) (esp.) No salen de casa → (cat.) ∗No nits: l’anàlisi o extracció de les caracterı́stiques salin de casa rellevants per a obtenir una representació que 2. (traduccions d’un “model 1” de l’espasimplifica la traducció, la transferència on s’anyol al català): pliquen les transformacions necessàries per a (a) Una almohada → Un coixı́ obtenir una representació anàloga però refe(b) Una almohada cómoda → Un coixı́ rida a la llengua meta, i la generació, on es còmode genera un text meta a partir d’aquesta repre(c) Una buena almohada → *Una bona sentació. Imagineu ara que tenim un sistecoixı́ ma de traducció automàtica d’aquesta classe que tradueix en qualsevol direcció entre tres (d) Una almohada muy cómoda → *Un llengües. coixı́ molt còmoda (e) La almohada que me compraste es 1. Quants mòduls d’anàlisi, de transferència muy cómoda → *El coixı́ que em vas i de generació té? comprar és molt còmoda. 2. Quants mòduls més hem d’escriure si 3. (traduccions d’un “model 1” de l’anglés volem afegir una quarta llengua a totes al català): les direccions de traducció? (a) A house → Una casa 3. Quants experts monolingües bilingües (b) A car → Un cotxe necessitem per a construir aquests (c) Red houses → Cases vermelles mòduls? (d) A large house → Una casa gran 4. Com es podria evitar aquesta complexi(e) The young expert → L’expert jove tat? (f) The professor’s house → La casa del catedràtic Activitats opcionals (g) The young professor’s car → El cotxe del catedràtic jove (h) The young professor’s large car → Act. 7.4 Com ja hem vist, els sistemes de traducció automàtica entre dues llengües amb sinta*El catedràtic jove cotxe gran xi molt diferent necessiten fer reordenaments. (i) The physics professor’s car → El cotImagineu un sistema de traducció automàtica xe del catedràtic de fı́sica que tradueix sintagmes nominals del català al (j) The young physics professor’s car → basc i usa regles per a reordenar seqüències de La fı́sica jove catedràtic cotxe categories gramaticals segons s’ha discutit en 4. D’altres traduccions problemàtiques: l’activitat anterior: d’esquerra a dreta, reordenant la seqüència més llarga detectada i sense operar dues voltes sobre el mateix mot. (a) (en) I like roasted peanuts → (ca) *Jo agrade cacaus torrats (però: I buy roasted peanuts → Jo compre cacaus Fixeu-vos en els exemples següents, on s’inditorrats). ca la traducció produı̈da pel programa i, on és incorrecta (*), la traducció correcta:3 (b) (ca) Porta les claus de la porta ver? da → (en) Bring the keys from the 1. La casa: etxea green door 2. La casa vermella: etxe gorria (c) (en) Cleaning fluids can be toxic → ? (ca) Netejar lı́quids pot ser tòxic 3. La casa de la dona : emakumearen etxea (d) (en) The ship sank → (ca) *El vai3 Vocabulari: emakume n, dona; etxe n, casa; gazte adj, jove; xell afonà (però: We sank the ship → gorri adj, vermell, -a; -a art, el, la; -ren gen, marca de genitiu (de). [Nosaltres] Vam afonar el vaixell). 8 AVALUACIÓ DE LA TRADUCCIÓ AUTOMÀTICA 4. La casa vermella de la dona : emakumearen etxe gorria 8 9 Avaluació de la traducció automàtica 5. La casa de la dona jove: *emakumearen etxea gazte (corr.: emakume gaztearen et- Act. 8.1 Imagineu que esteu considerant la posxea) sibilitat d’usar un sistema de traducció automàtica en el vostre treball o assessorant una 6. La casa vermella de la dona jove: empresa que està considerant adoptar-ne un, *emakumearen etxe gorria gazte (corr: i hi ha més d’una opció. Indiqueu com farı́eu emakume gaztearen etxe gorria) —quins criteris d’avaluació usarı́eu— per a Quines són les regles actives en cada frase? decidir quin sistema adopteu. Quins aspectes Per què es produeixen les traduccions incordel sistema avaluarı́eu? rectes? Justifiqueu les vostres respostes. Act. 8.2 A més de quan es vol decidir l’adopció Act. 7.5 Fixeu-vos en l’exemple de l’activitat 7. d’un sistema, en quines altres situacions pot Les limitacions observades són les d’un sistenir interés l’avaluació de la traducció autema que no fa anàlisi sintàctica i que, per tomàtica? tant, és incapaç d’identificar sintagmes i manipular-los com a tals. La solució consis- Act. 8.3 Molts esquemes clàssics d’avaluació es teix a fer l’anàlisi sintàctica i aplicar a les frabasen en comparar directament la qualitat de ses analitzades regles que en transformen la la traducció automàtica i de la traducció husintaxi. Per exemple, les noves regles per als mana. Quins problemes pot tenir aquesta visintagmes nominals de la pregunta 4 es podrisió de l’avaluació? en escriure4 : R1 : tr([SN SN1 [SP de SN2 ] ]) = [SN [SP tr(SN2 ) gen ] tr(SN1 ) ] R2 : tr([SN art n ]) = [SN tr(n) tr(art) ] R3 : tr([SN art n adj [SN tr(n) tr(adj) tr(art) ] ]) = on tr(. . .) representa “la traducció de . . . ” i els claudàtors [X . . .] indiquen l’estructura sintàctica produı̈da per l’analitzador o l’enviada al generador. 1. En el nou model, quines serien les traduccions automàtiques al basc de les frases incorrectes de l’exemple anterior? 2. Queden correctes? Activitats opcionals Act. 8.4 Considereu el concepte d’avaluació predictiva de la qualitat de les traduccions, que podem definir com segueix: un procés d’avaluació organitzat de tal manera que, amb les dades recollides, puguem predir raonablement el comportament d’un sistema de traducció automàtica en situacions noves respecte de les que s’han avaluat. Expliqueu com caldria organitzar un procés d’avaluació predictiva i quins coneixements hi són necessaris. 9 Memòries de traducció 3. Si en basc fill n es diu seme, quines serien les traduccions de “la casa vermella del Act. 9.1 Moltes vegades, un equip de professionals de la traducció ha de traduir textos que fill jove de la dona” i “la casa del fill de són molt similars en naturalesa i contingut a la dona jove”? molts altres que ja han estat traduı̈ts anteri4. Quines regles s’hi han aplicat? (fixeu-vos orment pel mateix equip. Fer-ho sense usar que és possible que en aquestes frases la informació ja existent en les traduccions hàgeu d’aplicar més d’una volta la maprèvies és, a més de tediós per repetitiu, exteixa regla). tremament poc eficient.5 S’anomena memòries 4 Usant la representació clàssica amb claudàtors [. . .] en comptes d’arbres. 5 Tot i que, malauradament, encara es fa molt! 10 BASES DE DADES LÈXIQUES de traducció al programari que permet aprofitar la informació existent en traduccions realitzades anteriorment per a assistir la persona que ha fer una nova traducció. 1. Com han d’estar els textos anteriorment traduı̈ts per a poder ser útils? Cal alguna mena de preparació? 2. Què passa si, quan es va a traduir un fragment del document nou, no se’n troba un d’exactament igual en les traduccions prèvies? L’hem de traduir completament a mà? Act. 9.2 Quina hauria de ser l’aparença d’un programa de memòries de traducció des del punt de vista de la persona usuària, perquè siga fàcil d’usar? Act. 9.3 Indica quines conseqüències pot tenir per al treball d’un equip de professionals de la traducció la gestió i l’ús compartit amb altres equips de grans memòries de traducció. 10 Bases de dades lèxiques Act. 10.1 Aquest bloc està dedicat a un tipus de bases de dades. Segur que heu sentit parlar de bases de dades més d’una vegada. Digueu: 1. Què és una base de dades? Com s’organitza la informació en una base de dades? 2. Per a què vol les bases de dades un traductor o una traductora? En què consisteixen les bases de dades que pot usar qui es dedica a la traducció? 3. Quins avantatges té l’organització de la informació en bases de dades respecte dels mètodes tradicionals (per ex., fitxes de cartolina)? Act. 10.2 Entre les bases de dades esmentades en l’activitat anterior és possible que hàgeu esmentat les bases de dades que ens ocupen; és a dir, les terminològiques o lèxiques. 1. En què consisteixen? 2. Per a què serveixen? 3. Què contenen els registres d’aquestes bases de dades? 10 4. Com convé que estiguen organitzades?