Programa-guia d’activitats d’aula d’Inform`atica Aplicada a la Traducci ´o

Anuncio
Programa-guia d’activitats d’aula
d’Informàtica Aplicada a la Traducció∗
Mikel L. Forcada
Departament de Llenguatges i Sistemes Informàtics
Universitat d’Alacant, E-03071 Alacant
Curs 2008–2009
1
Índex
Què estudiarem en aquest
curs?
Act. 1.1 El nom d’aquesta assignatura és Informàtica Aplicada a la Traducció. Si mireu
el pla d’estudis, veureu que el descriptor de
l’assignatura és
1
Què estudiarem en aquest curs?
1
2
Ordinadors i programes
1
3
Internet
3
4
Textos i formats
3
5
Usos de la traducció automàtica
5
6
Ambigüitat
5
Com a primera aproximació, responeu les
preguntes següents:
7
Com funciona
tomàtica?
7
1. Quin creieu que és el significat dels conceptes que apareixen en el descriptor?
En concret, què s’entén per traducció automàtica i semiautomàtica?
la
traducció
au-
8
Avaluació de la traducció automàtica
9
9
Memòries de traducció
9
10 Bases de dades lèxiques
“Accés als instruments de treball
per al suport a la tasca de traductor. Traducció automàtica i semiautomàtica i integració de sistemes”
2. Com creieu que es pot aplicar la informàtica a la traducció? Quina part
del treball la realitzaria l’ordinador (automàticament) i quina part realitzarien
els professionals? Doneu-ne detalls.
10
3. Heu usat ja algun programa dels que es
poden aplicar a la traducció? Quin?
4. Què us agradaria aprendre en aquesta
assignatura?
∗
c 2008 Universitat d’Alacant. Aquest material pot ser
distribuı̈t, copiat i exhibit si el nom de l’autor es mostra en
els crèdits. Les obres derivades han de distribuir-se sota els
mateixos termes de llicència que el treball original. Més detalls: http://creativecommons.org/licenses/by-sa/
3.0/deed.ca. Podeu demanar els fonts LaTeX a l’autor
([email protected]).
2
Ordinadors i programes
Act. 2.1 Acı́ teniu algunes descripcions informàtiques (algunes, quasi prehistòriques!).
1
2
ORDINADORS I PROGRAMES
És probable que no les entengueu completament, però si creieu que n’enteneu alguna
part, podrı́eu provar a definir-la en el grup
menut i explicar-la després al grup gran. A
poc a poc les anirem desxifrant entre tots.
1. La màquina que té Toni a casa (comprada a finals de 1992) és un 386 de
40 MHz, amb 4 MB de RAM i un disc
fix de 203 MB; l’adaptador de vı́deo és
SuperVGA. Té dues unitats de disquet,
una de tres polzades i mitja i l’altra de
cinc i quart, i ratolı́, per descomptat. A
més, li ha instal·lat un lector de CD-ROM
de velocitat quàdrupla, una placa de so
SoundBlaster i un mòdem de 2400 bps.
Té instal·lats els sistemes operatius DOS
6.2 i Windows 3.1.
2. La màquina del despatx de Petra (de
l’any 1998) és un Pentium II a 400 MHz,
amb 64 MB de RAM i un disc dur de
20 gigabytes. Té una unitat de disquet
de 3,5 polzades i un lector de CD-ROM
40×. No s’hi ha instal·lat ni Windows ni
DOS ni OS/2, sinó una versió antiga de
Linux.
2
Microsoft Windows 98 Second Edition,
Windows Millennium Edition, Windows
NT 4.0 amb Service Pack 6, Windows 2000
amb Service Pack 2, Windows XP Professional o Home Edition, Windows XP Tablet PC Edition, 32MB de RAM (64MB
recomanats), 60MB d’espai lliure en el
disc.
6. Requisits del navegador Mozilla 1.5 per
a Windows: Windows 95, 98, o 98SE,
Windows Millenium Edition, Windows
NT 4.0, Windows 2000, o Windows XP;
processador de la clase Intel Pentium
(233 MHz o més ràpid recomanat); 64
MB de RAM; 26 MB d’espai lliure al disc.
7. Per a instal·lar el sistema operatiu
GNU-Linex és necessari un Pentium a
200 MHz amb 1,5 GB de disc dur, 64 MB
de RAM i una targeta gràfica de 4 MB.
8. Els CD-R que has comprat no valen, perquè només tenen 650 MB. Per a guardar
tot necessitem un d’aquells de 700 MB. Si
tens un CD-RW, millor, no siga que ens
equivoquem.
9. Com que el fitxer té 2 MB, no cap en un
3. Martı́ es va comprar el 2004 un ordinadisquet. Farem un CD-ROM perquè te’l
dor en MegaTrastos: té una placa base
pugues emportar.
ASUS A7s DDR 333, processador AMD
10. La impressora que tinc a casa és d’injec2600 xp, 256 MB de RAM DDR a 333
ció; té una resolució de 720 × 360 dpi i un
MHz, unitat de disquet de 3”5 de denalimentador de 40 fulls.
sitat alta, disc dur de 40 GB a 7200 rpm
Seagate, teclat, ratolı́ PS2, targeta gràfica
ATI 7000 amb 64 MB de RAM i eixi- Act. 2.2 Ara que ja sabem una miqueta més sobre
ordinadors, responeu les qüestions següents:
da de TV, Unitat enregistradora de CD
LG 52×–24×–52×, i una unitat lectora de
1. El programa SPANAM, es podria execuDVD LG a 16×.
tar en l’ordinador de Toni? I en el de Pe4. Per a executar els programes de traductra? Per què?
ció automàtica de l’Organització Pana2. Es pot instal·lar GNU-Linex en l’ordinamericana de la Salut ENGSPAN i SPAdor de Petra?
NAM, cal un Pentium, 64 MB de RAM,
la xarxa d’àrea local Novell Netware o
3. Es pot instal·lar Acrobat Reader 6.0 per a
Windows NT/2000, una unitat de CDWindows en l’ordinador de Petra?
ROM i 50 MB d’espai al disc dur per sis4. Es pot instal·lar Mozilla 1.5 per a Wintema. Els programes treballen amb dodows en l’ordinador de Martı́?
cuments RTF, ASCII, ANSI, SGML, XML
i HTML.
5. Pot un ordinador basat en un processa5. Requisits d’Acrobat Reader 6.0 per a
Windows: processador Intel Pentium,
dor Pentium executar programes escrits
per a un processador 386?
4
TEXTOS I FORMATS
3
6. Quanta informació cap en un disquet
de 3,5 polzades de densitat alta (HD)?
144 MB? 720 kB? 1,44 MB?
saber què coneixeu sobre el tema. Per això, digueu:
1. Què creieu que és Internet? Podrı́eu
proposar una definició provisional per a
millorar-la posteriorment en classe?
7. Quantes combinacions diferents es poden fer amb 5 bits?
8. Quants bytes hi ha en un megabyte?
2. Per a què pot servir Internet? Més concretament, en què creieu que pot servir a
una persona que es dedica professionalment a la traducció?
9. Quin dispositiu és necessari per a connectar l’ordinador de casa nostra a Internet per via telefònica?
10. Quina velocitat del processador és més
tı́pica en un PC actual?
30 MHz?
300 MHz? 3000 MHz?
3. De quina classe són els documents tı́pics
d’internet? En quin format estan escrits?
4. Com s’especifica en Internet on és un recurs (servei o document) concret? Quines parts té aquesta especificació? Què
especifica cada part?
11. Quina capacitat té un disc dur tı́pic actualment? 100 GB? 100 MB? 100 kB?
Act. 2.3 Parlem ara de programes:
5. Com es busca en Internet un recurs quan
no sabem on és (si és que hi és)?
1. Què vol dir la paraula programa en la vida quotidiana? Penseu en expressions
on apareix el mot programa.
6. Què és l’E-mail? Quins altres serveis similars a l’E-mail coneixeu?
2. A la vista del que us inspiren aquestes
definicions, com definirı́eu un programa
d’ordinador?
3. On resideix un programa abans
d’instal·lar-lo en el vostre ordinador?
Com s’hi guarda?
4. On resideix després d’haver-l’hi instal·lat?
5. On ha de ser per a poder ser executat?
Quan canvia de lloc? Qui el canvia?
Act. 2.4 I ara, parlem de fitxers:
1. Què és un fitxer?
2. On resideixen els fitxers en un ordinador?
3. Què pot contenir un fitxer d’ordinador?
4. En un disquet podrı́em tenir els fitxers
un darrere de l’altre, sense organitzarlos, perquè no hi caben molts, però, com
s’organitzen els fitxers en un disc fix o en
un CD-ROM, on en caben molts més?
3
Internet
Act. 3.1 Abans d’una explicació d’algunes nocions bàsiques sobre Internet, és molt important
7. De quantes maneres ens podem connectar a Internet des de casa? En què es diferencien? S’ha de pagar?
4
Textos i formats
Act. 4.1 Tal com vam veure en el primer bloc
d’activitats, quan algú vol utilitzar l’ordinador per a fer una traducció, en algun punt
ha de manipular o generar un text informatitzat. Indiqueu com fa per a generar aquest text
i quines eines informàtiques —programari,
maquinari— usa (procureu donar noms i definicions tan precises com pugueu). No oblideu
que els textos es poden generar també sense
haver de teclejar-los.
Act. 4.2 Com qualsevol tipus de dades, els textos informatitzats s’emmagatzemen com a
seqüències de bits (bé: agrupats de 8 en 8, és
a dir, com a seqüències d’octets o de bytes).
Hi ha moltes maneres diferents d’emmagatzemar textos informatitzats, és a dir, d’organitzar en octets la informació que contenen.
De fet, normalment s’ha d’especificar de quina manera concreta s’ha emmagatzemat un
text, ja que cada programa espera que els textos estiguen organitzats d’una o de diverses
4
TEXTOS I FORMATS
maneres determinades i també els genera organitzats d’una o de diverses maneres determinades.
Us proposem que reflexioneu una mica sobre
els aspectes següents:
1. Els textos contenen, a més d’altres informacions, els caràcters amb què els idiomes formen els mots.
(a) Com s’emmagatzemen els caràcters
en forma d’octets?
(b) Per què passa de vegades que no podem veure bé tots els caràcters d’un
text? (per exemple, veiem bé els
caràcters no accentuats que la llengua del document té en comú amb
la llengua anglesa, però no veiem bé
altres caràcters)
(c) A més dels sistemes d’escriptura
alfabètics com els nostres, hi ha
sistemes d’escriptura amb conjunts
de caràcters molt més grans, com
ara els sil·làbics, amb centenars de
sı́mbols —devanagari (Índia), hangul
(coreà), hiragana i katakana (japonés),
etc.—, o els ideogràfics, amb milers
de sı́mbols —xinés, kanji japonés,
etc. Com s’emmagatzemen els textos escrits en aquests sistemes?
(d) I si en un mateix document es mesclen diversos sistemes d’escriptura?
2. Però els textos informatitzats, a més dels
caràcters que formen les paraules, contenen molta informació addicional.
(a) Quins elements d’informació addicional solen portar els textos informatitzats a més de les seqüències de
caràcters que formen els mots?
(b) Per a què serveix aquesta informació addicional? És diferent aquesta
informació segons quina siga l’aplicació del text informatitzat?
(c) Com s’emmagatzema aquesta informació en forma d’octets? És possible usar caràcters per a representarla, de manera que es podrien veure
amb un editor de textos bàsic? Com?
4
(d) Imaginem que ens han encarregat
traduir un text informatitzat. En
la llengua d’origen és costum posar en cursives tant els mots estrangers (“Sprachgefühl”) com els termes nous quan es defineixen per
primera volta (“Un octet és...”), se
sagna la primera lı́nia de tots els
paràgrafs, i els números de secció
porten un punt al final (“1.1. Introducció”), però en la llengua d’arribada els termes nous van en negretes (“Un octet és ...”), se sagna la primera lı́nia de tots els paràgrafs excepte la del primer paràgraf d’una
secció, i els números de secció no
porten punt al final (“1.1 Introducció”). És adequat emmagatzemar els
textos atenent només a la presentació visual? Com seria més adequat
emmagatzemar-los?
3. De vegades el mateix text s’ha de presentar de maneres diferents: complet en un
navegador, resumit en la pantalla d’un
telèfon mòbil, imprés com a document
de gran qualitat, llegit en veu alta a un
invident, etc. Com fem per a no tenir tantes versions com mitjans per a cada document?
4. A més dels descrits, enumereu d’altres
problemes associats a les diferències en
els esquemes d’emmagatzematge dels
textos informatitzats.
Act. 4.3 Com ja sabeu, els processadors de textos
més usuals segueixen, en la mesura del possible, un disseny wysiwyg (anglés: what you
see is what you get, “el que veieu és el que obtindreu”): la presentació es basa en una o diverses finestres, cada una de les quals mostra
una secció de l’estat actual d’algun dels documents de text informatitzats que estem creant
i modificant (els documents que tenim oberts).
El text es mostra tan paregut com siga possible a la versió impresa que se’n produirà,
quant a format, tipus de lletra, etc. Aquest
disseny fa que la persona escriptora tendisca a
centrar-se en els atributs visuals del text, ja que
confia que una bona presentació transmetrà a
les persones lectores l’estructura lògica que la
6
AMBIGÜITAT
5
persona escriptora té en el seu cap per al document.
veu alta), després de pensar una miqueta en
situacions on s’usa el mot traducció.
Però un disseny de documents guiat
únicament per la presentació té inconvenients molt importants. Fixeu-vos en la
següent situació problemàtica:
Act. 5.2 Quin interés pot tenir la traducció automàtica? Quins usos i camps d’aplicació se
us acut que pot tenir?
Act. 5.3 Indiqueu, preliminarment, però amb tot
el detall que pugueu, quines caracterı́stiques
del treball de traducció de textos penseu que
fan difı́cil la seua automatització.
Joaquim ha decidit que els tı́tols de
secció de l’informe anual que li han
encarregat estaran en Helvetica de
14 punts, negreta i els de subsecció
en Arial de 12 punts, negreta cursiva. A Marina, la seua directora, no
li agraden aixı́ i li’ls ha fet canviar
a Lucida Sans de 14, negreta i Lucida de 12, negreta sense cursives.
Com que l’informe ha d’estar acabat per a demà de matı́, Joaquim es
queda a l’oficina fins a les 11 de la
nit, canviant un a un els tipus de lletra del tı́tols de seccions i subseccions. A l’endemà, de matı́, Marina
li passa un document amb una secció més que s’ha d’inserir entre la
4 i la 5. Joaquim no pot anar a esmorzar: ha de canviar els números
de seccions i subseccions a partir de
la 5 i repassar si s’ha de canviar alguna referència que es faça des d’una part del text a una secció pel seu
número.
Act. 5.4 És necessari que un sistema de traducció
automàtica sempre faça traduccions perfectes
de qualsevol text per a ser útil? Si no, quin nivell d’imperfecció es podria tolerar? Per què?
Doneu exemples i penseu en situacions concretes.
Activitats opcionals
Act. 5.5 Si tenim temps, podem fer en aquest
punt una tempesta d’idees sobre els sistemes de
traducció automàtica:
1. En què consisteix la tasca?
2. Quin aspecte creieu que hauria de tenir
(per a qui l’usa) un sistema de traducció
automàtica? Com hauria d’estar dissenyat perquè fóra fàcil d’usar?
3. Com creieu que funciona? Quines tasques bàsiques fa? De quines parts es
compon?
Tenen els processadors de textos actuals solucions perquè Joaquim no passe per aquest calvari una i altra vegada? Quina relació té això
amb el que hem discutit en l’activitat anterior?
5
Usos de
tomàtica
la
traducció
4. En quina informació es basa cada una de
les parts?
Quan acabem l’activitat haurı́em de ser
capaços de fer un diagrama de blocs preliminar d’un sistema genèric de traducció automàtica.
au6
Ambigüitat
Act. 5.1 En el primer bloc del curs vam avançar
una definició preliminar de traducció au- Act. 6.1 L’ambigüitat de les llengües naturals és
tomàtica. Abans de tractar els aspectes relauna de les caracterı́stiques que fa que la tratius a l’automatització, convé que ens planteducció automàtica siga especialment difı́cil.
gem què entenem per traducció i reflexionem
Podrı́eu definir breument el concepte d’amun poc sobre aquest concepte. Podrı́eu probigüitat? Per què el llenguatge humà és amvar a definir-lo amb tot el detall que pugueu
bigu? Per què l’ambigüitat dificulta la traduc(prepareu-ne una definició per a llegir-la en
ció?
6
AMBIGÜITAT
Act. 6.2 Considereu les frases ambigües següents:
1. Vaig veure Joan parlant amb Maria i li vaig
dir que no vingués avui a casa. (A qui ho
vaig dir?)
2. Porta quaderns i llibres vells per a cremar en
la ximenera. (Els quaderns, vells també?)
3. A Catalunya, la millor estació és aquesta.
(L’estiu? L’estació ferroviària de Sants?)
4. Qui diu que va venir? (1: “Qui diu això?”;
2: “Diu que va venir... qui?”)
5. Les finestres de la casa que va pintar Joan són
grans. (Què va pintar Joan, les finestres
de la casa o la casa?)
6. És molt amic de Joan. (Qui?)
7. Porta les claus de l’armari gran (les claus
que l’obrin o les claus que hi ha allà?).
8. Viu la festa (1: “Ell participa de la festa”;
2: “Participa de la festa!”; 3: “Vaig veure
la festa”).
9. (en)1 I saw her duck under the table (1:
“Vaig veure enu ànec sota la taula”; 2:
“Vaig veure com s’ajupia (per a amagarse) sota la taula”)
10. (en) Time flies like an arrow (exemple
clàssic amb tres interpretacions possibles: busqueu-les).
11. (en) “I saw the girl with the telescope”
(un altre clàssic).
12. (en) “Sue went to put the key under the
doormat. When she lifted it up, a cockroach quickly scampered across the path”
(it és doormat o key?) (Arnold et al. 1994).
Els exemples contenen ambigüitats de molts
tipus diferents.
Fins i tot entre dues llengües molt similars
com l’espanyol i el català, l’ambigüitat pot estar associada a l’existència de més d’una traducció possible (l’elecció de la interpretació
incorrecta pot donar lloc a un error de traducció). Fixeu-vos en els casos següents:
13. Nadie conocı́a el destino del avión secuestrado
1 Els
exemples usen els codis ISO-639-2 (http://www.
loc.gov/standards/iso639-2/php/code_list.php)
per a indicar les llengües diferents del català.
6
T1: Ningú no coneixia el destı́ de l’avió segrestat (anaven a morir)
T2: Ningú no coneixia la destinació de l’avió
segrestat (Washington?)
14. Este vino de Jerez para el trabajo
T1: Aquest vi de Xerès atura el treball (té
massa alcohol i no hi ha manera de
treballar)
T2: Aquest va venir de Xerès per al treball (falten obrers i va venir de molt
lluny)
15. Les pidió que fueran como él les habı́a enseñado
T1: Els va demanar que anaren com ell els
havia ensenyat (en autobús)
T2: Els va demanar que foren com ell els havia ensenyat (honestos i sincers)
16. Te vendo un coche
T1: T’embene un cotxe (amb benes)
T2: Et venc un cotxe (perquè necessite diners)
17. Almohadas y mantas amarillas
T1: Coixins i mantes grogues (les mantes
només)
T2: Coixins i mantes grocs (les mantes i els
coixins)
18. Como tenı́a puntos de Teleplús, compré el
partido que el Lucentum ganó por doce puntos
T1: Com que tenia punts de Teleplús, vaig
comprar el partit que el Lucentum va
guanyar de 12 punts (Tau 87, Lucentum 99)
T2: Com que tenia punts de Teleplús, vaig
comprar el partit que el Lucentum va
guanyar per 12 punts (I encara em
queden 30 punts en el saldo del
satèl·lit)
19. Me han dado los análisis de mis almendros y
se los he tenido que enseñar al inspector de
agricultura
T1: M’han donat les anàlisis dels meus
ametlers i li’ls he hagut d’ensenyar a
l’inspector d’agricultura (li he ensenyat els ametlers)
7
COM FUNCIONA LA TRADUCCIÓ AUTOMÀTICA?
T2: M’han donat les anàlisis dels meus
ametlers i li les he hagut d’ensenyar
a l’inspector d’agricultura (li he ensenyat les anàlisis)
20. El camarero trajo el postre y se fue; lo miré
con deseo
7
Quin tipus d’ambigüitat representa cada cas?
Com podria un sistema de traducció automàtica resoldre l’ambigüitat?
7
Com funciona la traducció automàtica?
T1: El cambrer va portar les postres i se’n
va anar; les vaig mirar amb desig (feia temps que no havia menjat arròs Act. 7.1 Una aproximació preliminar —i bastant
rudimentària— a la traducció automàtica és
amb llet)
l’anomenada traducció mot per mot: el sisteT2: El cambrer va portar les postres i se’n va
ma
llig el text original mot a mot i d’esanar; el vaig mirar amb desig (si camiquerra
a dreta, substitueix cada mot originava aixı́, com seria al llit?)
nal per un mot equivalent en llengua meta2
21. ¿A qué médico dijeron que irı́an?
i escriu els mots un a un i en el mateix ordre en el text meta, de manera que l’ordre
T1: A quin metge van dir que hi anirien?
dels mots es conserva (aquesta aproximació
(Pregunte pel metge a qui van explil’anomenarem
en classe “model 0”). Indicar la intenció d’anar a algun lloc)
queu
alguns
problemes
d’aquesta aproximaT2: A ca quin metge van dir que anirien?
ci
ó,
inspirant-vos
en
les
traduccions mot per
(Pregunte pel metge que van dir que
mot
seg
üents,
i
indiqueu
com es podrien revisitarien)
soldre en una estratègia més avançada de traducció automàtica (que anomenarem “model
Proveu de classificar aquestes ambigüitats i
1”).
les de la llista anterior usant algun esquema
que estiga motivat lingüı́sticament.
Act. 6.3 Indica què fa que els textos ambigus
següents siguen especialment difı́cils de tractar en un sistema de traducció automàtica, encara que majoria de les persones puguen elegir la interpretació correcta:
1. (en) “The soldiers shot at the women
and I saw them fall” (“Els soldats van
disparar a les dones i els vaig veure caure” —els soldats— o “...i les vaig veure
caure” —les dones—).
1. (es) El oso apareció tarde → (ca) *El goso va aparèixer trigui
2. (en) The computer expert’s large table
is full → (ca) *El ordinador expert gran
taula és ple
3. (es) El satélite enviaba una buena señal
pero sin datos especı́ficos. → (ca) *El
satèl·lit enviava una bona senyal però
sense dades especı́fics
4. (es) Menos mal que sólo murieron sesenta y cinco personas → (ca) *Menys
malament que només van morir seixanta
i cinc persones
2. “Va agarrar les claus de la cadira” (hi ha
claus que òbriguen cadires? tenen pany
les cadires?)
Act. 7.2 Indiqueu alguns problemes no resolts pel
“model 1”, proposat durant la realització de
3. “Les assessories fiscals ajuden molt quan
l’activitat anterior i feu un esbós de les poss’han de preparar les declaracions de la
sibles estratègies de solució que s’haurien
renda però aixı́ i tot les odie”.
d’incloure en un model més avançat. Per a
4. (conversa entre dues dones) “Vas tenir
inspirar-vos, fixeu-vos en les frases següents
relacions amb el teu home abans de
i les traduccions produı̈des per un sistema
casar-te amb ell?” “Jo no, i tu?” “Jo sı́,
“model 1”.
però no sabia que acabaria casant-se amb
2 El millor possible, el més freqüent, etc.
tu”.
7
COM FUNCIONA LA TRADUCCIÓ AUTOMÀTICA?
8
1. (a) (cat.) No volem més problemes → Act. 7.3 Els sistemes descrits fins ara realitzen la
(esp.) ? No volamos más problemas.
traducció en tres fases, que es corresponen
amb tres mòduls o subprogrames ben defi(b) (esp.) No salen de casa → (cat.) ∗No
nits: l’anàlisi o extracció de les caracterı́stiques
salin de casa
rellevants per a obtenir una representació que
2. (traduccions d’un “model 1” de l’espasimplifica la traducció, la transferència on s’anyol al català):
pliquen les transformacions necessàries per a
(a) Una almohada → Un coixı́
obtenir una representació anàloga però refe(b) Una almohada cómoda → Un coixı́
rida a la llengua meta, i la generació, on es
còmode
genera un text meta a partir d’aquesta repre(c) Una buena almohada → *Una bona
sentació. Imagineu ara que tenim un sistecoixı́
ma de traducció automàtica d’aquesta classe
que tradueix en qualsevol direcció entre tres
(d) Una almohada muy cómoda → *Un
llengües.
coixı́ molt còmoda
(e) La almohada que me compraste es
1. Quants mòduls d’anàlisi, de transferència
muy cómoda → *El coixı́ que em vas
i de generació té?
comprar és molt còmoda.
2. Quants mòduls més hem d’escriure si
3. (traduccions d’un “model 1” de l’anglés
volem afegir una quarta llengua a totes
al català):
les direccions de traducció?
(a) A house → Una casa
3. Quants experts monolingües bilingües
(b) A car → Un cotxe
necessitem per a construir aquests
(c) Red houses → Cases vermelles
mòduls?
(d) A large house → Una casa gran
4. Com es podria evitar aquesta complexi(e) The young expert → L’expert jove
tat?
(f) The professor’s house → La casa del
catedràtic
Activitats opcionals
(g) The young professor’s car → El cotxe del catedràtic jove
(h) The young professor’s large car → Act. 7.4 Com ja hem vist, els sistemes de traducció automàtica entre dues llengües amb sinta*El catedràtic jove cotxe gran
xi molt diferent necessiten fer reordenaments.
(i) The physics professor’s car → El cotImagineu un sistema de traducció automàtica
xe del catedràtic de fı́sica
que tradueix sintagmes nominals del català al
(j) The young physics professor’s car →
basc i usa regles per a reordenar seqüències de
La fı́sica jove catedràtic cotxe
categories gramaticals segons s’ha discutit en
4. D’altres traduccions problemàtiques:
l’activitat anterior: d’esquerra a dreta, reordenant la seqüència més llarga detectada i sense
operar dues voltes sobre el mateix mot.
(a) (en) I like roasted peanuts → (ca)
*Jo agrade cacaus torrats (però: I buy
roasted peanuts → Jo compre cacaus
Fixeu-vos en els exemples següents, on s’inditorrats).
ca la traducció produı̈da pel programa i, on és
incorrecta (*), la traducció correcta:3
(b) (ca) Porta les claus de la porta ver?
da → (en) Bring the keys from the
1. La casa: etxea
green door
2. La casa vermella: etxe gorria
(c) (en) Cleaning fluids can be toxic →
?
(ca) Netejar lı́quids pot ser tòxic
3. La casa de la dona : emakumearen etxea
(d) (en) The ship sank → (ca) *El vai3 Vocabulari: emakume n, dona; etxe n, casa; gazte adj, jove;
xell afonà (però: We sank the ship → gorri adj, vermell, -a; -a art, el, la; -ren gen, marca de genitiu
(de).
[Nosaltres] Vam afonar el vaixell).
8
AVALUACIÓ DE LA TRADUCCIÓ AUTOMÀTICA
4. La casa vermella de la dona : emakumearen etxe gorria
8
9
Avaluació de la traducció automàtica
5. La casa de la dona jove: *emakumearen
etxea gazte (corr.: emakume gaztearen et- Act. 8.1 Imagineu que esteu considerant la posxea)
sibilitat d’usar un sistema de traducció automàtica en el vostre treball o assessorant una
6. La casa vermella de la dona jove:
empresa que està considerant adoptar-ne un,
*emakumearen etxe gorria gazte (corr:
i hi ha més d’una opció. Indiqueu com farı́eu
emakume gaztearen etxe gorria)
—quins criteris d’avaluació usarı́eu— per a
Quines són les regles actives en cada frase?
decidir quin sistema adopteu. Quins aspectes
Per què es produeixen les traduccions incordel sistema avaluarı́eu?
rectes? Justifiqueu les vostres respostes.
Act. 8.2 A més de quan es vol decidir l’adopció
Act. 7.5 Fixeu-vos en l’exemple de l’activitat 7.
d’un sistema, en quines altres situacions pot
Les limitacions observades són les d’un sistenir interés l’avaluació de la traducció autema que no fa anàlisi sintàctica i que, per
tomàtica?
tant, és incapaç d’identificar sintagmes i
manipular-los com a tals. La solució consis- Act. 8.3 Molts esquemes clàssics d’avaluació es
teix a fer l’anàlisi sintàctica i aplicar a les frabasen en comparar directament la qualitat de
ses analitzades regles que en transformen la
la traducció automàtica i de la traducció husintaxi. Per exemple, les noves regles per als
mana. Quins problemes pot tenir aquesta visintagmes nominals de la pregunta 4 es podrisió de l’avaluació?
en escriure4 :
R1 : tr([SN SN1 [SP de SN2 ] ]) =
[SN [SP tr(SN2 ) gen ] tr(SN1 ) ]
R2 : tr([SN art n ]) = [SN tr(n) tr(art) ]
R3 : tr([SN
art
n
adj
[SN tr(n) tr(adj) tr(art) ]
])
=
on tr(. . .) representa “la traducció de . . . ”
i els claudàtors [X . . .] indiquen l’estructura
sintàctica produı̈da per l’analitzador o l’enviada al generador.
1. En el nou model, quines serien les traduccions automàtiques al basc de les frases incorrectes de l’exemple anterior?
2. Queden correctes?
Activitats opcionals
Act. 8.4 Considereu el concepte d’avaluació predictiva de la qualitat de les traduccions, que podem definir com segueix: un procés d’avaluació organitzat de tal manera que, amb les dades recollides, puguem predir raonablement
el comportament d’un sistema de traducció
automàtica en situacions noves respecte de
les que s’han avaluat. Expliqueu com caldria
organitzar un procés d’avaluació predictiva i
quins coneixements hi són necessaris.
9
Memòries de traducció
3. Si en basc fill n es diu seme, quines serien
les traduccions de “la casa vermella del Act. 9.1 Moltes vegades, un equip de professionals de la traducció ha de traduir textos que
fill jove de la dona” i “la casa del fill de
són molt similars en naturalesa i contingut a
la dona jove”?
molts altres que ja han estat traduı̈ts anteri4. Quines regles s’hi han aplicat? (fixeu-vos
orment pel mateix equip. Fer-ho sense usar
que és possible que en aquestes frases
la informació ja existent en les traduccions
hàgeu d’aplicar més d’una volta la maprèvies és, a més de tediós per repetitiu, exteixa regla).
tremament poc eficient.5 S’anomena memòries
4 Usant la representació clàssica amb claudàtors [. . .] en
comptes d’arbres.
5 Tot
i que, malauradament, encara es fa molt!
10
BASES DE DADES LÈXIQUES
de traducció al programari que permet aprofitar la informació existent en traduccions realitzades anteriorment per a assistir la persona
que ha fer una nova traducció.
1. Com han d’estar els textos anteriorment
traduı̈ts per a poder ser útils? Cal alguna
mena de preparació?
2. Què passa si, quan es va a traduir un
fragment del document nou, no se’n troba un d’exactament igual en les traduccions prèvies? L’hem de traduir completament a mà?
Act. 9.2 Quina hauria de ser l’aparença d’un programa de memòries de traducció des del punt
de vista de la persona usuària, perquè siga
fàcil d’usar?
Act. 9.3 Indica quines conseqüències pot tenir per
al treball d’un equip de professionals de la
traducció la gestió i l’ús compartit amb altres
equips de grans memòries de traducció.
10
Bases de dades lèxiques
Act. 10.1 Aquest bloc està dedicat a un tipus de
bases de dades. Segur que heu sentit parlar de
bases de dades més d’una vegada. Digueu:
1. Què és una base de dades? Com s’organitza la informació en una base de dades?
2. Per a què vol les bases de dades un traductor o una traductora? En què consisteixen les bases de dades que pot usar
qui es dedica a la traducció?
3. Quins avantatges té l’organització de la
informació en bases de dades respecte
dels mètodes tradicionals (per ex., fitxes
de cartolina)?
Act. 10.2 Entre les bases de dades esmentades en
l’activitat anterior és possible que hàgeu esmentat les bases de dades que ens ocupen; és
a dir, les terminològiques o lèxiques.
1. En què consisteixen?
2. Per a què serveixen?
3. Què contenen els registres d’aquestes bases de dades?
10
4. Com convé que estiguen organitzades?
Descargar