Aplicació de tècniques de generació automàtica de la parla en

Anuncio
Aplicació de tècniques de generació
automàtica de la parla en producció
audiovisual
Maig 2011
Investigador responsable:
Francesc Alías Pujol
Equip:
Ignasi Iriondo Sanz
Joan Claudi Socoró Carrié
Lluís Formiga Fanals
Alexandre Trilla Castelló
VII convocatòria d‘ajuts a projectes de recerca sobre comunicació audiovisual
(segons acord 96/2010 del Ple del Consell de l‘Audiovisual de Catalunya)
La Salle – Universitat Ramon Llull
Departament de Tecnologies Mèdia
Quatre Camins, 30
08022 BARCELONA
Consell de l‘Audiovisual de Catalunya (CAC)
Sancho d‘Àvila, 125-129
08018 BARCELONA
Agraïments
Aquest estudi de recerca ha estat possible gràcies a l‘ajut concedit pel Consell de
l‘Audiovisual de Catalunya en la VII convocatòria d‘Ajuts a projectes de recerca sobre
comunicació audiovisual (segons acord 96/2010 del Ple del Consell de l‘Audiovisual de
Catalunya).
Volem agrair al Dr. Antonio Bonafonte de la Universitat Politècnica de Catalunya (UPC)
per la cessió dels textos corresponents a les veus Ona i Pau del projecte FestCat,
utilitzades en aquest treball. També volem agrair a les persones que han participat de
forma desinteressada en l‘enquesta realitzada dins del marc del treball de camp
realitzat, tant del món de l‘audiovisual com les persones amb discapacitat visual que
han tingut l‘amabilitat d‘atendre les nostres qüestions. En especial, volem agrair la
col·laboració de l‘Anna Torrens que, dins del marc del seu Treball Final de Carrera
d‘Enginyeria Tècnica en Sistemes de Telecomunicació (La Salle, Universitat Ramon
Llull) ha estat l‘encarregada de realitzar l‘estudi de camp anteriorment esmentat.
ÍNDEX
1
2
Estat de la qüestió sobre la síntesi de veu ............................................................ 7
1.1
Introducció a la síntesi de veu ....................................................................... 7
1.2
Els components d‘un sintetitzador de veu...................................................... 7
1.3
Síntesi per formants ...................................................................................... 9
1.4
Síntesi articulatòria ...................................................................................... 11
1.5
Síntesi concatenativa .................................................................................. 13
1.6
Síntesi estadística ....................................................................................... 17
1.7
Síntesi basada en models sinusoïdals ......................................................... 19
1.8
Síntesi híbrida ............................................................................................. 22
1.9
Síntesi expressiva ....................................................................................... 23
Implantació de la síntesi de veu en el món audiovisual a Catalunya ................... 25
2.1
Sistemes i usuaris ....................................................................................... 25
2.2
Sistemes de síntesi de veu en català .......................................................... 25
2.2.1
Universitats i centres de recerca.............................................................. 25
2.2.2
Empreses ................................................................................................ 27
2.2.3
Altres productes....................................................................................... 29
2.3
Síntesi de veu per persones amb discapacitat visual................................... 29
2.3.1
Introducció ............................................................................................... 29
2.3.2
Deficiències en els òrgans de visió .......................................................... 30
2.3.3
Sistemes de síntesi per a persones amb discapacitat visual.................... 30
2.4
Treball de camp........................................................................................... 33
2.4.1
Emissores de ràdio .................................................................................. 34
2.4.2
Televisions i productores ......................................................................... 39
2.4.3
Estudis de so, doblatge i postproducció ................................................... 42
2.4.4
Impressions del personal no tècnic .......................................................... 52
2.4.5
Usuaris amb discapacitat visual ............................................................... 55
2.4.6
Conclusions del treball de camp .............................................................. 96
3
Adaptació del sistema de síntesi de La Salle al català ...................................... 102
4
Experiments i resultats ...................................................................................... 103
4.1
Anuncis publicitaris .................................................................................... 105
4.2
Vídeos de notícies ..................................................................................... 107
5
Conclusions i línies d‘investigació futures ......................................................... 112
6
Bibliografia ........................................................................................................ 114
ÍNDEX D’ACRÒNIMS
ACR – Del terme en anglès Absolute Category Rating
API – Del terme en anglès Application Programming Interface, en català Interfície de
Programació d'Aplicacions
CCR – Del terme en anglès Comparison Category Rating
CIDAT – Centro de Investigación, Desarrollo y Aplicación Tiflotécnica
CMOS – Del terme en anglès Comparison Mean Opinion Score
DCR – Del terme en anglès Degradation Category Rating
DVD – Del terme en anglès Digital Versatile Disc
ESCAC – Escola Superior de Cinema i Audiovisuals de Catalunya
GNU – Del terme en anglès General Public License
GPS – Del terme en anglès Global Positioning System, en català Sistema de
Posicionament Global
GTM – Grup de Recerca en Tecnologies Mèdia del centre La Salle - Universitat
Ramon Llull
JAWS – Acrònim de l‘aplicació Job Access With Speech
HMM – Del terme en anglès Hidden Markov Models, en català Models Ocults de
Markov
HMM-TTS – Del terme en anglès Hidden Markov Model based Text-to-Speech, en
català Conversió Text-Parla basada en Models Ocults de Markov
HNM / HSM – Dels termes en anglès Harmonic plus Noise Model / Harmonic plus
Stochastic Model (Model Harmònic amb Soroll o Model Harmònic Estocàstic, en
català)
IMEI – De l‘anglès International Mobile Equipment Identity, en català Identitat
Internacional d‘Equip Mòbil
MFCC – Del terme en anglès Mel Frequency Cepstral Coefficients, en català
Coeficients Cepstrals en les Freqüències de Mel
MOS – Del terme en anglès Mean Opinion Score
NVDA – Acrònim de l‘aplicació NonVisual Desktop Access
ONCE – Organización Nacional de Ciegos Españoles
OCR – Del terme en anglès Optical character recognition, en català Recoeixement
Òptic de Caràcters
PDS – Processament Digital del Senyal
PLN – Processament del Llenguatge Natural
PSOLA – Del terme en anglès Pitch Synchronous Overlap and Add
RENFE – Red Nacional de Ferrocarriles Españoles
SMS – Del terme en anglès Short Message Service, o Servei de Missatges Curts en
català
TALP – Grup de Tecnologies i Aplicacions del Llenguatge i la Parla de la Universitat
Politècnica de Catalunya
TDT – Televisió Digital Terrestre
TRUE – De l‘aplicació Testing platfoRm for mUltimedia Evaluation
TTS – De Text-to-Speech en anglès, terme associat als Conversors Text-Parla
UAB – Universitat Autònoma de Barcelona
UCM – Universidad Complutense de Madrid
UIT – Unió Internacional de Telecomunicacions
UPC – Universitat Politècnica de Catalunya
URL – Universitat Ramon Llull
VoQ – De Voice Quality en anglès, en català Qualitat de la Veu
XML – Del terme en anglès eXtensible Markup Language, o Llenguatge de Marques
Extensible en català
Anàlisi de la situació actual
1 Estat de la qüestió sobre la síntesi de veu
1.1 Introducció a la síntesi de veu
La síntesi de veu o de la parla és la tècnica que permet generar automàticament una
locució amb característiques similars a les d‘una veu humana a partir d‘un text
d‘entrada. Sovint, els sistemes de síntesi de veu, es poden arribar a confondre amb els
sistemes que fan un ús de veu gravada per la reproducció de missatges de veu, però
cal tenir clar que, en general, la síntesi de veu es refereix a les tècniques que
permeten generar qualsevol missatge oral.
El text d'entrada pot provenir d'un correu electrònic, d'una web o bé pot ser escrit
directament des d'un teclat. Algunes de les aplicacions típiques d'aquest tipus de
sistemes són l'ajuda a discapacitats, suport per a l‘aprenentatge de llengües,
aplicacions telefòniques, aplicacions multimèdia i interfícies persona-màquina en
general.
En aquest apartat es realitzarà una revisió de les diferents tècniques de síntesi de veu,
començant abans per tractar els components bàsics d‘un sintetitzador de veu.
Seguidament es veuran amb detall les tècniques de síntesi següents:
-
Síntesi per formants
-
Síntesi articulatòria
-
Síntesi concatenativa
-
Síntesi estadística
-
Síntesi basada el models sinusoïdals
-
Síntesi híbrida
-
Síntesi expressiva
1.2 Els components d’un sintetitzador de veu
Lluny de voler imitar el procés real amb el que els humans generem la parla, existeix
un model funcional que permet abordar, amb els recursos disponibles avui en dia, la
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
7
construcció d‘un sistema que converteixi un text d‘entrada qualsevol en la seva veu
sintètica corresponent. Aquest model funcional, estès i àmpliament acceptat per la
comunitat dedicada a les tecnologies de la parla, és el que es descriu en el següent
diagrama de blocs:
Fonemes i
Text
PLN (Processament del
Llenguatge Natural)
prosòdia
PDS (Processament
Parla sintètica
Digital del Senyal)
Fig.1.1. Model funcional d‘un sistema de conversió de text en parla.
Com es pot observar de la figura 1.1, en primer lloc tenim el bloc de Processament del
Llenguatge Natural de la parla (PLN), que és l‘encarregat de trobar, a partir del text
d‘entrada que es vol ―llegir‖, quina és la transcripció fonètica del text (és a dir, quins
son els sons que s‘han de produir al llarg de la locució de sortida) i també quina ha de
ser la prosòdia associada (com han de sonar cadascun d‘aquests sons,
específicament sobre la seves característiques tant d‘entonació com de ritme). En
segon lloc, apareix el bloc de Processament Digital del Senyal (PDS), que s‘encarrega
de generar, a partir dels requeriments donats pel mòdul anterior, el senyal de parla
sintètica de sortida.
El primer mòdul dins del PLN és el preprocessador, encarregat de normalitzar el text
d'entrada de manera que els següents blocs interpretin correctament aquesta
informació textual. En aquest preprocessament es realitzen tasques com la de
passar de nombres a lletres o l‘expansió d'acrònims, és a dir, tractament en
general del que es coneix com a Paraula no Estàndard (Non-Standard Word)
(Sproat et al., 1999) de la llengua d'interès. A continuació el text es passa per
l'analitzador morfosintàctic que s'encarrega de subdividir els textos en grups sintàctics,
per, una vegada analitzats, aplicar-los el procés de conversió grafema-fonema.
Finalment s'obté informació prosòdica (intensitat, durades i freqüència fonamental) de
les unitats fonètiques que corresponen al text d'entrada. A part d'aquesta informació
prosòdica, el mòdul de PLN pot complementar aquesta informació amb d‘altra que
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
8
ajudi a millorar la naturalitat de la veu sintètica, com per exemple, incorporant atributs
associats al que es coneix com la qualitat de la veu o VoQ (de Voice Quality, en
anglès), que ajudarien a modular aspectes de la veu associats a la emoció (Monzo,
2010).
Si bé el bloc de PLN té característiques força similars entre diferents sistemes de
síntesi de la parla, sovint és el mòdul de PDS el que marca les principals diferències
entre sistemes. Les diferents estratègies per a generar veu sintètica es poden
classificar segons la següent taxonomia: síntesi per formants, síntesi articulatòria,
síntesi concatenativa, síntesi estadística o basada en Models Ocults de Markov, síntesi
basada en models sinusoïdals i síntesi híbrida. També darrerament, la comunitat
científica està fent esforços per mirar d‘assolir graus de naturalitat majors per mitjà del
que es pot denominar síntesi expressiva, i que més enllà de representar una nova
tècnica de síntesi en si, representa tot un conjunt de millores o metodologies en
disseny dels sistemes ja existents per a permetre dotar de més expressivitat a les veus
sintètiques generades.
1.3 Síntesi per formants
La síntesi per formants va ser la primera tècnica de síntesi que es va desenvolupar
i va ser la dominant fins a principis dels anys 80. La síntesi per formants, també
coneguda com a síntesi per regles (en anglès, synthesis-by-rule), és una tècnica en la
que el procés per generar la parla sintètica no fa servir formes d‘ona prèviament
enregistrades. Al contrari, aquest procés es basa en la generació del senyal a partir
d‘un control paramètric d‘un model de tipus filtre més excitació. Aquest model és un
dels més estesos a l‘hora d‘imitar el comportament de la parla humana, tant des de la
perspectiva de la síntesi de veu com de la codificació de la veu. Els paràmetres
involucrats permeten especificar les característiques tant del senyal d‘excitació
(freqüència fonamental, tipus de sonoritat dels fonemes, etc.) com del filtre que emula
el comportament del tracte vocal. El nom de la tècnica prové justament del control de
les ressonàncies típiques del tracte vocal, també anomenades formants.
La síntesi per formants adopta l'enfocament al problema de la síntesi de forma
modular, basant-se en un model acústic i fonètic. Generalment es fa ús d'un model
acústic de tub d'una manera particular, ja que els elements de control del tub es poden
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
9
relacionar fàcilment amb propietats acústiques i fonètiques. El senyal d‘excitació és un
senyal de tipus periòdic per als sons sonors i és de tipus sorollós (soroll blanc) quan es
volen generar sons sords. El filtre està format per tres subsistemes, que són la part
que modela la cavitat nasal, la que modela la cavitat oral i finalment l‘efecte de radiació
dels llavis. El senyal d‘excitació s'introdueix en el model de tracte vocal, diferenciant el
modelat de les cavitats oral i nasal, de manera que el senyal pugui passar per aquesta
última només en el cas que el so requerís de ser nasalitzat. Finalment, la sortida
d'aquestes components es combina i es passa a través d'una component de radiació
que simula les característiques de radiació dels llavis i del nas.
Els formants es modelen individualment, permetent així un control més acurat de les
característiques ressonants del tracte vocal. Aquest control independent permet
establir configuracions apropiades a partir d‘anàlisis de senyals de veu reals,
mitjançant l‘ús d‘espectrogrames de veu. Les components de la cavitat oral solen estar
formades per entre 3 a 6 ressonadors de formant individual i en sèrie, essent cada
ressonador un filtre de segon ordre.
Pel que fa a implementacions de síntesi per formants, els primers sistemes de síntesi
varen ser el Parametric Artificial Talker (PAT) desenvolupat al 1953 per Walter
Lawrence, i el sistema OVE II per Gunnar Fant i el seu equip. El sintetitzador Klatt
(Klatt, 1980) és un dels sintetitzadors per formants més sofisticats, incloent tant un
ressonador en paral·lel com en cascada. Va ser configurat per treballar a 10 KHz
utilitzant 6 formants principals. És interessant apreciar el fet que en la majoria de la
bibliografia relacionada amb la síntesi per formants s'usa una freqüència de mostreig
de 8 KHz o 10 KHz, degut principalment a requeriments d'espai, velocitat i sortida que
impedien l‘ús d‘altes velocitats. Per tant, en el cas que es necessitin freqüències de
mostreig elevades, aquest nombre pot ser fàcilment modificat. Amb tot això,
generalment els tres primers formants són els més utilitzats pels oients per discriminar
sons, mentre que els formants de freqüències més elevades es fan servir simplement
per donar més naturalitat a la parla. El sintetitzador DECtalk ha estat un dels sistemes
comercials de síntesi més usats al segle XX, el qual es pot trobar en el sistema que fa
servir el reconegut científic Stephen Hawking.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
10
L'avaluació general de la síntesi per formants és que és intel·ligible, o també es diu
que "té un so net", encara que està lluny de ser natural. Això es deu principalment al
fet que tant el model en que es basa així com les trajectòries dels paràmetres de
control són sovint són massa simplistes, deixant de banda moltes de les subtileses que
realment estan implicades en la dinàmica de la parla. Mentre les formes de les
trajectòries dels formants es poden mesurar amb un simple espectrograma, el procés
subjacent és un procés força complex en el que intervenen el control motor i el
moviment muscular dels òrgans articuladors. Tot i que cada articulador pot moure's
d'una manera bastant simple, quan es combinen dins del sistema global aquest és
altament complex, complicant més l'efecte del tracte vocal sobre el pas de la forma
d'ona font. Finalment, les assumpcions fetes sobre la naturalesa del model de tracte
vocal, amb la consegüent falta de precisió, es van sumant i acaben per afectar el
model global. Malgrat els efectes adversos per les simplificacions realitzades, aquests
poden ser evitats per mitjà de la manipulació dels valors fora de la seva interpretació
natural. És a dir, mentre que una manipulació apropiada del sintetitzador per formants
pot produir parla molt natural, això provoca haver d'usar els paràmetres de forma poc
habitual, complicant la seva interpretació. Per tant, tal i com es pot observar, hi ha un
conflicte real entre tenir un model fàcilment controlable i un altre que produeixi una
parla sintètica d'alta qualitat.
La síntesi per formants va ser relegada a un segon pla a partir del 1985 quan la
tècnica de síntesi concatenativa emergia amb força com una tècnica més viable per
assolir el disseny de sintetitzadors de veu de major qualitat, que reflectissin millor tota
la complexitat de la parla humana. No obstant, treballs recents han mirat de fusionar
aquestes dues tècniques de síntesi, la síntesi per formants amb la síntesi
concatenativa (Carlson, 2002; Ohlin i Carlson, 2004).
1.4 Síntesi articulatòria
Possiblement la forma més òbvia de sintetitzar parla és la d'intentar simular
directament la producció de la parla humana. És a aquest enfocament al que s'ha
anomenat síntesi articulatòria, sent el més antic dels plantejaments, ja que la
coneguda "Màquina parlant" de von Kempelen (1791), descrita per Dudley i Tarnoczy
(1950), pot ser vista com un sintetitzador articulatori (Taylor, 2009).
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
11
En l'actualitat, la síntesi articulatòria s'aborda des d'una perspectiva diferent com és
lògic, ja que no té sentit que sigui necessari que algú estigui controlant un dispositiu
mecànic. Molts sintetitzadors moderns són extensions dels models acústics de tubs, i
es poden construir models generals complexos a partir del coneixement de les
propietats de propagació del so.
Existeixen principalment dues dificultats en la síntesi articulatòria. En primer
lloc, la decisió de com generar el control de paràmetres des de les especificacions (és
a dir, com governar el control dinàmic dels articuladors del model a partir del text a
sintetitzar), i en segon lloc trobar el punt mig entre un model altament precís que
s'ajusti fidelment a la fisiologia humana i un model més pragmàtic, més senzill de
dissenyar i de controlar. El primer problema és similar al que ocorre en la síntesi per
formants. Però en aquella, en molts casos encara que no en tots, és senzill trobar els
valors dels formants de la parla real, ja que simplement s'ha de gravar la parla, calcular
l'espectrograma i determinar el valor dels formants a partir de mesures empíriques. El
problema en síntesi articulatòria és considerablement més complex, ja que no es
poden esbrinar els paràmetres articulatoris a partir d'enregistraments, sinó que s'han
d'utilitzar mesures més invasives com ara la fotografia de raigs X, Imatge per
Ressonància Magnètica (en anglès, Magnetic Resonance Imaging o MRI) o
Articulografia Electromagnètica (en anglès, Electromagnetic Articulagraphy o EMA),
amb el consegüent problema de recopilació d‘informació associat pel fet que moltes de
les tècniques d‘adquisició de dades són molt recents, i per tant, no existien en els inicis
de la síntesi articulatòria, sent particularment complicada la seva adquisició en aquells
temps. El segon dels problemes es refereix a com de precís hauria de ser el nostre
model d'articulació. En el model de tubs sempre hi ha un compromís entre l‗eficiència
del model (si els resultats que proporciona són fidels a la realitat) i el grau de
simplicitat alhora de controlar-lo. Els models més actuals inclouen modelatge de
pèrdues del tracte vocal, interaccions entre la font i el filtre, la radiació dels llavis i
característiques glòtiques (Manzara, 2005). A més, molts dels models han pretès ser
tant models de tracte vocal com de control, i disposen de models tant per al moviment
dels músculs com de control motor.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
12
Ambdós problemes presentats comporten una considerable dificultat, ja que la
millor síntesi articulatòria encara és pobra si la comparem amb la millor síntesi usant
altres tècniques. A causa d'això s'ha anat abandonant com a tècnica de generació de
parla d'alta qualitat en l'àmbit de l'enginyeria, amb finalitats més pràctiques. No obstant
això, encara que l‘enfocament articulatori podria no ser una bona solució d'enginyeria
en termes de conversió de text a parla, segueix despertant interès en altres disciplines
relacionades. Primer de tot, hi ha un considerable interès en el camp de la producció
de parla, on es discuteix si el domini articulatori és el domini natural, i més correcte,
per a la producció de la parla, i per tant, ajuda a explicar la organització sistemàtica
dels nivells més elevats d'aquesta. Per exemple, la fonologia articulatòria (Browm i
Goldstein, 1986) està basada en la idea de "gestos articulatoris" com primitives
fonològiques més que característiques basades en segment (Taylor, 2009). El treball
de Boersma (1998) es distingeix també per desenvolupar un teoria de fonologia
juntament amb un sintetitzador articulatori. Un segon camp d'interès relacionat és la
"fisiologia articulatòria" on la meta és crear models complets del moviment articulador.
En aquest cas, l'èmfasi ve donat per intentar modelar articuladors específics o efectes
amb precisió, més que per construir un model aproximat, o enllaçar aquest amb un
model lingüístic o fonètic (Wilhelms-Tricarico, 1995; Vatikiotis-Bateson i Yehia, 1997).
Finalment, la síntesi articulatòria està implícitament connectada amb el camp de la
síntesi audiovisual o síntesi de caps parlants (talking heads, en anglès), on la idea
principal és la de construir un model visual complet del cap mentre es parla. Aquests
caps parlants poden ser construïts directament mitjançant el modelatge dels
articuladors o bé utilitzant dades reals a partir de fotografies o vídeos i tècniques de
morphing per crear l'animació (Kröger i Birkholz, 2009).
1.5 Síntesi concatenativa
La síntesi concatenativa es basa en la generació de la parla sintètica usant, en temps
de síntesi, petites porcions de senyals de veu gravades.
Durant anys, la síntesi
concatenativa, i especialment la basada en concatenació de difonemes i trifonemes,
ha estat la més utilitzada en el desenvolupament de sistemes de conversió text a
parla, gràcies a la gran naturalitat que permeten reproduir en el senyal de parla
generat (Taylor, 2009). El fet que s‘usin senyals de veu gravats per a realitzar el
procés de síntesi permet aproximar-se d‘una forma més eficaç a la naturalitat pròpia
de la parla humana. No obstant, la síntesi concatenativa té el gran repte de generar
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
13
concatenacions d‘aquests senyals bàsics que no provoquin artefactes que facin
degradar massa la qualitat final. Si bé les primeres tècniques de síntesi concatenativa
es basaven en usar petites bases de dades de veu enregistrada, fet que provocava
que aquests artefactes fossin força audibles alhora que la parla generada era lluny de
semblar humana, en els darrers temps els sistemes concatenatius utilitzen grans
bases de dades, i aquesta gran diversitat de mostres de veu real permet no només
minimitzar la presència d‘aquests artefactes sinó també assolir una qualitat i naturalitat
molt propera a la de la parla humana.
Rex Dixon i David Maxey van fer al 1968 la primera aproximació a la síntesi
concatenativa amb difonemes parametritzats amb els seus formants característics.
Però no va ser fins al 1985, amb el desenvolupament de la tècnica Pitch Synchronous
Overlap and Add (PSOLA) per Charpentier i Moulines, que permetia realitzar
modificacions prosòdiques sobre un senyal de veu convenientment etiquetat, que la
síntesi concatenativa va començar a prendre un paper clau en els sistemes de síntesi
de veu. Encara avui en dia és una de les tècniques dominants en els sistemes de
síntesi de veu.
Fonemes i
Text
PLN (Processament del
Llenguatge Natural)
prosòdia
PDS (Processament
Parla sintètica
Digital del Senyal)
Base de
Dades
Fig.1.2. Diagrama de blocs d‘un sistema de síntesi concatenativa.
El problema fonamental que presentaven els primers sistemes de síntesi
concatenativa va ser que els corpus de veu (o base de dades de senyals de veu que
conforma el conjunt d‘unitats que el sistema por seleccionar en temps de síntesi per a
generar el senyal de sortida) només es disposava d‘una realització per unitat, és a dir
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
14
que cada unitat es va gravar només una vegada i amb una freqüència fonamental
concreta (vegeu el diagrama de blocs d‘un sistema de síntesi concatenativa a la figura
1.2). Normalment la gravació del corpus es realitza utilitzant frases portadores de les
quals se selecciona la unitat d'interès o mitjançant paraules buides (Black i Lenzo,
2001). Els problemes fonamentals que presenta aquesta tecnologia són:
-
Modificació prosòdica. Quan la prosòdia indicada pel bloc PLN difereix en
excés de la prosòdia emmagatzemada en el corpus. En aquest cas, els canvis
prosòdics que han de patir les unitats provoquen un descens de la naturalitat
de la senyal sintètica resultant, i per tant de la qualitat de síntesi percebuda.
Per a minimitzar aquest problema és necessari disposar d'una gran varietat de
les mateixes unitats gravades, variant els diferents contextos on aquestes es
trobin (tant des del punt de vista prosòdic, lingüístic com fonètic).
-
Concatenació d'unitats. Durant el procés de síntesi dut a terme pel bloc de PDS
s'han d'unir les unitats que han estat modificades prosòdicament (durada i
entonació). Si només es disposa d'una realització per unitat i, en canvi, hi ha
diferents contextos on es poden trobar (fonemes que tinguin davant i darrere o
context esquerre i dret), les possibles unions entre unitats, sense tenir en
compte les restriccions del llenguatge, seran tantes com el nombre d'unitats a
sintetitzar menys una. Per tant hi haurà un elevat nombre de concatenacions
que quan es produeixin no arribaran a ser tan naturals com el procés fisiològic
que les generaria en la parla natural, tot i la bondat de l'algorisme de
concatenació utilitzat. En definitiva, la falta de contextos en el corpus així com
la impossibilitat de generar coarticulacions més reals provocarà discontinuïtats
espectrals. Utilitzant més realitzacions per a cadascuna de les unitats
fonètiques, és probable que es trobin contextos més semblants al desitjat de
manera que la qualitat de les concatenacions es vegi incrementada.
Per tant, el senyal sintètic d'un sistema de conversió text a parla basat en difonemes
presenta una naturalitat baixa deguda a l'elevat nombre de punts de concatenació
possibles (Möbius, 2000). Per aquest motiu, quan la tecnologia va permetre la creació i
gestió de bases de dades (corpus) més grans, es va canviar d'estratègia passant a
treballar amb corpus que consideraven unitats de durada variable. Els primers treballs
en síntesi basada en unitats de longitud variable van ser desenvolupats pel grup
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
15
Advanced Telecommunications Research Institute International (ATR) (Sagisaka,
1988; Takeda et al., 1990; Sagisaka et al., 1992), mentre que en paral·lel, en la
mateixa institució, es va desenvolupar el treball que donaria nom a la nova estratègia
de síntesi: la selecció d'unitats (Black i Campbell, 1995; Hunt i Black, 1996).
Arribats a aquest punt, passem a veure les característiques generals de la síntesi
basada en selecció d'unitats:
1. Es disposa d'un corpus de veu amb un elevat nombre de repeticions, per a
cada una de les unitats considerades (p. ex. difonemes i trifonemes),
obtenint així gran diversitat acústica.
2. Se selecciona la seqüència d'unitats del corpus amb la millor concatenació
possible i que millor s'ajusti a les característiques prosòdiques de la
seqüència d'unitats a sintetitzar, informació obtinguda pel bloc de PLN en
temps d'execució. Altres alternatives a la selecció de les unitats basada en
trobar la seqüència més llarga o que conté menor nombre de
concatenacions no naturals pot ser una ponderació de pesos de manera que
la que generi una millor síntesi sigui la triada.
3. Es minimitza el nombre de punts de concatenació i la necessitat de
modificació prosòdica del senyal, augmentant d'aquesta manera la naturalitat
de la senyal generada.
Fonemes
Text
PLN (Processament del
Llenguatge Natural)
prosòdia
i
PDS (Processament
Parla sintètica
Digital del Senyal)
Selecció d‘Unitats
Base de Dades
Fig.1.3. Diagrama de blocs d‘un sistema de síntesi concatenativa per selecció d‘unitats.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
16
Resumint, i com es pot veure al diagrama de la figura 1.3, en l'arquitectura d‘un
sistema de conversió text a parla basat en selecció d'unitats, d'una banda s'incorpora
una base de dades (corpus) més gran que la d‘un sistema basat en difonemes, i d'altra
banda s'incorpora un mòdul encarregat de seleccionar la cadena òptima d'unitats en
temps d'execució (mòdul de selecció d‘unitats).
1.6 Síntesi estadística
A partir de mitjans de la dècada dels 90 sorgí una nova tècnica de síntesi que
s‘aprofitava dels avenços realitzats en l‘àmbit de l‘aprenentatge artificial, especialment
de les tècniques d‘aprenentatge a partir de grans bases de dades. La síntesi
estadística és un tipus de síntesi de veu basada en els coneguts models ocults de
Markov (en anglès, Hidden Markov Models o HMM), més usats fins al moment en
l‘àmbit del reconeixement de la parla, i que permeten modelar processos seqüencials
de forma probabilística a partir del seu entrenament amb grans bases de dades de
veu. Aquest tipus de síntesi s‘inicia a partir del treball pioner de Tokuda (Tokuda et al.,
1995), i sorgeix com una alternativa per tal de superar algunes de les limitacions que
tenen els sistemes de síntesi concatenativa. Entre elles cal destacar especialment el
fet de donar una qualitat de síntesi més estable o la possibilitat de simplificar la
generació de noves i diverses veus (Yoshimura et al., 2000). El model generatiu, a
diferència del sistema basat en la concatenació, es basa en l‘ús d‘un mòdul usat per a
la descodificació de veu (vocoder, en anglès) el qual és controlat o guiat per mitjà del
model estadístic, que s‘encarrega de generar unes seqüències de paràmetres que
permeten sintetitzar el senyal de parla.
Els principals interessos que hi ha respecte als sistemes de conversió de text a parla
són: per un banda, augmentar la qualitat sintètica i, lligat amb això, aconseguir una
gran naturalitat del senyal de veu en aplicacions de propòsit general (síntesi de
qualsevol text d‘entrada). La síntesi concatenada, especialment en dissenys de domini
restringit com el presentat per Alías et al. (2005), presenta inconvenients quan
s'intenta utilitzar fora del domini per al qual va ser dissenyada. Aconseguir noves
gravacions té un elevat cost, tant en temps com en diners, ja que es requereix el
disseny de nous textos, la gravació i l'etiquetatge del corpus, entre d'altres.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
17
Per contra, els sistemes de síntesi estadística basats en Models Ocults de Markov, o
també conegut com a Hidden Markov Model based Text-to-Speech (HMM-TTS), tenen
com a principal característica la capacitat de modelar veus per tal de sintetitzar
diferents característiques del locutor, estils de locució i expressivitats o emocions
(Yoshimura et al., 2000; Tamura et al., 1998). A més, en el cas d'aplicar transformació
de veu a través de síntesi concatenada, encara implica grans corpus en comparació a
la basada en HMM, la qual obté millors resultats amb corpus menors (Yoshimura et al.,
1999). Per altra banda, l'ús de HMM per a síntesi de la parla pot ser usat en nous
sistemes avançats que facin ús també del concepte de la selecció d'unitats, permetent
d'aquesta manera que s'unifiquin ambdues estratègies i s'aprofitin els avantatges de
les seves característiques particulars (Taylor, 2006), disposant així d'un sistema híbrid
de síntesi (vegeu l‘apartat 1.8). Un dels primers sistemes híbrids que es va proposar
és el sintetitzador d‘IBM (Donovan at al., 1995). Darrerament la comunitat científica
està intensificant la recerca en solucions que combinin el realisme dels sistemes de
síntesi concatenativa amb selecció d‘unitats i la flexibilitat i facilitat d‘adaptació dels
sistemes basats en síntesi estadística (Gonzalvo, 2010).
Un sistema de síntesi basada en HMM acostuma a tenir tres estats per cada fonema,
utilitza coeficients anomenats Mel Frequency Cepstral Coefficients (MFCC) juntament
amb els delta i delta-delta (primera i segona derivada dels coeficients respectivament),
i utilitza models basats en context amb estats enllaçats determinats per agrupació d'un
arbre de decisió (Gonzalvo, 2010). La noció de context en HMM-TTS es modela
mitjançant les característiques pròpies de cada fonema segons el context fonètic en el
què es troba, i així es disposa d'un model per a cadascuna d‘aquestes descripcions.
Aquest procés pot obtenir alguns milions de models potencials, dels quals només uns
pocs milers hauran estat observats en les dades d‘entrenament.
La síntesi de la parla es porta a terme mitjançant la generació d'un HMM a nivell de
frase usant els models HMM individuals dels fonemes contextuals que millor encaixen
amb l'especificació (text d‘entrada). Si una combinació de característiques no hagués
estat observada durant l'entrenament, però és requerida en el moment de realitzar la
síntesi, es selecciona el millor model disponible fent ús d‘un arbre de decisió que
agrupa els fonemes contextuals per similituds. A partir del HMM a nivell de frase es
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
18
generen les seqüències d'observacions més probables dels paràmetres que formaran
part tant de l‘excitació com del tracte vocal d‘un sistema vocoder. La clau en la síntesi
basada en HMM és realitzar observacions que obeeixin a les dinàmiques d'estat.
Aquestes dinàmiques són convenientment recollides dins dels models gràcies a la
mesura de les velocitats i de les acceleracions dels coeficients espectrals que modelen
el tracte vocal (o també anomenats coeficients delta i delta-delta). En primer lloc, això
assegura que dins d'un model la trajectòria d'un coeficient concret està gairebé sempre
evolucionant, de manera que no es veuen salts de coeficients en els límits dels estats.
En segon lloc, aquestes mateixes restriccions dinàmiques s‘apliquen a l'estat de
transició entre models de fonema, d'aquesta manera s'assegura la suavitat en les
transicions fonema a fonema (Zen et al. 2009). Aquesta solució és particularment hàbil
i evita la idea de cost d'unió en síntesi basada en HMM.
L‘ idioma és un altre aspecte important quan es dissenya un sistema de conversió de
text a parla. L‘esquema d‘un sistema HMM-TTS basat en factors contextuals per
agrupació (clustering) pot ser usat per a qualsevol llengua, com mostra Tokuda et al.
(2002) per a l‘anglès, S. Maia et al. (2003) per al portuguès o Gonzalvo et al. (2007)
per al castellà. Els fonemes, unitats bàsiques de síntesi, i els seus parells contextuals
formats per l‘atribut i el seu valor, com per exemple el nombre de síl·labes en la
paraula o la seva accentuació, són la principal informació que canvia d'una llengua a
una altra. També, la síntesi de veu basada en HMM és força útil per a la construcció
de sistemes de síntesi políglotes, és a dir, sistemes que siguin capaços de generar veu
en diferents llengües a partir d‘un corpus de veu enregistrat en una única llengua
(Latorre et al. 2006). Això és particularment útil gràcies a la facilitat que la síntesi
paramètrica ofereix per adaptar les característiques de la veu original a una altra veu
destí.
1.7 Síntesi basada en models sinusoïdals
Una altra tècnica de síntesi de veu, que té la particularitat d‘usar un model paramètric
de les dues components bàsiques del senyal (la part sonora i la part sorda) és la que
fa ús del model Model Harmònic amb Soroll (Harmonic plus Noise Model – HNM, o
Harmonic plus Stochastic Model – HSM) (Laroche et al., 1993; Stylianou et al., 1995).
El seu ús específic per al desenvolupament de sistemes de conversió de text a parla
es va presentar en el treball de Stylianou (1998b). Com el propi nom suggereix, el
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
19
model parteix de la idea que la parla està formada per una component determinista
(harmònica, associada a la part sonora de la veu) i una altra estocàstica (soroll,
associat a la part més sorda). El principal avantatge que ofereix aquest model és
precisament la possibilitat de manipular el senyal, modificant característiques com són
la seva durada, el pitch o freqüència fonamental (F0), i fins i tot el tracte vocal o
l‘energia del senyal, de forma independent i sense degradar de forma significativa el
senyal (Erro, 2008). Tot això situa a aquesta tècnica de representació com una eina
que permet donar major flexibilitat alhora de modificar les característiques particulars
de les unitats acústiques en un sistema de síntesi concatenativa que faci ús de la
selecció d‘unitats (en l‘etapa de processament del senyal). Aquesta major flexibilitat
permet que les unions siguin més suaus i provoquin menys artefactes audibles en el
senyal de sortida, alhora que també permet adaptar millor la prosòdia desitjada
(estimada pel mòdul de PLN). Un altre aspecte a destacar, és la possibilitat d‘aplicar
mètodes de conversió de veu per tal d‘obtenir diverses veus a partir d‘un únic corpus
de veu per a la síntesi, només amb el suport de petits corpus per a adaptar la veu
original a les veus destí que es vulguin aconseguir, com per exemple es descriu en
(Erro et al., 2010a; Stylianou et al., 1998a).
En les primeres etapes de l'anàlisi del model HNM es realitza la classificació de zones
sonores i sordes, que estableixen els paràmetres de les components determinista i
estocàstica, així com les aportacions de cada una de les components a cada trama del
senyal analitzada. Primer s'estima el pitch i a partir d'aquí es porta a terme una anàlisi
que pot ser pitch sincrònica o de cadència constant (pitch asíncrona). La localització
dels períodes de pitch és necessària per a realitzar una anàlisi prou resolutiva en
ambdós dominis (temps i freqüència) per tal de poder reconstruir tots els detalls del
senyal (per exemple, per poder obtenir una resíntesi del senyal quasi bé indistingible
de l‘original). El segueix el modelatge harmònic utilitzant una freqüència fonamental
(F0) estimada a partir del marcatge de pitch per a cadascuna de les trames de veu
obtingudes del procés d‘anàlisi. A partir d‘aquesta anàlisi es troba l'error entre la parla
generada pel model i la forma d'ona real. Les trames amb una component harmònica
elevada tindran un error menor, mentre que en les més sorolloses l'error serà més
elevat. En aquelles zones considerades sonores es pot determinar la màxima
freqüència harmònica, que delimitarà la regió freqüencial harmònica de la regió on és
només present la component de soroll.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
20
La component determinista es modela com una suma harmònica de sinusoides que
queda representada per les seves amplituds, fases i freqüències. El procés d‘estimació
de la part determinista es basa en una estimació per mínims quadrats en la que es
minimitza l‘error entre una trama de durada dos períodes de pitch del senyal de veu i el
model estacionari a curt termini de la component harmònica (Depalle et al., 1997; Erro,
2008). Un dels primers passos és l‘estimació de la màxima freqüència harmònica, que
es pot definir com un paràmetre variable en el temps, tot i que en alguns treballs es
demostra que treballar amb una màxima freqüència harmònica fixa permet assolir
qualitats de resíntesi prou bones (Erro, 2008). La component de soroll es modela com
un procés autoregressiu, és a dir, com la sortida d‘un filtre al qual se li entra soroll
blanc Gaussià que es pondera amb una funció que controla l‘energia del senyal.
L‘estimació de la component de soroll es realitza a partir del senyal d‘error generat
com la resta del senyal de veu original i la síntesi de la part harmònica regenerada a
partir de l‘estimació de les amplituds, freqüències i fases en cada trama d‘anàlisi. Una
vegada calculada aquesta diferència, s‘estimen els coeficients del filtre tot pols (model
autoregressiu) i el factor de ponderació energètic per cada trama de soroll (en aquest
cas, les trames són de durada constant, de entre 5 i 10 ms) fent una anàlisi per
predicció lineal.
El procés de resíntesi es basa en composar el senyal a partir de la generació de les
trames de cada component, a la mateixa cadència que han estat originalment
analitzades. Per la component harmònica es regenera el senyal seguint un procés
similar a la tècnica TD-PSOLA (Moulines i Charpentier, 1990) fent ús de finestres
triangulars amb un solapament del 50%. Per la component de soroll, el procés de
generació es basa en modificar els coeficients del filtre invers al de predicció lineal en
l‘anàlisi (ara, filtre tot pols) alhora que es modifiquen també els pesos de ponderació
energètica de la sortida, realitzant un filtratge continu del soroll blanc Gaussià que hi
ha a l‘entrada.
La flexibilitat del model HNM permet que es puguin realitzar modificacions tant de
temps com de to de forma directa, modificant la posició de les marques de síntesi (on
s‘ubiquen les trames de senyal generades amb els paràmetres obtinguts per cada
finestra d‘anàlisi) pel primer cas, i modificant la freqüència fonamental de la sèrie
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
21
harmònica pel segon. Aquests processos requereixen d‘uns ajustos de fase dels
harmònics de la component sonora per tal d‘adaptar les continuïtats de fase entre
trames adjacents i no introduir artefactes sonors. La modificació del tracte vocal, en el
cas de voler usar alguna tècnica de conversió de veu, implica la manipulació de les
amplituds i les fases de la component harmònica abans de procedir a la resíntesi usant
el que s‘anomenen funcions de conversió (Erro, 2010a; Stylianou et al., 1998a).
1.8 Síntesi híbrida
La síntesi híbrida és aquella en què es combinen aspectes de la síntesi paramètrica i
de la concatenativa, en general. Tot i que la síntesi per formants ha estat una de les
tècniques paramètriques més usada, amb l'auge dels sistemes de síntesi basats en
models sinusoïdals (HNM) o estadístics (HMM), la comunitat científica està
intensificant la combinació de solucions paramètriques amb la síntesi concatenativa.
Amb aquesta unió de metodologies es busca minimitzar els defectes acústics deguts a
la concatenació de segments, alhora que busca obtenir sistemes de síntesi de veu
més versàtils i flexibles. Un dels punts febles de la síntesi concatenativa és la
necessitat de grans bases de dades per a permetre una síntesi sense artefactes
audibles. Per poder generar la parla amb bona qualitat s'ha de disposar de les unitats
apropiades, qüestió que fa especialment costosa les fases de producció i etiquetat del
corpus . Per una banda, es necessitaran els difonemes i/o trifonemes, en funció de la
llengua d'interès, per donar la màxima cobertura fonètica possible, i per altra, si cal
donar una bona cobertura prosòdica (per disposar d‘un sistema de síntesi més
expressiu), el nombre d'unitats necessàries pot disparar-se. Disposar no només de
diverses realitzacions de cada unitat fonètica, sinó de les suficients com per a cobrir
tots els contextos fonètics en que aquestes es produeixen per a un idioma determinat,
és un dels factors que fa necessari disposar de grans bases de dades per a la síntesi
concatenativa de bona qualitat. A més, si es vol disposar de diverses expressivitats en
la síntesi, aquest requeriment es fa encara més exigent, ja que és necessari incorporar
unitats en els nous contextos que donin la cobertura expressiva demanada (variant,
per exemple, la forma d‘entonació per a cada tipus d‘expressivitat que es vulgui
sintetitzar). És per aquesta raó que, si la base de dades no reflexa la diversitat fonètica
i prosòdica necessària, la impossibilitat de poder recuperar en temps de síntesi el
conjunt d‘unitats apropiades produirà l‘aparició d‘errors de concatenació que afectaran
negativament la qualitat de la síntesi. Pel que fa a l'enfocament paramètric, els
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
22
sistemes de síntesi híbrids ofereixen, d'una banda, una solució atractiva a aquest
problema de necessitat de grans bases de dades. En primer lloc, com la veu es
sintetitza amb paràmetres a partir d'un model, no hi ha errors de concatenació, i es
minimitza la presència d‘artefactes. En segon lloc, pel fet que la veu deriva d'un model
paramètric és possible usar tècniques d'adaptació de locutor per tal de construir noves
veus a partir d‘una veu genèrica prèvia i un petit corpus que reflecteixi les
característiques de la nova veu (Tamura et al., 1998). D'altra banda, els desavantatges
d'aquest enfocament són que la generació de la parla a través d‘un model paramètric
no reprodueix completament la naturalitat de la mateixa, i es pot detectar de vegades
un brunzit a causa de la qualitat del vocoder empleat o per un excés en la manipulació
dels paràmetres del model (Gonzalvo, X., 2010). A més, la representació estadística
resumeix i permet alhora compactar aspectes que, tot i ser una bona aproximació a la
realitat, no permeten reflectir els detalls específics de la veu en quant a les petites
variacions en l‘entonació natural (microprosòdia) o en el seu espectre. Un enfocament
híbrid procura utilitzar els avantatges d'ambdós sistemes (paramètric i concatenatiu)
per maximitzar la qualitat i la naturalitat de la parla final. Per exemple, es pot extreure
la màxima quantitat d'informació prosòdica utilitzant el mòdul de selecció d'unitats,
mentre que es minimitza el problema de la manca de dades mitjançant el mòdul
paramètric (Gonzalvo, 2010).
1.9 Síntesi expressiva
Darrerament hi ha un creixent interès, dins de la recerca en sistemes de síntesi de
veu, en aquells aspectes que permetin millorar l‘expressivitat de la veu sintètica, en la
capacitat per a produir veu més emotiva i, per tant, més propera a la forma de parlar
humana (Bailly et al., 2003; Erickson, 2005). En molts treballs, es mira d‘introduir
l‘expressivitat o l‘emoció en la síntesi produïda (Bulut et al., 2002; Eide et al., 2004;
Erro et al., 2010b; Barra-Chicote et al., 2010), mentre que hi ha altres estudis que
aborden el problema introduint aspectes propis de la parla conversacional autèntica,
com ara, disfluències, repeticions, pausats, etc. (Campbell, 2007; Adell, 2009).
Les dues principals línies d‘estudi per millorar l‘expressivitat en la síntesi de veu es
basen en: i) el control de la qualitat de veu (VoQ); i ii) la modificació prosòdica. La
modificació de la prosòdia es basa en modular la tonalitat o pitch, la durada i l‘energia
dels fonemes. En molts treballs es discuteix si considerar només aquests paràmetres
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
23
és suficient per tal de transmetre emocions o bé si cal considerar també la VoQ. La
VoQ se centra, en canvi, en atributs relacionats amb el contingut espectral dels sons,
així com el que es coneix com la relació Harmònic-Soroll, l‘índex de Hammarberg o la
caiguda de la densitat espectral per sobre de 1 KHz (Monzo, 2010). Mentre que en
alguns estudis, la prosòdia es considera suficient per a la representació de l'emoció
(Murray et al. 2000; Stallo, 2000), altres exposen que la VoQ pot millorar el
reconeixement d‘emocions en l'usuari final (Heuft et al., 1996; Monzo et al., 2010).
Aquesta contradicció ha estat parcialment explicada per Schröder (1999), que explica
que les persones tenen les seves pròpies estratègies per a expressar emocions, de
manera que mentre que algunes persones modulen més la velocitat de la veu, altres
tenen la habilitat de modificar de forma més clara i evident la VoQ .
La recerca sobre síntesi de veu expressiva també pot ser classificada depenent de la
tècnica de síntesi utilitzada. Per exemple, les tècniques basades en corpus es
preocupen, principalment, de recuperar l'expressivitat pròpia del corpus per transmetre
l'emoció desitjada en la parla sintètica (Bulut et al., 2002; Eide et al., 2004). Per altra
banda, les tècniques basades en conversió de veu, que fan ús d‘una parametrització
del senyal de veu, es basen en definir funcions de conversió apropiades per tal de
mapar una expressivitat neutra en una altra de més emotiva (Erro et al. 2010b).
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
24
2 Implantació de la síntesi de veu en el món
audiovisual a Catalunya
Per tal d‘estudiar el grau d‘implantació real de les tecnologies de síntesi de veu a
Catalunya en el món de l‘audiovisual, s‘ha realitzat un treball de camp extens per tal de
recollir les opinions dels seus actors principals davant de la implantació actual i la
possible introducció futura dels sistemes de síntesi de veu en els mitjans de
comunicació audiovisual. A més, durant aquest procés s‘ha pogut constatar que hi ha
una part de la població, les persones amb discapacitat visual, que són grans
consumidors dels sistemes de síntesi de veu. És per això, que aquest grup d‘usuaris
també s‘ha inclòs en l‘estudi realitzat per tal de conèixer la seva opinió respecte a l‘ús
de les tecnologies de síntesi de la parla en el context de les produccions audiovisuals.
2.1 Sistemes i usuaris
En aquest apartat, primer es presenta un recull representatiu de les empreses, centres
de recerca i productes més rellevants en el context de la generació de veu sintètica en
català. En aquest context, es recullen tant empreses d‘àmbit català com internacional,
així com productes que es troben a la xarxa. Seguidament, es descriu un dels grups
d‘usuaris més interessats en la integració efectiva de les tecnologies de la síntesi de la
parla: les persones amb discapacitat visual.
2.2 Sistemes de síntesi de veu en català
A continuació es presenta un recull dels centres de recerca, projectes i empreses que
estan treballant o oferint tecnologia de síntesi de veu en català en l‘actualitat.
2.2.1
Universitats i centres de recerca
1) TALP (Tecnologies i Aplicacions del Llenguatge i la Parla) de la Universitat
Politècnica de Catalunya
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
25
En quant a la síntesi de veu en català cal destacar, per una banda que el TALP
disposa d‘un sistema propi de conversió de text a parla, anomenat OGMIOS
(http://www.talp.cat/ttsdemo/index.php), i per una altra, que van treballar en la
incorporació del català a la plataforma pel sistema operatiu Linux Festival
(http://www.cstr.ed.ac.uk/projects/festival/), donant com a resultat FestCat, que
es va incloure en la distribució Linkat de la Generalitat de Catalunya. Totes
elles es poden descarregar gratuïtament des de la pàgina web de FestCat i es
publiquen sota els termes de la llicència LGPL. Per més informació, consulteu
el lloc web http://gps-tsc.upc.es/veu/festcat/.
Part d‘aquest treball es va desenvolupar en el marc del projecte ―Tecnoparla:
Tecnologies de la parla en català‖, enfocat a estudiar la viabilitat de traducció
de veu aplicada a la traducció de noticies audiovisuals. El projecte va estudiar
les diferents tecnologies clau que intervenen en un sistema de traducció de veu
(reconeixement, traducció i síntesi de veu), centrant-se en la incorporació del
català, i va abordar el progrés en les tres tecnologies implicades i la seva
integració. Concretament, pel que fa a la síntesi de veu es va utilitzar
el
sistema de programari obert Festival (Linux) adaptat al català (FestCat). Es pot
trobar més informació al lloc web següent: http://www.talp.cat/tecnoparla/
2) GTM (Grup de Recerca en Tecnologies Mèdia), La Salle - Universitat
Ramon Llull
Aquest grup té una àmplia experiència en el món de la generació de la parla
sintètica. Des dels seus inicis (finals dels 80) ja es va centrar en la recerca en
síntesi de la parla en català, mitjançant treballs com (Martí, 1985) i (Camps,
1992), posteriorment continuats per (Guaus i Iriondo, 2000) i (Iriondo et al.,
2004), aquest darrer treball enfocat en la síntesi expressiva (emotiva) en català.
Per
més
informació,
consulteu
el
lloc
web
http://www.salle.url.edu/portal/departaments/home-depts-DTM-projectesPM?cf_seccio=PM&pag=1
3) Barcelona Media – Centre d‘Innovació de la Fundació Barcelona Media
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
26
La línia de veu i llenguatge investiga en el processament del llenguatge, tant
escrit com oral, i desenvolupa aplicacions en correcció i traducció
automàtiques, anàlisi i processament de la informació, generació automàtica de
textos a partir de bases de dades, i síntesi de veu, a fi de disposar d'eines per
al processament automatitzat de continguts lingüístics en entorns multilingües o
en què el llenguatge humà es converteix en la modalitat d'interacció prioritària.
Dins de l‘àmbit de la síntesi de veu treballen amb l‘objectiu de crear una veu
sintètica catalana, una castellana i una bilingüe (catalana i castellana), així com
introduir naturalitat expressiva i entonativa (prosòdia) i facilitar la creació de
locutors especialitzats.
Es
pot
trobar
més
informació
al
lloc
web
següent:
http://www.barcelonamedia.org/linies/7/ca
2.2.2
Empreses
1) Verbio
Empresa dedicada a vendre productes relacionats amb les tecnologies de la
parla ubicada a Barcelona. En quant a la síntesi de la parla, ofereixen
conversió de text a parla en diferents idiomes.
http://www.verbio.com/webverbio3/html/productes.php?id=1
Demostracions de les veus en català: Meritxell i Oriol
http://www.verbio.com/webverbio3/html/demos_ttsonline.php
Demostracions de notícies:
http://www.verbio.com/webverbio3/html/demos_news.php
S‘enllaça a Vilaweb.cat, però s‘indica que no hi ha notícies disponibles.
2) Loquendo
Empresa dedicada a vendre productes relacionats amb les tecnologies de la
parla. En quant a la síntesi de la parla, ofereixen conversió de text a parla en
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
27
diferents idiomes. Es tracta d‘un sistema de síntesi de veu basat en selecció
d‘unitats.
http://www.loquendo.com/es/technology/tts.htm
Demostracions de les veus en català: Montserrat i Jordi.
http://www.loquendo.com/es/demos/demo_tts.htm
3) CereProc
L‘empresa
CereProc
amb
col·laboració
amb
Barcelona
Media
han
desenvolupat un sistema de síntesi de veu femenina bilingüe en català i
castellà. a desenvolupat una veu femenina sintètica, bilingüe, en català i en
espanyol, amb entonació natural, disponible per múltiples aplicacions. El
projecte ha comptat amb suport de la Generalitat de Catalunya.
http://www.cereproc.com/products/voices
4) Nuance
Nuance Vocalizer (abans RealSpeak), disposa d‘una veu femenina en català
(Núria). Tanmateix, no es pot trobar massa informació al lloc web de l‘empresa.
http://www.nuance.es/realspeak/
http://www.nuance.com/for-business/by-solution/contact-center-customercare/cccc-solutions-services/vocalizer/vocalizer-languages/index.htm
5) Telefónica I+D
Disposa d‘un sistema de conversió de text en parla multilingüe (Armenta et al.
2003)(Rodríguez et al., 2008). No s‘ha trobat informació respecte a que es
tracti
d‘un
producte
independent
que
ofereixi
l‘empresa
(veure
http://www.tid.es). Tanmateix, és una tecnologia que l‘empresa ha incorporat a
algun dels seus productes, com el lector de missatges curts
(http://saladeprensa.telefonica.es/documentos/24moviles.pdf), o per ajuda a
persones amb discapacitat
(http://saladeprensa.telefonica.es/documentos/22comunicador.pdf )
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
28
2.2.3
Altres productes
1) eSpeak
eSpeak és un sistema de síntesi basat en formants que treballa sota les
plataformes Linux i Windows, que pot ser emprat sota la llicència GNU
General Public License (programari lliure).
http://espeak.sourceforge.net/
2) JAWS (Job Access With Speech)
Està dirigit a persones cegues o de baixa visió que llegeix el contingut de la
pantalla mitjançant veu sintètica.
http://www.freedomscientific.com/products/fs/jaws-product-page.asp
Incorpora la veu en català pel fet que incorpora sistemes de síntesi d‘altres
empreses, com pot ser Nuance (Núria).
http://www.freedomscientific.com/downloads/jaws/JAWS10-whats-new.asp
2.3 Síntesi de veu per persones amb discapacitat visual
2.3.1
Introducció
En la societat de finals de segle, anomenada societat de la informació pel paper
predominant que aquesta ha pres com a bé de consum, l‘ús d‘ordinadors és cada
vegada més generalitzat, convertint-se en un dels camps de treball fonamentals en
aquesta àrea. En aquest sentit, dins de les tecnologies d‘ajuda, destaquen per la seva
importància, les tecnologies d‘accés al medi físic on s‘inclou, entre altres, l‘accés a
l‘ordinador. Aquest, en el seu format estàndard, presenta una sèrie d‘elements físics
que poden arribar a suposar una barrera per a ser utilitzats per persones amb alguna
discapacitat, ja sigui per alteracions relacionades amb el maneig dels dispositius
d‘entrada mitjançant els quals li subministrem informació (teclat, ratolí); per problemes
en les possibilitats d‘interpretar els resultats de les seves operacions degut a dificultats
en la modalitat sensorial implicada en cada perifèric de sortida (monitor, impressora,
altaveu), o per la incapacitat de fer funcionar determinades unitats d‘emmagatzematge
d‘informació (unitat de discos flexibles, unitat de CD-ROM, etc.). Al marge d‘aquestes
unitats bàsiques, ja és habitual que l‘ordinador disposi d‘altres medis auxiliars que
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
29
poden o no implicar components físics, ens referim a l‘escàner, mòdem, programes de
reconeixement i síntesi de veu, etc.; que en ocasions poden suposar barreres d‘accés
i, pel contrari, com passa amb el propi ordinador, poden arribar a constituir-se com a
medis alternatius per l‘accés a la informació, essent tecnologies de gran ajuda per
l‘accés al món de les tecnologies de la informació.
2.3.2
Deficiències en els òrgans de visió
Distingim dins d‘aquesta la ceguesa, que implica una pèrdua total o quasi total de
percebre les formes; la visió parcial, que suposa una gran dependència de la
informació procedent d‘altres sentits el que implica la capacitat d‘utilitzar determinats
aspectes de la percepció visual; i la visió reduïda, que pot crear impediments a una
persona en situacions que exigeixin un elevat nivell d‘ús de la visió.
La deficiència visual planteja importants repercussions en quant a l‘accés a les
tecnologies. Tota la informació que aquesta manipuli de tipus gràfic, textual i imatges
serà inaccessible per a la persona amb deficiència visual, limitant per tant la seva
capacitat d‘actuació. En aquest sentit, l‘ordinador en la seva configuració estàndard
resulta impossible d‘utilitzar, ja que tant la pantalla com la sortida impresa es basen
exclusivament en informació visual. Però no tan sols l‘ordinador, altres instruments
tecnològics inclouen dins la seva configuració algun element amb informació visual: els
caixers automàtics d‘expedició de bitllets, els telèfons públics, que incorporen una
petita pantalla on es proporciona informació respecte al crèdit, etc.
2.3.3
Sistemes de síntesi per a persones amb discapacitat visual
Les persones amb discapacitat visual, bé sigui per la reducció en diversos graus de
l‘agudesa visual o per ceguesa total, tenen tancat l‘accés a l‘ordinador. Per tant,
encara que són capaços d‘introduir la informació, no tenen accessibilitat a la resposta
del mateix. Tot i això, un fenomen que pot generar una situació de marginació
tecnològica aconsegueix, fent ús de la versatilitat i adaptabilitat de l‘ordinador, eradicar
aquest perill i possibilitar la integració de la persona amb discapacitat en un entorn
d‘educació i treball normalitzats. És per això que varis han estat els sistemes
alternatius d‘accés a la informació de sortida de l‘ordinador desenvolupats. Podem
categoritzar-los en els següents tipus: veu, braille, ampliació de caràcters o la
combinació d‘uns amb els altres.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
30
El camp de les solucions informàtiques per a persones cegues o amb baixa visió és
molt extens, però bàsicament l‘integren dos categories: les adaptacions pròpiament
dites (que denominarem ―adaptacions de baix nivell‖) i les aplicacions de suport per a
elles (que anomenarem ―adaptacions d‘alt nivell‖), i que es divideixen en tres grans
grups: els revisors de pantalla, els revisors de documents i els prenedors de notes.
En el nostre cas, dins de les adaptacions de baix nivell, ens centrarem en els sistemes
de síntesi de veu, els quals són utilitzats per les persones amb baixa visió i per
aquelles que pateixen ceguesa total. Els lectors de pantalla, lectors de documents,
etc., serien exemples de les adaptacions d‘alt nivell.
Els sistemes CTP són un bona oportunitat per a que les persones invidents puguin
utilitzar un ordinador i navegar per Internet tan bé i tan ràpid com qualsevol que no
pateixi aquesta discapacitat.
Gràcies a les veus sintetitzades qualsevol persona amb dificultats visuals pot navegar
per la xarxa, llegir diaris on-line, treballar, rebre e-mails, etc., essent, a més, una
tecnologia de rehabilitació fonamental per a integrar a aquestes persones en l‘actual
societat de la informació.
Es tracta d‘una ciència totalment necessària sobre tot des del moment en que
treballadors amb deficiències visuals considerables es van veure obligats a asseure‘s
davant de la pantalla d‘un terminal, sense més ajuda que la d‘algun company d‘oficina,
per a redactar cartes o introduir dades sense poder llegir el que teclejaven.
A continuació es detallen una sèrie d‘aplicacions que utilitzen sistemes de síntesi de
veu les quals són utilitzades per aquestes persones per a acostar-les al món de la
tecnologia o be per a facilitar-les coses tan simples per a uns (com la lectura d‘un
llibre), però tan costoses per a altres. No pretén ser una revisió exhaustiva de la
matèria, però sí un recull significatiu d‘alguns dels sistemes més coneguts.
• JAWS
JAWS és un lector de pantalla que converteix el contingut d‘aquesta en veu. És per
això, que es tracta d‘una eina de gran utilitat per a les persones amb visió reduïda o be
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
31
totalment cegues ja que l‘usuari pot accedir a qualsevol programa o aplicació sense
necessitat de veure-la.
• IntelReader
Es tracta d‘un lector electrònic, de la mida d‘un llibre de butxaca per a persones amb
dificultats de lectura. L‘aparell inclou una cambra d‘alta resolució per a convertir el text
en format digital i després transformar-lo en veu. Aquest dispositiu és una gran
revolució que permet llegir llibres i revistes.
• Vodafone Speak
Mitjançant les comunicacions mòbils, les persones obtenen major independència i
autonomia. Amb elles es permet allargar el temps de relació social. D‘aquí la
importància de pretendre una millor accessibilitat a aquelles persones amb dificultats.
Vodafone Speak és una aplicació per a telèfons mòbils basada en el sistema operatiu
Symbian que permet a les persones cegues o amb discapacitat visual accedir a totes
les funcionalitats del telèfon mòbil. Un lector de pantalles reconeix el text i tota la
informació visual que apareix en la pantalla del telèfon es transforma en veu a mesura
que l‘usuari es desplaça pel menú.
Les persones invidents podran enviar i rebre missatges de text, així com fer ús de la
seva agenda de contactes i navegar per Internet o usar altres aplicacions del seu
terminal.
• Voice Stick
L‘aparell és un escàner de mà que combina tecnologia de reconeixement òptic de
caràcters (en anglès, optical character recognition o OCR) i conversió de text a parla,
aconseguint llegir literalment qualsevol text i transformant-lo en àudio per a que l‘usuari
ho rebi a través d‘uns auriculars. Ha sigut creat per a que totes les lectures tals com
diaris, llibres, revistes, etc. estiguin a l‘abast de les persones no vidents. La forma d‘ús
és bastant senzilla, s‘agafa el dispositiu amb la mà i es passa sobre algun full amb
text. En el moment en que es passa por sobre del text, aquest és traduït i llegit per
l‘aparell.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
32
Existeix una cadena d‘elements entre l‘usuari i el contingut d‘una pàgina web que
intervenen en tot el procés. Cadascun d‘ells ha de funcionar correctament en el seu
paper i en la seva interacció amb els demés elements. Com pot veure‘s, el disseny de
les pàgines és tan sols un dels factors que influeixen en l‘accessibilitat a la web. No
obstant això, és especialment important ja que encara que l‘usuari pot tenir el seu
ordinador personal adaptat per a compensar la seva discapacitat i pot escollir un
navegador amb opcions o prestacions d‘accessibilitat incorporades, tot això pot
resultar inútil en front a una pàgina web que no presenti el contingut de manera que
pugui ser correctament interpretat i presentat a l‘usuari pel navegador.
La majoria de les webs no ofereixen un nivell d‘accessibilitat acceptable per aquest
col·lectiu, pel que, avui dia, els discapacitats, no poden accedir d‘una forma normal,
com ho fem qualsevol dels demés a, pràcticament, la totalitat de les webs del món tot i
les ajudes tecnològiques existents.
2.4 Treball de camp
En aquest apartat s‘inclouen les entrevistes recollides durant el treball de camp
realitzat. Per una banda, s‘inclouen les respostes dels tècnics d‘estudis de so, de
doblatge, de postproducció, ràdios i televisions. En aquest mateix context, s‘ha fet un
recull de les opinions de persones treballadores en aquests medis que no són
tècniques, com poden ser locutors, periodistes i professors. L‘objectiu és presentar una
visió general que té aquest col·lectiu sobre la tecnologia de la síntesi de veu, tant des
d‘un punt de vista tècnic com no.
Tot i que en principi es va contactar amb una sèrie de productores, es va concloure
que la part de tractament d‘àudio no la realitzen elles mateixes, sinó que treballen amb
estudis d‘àudio, de doblatge i/o de postproducció externs. A partir d‘aquest moment, va
ser quan es va decidir contactar amb els estudis que s‘encarreguen de tots els
processos tècnics relacionats amb la producció del so.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
33
No tots els estudis consultats han donat resposta a l‘enquesta realitzada. Dels que ho
han fet, s‘han recollit les respostes via correu electrònic (s‘inclouen amb les mateixes
paraules) o bé, a través d‘entrevistes telefòniques.
2.4.1
2.4.1.1
Emissores de ràdio
Catalunya Ràdio
Entrevista realitzada a: Departament de tecnologia
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa,
etc.
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera
complementaria a la locució? En quina secció/departament?
Poc a poc els sistemes de síntesi es van perfeccionant, però tot i això, penso que es
perdria tot l‘encant de la ràdio, per tant, no.
- Per què?
Seria substituir a les persones. La gent escolta la ràdio per sentir-se acompanyada. Li
agrada saber que hi ha algú darrera. És el sentit romàntic de les coses.
- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
És possible que tingui més sortides que a la ràdio. Tot i així, val la pena substituir a
una persona en mitjans de comunicació?
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
És més pràctic, però segueixo pensant que no sé si val molt la pena substituir una
cosa que ja està establerta.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
34
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
A nivell tècnic és molt interessant, és un altre pas de la industrialització.
2.4.1.2
40 Principales Barcelona
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa,
etc.
No. Crec que molt puntualment s‘ha utilitzat per generar veus estranyes, veus robot,
per fer algun efecte en concret, però res més.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
Directament nosaltres, amb qualsevol programa lliure d‘Internet. N‘hi ha molts.
- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera
complementaria a la locució? En quina secció/departament?
Bàsicament es podria utilitzar pel mateix que he comentat abans, per crear efectes en
les veus.
- Per què?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Igual que a la ràdio, pràcticament és el mateix. Si es pot aplicar a la ràdio, es pot
aplicar a la televisió, però són veus molt robòtiques, molt màquina.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Seria interessant, però depèn del món del cine, que ho vulguin incloure. És més
complicat.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
35
Sempre ajuden. En el cas dels sistemes de síntesi, són de gran utilitat, a l‘empresari li
agradarà molt perquè s‘estalviarà diners i temps, i nosaltres, com a tècnics, tindrem
molta més feina, però estarem traient els llocs de treball a molta gent.
2.4.1.3
COM Ràdio
Entrevista realitzada a: Departament de tècnics de COMRàdio.
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa,
etc.
No, el més freqüent és gravar la veu i reproduir-la com a fitxa d‘àudio.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera
complementaria a la locució? En quina secció/departament?
De manera complementaria sí, en emissores automatitzades, i en el moment en que
les veus tinguin més qualitat. De totes maneres, a tots ens agrada que ens expliquin
coses...
- Per què?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Els documentals, per exemple, porten molta feina i una persona sempre donarà més
caliu.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Per audiodescripció podria ser, però de totes maneres has de picar el text i al cap i a la
fi ja no et treu tanta feina. Diferent seria si, directament d‘una imatge amb text, es
reproduís la veu.
Jo ho veig útil en sistemes de megafonia, des de missatges al supermercat fins a
missatges d‘emergència als metros. T‘estalvies tenir una persona 24 hores.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
36
També és interessant per les persones amb discapacitat visual, per qualsevol aplicació
d‘Internet o simplement perquè puguin escoltar una pàgina web.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Els sistemes de reconeixement de la parla els trobo molt interessants. Imagina que
tens una entrevista, hi ha d‘haver alguna persona escoltant i escrivint a la vegada,
d‘aquesta manera, pots automatitzar tot el sistema. A més a més, a l‘hora de fer
cerques, és molt més eficaç sobre text que sobre àudio. Penso que aquests sistemes
tenen molt de futur. D‘altra banda, als sistemes de síntesi, els veig amb menys futur. A
mi m‘agrada parlar amb una persona no amb una màquina. Sempre que rebem una
trucada amb veu de robot per vendre‘ns alguna cosa, ens atabalem, perquè ens
agrada comunicar-nos amb éssers humans.
2.4.1.4
RAC 1
Entrevista realitzada a: Departament tècnic de RAC 1
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa,
etc.
No. Estic segur que la majoria de tècnics de la casa no els han utilitzat mai. Jo algun
cop he treballat amb un sistema de síntesi per crear veu robòtica, però només per
produir efectes, res d‘aplicacions serioses.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
Jo mateix amb qualsevol software lliure, com TalkAny. Estan prou bé perquè pots
alterar diferents paràmetres com el tempo, l‘entonació o els formants.
- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera
complementaria a la locució? En quina secció/departament?
Dependrà de la qualitat dels resultats. És important l‘entonació, s‘ha de donar a
entendre molt el que es diu, i no només amb les paraules, també intervenen altres
aspectes humans, com el to. Si que es podria utilitzar per anuncis o promocions,
sobretot si els sistemes s‘adaptessin al català i al castellà sense accent llatinoamericà.
Penso que seria interessant per les emissores de música o electrònica, fan servir més
efectes.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
37
- Per què?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
A la televisió s‘hauria d‘acompanyar d‘un ninot virtual. És una tecnologia que encara
sorprèn. Es pot aplicar de la mateixa manera a la televisió que a la ràdio. Si en un lloc
s‘utilitza, en l‘altre també es podrà.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
S‘hauria de coordinar molt bé perquè la veu sintètica no interferís amb les veus dels
actors i la música. Tot i això, no sé si seria molt agradable escoltar la combinació de
veus, trauria el plaer de la pel·lícula, la màgia.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
M‘encanten. A nivell de psicologia és molt curiós com el cervell distingeix la veu real de
la sintètica. En canvi, si pensem en les fotografies, no estem tan desenvolupats perquè
no distingim les que són naturals de les que estan retocades.
2.4.1.5
Onda Rambla - Punto Radio
Entrevista realitzada a: Departament Emissions
- Coneix els sistemes de síntesi de veu?
Si, encara que a la nostra ràdio no n‘utilitzem.
- S‘utilitzen actualment? En anuncis, per algun tipus d‘informació en algun programa,
etc.
----- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia de manera
complementaria a la locució? En quina secció/departament?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
38
Crec que encara falta molt perquè es pugui utilitzar en un àmbit de ràdio professional.
Els locutors utilitzen la veu com una eina, entonen, emfatitzen, donen sentiment,
eleven i baixen el volum o el to, interpreten...Crec que aquests sistemes de síntesi
encara estan molt lluny d'arribar a poder competir amb un locutor "real". Si en un futur
s'arriba a aconseguir un nivell de qualitat apte per poder substituir un locutor, es crearà
una demanda tal que les millors veus estaran molt buscades, i les empreses hauran de
pagar per les veus sintetitzades, igual que es paga a un locutor. Potser en emissores
"petites", municipals...si que podrien fer servir la síntesi de veu, per exemple per donar
un butlletí de noticies, informació del temps, trànsit etc..
- Per què?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
----- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
----- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
----2.4.2
Televisions i productores
A continuació es presenten les entrevistes realitzades a les televisions i productores
que han tingut l‘amabilitat d‘atendre l‘enquesta. Cal dir que s‘han contactat altres
entitats que han declinat respondre l‘enquesta per motius diversos.
2.4.2.1
TV3
Entrevista realitzada a: Departament tècnic de TV3
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment? (Anuncis, dibuixos animats, veu en off de documentals, algun
programa per comunicar algun tipus d‘informació, per descriure els vídeos dels
informatius pels invidents...)
No, s‘utilitza en telefonia.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
39
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia? En quina
secció/departament?
No
- Per què?
Perquè ens agrada la veu humana.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
De moment no està previst. Ho trobo atrevit dir que no s‘utilitzarà, potser sí.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Hi ha veus humanes que ja fan aquesta tasca, però si que es podria utilitzar.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Els sistemes de reconeixement de la parla són molt interessants per la investigació. En
canvi, els sistemes de síntesi, no m‘agraden tant, ja que, per exemple, quan em
truquen i sento una veu robòtica preferiria que aquesta fos natural i no sintètica.
2.4.2.2
8tv, RAC105tv
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment? (Anuncis, dibuixos animats, veu en off de documentals, algun
programa per comunicar algun tipus d‘informació, per descriure els vídeos dels
informatius pels invidents...)
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
40
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia? En quina
secció/departament
Poder. Per audiodescripció multiidioma o programes automàtics (borsa, temps, etc).
- Per què?
Estalvi de costos i maximitzar eficiència.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Programes automàtics (borsa, temps, etc.)
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Per l‘audiodescripció multiidioma.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Cal que madurin. Les aplicacions atractives són les que puguin treballar a temps real.
2.4.2.3
Gestmusic
Entrevista realitzada a: Departament d‘àudio de Gestmusic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que en un futur es podria utilitzar aquest tipus de tecnologia?
Penso que seria una gran evolució si en un futur s‘arriba a usar ja que repercutiria un
gran estalvi econòmic a nivell de locució per qualsevol anunci publicitari, documentals i
promocions, sense oblidar, també, l‘estalvi de temps (gravació amb el locutor).
Tot i això, crec que les veus sintetitzades encara no són prou naturals, ja que un humà
pot produir diverses entonacions: veus agudes, veus greus, veus més series, veus
juvenils, amb més velocitat o amb menys, etc. Segons les imatges gravades, el locutor
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
41
simula una veu o una altra, cosa que amb qualsevol software resulta encara molt
difícil.
- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Ara per ara, per l‘experiència que jo tinc, no li veig molta aplicació.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Es podria, però tampoc li veig molta sortida. Encara es nota que la veu és sintètica i no
queda natural. Ho veig més per temes d‘informació general, com per exemple el metro.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Desconec aquest tema totalment, però simular veu real és molt difícil.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Crec que tenen molt de futur, tot i que pel tema de síntesi encara és aviat per substituir
a un locutor, ho veig difícil.
2.4.3
2.4.3.1
Estudis de so, doblatge i postproducció
OIDO
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
Sí, en àmbit musical, per evocar algun efecte, per ambientar o per afinar a algun
cantant (una nota, no una paraula ni un text).
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
Utilitzem un software lliure.
- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
42
Sí, però s‘hauria de perfeccionar la veu perquè fos més realista i sobretot ben creïble.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Sí, també.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Sí, però tornem al mateix que he comentat anteriorment, la veu ha de ser creïble, i això
encara no està del tot aconseguit.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Poden tenir molta utilitat, i més encara si es tendeix a una monitorització.
2.4.3.2
INFINIA
Entrevista realitzada a: Departament tècnic de so
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No, tot i que algun cop s‘han utilitzat per manipular la veu o per crear veu robòtica.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
No ho sé, cada vegada em sorprenen més aquestes tecnologies.
El so va per davant de la imatge. En el cas de la síntesi és al revés, falta perfeccionar
aquest pas en el so. Quan aquest sigui creïble com el 3D en la imatge, que no saps
distingir si és real a no, serà un gran avançament, però actualment, la veu que
produeixen aquests sistemes, no és real, es nota que és una màquina.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
43
Seria el mateix que a la televisió. El problema que hi ha amb la síntesi, a part
d‘aconseguir veus perfectes, és donar a una màquina la personalitat de cadascú, una
personalitat que sigui creïble. Trobo que serà difícil desenvolupar aquest punt.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Això seria una bona idea, però buscant una veu que sigui el més agradable possible.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
A mi m‘encanten. M‘agrada que em sorprenguin tecnològicament, cosa que en temes
de so encara no han fet. La veu sempre és ―pregravada‖, mai és veu sintètica.
2.4.3.3
Onda Estudios
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
Nosaltres no els utilitzem.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Per substituir la veu d‘un locutor no, encara no estan suficientment preparats com per
produir parla de manera natural.
Penso que és una eina de creativitat. En qualsevol situació on hi hagi comunicació, si
el creatiu pensa que pot ser útil, doncs si que es podria usar.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Només si és per produir algun efecte en la veu.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
44
No ho veig apropiat per a qualsevol comunicació en la que vulguis veu natural. L‘oient
sap el que està escoltant, i sabrà que és una veu sense qualitat natural, sabrà que és
robòtica.
La interpretació humana no està a l‘abast de la tecnologia, és molt particular.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Estan molt bé. Els sistemes de reconeixement de la parla ajuden molt, es poden
adaptar a molts tipus de maquinària. Els sistemes de síntesi també, la veu robòtica en
un sistema GPS està molt bé, no ha d‘interpretar re, simplement comunicar. Tot és
segons el que es necessiti en cada cas.
2.4.3.4
Cyo Studios
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No. S‘utilitzen per contestadors telefònics i altres sectors de l‘estil.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
De moment no perquè la veu no està prou aconseguida, no és suficientment natural
com per produir les mateixes emocions que les d‘una persona. Tot i això, aquests
sistemes estan avançant molt.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
A les ràdios online si que es podria utilitzar, però, de totes maneres, es notaria que la
veu és sintètica.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
45
Sí, però no tindria els mateixos efectes emotius que pot donar la veu natural. No
produiria les mateixes sensacions a la gent.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Estan molt bé, però d‘aquí a uns anys trauran la feina a molta gent. Només
necessitarem un ordinador i el text a reproduir.
2.4.3.5
Dubbing Films
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
De moment no. S‘ha d‘aconseguir fluïdesa i inflexions en la veu. Avui dia, els espots
publicitaris es paguen molt bé perquè el locutor ha de ser capaç de produir una veu
concreta, amb moltes inflexions, etc.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Igual que a la televisió.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Això s‘hauria de preguntar als invidents, perquè nosaltres podem pensar que els pots
anar molt bé i potser és un desastre perquè no els hi agrada. D‘altra banda, les veus
haurien de ser agradables.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
46
Els sistemes de síntesi a la llarga deixaran sense feina als locutors, ara per ara és
impossible, però arribarà. Als estudis tindrem tota la classe de veus que necessitem:
una dona de 60 anys, un home amb veu greu jovenet... Tot el que sigui millorar
sempre és bo.
2.4.3.6
Tadutec
Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No, està molt verd encara.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
No.
Els locutors de publicitat han de donar tons diferents segons el que hagin de dir. Si,
per exemple, es necessita una veu d‘una persona plorant i el locutor no ho sap
interpretar, aquest no servirà. De la mateixa manera passa amb els sistemes de
síntesi, si aquests no saben fer el que es necessita, no podran ser utilitzats.
S‘ha de pensar que l‘oïda és més sensible, no és com l‘ull que és més vague i per tant
és més fàcil d‘enganyar-lo. És per això, que el so va més endarrerit.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
No, passa el mateix que a la televisió.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
És possible. En l‘audiodescripció no es necessita tanta entonació, amb veus planes ja
es pot descriure el que es desitgi.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
47
Estan molt bé, sobretot en camps on puguin oferir ajudes, com per exemple a les
persones amb algun tipus de disminució.
2.4.3.7
Dvmusic
Entrevista realitzada a: Departament tècnic.
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Tot depèn de com estigui implementat el sistema de síntesi. En quant a narració està
molt ben adaptat, però dubto que es pugui emular l‘entonació d‘una persona humana.
El que és interpretació és molt difícil d‘aconseguir. Els locutors estan molt ben
preparats i tenen molts registres i, fins i tot, hi ha vegades que els costa realitzar allò
que els publicistes els hi demanen. S‘ha de pensar que en les campanyes publicitàries
es gasten molts diners, perquè han d‘arribar a l‘espectador sigui com sigui.
En canvi, un documental, al ser narratiu i sense necessitat de tanta entonació perquè
la locució és més plana, té més sentit de que es puguin usar aquests sistemes.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
De la mateixa manera que a la televisió.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Això potser sí. Pot proporcionar abaratir els costos d‘àudio, serà més rentable que no
pas contractar a un locutor. S‘hauria de fer un anàlisi de mercat.
Sempre és millor si l‘entonació és bona però els costos marquen el producte.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
48
Els sistemes de síntesi, com a professional, em fan una mica de por, però penso que
encara es tracta d‘una tecnologia llunyana. És com pretendre que un robot pinti un
quadre com un pintor professional, encara queda molt.
Els sistemes de reconeixement els veig més pràctics, més fàcils de que siguin
utilitzats.
2.4.3.8
Seimar RLM Estudios
- Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Ja es fa.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Ja es fa.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
És més ràpid amb una persona.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
No ho sé, no m‘ho havia plantejat mai.
2.4.3.9
Soundub
- Entrevista realitzada a: Departament tècnic
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
49
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No en el sector audiovisual de Broadcast i/o Cinema. Sí en el sector d'atenció al client
(call centers), Internet i per persones amb discapacitat.
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
Sempre el doblatge.
- Quina empresa els proporciona la veu?
El doblatge és una de les nostres àrees de negoci.
- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
Només considero que es podria aplicar a tots aquells programes que permetin una
comunicació neutral com ara caixers automàtics, contestadors o call centers, potser a
vídeos promocionals o informatius no enfocats a vendes. Els documentals, dibuixos
animats i anuncis tenen molta emoció i gran part del seu èxit es basa en això.
Li encomano que es miri qualsevol dels documentals de "Al filo de lo imposible" narrat
per en Armando Carreras, un documental sobre alpinisme que, fóra de l‘interès per
una audiència molt específica, l'interès era limitat; aquests documentals mostraven
imatges molt maques de muntanyes i alpinistes, sovint la gent reconeix que la
narrativa del documental els "enganxava" i de fet el programa ha aguantat moltes
reedicions sempre amb la mateixa veu.
Els anuncis mateixos, basats en despertar una necessitat de consum, perdrien el sentit
sense l'emoció que és capaç de transmetre el locutor.
Cal entendre, deixant de banda les seves ideologies, que la capacitat d'oració de
persones com Kennedy, Luther King, Gandhi o Hitler, sovint va marcar la diferencia de
la perdurabilitat i l'èxit de les seves idees. Aquests són alguns exemples de la
importància d'una veu no sintètica o capaç de transmetre emocions.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Novament, la finalitat de la publicitat és generar ingressos per vendes, si la veu que és
substituïda manté el retorn potser llavors és possible. Això llavors és extrapolable a tot
el gènere audiovisual.
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
50
No. És fàcil d‘entendre que si es doblés una pel·lícula amb un sintetitzador de veu, és
de difícil acceptació ja sigui per invidents o no. La dificultat en aquests sintetitzadors
està en eliminar la neutralitat de la interpretació que doleixen. Això s'agreuja quan
aquesta interpretació va lligada a una imatge, com que doncs les interpretacions son
infinites, caldria parametritzar massa l'algoritme del sintetitzador per poder fer una
aproximació fidedigne (no neutre i realista) a la substitució de la veu. L'àudio d'una
pel·lícula transmet emoció; com a part important d'aquesta emoció, la veu (i altres
elements) permeten a l‘espectador poder matisar el significat i el caràcter últim del
quadre audiovisual, particularment si hom és invident. Així doncs, substituir una veu
"no natural" en un programa audiovisual deixaria "coix" a l'espectador invident.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Vàlids per reconèixer ordres, no obstant tornem al mateix, es pot parlar amb ironia a
un sistema de reconeixement de la parla tot esperant que sàpiga interpretar realment
els nostres desitjos?
2.4.3.10 Sounygraf
- Entrevista realitzada a: Departament tècnic
- Coneix els sistemes de síntesi de veu?
Sí
- S‘utilitzen actualment?
No
- Si es així, ho contracten de forma externa o ho realitzen directament vostès?
----- Quina empresa els proporciona la veu?
----- Creu que es podria aplicar veu sintètica a la televisió? (Anuncis, dibuixos animats,
veu en off de documentals, algun programa per comunicar algun tipus d‘informació,
per descriure els vídeos dels informatius pels invidents...)
No, haurien de millorar moltíssim l‘entonació.
- Creu que es podria aplicar veu sintètica a la ràdio? (Anuncis publicitaris, en algun
programa de manera complementaria)
Sí, però només com a senyal horària i indicatius de l‘emissora.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
51
- I en l‘audiodescripció pels invidents? (en pel·lícules de cine, televisió)
No, per la mateixa raó que he comentat abans.
- Què opina d‘aquestes noves tecnologies, com els sistemes de síntesi de veu o els
sistemes de reconeixement de la parla?
Són molt interessants, però estan en una fase poc desenvolupada.
2.4.4
Impressions del personal no tècnic
Per complementar les enquestes realitzades al personal tècnic de les ràdios,
televisions, productores i estudis de so, també s‘ha contactat amb gent involucrada en
aquest sector, però que no es dediquen a la part tècnica, com són periodistes,
locutors, professors, etc. L‘objectiu d‘aquesta part del projecte de recerca ha estat
recollir la impressió global dels perfils no tècnics relacionats amb les empreses de
l‘àmbit audiovisual i de la comunicació pel què fa als seus coneixements i preferències
davant la tecnologia de síntesi de veu. Cal esmentar, que aquesta part s‘ha realitzat
recollint opinions a nivell estatal.
2.4.4.1
Enquestat/da #1
Formació: Llicenciatura en Periodisme
Lloc de treball: Productora 8 milímetros
Impressions/Comentaris: Han realitzat diversos programes a la productora on treballa
per IB3 Ràdio i IB3 TV (cadenes valencianes) i no ha treballat ni ha vist mai cap tipus
de sintetitzador de veu. Han treballat amb moduladors de veu per tal de modificar-les
en cas d‘imprevistos com pot ser un refredat.
No li agraden aquestes noves tecnologies, doncs seria una pèrdua de treball per molta
gent que es dedica a la locució.
2.4.4.2
Enquestat/da #2
Formació: Comunicació Audiovisual a la universitat Pompeu Fabra de Barcelona
Lloc de residencia: Barcelona
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
52
Impressions/Comentaris: No ha treballat mai amb cap tipus de sintetitzador de veu tot i
que n‘ha sentit a parlar.
Pensa que les veus sintetitzades encara són molt robòtiques i que per tant no poden
ser substituïdes. El que realment es vol a l‘hora de fer qualsevol anunci publicitari,
doblatge, etc., és arribar a l‘usuari final, i això s‘aconsegueix mitjançant els sentiments
i les emocions, característiques que les veus artificials encara no proporcionen.
2.4.4.3
Enquestat/da #3
Estudis: Llicenciatura en Periodisme
Lloc de treball: Secció d‘informatius a la televisió BTV de Barcelona i Lavinia (Tele5)
Lloc de residencia: Barcelona
Impressions/Comentaris: No ha sentit a parlar mai dels sintetitzadors de veu, per tant,
es tracta d‘una tecnologia totalment nova per a ella. En cap de les seccions de les
cadenes on ha treballat no ha vist mai utilitzar (ni ha utilitzat) veus robòtiques.
2.4.4.4
Enquestat/da #4
Lloc de treball: Director de doblatge i professor de postgrau a la Universitat Autònoma
de Barcelona (UAB)
Lloc de residencia: Barcelona
Impressions/Comentaris: Coneix els sistemes de síntesi de veu. Podrien servir per
determinades parts d‘una pel·lícula en el cas de que es busquessin veus planes o
robòtiques. Per la interpretació és necessària la entonació, qualitat que encara no s‘ha
aconseguit.
Es podria utilitzar per l‘audiodescripció si la veu fos semblant a la d‘una persona
humana encara que aquesta fos neutra i sense tons.
2.4.4.5
Enquestat/da #5
Lloc de treball: Departament d‘informatius de TV3 i professor de tecnologia de l‘Escac
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
53
Lloc de residencia: Barcelona
Impressions/Comentaris: Penso que fins d'aquí a molts anys un sintetitzador de veu no
podrà substituir la veu d'un doblador professional. De totes formes, sí que crec que en
algunes aplicacions automatitzades per web o televisió per a invidents, pot tenir cert
sentit.
Als telenotícies, la veu dels vídeos és la del mateix redactor, encarregat de la notícia.
Ho fa tot ell, així, si hi ha algun canvi d‘última hora, ràpidament pot modificar el que
calgui. S‘ha de tenir en compte que en els informatius prima la velocitat i l‘entonació,
que ha de ser adient pel vídeo que s‘estigui muntant.
Pels reportatges 30min o pel resum de l‘any, es contracten actors de doblatge. Tenen
veus potents. A més a més, han fet molts cursos i saben expressar sensacions, donen
èmfasi allà on toca... modulen molt bé la veu i ho fan molt ràpid. En el doblatge
interessa diferents veus: nens, adults, gent estrangera, etc.
En el món de la televisió es busca que tot sigui creïble. Prima més la qualitat que no la
rapidesa. Ho veig més per ajudes personalitzades.
2.4.4.6
Enquestat/da #6
Formació: Llicenciada en Publicitat per la Universidad Complutense de Madrid (UCM)
Lloc de treball: Molaría
Lloc de residencia: Madrid
Impressions/Comentaris: No ha treballat mai amb sintetitzadors de veu. Pensa que és
complicat instaurar-ho en el món audiovisual, ja que la televisió té uns antecedents
que marquen el que has de fer, ja està molt implantat i és difícil canviar la veu de la
persona que interpreta al ―noi famós‖.
Opina que té més sortides per serveis d‘atenció al client, fins i tot amb la intervenció
d‘un ninot virtual que anés responent les preguntes més freqüents que sorgeixen a les
pàgines web.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
54
2.4.5
Usuaris amb discapacitat visual
Tot i que a l‘inici del treball de recerca no s‘havia plantejat l‘estudi d‘un grup d‘usuaris
concret, després de les primeres anàlisis realitzades, es va decidir incloure en l‘estudi
de camp a persones amb deficiències visuals, en constatar que l‘audiodescripció és un
dels possibles punt d‘entrada de les tecnologies de síntesi de veu en el món de la
comunicació audiovisual. Alhora, cal destacar que aquest sector de la societat és un
dels majors usuaris dels sintetitzadors de veu, un punt més per no deixar de banda a
aquest sector de la població en l‘estudi de camp, tant per ser usuaris potencials de la
implantació dels sistemes de síntesi de veu, com per ser experts coneixedors de la
implantació de la tecnologia en el món de la comunicació audiovisual.
En el món audiovisual existeixen tècniques com l‘audiodescripció que ajuden a
descriure la part visual de l‘escena i, per tant, informen de com es produeixen les
accions. En aquest context, sembla que pot ser una de les vies per introduir la síntesi
de veu en les produccions audiovisuals de la televisió i el cinema, i així potenciar l‘ús
d‘aquesta tecnologia que és de gran ajuda per aquestes persones. Però, per això, és
necessari saber quina és la seva opinió al respecte, qüestió que s‘analitza més
endavant. A més, són uns dels usuaris més indicats per tal de conèixer l‘opinió que
tenen de les veus sintètiques actuals, ja que tenen l‘oïda molt més desenvolupada que
una persona sense aquest tipus de discapacitat.
A continuació s‘inclouen algunes de les entrevistes realitzades a persones amb
discapacitat visual, la resta es poden trobar a (Torrens, 2010). Cal destacar el fet que
s‘ha contactat amb persones de tot l‘estat per tal de tenir una mostra més completa en
l‘enquesta d‘un dels grups d‘usuaris més interessats en al integració de les tecnologies
de la síntesi de veu en el món de les produccions audiovisuals.
Algunes d‘aquestes s‘han formalitzat via e-mail, pel que s‘inclouen tal i com han estat
contestades.
2.4.5.1
Enquestat/da #1
Professió: Empleada de banca
Lloc de residència: Santander
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
55
- ¿Utiliza sistemas de síntesis de voz?
Sí, mucho, aunque aún tienen algunas carencias. A veces no leen ciertas cosas que
aparecen en la pantalla como por ejemplo los botones, aunque es más bien un
problema del programa y no del sintetizador. El sintetizador más utilizado es
Loquendo.
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Para todo. Yo siempre suelo decir que en mi casa todo me habla: el móvil, el
ordenador, el reloj, el robot de cocina, el termómetro, el identificador de llamada del
teléfono fijo... todo.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Lo comercializa la ONCE, al margen de que puedas comprar por internet otros
sintetizadores.
Son mucho más baratos que los sistemas que te traducen un texto al braille, aunque
me niego a pagar por no ver. Me compro un ordenador como cualquiera, pago por
tener Windows como cualquiera, pago el antivirus como cualquiera, pero me niego a
pagar otro software por no ver. No existen subvenciones y me parece inmoral. Un
ebook, que puede valer unos 400 euros, yo tengo que pagar casi el doble, y un
teléfono móvil, que hoy en día las compañías te los regalan, yo tengo que pagar 150
euros para poder manejarlo. Con todo esto, te digo, que todo lo que tengo es
pirateado.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No se necesita nada, instalas el sintetizador y ya lo puedes utilizar.
Funcionan con Windows, Linux y Mac.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí, todas las que tienen flash son muy complicadas. La página web de Ryanair no es
100% accesible. También es verdad que a veces los que no son compatibles son los
propios navegadores. Por ejemplo, para poder leer el Diario Montañés, que es el más
frecuente aquí, con Internet Explorer es imposible porque se cierra, en cambio, con
Firefox, es perfecto.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
56
CIDAT es el departamento de investigación para material para ciegos, aunque muchos
software son aportaciones externas que comercializa la ONCE.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, muchísimo. Piensa que los ciegos nos jubilamos muy pronto, hacia los 50 años, y
nos queda mucho tiempo para divertirnos con la tecnología.
Internet es una apertura total hacia el mundo para nosotros, sobre todo para los ciegos
totales como yo. No puedo ir al quiosco y comprar el periódico, pero si puedo
escucharlo mediante el ordenador. En tanto por ciento, nosotros utilizamos más el
ordenador que no las personas normales, es decir, los que veis.
Existen unos aparatos, del tamaño similar a un mando de garaje, que tienen dos
botones. Uno de ellos, se utiliza en los semáforos a demanda del ciego, de esta
manera, al no sonar periódicamente, no se molesta tanto a los demás viandantes. El
otro botón está relacionado con las paradas de autobús. Cuando un ciego quiere saber
cuál es la siguiente detención, pulsando el botón, el autobús lleva un sistema con voz
sintetizada anunciando la calle correspondiente. Es otra aplicación con estos sistemas.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
En teoría, si mandabas un mensaje de texto a Aena, éstos te remitían la información al
móvil, pero a mí nunca me ha funcionado. Para un ciego total, es muy difícil moverse
por espacios grandes. Existe una ayuda especial, sueles quedar con una persona
unas horas antes del vuelo y ésta te hace de guía.
Yo suelo viajar a menudo y me ha pasado de todo. Se olvidan de ti, te embarcan en
otro vuelo... Lo malo de ahora es que en los aeropuertos han suspendido los mensajes
de voz y todo va por pantalla. Esto significa que, si el avión ha sido anulado o
retrasado, ya no te enteras, y te quedas esperando ahí como una estatua perdiendo el
tiempo, ya que, igual solo viajabas para ir a una conferencia o a una reunión, y ya no
te interesa despegar. Estaría muy bien que existieran unos aparatos que hicieran un
barrido de pantalla y te fueran diciendo todo.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican
con los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa
esa acción? Si es así, ¿se utiliza voz sintética?
En TVE hay películas audiodescritas. En Madrid, de vez en cuando, los cines hacen
audiodescripción de alguna de las películas que están en cartelera. Te dan un aparato
y te va describiendo todo en los espacios donde los personajes no hablan.
Hay cosas que sobran de las audiodescripciones. A veces describen en exceso
vestimentas y se dejan otras cosas. No me importa si el hombre lleva camisa blanca y
la mujer vestido rojo, prefiero saber la edad de los personajes o si la zona es arbolada
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
57
para imaginar cómo puede producirse la acción. También es cierto que yo estoy
acostumbrada a ir al cine e igual no necesito tantos datos como otra gente.
No hay que olvidar que, para los ciegos, la música, nos dice muchas cosas. Está claro
que, cuando escuchas una canción romántica, consecutivamente habrá un beso.
En todos los casos, la voz siempre es humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No existe, tenemos que escuchar la radio o leer la prensa por internet para estar
informados, pero sería muy interesante que lo describiesen, nos abriría las puertas a
un nuevo canal.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
La voz sintética es odiosa para la lectura de libros, pero está bien cuando te dan datos,
que es el caso de las audiodescripciones en el cine o de los vídeos en los
informativos, así que lo veo muy bien, creo que tiene futuro.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
En ópera no. Creo que sería difícil porque necesitarías a alguien describiendo
continuamente lo que está ocurriendo en escena mientras están cantando, por lo que
se interferiría la audiodescripción con el canto.
En el teatro hay momentos en los que se producen silencios, así que sí que se podría
aplicar.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Claro. De hecho, creo que en algún anuncio de coches ya se ha utilizado.
- ¿Sugerencias?
Creo que sería de gran ayuda que los autobuses llevasen un altavoz y al abrirse la
puerta en cada parada, te dijeran el número del mismo. Se podría utilizar voz sintética
y además no solo serviría para nosotros, sino que también para la gente mayor.
En los conciertos en directo a veces proyectan cosas en pantallas, sería interesante si
nos lo describieran. En cualquier audiodescripción, las frases tienen que ser cortas,
capaces de explicar la situación con 5 o 6 palabras para no robar espacio. Muy
descriptivas en poco espacio de tiempo.
Todo lo que vosotros tengáis acceso con la vista que nosotros tengamos acceso con
la voz. Nos harían la vida mucho más fácil.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
58
2.4.5.2
Enquestat/da #2
Professió: Telefonista
Lloc de residència: Madrid
- ¿Utiliza sistemas de síntesis de voz?
Sí, soy usuaria de sistemas de síntesis de voz.
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lectura de sms y otras funciones de los teléfonos móviles, lectura de libros, lectura de
pantalla del ordenador, etc.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Bueno, realmente no son de fácil acceso si hablamos en términos económicos. No
todas las personas que los necesitan pueden afrontar los elevados costes y por eso a
veces se suele tender al pirateo de dichas síntesis de voz.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado? Lo cierto es que la mayoría de los sistemas operativos admiten síntesis de
voz pero obviamente si bien la accesibilidad mejora considerablemente, cada
actualización a versiones más avanzadas de los mencionados sistemas operativos
requiere una actualización de los programas de síntesis de voz.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí. Muchas webs son diseñadas de acuerdo a la imagen estética. Muchas empresas
buscan el "entrar por los ojos" al cliente potencial y se olvidan que las personas ciegas
también podemos ser clientes potenciales. Cierto que se está empezando a mejorar
en este sentido pero queda mucho camino por recorrer.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Existe un departamento de investigación pero realmente son las empresas externas
las que hacen las aportaciones con el encarecimiento de los productos que esto
conlleva. En síntesis de voz, todo es externo.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Bueno... Supongo que en parte.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
59
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
En el supermercado con ayuda de una persona que vea. En el aeropuerto hay
personal -si se solicita previamente a la fecha del viaje- para ayudar y creo que se
cuenta -no sé si en todos los aeropuertos o solamente en algunos- con un sistema de
llamada al móvil en el que se informa acerca de la puerta de embarque.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Sí, afortunadamente el sistema audesc, o lo que es igual, audiodescripción, se está
empezando a implantar y muchos DVD comerciales ya lo llevan incorporado. También
algunas cadenas televisivas están empezando a incorporar este sistema en algunas
películas. Personalmente prefiero que se use voz humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No. No obstante no lo veo necesario en estos casos.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
En el caso del cine sería una interesante idea. En el caso de los informativos no lo veo
necesario pues la noticia en sí misma ya nos da la idea de las imágenes que se
emiten.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Esto solamente ocurre en sesiones de teatro especiales.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
No. La voz sintética debería dejarse más bien para cosas muy puntuales. Resulta
impersonal, fría y distante.
- ¿Sugerencias?
Considero que no debe abusarse de la voz sintética y dejarla para lectura de pantallas
o informaciones puntuales, servicios de megafonía y similares. En los sistemas de
audiodescripción es mejor utilizar voz humana pues es más directo y cercano el
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
60
mensaje y uno puede hacerse más claramente la idea de la imagen que está
describiendo.
2.4.5.3
Enquestat/da #3
Professió: Especialista integración laboral
Lloc de residència: Málaga
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantallas PC y móvil, iPod, conversor de audiolibros.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Algunos sí y otros no.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Depende del sistema operativo. Windows, Linux, Mac, Symbian y Android soportan
lectores de pantalla.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
La mayoría no ofrecen un nivel de accesibilidad aceptable, pero sí que accedemos a
casi todas de una manera poco ortodoxa.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí lo hay, aunque la mayor parte del material es aportación externa.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Gracias a las listas de distribución especializadas, blogs y redes sociales gestionadas
por usuarios.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
A través de las webs de los supermercados, podemos saber los precios.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
61
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
En el cine, se utiliza el sistema AUDESC, es decir, la audiodescripción, pero la voz es
humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No existe nada.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Se utiliza en cine, en algunas películas
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
En las obras adaptadas, la audiodescripción, como en el cine.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Sí, pero serían menos atractivos.
- ¿Sugerencias?
---2.4.5.4
Enquestat/da #4
Professió: Administrativo
Lloc de residència: Santander
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lectura SMS, lector de libros, lector de pantallas del ordenador, telefonía móvil, reloj,
calculadora, anotadores parlantes, cronómetros, megafonía de espacios públicos y
medios de transporte, grabación de etiquetas sonoras, ajedrez y otros juegos
electrónicos, GPS, ascensores...
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
62
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
El programa de síntesis de voz más generalizado para el uso de ordenadores se llama
Jaws y su precio aproximado es de 800 a 1000 euros, lo que entorpece introducirse en
la informática a los ciegos por su alto coste o les obliga a utilizar demos o copias sin
licencia. Es urgente disponer de un software de acceso libre o coste más favorecedor.
Las síntesis de voz incorporadas a productos de consumo no encarecen el precio de
éstos, ni tampoco el de los ordenadores que disponen de ella desde su fabricación.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
El programa Jaws funciona con Windows y evoluciona a medida que lo hacen las
versiones de este sistema operativo, observándose un año de diferencia entre uno y
otro aproximadamente. Existe un programa de voz para Linux, susceptible de ser
mejorado, y otro para Apple que viene incorporado de fábrica.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Las páginas web tienen distinto grado de accesibilidad, dependiendo de su diseño.
Son absolutamente inaccesibles las que están basadas en pantallas flash dinámicas, y
en estos casos se sugiere a los diseñadores que ofrezcan como alternativa un enlace
al mismo contenido con formato de texto.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
El centro de la ONCE encargado de la evaluación, investigación y distribución de estos
materiales se denomina CIDAT (Centro de Investigación, Desarrollo y Aplicación
Tiflotécnica). Los usuarios tenemos la impresión de que su actividad se enfoca
fundamentalmente a la distribución y la evaluación de productos ajenos y menos a la
investigación y fabricación de artículos propios, pero puede ser una apreciación
subjetiva.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Mensualmente se publica una nota informativa con las novedades que comercializa,
pero no hay un canal estable de información sobre novedades generales y menos de
previsiones futuras.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Hay muchas situaciones de la vida diaria en las que los ciegos necesitamos el apoyo
de una tercera persona por falta de tecnología para facilitarnos mayor autonomía
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
63
personal, como en estaciones de tren, aeropuertos, establecimientos públicos en los
que un dispositivo numerador establece el orden de los clientes... La compra en
supermercados requiere que la realicemos con la ayuda de una persona, o bien
haciéndola por teléfono o a través de internet en los casos donde las páginas web
correspondientes son accesibles (Mercadona, Supercor, Eroski...)
Podría solucionarse la dificultad con el empleo de un lector de tarjetas RFID con
síntesis de voz, aprovechando las posibilidades de los códigos de barras.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Desde hace quince años, aproximadamente, la ONCE adapta películas incorporando
una voz humana en off a la banda sonora, lo que conocemos como audiodescripción.
Por otro lado, la Fundación Orange y Navarra de Cines desarrollan un proyecto similar,
también con voz humana, comercializándose DVDs. que llevan incorporadas como
posibilidad la opción de activar la audiodescripción para personas ciegas o una
subtitulación con código de colores para personas con deficiencia auditiva.
La posibilidad de desarrollar iniciativas semejantes utilizando síntesis de voz
abarataría sensiblemente los precios de producción y permitiría generalizar su uso en
un número muy superior de películas.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No está resuelto el problema de la descripción de las imágenes que aparecen en la
programación de la televisión, y nos apoyamos exclusivamente en la información
hablada o la ayuda de las personas que nos acompañan.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Sí, es necesario.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Para el teatro y la ópera se aplica un sistema parecido al de las películas con la
audiodescripción, pero son pocos los casos en que se lleva a cabo como
consecuencia de los costes y los recursos materiales necesarios.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
64
La voz sintética requiere una cierta familiarización previa, por lo que inicialmente suele
rechazarse como alternativa. A mi juicio, el motivo del rechazo se debe más bien a una
falta de perfeccionamiento en la modulación fónica, lo que llegará a superarse en el
momento en que la humanización de las voces haga más sensitiva su audición.
- ¿Sugerencias?
Alguno de los sectores en los que no se han incorporado síntesis de voz ni otro
sistema de accesibilidad es el de los electrodomésticos, como lavadoras, microondas,
cocinas de inducción, lavaplatos, etc., los rótulos públicos, el etiquetado de ropa, los
museos y exposiciones..., lo que representaría un avance muy importante en la
autonomía de las personas con ceguera o deficiencia visual, el acceso a la cultura
como derecho público y la inclusión social en general.
2.4.5.5
Enquestat/da #5
Professió: Fisioterapeuta
Lloc de residència: Almería
- ¿Utiliza sistemas de síntesis de voz?
Sí, en varios dispositivos.
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantallas de ordenador y teléfonos móviles, lectura de libros y documentos
diversos, identificadores de colores, etc.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
En estos momentos su precio ha disminuido respecto a otros tiempos, pero sigue
siendo caro el acceso a estas aplicaciones. Existen voces gratuitas, y esto facilita en
ocasiones las cosas, pero su calidad suele ser muy inferior.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No es necesario, porque en realidad el problema es a la inversa, es decir, el lector de
pantallas es un programa que debe ser compatible con el ordenador. Lo ideal sería
que no fuese necesario adquirir lectores de pantalla para instalar posteriormente en
ordenadores, y esto es posible.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí, y lamentablemente eso nos dificulta el acceso a información importante en muchas
ocasiones. Por ejemplo, las webs de bancos como el Santander presentan problemas
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
65
de accesibilidad a la hora de verificar las claves, operadores como Ono presentan
problemas similares. Hay más pero no cabe aquí.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
En el Cidat deberían ocuparse de esto, pero no sé hasta qué punto lo hacen. Visita
http://www.once.es/cidat/
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Desde la ONCE hacen mucho hincapié en informar sobre las tecnologías específicas,
pero desde otros foros, listas, redes sociales, etc., se obtiene información acerca de
las tecnologías universales que nos pueden ser útiles.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
En la actualidad no hay dispositivos que nos permitan comprar en el supermercado
como los videntes ni obtener información de pantallas en medios de transporte
públicos. No nos queda otra que contar con la buena voluntad de los demás y con los
amigos.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Si queremos acceder a películas audiodescritas tenemos que ir a la ONCE a retirarlas
o contar con algún canal de televisión que amablemente ponga una de estas películas.
Normalmente imaginas, lo supones o lo preguntas. La voz de audiodescripción no es
sintética actualmente.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No se describen los vídeos en ningún momento. Todo hay que imaginarlo o esperar
que algún tertuliano de algún lugar comente algo. Si es un vídeo demasiado polémico
o importante, pedimos descripción a amigos o conocidos.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Sería importante que así fuera, aunque no sé yo si los videntes aceptarían estas
interrupciones. Para nuestro colectivo sería muy interesante.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
66
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Creo que no, pero ahí mi experiencia es más limitada.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Supongo que sí, pero tampoco creo que sea imprescindible.
- ¿Sugerencias?
• Implementar lectores de pantalla en cajeros automáticos -no me sirve un teclado en
braille si no puedo acceder al contenido de la pantalla.
• Que se universalicen los lectores de pantalla en móviles y ordenadores, de forma
que no nos suponga un costo mayor acceder a lo que nos corresponde por derecho.
• Colocar sistemas de voz sintética en autobuses que, al abrir la puerta o detenerse,
anuncien en el exterior qué línea cubren y en qué sentido van.
• Voz sintética universal en los dispositivos de TDT o acceso a los menús mediante
móvil y bluetooth.
• Posibilidad de interacción con móviles de electrodomésticos para poder así acceder
a la información de los displays de los mismos.
• Voz sintética en cualquier tipo de máquina expendedora (refrescos, golosinas,
billetes de tren o metro, etc.).
• Acceso mediante bluetooth a información a través de voz sintética que permita saber
los tiempos de espera de las líneas de autobús, aviones, autobuses interurbanos,
etc.
• Establecer una base de datos de códigos de barra y una aplicación universal que
permita con diferentes dispositivos -pda, móvil, etc.-, acceder a datos como nombre
del producto, precio, fecha de caducidad, etc.
2.4.5.6
Enquestat/da #6
Professió: Venedora ONCE
Lloc de residència: Terrassa (Barcelona)
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
• Lector de pantalla ordenador.
• Lector de pantalla del móvil, que permite el acceso a prácticamente todas las
funciones del mismo.
• Reproductor de libros en formato Daisy, que dispone de síntesis de voz propia para
navegar por menús.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
67
• Síntesis de voz propia que incorpora el robot de cocina "La cocinera" (aunque es voz
humana pregrabada y no sintética).
• Síntesis de voz propia de un identificador de llamadas para fijos, que anuncia el
teléfono llamante y el día y hora de la llamada.
• Síntesis de voz que trae de serie el IPod Touch de las últimas generaciones.
• Termómetro parlante con síntesis de voz.
• Kapten (navegador GPS sin pantalla que funciona mediante reconocimiento de voz y
síntesis de voz).
• Báscula de baño y de cocina también con síntesis de voz.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
El lector de pantalla que utilizo para el ordenador (Jaws) es caro. No recuerdo el precio
exacto, pero no está al alcance de todos los bolsillos (quizás ronde los 900€). El del
teléfono móvil (Mobile Speak) cuesta en torno a los 100€ en estos momentos, aunque
cuando yo lo adquirí costaba 150€, lo cual no es poco, porque en ocasiones se paga
más por el programa que por el propio terminal.
El aparato reproductor de libros Daisy, que incorpora la síntesis de voz, cuesta en
torno a 300€, cifra nada despreciable y poco asequible.
El robot de cocina, está en torno a los 600 o 700€, creo que es un precio normal para
este tipo de aparatos.
El identificador de llamadas, creo que ahora está en torno a los 30€.
Y el IPod lo trae de serie, así que no pagamos más por tener accesibilidad, lo cual es
de agradecer a Apple enormemente.
El GPS está en torno a los 180€, y las básculas no superan los 60.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No soy técnica en la materia, pero el lector que utilizo funciona en Windows (diría que
en todas sus versiones), y sin que el ordenador deba tener características especiales,
y hay otros específicos aunque menos desarrollados para Linux. Para Mac, también se
incluye ya de serie un lector de pantallas, el Voice Over (que es el mismo que lleva el
IPod) y que, por lo que dicen, funciona bien. Como lo ha desarrollado Apple para sus
productos, ya éstos están preparados para su funcionamiento correcto.
Ten en cuenta que una cosa es poder utilizar los sistemas operativos, y la otra, bien
distinta, es que se pueda tener acceso a todo tipo de programas y aplicaciones. Eso
no es así: en los entornos gráficos, o que no cumplen ciertos estándares de
accesibilidad, estos programas lectores de pantalla no funcionan en absoluto o
presentan múltiples problemas que dificultan mucho el uso de esas aplicaciones.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
68
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Es cierto que tenemos problemas de acceso a algunas Webs. Tal como te he
comentado con los programas, si no se cumplen en las WEBS ciertos estándares de
accesibilidad (que no te puedo precisar por desconocerlos) las páginas son mal
interpretadas por el lector, y, o no se puede acceder a parte del contenido, o a ninguno
en ciertos casos.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
En la ONCE tenemos el Centro de Investigación, Desarrollo y Aplicación Tiflotécnica
(CIDAT).
Aquí puedes consultar a grosso modo qué hacen: http://cidat.once.es/
Todos los productos que vende la ONCE son testados por el CIDAT, pero no
producidos por ellos en su mayoría, sino por empresas externas.
Y no todos los productos de tiflotecnología (tecnología aplicada a la ceguera o
deficiencia visual) se han de comprar necesariamente en la ONCE, también hay otros
agentes que los venden, aunque la ONCE tiene un precio para afiliados más asequible
que para no afiliados, lo cual nos resulta de interés a los que podemos beneficiarnos
de esa ventaja.
De todas formas, puedes ponerte en contacto con el CIDAT para ampliar esta
información con fuentes más veraces que yo.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Hay información por muchas vías. La ONCE difunde permanentemente notas
informativas con actualizaciones de los productos que ellos distribuyen, y las listas de
correo (por ejemplo Tiflonet) son también una buena forma de difundir y obtener
información de nuevos productos, actualizaciones, etc. Aunque creo que no nos llega
toda la información que existe realmente, y eso que somos internautas. Quien no tiene
acceso a las nuevas tecnologías tiene muchos más problemas para acceder a toda la
información en general, y a ésta en particular.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Para el supermercado, pues preguntando, porque aunque habría posibilidades de usar
códigos de barras con información y sus respectivos lectores, no se ha implantado aún
realmente. Yo a veces hago la compra por internet (Mercadona tiene página accesible)
y ahí consulto todos los precios y decido libremente
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
69
En el aeropuerto no sé bien cómo funciona, pero tengo entendido que hay un sistema
que avisa mediante teléfono móvil o algo así, aunque no sé hasta qué punto es
efectivo y fiable.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Ese sistema se conoce como de audiodescripción. Se aprovechan los espacios sin
diálogos para introducir una voz en of que va explicando qué pasa, la parte visual que
no podemos apreciar.
Nunca he escuchado voz sintética para esas explicaciones, siempre es real.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No sé si con el TDT se haya implantado esa tecnología para los informativos, porque
no tengo acceso a las opciones de la TDT por resultarme inaccesibles esos aparatos.
Hasta donde yo sé, no hay audiodescripción en tiempo real, salvo cuestiones
puntuales (audiodescripción para una conferencia concreta, o una obra de teatro
determinada, etc.). Desde luego en televisión yo no he tenido el gusto de disfrutar de
eso, que por otra parte sería muy interesante.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Como digo sería muy interesante que se ampliara la utilización de la audiodescripción
a todos los niveles en que se considere necesario. En este punto, aunque la voz
humana es más agradable al oído (a pesar de la proliferación de voces sintéticas cada
vez más logradas) yo me conformaría con que fuera una voz sintética la que pudiera
explicarme todo lo que no logro ver de los programas de televisión, películas,
documentales, noticieros, etc. Creo que, igual que para los sordos existe la
subtitulación simultánea (no sé si esa es la denominación pero sí el concepto) se
podrían aprovechar técnicas de escritura rápidas como la estenografía informatizada
para, posteriormente, narrar esa información mediante voz sintética, en tiempo real.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Nunca he asistido a una ópera, pero sí a alguna obra de teatro audiodescrita. Hay un
narrador en off que rellena esos vacíos de información, y para que sólo lo escuchemos
los que realmente lo necesitamos se nos facilitan unos auriculares. Las que yo he
escuchado son voces reales, no sintéticas.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
70
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Pues no sé hasta qué punto. No creo que me gustara demasiado, porque la voz
humana es muchísimo más expresiva y transmite mucho más que la sintética, y la
calidad no tiene comparación. Le encuentro muchos usos a la voz sintética, pero
precisamente éste la verdad es que no me convence.
- ¿Sugerencias?
Pues no se me ocurre ahora mismo ninguna en particular. En general, me parece
interesante que se investigue y profundice en la búsqueda de aplicaciones para la
síntesis de voz que puedan resultar útiles a personas con discapacidad visual u otro
tipo de dificultades (anuncios de autobuses, de la calle en la que estamos para
proporcionarnos una mejor movilidad, o multitud de ejemplos similares).
2.4.5.7
Enquestat/da #7
Professió: Programador
Lloc de residència: Madrid
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Todo lo que tenga que ver con el uso de tecnologías. Es mi puerta de acceso a la
información.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
A las síntesis sí, a los lectores de pantalla propietarios no tanto. JAWs, por ejemplo,
cuesta más de 1000€. Existen lectores gratuitos como: NVDA para Windows, Orca
para Linux y Voice Over para Mac.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No, sólo cumplir requisitos mínimos de software (el sistema operativo objetivo del
lector), y de hardware (tarjeta de sonido para servir como sistema de salida de la
síntesis).
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí, ese es un gran problema en el acceso a la información.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
71
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Hay un grupo de investigación (CIDAT, Centro de Investigación y Desarrollo de
Aplicaciones Tiflotécnicas), pero básicamente sirven como distribuidores de
desarrollos externos.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, por parte del CIDAT una minoría, y por parte de redes complementarias, la
mayoría: webs y blogs especializados, y redes sociales, Twitter, sobre todo, es ahora
una red social que está teniendo bastante tirón.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
No, hay que preguntar in situ en las tiendas, o aeropuertos. Hay aplicaciones para
móviles, que pueden decirnos tiempos de espera y puertas de embarque en
aeropuertos (la que conozco es para iPhone), pero para tiendas, nada de nada, hasta
donde yo sé.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
No, se utiliza voz humana, y sólo en películas que cuenten con adaptación
audiodescrita. No son sistemas automatizados, sino que son personas las que se
encargan de complementar la banda sonora de la película, con la descripción de lo
que ocurre, rellenando siempre espacios vacíos en los diálogos.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Sí, con un algoritmo de inteligencia artificial, procesamiento de imágenes y demás. Ya
hay proyectos en desarrollo, pero aún queda mucho para que llegue al público.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
No
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
72
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
¡No! ¡Qué cosa más antinatural! Si me venden algo con la voz de Loquendo, te
aseguro que no me lo compro. No tienen suficiente expresividad para ser creíbles y
convincentes.
- ¿Sugerencias?
---2.4.5.8
Enquestat/da #8
Professió: Periodista
Lloc de residència: Huesca
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantalla, teléfonos móviles, lector de libros en tinta.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Digamos que son de acceso medio/alto para los tiempos que corren, no son baratos,
pero tampoco son carísimos.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado? No
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí, lo es.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Lo hay, en muchas cosas es bastante eficaz, en otras, para mi gusto, algo hermético y
anticuado.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Podríamos decir que sí.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
73
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Que yo sepa no existe, hay que tirar de oído o de unos ojos que te ayuden, al menos
en mi caso
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Existe el sistema de audiodescripción en DVD, que se empieza a implantar muy
escasamente en cine y en TDT, pero siempre con un guión audiodescriptivo hecho por
una voz humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
Que yo sepa no hay ninguna adaptación para esto, salvo la voz en off que acompaña
a la noticia, que lógicamente no reproduce la imagen, sino que la acompaña.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Personalmente veo muy conveniente seguir trabajando en la descripción en cine y
televisión, ya sea con voz sintética o humana.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
No suelo frecuentar el teatro ni la ópera.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Creo que nada en radio como la voz humana, lo digo por experiencia, pero en los
tiempos que corren, cualquier cosa es posible...
- ¿Sugerencias?
Adelante con esto, para nosotros, los ciegos, cualquier síntesis de voz es vida.
2.4.5.9
Enquestat/da #9
Professió: Venedor ONCE
Lloc de residència: Elx, Alacant
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
74
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Para todo. En el móvil, en el PC con revisores de pantalla y a veces para leer libros.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Hay de todo, pero los gratuitos no suelen tener mucha calidad.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No, basta con que tenga potencia suficiente para hacer correr el programa lector, y un
sistema operativo con el que sea compatible.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí, pero el problema es más por el mal diseño de las webs, que no porque los lectores
de pantalla no sean eficaces.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí, el CIDAT. Antes intentaban desarrollar sus propios productos, ahora creo que más
que nada se dedican a evaluar productos externos.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, sobre todo a los que nos interesa el tema. Estamos suscritos a listas de correo,
Twitter, etc.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Los precios en el supermercado, como no vaya con alguien que los vea, nada. Para
mí, personalmente, es más cómodo comprar por Internet que ir al establecimiento. Las
pantallas de los aeropuertos no sé, hace años que no voy a uno. Las más accesibles
que conozco son las de Hacienda que tienen TTS.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
75
Sí, se llama audiodescripción y lo narra un locutor, no una voz sintética. Hay pocas
películas audiodescritas. Las hacen, sobretodo, la ONCE y TV3, aunque ya han salido
algunos DVD con Audesc.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
En el cine y series de TV sí, ya debería ser un estándar. En otras emisiones en directo
y en tiempo real como informativos, lo veo más difícil.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
En teatro se ha hecho alguna prueba con auriculares y un narrador que va explicando
la acción. Ha funcionado bien, pero no han sido más que experiencias puntuales.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Sí, ¿por qué no? Las hay con calidad suficiente para que quien no está muy
acostumbrado ni siquiera note que son sintéticas. Aunque habría que postproducirlas
porque la expresividad no suele ser su fuerte, si lo quieres hacer bien, pero casi me
parece más trabajo que grabar a un locutor humano.
- ¿Sugerencias?
---2.4.5.10 Enquestat/da #10
Professió: Tècnic en comunicació audiovisual
Lloc de residència: Madrid
¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantalla de smartphone y de PC, lectura libros (conversión TTS en MP3 y
editores de texto)
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
76
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
No conozco a nadie que haya pagado por una licencia específica. Los precios son
desproporcionados. Lo más usual es utilizar los motores incorporados por defecto en
los programas de lectura (sean o no legales). Los motores gratuitos, tipo Espeak se
valoran negativamente. A mí me parecen muy dignos.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No, salvo determinadas versiones que requieren SAPI 4.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
La accesibilidad de las webs no tiene ninguna relación con los sintetizadores, sino con
el software de revisión y/o navegadores y su relación con el código de la página. Dicho
lo cual, sigue habiendo muchos problemas de accesibilidad web.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Aunque existe un centro de I+D, hasta dónde yo conozco no desarrollan ninguno de
los productos que utilizo. En tiempos se limitaban a traducir alguno de ellos. Creo que
hoy ya no. Se limitan a importar, si procede, y distribuir a quién no tiene acceso por
otra vía.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Gracias a otros usuarios e internet.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Para el súper no hay solución, hoy por hoy. Hay varios pilotos de lectura de códigos
Bidi y de Barras mediante móvil, pero no pasan de proyecto. En España Aena tiene un
buen servicio de información vía web móvil para acceder a información útil en
aeropuertos.
- Como todas las personas, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
No. Todas las experiencias que conozco de "audiodescripción", que es como se llama
la técnica, utilizan voz humana pregrabada y sincronizada con la pista de audio del
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
77
programa principal, o bien voz humana en directo, cuando el tipo de contenido así lo
exige.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No conozco ninguna experiencia en España de informativos audiodescritos.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Estoy seguro de que se puede, sobre todo en el segundo caso. En el primero, puede
que la intencionalidad en la modulación de la voz y en su tono, acorde al tipo de
contenidos descritos, pueda ser un problema aún.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Sí, aunque apenas se utiliza. Se trata de sistemas de traducción simultánea, vía RF o
infrarrojos, con un narrador en directo.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
No le encuentro ninguna ventaja, salvo cuando se trate de un recurso narrativo o se
trate de producciones de tan bajo coste, que no contarían con recursos para su
difusión.
- ¿Sugerencias?
La gran mayoría de los desarrollos evolutivos de los sintetizadores persiguen la
"apariencia real" de la voz. Hay todo un campo por explorar para lograr mayores
índices de comprensibilidad en condiciones extremas (velocidad, ruido de fondo, bajo
volumen...). Las voces más "humanas" no son las más útiles para nosotros.
2.4.5.11 Enquestat/da #11
Professió: Pedagoga
Lloc de residència: Barcelona
- ¿Utiliza sistemas de síntesis de voz?
Sí.
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantalla de ordenador y de teléfono móvil.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
78
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Son demasiado caros teniendo en cuenta que para las personas ciegas son productos
de primera necesidad.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Según mis escasos conocimientos en informática, no necesita tener ninguna
preparación especial, pero estos lectores son más compatibles con Windows que con
otros sistemas operativos.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Es cierto que muchas webs no resultan accesibles para los lectores de pantalla, pero
afortunadamente, cada vez se respetan más las normas de confección de webs
accesibles.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
En la ONCE hay departamento de investigación, aunque creo que muchas
adaptaciones provienen del exterior y la ONCE se limita a traducirlas al español.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, lo hacen a través de notas informativas a los afiliados a la ONCE.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
No es posible acceder a la información de los supermercados, de los aeropuertos, etc.
No existe ningún aparato que nos ayude en ese tema. En las estaciones de tren
suelen anunciar la circulación de trenes por megafonía y esto resulta ser un buen
sistema, siempre y cuando funcione y se escuche correctamente
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Existe la audiodescripción que, afortunadamente, cada vez se va extendiendo más,
pero hasta ahora sólo podemos disfrutarla en casa y no en los cines. La realizan la
ONCE y alguna otra empresa externa como TV3. La descripción la hacen personas.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
79
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Veo conveniente que se implemente cualquier sistema de descripción para estas
situaciones y prefiero que, aunque sean voces sintéticas, sean humanas y resulten
cálidas.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
En algunos casos hay una persona que hace audiodescripción que llega a nosotros a
través de unos auriculares inalámbricos.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Prefiero la voz humana.
- ¿Sugerencias?
---2.4.5.12 Enquestat/da #12
Professió: Tècnic de Biblioteca ONCE
Lloc de residència: Madrid
¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
En los tres casos indicados además de en electrodomésticos de la vida diaria.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
No, resultan caros.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Los programas con los que funciona el ordenador sí deben permitirlo.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
80
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí
-¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí, el Centro de Investigación CIDAT
-¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
No. Hay que recurrir a que alguien te los verbalice.
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
La audiodescripción no utiliza voz sintética, sino humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No conozco esa opción. Creo que no la hay, frente al subtitulado para los sordos.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Sí, claro. Sería ideal.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Lo mismo que lo dicho anteriormente: la audiodescripción.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Para la radio creo que no es necesario ya que se basa en el sonido más que en la
imagen y resulta más fácil su comprensión.
- ¿Sugerencias?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
81
Que se investigue en lograr voces más cercanas a las humanas y que se puedan
disponer de ellas en los distintos dispositivos y aplicaciones de la vida cotidiana
dándose la opción de que se usen o no. El diseño para todos es un derecho y un plus
de prestigio para quien lo incorpora.
2.4.5.13 Enquestat/da #13
Professió: Psicòloga
Lloc de residència: Madrid
- ¿Utiliza sistemas de síntesis de voz?
Sí, el Zoomtext, Talks i Kapten.
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantalla, teléfono móvil i GPS vocal.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Sí en cuanto a su accesibilidad y manejo, pero no en cuanto a su coste económico.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No, únicamente es cuestión de instalar el software correspondiente al programa de
ampliación con apoyo de síntesis de voz. Y lo mismo para el programa que se maneja
con el teléfono móvil.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí, respecto a la síntesis de voz, pero también es verdad que al manejar
conjuntamente la ampliación de pantalla, me resulta más difícil.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí, pero tengo entendido que suelen valorar productos diseñados por diversas
empresas.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, por supuesto.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
82
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Dentro del supermercado suelo preguntar a mi acompañante o a algún empleado, pero
a través de la compra por internet no necesito preguntar a nadie.
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Sí pero no soy demasiado aficionada al cine, prefiero leer libros.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
Sí, está inventada la tecnología, pero no se utiliza todavía de forma generalizada. Se
trata de la audiodescripción.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Sí, es perfectamente factible. Se utiliza sobre todo en el cine. De hecho, en Madrid
existe un cine que proyecta películas adaptadas.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Sí, es el mismo sistema y suele haber algunas obras de teatro adaptadas.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Sí, pero no creo que sea necesario.
- ¿Sugerencias?
La tecnología que se necesita para adaptar la televisión está inventada, simplemente
es cuestión de voluntad y dinero para que se ponga en funcionamiento de forma
generalizada.
2.4.5.14 Enquestat/da #14
Professió: Jubilat
Lloc de residència: Santa Cruz de Tenerife
- ¿Utiliza sistemas de síntesis de voz?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
83
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Para todo
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Unos más que otros
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Con cualquier ordenador se pueden usar, más o menos
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
En muchas de ellas sí.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí, algo hay.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, por supuesto.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Todavía eso está un poco en pañales
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Existe el audiodescripción, de momento con voz humana, y muy bien hecha además
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
Poco, de momento
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
84
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Claro que si
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
La dicha audiodescripción
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Pues, ¿por qué no?
- ¿Sugerencias?
Que sigan trabajando en estos proyectos que, tanto bien nos hace a los que
carecemos de la vista.
2.4.5.15 Enquestat/da #15
Professió: Estudiant
Lloc de residència: Málaga
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Uso principalmente lectores de pantalla en el ordenador y en el teléfono móvil.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
No, tienen un costo demasiado elevado.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Con tener una tarjeta de sonido y un controlador de vídeo, es suficiente.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Es cierto, y seguirá pasando si las webs no se adaptan a los estándares de
accesibilidad.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
85
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Tenemos el Cidat, Centro de Investigación y Desarrollo de Aplicaciones Tiflotécnicas.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Lamentablemente no. Igualmente yo reservo los billetes de avión online.
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
La once produce películas en audesc, pero las voces son grabaciones humanas.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
En muchos casos el periodista describe la noticia y es suficiente.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Sí
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
No, aunque se podría implementar un sistema de audiodescripción con comunicación
por radiofrecuencia.
¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
En algunas emisoras se hace, pero no queda tan profesional.
¿Sugerencias?
----
2.4.5.16 Enquestat/da #16
Professió: Comercial
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
86
Lloc de residència: Sevilla
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Para todo, ya que lo tengo en el móvil y en el ordenador, pero, sobre todo, como salida
para el lector de pantalla.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
No lo son. Una síntesis buena, basada en sampleado, (grabación de muestras de
audio, y no basada en ruido modulado), suele ser cara. Apple ahí está apostando
fuerte, ya que los iPhones traen para su lector de pantalla una síntesis que, aunque
está basada en ruido, es muy buena.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
No. Conque el sistema operativo disponga de una API para tal fin, (SAPI en Windows,
por ejemplo), y disponga de tarjeta de sonido, es suficiente.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Así es, aunque ahí las síntesis de voz tienen poco que hacer. Eso sí, un diccionario de
expansión de abreviaturas SMS no les vendría mal. A la gente le ha dado por escribir
así, y la síntesis interpreta lo que lee...
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Al menos el departamento así se llama, (http://www.once.es/cidat), pero jamás les he
visto otra cosa que vender lo que otros fabrican, vea el catálogo y lo comprobará.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, aunque la información es dispersa, (no me conformo con la que me proporciona el
CIDAT antes mencionado.)..
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Que yo sepa no. Ahí estamos desprotegidos completamente, cada vez hay más
tendencia al silencio, son los autobuses urbanos de Sevilla y al final han acabado
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
87
quitando el indicador de paradas, y, los que lo tienen, me consta que son anulados por
los conductores...
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
No. La audiodescripción, (la ONCE tiene bastantes películas audiodescritas), consta
de un canal extra con la voz de un locutor sobre la mezcla general de audio. Podría
incluirse en un canal para otro idioma, claro, cuando la TDT sea accesible.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No, y sería harto complicado, ya que un vídeo complejo en tiempo real sería muy difícil
de explicar, aparte que el mundo de los informativos es el mundo de las prisas, no
habría tiempo para generar un texto descriptivo... digo yo...
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
...Pregúntele a los locutores, ja, ja... Yo tengo aquí una síntesis, que, la meto en un
informativo de radio, y nadie distinguiría que eso no es un locutor. Entona de morir...
Como se están poniendo las cosas, no me extrañaría que algún día lo que digo sea
realidad...
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Quisieron hacer en la ONCE algo así, pero el transmisor y receptores están basados
en infrarrojos. ¿A quién se le ocurre? Con lo bonitas que son las radiofrecuencias, y lo
limitada que es la transmisión basada en luz...
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Con lo que yo tengo ahora mismo delante lo afirmo. No tengo aquí la lista de tags
insertables en el texto, pero puedo hacerlo incluso bostezar o reírse...
- ¿Sugerencias?
Más que sugerencias, ánimos, sigan trabajando, no sólo por nosotros, la voz sintética
es el futuro. Aún no entiendo como en las compañías telefónicas se siguen usando
mensajes pregrabados, mal grabados y con locutores que a veces ni lo son...
Adelante....
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
88
2.4.5.17 Enquestat/da #17
Professió: Venedor ONCE
Lloc de residència: Zaragoza
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Para el manejo general del móvil y del ordenador
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
En el caso del móvil que yo uso sí, porque el IPhone trae VoiceOver incorporado
aunque cuando usaba móviles de Nokia necesitaba pagar una licencia de un programa
externo asociada al IMEI del teléfono En el caso del ordenador, hay alguno gratuito
pero los de verdadero nivel tienen un coste muy alto.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
A priori con nada en especial porque es imprescindible una tarjeta de sonido pero no
es nada con lo que no cuente casi cualquier equipo que se precie.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Sí. No sólo webs, sino también muchas aplicaciones no cumplen con los estándares y
criterios de accesibilidad. Como ejemplo, es lamentable el caso de la web de RENFE.
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Existe departamento de investigación aunque, francamente, sus creaciones suelen
dejar bastante que desear y el material de calidad es siempre extranjero.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
En la medida de lo posible está uno informado gracias a los foros y listas de correo
donde la gente aporta cosas.
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Que yo conozca no lo hay aunque en este sentido no estoy muy informado.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
89
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Existe para el cine el sistema audesc o de audiodescripción y hasta donde yo sé, son
personas las que se encargan de él.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No que yo conozca. Y como apunte y en atención a la practicidad del lenguaje, no es
necesario sustituir el verbo de ver la televisión por el de escucharla.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Supongo que se podrá llegar a eso. a mí personalmente, el sistema audesc me satura
porque termino recibiendo más información de la estrictamente necesaria para seguir
el argumento. Pero al margen de eso, evidentemente, sí sería conveniente y una
ayuda.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Supongo que no porque eso sí que casi me suena a ciencia ficción.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Eso ya ha habido empresas que lo han hecho pero vamos, mientras no se demuestre
lo contrario, mucho mejor con voces de verdad.
- ¿Sugerencias?
----
2.4.5.18 Enquestat/da #18
Professió: Administratiu
Lloc de residència: Sevilla
- ¿Utiliza sistemas de síntesis de voz?
Sí
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
90
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lector de pantalla del ordenador, teléfono móvil, lectura de libros (sólo en ocasiones)
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Sí
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Debe tener instalado el programa correspondiente (Jaws, NVDA, etc.)
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Esto ocurre si el diseño de la página no está suficientemente adaptado
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí, existe el Centro de Investigación y Desarrollo de Aparatos Tiflotécnicos (CIDAT)
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí, mediante publicación de novedades desde la ONCE y por medio de foros en
Internet
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Para los precios u otras informaciones sobre productos se pueden utilizar algunos
dispositivos lectores portátiles. Para las pantallas informativas, no conozco ningún
método.
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Existe la técnica del AUDESC, mediante la cual una voz en off grabada en la banda
sonora de la película informa de las situaciones y escenas que necesitan dicho apoyo.
La voz es humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
91
Lo desconozco, pero creo que por el momento no existe.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Pienso que debiera ser una norma de obligado cumplimiento, si bien utilizando alguna
fórmula que no perturbe a otros espectadores que no la necesiten.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Se han hecho algunas experiencias piloto, concretamente en el Teatro Lope de Vega
de Sevilla en 1994, pero creo que en la actualidad no se está utilizando ningún
sistema.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Sí, de hecho ha habido ya algunos anuncios que la han utilizado.
¿Sugerencias?
Pues creo que cualquier intención de universalizar los sistemas de audiodescripción
en los medios de comunicación social es positiva y debiera dedicarse recursos para la
investigación y el desarrollo de tecnologías y sistemas apropiados.
2.4.5.19 Enquestat/da #19
Professió: Mando intermedio
Lloc de residència: Oviedo
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Lectura SMS y lector de pantallas del ordenador
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Los lectores de pantalla que utilizamos son muy caros por tanto para mucha gente no
serán de fácil acceso
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Yo únicamente he tenido que instalar el lector como cualquier programa normal
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
92
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Aunque el nivel de accesibilidad a las páginas Web, con el lector Jaws ha mejorado
bastante todavía queda mucho por hacer y aún nos es bastante dificultoso navegar por
ellas y conocer y acceder de forma completa a sus contenidos
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sí, en la Once hay departamento de investigación
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
En líneas generales sí
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
No, únicamente en alguna página web de algún supermercado puedes intentar hacer
la compra a través de Internet pero es muy dificultoso aún
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Por lo que yo he conocido hasta ahora, se utiliza voz humana. La Once nos ofrece el
sistema llamado Audesc, en el que una voz en of, nos va describiendo las partes de
las películas que se editan en este sistema y que no tienen diálogos
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
Que yo sepa, no.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Yo creo que sí se podría utilizar, los sintetizadores de voz están mejorando mucho en
los últimos tiempos y a mi juicio podrían facilitar enormemente la descripción de los
contenidos de los documentos audiovisuales que no tienen diálogo
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
93
Yo no los conozco
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
Yo creo que al paso que van las cosas en este campo, no sería extraño que cualquier
día llegásemos a verlo
- ¿Sugerencias?
Sería más bien un ruego dirigido a los que trabajáis o aspiráis a trabajar en este
campo, en el sentido de que no os olvidéis de nuestro colectivo, ya que todavía queda
mucho por hacer para que podamos acceder al enorme volumen de información que
ofrecen las nuevas tecnologías, en igualdad de condiciones que el resto de la gente
que no tiene deficiencias visuales. Es más, yo diría que a medida que la tecnología va
avanzando, nos resulta cada vez más dificultoso poder manejarla. Te pongo como
ejemplo los aparatos digitales como televisores de última generación, lectores de DVD,
descodificadores de TDT, etc., etc., etc. Nos es imposible hoy en día manejarlos. Por
eso, es muy importante para nosotros que os sensibilicéis con nuestro problema y que
en la medida que podáis contribuir a crear tecnología nueva que nos ayude a superar
estos problemas que te describo lo hagáis, nos vendrá de fábula. Muchas gracias por
tu interés.
2.4.5.20 Enquestat/da #20
Professió: Proyectos accesibles en Telecomunicaciones
Lloc de residència: Portugalete, Bilbao
- ¿Utiliza sistemas de síntesis de voz?
Sí
- ¿Para qué aplicaciones los utiliza? (lectura SMS, lector de libros, lector de pantallas
del ordenador...)
Para todo.
- ¿Son de fácil acceso? (si todos pueden acceder a los sistemas de síntesis de voz por
los costes que pueden suponer)
Algunos más limitados que otros.
- Para utilizar un lector de pantallas de ordenador, ¿se necesita que el ordenador esté
preparado?
Quizás al revés.
- ¿Es cierto que tienen problemas de acceso a las webs porque no ofrecen un nivel de
accesibilidad aceptable?
Algunos, al día de hoy está superado.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
94
- ¿Hay departamento de investigación dentro del grupo de la ONCE o todo el material
es una aportación externa?
Sobre esto creo que es todo externo.
- ¿Se van informando de todas las nuevas tecnologías que van saliendo?
Sí
- ¿Cómo lo hacen para saber los precios en el supermercado? ¿Y en el aeropuerto
para saber la información de las pantallas? ¿Existe algún aparato que se lo vaya
diciendo?
Al día de hoy no lo conozco, como mejor se aprende es ir a comprar muchas veces.
- Como todos los humanos, ustedes también son fans del cine y les gusta la televisión
como medio de distracción. En las situaciones dónde los personajes se comunican con
los gestos o con el cuerpo, ¿existe alguna persona o tecnología que describa esa
acción? Si es así, ¿se utiliza voz sintética?
Al día de hoy yo no la conozco, las descripciones son en voz humana.
- Cuando se encuentran delante de la televisión escuchando los informativos, ¿existe
alguna persona o tecnología que describa las imágenes de los vídeos que aparecen?
Si es así, ¿se utiliza voz sintética?
No la conozco.
- Si en ninguna de las dos situaciones anteriores se utiliza una tecnología para que
describa una acción entre personajes o bien una imagen, ¿cree que en un futuro se
podría utilizar? ¿lo ve conveniente?
Por que no, las audiodescripciones que yo hago las relato con voz sintética y pienso
que quedan muy bien, ahora estoy trabajando en la carta de un restaurante.
- Y en el caso del teatro o de una ópera, ¿existe algún aparato que le describa las
situaciones o acciones que están ocurriendo?
Sí, en algunas lo montan.
- ¿Cree que se podría utilizar voz sintética para los anuncios de la radio?
No me desagrada, si la voz es lo suficientemente cálida.
- ¿Sugerencias?
Voces agradables y no metálicas ni chillonas, con costes más baratos.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
95
2.4.6
Conclusions del treball de camp
L‘objectiu principal del treball de camp era l‘anàlisi i la recerca de la implantació i l‘ús
actual dels sistemes de síntesi de veu en els mitjans de comunicació audiovisual a
Catalunya. En aquest apartat, s‘analitzen els resultats obtinguts a partir de les diferents
respostes recollides de les enquestes que s‘han realitzat als actors principals del
sector (emissores de ràdio, televisió, productores i estudis de so i doblatge), a través
d‘enquestes realitzades a persones que treballen en aquest sector, tant des de la
vessant tècnica com de la no tècnica.
A més a més, s‘ha enquestat un grup d‘usuaris potencialment molt interessant en la
inclusió de la síntesi de veu en el món de la comunicació audiovisual, com és el de les
persones amb discapacitat visual. A continuació també es presenten les conclusions
de l‘estudi contextualitzades per aquest sector de la societat.
2.4.6.1
Mitjans de comunicació
Les enquestes realitzades als mitjans de comunicació audiovisual s‘han desglossat en
tres grans grups: 1) ràdios, 2) televisions i productores de televisió i 3) estudis d‘àudio,
de doblatge i de postproducció. D‘aquestes enquestes es pot concloure el següent:
Tant les ràdios, les televisions com els estudis de so són coneixedors de la
tecnologia dels sistemes de síntesi de veu.
Analitzant el primer dels grups, cap de les emissores de ràdio amb les que s‘ha
contactat utilitza els sistemes de síntesi de veu, exceptuant un parell que l‘han usat,
però només per generar veu robòtica o per crear algun efecte en concret, i ho han fet
utilitzant programari lliure.
Hi ha diverses opinions respecte a l‘ús de les tecnologies de síntesi de la parla en un
futur: dues de les persones representants de les emissores creuen que podrien ser
útils però només de manera complementària, és a dir, per la creació d‘efectes o per
emissores automatitzades. Una altra, exposa que es perdria l‘encant i la màgia que
dóna un mitjà com la ràdio; les dues restants pensen que els sintetitzadors encara es
troben lluny de la seva utilització per la manca d‘expressió i entonació en la veu.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
96
En cap de les televisions ni en la productora amb les que s‘ha pogut contactar
s‘utilitzen els sistemes de síntesi de veu per generar productes audiovisuals.
Tanmateix, l‘opinió dels tècnics consultats és força variada. En un cas, s‘indica que
no interessen perquè el que agrada és la veu humana. Contràriament, s‘exposa que
es podrien utilitzar en programes automàtics que donin informació sobre la borsa o el
temps i, també, en anuncis publicitaris, documentals i promocions pel gran estalvi
econòmic que suposaria en la generació d‘aquests productes. Aquesta última
indicació s‘ha extret de l‘enquesta realitzada a la productora de televisió Gestmusic.
Tot i que alguns tècnics vegin viable l‘aplicació de veu sintètica per diverses
aplicacions, també indiquen que els sistemes de síntesi de veu haurien de madurar a
nivell de naturalitat per poder produir diverses entonacions (veus agudes, greus,
juvenils, serioses...).
Només dos dels departaments tècnics de l‘últim grup (estudis de so, doblatge i
postproducció), han utilitzat algun cop un sintetitzador de veu, però només per la
creació d‘efectes en l‘àmbit musical o per la manipulació de les veus. L‘opinió general
respecte a la implantació d‘aquests sistemes de comunicació en un futur és molt
semblant en tots els estudis consultats. La gran majoria de les persones enquestades
destaca que fins que els sistemes de síntesi de veu no estiguin més perfeccionats, en
el sentit de la naturalitat de la veu sintètica generada, per tal de transmetre emocions
de forma realista tal i com ho fa una persona humana, la veu sintètica no podrà ser
utilitzada ni en el sector de la televisió ni en el de la ràdio
Com a valoració global de la idea de la introducció del sistemes de síntesi de veu en
els mitjans de comunicació audiovisual, es pot dir que les opinions dels tècnics, en
principi contraris a la integració en el procés de creació de continguts audiovisuals,
podrien canviar si s‘arribessin a sintetitzar de forma natural les emocions en la veu,
aconseguint, d‘aquesta manera, veus sintètiques menys robòtiques i per tant, més
semblants a la veu natural produïda per l‘ésser humà.
A continuació es presenta un resum d‘aquestes opinions, en format gràfic, per les
preguntes més rellevants de l‘estudi de camp:
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
97
S’utilitzen actualment?
No (77,78%)
No Condicionat
(22,22%)
Fig.2.1. Resposta dels tècnics sobre si els sistemes de síntesi s‘utilitzen actualment. No
condicionat, fa referència al fet que es podrien utilitzar si la qualitat sintètica fos suficient.
Creu que es podrien introduir els sistemes
de síntesi de veu a la ràdio?
Sí (22,22%)
No (38,89%)
Altres (33,33%)*
NS/NC (5,56%)
*Només per senyal horària, programes automàtics, efectes en les veus
Fig. 2.2. Resposta dels tècnics sobre la viabilitat d‘introduir els sistemes de síntesi en el món de
la ràdio.
Creu que es podrien introduir els sistemes
de síntesi de veu a la televisió?
Sí (22,22%)
No (44,44%)
Altres (22,22%)
NS/NC (11,11%)
Fig. 2.3. Resposta dels tècnics sobre la viabilitat d‘introduir els sistemes de síntesi en el món de
la televisió.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
98
Creu que es podria utilitzar veu sintètica
per l’audiodescripció?
Sí (38,89%)
No (33,33%)
Altres (16,67%)*
NS/NC (11,11%)
* S’hauria de preguntar als invidents
Fig.2.4. Resposta dels tècnics sobre la viabilitat d‘introduir els sistemes de síntesi per
l‘audiodescripció.
2.4.6.2
Usuaris potencials
En quant a les enquestes realitzades en el context de les tecnologies per a les
persones amb discapacitat visual, les enquestes s‘han realitzat a dos perfils diferents:
1) els tècnics que treballen en els mateixos mitjans de comunicació recollits en
l‘apartat anterior, per tal de conèixer la seva opinió respecte a l‘ús de veu sintètica per
l‘audiodescripció (tecnologia que ells ja coneixen), i 2) el sector de la població que
pateix algun tipus de discapacitat visual, ja que és essencial considerar la seva opinió
per tal de conèixer la viabilitat de la introducció de veu artificial en aquests medis.
La majoria de persones dedicades a les tecnologies del so (englobant els tècnics de la
ràdio, de la televisió i d‘estudis d‘àudio, de doblatge i de postproducció), creu que es
podria aplicar veu sintètica en l‘audiodescripció si aquesta fos més natural i ―creïble‖,
tot i que, en alguns casos, es pensa que tampoc suposa un gran estalvi de temps i que
no val la pena substituir la veu natural. Concretament, s‘han recollit opinions en el
sentit que els sistemes de síntesi de veu haurien de millorar molt en quant a qualitat
sintètica, i fins i tot, s‘afirma que és més ràpid enregistrar-ho amb una persona.
Tanmateix, en el conjunt de les enquestes, n‘hi ha hagut dues que ressalten
especialment pel fet que són clarament diferents a les demés. Concretament, en elles
s‘indica que:
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
99
• Abans d‘incorporar les tecnologies de síntesi de veu en la producció audiovisual,
s‘hauria de preguntar a les persones amb discapacitat visual, que realment són els
usuaris finals, sobre la viabilitat d‘usar veu sintètica per l‘audiodescripció, i si no els
agrada, caldria deixar de banda aquesta opció.
• Sempre és millor si l‘entonació i la naturalitat del missatge és bona, però els costos
poden ser un factor clau. En aquest sentit, tot i que la veu sintètica no sigui del tot
natural, pot permetre abaratir els costos de la creació de l‘àudio i per tant, ser més
rentable que contractar a un locutor.
2.4.6.3
Usuaris amb discapacitat visual
De les enquestes realitzades a les persones amb discapacitat visual, ja sigui total o
parcial, s‘extreuen dues idees força interessants relacionades amb els mitjans de
comunicació:
• Gairebé totes les persones que han col·laborat responent al qüestionari creuen que
en un futur es podria utilitzar veu sintètica per l‘audiodescripció en televisió i cinema.
Indiquen que seria molt interessant que una veu els expliqués tot allò que no poden
veure en programes de televisió, documentals, pel·lícules... Tot el que els permeti
una normalització i integració en el consum de productes audiovisuals és benvingut.
• Respecte la introducció dels sistemes de síntesi de veu a la ràdio, les opinions són
diverses. Més de la meitat creuen que és innecessari i prefereixen la veu humana.
De la resta d‘enquestes, algunes veuen que pot ser útil, depenent de la qualitat de
les veus sintètiques i altres, tot i que ho accepten, no creuen que sigui
imprescindible.
Finalment, es pot concloure, que el dia que s‘aconsegueixi naturalitat i emotivitat en les
veus sintètiques, l‘audiodescripció pot ser una bona via per a introduir de forma
progressiva els sistemes de síntesi de veu en el món de les produccions audiovisuals,
ja que gairebé totes les persones amb discapacitat visual utilitzen aquests sistemes.
Mentre s‘espera aquest avenç en les veus, la viabilitat d‘introduir els sistemes de
síntesi de veu a la ràdio o televisió sembla difícil, però existeix l‘opció de la seva
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
100
utilització en sectors o aplicacions on no es necessiti expressivitat o bé es vulgui
modelar una veu robòtica.
A continuació es presenta un resum d‘aquestes opinions, en format gràfic, per les
preguntes més rellevants de l‘estudi de camp:
Creu que es podria utilitzar veu sintètica
per l'audiodescripció?
(cinema i televisió)
Sí (82,69%)
No (13,46%)
Altres (1,92%)*
NS/NC (1,92%)
*No cal en emissions en temps real
Fig.2.5. Resposta de les persones amb discapacitat visual sobre la viabilitat d‘introduir els
sistemes de síntesi de veu per incorporar audiodescripció als productes audiovisuals.
Creu que es podria utilitzar veu sintètica
pels anuncis publicitaris?
Sí (28,85%)
Sí Condicionat
(11,54%)
No (36,54%)
Altres (21,15%)*
*Prefereix veu humana
NS/NC (1,92%)
Fig.2.6. Resposta de les persones amb discapacitat visual sobre la viabilitat d‘introduir els
sistemes de síntesi en la generació d‘anuncis publicitaris.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
101
Viabilitat de l’ús de la síntesi de veu
en produccions audiovisuals
3 Adaptació del sistema de síntesi de La Salle al català
Dins de l‘àmbit tècnic del projecte, una de les fases clau ha estat l‘encarregada de
desenvolupar els recursos lingüístics i de processament del senyal per a la creació de
les veus en català. El recursos lingüístics, com són el sistema de transcripció fonètica,
l‘analitzador morfosintàctic, etc. que formen part del mòdul de PLN del sistema de
síntesi són propis i han estat desenvolupats dins del marc del grup de recerca durant
els darrers anys d‘investigació. En canvi, les bases de dades de síntesi de veu en
català són públiques i han desenvolupades pel grup de recerca TALP de la UPC
(veure secció 2.2.1) amb finançament de la Generalitat de Catalunya dins del marc del
projecte FestCat (http://gps-tsc.upc.es/veu/festcat).
D‘aquest projecte s‘han escollit les dues veus, Ona i Pau, que tenen major extensió,
donat que el sistema de síntesi de veu del Grup de Tecnologies Mèdia de La Salle
(URL) està basat en la tècnica de selecció de unitats en funció dels paràmetres predits
pel model prosòdic.
Un cop es disposa dels fitxers de veu, s‘ha de procedir a la ―creació d‘una nova veu‖
pel sistema de síntesi, és a dir, cal processar les mostres de veu per tal de que siguin
útils per a generar veu sintètica. La creació d‘una nova veu consta de tres parts
principals:
(1) La segmentació de la base de dades en unitats de síntesi, que s‘encarrega de
determinar l‘inici i final de cada una de les unitats acústiques (difonemes, en
aquest cas) que composen els missatges enregistrats en els fitxers de veu.
(2) La indexació i parametrització de la base de dades, que s‘encarrega de
generar el conjunt de fitxers en format XML que contenen els paràmetres que
descriuen el contingut acústic de la base de dades (durada, energia,
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
102
freqüència fonamental de les unitats). Alhora, cal ajustar la funció de cost de
selecció, qüestió que implica, per una banda, precalcular tots els costos de les
unitats de la base de dades, i per una altra, ajustar els pesos de la funció de
cost (Alías et al., 2011).
(3) L‘entrenament del model prosòdic, que és l‘encarregat de determinar la
pronúncia més adequada d‘un text d‘entrada a sintetitzar a partir de l‘extracció
de patrons prosòdics que s‘extreuen a partir de les mostres de veu disponibles
(Iriondo et al., 2007).
Un cop finalitzades aquestes tres fases, ja es disposa de les veus Ona i Pau
integrades dins del sistema de síntesi de veu de La Salle per tal de procedir a realitzar
els experiments que tenen l‘objectiu d‘analitzar la viabilitat de l‘ús de la síntesi de veu
en produccions audiovisuals i que es descriuen a continuació.
4 Experiments i resultats
En l'àmbit de la síntesi de la parla es poden avaluar diferents característiques com són
la intel·ligibilitat, la naturalitat i l'expressivitat. En algunes aplicacions, com per
exemple, en les màquines parlants per a persones invidents, la intel·ligibilitat de la
parla a alta velocitat és més important que la naturalitat (Llisterri et al., 1993). En canvi,
una prosòdia correcta i una elevada naturalitat són essencials en la majoria
d'aplicacions multimèdia. L'avaluació es pot realitzar a diferents nivells (segment,
paraula, frase o paràgraf) i amb diferents tipus de proves (Campbell, 2007b).
Amb la finalitat de disposar d‘una avaluació subjectiva de la viabilitat de l‘ús de la
síntesi de veu a l‘hora de generar material audiovisual, s‘han preparat dos tests
perceptius: un d‘anuncis publicitaris i un altre de notícies. Per cada test, es prepararà
un conjunt de parelles d‘estímuls. Cada parella tindrà el mateix contingut verbal però
un estarà generat amb el sistema de síntesi i l‘altre estarà llegit per una persona. Un
cop s'han preparat els estímuls, s'ha de decidir el tipus de prova més adequat per
presentar-los als oients i la metodologia d'avaluació dels mateixos. En el cas dels
anuncis, aquests només portaran el canal d‘àudio, mentre que en el cas de les notícies
seran vídeos on hi haurà imatges relacionades amb la notícia i el canal d‘àudio estarà
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
103
format per la pista de so de fons (música, soroll de carrer, veus, etc) superposada a la
pista de veu en off.
L'objectiu de la prova és, com ja s'ha assenyalat, l'avaluació de la síntesi de la parla en
anuncis o notícies. Es disposa d'una parella de fitxers d'àudio (anuncis) o de vídeo
(notícies) per cada element que s'ha d'avaluar. Per això, es plantegen diferents
possibilitats de presentació dels estímuls (de manera individual o per parelles) i
d'escales de puntuació. A partir de la recomanació P.800 de la Unió Internacional de
Telecomunicacions (UIT) (UIT-T, 1996), es consideren tres possibles mètodes de
prova perceptiva que podrien ser adequades per a aquest cas:
1. Determinació d‘índexs per categories absolutes —Absolute Category Rating—
(ACR) obtenint-se una nota mitjana d‘opinió —Mean Opinion Score— (MOS).
2. Determinació d‘índexs per categories de degradació —Degradation Category
Rating— (DCR) obtenint-se una nota mitjana d‘opinió sobre les degradacions
— Degradation Mean Opinion Score— (DMOS).
3. Determinació d‘índexs per categories de comparació —Comparison Category
Rating— (CCR) obtenint-se una nota mitjana d‘opinió sobre les comparacions
—Comparison Mean Opinion Score— (CMOS).
En aquest cas, s‘ha escollit el tercer mètode, CMOS, amb una escala de set possibles
notes:
A molt millor que B
A millor que B
A lleugerament millor que B
Cap preferència
B lleugerament millor que A
B millor que A
B molt millor que A
Amb aquesta escala els oients poden avaluar comparativament els dos estímuls
presentats escoltant-los tants cops com sigui necessari.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
104
4.1 Anuncis publicitaris
Per avaluar l‘ús de la síntesi de la parla en situacions reals, s‘ha generat un test amb
set anuncis publicitaris. Per cada anunci, s‘han generat dos fitxers de so, un a partir de
la lectura de l‘anunci per part d‘una locutora amateur i l‘altre utilitzant el nostre
sintetitzador de parla en català.
El test s‘ha realitzat amb la plataforma on-line TRUE (Planet et al., 2008) que permet el
disseny i la realització del test de forma remota.
Per cada parella de àudios associats al mateix anunci, al participant del test se li han
fet dues preguntes:
1. “El següents àudios (A el de dalt, B el de sota) es corresponen a dues lectures
d'anuncis publicitaris. No es tracta d'avaluar si t'agrada més la veu d'una dona
o de l'altra, sinó, per un ús en publicitat, indica la teva preferència, fixant-te en
la NATURALITAT de la pronúncia i l'entonació:”
2. ―En quant a la INTEL·LIGIBILITAT, què et sembla?”
I aquest havia de contestar una de les set opcions per a cadascuna de les dues
preguntes (veure figura 3.1).
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
105
Fig.3.1. Pantalla de la plataforma TRUE (Planet et al., 2008) configurada per al test d‘anuncis
publicitaris.
El test l‘han realitzat 25 oients (12 dones i 13 homes) d‘edats compreses entre els 18 i
els 66 anys.
Els resultats de preferència obtinguts amb aquest test es mostren en la figura 3.2, on A
representa la veu natural i B la veu generada amb el sintetitzador. Els resultats, com
és d‘esperar, mostren una clara preferència per la veu natural especialment en quant a
naturalitat tot i que en intel·ligibilitat la diferència no és tan gran.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
106
A molt millor que B
28,0%
28,5%
29,1%
A millor que B
12,6%
14,3%
A lleugerament millor que B
Cap preferència
B lleugerament millor que A
2,9%
14,3%
0,6%
4,6%
Naturalitat
Intel·ligibilitat
4,6%
9,7%
B millor que A
B molt millor que A
50,8%
0,0%
0,0%
0,0% 10,0% 20,0% 30,0% 40,0% 50,0% 60,0%
Fig.3.2. Resultats del test d‘anuncis publicitaris en quant a Intel·ligibilitat i Naturalitat. ―A‖ es
correspon a la veu natural i ―B‖ a la veu sintetitzada.
4.2 Vídeos de notícies
En aquest experiment s‘ha volgut afegir a la veu dues components habituals en el
material audiovisual: la imatge i una pista de so addicional a la de veu. S‘ha preparat
un test amb tres parelles de notícies. A partir de material extret de YouTube i de la veu
generada amb el nostre sintetitzador s‘han generat vídeo de notícies que contenen
tres pistes: la de vídeo pròpiament i dues d‘àudio (so de fons i veu).
El test també s‘ha fet amb la plataforma TRUE i és un CMOS de set categories. L‘han
realitzat 20 persones (17 homes i 3 dones) d‘edats compreses entre els 24 i 41 anys.
Als usuaris no se‘ls informa de l‘origen de les dues veus. Al final del test es pregunta
el sexe i l‘edat del participant, si és expert en tecnologies de la parla i dues preguntes
de resposta oberta:
1. “La veu del vídeo de sota ha estat generada per ordinador, què t'ha semblat?”
2. “Creus que és factible l'ús de síntesi de veu per explicar notícies en programes
que es generin automàticament?”
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
107
La figura 3.3 mostra en exemple de la pantalla de test per avaluar una parella de
notícies.
Fig.3.3. Pantalla de la plataforma TRUE (Planet et al., 2008) configurada per al test de vídeos
de notícies.
Els resultats obtinguts es mostren a la figura 3.4, on es pot observar com la resposta
majoritària és que la veu natural és lleugerament millor que la sintètica (46.3%). És
important destacar que pràcticament un 26% de les respostes (18.5 % de cap
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
108
preferència més un 7.4% de la veu sintètica és lleugerament millor que la natural)
indiquen que la veu sintètica és acceptable en aquest context.
A molt millor que B
1,9%
A millor que B
25,9%
A lleugerament millor que B
46,3%
Cap preferència
18,5%
Qualitat
B lleugerament millor que A
7,4%
B millor que A
0,0%
B molt millor que A
0,0%
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
Fig.3.4. Resultats del test de vídeos de notícies en quant a qualitat de la veu en off. ―A‖ es
correspon a la veu natural i ―B‖ a la veu sintetitzada.
Si analitzem les respostes dels participants on han manifestat, després de fer el test, la
seva opinió respecte l‘ús de la síntesi de la parla per generar notícies podem destacar
dues idees generals. En primer lloc que, els oients són molt sensibles a errors puntuals
en una determinada part del text i que falta millorar l‘expressivitat i el ritme. En segon
lloc, l‘opinió majoritària és que l‘ús d‘aquesta tecnologia el veuen factible per generar
notícies d‘última hora per exemple per a la web o en programes de generació
semiautomàtica.
Concretament, aquestes són les respostes més significatives a la primera pregunta:
“La veu del vídeo de sota ha estat generada per ordinador, què t'ha semblat?”:
“Bastant acceptable, encara que una mica lenta i amb algunes errades en sons
concrets.”
“Bona qualitat en general tot i que algunes discontinuïtats i salts en l’entonació.”
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
109
“Bastant aconseguida, però en certs moments es nota que no es humana.”
“A vegades molt bé (millor que l’original i tot), altres no. Els "galls" puntuals fa
baixar la qualitat global.”
“Poc natural, tot i que es notava una mica d’expressivitat i la qualitat de l’àudio
estava força ben aconseguida. Potser problemes en el fet de mantenir un ritme
constant, es noten salts de ritme.”
“La veu és una mica metàl·lica. L’entonació és bastant natural però no el
suficient. En tot moment notes sense dubte que t’està parlant una màquina.
Malgrat tot, el missatge s’entén correctament.”
“Bastant bé, sobretot en el primer. El soroll de fons dissimula els errors. En
funció de la temàtica, l’estil de locució hauria de variar (p.ex., en ambient festiu,
parla més àgil).”
“Es nota que és una veu sintètica però no és molest perquè s’integra bé amb la
música i les imatges, i la seva qualitat permet que s’entengui bé tot el que diu,
fins i tot millor de vegades que la real.”
“Força bona en quant a versemblança de veu humana i d’entonació. El fet que
la converteix de menys qualitat que la humana són uns sorolls, "clics", que
apareixen de tant en tant.”
“En el primer test la qualitat era prou bona, mentre que en la resta la qualitat ha
decaigut. Es nota bastant la concatenació entre unitats.”
“Prou bona; el principal problema són els artefactes de coarticulació, que resten
naturalitat a la veu.”
“Bastant bo tenint en compte que és àudio sintètic. De tota manera, es nota
bastant que no és una veu humana natural.”
“Qualitat acceptable. L’únic problema que detecto que es repeteix sovint és
l’allargament / arrossegament d’algunes vocals i consonants.”
“La veu és correcta i clara, però de tant en tant fa sons estranys i sona com
distorsionada.”
I pel que fa a la segona pregunta: “Creus que és factible l'ús de síntesi de veu per
explicar notícies en programes que es generin automàticament?”, aquestes són
algunes de les respostes obtingudes:
“Sí, ho veig factible i interessant.”
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
110
“Sí, especialment si es tracta de notícies curtes i de darrera hora, de forma que
sigui més adequada una producció semiautomatitzada que faci possible
disposar amb més celeritat dels continguts.”
“En un futur ha de ser més que viable.”
“No seria factible per a un telenotícies per televisió, per exemple, però potser si
per a contingut a la web on la qualitat del contingut no és el que prima si no el
contingut en si mateix.“
“Li falta naturalitat i expressivitat, els quals ajuden a fer una notícia més
atractiva. No obstant la intel·ligibilitat és molt bona i el missatge es pot
transmetre perfectament. Seria factible.”
“Sí. Tot i la falta de naturalitat, que és millorable. El resultat és prou
satisfactori.”
“Sí. Els petits problemes amb la síntesi queden sota la pista sonora de la
notícia, i no suposen un problema per entendre-la. A més, formalment la
locució és correcta (to neutre).”
“Si. És igual d’intel·ligible que la veu humana.”
“Sí, però depenent de l’àmbit en el que s’apliqui. Si és en plataformes web crec
que des de nivell d’usuari es pot acceptar aquesta qualitat.”
“Sí, sempre que s’evitin els artefactes abans esmentats.”
“Sí em sembla factible, però no tal i com està ara el TTS. Encara li falta més
naturalitat. La veu que genera ara resulta massa desagradable per a un locutor
que has d’escoltar habitualment.”
“La comprensió és perfecta. Si es pogués millorar el tema de les petites
distorsions faria el seguiment de les notícies més agradable.”
Si comparem els resultats amb el test d‘anuncis publicitaris podem comprovar que el
fet d‘afegir vídeo i so de fons ajuda a dissimular els errors de síntesi i a desviar
l‘atenció, amb la qual cosa millora l‘acceptabilitat d‘utilitzar veu sintètica.
Els fitxers d‘àudio i de vídeo generats pels experiments es poden trobar al lloc web
següent:
http://www.salle.url.edu/portal/departaments/home-depts-DTM-projectesinfo?id_projecte=67
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
111
5 Conclusions i línies d’investigació futures
En aquest treball, després de revisar l‘estat de la qüestió en l‘àmbit de la síntesi de veu
(també conegut com a sistemes de conversió de text en parla), s‘ha estudiat la situació
d‘aquesta tecnologia a Catalunya i, concretament, en l‘àmbit de les produccions
audiovisuals. En l‘actualitat hi ha diversos centres de recerca i empreses que treballen
en el desenvolupament i la millora dels sistemes de síntesi de la parla en català.
Tanmateix, la implantació d‘aquests sistemes en el context de la generació de
produccions audiovisuals encara és molt reduïda. Donada aquesta situació, s‘ha
procedit a avaluar la viabilitat de la implantació d‘aquesta tecnologia en el món de les
produccions audiovisuals, a partir d‘un treball de camp que ha consistit en diverses
enquestes tant a personal tècnic com a potencials usuaris, així com un conjunt
d‘experiments dissenyats per a estudiar el grau d‘acceptació de la síntesi en exemples
reals.
Tant de les enquestes com dels experiments realitzats, es pot concloure que l‘ús de
veu sintètica en contingut broadcast pot ser una realitat en els propers anys si es
milloren certs aspectes relacionats amb aconseguir l‘expressivitat pròpia del contingut.
Un altre aspecte important és el nombre de modes que formen part del contingut. Si la
veu va acompanyada d‘uns altres elements d‘àudio superposats així com del canal de
vídeo, llavors l‘ús de veu sintètica es preveu més factible. En canvi en continguts on
només hi ha veu (p.ex. un anunci publicitari per a ràdio), l‘exigència dels oients sobre
la qualitat d‘aquesta veu és molt més gran.
Per tal de possibilitar la utilització de la síntesi de la parla en continguts audiovisuals
cal seguir avançant en les següents línies d‘investigació:
Millorar
l‘expressivitat
suprasegmentals
de
(ritme,
la
parla
generada
entonació,
intensitat,
per
adaptar
èmfasi,
etc.)
els
a
trets
les
característiques pròpies del mode de locució de cada tipus de contingut.
Aquesta millora es pot aconseguir si es compta amb l‘aportació dels
coneixements d‘experts en el camp de la comunicació audiovisual.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
112
Millorar la qualitat segmental de la síntesi per evitar artefactes sonors ja que cal
tenir en compte que l‘oïda humana és molt sensible aquests petits errors. En
aquest aspecte, influeixen errors relacionats amb la fonètica i amb el
processament del senyal. Per tant, seria desitjable comptar amb experts en
fonètica que aportessin coneixement per millorar, per exemple, les regles de
transcripció fonètica especialment les que fan referència a la coarticulació. En
quant al processament dels senyal, hi ha camí a recórrer en la parametrització i
modelat de la veu per poder dur a terme modificacions de les seves
característiques sense distorsionar-la.
Aconseguir nous mètodes per generar noves veus mitjançant tècniques de
transformació de veu que permetin augmentar el nombre de veus d‘alta qualitat
disponibles en un idioma determinat.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
113
6 Bibliografia
Adell, J. (2009). Prosodic Analysis and modelling of conversational elements for
speech synthesis. Tesi doctoral, Univeristat Politènica de Catalunya, Barcelona,
Espanya.
Alías, F., Iriondo, I., Formiga, L., Gonzalvo, X., Monzo, C. i Sevillano, X. (2005). ―High
quality Spanish restricted-domain TTS oriented to a weather forecast application‖. The
9th European Conference on Speech Communication and Technology (Interspeech‘
2005), pp. 2573–2576. Lisboa, Portugal.
Alías, F., Formiga, L., i Llorà, X. (2011). "Efficient and reliable perceptual weight tuning
for unit-selection Text-to-Speech synthesis based on active interactive genetic
algorithms: a proof-of-concept", Speech Communication, vol. 53 (5), pp. 786-800,
Maig-Juny, 2011.
Armenta, A., Escalada, J.G., Garrido, J.M., Rodríguez, M.A. (2003) ―Conversor texto a
voz multilingüe de Telefónica I+D‖, Procesamiento del Lenguaje Natural (ISSN:11355948), nº31, pp. 331-332.
Bailly, G., Campbell, N., i Mobius, B. (2003). Isca special session : Hot topics in speech
synthesis. In EUROSPEECH-2003 Geneva, Switzerland, pp. 37-40.
Barra-Chicote, R., Yamagishi, J., King, S., Montero, J. M., i Macias-Guarasa, J. (2010).
Analysis of statistical parametric and unit selection speech synthesis systems applied
to emotional speech. Speech Communication, 52(5):394-404.
Black, A. W. i Campbell, N. (1995). ―Optimising selection of units from speech
databases for concatenative synthesis‖. The 4th European Conference on Speech
Communication and Technology (Eurospeech‘95), vol. 1, pp. 581–584. Madrid,
Espanya.
Black, A. W, Lenzo, K. (2001). ―Optimal Data Selection for Unit Selection Synthesis‖.
The 4th ISCA Workshop on Speech Synthesis, Perthshire, Escòcia.
Boersma, P. (1998). ―Functional Phonology Formalizing the interactions between
articulatory and perceptual drives‖. Tesi doctoral, University of Amsterdam.
Browman, C. P. i Goldstein, L. (1986). ―Towards an articulatory phonology‖. Phonology
Yearbook , 3, pp. 219–252.
Bulut, M., Narayanan, S. S., i Sydral, A. K. (2002). Expressive speech synthesis using
a concatenative synthesizer. In Proceedings of InterSpeech, pp. 1265-1268, Denver,
EEUU.
Campbell, N. (2007). Approaches to conversational speech rhythm: Speech activity in
two-person telephone dialoges. In 16th International Congress of Phonetic Sciences.
pp. 343-348, Saarbrücken, Alemanya.
Campbell, N. (2007b). ―Evaluation of Text and Speech Systems‖. vol 37, Text, Speech
and Language Technology, pp. 29–64. Springer, Dordrecht.
Camps, J. , Bailly, G. i Martí, J. (1992). ―Synthèse è partir du texte pour le catalan,‖ in
Proc. 19èmes Journeés d‘Études sur la Parole, pp. 329–333, Bruxelles, França.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
114
Carlson, R. (2002). ―Data-driven formant synthesis‖. Proceedings of Fonetik, TMHQPSR, 41(1): pp. 121-124.
Depalle, P. i Helie, T. (1997). ―Extraction of spectral peak parameters using a shorttime
Fourier transform modeling and no sidelobe windows‖. Proceedings of IEEE ASSP
Workshop on Applications of Signal Processing to Audio and Acoustics.
Donovan, R. E. i Woodland, P. C. (1995). Improvements in an HMM-based speech
synthesiser. In Proc. of Eurospeech, vol. 1, pp. 573–576, Madrid, Espanya.
Eide, E., Aaron, A., Bakis, R., Hamza, W., Picheny, M., i Pitrelli, J. (2004). A corpusbased approach to <ahem/> expressive speech synthesis. Proceedings of 5th ISCA
Workshop on Speech Synthesis, pp. 79-84.
Erickson, D., (2005). Expressive speech: Production, perception and application to
speech synthesis, Acoustical Science and Technology, vol. 26., nº4, pp. 317-325.
Erro, D. (2008). Intra-lingual and cross-lingual voice conversion using harmonic plus
stochastic models. Tesi doctoral, Universitat Politècnica de Catalunya, Barcelona,
Espanya.
Erro, D., Moreno, A., Bonafonte, A., (2010a). ―Voice Conversion Based on Weighted
Frequency Warping‖, IEEE Transactions on Audio Speech and Language Processing,
vol. 18, nº5, pp. 922-931, Juliol 2010.
Erro, D., Navas, E., Hernáez, I., i Saratxaga, I. (2010b). ―Emotion conversion based on
prosodic unit selection‖, IEEE Transactions on Audio Speech and Language
Processing, vol. 18, nº5, pp. 974-983, Juliol 2010.
Gonzalvo, X. (2010). ―HMM-based speech synthesis applied to Spanish and English,
its applications and a hybrid approach‖, Tesi doctoral. La Salle, Universitat Ramon
Llull, Barcelona, Espanya.
Gonzalvo, X., Socoró, J., Iriondo, I., Monzo, C., i Martínez, E. (2007). Linguistic and
Mixed Excitation Improvements on a HMM-based speech synthesis for Castilian
Spanish. Proc. of the IEEE Speech Synthesis Workshop, Bonn, Alemanya.
Guaus, R. i Iriondo, I. (2000). ―Diphone based Unit Selection for Catalan Text-toSpeech Synthesis,‖ Proceedings of Workshop on Text, Speech and Dialogue (TSD),
Brno, República Txeca.
Heuft, B., Portele, T., i Rauth, M. (1996). ―Emotions in time domain synthesis‖.
Proceedings of ICSLP '96, pp. 1974-1977.
Hunt, A. i Black, A. W. (1996). ―Unit selection in a concatenative speech synthesis
system using a large speech database‖. Proceedings of IEEE International Conference
on Acoustics, Speech, and Signal Processing (ICASSP‘1996), pp. 373–376. Atlanta,
Canadà.
Iriondo,I., Alías, F., Melenchón, J. i Llorca, M.A. (2004); "Modeling and Synthesizing
Emotional Speech for Catalan Text-to-Speech Synthesis", Tutorial and Research
Workshop on Affective Dialog Systems, Lecture Notes in Artificial Intelligence, nº 3068
(ISSN 0302- 9743), Springer Verlag, pp.197-208, Kloster Irsee, Alemanya.
Iriondo,I., Socoró,J.C. i Alías, F.;"Prosody Modelling of Spanish for Expressive Speech
Synthesis" , International Conference on Acoustics, Speech and Signal Processing
(ICASSP‘07), vol. IV, pp. 821-824, Maig, 2007, Hawai'i, EEUU.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
115
Kröger , B. J., Birkholz, P. (2009). Articulatory synthesis of speech and singing: State of
the art and suggestions for future research. pp. 306–319.
Latorre, J., Iwano, K., i Furui, S. (2006). New approach to the polyglot speech
generation by means of an HMM-based speaker adaptable synthesizer. Speech
Communication, 48(10):1227–1242.
Laroche, J., Stylianou, Y. i Moulines, E. (1993). ―HNS: Speech modification based on a
harmonic+noise model‖. En: IEEE International Conference on Acoustics, Speech, and
Signal Processing (ICASSP‘1993), volum 2, pp. 550–553. Minneapolis, EEUU.
Llisterri, J., Fernández, N., Gudayol, F., Poyatos, J. J. i Martí, J. (1993). ―Testing user‘s
acceptance of Ciber232, a text to speech system used by blind persons‖. Proceedings
of the ESCA Workshop on Speech and Language Technology for Disabled Persons,
pp. 203–206. Estocolm, Suècia.
Manzara, L. (2005), ―The Tube Resonance Model Speech Synthesizer‖, Poster paper,
149th Meeting of the Acoustical Society of America (ASA), Vancouver, British
Columbia, Canada.
Martí, J. (1985). ―Estudi acústic del català i síntesi automàtica per ordinador‖, Tesi
doctoral, Universitat de València.
Möbius, B. (2000). ―Corpus-based speech synthesis: methods and challenges‖.
Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung (AIMS), vol. 6(4), pp.
87–116.
Monzo, C., (2010). ―Modelado de la cualidad de la voz para la síntesis del habla
expresiva‖, Tesi doctoral. La Salle, Universitat Ramon Llull, Barcelona, Espanya.
Moulines, E. i Charpentier (1990), F. ―Pitch-synchronous waveform processing
techniques for text-to-speech synthesis using diphones‖, Speech Communication,
vol.9, pp. 453-467.
Murray, I. R., Edgington, M. D., Campion, D., i Lynn, J. (2000). ―Rule-based emotion
synthesis using concatenated speech‖. Proceedings of ISCA Tutorial and Research
Workshop (ITRW) on Speech and Emotion, pp. 173-177, Northern Ireland.
Ohlin, D. i Carlson, R. (2004). ―Data-driven formant synthesis‖. Proceedings of
FONETIK 2004, Dept. of Linguistics, Stockholm University.
Planet, S., Iriondo, I., Martínez, E., Montero, J.A. ―TRUE: an online testing platform for
multimedia evaluation‖ Proceedings of the Second International Workshop on Emotion:
Corpora for Research on Emotion and Affect at the 6th Conference on Language
Resources & Evaluation (LREC 2008), Marrakech, Marroc.
Rodríguez,M.A., Escalada, J. G., Armenta, A. i Garrido, J.M. (2008) ―Nuevo módulo de
análisis prosódico del conversor texto-voz multilingüe de Telefónica I+D‖, Actas de las
V Jornadas en Tecnología del Habla, pp. 157-160.
Sagisaka, Y. (1988). ―Speech synthesis by rule using an optimal selection of
nonuniform synthesis units‖. En: IEEE International Conference on Acoustics, Speech,
and Signal Processing (ICASSP‘1988), pp. 679–682. New York, EEUU.
Sagisaka, Y., Naiki, N., Iwahashi, N. i Mimura, K. (1992). ―ATR - v - TALK speech
synthesis system‖. The 2nd International Conference on Spoken Language Processing
(ICSLP‘1992), vol. 1, pp. 483–486. Banff, Canadà.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
116
Schröder, M. (1999). ―Can emotions be synthesized without controlling voice quality?‖
Phonus 4, Research Report of the Institute of Phonetics, University of the Saarland, pp.
37-55, Germany.
Sproat, R., Black, A. W., Chen, S., Shankar, S. Kumar, Ostendorf, M. i Richards, C.
(1999). ―Normalization of non-standard words: WS‘99 final report‖. Informe tècnic, The
Center for Language and Speech Processing, Johns Hopkins University.
Stallo, J. (2000). ―Simulating emotional speech for a talking head‖. Honour's thesis,
School of Computing, Curtin University of Technology, Australia.
Stylianou, Y. (1998a). ―Concatenative Speech Synthesis using a Harmonic plus Noise
Model‖. En: The 3rd ESCA/COCOSDA Workshop on Speech Synthesis, pp. 261–266.
Jenolan Caves, Austràlia.
Stylianou,Y, Cappé, O. Moulines, E. (1998b), ―Continuous probabilistic transform for
voice conversion‖, Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing,
vol.6, nº2, pp.131-142.
Stylianou, Y., Laroche, J. i Moulines, E. (1995). ―High-quality speech modification
based on a harmonic + noise model‖. Proceedings of the European Conference on
Speech Communication and Technology (Eurospeech‘95), pp. 451–454, Madrid,
Espanya.
Takeda, K., Abe, K. i Sagisaka, Y. (1990). ―On unit selection algorithms and their
evaluation in non-uniform speech synthesis‖. ESCA Workshop on Speech Synthesis,
pp. 35–38. Autrans, França.
Tamura, M., Masuko, T., Tokuda, K., i Kobayashi, T. (1998). Speaker adaptation for
HMMbased speech synthesis system using mllr. In Proc. of The Third
ESCA/COCOSDA workshop on Speech Synthesis, pp. 273–276.
Taylor, P. (2009). Text-to-Speech Synthesis. Cambridge University Press.
Tokuda, K., Kobayashi, T., i Imai, S. (1995). Speech parameter generation from HMM
using dynamic features. In Proc. of ICASSP, volume 1, pages 660–663. Detroit, EEUU.
Torrens, A. (2010) ―Estudi sobre la utilització de les tecnologies de síntesi de veu en
els mitjans audiovisuals de Catalunya‖. Treball Final de Carrera, La Salle, Universitat
Ramon Llull.
UIT-T (1996). ―Recomendación P.800: Métodos de determinación subjetiva de la
calidad de transmisión‖. Sector de Normalización de las Telecomunicaciones de Unión
Internacional de Telecomunicaciones. http://www.itu.int/rec/T-REC-P.800-199608-I/es
Vatikiotis-Bateson, E. i Yehia, H. (1997). ―Unified physiological model of audible-visible
speech production‖. En: The 5th European Conference on Speech Communication and
Technology (Eurospeech‘1997), pp. 2031–2034. Rhodes, Grècia.
Wilhelms-Tricarico, R. (1995). ―Physiological modeling of speech production:Methods
for modeling soft-tissue articulators‖. Journal of the Acoustical Society of America
(JASA) , 97(5), pp. 3085–3098.
Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T., i Kitamura, T. (2000). Speaker
interpolation for HMM-based speech synthesis system. Acoustical Science and
Technology, 21(4):199–206.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
117
Yoshimura, T., Tokuda, K., Masuko, T., Kobayashi, T. i Kitamura, T. (1999).
―Simultaneous modeling of spectrum, pitch and duration in HMM-based speech
synthesis‖. The 6th European Conference on Speech Communication and Technology
(Eurospeech‘ 1999), pp. 2374–2350. Budapest, Hungria.
Zen, H., Tokuda, K., i Black, A. W. (2009). Statistical parametric speech synthesis.
Speech Communication, vol. 51(11), pp. 1039-1064.
Aplicació de tècniques de generació automàtica de la parla en producció audiovisual
Grup de Recerca en Tecnologies Mèdia. La Salle – Universitat Ramon Llull
118
Descargar