Les tecnologies de la parla - Barcelona, gener de 2007

advertisement
Les tecnologies de la parla
Joaquim Llisterri, Universitat Autònoma de Barcelona
Seminari “Aplicacions del processament del llenguatge natural”,
Servei de Tecnologia Lingüística, Universitat de Barcelona, 10 de gener de 2007
Les tecnologies de la parla
JOAQUIM LLISTERRI
Departament de Filologia Espanyola
Universitat Autònoma de Barcelona
Joaquim.Llisterri@uab.cat
http://liceu.uab.cat/~joaquim
Materials a la web:
http://liceu.uab.cat/~joaquim/speech_technology/UB_07/UB_07.html
GUIÓ
1. LES TECNOLOGIES DE LA PARLA
La interacció oral amb els ordinadors. Noves necessitats i noves tecnologies. Sortida
vocal: conversió de text en parla; entrada vocal: reconeixement de la parla; interacció
amb l’usuari: sistemes de diàleg. El paper de la lingüística: coneixement de la interacció
oral humana, de la percepció i la producció de la parla, i del sistema lingüístic.
2. LA CONVERSIÓ DE TEXT EN PARLA
Esquema general d’un conversor. Etapes en la conversió de text en parla: processament
previ del text, transcripció fonètica automàtica, anàlisi lingüística, assignació
d’elements prosòdics –durada, intensitat, pauses i entonació-, selecció d’unitats en el
diccionari d’unitats de síntesi o en el corpus de síntesi i conversió en valors de
paràmetres acústics. Les aplicacions de la conversió de text en parla.
3. EL RECONEIXEMENT DE LA PARLA
Les etapes en el reconeixement de la parla: entrenament, parametrització del senyal i
comparació amb els models emmagatzemats. Coneixement fonètic: selecció de locutors
per a l’enregistrament del corpus d’entrenament, segmentació i transcripció del corpus
d’entrenament, diccionaris de pronunciació. Les aplicacions del reconeixement de la
parla: reconeixement de paraules aïllades i reconeixement de parla contínua. El
reconeixement del parlant.
4. ELS SISTEMES DE DIÀLEG
Mòduls d’un sistema de diàleg: reconeixement de la parla, analitzador semàntic, base de
dades, gestor del diàleg, generador d’unitats lingüístiques, conversió de text en parla.
Coneixement lingüístic: estudi de corpus d’interaccions naturals entre persones, estudi
de corpus d’interaccions simulades entre persones i sistemes informàtics, disseny
d’estratègies de diàleg, adequació pragmàtica i correcció lingüística del diàleg. Les
aplicacions dels sistemes de diàleg: sistemes d’informació i sistemes de transaccions. La
traducció automàtica de la parla. Sistemes de diàleg multimodals.
Guió i bibliografia bàsica
1
Les tecnologies de la parla
Joaquim Llisterri, Universitat Autònoma de Barcelona
Seminari “Aplicacions del processament del llenguatge natural”,
Servei de Tecnologia Lingüística, Universitat de Barcelona, 10 de gener de 2007
BIBLIOGRAFIA BÀSICA
ARASA, S. (2001) "Entrevista a Xuedong Huang, Director mundial de tecnologías del habla de
Microsoft: 'La próxima revolución será la de la voz'", Quark. Ciencia, Medicina, Comunicación
y Cultura 21: 103-108.
http://www.prbb.org/Quark/21/021103.htm
BERNSEN, N.O. (2002) Speech-related technologies. Where will the field go in 10 years?", in
KRAUWER, S. (Ed.) Towards a Roadmap for Multimodal Language Resources and
Evaluation. Workshop Proceedings. LREC 2002, Las Palmas de Gran Canaria, 2nd June 2002.
Paris: ELRA, European Language Resources Association. pp. 24-42.
http://www.nis.sdu.dk/~nob/publications/elsnet-bs-nob-v426.3.pdf
COLEMAN, J. (2005) Introducing Speech and Language Processing. Cambridge: Cambridge
University Press (Cambridge Introduction to Language and Linguistics) (+CD-ROM).
http://www.islp.org.uk/
CORTÁZAR, I.- RODRÍGUEZ, M.A.- GARRIDO, J.M.- CAMINERO, F.J.- BERNAT, J.RELAÑO, J.- GARIJO, F.J.- HERNÁNDEZ, L.A. (2002) "Últimos desarrollos en tecnologías
del voz y del lenguaje", Comunicaciones de Telefónica I+D 24: 25-64.
http://www.tid.es/documentos/revista_comunicaciones_i%2Bd/numero
24.pdf
HOLMES, J.N..- HOLMES, W. (2001) Speech Synthesis and Recognition. London: Taylor &
Francis, 2nd edition.
HUANG, X.- ACERO, A.- HON, H.-H.- REDDY, R. (2001) Spoken Language Processing: A
Guide to Theory, Algorithm and System Development. New Jersey: Prentice Hall.
JURAFSKY, D.- MARTIN, J.H. (2000) Speech and Language Processing. An Introduction to
Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey:
Prentice Hall.
http://www.cs.colorado.edu/~martin/slp.html
KELLER, E. (Ed.) (1994) Fundamentals of Speech Synthesis and Speech Recognition. Basic
Concepts, State of the Art and Future Challenges. Chichester: John Wiley & Sons.
LLISTERRI, J. (2001) "Les tecnologies de la parla", in MARTÍ, M.A. (Coord.) Les tecnologies
del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). pp.
239-272; trad. cast.: "Las tecnologías del habla", in MARTÍ, M.A. (Coord.) Tecnologías del
lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003. pp. 249-281.
LLISTERRI, J. (2006) "Màquines que parlen i que escolten: el paper de la fonètica en el
desenvolupament de les tecnologies de la parla", in CLUB 14. Catorzè Col.loqui Lingüístic de
la Universitat de Barcelona. Aplicacions de la fonètica. Barcelona, 13 de novembre de 2006.
Secció de Lingüística Catalana, Departament de Filologia Catalana, Universitat de Barcelona.
(en premsa).
http://liceu.uab.es/~joaquim/publicacions/Llisterri_06_Fonetica_
Tecnologies_Parla.pdf
LLISTERRI, J.- CARBÓ, C.- MACHUCA, M. J.- de la MOTA, C.- RIERA, M.- RÍOS, A.
(2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla", in CASAS
GÓMEZ, M. (Dir.) - VARO VARO, C. (Ed.) VII Jornadas de Lingüística. Cádiz: Servicio de
Publicaciones de la Universidad de Cádiz. pp. 137-191.
http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo_Machuc
a_Mota_Riera_Rios_03_Linguistica_Tecnologias_Habla.pdf
Guió i bibliografia bàsica
2
Les tecnologies de la parla
Joaquim Llisterri, Universitat Autònoma de Barcelona
Seminari “Aplicacions del processament del llenguatge natural”,
Servei de Tecnologia Lingüística, Universitat de Barcelona, 10 de gener de 2007
LLISTERRI, J.- MACHUCA, M. J. (Eds.) (2006) Los sistemas de diálogo. Bellaterra:
Universitat Autònoma de Barcelona - Fundación Duques de Soria.
O'SHAUGHNESSY, D. (1987) Speech Communication. Human and Machine. Reading, Mass.:
Addison Wesley. Second Edition: IEEE Press, 2000.
PARDO, J.M. (2004) "Tecnología del Habla: Debate sobre retos pendientes y perspectivas",
Procesamiento del Lenguaje Natural 32: 37-42.
http://www-gth.die.upm.es/research/documentation/AN-44Tec-04.doc
SCHROEDER, M.R. (2004) Computer Speech: Recognition, Compression, Synthesis. Second
Edition. Berlin: Springer-Verlag.
SCHULTZ, T.- KIRCHHOFF, K. (Eds.) (2006) Multilingual Speech Processing. San Diego London: Academic Press.
VILLARRUBIA, L.- GARRIDO, J.M.- RELAÑO, J.- CAMINERO, J.- ESCALADA, J.G.RODRÍGUEZ, M.C.- HERNÁNDEZ, L.A. (2002) "Productos de tecnología del habla para
Latinoamérica", Comunicaciones de Telefónica I+D 27: 53-72.
http://www.tid.es/documentos/revista_comunicaciones_i%2Bd/numero
27.pdf
VILLARRUBIA, L.- RODRÍGUEZ, A.- RELAÑO, J.- GARIJO, F.J.- BERNAT, J.HERNÁNDEZ, L.A.- TAPIAS, D.- MARÍA, L.A. (2003) "Tecnología del habla para
aplicaciones multilingües, multiservicio y multiplataforma", Comunicaciones de Telefónica I+D
30: 47-78.
http://www.tid.es/documentos/revista_comunicaciones_i%2Bd/numero
30.pdf
ZUE, V. (2004) "Eighty challenges facing speech input/output technologies", in From Sound to
Sense: 50+ Years of Discoveries in Speech Communication. Massachusetts Institute of
Technology, Cambridge, MA., 11-13 June 2004.
http://www.rle.mit.edu/soundtosense/conference/pdfs/invitedspeak
ers/Zue%20PAPER.pdf
Guió i bibliografia bàsica
3
Descargar