Les tecnologies de la parla Joaquim Llisterri, Universitat Autònoma de Barcelona Seminari “Aplicacions del processament del llenguatge natural”, Servei de Tecnologia Lingüística, Universitat de Barcelona, 10 de gener de 2007 Les tecnologies de la parla JOAQUIM LLISTERRI Departament de Filologia Espanyola Universitat Autònoma de Barcelona [email protected] http://liceu.uab.cat/~joaquim Materials a la web: http://liceu.uab.cat/~joaquim/speech_technology/UB_07/UB_07.html GUIÓ 1. LES TECNOLOGIES DE LA PARLA La interacció oral amb els ordinadors. Noves necessitats i noves tecnologies. Sortida vocal: conversió de text en parla; entrada vocal: reconeixement de la parla; interacció amb l’usuari: sistemes de diàleg. El paper de la lingüística: coneixement de la interacció oral humana, de la percepció i la producció de la parla, i del sistema lingüístic. 2. LA CONVERSIÓ DE TEXT EN PARLA Esquema general d’un conversor. Etapes en la conversió de text en parla: processament previ del text, transcripció fonètica automàtica, anàlisi lingüística, assignació d’elements prosòdics –durada, intensitat, pauses i entonació-, selecció d’unitats en el diccionari d’unitats de síntesi o en el corpus de síntesi i conversió en valors de paràmetres acústics. Les aplicacions de la conversió de text en parla. 3. EL RECONEIXEMENT DE LA PARLA Les etapes en el reconeixement de la parla: entrenament, parametrització del senyal i comparació amb els models emmagatzemats. Coneixement fonètic: selecció de locutors per a l’enregistrament del corpus d’entrenament, segmentació i transcripció del corpus d’entrenament, diccionaris de pronunciació. Les aplicacions del reconeixement de la parla: reconeixement de paraules aïllades i reconeixement de parla contínua. El reconeixement del parlant. 4. ELS SISTEMES DE DIÀLEG Mòduls d’un sistema de diàleg: reconeixement de la parla, analitzador semàntic, base de dades, gestor del diàleg, generador d’unitats lingüístiques, conversió de text en parla. Coneixement lingüístic: estudi de corpus d’interaccions naturals entre persones, estudi de corpus d’interaccions simulades entre persones i sistemes informàtics, disseny d’estratègies de diàleg, adequació pragmàtica i correcció lingüística del diàleg. Les aplicacions dels sistemes de diàleg: sistemes d’informació i sistemes de transaccions. La traducció automàtica de la parla. Sistemes de diàleg multimodals. Guió i bibliografia bàsica 1 Les tecnologies de la parla Joaquim Llisterri, Universitat Autònoma de Barcelona Seminari “Aplicacions del processament del llenguatge natural”, Servei de Tecnologia Lingüística, Universitat de Barcelona, 10 de gener de 2007 BIBLIOGRAFIA BÀSICA ARASA, S. (2001) "Entrevista a Xuedong Huang, Director mundial de tecnologías del habla de Microsoft: 'La próxima revolución será la de la voz'", Quark. Ciencia, Medicina, Comunicación y Cultura 21: 103-108. http://www.prbb.org/Quark/21/021103.htm BERNSEN, N.O. (2002) Speech-related technologies. Where will the field go in 10 years?", in KRAUWER, S. (Ed.) Towards a Roadmap for Multimodal Language Resources and Evaluation. Workshop Proceedings. LREC 2002, Las Palmas de Gran Canaria, 2nd June 2002. Paris: ELRA, European Language Resources Association. pp. 24-42. http://www.nis.sdu.dk/~nob/publications/elsnet-bs-nob-v426.3.pdf COLEMAN, J. (2005) Introducing Speech and Language Processing. Cambridge: Cambridge University Press (Cambridge Introduction to Language and Linguistics) (+CD-ROM). http://www.islp.org.uk/ CORTÁZAR, I.- RODRÍGUEZ, M.A.- GARRIDO, J.M.- CAMINERO, F.J.- BERNAT, J.RELAÑO, J.- GARIJO, F.J.- HERNÁNDEZ, L.A. (2002) "Últimos desarrollos en tecnologías del voz y del lenguaje", Comunicaciones de Telefónica I+D 24: 25-64. http://www.tid.es/documentos/revista_comunicaciones_i%2Bd/numero 24.pdf HOLMES, J.N..- HOLMES, W. (2001) Speech Synthesis and Recognition. London: Taylor & Francis, 2nd edition. HUANG, X.- ACERO, A.- HON, H.-H.- REDDY, R. (2001) Spoken Language Processing: A Guide to Theory, Algorithm and System Development. New Jersey: Prentice Hall. JURAFSKY, D.- MARTIN, J.H. (2000) Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition. New Jersey: Prentice Hall. http://www.cs.colorado.edu/~martin/slp.html KELLER, E. (Ed.) (1994) Fundamentals of Speech Synthesis and Speech Recognition. Basic Concepts, State of the Art and Future Challenges. Chichester: John Wiley & Sons. LLISTERRI, J. (2001) "Les tecnologies de la parla", in MARTÍ, M.A. (Coord.) Les tecnologies del llenguatge. Barcelona: Edicions de la Universitat Oberta de Catalunya (Manuals, 53). pp. 239-272; trad. cast.: "Las tecnologías del habla", in MARTÍ, M.A. (Coord.) Tecnologías del lenguaje. Barcelona: Editorial UOC (Manuales, Humanidades), 2003. pp. 249-281. LLISTERRI, J. (2006) "Màquines que parlen i que escolten: el paper de la fonètica en el desenvolupament de les tecnologies de la parla", in CLUB 14. Catorzè Col.loqui Lingüístic de la Universitat de Barcelona. Aplicacions de la fonètica. Barcelona, 13 de novembre de 2006. Secció de Lingüística Catalana, Departament de Filologia Catalana, Universitat de Barcelona. (en premsa). http://liceu.uab.es/~joaquim/publicacions/Llisterri_06_Fonetica_ Tecnologies_Parla.pdf LLISTERRI, J.- CARBÓ, C.- MACHUCA, M. J.- de la MOTA, C.- RIERA, M.- RÍOS, A. (2003) "El papel de la lingüística en el desarrollo de las tecnologías del habla", in CASAS GÓMEZ, M. (Dir.) - VARO VARO, C. (Ed.) VII Jornadas de Lingüística. Cádiz: Servicio de Publicaciones de la Universidad de Cádiz. pp. 137-191. http://liceu.uab.es/~joaquim/publicacions/Llisterri_Carbo_Machuc a_Mota_Riera_Rios_03_Linguistica_Tecnologias_Habla.pdf Guió i bibliografia bàsica 2 Les tecnologies de la parla Joaquim Llisterri, Universitat Autònoma de Barcelona Seminari “Aplicacions del processament del llenguatge natural”, Servei de Tecnologia Lingüística, Universitat de Barcelona, 10 de gener de 2007 LLISTERRI, J.- MACHUCA, M. J. (Eds.) (2006) Los sistemas de diálogo. Bellaterra: Universitat Autònoma de Barcelona - Fundación Duques de Soria. O'SHAUGHNESSY, D. (1987) Speech Communication. Human and Machine. Reading, Mass.: Addison Wesley. Second Edition: IEEE Press, 2000. PARDO, J.M. (2004) "Tecnología del Habla: Debate sobre retos pendientes y perspectivas", Procesamiento del Lenguaje Natural 32: 37-42. http://www-gth.die.upm.es/research/documentation/AN-44Tec-04.doc SCHROEDER, M.R. (2004) Computer Speech: Recognition, Compression, Synthesis. Second Edition. Berlin: Springer-Verlag. SCHULTZ, T.- KIRCHHOFF, K. (Eds.) (2006) Multilingual Speech Processing. San Diego London: Academic Press. VILLARRUBIA, L.- GARRIDO, J.M.- RELAÑO, J.- CAMINERO, J.- ESCALADA, J.G.RODRÍGUEZ, M.C.- HERNÁNDEZ, L.A. (2002) "Productos de tecnología del habla para Latinoamérica", Comunicaciones de Telefónica I+D 27: 53-72. http://www.tid.es/documentos/revista_comunicaciones_i%2Bd/numero 27.pdf VILLARRUBIA, L.- RODRÍGUEZ, A.- RELAÑO, J.- GARIJO, F.J.- BERNAT, J.HERNÁNDEZ, L.A.- TAPIAS, D.- MARÍA, L.A. (2003) "Tecnología del habla para aplicaciones multilingües, multiservicio y multiplataforma", Comunicaciones de Telefónica I+D 30: 47-78. http://www.tid.es/documentos/revista_comunicaciones_i%2Bd/numero 30.pdf ZUE, V. (2004) "Eighty challenges facing speech input/output technologies", in From Sound to Sense: 50+ Years of Discoveries in Speech Communication. Massachusetts Institute of Technology, Cambridge, MA., 11-13 June 2004. http://www.rle.mit.edu/soundtosense/conference/pdfs/invitedspeak ers/Zue%20PAPER.pdf Guió i bibliografia bàsica 3