TECNOLOGIAS DE LA VOZ CURSO 1999/2000 1ª CONVOCATORIA

TECNOLOGIAS DE LA VOZ CURSO 1999/2000 1ª CONVOCATORIA Fecha: 24 de Enero de 2000 Duración: 3 h Teoría ............ sin libros ni apuntes Problemas y Prácticas .................. con libros y apuntes Las notas se publicarán el día 8 de Febrero a las 14 h. Al mismo tiempo estarán disponibles para su consulta vía teléfono llamando al número 976 76 2385 (se necesita el número de matrícula) 1ª Parte: TEORÍA (4.25 puntos) 1. En los codificadores predictivos basados en análisis y síntesis de la señal, indicar: a. b. c. 2. Los tipos de excitación más comunes que se utilizan, indicando el nombre del codificador a que dan lugar. Dibujar el diagrama de bloques de un codificador tipo CELP donde los parámetros del predictor a largo plazo se calculan en lazo abierto, indicando brevemente la finalidad de cada bloque. ¿Cómo utilizaría la cuantificación vectorial para reducir la velocidad de transmisión (bit-rate kb/s) de un codificador predictivo, aunque sea a costa de la calidad de la señal de voz reconstruida. La sustracción espectral es un método propuesto para el realce de la señal de voz contaminada con ruido aditivo. a. Indicar brevemente las bases teóricas en las que se fundamenta el método de sustracción espectral. Un problema asociado al método de sustracción espectral es la aparición de un nuevo ruido denominado “ruido musical”. b. c. d. 3. Dar una definición para el ruido musical ¿Por qué se produce el ruido musical? Indicar que modificaciones son necesarias sobre el algoritmo básico de sustracción espectral para mitigar el efecto del ruido musical. El análisis homomórfico es una herramienta de procesado de señal muy útil para el análisis de la señal de voz. a. Definir el cepstrum complejo. Para un segmento de voz sonoro, ¿Qué información proporciona el cepstrum complejo?. Una señal x[n] se genera aplicando ruido blanco a un filtro todo polos con P raíces dentro de la circunferencia de radio unidad, siendo su transformada Z G X (z)  P  (1  1 pk z ) k 1 con G>0.  b. Recordando que log( 1   )   n 1 o complejo el cepstrum complejo?. (  1) n 1  n n , dar la expresión del cepstrum de x[n]. ¿es real c. 4. Indicar dos propiedades fundamentales del cepstrum complejo de una señal de fase mínima y con transformada Z expresable mediante una función racional. Indicar si son o no correctas las siguientes afirmaciones relacionadas con el sistema de generación y percepción humano de la señal de voz. En caso negativo indicar la razón por la cual la considera falsa y cual es la afirmación correcta. a. b. c. d. e. El modelo digital de producción de voz para la vocal “a” consta de un tren de pulsos aperiódico que excita a un filtro cuya función es modelar la forma del pulso glotal de la vocal “a”. La presencia simultánea de varios sonidos aumenta el umbral mínimo de percepción de los mismos. La posición y ancho de banda de los formantes de un sonido no son representativos del mismo, es decir, no nos dan información alguna sobre el sonido. A medida que aumenta el nivel de presión sonora al que esta expuesto un oído humano, su sensación de intensidad sonora a bajas frecuencias disminuye con relación a las frecuencia medias. La sensación de frecuencia que produce un tono puro en el sistema de percepción auditivo no es lineal con la frecuencia del mismo. 2ª Parte: PROBLEMAS (1.75 puntos) 1. Se quiere representar la generación de un sonido sonoro mediante un modelo sin pérdidas de tres tubos con las siguientes secciones y longitudes: A1=0.8 cm2, L1=10 cm, A2=0.2 cm2, L2=2 cm, A3=0.6 cm2, L3=5 cm. a. Dibujar la estructura en celosía (con retardos y coeficientes de reflexión), incluyendo los efectos de la glotis y de los labios. Si la impedancia en los labios es nula y la impedancia en la glotis es infinita, encontrar la función de transferencia del filtro digital que representa. ¿En qué lugar geométrico del espacio Z se encontrarán los polos de este filtro?. Si esta señal la modeláramos con la técnica de la predicción lineal con un orden 3, ¿Cuáles serían los valores de los coeficientes del predictor y los coeficientes Parcor? Indicar como se modifica la función de transferencia con la variación de la impedancia en los labios. Si el tracto vocal corresponde a un hombre que está generando la señal de voz con una frecuencia fundamental de 150 Hz y asumiendo que todas las secciones son iguales, dibujar el espectro (módulo) de la señal generada hasta 4 kHz, resaltando claramente la frecuencia de los formantes. b. c. d. e. 3ª Parte: PRÁCTICAS (2.5 puntos) En la síntesis de sonidos sonoros mediante el modelo digital de producción, a. Indicar como influye en la señal de voz sintetizada la forma del pulso glotal en función de los valores N1 y N2 del modelo de Rosenberg. En la figura 1 se presentan cuatro diagramas con las posiciones de los polos de cuatro modelos de tracto vocal. Para cada uno de ellos indicar la frecuencia aproximada de los dos primeros formates. ¿Qué podemos decir sobre la impedancia en los labios en cada uno de ellos?. En la figura 2 se presenta cuatro formas de onda sintetizadas con los sistemas anteriores ( un periodo de pitch), indicar de forma razonada con qué diagrama de polos se corresponden. b. 1 1 0.5 0.5 Imaginary part Imaginary part c. 0 0 -0.5 -0.5 -1 -1 -1 -0.5 0 Real part 0.5 -1 1 -0.5 A 0 Real part 0.5 1 B 1 1 0.5 Imaginary part 0.5 Imaginary part 1. 0 0 -0.5 -0.5 -1 -1 -1 -0.5 0 Real part C 0.5 1 -1 -0.5 0 Real part D 0.5 1 figura 1. 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1 -1.5 0 50 100 150 -1.5 0 50 1 100 150 100 150 2 1.5 1 0.8 1 0.6 0.5 0.4 0 0.2 -0.5 0 -0.2 -1 -0.4 -1.5 -2 -0.6 0 50 100 150 -0.8 3 0 50 4 figura 2 2. La figura 3 representa la estimación de la envolvente del espectograma calculada mediante predicción lineal para la frase “los bárbaros invadieron el imperio romano”. a. Dibujar en un gráfico la evolución de la frecuencia central del primer y segundo formante, indicando los márgenes de frecuencia entre los que varían. Por otro lado, la figura 4 muestra la evolución del cepstrum localizado para la misma frase. b. Dibujar en un gráfico la evolución de la frecuencia de pitch, indicando los márgenes de frecuencia entre los que varía. ¿de qué tipo de voz se trata , hombre o mujer?. Indicar que segmentos pueden ser sordos. figura 3. figura 4.

TECNOLOGIAS DE LA VOZ CURSO 1999/2000 1ª CONVOCATORIA

Documentos relacionados

Productos

Apoyo

TECNOLOGIAS DE LA VOZ CURSO 1999/2000 1ª CONVOCATORIA

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib