TECNOLOGIAS DE LA VOZ CURSO 1999/2000 2ª CONVOCATORIA

TECNOLOGIAS DE LA VOZ CURSO 1999/2000 2ª CONVOCATORIA Fecha: 21 de Junio de 2000 Duración: 3 h Teoría ............ sin libros ni apuntes Problemas y Prácticas .................. con libros y apuntes 1ª Parte: TEORÍA (4.25 puntos) 1. En los codificadores predictivos basados en análisis y síntesis de la señal, indicar: a. b. c. 2. Indicar si son o no correctas las siguientes afirmaciones. En caso negativo indicar la razón por la cual la considera falsa , especificando cual es la afirmación correcta. a. b. c. d. e. f. g. h. i. 3. Los tipos de excitación más comunes que se utilizan, indicando el nombre del codificador a que dan lugar. Dibujar el diagrama de bloques de un codificador tipo CELP donde los parámetros del predictor a largo plazo se calculan en lazo abierto, indicando brevemente la finalidad de cada bloque. ¿Cómo utilizaría la cuantificación vectorial para reducir la velocidad de transmisión (bit-rate kb/s) de un codificador predictivo, aunque sea a costa de la calidad de la señal de voz reconstruida. El oído externo actúa como un filtro paso alto de orden 1 con un cero alrededor de la frecuencia de 4 kHz. El modelo digital de producción de voz para las vocales consta de una fuente de ruido blanco que excita a un filtro que modela la forma del pulso glotal. La membrana basilar, situada en la coclea, varía gradualmente en forma y rigidez. Los espectrogramas de banda ancha nos permiten estudiar la evolución del pitch tanto en voces de hombres como de mujeres. En la localización de sonidos por parte del sistema auditivo humano, el retardo entre la señal que llega al oído derecho y al izquierdo permite localizar la dirección del sonido a cualquier frecuencia y ángulo de elevación y de azimut. En los sonidos nasales, el tracto vocal actúa como un resonador colocando un cero de transmisión. Cuando comparamos la calidad de dos cajas acústicas debemos tener la precaución de que el nivel de presión sonora producido en la posición del oyente sea la misma independientemente de la sensibilidad de las cajas. El cepstrum de la señal de voz es igual al cepstrum de la señal de excitación por el cepstrum del filtro del tracto vocal. La presencia de un sonido disminuye el umbral mínimo de percepción de otro sonido cuando se aplican en el mismo oído. Una empresa dedicada a la aplicación de tecnologías de la voz le contrata para el desarrollo de un sistema de reconocimiento de habla continua independiente del locutor para aplicaciones de consulta de información a través del teléfono. a. b. c. Dibujar un diagrama de bloques del sistema de reconocimiento, indicando la finalidad de cada bloque. Indicar los pasos a seguir para el entrenamiento de los modelos acústicos. Dar una propuesta sobre el tipo de modelo de lenguaje a utilizar y como obtenerlo. 2ª Parte: PROBLEMAS (1.75 puntos) 1. En la figura se presenta un modelo de tubos acústicos del tracto vocal para una vocal. a. Suponiendo que la impedancia en los labios es nula y que la impedancia en la glotis es infinita, dibujar la estructura en celosía (lattice) de las velocidades volumétricas de todo el sistema. b. Dibujar el modelo discreto en tiempo, indicando la frecuencia máxima de la señal que debemos aplicar a la entrada para que el modelo sea válido. c. Calcular la función de transferencia H(z)=U L(z)/UG(z) y dibujar la respuesta frecuencial asociada. d. Si la impedancia de los labios es ZL= 10000 ohms acústicos, ¿Cómo se modificará la función de transferencia y su respuesta frecuencia asociada? 1 cm2 Glotis 7 cm2 8 cm Labios 8 cm 3ª Parte: PRÁCTICAS (2.5 puntos) En la síntesis de sonidos sonoros mediante el modelo digital de producción, a. Indicar como influye en la señal de voz sintetizada la forma del pulso glotal en función de los valores N1 y N2 del modelo de Rosenberg. En la figura 1 se presentan cuatro diagramas con las posiciones de los polos de cuatro modelos de tracto vocal. Para cada uno de ellos indicar la frecuencia aproximada de los dos primeros formates. ¿Qué podemos decir sobre la impedancia en los labios en cada uno de ellos?. En la figura 2 se presenta cuatro formas de onda sintetizadas con los sistemas anteriores ( un periodo de pitch), indicar de forma razonada con qué diagrama de polos se corresponden. b. c. 1 1 0.5 0.5 Imaginary part Imaginary part 1. 0 0 -0.5 -0.5 -1 -1 -1 -0.5 0 Real part A 0.5 1 -1 -0.5 0 Real part B 0.5 1 1 1 0.5 Imaginary part Imaginary part 0.5 0 0 -0.5 -0.5 -1 -1 -1 -0.5 0 Real part 0.5 -1 1 -0.5 0 Real part C 0.5 1 D figura 1. 1 1 0.5 0.5 0 0 -0.5 -0.5 -1 -1 -1.5 0 50 100 150 -1.5 0 50 1 100 150 100 150 2 1.5 1 0.8 1 0.6 0.5 0.4 0 0.2 -0.5 0 -0.2 -1 -0.4 -1.5 -2 -0.6 0 50 100 150 -0.8 3 0 50 4 figura 2 2. La figura 3 representa la estimación de la envolvente del espectograma calculada mediante predicción lineal para la frase “los bárbaros invadieron el imperio romano”. a. Dibujar en un gráfico la evolución de la frecuencia central del primer y segundo formante, indicando los márgenes de frecuencia entre los que varían. Por otro lado, la figura 4 muestra la evolución del cepstrum localizado para la misma frase. b. Dibujar en un gráfico la evolución de la frecuencia de pitch, indicando los márgenes de frecuencia entre los que varía. ¿de qué tipo de voz se trata , hombre o mujer?. Indicar que segmentos pueden ser sordos. figura 3. figura 4.

TECNOLOGIAS DE LA VOZ CURSO 1999/2000 2ª CONVOCATORIA

Documentos relacionados

Productos

Apoyo

TECNOLOGIAS DE LA VOZ CURSO 1999/2000 2ª CONVOCATORIA

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib