TECNOLOGIAS DE LA VOZ CURSO 1999/2000 2ª CONVOCATORIA

Anuncio
TECNOLOGIAS DE LA VOZ
CURSO 1999/2000 2ª CONVOCATORIA
Fecha: 21 de Junio de 2000
Duración: 3 h
Teoría ............ sin libros ni apuntes
Problemas y Prácticas .................. con libros y apuntes
1ª Parte: TEORÍA (4.25 puntos)
1.
En los codificadores predictivos basados en análisis y síntesis de la señal, indicar:
a.
b.
c.
2.
Indicar si son o no correctas las siguientes afirmaciones. En caso negativo indicar la razón por la cual
la considera falsa , especificando cual es la afirmación correcta.
a.
b.
c.
d.
e.
f.
g.
h.
i.
3.
Los tipos de excitación más comunes que se utilizan, indicando el nombre del codificador a que
dan lugar.
Dibujar el diagrama de bloques de un codificador tipo CELP donde los parámetros del predictor
a largo plazo se calculan en lazo abierto, indicando brevemente la finalidad de cada bloque.
¿Cómo utilizaría la cuantificación vectorial para reducir la velocidad de transmisión (bit-rate
kb/s) de un codificador predictivo, aunque sea a costa de la calidad de la señal de voz
reconstruida.
El oído externo actúa como un filtro paso alto de orden 1 con un cero alrededor de la frecuencia
de 4 kHz.
El modelo digital de producción de voz para las vocales consta de una fuente de ruido blanco
que excita a un filtro que modela la forma del pulso glotal.
La membrana basilar, situada en la coclea, varía gradualmente en forma y rigidez.
Los espectrogramas de banda ancha nos permiten estudiar la evolución del pitch tanto en voces
de hombres como de mujeres.
En la localización de sonidos por parte del sistema auditivo humano, el retardo entre la señal que
llega al oído derecho y al izquierdo permite localizar la dirección del sonido a cualquier
frecuencia y ángulo de elevación y de azimut.
En los sonidos nasales, el tracto vocal actúa como un resonador colocando un cero de
transmisión.
Cuando comparamos la calidad de dos cajas acústicas debemos tener la precaución de que el
nivel de presión sonora producido en la posición del oyente sea la misma independientemente de
la sensibilidad de las cajas.
El cepstrum de la señal de voz es igual al cepstrum de la señal de excitación por el cepstrum del
filtro del tracto vocal.
La presencia de un sonido disminuye el umbral mínimo de percepción de otro sonido cuando se
aplican en el mismo oído.
Una empresa dedicada a la aplicación de tecnologías de la voz le contrata para el desarrollo de un
sistema de reconocimiento de habla continua independiente del locutor para aplicaciones de consulta
de información a través del teléfono.
a.
b.
c.
Dibujar un diagrama de bloques del sistema de reconocimiento, indicando la finalidad de
cada bloque.
Indicar los pasos a seguir para el entrenamiento de los modelos acústicos.
Dar una propuesta sobre el tipo de modelo de lenguaje a utilizar y como obtenerlo.
2ª Parte: PROBLEMAS (1.75 puntos)
1. En la figura se presenta un modelo de tubos acústicos del tracto vocal para una vocal.
a. Suponiendo que la impedancia en los labios es nula y que la impedancia en la glotis es infinita,
dibujar la estructura en celosía (lattice) de las velocidades volumétricas de todo el sistema.
b. Dibujar el modelo discreto en tiempo, indicando la frecuencia máxima de la señal que
debemos aplicar a la entrada para que el modelo sea válido.
c. Calcular la función de transferencia H(z)=U L(z)/UG(z) y dibujar la respuesta frecuencial
asociada.
d. Si la impedancia de los labios es ZL= 10000 ohms acústicos, ¿Cómo se modificará la función
de transferencia y su respuesta frecuencia asociada?
1 cm2
Glotis
7 cm2
8 cm
Labios
8 cm
3ª Parte: PRÁCTICAS (2.5 puntos)
En la síntesis de sonidos sonoros mediante el modelo digital de producción,
a.
Indicar como influye en la señal de voz sintetizada la forma del pulso glotal en función de los
valores N1 y N2 del modelo de Rosenberg.
En la figura 1 se presentan cuatro diagramas con las posiciones de los polos de cuatro modelos
de tracto vocal. Para cada uno de ellos indicar la frecuencia aproximada de los dos primeros
formates. ¿Qué podemos decir sobre la impedancia en los labios en cada uno de ellos?.
En la figura 2 se presenta cuatro formas de onda sintetizadas con los sistemas anteriores ( un
periodo de pitch), indicar de forma razonada con qué diagrama de polos se corresponden.
b.
c.
1
1
0.5
0.5
Imaginary part
Imaginary part
1.
0
0
-0.5
-0.5
-1
-1
-1
-0.5
0
Real part
A
0.5
1
-1
-0.5
0
Real part
B
0.5
1
1
1
0.5
Imaginary part
Imaginary part
0.5
0
0
-0.5
-0.5
-1
-1
-1
-0.5
0
Real part
0.5
-1
1
-0.5
0
Real part
C
0.5
1
D
figura 1.
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1
-1.5
0
50
100
150
-1.5
0
50
1
100
150
100
150
2
1.5
1
0.8
1
0.6
0.5
0.4
0
0.2
-0.5
0
-0.2
-1
-0.4
-1.5
-2
-0.6
0
50
100
150
-0.8
3
0
50
4
figura 2
2.
La figura 3 representa la estimación de la envolvente del espectograma calculada mediante
predicción lineal para la frase “los bárbaros invadieron el imperio romano”.
a.
Dibujar en un gráfico la evolución de la frecuencia central del primer y segundo formante,
indicando los márgenes de frecuencia entre los que varían.
Por otro lado, la figura 4 muestra la evolución del cepstrum localizado para la misma frase.
b.
Dibujar en un gráfico la evolución de la frecuencia de pitch, indicando los márgenes de
frecuencia entre los que varía. ¿de qué tipo de voz se trata , hombre o mujer?. Indicar que
segmentos pueden ser sordos.
figura 3.
figura 4.
Descargar