TECNOLOGIAS DE LA VOZ CURSO 1999/2000 1ª CONVOCATORIA

Anuncio
TECNOLOGIAS DE LA VOZ
CURSO 1999/2000 1ª CONVOCATORIA
Fecha: 24 de Enero de 2000
Duración: 3 h
Teoría ............ sin libros ni apuntes
Problemas y Prácticas .................. con libros y apuntes
Las notas se publicarán el día 8 de Febrero a las 14 h.
Al mismo tiempo estarán disponibles para su consulta vía teléfono llamando al
número 976 76 2385 (se necesita el número de matrícula)
1ª Parte: TEORÍA (4.25 puntos)
1.
En los codificadores predictivos basados en análisis y síntesis de la señal, indicar:
a.
b.
c.
2.
Los tipos de excitación más comunes que se utilizan, indicando el nombre del codificador a que
dan lugar.
Dibujar el diagrama de bloques de un codificador tipo CELP donde los parámetros del predictor
a largo plazo se calculan en lazo abierto, indicando brevemente la finalidad de cada bloque.
¿Cómo utilizaría la cuantificación vectorial para reducir la velocidad de transmisión (bit-rate
kb/s) de un codificador predictivo, aunque sea a costa de la calidad de la señal de voz
reconstruida.
La sustracción espectral es un método propuesto para el realce de la señal de voz contaminada con
ruido aditivo.
a.
Indicar brevemente las bases teóricas en las que se fundamenta el método de sustracción
espectral.
Un problema asociado al método de sustracción espectral es la aparición de un nuevo ruido
denominado “ruido musical”.
b.
c.
d.
3.
Dar una definición para el ruido musical
¿Por qué se produce el ruido musical?
Indicar que modificaciones son necesarias sobre el algoritmo básico de sustracción espectral
para mitigar el efecto del ruido musical.
El análisis homomórfico es una herramienta de procesado de señal muy útil para el análisis de la
señal de voz.
a.
Definir el cepstrum complejo. Para un segmento de voz sonoro, ¿Qué información proporciona
el cepstrum complejo?.
Una señal x[n] se genera aplicando ruido blanco a un filtro todo polos con P raíces dentro de la
circunferencia de radio unidad, siendo su transformada Z
G
X (z) 
P
 (1 
1
pk z )
k 1
con G>0.

b.
Recordando que log( 1   ) 

n 1
o complejo el cepstrum complejo?.
(  1)
n 1

n
n
, dar la expresión del cepstrum de x[n]. ¿es real
c.
4.
Indicar dos propiedades fundamentales del cepstrum complejo de una señal de fase mínima y
con transformada Z expresable mediante una función racional.
Indicar si son o no correctas las siguientes afirmaciones relacionadas con el sistema de generación y
percepción humano de la señal de voz. En caso negativo indicar la razón por la cual la considera falsa
y cual es la afirmación correcta.
a.
b.
c.
d.
e.
El modelo digital de producción de voz para la vocal “a” consta de un tren de pulsos aperiódico
que excita a un filtro cuya función es modelar la forma del pulso glotal de la vocal “a”.
La presencia simultánea de varios sonidos aumenta el umbral mínimo de percepción de los
mismos.
La posición y ancho de banda de los formantes de un sonido no son representativos del mismo,
es decir, no nos dan información alguna sobre el sonido.
A medida que aumenta el nivel de presión sonora al que esta expuesto un oído humano, su
sensación de intensidad sonora a bajas frecuencias disminuye con relación a las frecuencia
medias.
La sensación de frecuencia que produce un tono puro en el sistema de percepción auditivo no es
lineal con la frecuencia del mismo.
2ª Parte: PROBLEMAS (1.75 puntos)
1.
Se quiere representar la generación de un sonido sonoro mediante un modelo sin pérdidas de tres
tubos con las siguientes secciones y longitudes:
A1=0.8 cm2, L1=10 cm, A2=0.2 cm2, L2=2 cm, A3=0.6 cm2, L3=5 cm.
a.
Dibujar la estructura en celosía (con retardos y coeficientes de reflexión), incluyendo los efectos
de la glotis y de los labios.
Si la impedancia en los labios es nula y la impedancia en la glotis es infinita, encontrar la
función de transferencia del filtro digital que representa. ¿En qué lugar geométrico del espacio Z
se encontrarán los polos de este filtro?.
Si esta señal la modeláramos con la técnica de la predicción lineal con un orden 3, ¿Cuáles
serían los valores de los coeficientes del predictor y los coeficientes Parcor?
Indicar como se modifica la función de transferencia con la variación de la impedancia en los
labios.
Si el tracto vocal corresponde a un hombre que está generando la señal de voz con una
frecuencia fundamental de 150 Hz y asumiendo que todas las secciones son iguales, dibujar el
espectro (módulo) de la señal generada hasta 4 kHz, resaltando claramente la frecuencia de los
formantes.
b.
c.
d.
e.
3ª Parte: PRÁCTICAS (2.5 puntos)
En la síntesis de sonidos sonoros mediante el modelo digital de producción,
a.
Indicar como influye en la señal de voz sintetizada la forma del pulso glotal en función de los
valores N1 y N2 del modelo de Rosenberg.
En la figura 1 se presentan cuatro diagramas con las posiciones de los polos de cuatro modelos
de tracto vocal. Para cada uno de ellos indicar la frecuencia aproximada de los dos primeros
formates. ¿Qué podemos decir sobre la impedancia en los labios en cada uno de ellos?.
En la figura 2 se presenta cuatro formas de onda sintetizadas con los sistemas anteriores ( un
periodo de pitch), indicar de forma razonada con qué diagrama de polos se corresponden.
b.
1
1
0.5
0.5
Imaginary part
Imaginary part
c.
0
0
-0.5
-0.5
-1
-1
-1
-0.5
0
Real part
0.5
-1
1
-0.5
A
0
Real part
0.5
1
B
1
1
0.5
Imaginary part
0.5
Imaginary part
1.
0
0
-0.5
-0.5
-1
-1
-1
-0.5
0
Real part
C
0.5
1
-1
-0.5
0
Real part
D
0.5
1
figura 1.
1
1
0.5
0.5
0
0
-0.5
-0.5
-1
-1
-1.5
0
50
100
150
-1.5
0
50
1
100
150
100
150
2
1.5
1
0.8
1
0.6
0.5
0.4
0
0.2
-0.5
0
-0.2
-1
-0.4
-1.5
-2
-0.6
0
50
100
150
-0.8
3
0
50
4
figura 2
2.
La figura 3 representa la estimación de la envolvente del espectograma calculada mediante
predicción lineal para la frase “los bárbaros invadieron el imperio romano”.
a.
Dibujar en un gráfico la evolución de la frecuencia central del primer y segundo formante,
indicando los márgenes de frecuencia entre los que varían.
Por otro lado, la figura 4 muestra la evolución del cepstrum localizado para la misma frase.
b.
Dibujar en un gráfico la evolución de la frecuencia de pitch, indicando los márgenes de
frecuencia entre los que varía. ¿de qué tipo de voz se trata , hombre o mujer?. Indicar que
segmentos pueden ser sordos.
figura 3.
figura 4.
Descargar