Señales Aleatorias

Anuncio
Temas Avanzados en
Procesado de Señales
Parte I: Procesado de Voz y Audio
Javier Ortega García
Joaquín González Rodríguez
Tema 1
Análisis de Señales de Voz
1.1. Introducción
La señal de voz es una señal especial pues codifica
mediante sonidos el lenguaje hablado.
Se organiza jerárquicamente:
„
„
‰
‰
‰
‰
‰
‰
„
Diálogo
Frase
Palabra
Sílaba
Fonema
Sonido
El lenguaje coloquial hablado incorpora un número
limitado de palabras (aprox. 4.000)
Tema 1: Análisis de Señales de Voz
T1.3
1.1. Introducción
La denominación técnica de cada sonido es ‘alófono’
Un mismo fonema escrito puede corresponder a varios
alónos (p.e., nasal / no nasal)
En castellano existen 24 fonemas, y menos de 50
alófonos
Incorpora diversas fuentes de información hablada:
„
„
„
„
‰
‰
‰
‰
‰
Mensaje
Identidad
Idioma
Patología
Estado Emocional
Tema 1: Análisis de Señales de Voz
T1.4
1.1. Introducción
1.1.1. Etapas en la Comunicación Hablada
Locutor o Hablante
Nervio
Auditivo
Oyente
Realimentación
acústica
Oido
Canal
Cerebro
Órdenes
articulatorias
Etapa
Lingüística
Cerebro
Tracto
vocal
Etapa
Fisiológica
Oido
Nervio
auditivo
Habla
Etapa
FísicoAcústica
Etapa
de
Transmisión
Etapa
FísicoAcústica
Tema 1: Análisis de Señales de Voz
Etapa
Fisiológica
Etapa
Lingüística
T1.5
1.2. Características a Largo Plazo
„
„
„
Señal de voz, no estacionaria (es decir, sus propiedades
estadísticas varían) a largo plazo (s.).
Características temporales con constantes fluctuaciones
Locución de 5 s. de duración:
Tema 1: Análisis de Señales de Voz
T1.6
1.2. Características a Largo Plazo
„
„
„
Si estudiamos tramos de menor duración (cientos de
ms.) persiste carácter poco estacionario.
Transiciones entre sonidos progresivas; no bruscas.
Tramo sonoro de la frase anterior (500 ms.):
Tema 1: Análisis de Señales de Voz
T1.7
1.2. Características a Largo Plazo
„
„
No estacionaridad persiste a medio plazo.
Más notoria en tramos transición sonoro/sordo, o en
sonidos oclusivos:
Tema 1: Análisis de Señales de Voz
T1.8
1.3. La señal de Voz a Corto Plazo
„
„
En duraciones cortas (< decenas ms.) la señal se
comporta como quasi-estacionaria.
Forma de onda de una vocal con duración 80 ms.:
Tema 1: Análisis de Señales de Voz
T1.9
1.3. La señal de Voz a Corto Plazo
„
„
La señal de voz presente en determinados tramos
apariencia pseudoperiódica.
Característica no generalizable, pues se pueden
encontrar tramos con apariencia ruidosa:
Tema 1: Análisis de Señales de Voz
T1.10
1.4. Naturaleza de la Señal de Voz
„
Existen tramos hablados de naturaleza distinta:
‰
‰
„
Esto permite realizar una clasificación genérica de los
sonidos hablados en función de su naturaleza, como:
‰
‰
„
Algunos tramos presentan carácter periódico
Otros, sin embargo, tienen apariencia ruidosa
Sonoros, sonidos de carácter periódico
Sordos, sonidos de carácter ruidoso
Profundicemos en el mecanismo humano de producción,
que permite realizar esta clasificación fundamental.
Tema 1: Análisis de Señales de Voz
T1.11
1.4. Naturaleza de la Señal de Voz
1.4.1. El mecanismo de Producción de Voz
„
El mecanismo de producción de voz presenta el siguiente esquema
funcional:
Tema 1: Análisis de Señales de Voz
T1.12
1.4. Naturaleza de la Señal de Voz
1.4.1. El mecanismo de Producción de Voz
„
„
La señal hablada se produce cuando expelimos el aire de
los pulmones a través de la tráquea.
Las cuerdas vocales, ubicadas en la laringe, tienen una
doble funcionalidad:
‰
‰
En los sonidos sonoros, las cuerdas vocales se hallan en
tensión y vibran cuando las atraviesa el flujo de aire proveniente
de los pulmones.
En los sonidos sordos, las cuerdas vocales están en relajación,
y el flujo de aire las atraviesa libremente. El sonido se produce
por la turbulencia de aire generada en la constricción.
Tema 1: Análisis de Señales de Voz
T1.13
1.4. Naturaleza de la Señal de Voz
1.4.2. Vibración de las Cuerdas Vocales
Ciclo completo de vibración de las cuerdas vocales.
Corte longitudinal
Vista transversal superior de la glotis: (a) Respiración normal.
(b) Respiración profunda. (c) Sonido sonoro.
(d) Susurro.
Tema 1: Análisis de Señales de Voz
T1.14
1.4. Naturaleza de la Señal de Voz
1.4.3. Sección Transversal de la Laringe
Tema 1: Análisis de Señales de Voz
T1.15
1.4. Naturaleza de la Señal de Voz
1.4.4. Cavidades Acústicas y Formantes
„
Tres cavidades acústicas constituyen el TRACTO VOCAL:
‰
‰
‰
„
„
„
La cavidad faríngea, situada inmediatamente después de la laringe.
La cavidad oral, (tracto oral o bucal) formada por el paladar, la lengua,
los dientes y los labios.
La cavidad nasal, (tracto nasal) que se encuentra situada entre el velo
del paladar y los orificios nasales.
En la producción de sonidos hablados, la laringe excita estas
cavidades, produciendo determinadas frecuencias de resonancia,
denominadas FORMANTES
Estos desempeñan un papel fundamental en la diferenciación de los
sonidos.
La detección de estas frecuencias de resonancia se realiza en la
envolvente espectral, constituyendo los FORMANTES los máximos
relativos de dicha envolvente.
Tema 1: Análisis de Señales de Voz
T1.16
1.4. Naturaleza de la Señal de Voz
1.4.5. Órganos y Lugares de Articulación
Órganos articulatorios
Lugares de
articulación
1.- Cuerdas vocales
2.- Faringe
3.- Úvula
4.- Velo (paladar blando)
5.- Paladar (duro)
6.- Alvéolos
7.- Dientes
8.- Labios
9.- Ápice (lengua)
10.- Pre-dorso (lengua)
11.- Post-dorso (lengua)
12.- Raíz (lengua)
13.- Mandíbula
14.- Cavidad nasal
15.- Cavidad oral
16.- Orificios nasales
17.- Traquea
18.- Epiglotis
1.- Labial
2.- Dental
3.- Alveolar
4.- Palatal
5.- Velar
6.- Uvular
7.- Faríngea
8.- Glotal
Tema 1: Análisis de Señales de Voz
T1.17
1.4. Naturaleza de la Señal de Voz
1.4.6. Lugar y Forma de Articulación
Lugar de articulación
• Bilabial: p, b, m, w
• Labiodental: f
• Oclusiva: cierre + apertura súbita (p,
b, t, d, k, g)
• Fricativa: Turbulencia en constricción
(f, s, z, θ)
• Dental: θ
• Alveolar: t, d, s, z, n, l
• Palatal: r, y
Forma de articulación
• Africada: oclusión + fricación (ch)
• Velar: k, g, ñ
• Nasal: baja el velo, aire en cav. nasal
(m, n, ñ)
• Gutural: h
• Lateral: aire por lados de lengua (l, ll)
• Semivocal: w, r, y
Tema 1: Análisis de Señales de Voz
T1.18
1.4. Naturaleza de la Señal de Voz
1.4.7. Los Sonidos Vocálicos
Realizaciones
articulatorias orales de
los sonidos vocálicos
(1) /a/
(2) /e/
(3) /i/
(1) /a/ en baba [βáβa].
(2) /e/ en bebe [βéβe].
(3) /i/ en vivo [βíβo].
(4) /o/ en bobo [βóβo].
(5) /u/ en pupas [púpas].
(4) /o/
(5) /u/
Tema 1: Análisis de Señales de Voz
T1.19
1.4. Naturaleza de la Señal de Voz
1.4.8. Los Formantes de las Vocales (Esp)
„
Espectrograma correspondiente a las 5 vocales del Castellano (de la
/a/ a la /u/, de izqda. a drcha.), mostrando los dos primeros
formantes, F1 y F2.
Tema 1: Análisis de Señales de Voz
T1.20
1.4. Naturaleza de la Señal de Voz
1.4.8. Diferenciación Sordo / Sonoro
„
„
„
Según la naturaleza de los sonidos, la diferenciación
estriba en la vibración o no de las cuerdas vocales.
Los sonidos sonoros son periódicos, debido a la vibración
de las cuerdas. La frecuencia fundamental de vibración
de las cuerdas constituye el tono. Son sonidos de alta
energía y estabilidad a corto plazo.
Los sonidos sordos son de apariencia ruidosa, pues se
generan como turbulencias de aire en alguna
constricción del tracto. Son sonidos de alta frecuencia y
baja energía, y baja estabilidad a corto plazo.
Tema 1: Análisis de Señales de Voz
T1.21
1.4. Naturaleza de la Señal de Voz
1.4.8. Representación Espectral
„
Sonidos Sonoros
‰
Su característica más relevante es la periodicidad, como se puede
observar a continuación en la forma de onda de la vocal /u/:
Tema 1: Análisis de Señales de Voz
T1.22
1.4. Naturaleza de la Señal de Voz
1.4.8. Representación Espectral
„
Sonidos Sonoros
‰
La representación espectral está caracterizada por la aparición de
armónicos (múltiplos enteros de f0). Dichas componentes se
denominarán ESTRUCTURA FINA del espectro.
Tema 1: Análisis de Señales de Voz
T1.23
1.4. Naturaleza de la Señal de Voz
1.4.9. Sonidos Sordos en el Tiempo
„
Sonidos Sordos
‰
Producidos por una turbulencia de aire en una constricción del tracto
vocal, su apariencia es ruidosa. En la figura se observa un sonido sordo
entre dos sonidos sonoros:
Tema 1: Análisis de Señales de Voz
T1.24
1.4. Naturaleza de la Señal de Voz
1.4.10. Sonidos Sordos en la Frecuencia
„
Sonidos Sordos
‰
La apariencia espectral es también ruidosa, sin estructura armónica
definida. Su contribución se concentra en las altas frecuencias vocales:
Tema 1: Análisis de Señales de Voz
T1.25
1.4. Naturaleza de la Señal de Voz
1.4.10. Sonidos Impulsivos
‰
Las consonantes oclusivas, formadas por un tiempo de cierre y
otro de explosión (con apariencia impulsiva) pueden ser sonoras
o sordas:
Tema 1: Análisis de Señales de Voz
T1.26
1.4. Naturaleza de la Señal de Voz
1.4.11. Formantes: Carácter Diferenciador
‰
‰
‰
‰
‰
Los formantes responden a la configuración específica de los
órganos del tracto al pronunciar un determinado sonido.
Cada sonido específico conllevará una envolvente espectral
característica y diferenciadora respecto al resto de sonidos.
El oído humano se basa en la estructura formántica para
discriminar entre sonidos.
Los sistemas de reconocimiento automático basan su eficiencia
en la capacidad de parametrizar adecuadamente la envolvente
espectral.
La estructura fina no aporta información diferenciadora entre los
sonidos, pues dos estructuras distintas pueden corresponder a un
mismo sonido.
Tema 1: Análisis de Señales de Voz
T1.27
1.4. Naturaleza de la Señal de Voz
1.4.11. Formantes: Carácter Diferenciador
Los formantes responden a la configuración específica de los
órganos del tracto al pronunciar un determinado sonido.
0
Amplitud(dB)
Amplitud(dB)
‰
-10
-10
-20
-20
-30
-30
-40
-40
-50
-50
-60
-60
Frecuencia fundamental: 196 Hz.
-70
Frecuencia fundamental: 122 Hz.
0
0
1
2
3
4
5
Frecuencia(KHz)
6
7
8
-70
0
1
2
Tema 1: Análisis de Señales de Voz
3
4
5
Frecuencia(KHz)
6
7
T1.28
8
1.5. Descomposición Excitación-Tracto
‰
Las figuras siguientes muestran la descomposición (separación)
posible entre las contribuciones de la excitación y del tracto vocal
en sonidos sonoros y sordos:
Tema 1: Análisis de Señales de Voz
T1.29
1.6. Distribución de Niveles de Amplitud
Función densidad de probabilidad
de niveles
• Nuestra referencia (0 dB) es el
valor RMS (asociado a la energía).
• Máximos niveles a +18 dB (0.1%).
• Mínimos niveles a –50 dB (2%).
• Margen dinámico (ideal): ≈ 65 dB
• Margen dinámico (real): 40-50 dB
Tema 1: Análisis de Señales de Voz
T1.30
1.7. Espectro Promedio a Largo Plazo
Diferencias apreciadas
ƒ Los hombres tienen información
desde menos de 100 Hz.
ƒ Las mujeres comienzan en 200300 Hz.
ƒ Los espectros caen con 10
dB/octava a partir de 500 Hz.
Tema 1: Análisis de Señales de Voz
T1.31
1.8. Distribución de Frecuencia Fundamental
Diferencias
hombre / mujer
Hombres:
• Centrado en 125 Hz.
• Desviación: 20.5 Hz.
Mujeres:
• Centrado en 250 Hz.
• Desviación: 41 Hz.
Tema 1: Análisis de Señales de Voz
T1.32
1.9. Modelo Simplificado de Producción
Modelo de
pulso glotal
Gv
Filtro de
envolvente
espectral
G(z)
Decisión
sonoro/sordo
H(z)
Modelo de
radiación
R(z)
Señal de
voz
Gu
Tema 1: Análisis de Señales de Voz
T1.33
1.9. Modelo Simplificado de Producción
1.9.1. Modelo de Pulso Glotal
‰
‰
El modelo de pulso glotal, G(z), aplica una estimación de cómo
son los pulsos glotales (en forma de onda).
La salida de este sistema, a cuya entrada tenemos un tren de
impulsos separados el periodo fundamental, será un tren de
pulsos glotales a la frecuencia fundamental deseada, a saber:
Tema 1: Análisis de Señales de Voz
T1.34
1.9. Modelo Simplificado de Producción
1.9.1. Modelo de Radiación
‰
‰
El modelo de radiación, R(z), reproduce el efecto de la impedancia
de radiación que el medio opone a la salida del habla desde la boca.
Supone una atenuación a altas frecuencias vocales, lo que explica el
uso de pre-énfasis en los sistemas de reconocimiento de habla:
Tema 1: Análisis de Señales de Voz
T1.35
Descargar