art simp coclea - Laboratorio de Señales

Anuncio
1
Modelado de la cóclea como en un Sistema no
Lineal y respuesta del modelo a sonidos vocálicos
Gloria Carolina Fernández Otálora y Alfredo Restrepo Palacios
Laboratorio de Señales, Departamento de Ingeniería Eléctrica y Electrónica
Universidad de Los Andes, Bogotá, Colombia
Resumen—Este artículo presenta el desarrollo de un trabajo
basado en la simulación de la respuesta a estímulos sonoros de la
membrana basilar mediante la solución de la ecuación de
propagación de onda en una membrana en 2D con densidad de
masa y tensión no uniformes, obteniéndose una ecuación
diferencial en derivadas parciales no lineal. El objetivo, además
de obtener un sistema no lineal selectivo en tiempo-frecuencia, es
reconocer sonidos vocálicos mediante la identificación de
patrones de vibración sobre la membrana.
Índice de Términos—Cóclea, ecuación de propagación de onda
en 2D membrana basilar, sistema no lineal, reconocimiento.
I. INTRODUCCIÓN
Las técnicas más conocidas para el reconocimiento de
voz son técnicas lineales basadas en la transformada de
Fourier. En este artículo se explora la posibilidad de hacer
reconocimiento de fonemas basandose en un método no
lineal el el que se caracterizan sonidos, específicamente los
sonidos vocálicos (a, e, i, o, u).
En el oído humano se realizan los procesos de recepción
y transducción del sonido, enviando la señal resultante por
el nervio auditivo, antes de que el cerebro permita la
percepción del sonido. Dentro de la cóclea ocurren
fenómenos físicos, químicos y eléctricos que constituyen
un paso inicial en la percepción del sonido. La cóclea
presenta un comportamiento impredecible con un modelo
lineal, que se quiere modelar aproximadamente con la meta
de hacer reconocimiento de voz, así, se pretende que el
sistema sea también sensible a la frecuencia de la señales
sinusoidales en forma análoga a como la cóclea responde a
éstas.
II. LA CÓCLEA
Figura 1. El oído interno.
En la base de la cóclea existen dos orificios: la ventana
oval y la ventana redonda, cada una de ellas cerrada por
una membrana. Cuando la cadena de huesecillos del oído
medio transduce el sonido, el estribo golpea contra la
ventana oval, produciendo un movimiento en el líquido de
la cóclea y a su vez de las membranas basilar y de Reissner,
logrando así una respuesta de las células ciliares que están
ubicadas en el órgano de Corti, sobre la membrana basilar,
las cuales reciben y envían señales nerviosas desde y hacia
el cerebro donde se lleva a cabo el reconocimiento del
sonido [1], [2], [3].
III. MODELO EN MATLAB DE LA MEMBRANA
BASILAR
La membrana basilar tiene una longitud aproximada de
32 mm. Cuando el estribo vibra contra la ventana oval, se
producen oscilaciones en los cilios de las células sobre la
membrana basilar, a medida que la vibración en el líquido
viaja por el interior de la cóclea. Los tonos agudos hacen
vibrar la membrana basilar cerca de las ventanas, donde es
más delgada y rígida que cerca del final de la cóclea (cien
veces más rígida), los tonos graves hacen también vibrar la
membrana basilar cerca del final de la cóclea, donde es más
flácida y cinco veces más ancha.
La cóclea es un órgano del oído interno con forma de
tubo cónico arrollado en espiral, más ancha en la base que
al final; que estirada tiene entre 30 y 35mm de longitud
aproximadamente; está llena de líquido (perilinfa y
endolinfa) y rodeada por paredes óseas rígidas; en su
interior existen dos membranas: la de Reissner y la basilar,
que dividen la cóclea en 3 compartimientos.
Figura 2. La cóclea, extendida.
2
La membrana basilar se simuló en Matlab mediante una
“tela” en forma de trapecio con dimensiones aproximadas
a las descritas anteriormente. Sobre esta “tela” se solucionó
la ecuación diferencial en derivadas parciales que describe
la propagación de una onda en una membrana no
homogénea en 2D [4]:
∂ 2U
1 ∂ 
∂U  ∂ 
∂U 

=
 +  To( x, y )
  To( x, y )
2
ρ ( x, y )  ∂x 
∂x  ∂y 
∂y 
∂t
siguientes se utilizaron señales de voz de cuatro personas
diferentes, dos hombres y dos mujeres representadas en los
cinco sonidos vocálicos para cada persona. Las señales de
voz fueron adquiridas mediante el programa GoldWave a
una tasa de muestreo de 11025 Hz y con una duración de
400ms cada una, posteriormente a cada señal se le eliminó
el nivel DC.
Como cada señal de voz dura 400ms, ésta se compone de
4410 muestras, lo que significa que en ese intervalo de
tiempo existen 4410 soluciones, una para cada tiempo de
cada muestra.
con condiciones iniciales:
U (t = 0) = 0
U ' (t = 0) = 0
y condiciones de frontera:
U ( x = 0, y = 0, t ) = excitación (t )
además, se consideraron dos casos. El primero con la “tela”
libre, es decir, sin ser fijada por ninguno de sus lados
teniendo como única condición de frontera la excitación (en
el lado izquierdo del trapecio). El segundo caso es con la
membrana fija, es decir con condiciones de frontera iguales
a cero para los tres lados restantes.
Para solucionar la ecuación se utilizó el método de
elementos finitos del toolbox de Matlab para ecuaciones
diferenciales parciales, sobre la siguiente región de
solución [5], [6]:
IV. SELECCIÓN DE LA DENSIDAD Y LA TENSIÓN
Inicialmente se buscaron una tensión y una densidad para
la membrana en el modelo, que permitieran que el modelo
respondiera a sinusoides de diferentes frecuencias en forma
cualitativamente similar a como lo hace la membrana
basilar. Inicialmente, se buscó que para frecuencias altas la
excitación resultante se fuera atenuando a lo largo de la
membrana, es decir que la respuesta se notara más hacia la
base y que para las frecuencias bajas la excitación fuera
más notoria hacia el extremo final de la membrana. Esto se
hizo tanto para el caso de la membrana libre como para el
de la membrana fija. Para el caso de membrana libre, se
mantuvo la densidad constante e igual a 1. Luego de hacer
pruebas con diferentes tensiones, se encontró que se
obtiene una buena respuesta con la tensión:
T ( x) = x.e x
Para llegar a esta conclusión se simuló la respuesta de la
membrana durante 400ms, notándose para esta tensión T,
una atenuación para las frecuencias altas y una excitación
mas pronunciada para las bajas al final de la membrana. A
continuación se muestran algunas gráficas de la respuesta
de la membrana, en t = 400ms.
Time=0.3999 Excitacion:sin(1000t)
20
15
30
10
20
Figura 3. Modelo triangulado de la membrana.
Esta región contiene 640 triángulos y 369 nodos. La
solución está contenida en una matriz donde a cada tiempo
de solución ti le corresponde un valor de U en cada nodo
de la región.
Las excitaciones para las primeras pruebas fueron
sinusoides de diferentes frecuencias; para las pruebas
10
5
0
0
-10
-5
-20
0.5
-10
0.4
4
3
0.3
2
0.2
1
0.1
0
Figura 3.a
-15
3
finalmente,
Time=0.3999 Excitacion:sin(10000t)
25
ρ ( x) = x
20
30
15
20
10
10
5
0
0
Algunas respuestas a sinusoides en t = 400ms bajo los
anteriores parámetros se muestran a continuación.
-10
-5
-20
-10
-30
0.5
-15
0.4
4
-20
3
0.3
2
0.2
-25
1
0.1
0
Figura 3.b
4
Time=0.3999 Excitacion:sin(100000t)
x 10
5
20
x 10
Figura 4.a
3
15
2
10
1
0
5
-1
0.5
0
0.4
4
3
0.3
2
0.2
-5
1
0.1
0
Figura 3.c
Para el caso en que la membrana está sostenida, igual se
hicieron repetidas pruebas y, teniendo en cuenta que la
membrana es cerca de 100 veces más rígida cerca de las
ventanas que al final de la cóclea, se escogió una tensión
lineal dada por:
T ( x) = −28.28 x + 100
Con base en esta tensión se buscó una densidad, se escogió
Figura 4.b
4
Membrana sostenida:
Figura 4.a Vocal A
Figura 4.c
V. RESPUESTA A SONIDOS VOCALICOS
Luego de escoger una densidad y una tensión según la
respuesta esperada a sinusoides, se hicieron las pruebas con
sonidos vocálicos como excitación. Para esto, cada archivo
.wav se leyó en un vector de datos donde la primera
posición corresponde a la condición de frontera en t=0,
hasta la posición 4410 correspondiente a la condición de
frontera en t=400ms.
Algunas de las respuestas en
t=400ms se pueden ver más abajo.
Luego de tener la matriz solución correspondiente a cada
vocal, se graficó el rango (osea, el valor máximo menos el
valor mínimo) de la respuesta en cada nodo de la región;
para esto, se partió el espacio en hexágonos, de tal forma
que cada nodo fuera el centro de un hexágono y así
colorear todo el hexágono del valor que toma el rango en el
nodo que corresponde a su centro; el fondo en el caso de la
membrana sostenida corresponde al ‘cero’ de la imagen.
Esto se hizo con el fin de identificar las regiones de mayor
excitación durante el intervalo de tiempo; como los
resultados tenían inicialmente cambios muy grandes, con el
fin de suavizar un poco la imagen de resultados, se sacó
logaritmo al rango. Para identificar más fácilmente los
cambios entre respuestas se hicieron videos con las
imágenes obtenidas a partir de las matrices. Con estas
graficas es fácilmente diferenciable la voz de un hombre de
la de una mujer; la de los hombres se proyecta mucho más
clara durante toda la membrana, en cambio la de las
mujeres es oscura en casi toda la región, habiendo
segmentos más claros sólo hacia el final de la membrana,
en vocales como la i. Con estas graficas aún no es posible
diferenciar claramente una vocal de otra. A continuación se
muestran algunas de las gráficas para los dos casos
(membrana libre y membrana sostenida), también algunas
respuestas a sinusoides.
Figura 4.b Vocal A
Figura 4.c Vocal I
Figura 4.d Vocal I
5
Membrana libre:
oscuras verticales, las íes son oscuras en casi toda la región,
las os son mucho más oscuras en la parte central que las us
y se alcanzan a notar las líneas verticales. Las es son claras
en casi toda la membrana al igual que las áes, no se alcanza
a notar una diferencia clara entre a y e con éste análisis. A
continuación se muestran algunos ejemplos.
Figura 4.e Vocal U
Figura 5.a Vocal U
Figura 4.f Vocal U
Figura 5.b Vocal U
Figura 4.g Vocal O
Figura 5.c Vocal O
Figura 4.h Vocal O
Para identificar las vocales se trabajó únicamente con la
membrana sostenida; para ello se utilizó la media en
cambio del rango y se puede decir que las áes tienden a ser
mas claras en toda la región, las us mantienen un nivel
intermedio y se les marca más claramente unas líneas
Figura 5.d Vocal O
6
Figura 5.d Vocal A
Figura 5.e Vocal A
Figura 5.f Vocal I
frecuencias, lo que hace que se puedan diferenciar
fácilmente las voces femeninas de las masculinas.
El modelo actual no tiene en cuenta el líquido ni la forma
real de excitación del sistema la cuál se hace a través del
líquido, y no de la membrana, factores que deben influir
radicalmente en la respuesta de la membrana.
Se diseñó un sistema no lineal para diferenciar sonidos; en
éste trabajo se exploraron tan solo algunas de las muchas
posibilidades que ofrece la ecuación de onda, la membrana,
las condiciones de frontera y en general todos los
parámetros de solución de la ecuación diferencial, que
hacen que el problema pueda ser abordado de muchas
maneras diferentes
y seguramente habrá forma de
optimizar la solución mediante la variación de la tensión, la
densidad, la forma de la membrana, las condiciones
iniciales o las de frontera .
El mayores inconveniente está en el tiempo de ejecución
del algoritmo que resuelve la ecuación diferencial, ya que
en algunos se necesitan hasta 12 minutos para obtener la
respuesta de la membrana a una señal de voz; el tiempo de
ejecución depende entre otras cosas de la tasa de muestreo
de la señal, la tolerancia al error, el tamaño de la región de
solución, el número de triángulos y el número de nodos.
Los trabajos futuros deberán dirigirse a la búsqueda de un
algoritmo de la solución de la ecuación de onda que sea
más eficiente que el utilizado actualmente, para luego
mediante prueba y error, buscar unas tensión y densidad
más adecuadas para para la caracterización de sonidos, así
como permitir el uso de una base de datos más amplia, es
decir, trabajar con señales provenientes de mas de cuatro
personas.
Los resultados de este trabajo son una buena base para
seguir explorando un sistema que inspirado en el
funcionamiento del oído humano reconozca sonidos,
mostrando una alternativa diferente al análisis de Fourier en
el tratamiento de señales de voz.
REFERENCIAS
Figura 5.h Vocal I
VI. CONCLUSIONES
Este modelo de membrana arroja buenos resultados en la
diferenciación de frecuencias de sinusoides, aunque no es
tan refinado (y por lo tanto aun no está listo) para
reconocer fonemas. Se puede decir que se logra imitar en
alguna medida el comportamiento real de la membrana
basilar, aún estando lejos de sus especificaciones reales de
tensión y densidad (que son desconocidas). Es claro que la
membrana simulada responde selectivamente a diferentes
[1] http://www.bcm.tmc.edu/oto/research/cochlea/Hearing/
Fecha de consulta: 24 de Agosto de 2003, Tema general:
Cochlear Biophysics Laboratory
[2] http://psych.athabascau.ca/html/Psych402/Biotutorials/25/par
t1.html Fecha de consulta: 24 de Agosto de 2003, Tema
general: The Human Ear
[3] George, G. Somjen. (1986), Neuro Fisiología. Buenos Aires.
ED. Panamericana.
[4] Crawford Jr., Frank S. 1971 Berkeley Physics Course v.3.
Barcelona. Reverte, S. A
[5] Burden, Richard L. 2002. Análisis numérico. México, D.F.
Thomson Learning.
[6] COMSOL AB. 2002. Partial Differential Equation Toolbox
User’s Guide version 1. Natick, MA 01760-2098. The
Mathworks
Descargar