1 Modelado de la cóclea como en un Sistema no Lineal y respuesta del modelo a sonidos vocálicos Gloria Carolina Fernández Otálora y Alfredo Restrepo Palacios Laboratorio de Señales, Departamento de Ingeniería Eléctrica y Electrónica Universidad de Los Andes, Bogotá, Colombia Resumen—Este artículo presenta el desarrollo de un trabajo basado en la simulación de la respuesta a estímulos sonoros de la membrana basilar mediante la solución de la ecuación de propagación de onda en una membrana en 2D con densidad de masa y tensión no uniformes, obteniéndose una ecuación diferencial en derivadas parciales no lineal. El objetivo, además de obtener un sistema no lineal selectivo en tiempo-frecuencia, es reconocer sonidos vocálicos mediante la identificación de patrones de vibración sobre la membrana. Índice de Términos—Cóclea, ecuación de propagación de onda en 2D membrana basilar, sistema no lineal, reconocimiento. I. INTRODUCCIÓN Las técnicas más conocidas para el reconocimiento de voz son técnicas lineales basadas en la transformada de Fourier. En este artículo se explora la posibilidad de hacer reconocimiento de fonemas basandose en un método no lineal el el que se caracterizan sonidos, específicamente los sonidos vocálicos (a, e, i, o, u). En el oído humano se realizan los procesos de recepción y transducción del sonido, enviando la señal resultante por el nervio auditivo, antes de que el cerebro permita la percepción del sonido. Dentro de la cóclea ocurren fenómenos físicos, químicos y eléctricos que constituyen un paso inicial en la percepción del sonido. La cóclea presenta un comportamiento impredecible con un modelo lineal, que se quiere modelar aproximadamente con la meta de hacer reconocimiento de voz, así, se pretende que el sistema sea también sensible a la frecuencia de la señales sinusoidales en forma análoga a como la cóclea responde a éstas. II. LA CÓCLEA Figura 1. El oído interno. En la base de la cóclea existen dos orificios: la ventana oval y la ventana redonda, cada una de ellas cerrada por una membrana. Cuando la cadena de huesecillos del oído medio transduce el sonido, el estribo golpea contra la ventana oval, produciendo un movimiento en el líquido de la cóclea y a su vez de las membranas basilar y de Reissner, logrando así una respuesta de las células ciliares que están ubicadas en el órgano de Corti, sobre la membrana basilar, las cuales reciben y envían señales nerviosas desde y hacia el cerebro donde se lleva a cabo el reconocimiento del sonido [1], [2], [3]. III. MODELO EN MATLAB DE LA MEMBRANA BASILAR La membrana basilar tiene una longitud aproximada de 32 mm. Cuando el estribo vibra contra la ventana oval, se producen oscilaciones en los cilios de las células sobre la membrana basilar, a medida que la vibración en el líquido viaja por el interior de la cóclea. Los tonos agudos hacen vibrar la membrana basilar cerca de las ventanas, donde es más delgada y rígida que cerca del final de la cóclea (cien veces más rígida), los tonos graves hacen también vibrar la membrana basilar cerca del final de la cóclea, donde es más flácida y cinco veces más ancha. La cóclea es un órgano del oído interno con forma de tubo cónico arrollado en espiral, más ancha en la base que al final; que estirada tiene entre 30 y 35mm de longitud aproximadamente; está llena de líquido (perilinfa y endolinfa) y rodeada por paredes óseas rígidas; en su interior existen dos membranas: la de Reissner y la basilar, que dividen la cóclea en 3 compartimientos. Figura 2. La cóclea, extendida. 2 La membrana basilar se simuló en Matlab mediante una “tela” en forma de trapecio con dimensiones aproximadas a las descritas anteriormente. Sobre esta “tela” se solucionó la ecuación diferencial en derivadas parciales que describe la propagación de una onda en una membrana no homogénea en 2D [4]: ∂ 2U 1 ∂ ∂U ∂ ∂U = + To( x, y ) To( x, y ) 2 ρ ( x, y ) ∂x ∂x ∂y ∂y ∂t siguientes se utilizaron señales de voz de cuatro personas diferentes, dos hombres y dos mujeres representadas en los cinco sonidos vocálicos para cada persona. Las señales de voz fueron adquiridas mediante el programa GoldWave a una tasa de muestreo de 11025 Hz y con una duración de 400ms cada una, posteriormente a cada señal se le eliminó el nivel DC. Como cada señal de voz dura 400ms, ésta se compone de 4410 muestras, lo que significa que en ese intervalo de tiempo existen 4410 soluciones, una para cada tiempo de cada muestra. con condiciones iniciales: U (t = 0) = 0 U ' (t = 0) = 0 y condiciones de frontera: U ( x = 0, y = 0, t ) = excitación (t ) además, se consideraron dos casos. El primero con la “tela” libre, es decir, sin ser fijada por ninguno de sus lados teniendo como única condición de frontera la excitación (en el lado izquierdo del trapecio). El segundo caso es con la membrana fija, es decir con condiciones de frontera iguales a cero para los tres lados restantes. Para solucionar la ecuación se utilizó el método de elementos finitos del toolbox de Matlab para ecuaciones diferenciales parciales, sobre la siguiente región de solución [5], [6]: IV. SELECCIÓN DE LA DENSIDAD Y LA TENSIÓN Inicialmente se buscaron una tensión y una densidad para la membrana en el modelo, que permitieran que el modelo respondiera a sinusoides de diferentes frecuencias en forma cualitativamente similar a como lo hace la membrana basilar. Inicialmente, se buscó que para frecuencias altas la excitación resultante se fuera atenuando a lo largo de la membrana, es decir que la respuesta se notara más hacia la base y que para las frecuencias bajas la excitación fuera más notoria hacia el extremo final de la membrana. Esto se hizo tanto para el caso de la membrana libre como para el de la membrana fija. Para el caso de membrana libre, se mantuvo la densidad constante e igual a 1. Luego de hacer pruebas con diferentes tensiones, se encontró que se obtiene una buena respuesta con la tensión: T ( x) = x.e x Para llegar a esta conclusión se simuló la respuesta de la membrana durante 400ms, notándose para esta tensión T, una atenuación para las frecuencias altas y una excitación mas pronunciada para las bajas al final de la membrana. A continuación se muestran algunas gráficas de la respuesta de la membrana, en t = 400ms. Time=0.3999 Excitacion:sin(1000t) 20 15 30 10 20 Figura 3. Modelo triangulado de la membrana. Esta región contiene 640 triángulos y 369 nodos. La solución está contenida en una matriz donde a cada tiempo de solución ti le corresponde un valor de U en cada nodo de la región. Las excitaciones para las primeras pruebas fueron sinusoides de diferentes frecuencias; para las pruebas 10 5 0 0 -10 -5 -20 0.5 -10 0.4 4 3 0.3 2 0.2 1 0.1 0 Figura 3.a -15 3 finalmente, Time=0.3999 Excitacion:sin(10000t) 25 ρ ( x) = x 20 30 15 20 10 10 5 0 0 Algunas respuestas a sinusoides en t = 400ms bajo los anteriores parámetros se muestran a continuación. -10 -5 -20 -10 -30 0.5 -15 0.4 4 -20 3 0.3 2 0.2 -25 1 0.1 0 Figura 3.b 4 Time=0.3999 Excitacion:sin(100000t) x 10 5 20 x 10 Figura 4.a 3 15 2 10 1 0 5 -1 0.5 0 0.4 4 3 0.3 2 0.2 -5 1 0.1 0 Figura 3.c Para el caso en que la membrana está sostenida, igual se hicieron repetidas pruebas y, teniendo en cuenta que la membrana es cerca de 100 veces más rígida cerca de las ventanas que al final de la cóclea, se escogió una tensión lineal dada por: T ( x) = −28.28 x + 100 Con base en esta tensión se buscó una densidad, se escogió Figura 4.b 4 Membrana sostenida: Figura 4.a Vocal A Figura 4.c V. RESPUESTA A SONIDOS VOCALICOS Luego de escoger una densidad y una tensión según la respuesta esperada a sinusoides, se hicieron las pruebas con sonidos vocálicos como excitación. Para esto, cada archivo .wav se leyó en un vector de datos donde la primera posición corresponde a la condición de frontera en t=0, hasta la posición 4410 correspondiente a la condición de frontera en t=400ms. Algunas de las respuestas en t=400ms se pueden ver más abajo. Luego de tener la matriz solución correspondiente a cada vocal, se graficó el rango (osea, el valor máximo menos el valor mínimo) de la respuesta en cada nodo de la región; para esto, se partió el espacio en hexágonos, de tal forma que cada nodo fuera el centro de un hexágono y así colorear todo el hexágono del valor que toma el rango en el nodo que corresponde a su centro; el fondo en el caso de la membrana sostenida corresponde al ‘cero’ de la imagen. Esto se hizo con el fin de identificar las regiones de mayor excitación durante el intervalo de tiempo; como los resultados tenían inicialmente cambios muy grandes, con el fin de suavizar un poco la imagen de resultados, se sacó logaritmo al rango. Para identificar más fácilmente los cambios entre respuestas se hicieron videos con las imágenes obtenidas a partir de las matrices. Con estas graficas es fácilmente diferenciable la voz de un hombre de la de una mujer; la de los hombres se proyecta mucho más clara durante toda la membrana, en cambio la de las mujeres es oscura en casi toda la región, habiendo segmentos más claros sólo hacia el final de la membrana, en vocales como la i. Con estas graficas aún no es posible diferenciar claramente una vocal de otra. A continuación se muestran algunas de las gráficas para los dos casos (membrana libre y membrana sostenida), también algunas respuestas a sinusoides. Figura 4.b Vocal A Figura 4.c Vocal I Figura 4.d Vocal I 5 Membrana libre: oscuras verticales, las íes son oscuras en casi toda la región, las os son mucho más oscuras en la parte central que las us y se alcanzan a notar las líneas verticales. Las es son claras en casi toda la membrana al igual que las áes, no se alcanza a notar una diferencia clara entre a y e con éste análisis. A continuación se muestran algunos ejemplos. Figura 4.e Vocal U Figura 5.a Vocal U Figura 4.f Vocal U Figura 5.b Vocal U Figura 4.g Vocal O Figura 5.c Vocal O Figura 4.h Vocal O Para identificar las vocales se trabajó únicamente con la membrana sostenida; para ello se utilizó la media en cambio del rango y se puede decir que las áes tienden a ser mas claras en toda la región, las us mantienen un nivel intermedio y se les marca más claramente unas líneas Figura 5.d Vocal O 6 Figura 5.d Vocal A Figura 5.e Vocal A Figura 5.f Vocal I frecuencias, lo que hace que se puedan diferenciar fácilmente las voces femeninas de las masculinas. El modelo actual no tiene en cuenta el líquido ni la forma real de excitación del sistema la cuál se hace a través del líquido, y no de la membrana, factores que deben influir radicalmente en la respuesta de la membrana. Se diseñó un sistema no lineal para diferenciar sonidos; en éste trabajo se exploraron tan solo algunas de las muchas posibilidades que ofrece la ecuación de onda, la membrana, las condiciones de frontera y en general todos los parámetros de solución de la ecuación diferencial, que hacen que el problema pueda ser abordado de muchas maneras diferentes y seguramente habrá forma de optimizar la solución mediante la variación de la tensión, la densidad, la forma de la membrana, las condiciones iniciales o las de frontera . El mayores inconveniente está en el tiempo de ejecución del algoritmo que resuelve la ecuación diferencial, ya que en algunos se necesitan hasta 12 minutos para obtener la respuesta de la membrana a una señal de voz; el tiempo de ejecución depende entre otras cosas de la tasa de muestreo de la señal, la tolerancia al error, el tamaño de la región de solución, el número de triángulos y el número de nodos. Los trabajos futuros deberán dirigirse a la búsqueda de un algoritmo de la solución de la ecuación de onda que sea más eficiente que el utilizado actualmente, para luego mediante prueba y error, buscar unas tensión y densidad más adecuadas para para la caracterización de sonidos, así como permitir el uso de una base de datos más amplia, es decir, trabajar con señales provenientes de mas de cuatro personas. Los resultados de este trabajo son una buena base para seguir explorando un sistema que inspirado en el funcionamiento del oído humano reconozca sonidos, mostrando una alternativa diferente al análisis de Fourier en el tratamiento de señales de voz. REFERENCIAS Figura 5.h Vocal I VI. CONCLUSIONES Este modelo de membrana arroja buenos resultados en la diferenciación de frecuencias de sinusoides, aunque no es tan refinado (y por lo tanto aun no está listo) para reconocer fonemas. Se puede decir que se logra imitar en alguna medida el comportamiento real de la membrana basilar, aún estando lejos de sus especificaciones reales de tensión y densidad (que son desconocidas). Es claro que la membrana simulada responde selectivamente a diferentes [1] http://www.bcm.tmc.edu/oto/research/cochlea/Hearing/ Fecha de consulta: 24 de Agosto de 2003, Tema general: Cochlear Biophysics Laboratory [2] http://psych.athabascau.ca/html/Psych402/Biotutorials/25/par t1.html Fecha de consulta: 24 de Agosto de 2003, Tema general: The Human Ear [3] George, G. Somjen. (1986), Neuro Fisiología. Buenos Aires. ED. Panamericana. [4] Crawford Jr., Frank S. 1971 Berkeley Physics Course v.3. Barcelona. Reverte, S. A [5] Burden, Richard L. 2002. Análisis numérico. México, D.F. Thomson Learning. [6] COMSOL AB. 2002. Partial Differential Equation Toolbox User’s Guide version 1. Natick, MA 01760-2098. The Mathworks