PERCEPCIÓN DEL TONO FUNDAMENTAL EN PACIENTES CON IMPLANTE COCLEAR Ángel de la Torre(1)∗ , Cristina Roldán(2) , Patricia Rosales(1) , Manuel Sainz(2,3) (1) Dpto. de Electrónica y Tecn. Comp., Universidad de Granada, 18071 Granada (España) (2) Servicio ORL, Hospital Universitario S. Cecilio, 18012 Granada (España) (3) Dpto. Cirugı́a y sus Especialidades, Universidad de Granada, 18071 Granada (España) ∗ Tel: +34.958.24.32.71 Fax: +34.958.24.32.30 e-mail: [email protected] Resumen La percepción del tono fundamental es importante para la percepción de la voz, ya que proporciona información útil para la identificación de locutores, permite la extracción de información prosódica, y es usada para enfatizar palabras clave en las frases. Además, en el caso de los idiomas tonales la entonación es una caracterı́stica con valor fonético, por lo que en estos casos la percepción del tono va más allá de suministrar información suprasegmental. En el caso de pacientes con pérdidas auditivas que han recibido implantes cocleares, las limitaciones técnicas asociadas al procedimiento de estimulación del nervio auditivo condicionan los mecanismos de percepción del tono fundamental. En este trabajo analizamos las posibilidades y limitaciones de los implantes cocleares con respecto a la percepción del tono fundamental. 1. Introducción Figura 1: Elementos de un sistema de implante coclear. Los implantes cocleares han supuesto un avance muy importante en el tratamiento de las hipoacusias severas y profundas [1]. El sistema de implante coclear consta de un elemento interno, implantado mediante una intervención quirúrgica, y un elemento externo. El elemento interno dispone de una guı́a portaelectrodos alojada en el interior de la cóclea, un electrodo de referencia (usualmente colocado bajo el músculo temporal) y un receptorestimulador. La parte externa dispone de baterı́as, un micrófono, un procesador y un transmisor para establecer una conexión mediante un acoplamiento inductivo con el receptor-estimulador de la parte interna. En la figura 1 se representan los principales elementos de un sistema de implante coclear. El principio básico del implante coclear consiste en recoger el sonido, procesarlo y generar pulsos eléctricos en el interior de la cóclea que estimulan el nervio auditivo, proporcionando al paciente una sensación de audición. De este modo, en los pacientes afectados por una hipoacusia severa o profunda de tipo neurosensorial el mecanismo de transducción es sustituido por el implante coclear [1, 2]. En la actualidad, la eficacia del implante coclear está aceptada y fuera de toda duda. El implante coclear proporciona, en la mayor parte de los casos, una percepción del sonido con calidad suficiente para el reconocimiento de voz, y es elevado el porcentaje de pacientes implantados capaces de mantener conversaciones fluidas sin necesidad de apoyo visual [3, 4]. Sin embargo, a pesar de proporcionar una calidad aceptable (y de mejorar considerablemente las posibilidades del paciente con respecto a la situación previa a la implantación) los implantes cocleares presentan algunas limitaciones, relacionadas con el procedimiento de estimulación. La percepción auditiva en un oı́do sano es un proceso complejo, que involucra al oı́do externo, el oı́do medio, el oı́do interno (en el que juegan un papel importante la mecánica de la membrana basilar, las células ciliadas externas e internas, los fluidos intracocleares, etc.) y las vı́as auditivas (incluyendo la inervación aferente y eferente del nervio coclear y diversas estaciones en el tronco cerebral hasta llegar a la corteza cerebral). Cuando se utiliza un implante coclear se sustituye el mecanismo natural de estimulación por un proceso que resulta bastante tosco si se compara con la percepción en el oı́do sano [5]. Frente a las cerca de 6.000 células ciliadas internas, entre 15.000 y 20.000 externas, y alrededor de 40.000 terminaciones nerviosas en el oı́do sano, los implantes cocleares disponen, en la actualidad, de un número muy reducido de canales (entre 8 y 32 dependiendo de marcas y modelos). Por otra parte, frente a la conexión sináptica entre las células ciliadas y las terminaciones nerviosas, los electrodos del implante suministran corriente a una región cuya extensión es difı́cil de controlar. Además, en el implante coclear no son posibles los mecanismos activos de sintonización (asociados a la inervación eferente de las células ciliadas externas). Estos factores hacen que el implante, a pesar de ser muy útil para la detección de sonidos y para la percepción e inteligibilidad de la voz, presente limitaciones muy importantes, como pueden ser la inteligibilidad de la voz en condiciones de ruido o la percepción de sonidos complejos (como por ejemplo la música). Estas limitaciones están relacionadas con la resolución espectral que se puede obtener del implante coclear [6, 7]. Este trabajo se centra en la habilidad para la percepción de la frecuencia en los pacientes con implante coclear. La resolución en frecuencia juega un papel importante en la percepción del tono fundamental en la voz. Este aspecto va a afectar al control del tono en la voz producida por pacientes implantados, ası́ como a la percepción de las caracterı́sticas suprasegmentales de la voz asociadas al tono, o, en el caso de los idiomas tonales (como ocurre en algunas lenguas orientales) a la discriminación de los rasgos fonéticos asociados a la entonación. Para estudiar las posibilidades que ofrece el implante, primero analizamos los mecanismos involucrados en la percepción del tono y qué limitaciones aparecen como consecuencia del procedimiento de estimulación en el implante coclear. También analizamos cómo afecta la estrategia de codificación del sonido en la percepción del tono fundamental. Finalmente hemos analizado la resolución en frecuencia en sujetos implantados mediante tests de discriminación frecuencial, utilizado como estı́mulo tanto tonos puros como señales vocálicas sintéticas (señales periódicas generadas a partir de un modelo de producción de voz). Los resultados obtenidos en este estudio ponen de manifiesto que los sistemas actuales de implante coclear proporcionan un grado aceptable de percepción del tono fundamental para la voz, presentando limitaciones importantes en el caso de sonidos complejos (señales multi-pitch). Estos resultados resultan de gran interés a la hora de planificar la rehabilitación auditiva de los pacientes implantados. 2. Percepción de la frecuencia en el oı́do normal y en el oı́do implantado 2.1. Mecanismos de percepción de la frecuencia La percepción de la frecuencia cuando se estimula el oı́do con un tono puro, es un proceso complejo, basado en el lugar del máximo desplazamiento de la membrana basilar y del mecanismo activo de las células ciliadas del órgano de Corti. El punto de máxima estimulación de la cóclea depende de la frecuencia del tono utilizado. Para frecuencias bajas se sitúa cerca del apex y para frecuencias altas, cerca de la base. La teorı́a de la percepción que asocia a cada punto de la cóclea una frecuencia caracterı́stica se denomina teorı́a tonotópica. La resolución espectral del oı́do sano está determinada por el número de células ciliadas y terminaciones nerviosas del nervio auditivo y por su disposición a lo largo de la cóclea. En la cóclea hay alrededor de 6000 células ciliadas internas y cerca de 40.000 terminaciones nerviosas que las inervan. Su disposición permite una resolución espectral próxima a 1/10 de tono, o lo que es equivalente, un oı́do entrenado serı́a capaz, por ejemplo, de distinguir tonos de 450 Hz y 455 Hz (es decir, ∆f /f ≈ 1,2 %). La señal de audio no es estacionaria, es decir, sus propiedades (distribución espectral de la intensidad) varı́an en el tiempo. El oı́do puede percibir estas variaciones gracias a la respuesta dinámica de las células ciliadas y del nervio auditivo. De este modo, el patrón de estimulación que transmite el nervio auditivo varı́a en el tiempo de acuerdo con la evolución temporal de la señal de audio. Debido al proceso de generación de potenciales de acción, tanto las neuronas como las células ciliadas, tras haber producido una descarga, necesitan un tiempo de relajación antes de estar en condiciones de producir un nuevo disparo. Por esto, la tasa máxima de disparo se ve limitada a unos 400 o 500 disparos por segundo, lo que determina la resolución temporal del oı́do. Gracias a la respuesta dinámica del oı́do, para las señales cuya frecuencia fundamental es muy inferior a la tasa máxima de disparo, los disparos en las neuronas se sincronizan, teniendo lugar en los instantes en los que la señal presenta más energı́a. Mediante este mecanismo, la frecuencia fundamental puede quedar representada en el patrón temporal de estimulación en el nervio auditivo. De este modo, para señales de frecuencia fundamental baja (muy inferior a 400 Hz), la frecuencia fundamental se puede percibir a través del patrón temporal de estimulación. Este mecanismo de percepción se denomina principio de codificación temporal o principio de temporización. Existen, por tanto, dos mecanismos que permiten la percepción de la frecuencia fundamental: el descrito por la teorı́a tonotópica y el descrito por el principio de codificación temporal. El principio tonotópico es el dominante en la percepción de frecuencias altas (especialmente para frecuencias superiores a 400 Hz) mientras que el principio de codificación temporal domina para frecuencias bajas. 2.2. Limitaciones asociadas a la estimulación eléctrica Hay diferencias muy importantes entre la generación de potenciales de acción en un oı́do sano y la estimulación eléctrica del nervio auditivo mediante el implante coclear. La conexión sináptica entre las células ciliadas y las fibras nerviosas permite que la vibración de la membrana basilar en un punto determinado de la cóclea produzca potenciales de acción únicamente en las terminaciones que inervan las células ciliadas en ese punto de la cóclea. Sin embargo, la estimulación eléctrica mediante electrodos produce un campo de corriente en una región no confinada, que da lugar a la generación de potenciales de acción en una región relativamente extensa de la cóclea (mucho más que en el caso de la estimulación natural) [8]. Por otra parte, la generación de potenciales de acción en una célula ciliada no afecta a las células ciliadas situadas en su periferia, por lo que en la estimulación natural, los estı́mulos se generan independientemente en las distintas regiones de la cóclea sin interferir unas células ciliadas con otras. En el caso de los implantes cocleares (también debido a que no existe sinapsis entre los electrodos y las terminaciones nerviosas), si se estimulan simultáneamente dos electrodos, se produce una interferencia entre ambas estimulaciones. Esto es debido a que se ha establecido una diferencia de potencial entre el primer electrodo y el de referencia, y otra diferencia de potencial entre el segundo electrodo y el de referencia, y puesto que en general la estimulación en el primer y el segundo electrodo son distintas, va a aparecer una diferencia de potencial también entre el primer y el segundo electrodo, que va a estimular de forma incontrolada las terminaciones situadas entre ambos electrodos. Como consecuencia de esto, se evita la estimularse simultánea de dos electrodos, por lo que el proceso de estimulación de electrodos debe realizarse de forma secuencial, estimulando en cada instante de tiempo un único electrodo1 . Estas dos limitaciones que presentan los implantes cocleares son comunes a todos los diseños y son consecuencia del hecho de utilizar electrodos que suministran corriente eléctrica para generar los potenciales de acción en el nervio auditivo. La tecnologı́a actual no permite por el momento realizar una conexión con el nervio auditivo que permita una estimulación selectiva de las distintas fibras nerviosas o que permita la estimulación simultánea en varios puntos de la cóclea sin producir interferencia. Esta es la razón por la que todos los sistemas de implante coclear disponen de un número muy reducido de electrodos (en comparación con el número de células ciliadas externas) dando lugar a una resolución espectral tonotópica muy limitada. Teniendo en cuenta la interacción entre canales debida a la extensión del campo eléctrico [8], resulta muy difı́cil obtener resoluciones que superen la equivalente a 12 canales por década (lo que corresponde a ∆f /f ≈ 21 %). Sin embargo, la percepción del tono por parte de pacientes implantados, usualmente mejora este lı́mite tonotópico. En general los pacientes presentan un buen control del tono al hablar. Existen además pacientes capaces de entonar adecuadamente canciones, lo que indica resoluciones espectrales superiores a 1/4 tono (∆f /f < 3 %). En estos casos, la resolución espectral está asociada, fundamentalmente, al patrón temporal de estimulación proporcionado por el implante coclear. Los implantes 1 La estimulación simultánea en todos los canales en modo bipolar es una alternativa, aunque presenta otros inconvenientes. (A) Tono puro (404 Hz) 4000 4000 3000 3000 frecuencia (Hz) frecuencia (Hz) de alta tasa de estimulación (que proporcionan pulsos, para cada electrodo, con una tasa muy superior a la tasa máxima de disparo del nervio auditivo) permiten percibir el tono fundamental, a partir del patrón temporal de estimulación, ya que los instantes de máxima estimulación eléctrica (y las descargas en el nervio auditivo) se sincronizan con los picos de energı́a de la señal de audio, de forma similar al caso de la audición normal. Los sistemas de implante coclear actuales proporcionan tasas de estimulación suficientemente altas (alcanzándose en algunos casos varios miles de pulsos por segundo en cada electrodo), por lo que en estos casos la resolución temporal y la resolución espectral asociada al principio de codificación temporal, no se debe ver reducida significativamente con respecto a la audición normal. 2000 1000 0 0 0.05 0.1 0.15 0.2 tiempo (s) 2000 1000 0 0 0.25 5 0.1 0.2 tiempo (s) 0.3 0.1 0.2 tiempo (s) 0.3 12 amplitud 0 8 6 4 2 −5 0.1 0.11 0.12 0.13 tiempo (s) 0.14 0.15 4000 3000 3000 frecuencia (Hz) frecuencia (Hz) (B) Señal sintética de tipo vocálico (f0 =150 Hz) 4000 2000 1000 0 0 0.1 0.2 0.3 tiempo (s) 2000 1000 0 0 0.4 0.2 0.2 0.3 tiempo (s) 0.4 0.1 0.2 0.3 tiempo (s) 0.4 10 canal amplitud 0.1 12 0.1 0 8 6 4 −0.1 2 −0.2 0.1 0.11 0.12 0.13 tiempo (s) 0.14 0.15 0.5 4000 3000 3000 frecuencia (Hz) frecuencia (Hz) (C) Señal de voz (sı́laba /pa/) 4000 2000 1000 0 0 0.1 0.2 tiempo (s) 2000 1000 0 0 0.3 6 0.2 tiempo (s) 0.3 0.1 0.2 tiempo (s) 0.3 10 canal 2 0 −2 8 6 4 −4 −6 0.1 0.1 12 4 amplitud La percepción del sonido basada en los principios tonotópico y de codificación temporal se puede ilustrar analizando señales mediante espectrogramas. Los espectrogramas de banda estrecha mostrarı́an los aspectos de la señal que se pueden percibir con una buena resolución espectral tonotópica, donde la sintonización frecuencial predomina sobre la sincronización temporal. Los espectrogramas de banda ancha muestran los aspectos perceptibles a partir del patrón temporal de estimulación, donde la sincronización resulta de mayor importancia. En el caso de tonos puros, la resolución en frecuencia requiere una buena capacidad de sintonización, y puesto que se trata de sonidos estacionarios, depende únicalmente de la percepción tonotópica. En el caso de señales periódicas de tipo vocálico (generadas por un tren de pulsos periódicos filtrados), el espectrograma de banda estrecha muestra los picos espectrales correspondientes a la serie de armónicos, mientras que el de banda ancha muestra los picos temporales (que corresponderı́an, en el caso de una señal de voz, con los pulsos glotales). En este caso, la frecuencia del tono fundamental se podrı́a resolver mediante el principio tonotópico (espectrograma de banda estrecha) o a través del patrón temporal de codificación (espectrograma de banda ancha). Este concepto se puede aplicar a sonidos periódicos ricos en armónicos. En los implantes cocleares, como se ha discutido anteriormente, la resolución espectral tonotópica es muy limitada, debido al reducido número de canales. Sin embargo, la alta resolución temporal de los sistemas de alta tasa de estimulación permite obtener una resolución espectral adecuada para el tono fundamental en el caso de sonidos de tipo vocálico. En la figura 2 se ilustra esto con algunos ejemplos. Se ha representado, para varias señales, un espectrograma de banda estrecha (con una resolución espectral de 16 Hz y una resolución temporal de 62.5 ms), un espectrograma de banda ancha (con resolución espectral de 200 Hz y resolución temporal de 5 ms). Se muestra también una porción de la señal en el tiempo y el ”estimulograma” o representación del patrón de estimulación que proporciona, para cada canal, el implante coclear. El estimulograma se ha obtenido para la configuración por defecto del implante COMBI40+ de MED-EL (con 12 canales y una tasa de estimulación de 1527 pulsos por segundo en cada canal). Se han analizado 3 señales diferentes: (a) un tono puro (de 404 Hz), (b) una señal sintetizada usando un modelo de producción de voz, obtenida filtrando un tren de pulsos periódicos (cuya frecuencia fundamental es 150 Hz), y (c) una señal de voz correspondiente a la sı́laba /pa/. En el caso del tono puro, en el espectrograma de banda estrecha se aprecia que sólo hay una lı́nea espectral. Dicha lı́nea aparece ensanchada en el espectrograma de banda ancha, debido a la menor resolución espectral. Se observa la quasi-estacionariedad de la señal (la señal se ha modulado con una ventana de Hamming de 0.4 segundos de duración). El estimulograma proporciona un canal 10 2.3. Resolución espectral basada en el principio tonotópico y de codificación temporal 2 0.11 0.12 0.13 tiempo (s) 0.14 0.15 Figura 2: Percepción de la frecuencia para tres señales: (A) tono puro; (B) señal sintetizada mediante un modelo de producción de voz; (C) señal de voz correspondiente a la sı́laba /pa/. Para cada señal hemos representado: (1) un espectrograma de banda estrecha (resolución: 62.5 ms - 16 Hz); (2) un espectrograma de banda ancha (resolución: 5 ms - 200 Hz); (3) la amplitud de la señal en el tiempo; y (4) el ”estimulograma” o patrón de actividad del implante coclear COMBI40+ de MED-EL. patrón parecido al espectrograma de banda ancha. Se aprecia que el canal 2 es el que proporciona un nivel mayor de estimulación. Los canales adyacentes proporcionan también estimulación debido al ligero solapamiento entre filtros. El estimulograma ofrece una resolución espectral muy pobre, y a partir de éste resulta difı́cil determinar la frecuencia del tono. Ante este patrón de estimulación, se podrı́a decir que la frecuencia se encuentra entre 323 Hz y 418 Hz, probablemente más próxima a esta última (pues el nivel de estimulación es mayor en el canal 3 que en el 1). En el caso de la señal sintética, en el espectrograma de banda estrecha se puede apreciar la serie de armónicos asociada a la periodicidad de la señal. El tono fundamental se puede resolver observando la primera lı́nea espectral, o midiendo la distancia entre dos lı́neas adyacentes. En el espectrograma de banda ancha no se resuelve la serie de armónicos (porque la resolución espectral, 200 Hz, es insuficiente para resolver la frecuecia fundamental, 150 Hz). Sin embargo, se puede apreciar la periodicidad de la señal en el tiempo, ya que el espectrograma permite observar los instantes de más energı́a (que corresponden a los pulsos). De este modo, el espectrograma de banda ancha permitirı́a determinar que la señal presenta una periodicidad, cuyo periodo fundamental es 6.6 ms, y a partir de esto se podrı́a concluir que el tono fundamental de esta señal es 150 Hz. En el estimulograma se aprecia esta misma periodicidad en el tiempo, y por tanto la estimulación proporcionada por el implante coclear permitirı́a detectar el tono fundamental para una señal de este tipo. Para la señal de voz, se observa un comportamiento similar. El implante coclear permite, por una parte, percibir los formantes (lo que posibilita identificar los fonemas) y por otra resolver el tono fundamental a través del patrón temporal de estimulación. Este análisis permite concluir que, mediante el implante coclear, es técnicamente posible percibir el tono fundamental a través del principio de codificación temporal. Para ello es necesario que el implante disponga de una alta tasa de estimulación (para permitir una buena representación temporal) y en cualquier caso la resolución obtenida se verá limitada por la tasa máxima de disparo de las terminaciones del nervio auditivo. Además de los aspectos técnicos y fisiológicos, la capacidad para percibir el tono fundamental dependerá del aprovechamiento por parte del paciente de la información proporcionada por el implante coclear, y por tanto requiere el desarrollo o aprendizaje de ciertas habilidades auditivas. 3. Influencia de la estrategia de codificación en la percepción del tono Para estudiar cómo influye la estrategia de codificación en la percepción del tono hemos sintetizado señales de audio a partir del patrón de estimulación proporcionado por el procesador del implante, de acuerdo con las estrategias de codificación. Hemos considerado las estrategias CIS y CIS+ implementadas en los procesadores CIS-PRO+ (de petaca) y TEMPO+ (retroauricular) de MED-EL. Las principales innovaciones que introduce la estrategia CIS+ con respecto a la CIS son el uso de filtros FIR (en lugar de IIR) en el banco de filtros y la detección de envolvente basada en filtros en cuadratura de fase (en lugar de usando un detector de rectificador y filtrado paso-baja). Estas mejoras proporcionan una mejor sincronización de la estimulación en los distintos canales, mayor estabilidad, y una representación más precisa de las variaciones en el tiempo de las propiedades de la señal. Al sintetizar las señales de audio, hemos modelado una situación en la que las lesiones del nervio coclear son mı́nimas, siendo posible una buena sincronización temporal de las respuestas a la estimulación eléctrica. También hemos considerado una situación en la que, debido a las lesiones cocleares, hay una menor SNR equiv. (dB) Dist. espectral Error sor-son ( %) Desv. estim. f0 ( %) sincron. mala CIS CIS+ 7.1 7.3 5.94 5.93 39.9 40.0 63.2 61.0 sincron. buena CIS CIS+ 8.2 14.5 5.57 2.60 28.1 21.9 33.5 5.6 Tabla 1: Análisis de la influencia de la estrategia de codificación y de la capacidad de sincronización sobre la calidad de percepción de la voz. supervivencia neuronal, dando lugar a una escasa sincronización temporal de la respuesta a la estimulación eléctrica. La buena o mala sincronización de la respuesta neural dependerá, principalmente, de las condiciones del paciente: porcentaje de terminaciones nerviosas supervivientes, duración y evolución de la pérdida auditiva, causa de la sordera, etc. Hemos evaluado la calidad de las frases sintetizadas (teniendo en cuenta tanto la estrategia de codificación como la capacidad de sincronización) a través de 4 medidas: SNR equivalente: La hemos definido como la relación señal ruido necesaria para que, contaminando la frase original con ruido blanco, se obtenga la misma calidad que en la frase sintetizada. La comparación se ha realizado por un grupo de oyentes (normoyentes) mediante evaluación subjetiva. Distancia espectral: Hemos definido una distancia espectral de tiempo corto promediada en frecuencia, que ha sido medida entre las frases originales y las sintetizadas. Esta distancia representa la diferencia entre las envolventes espectrales y puede considerarse un indicador de la pérdida de inteligibilidad de los fonemas debida al proceso de codificación y sı́ntesis. Error en la identificación de segmentos sordos-sonoros: Hemos comparado, sobre las frases originales y sintetizadas, la identificación de segmentos sordos-sonoros que proporciona un algoritmo convencional de etiquetado y estimación del tono fundamental [9]. Desviación relativa en la frecuencia fundamental estimada: Para los segmentos identificados como sonoros en ambas versiones de la frase (original y sintetizada) hemos analizado la diferencia en las estimaciones de la frecuencia fundamental. Estas medidas de calidad se han promediado para 50 frases. En la tabla 1 se muestran los resultados del análisis descrito. Se puede observar que la mejor calidad es obtenida en el caso en que coinciden la estrategia CIS+ y una buena capacidad de sincronización por parte del paciente. En esta situación se consigue una calidad muy superior a las otras tres situaciones en todos los aspectos considerados. Cabe destacar también que, según este análisis, los pacientes que por sus lesiones cocleares no tuvieran una buena capacidad de sincronización no apreciarı́an las mejoras técnicas de la estrategia CIS+ con respecto a la CIS. Para los pacientes con una buena capacidad de sincronización sı́ se observa una mejora significativa de calidad gracias al uso de la estrategia CIS+. 4. Evaluación de la resolución en frecuencia Para estudiar la resolución en frecuencia (tanto la tonotópica como la basada en el principio de codificación temporal) hemos realizado tests subjetivos a pacientes implantados. Los tests se han realizado también sobre sujetos normoyentes para disponer de una referencia con la que comparar los resultados. En los test Discriminación frecuencial para tonos puros 0.1 Normoyentes Implantados 0.2 0.3 discriminación ∆ f / f (%) 0.5 1 2 3 5 10 20 50 100 200 300 500 1000 2000 3000 frecuencia (Hz) 5000 10000 Discriminación frecuencial para señales periódicas tipo voz 0.1 Normoyentes Implantados 0.2 0.3 discriminación ∆ f / f (%) 0.5 1 2 3 5 10 20 50 50 100 200 frecuencia del tono fundamental (Hz) 300 Figura 3: Evaluación de la capacidad de discriminación frecuencial para sujetos normoyentes (lı́neas en rojo) y pacientes implantados (lı́neas azules). La resolución frecuencial se ha determinado para tonos puros (gráfica superior) y para sonidos periódicos sintéticos de tipo vocálico (gráfica inferior). Los trazos representan la media ± la desviación estándar. se han incluido 10 sujetos normoyentes y 10 pacientes implantados con el sistema COMBI40+ de MED-EL. Hemos medido la resolución en frecuencia para tonos puros (para medir la resolución espectral tonotópica) y para señales sintéticas de tipo vocálico (para medir la basada en el principio de codificación temporal) a distintas frecuencias. Para determinar la resolución frecuencial, se presentaban al sujeto dos estı́mulos de frecuencias parecidas, f y f + ∆f , y se le preguntaba si percibı́a los estı́mulos como iguales o diferentes. Para confirmar la capacidad de discriminación, se introducı́an de forma aleatoria parejas de sonidos de frecuencias iguales. La capacidad de discriminación frecuencial se ha medido en porcentaje, teniendo en cuenta el cociente ∆f /f , donde ∆f es la diferencia de frecuencia entre dos sonidos que eran distinguibles de forma sistemática por el sujeto. La figura 3 muestra los resultados del test de discriminación frecuencial (media y desviación estándar en función de la frecuencia). En el caso de los sujetos normoyentes, la discriminación frecuencial tonotópica es máxima alrededor de 1 kHz (alcanzando valores del 0.8 % en promedio), y cae hacia bajas y altas frecuencias. Los pacientes implantados presentan una capacidad de discriminación frecuencial tonotópica significativamente peor. En este caso, la resolución es máxima para bajas frecuencias (alcanzando, en promedio, el 8 %) y a medida que nos desplazamos a frecuencias mayores cae rápidamente (llegando a valores próximos al 30 % para 4 kHz). Se observa una gran dispersión en los resultados entre los sujetos implantados. La discriminación frecuencial basada en la codificación temporal es máxima, tanto para normoyentes como para implantados, para las frecuencias más bajas. Esto es coherente con el hecho de que la tanto la capacidad de sincronización de las terminaciones nerviosas como la capacidad de analizar el patrón temporal de estimulación son mayores para bajas frecuencias. En este caso, la resolución frecuencial se sitúa en torno al 1 % para los sujetos normoyentes, y en torno al 4 % para los implantados, siendo las diferencias entre ambos grupos mucho menos acusadas que en el caso de la discriminación frecuencial tonotópica. Se observa que los pacientes implantados obtienen una resolución espectral tonotópica muy pobre en comparación con la de los normoyentes. Sin embargo, el implante coclear proporciona, a partir del patrón temporal de estimulación, una resolución suficiente para percibir las variaciones de tono de la señal de voz. Las variaciones de tono en una frase, que tı́picamente se encuentran en un rango entre ∆f /f =20 % y ∆f /f =50 % (dependiendo del locutor) resultarı́an claramente apreciables para un sujeto implantado. La discriminación frecuencial es también adecuada para percibir el tono musical para un porcentaje considerable de pacientes implantados (una diferencia de 1/4 de tono corresponde a ∆f /f =3 %). Esta habilidad se verificarı́a para la voz cantada y serı́a aplicable a otras fuentes de sonido o instrumentos (con tono fundamental en bajas frecuencias, ricas en armónicos y periodos de ataque y caı́da lentos). Las diferencias observadas entre los distintos pacientes implantados con respecto a la discriminación frecuencial parecen estar relacionados con diversos factores, como la etiologı́a de la sordera, el estado de las terminaciones nerviosas, la experiencia en el uso del implante o el entrenamiento auditivo. Se ha observado también una mejor discriminación frecuencial para los pacientes que disponen de una mayor tasa de estimulación. 5. Control del tono El análisis del control del tono en la voz producida por pacientes implantados proporciona también información sobre la habilidad para percibir el tono fundamental. Los sordos poslocutivos, al cabo de un cierto tiempo de privación auditiva pierden poco a poco el control de la voz, deformando algunos fonemas y mostrando alteraciones en que afectan a la intensidad y al tono. Una vez implantados, la audición proporcionada por el implante permite que los pacientes oigan su propia voz, de modo que esta realimentación hace que mejore considerablemente el control de la voz. En el caso de niños con sorderas profundas prelocutivas implantados, el análisis del tono resulta más interesante, pues el control del tono lo han aprendido a partir de la percepción proporcionada por el implante coclear. En la figura 4 hemos analizado la voz producida por una mujer normoyente, y dos niños sordos prelocutivos implantados. El primero de ellos fue implantado a principios de los noventa con el sistema NUCLEUS22, un implante con 22 electrodos que utilizaba una estrategia de baja tasa de estimulación (MPEAK) en el periodo en que el niño aprendió a hablar. El segundo utiliza el sistema COMBI40+, más actual, que dispone de 12 canales y utiliza una estrategia de alta tasa de estimulación (CIS). Para cada caso, se ha grabado una frase, de la cual se ha representado un espectrograma de banda estrecha, un espectrograma de banda ancha, la amplitud de la señal en el tiempo, y la salida de un detector de tono fundamental (la frecuencia fundamental en función del tiempo para los segmentos de voz sonoros). En estas figuras se observa que el paciente con la tasa de estimulación mayor presenta un mejor control del tono fundamental. Este paciente modifica el tono de acuerdo con el significado global de la frase, haciendo uso del valor semántico de esta caracterı́stica suprasegmental. Sin embargo, el paciente implantado con un sistema de baja tasa de estimulación presenta un menor control del tono. En este caso las modificaciones del tono no se planifican de acuerdo con el significado global de la frase, sino que hay variaciones casi aleatorias del tono, que se observan prácticamente para cada sı́laba, y que varı́an en un rango mucho más estrecho que en el caso del sujeto normoyente o del paciente implantado con un sistema de alta tasa de estimulación. Estas observaciones son consistentes con el hecho de que en el caso de los pacientes implantados, la percepción del tono de la voz está basado en el principio de codificación temporal y no en el principio tonotópico. 4000 3000 3000 frecuencia (Hz) 4000 2000 1000 0 0 0.5 1 tiempo (s) 0 0 amplitud 0.5 0 −0.5 0.5 1000 1.5 1 −1 0 2000 1 tiempo (s) 1.5 2 frecuencia del tono fundamental (Hz) frecuencia (Hz) (A) Mujer normoyente (/seis-dos-tres-tres-zero/) 0.5 1 tiempo (s) 6. Conclusiones 1.5 400 300 200 100 0 0 0.5 1 tiempo (s) 1.5 2 4000 3000 3000 frecuencia (Hz) 4000 2000 1000 0 0 0.5 1 1.5 tiempo (s) 2 0 0 amplitud 0.5 0 −0.5 1 1000 2.5 1 −1 0 2000 2 3 frecuencia del tono fundamental (Hz) frecuencia (Hz) (B) Niño implantado con NUCLEUS22 (/i-coxerlamaleta-iabaxo/) 0.5 1 1.5 2 tiempo (s) 2.5 300 250 200 150 100 50 0 0 1 tiempo (s) 2 Los implantes cocleares proporcionan una resolución espectral tonotópica muy pobre, debido a limitaciones técnicas del procedimiento de estimulación. Sin embargo, proporcionan un grado de discriminación frecuencial aceptable para sonidos periódicos de tipo vocálico. Esta resolución es obtenida a través del patrón temporal de estimulación. Por esta razón, las estrategias de codificación orientadas a preservar la resolución temporal (de alta tasa de estimulación) proporcionan una mejor percepción del tono que las orientadas a preservar la resolución espectral (con un número elevado de canales). Los principales factores involucrados en la percepción del tono fundamental se pueden agrupar en aspectos de origen técnico (la tasa de estimulación y la estrategia de codificación) y aspectos de origen fisiológico (estado de las terminaciones nerviosas y sincronización de la respuesta neural al estı́mulo eléctrico). También influyen aspectos como el entrenamiento auditivo y la experiencia en el uso del implante coclear. Los implantes cocleares de alta tasa de estimulación proporcionan una discriminación frecuencial adecuada para percibir el tono fundamental en señales de voz. En algunos casos permiten también un grado de percepción del tono aceptable para la música. Para potenciar esta habilidad serı́a conveniente que los programas de entrenamiento auditivo para pacientes implantados incluyeran un entrenamiento especı́fico para la percepción del tono fundamental ası́ como determinados ejercicios de educación musical. 3 tiempo (s) 7. Referencias 4000 3000 3000 frecuencia (Hz) 4000 2000 1000 0 0 1 2 tiempo (s) 0 0 1 amplitud 0 −0.5 1 2 tiempo (s) 1000 3 0.5 −1 0 2000 3 4 frecuencia del tono fundamental (Hz) frecuencia (Hz) (C) Niño implantado con COMBI40+ (/iral-patio-i-xugando/) 1 2 tiempo (s) 1 2 tiempo (s) 3 300 250 200 150 100 50 0 0 3 4 Figura 4: Ejemplos de frases pronunciadas por: (A) una mujer normoyene; (B) un niño implantado con el sistema NUCLEUS22; (C) un niño implantado con COMBI40+. Entre paréntesis aparecen las transcripciones fonéticas de las frases pronunciadas. Para cada frase se han representado espectrogramas de banda estrecha y ancha, la señal en el tiempo y la frecuencia fundamental de los segmentos sonoros. [1] B. Wilson, C. Finley, D. Lawson, R. Wolford, D. Eddington and W. Rabinowitz. “Better speech recognition with cochlear implants”. Nature, (352):236–238, 1991. [2] P.C. Loizou. “Mimicking the human ear”. IEEE Signal Processing Magazine, pages 101–130, 1998. [3] P. Blamey, P. Arndt, F. Bergeron, G. Bredberg and J. Brimacombe. “Factors affecting auditory performance of postlinguistically deaf adults using cochlear implants”. Audioogy and Neuro-otology, (1):293–306, 1996. [4] R.S. Tyler, H. Fryauf-Bertschy, D.M. Kelsay, B.J. Gantz, G.P. Woodworth and A. Parkinson. “Speech perception by prelingually deaf children using cochlear implant”. Otolaryngol. Head Neck Surg., (117):180–187, 1997. [5] J.O. Pickles. An introduction to the phisiology of hearing. Raven Press. London, 1982. [6] M. Sainz, A. de la Torre and C. Roldán. “Frequency resolution in cochlear implant patients”. 6th Europ. Symp. on Paediatric Cochlear Implantation, Feb 2002. [7] A. de la Torre, M. Sainz and C. Roldán. “Perception of the tone with cochlear implants. Influence of the coding strategy”. 7th Intern. Cochlear Implant Conference, Sep 2002. [8] A. de la Torre, M. Sainz and C. Roldán. “Influence of placement and configuration of the electrodes over the perception using cochlear implants”. 6th Europ. Symp. on Paediatric Cochlear Implantation, Feb 2002. [9] L.R. Rabiner and R.W. Schafer. Digital processing of speech signals. Prentice Hall, 1978.