percepci ´on del tono fundamental en pacientes con implante coclear

Anuncio
PERCEPCIÓN DEL TONO FUNDAMENTAL EN PACIENTES CON
IMPLANTE COCLEAR
Ángel de la Torre(1)∗ , Cristina Roldán(2) , Patricia Rosales(1) , Manuel Sainz(2,3)
(1)
Dpto. de Electrónica y Tecn. Comp., Universidad de Granada, 18071 Granada (España)
(2)
Servicio ORL, Hospital Universitario S. Cecilio, 18012 Granada (España)
(3)
Dpto. Cirugı́a y sus Especialidades, Universidad de Granada, 18071 Granada (España)
∗
Tel: +34.958.24.32.71 Fax: +34.958.24.32.30 e-mail: [email protected]
Resumen
La percepción del tono fundamental es importante para la
percepción de la voz, ya que proporciona información útil para
la identificación de locutores, permite la extracción de información prosódica, y es usada para enfatizar palabras clave en las
frases. Además, en el caso de los idiomas tonales la entonación
es una caracterı́stica con valor fonético, por lo que en estos casos la percepción del tono va más allá de suministrar información
suprasegmental.
En el caso de pacientes con pérdidas auditivas que han recibido implantes cocleares, las limitaciones técnicas asociadas al
procedimiento de estimulación del nervio auditivo condicionan
los mecanismos de percepción del tono fundamental. En este trabajo analizamos las posibilidades y limitaciones de los implantes
cocleares con respecto a la percepción del tono fundamental.
1. Introducción
Figura 1: Elementos de un sistema de implante coclear.
Los implantes cocleares han supuesto un avance muy importante en el tratamiento de las hipoacusias severas y profundas [1].
El sistema de implante coclear consta de un elemento interno,
implantado mediante una intervención quirúrgica, y un elemento
externo. El elemento interno dispone de una guı́a portaelectrodos alojada en el interior de la cóclea, un electrodo de referencia
(usualmente colocado bajo el músculo temporal) y un receptorestimulador. La parte externa dispone de baterı́as, un micrófono,
un procesador y un transmisor para establecer una conexión mediante un acoplamiento inductivo con el receptor-estimulador de
la parte interna. En la figura 1 se representan los principales elementos de un sistema de implante coclear. El principio básico del
implante coclear consiste en recoger el sonido, procesarlo y generar pulsos eléctricos en el interior de la cóclea que estimulan
el nervio auditivo, proporcionando al paciente una sensación de
audición. De este modo, en los pacientes afectados por una hipoacusia severa o profunda de tipo neurosensorial el mecanismo
de transducción es sustituido por el implante coclear [1, 2]. En la
actualidad, la eficacia del implante coclear está aceptada y fuera
de toda duda. El implante coclear proporciona, en la mayor parte de los casos, una percepción del sonido con calidad suficiente
para el reconocimiento de voz, y es elevado el porcentaje de pacientes implantados capaces de mantener conversaciones fluidas
sin necesidad de apoyo visual [3, 4].
Sin embargo, a pesar de proporcionar una calidad aceptable
(y de mejorar considerablemente las posibilidades del paciente
con respecto a la situación previa a la implantación) los implantes
cocleares presentan algunas limitaciones, relacionadas con el procedimiento de estimulación. La percepción auditiva en un oı́do
sano es un proceso complejo, que involucra al oı́do externo, el
oı́do medio, el oı́do interno (en el que juegan un papel importante
la mecánica de la membrana basilar, las células ciliadas externas
e internas, los fluidos intracocleares, etc.) y las vı́as auditivas (incluyendo la inervación aferente y eferente del nervio coclear y
diversas estaciones en el tronco cerebral hasta llegar a la corteza cerebral). Cuando se utiliza un implante coclear se sustituye
el mecanismo natural de estimulación por un proceso que resulta
bastante tosco si se compara con la percepción en el oı́do sano
[5]. Frente a las cerca de 6.000 células ciliadas internas, entre
15.000 y 20.000 externas, y alrededor de 40.000 terminaciones
nerviosas en el oı́do sano, los implantes cocleares disponen, en
la actualidad, de un número muy reducido de canales (entre 8 y
32 dependiendo de marcas y modelos). Por otra parte, frente a
la conexión sináptica entre las células ciliadas y las terminaciones nerviosas, los electrodos del implante suministran corriente
a una región cuya extensión es difı́cil de controlar. Además, en
el implante coclear no son posibles los mecanismos activos de
sintonización (asociados a la inervación eferente de las células
ciliadas externas). Estos factores hacen que el implante, a pesar
de ser muy útil para la detección de sonidos y para la percepción e
inteligibilidad de la voz, presente limitaciones muy importantes,
como pueden ser la inteligibilidad de la voz en condiciones de
ruido o la percepción de sonidos complejos (como por ejemplo la
música). Estas limitaciones están relacionadas con la resolución
espectral que se puede obtener del implante coclear [6, 7].
Este trabajo se centra en la habilidad para la percepción de la
frecuencia en los pacientes con implante coclear. La resolución
en frecuencia juega un papel importante en la percepción del tono fundamental en la voz. Este aspecto va a afectar al control del
tono en la voz producida por pacientes implantados, ası́ como a la
percepción de las caracterı́sticas suprasegmentales de la voz asociadas al tono, o, en el caso de los idiomas tonales (como ocurre
en algunas lenguas orientales) a la discriminación de los rasgos
fonéticos asociados a la entonación.
Para estudiar las posibilidades que ofrece el implante, primero analizamos los mecanismos involucrados en la percepción del
tono y qué limitaciones aparecen como consecuencia del procedimiento de estimulación en el implante coclear. También analizamos cómo afecta la estrategia de codificación del sonido en la
percepción del tono fundamental. Finalmente hemos analizado la
resolución en frecuencia en sujetos implantados mediante tests de
discriminación frecuencial, utilizado como estı́mulo tanto tonos
puros como señales vocálicas sintéticas (señales periódicas generadas a partir de un modelo de producción de voz). Los resultados
obtenidos en este estudio ponen de manifiesto que los sistemas
actuales de implante coclear proporcionan un grado aceptable de
percepción del tono fundamental para la voz, presentando limitaciones importantes en el caso de sonidos complejos (señales
multi-pitch). Estos resultados resultan de gran interés a la hora de
planificar la rehabilitación auditiva de los pacientes implantados.
2. Percepción de la frecuencia en el oı́do
normal y en el oı́do implantado
2.1. Mecanismos de percepción de la frecuencia
La percepción de la frecuencia cuando se estimula el oı́do
con un tono puro, es un proceso complejo, basado en el lugar
del máximo desplazamiento de la membrana basilar y del mecanismo activo de las células ciliadas del órgano de Corti. El punto
de máxima estimulación de la cóclea depende de la frecuencia del
tono utilizado. Para frecuencias bajas se sitúa cerca del apex y para frecuencias altas, cerca de la base. La teorı́a de la percepción
que asocia a cada punto de la cóclea una frecuencia caracterı́stica
se denomina teorı́a tonotópica. La resolución espectral del oı́do
sano está determinada por el número de células ciliadas y terminaciones nerviosas del nervio auditivo y por su disposición a lo
largo de la cóclea. En la cóclea hay alrededor de 6000 células ciliadas internas y cerca de 40.000 terminaciones nerviosas que las
inervan. Su disposición permite una resolución espectral próxima
a 1/10 de tono, o lo que es equivalente, un oı́do entrenado serı́a
capaz, por ejemplo, de distinguir tonos de 450 Hz y 455 Hz (es
decir, ∆f /f ≈ 1,2 %).
La señal de audio no es estacionaria, es decir, sus propiedades (distribución espectral de la intensidad) varı́an en el tiempo.
El oı́do puede percibir estas variaciones gracias a la respuesta
dinámica de las células ciliadas y del nervio auditivo. De este
modo, el patrón de estimulación que transmite el nervio auditivo varı́a en el tiempo de acuerdo con la evolución temporal de la
señal de audio. Debido al proceso de generación de potenciales
de acción, tanto las neuronas como las células ciliadas, tras haber
producido una descarga, necesitan un tiempo de relajación antes
de estar en condiciones de producir un nuevo disparo. Por esto, la
tasa máxima de disparo se ve limitada a unos 400 o 500 disparos
por segundo, lo que determina la resolución temporal del oı́do.
Gracias a la respuesta dinámica del oı́do, para las señales cuya
frecuencia fundamental es muy inferior a la tasa máxima de disparo, los disparos en las neuronas se sincronizan, teniendo lugar
en los instantes en los que la señal presenta más energı́a. Mediante este mecanismo, la frecuencia fundamental puede quedar
representada en el patrón temporal de estimulación en el nervio
auditivo. De este modo, para señales de frecuencia fundamental baja (muy inferior a 400 Hz), la frecuencia fundamental se
puede percibir a través del patrón temporal de estimulación. Este
mecanismo de percepción se denomina principio de codificación
temporal o principio de temporización.
Existen, por tanto, dos mecanismos que permiten la percepción de la frecuencia fundamental: el descrito por la teorı́a tonotópica y el descrito por el principio de codificación temporal.
El principio tonotópico es el dominante en la percepción de frecuencias altas (especialmente para frecuencias superiores a 400
Hz) mientras que el principio de codificación temporal domina
para frecuencias bajas.
2.2. Limitaciones asociadas a la estimulación eléctrica
Hay diferencias muy importantes entre la generación de potenciales de acción en un oı́do sano y la estimulación eléctrica
del nervio auditivo mediante el implante coclear. La conexión
sináptica entre las células ciliadas y las fibras nerviosas permite
que la vibración de la membrana basilar en un punto determinado de la cóclea produzca potenciales de acción únicamente en las
terminaciones que inervan las células ciliadas en ese punto de la
cóclea. Sin embargo, la estimulación eléctrica mediante electrodos produce un campo de corriente en una región no confinada,
que da lugar a la generación de potenciales de acción en una región relativamente extensa de la cóclea (mucho más que en el
caso de la estimulación natural) [8].
Por otra parte, la generación de potenciales de acción en una
célula ciliada no afecta a las células ciliadas situadas en su periferia, por lo que en la estimulación natural, los estı́mulos se generan
independientemente en las distintas regiones de la cóclea sin interferir unas células ciliadas con otras. En el caso de los implantes
cocleares (también debido a que no existe sinapsis entre los electrodos y las terminaciones nerviosas), si se estimulan simultáneamente dos electrodos, se produce una interferencia entre ambas
estimulaciones. Esto es debido a que se ha establecido una diferencia de potencial entre el primer electrodo y el de referencia,
y otra diferencia de potencial entre el segundo electrodo y el de
referencia, y puesto que en general la estimulación en el primer
y el segundo electrodo son distintas, va a aparecer una diferencia
de potencial también entre el primer y el segundo electrodo, que
va a estimular de forma incontrolada las terminaciones situadas
entre ambos electrodos.
Como consecuencia de esto, se evita la estimularse simultánea de dos electrodos, por lo que el proceso de estimulación
de electrodos debe realizarse de forma secuencial, estimulando en
cada instante de tiempo un único electrodo1 .
Estas dos limitaciones que presentan los implantes cocleares
son comunes a todos los diseños y son consecuencia del hecho de
utilizar electrodos que suministran corriente eléctrica para generar los potenciales de acción en el nervio auditivo. La tecnologı́a
actual no permite por el momento realizar una conexión con el
nervio auditivo que permita una estimulación selectiva de las distintas fibras nerviosas o que permita la estimulación simultánea
en varios puntos de la cóclea sin producir interferencia. Esta es
la razón por la que todos los sistemas de implante coclear disponen de un número muy reducido de electrodos (en comparación
con el número de células ciliadas externas) dando lugar a una
resolución espectral tonotópica muy limitada. Teniendo en cuenta la interacción entre canales debida a la extensión del campo
eléctrico [8], resulta muy difı́cil obtener resoluciones que superen la equivalente a 12 canales por década (lo que corresponde a
∆f /f ≈ 21 %).
Sin embargo, la percepción del tono por parte de pacientes implantados, usualmente mejora este lı́mite tonotópico. En
general los pacientes presentan un buen control del tono al hablar. Existen además pacientes capaces de entonar adecuadamente canciones, lo que indica resoluciones espectrales superiores a
1/4 tono (∆f /f < 3 %). En estos casos, la resolución espectral está asociada, fundamentalmente, al patrón temporal de estimulación proporcionado por el implante coclear. Los implantes
1 La estimulación simultánea en todos los canales en modo bipolar es
una alternativa, aunque presenta otros inconvenientes.
(A) Tono puro (404 Hz)
4000
4000
3000
3000
frecuencia (Hz)
frecuencia (Hz)
de alta tasa de estimulación (que proporcionan pulsos, para cada
electrodo, con una tasa muy superior a la tasa máxima de disparo
del nervio auditivo) permiten percibir el tono fundamental, a partir del patrón temporal de estimulación, ya que los instantes de
máxima estimulación eléctrica (y las descargas en el nervio auditivo) se sincronizan con los picos de energı́a de la señal de audio,
de forma similar al caso de la audición normal. Los sistemas de
implante coclear actuales proporcionan tasas de estimulación suficientemente altas (alcanzándose en algunos casos varios miles
de pulsos por segundo en cada electrodo), por lo que en estos casos la resolución temporal y la resolución espectral asociada al
principio de codificación temporal, no se debe ver reducida significativamente con respecto a la audición normal.
2000
1000
0
0
0.05
0.1 0.15 0.2
tiempo (s)
2000
1000
0
0
0.25
5
0.1
0.2
tiempo (s)
0.3
0.1
0.2
tiempo (s)
0.3
12
amplitud
0
8
6
4
2
−5
0.1
0.11
0.12
0.13
tiempo (s)
0.14
0.15
4000
3000
3000
frecuencia (Hz)
frecuencia (Hz)
(B) Señal sintética de tipo vocálico (f0 =150 Hz)
4000
2000
1000
0
0
0.1
0.2
0.3
tiempo (s)
2000
1000
0
0
0.4
0.2
0.2
0.3
tiempo (s)
0.4
0.1
0.2
0.3
tiempo (s)
0.4
10
canal
amplitud
0.1
12
0.1
0
8
6
4
−0.1
2
−0.2
0.1
0.11
0.12
0.13
tiempo (s)
0.14
0.15
0.5
4000
3000
3000
frecuencia (Hz)
frecuencia (Hz)
(C) Señal de voz (sı́laba /pa/)
4000
2000
1000
0
0
0.1
0.2
tiempo (s)
2000
1000
0
0
0.3
6
0.2
tiempo (s)
0.3
0.1
0.2
tiempo (s)
0.3
10
canal
2
0
−2
8
6
4
−4
−6
0.1
0.1
12
4
amplitud
La percepción del sonido basada en los principios tonotópico
y de codificación temporal se puede ilustrar analizando señales
mediante espectrogramas. Los espectrogramas de banda estrecha
mostrarı́an los aspectos de la señal que se pueden percibir con
una buena resolución espectral tonotópica, donde la sintonización
frecuencial predomina sobre la sincronización temporal. Los espectrogramas de banda ancha muestran los aspectos perceptibles
a partir del patrón temporal de estimulación, donde la sincronización resulta de mayor importancia.
En el caso de tonos puros, la resolución en frecuencia requiere una buena capacidad de sintonización, y puesto que se trata de
sonidos estacionarios, depende únicalmente de la percepción tonotópica. En el caso de señales periódicas de tipo vocálico (generadas por un tren de pulsos periódicos filtrados), el espectrograma
de banda estrecha muestra los picos espectrales correspondientes
a la serie de armónicos, mientras que el de banda ancha muestra los picos temporales (que corresponderı́an, en el caso de una
señal de voz, con los pulsos glotales). En este caso, la frecuencia
del tono fundamental se podrı́a resolver mediante el principio tonotópico (espectrograma de banda estrecha) o a través del patrón
temporal de codificación (espectrograma de banda ancha). Este
concepto se puede aplicar a sonidos periódicos ricos en armónicos. En los implantes cocleares, como se ha discutido anteriormente, la resolución espectral tonotópica es muy limitada, debido al reducido número de canales. Sin embargo, la alta resolución
temporal de los sistemas de alta tasa de estimulación permite obtener una resolución espectral adecuada para el tono fundamental
en el caso de sonidos de tipo vocálico.
En la figura 2 se ilustra esto con algunos ejemplos. Se ha
representado, para varias señales, un espectrograma de banda estrecha (con una resolución espectral de 16 Hz y una resolución
temporal de 62.5 ms), un espectrograma de banda ancha (con resolución espectral de 200 Hz y resolución temporal de 5 ms). Se
muestra también una porción de la señal en el tiempo y el ”estimulograma” o representación del patrón de estimulación que
proporciona, para cada canal, el implante coclear. El estimulograma se ha obtenido para la configuración por defecto del implante
COMBI40+ de MED-EL (con 12 canales y una tasa de estimulación de 1527 pulsos por segundo en cada canal). Se han analizado
3 señales diferentes: (a) un tono puro (de 404 Hz), (b) una señal
sintetizada usando un modelo de producción de voz, obtenida filtrando un tren de pulsos periódicos (cuya frecuencia fundamental
es 150 Hz), y (c) una señal de voz correspondiente a la sı́laba /pa/.
En el caso del tono puro, en el espectrograma de banda estrecha se aprecia que sólo hay una lı́nea espectral. Dicha lı́nea aparece ensanchada en el espectrograma de banda ancha, debido a la
menor resolución espectral. Se observa la quasi-estacionariedad
de la señal (la señal se ha modulado con una ventana de Hamming
de 0.4 segundos de duración). El estimulograma proporciona un
canal
10
2.3. Resolución espectral basada en el principio tonotópico y
de codificación temporal
2
0.11
0.12
0.13
tiempo (s)
0.14
0.15
Figura 2: Percepción de la frecuencia para tres señales: (A) tono
puro; (B) señal sintetizada mediante un modelo de producción
de voz; (C) señal de voz correspondiente a la sı́laba /pa/. Para
cada señal hemos representado: (1) un espectrograma de banda
estrecha (resolución: 62.5 ms - 16 Hz); (2) un espectrograma de
banda ancha (resolución: 5 ms - 200 Hz); (3) la amplitud de la
señal en el tiempo; y (4) el ”estimulograma” o patrón de actividad del implante coclear COMBI40+ de MED-EL.
patrón parecido al espectrograma de banda ancha. Se aprecia que
el canal 2 es el que proporciona un nivel mayor de estimulación.
Los canales adyacentes proporcionan también estimulación debido al ligero solapamiento entre filtros. El estimulograma ofrece una resolución espectral muy pobre, y a partir de éste resulta
difı́cil determinar la frecuencia del tono. Ante este patrón de estimulación, se podrı́a decir que la frecuencia se encuentra entre 323
Hz y 418 Hz, probablemente más próxima a esta última (pues el
nivel de estimulación es mayor en el canal 3 que en el 1).
En el caso de la señal sintética, en el espectrograma de banda estrecha se puede apreciar la serie de armónicos asociada a la
periodicidad de la señal. El tono fundamental se puede resolver
observando la primera lı́nea espectral, o midiendo la distancia entre dos lı́neas adyacentes. En el espectrograma de banda ancha no
se resuelve la serie de armónicos (porque la resolución espectral,
200 Hz, es insuficiente para resolver la frecuecia fundamental,
150 Hz). Sin embargo, se puede apreciar la periodicidad de la
señal en el tiempo, ya que el espectrograma permite observar los
instantes de más energı́a (que corresponden a los pulsos). De este modo, el espectrograma de banda ancha permitirı́a determinar
que la señal presenta una periodicidad, cuyo periodo fundamental
es 6.6 ms, y a partir de esto se podrı́a concluir que el tono fundamental de esta señal es 150 Hz. En el estimulograma se aprecia
esta misma periodicidad en el tiempo, y por tanto la estimulación
proporcionada por el implante coclear permitirı́a detectar el tono
fundamental para una señal de este tipo. Para la señal de voz, se
observa un comportamiento similar. El implante coclear permite,
por una parte, percibir los formantes (lo que posibilita identificar
los fonemas) y por otra resolver el tono fundamental a través del
patrón temporal de estimulación.
Este análisis permite concluir que, mediante el implante coclear, es técnicamente posible percibir el tono fundamental a
través del principio de codificación temporal. Para ello es necesario que el implante disponga de una alta tasa de estimulación
(para permitir una buena representación temporal) y en cualquier
caso la resolución obtenida se verá limitada por la tasa máxima
de disparo de las terminaciones del nervio auditivo. Además de
los aspectos técnicos y fisiológicos, la capacidad para percibir el
tono fundamental dependerá del aprovechamiento por parte del
paciente de la información proporcionada por el implante coclear,
y por tanto requiere el desarrollo o aprendizaje de ciertas habilidades auditivas.
3. Influencia de la estrategia de codificación
en la percepción del tono
Para estudiar cómo influye la estrategia de codificación en la
percepción del tono hemos sintetizado señales de audio a partir
del patrón de estimulación proporcionado por el procesador del
implante, de acuerdo con las estrategias de codificación. Hemos
considerado las estrategias CIS y CIS+ implementadas en los procesadores CIS-PRO+ (de petaca) y TEMPO+ (retroauricular) de
MED-EL. Las principales innovaciones que introduce la estrategia CIS+ con respecto a la CIS son el uso de filtros FIR (en lugar
de IIR) en el banco de filtros y la detección de envolvente basada
en filtros en cuadratura de fase (en lugar de usando un detector
de rectificador y filtrado paso-baja). Estas mejoras proporcionan
una mejor sincronización de la estimulación en los distintos canales, mayor estabilidad, y una representación más precisa de las
variaciones en el tiempo de las propiedades de la señal.
Al sintetizar las señales de audio, hemos modelado una situación en la que las lesiones del nervio coclear son mı́nimas, siendo posible una buena sincronización temporal de las respuestas
a la estimulación eléctrica. También hemos considerado una situación en la que, debido a las lesiones cocleares, hay una menor
SNR equiv. (dB)
Dist. espectral
Error sor-son ( %)
Desv. estim. f0 ( %)
sincron. mala
CIS
CIS+
7.1
7.3
5.94
5.93
39.9
40.0
63.2
61.0
sincron. buena
CIS
CIS+
8.2
14.5
5.57
2.60
28.1
21.9
33.5
5.6
Tabla 1: Análisis de la influencia de la estrategia de codificación y
de la capacidad de sincronización sobre la calidad de percepción
de la voz.
supervivencia neuronal, dando lugar a una escasa sincronización
temporal de la respuesta a la estimulación eléctrica. La buena o
mala sincronización de la respuesta neural dependerá, principalmente, de las condiciones del paciente: porcentaje de terminaciones nerviosas supervivientes, duración y evolución de la pérdida
auditiva, causa de la sordera, etc. Hemos evaluado la calidad de
las frases sintetizadas (teniendo en cuenta tanto la estrategia de
codificación como la capacidad de sincronización) a través de 4
medidas:
SNR equivalente: La hemos definido como la relación
señal ruido necesaria para que, contaminando la frase original con ruido blanco, se obtenga la misma calidad que
en la frase sintetizada. La comparación se ha realizado por
un grupo de oyentes (normoyentes) mediante evaluación
subjetiva.
Distancia espectral: Hemos definido una distancia espectral de tiempo corto promediada en frecuencia, que ha sido
medida entre las frases originales y las sintetizadas. Esta
distancia representa la diferencia entre las envolventes espectrales y puede considerarse un indicador de la pérdida
de inteligibilidad de los fonemas debida al proceso de codificación y sı́ntesis.
Error en la identificación de segmentos sordos-sonoros:
Hemos comparado, sobre las frases originales y sintetizadas, la identificación de segmentos sordos-sonoros que
proporciona un algoritmo convencional de etiquetado y estimación del tono fundamental [9].
Desviación relativa en la frecuencia fundamental estimada: Para los segmentos identificados como sonoros en ambas versiones de la frase (original y sintetizada) hemos
analizado la diferencia en las estimaciones de la frecuencia fundamental.
Estas medidas de calidad se han promediado para 50 frases.
En la tabla 1 se muestran los resultados del análisis descrito. Se
puede observar que la mejor calidad es obtenida en el caso en
que coinciden la estrategia CIS+ y una buena capacidad de sincronización por parte del paciente. En esta situación se consigue una calidad muy superior a las otras tres situaciones en todos
los aspectos considerados. Cabe destacar también que, según este
análisis, los pacientes que por sus lesiones cocleares no tuvieran
una buena capacidad de sincronización no apreciarı́an las mejoras
técnicas de la estrategia CIS+ con respecto a la CIS. Para los pacientes con una buena capacidad de sincronización sı́ se observa
una mejora significativa de calidad gracias al uso de la estrategia
CIS+.
4. Evaluación de la resolución en frecuencia
Para estudiar la resolución en frecuencia (tanto la tonotópica
como la basada en el principio de codificación temporal) hemos
realizado tests subjetivos a pacientes implantados. Los tests se
han realizado también sobre sujetos normoyentes para disponer
de una referencia con la que comparar los resultados. En los test
Discriminación frecuencial para tonos puros
0.1
Normoyentes
Implantados
0.2
0.3
discriminación ∆ f / f (%)
0.5
1
2
3
5
10
20
50
100
200
300
500
1000
2000 3000
frecuencia (Hz)
5000
10000
Discriminación frecuencial para señales periódicas tipo voz
0.1
Normoyentes
Implantados
0.2
0.3
discriminación ∆ f / f (%)
0.5
1
2
3
5
10
20
50
50
100
200
frecuencia del tono fundamental (Hz)
300
Figura 3: Evaluación de la capacidad de discriminación frecuencial para sujetos normoyentes (lı́neas en rojo) y pacientes implantados (lı́neas azules). La resolución frecuencial se ha determinado para tonos puros (gráfica superior) y para sonidos periódicos sintéticos de tipo vocálico (gráfica inferior). Los trazos
representan la media ± la desviación estándar.
se han incluido 10 sujetos normoyentes y 10 pacientes implantados con el sistema COMBI40+ de MED-EL.
Hemos medido la resolución en frecuencia para tonos puros (para medir la resolución espectral tonotópica) y para señales
sintéticas de tipo vocálico (para medir la basada en el principio de
codificación temporal) a distintas frecuencias. Para determinar la
resolución frecuencial, se presentaban al sujeto dos estı́mulos de
frecuencias parecidas, f y f + ∆f , y se le preguntaba si percibı́a
los estı́mulos como iguales o diferentes. Para confirmar la capacidad de discriminación, se introducı́an de forma aleatoria parejas
de sonidos de frecuencias iguales. La capacidad de discriminación frecuencial se ha medido en porcentaje, teniendo en cuenta
el cociente ∆f /f , donde ∆f es la diferencia de frecuencia entre dos sonidos que eran distinguibles de forma sistemática por el
sujeto.
La figura 3 muestra los resultados del test de discriminación
frecuencial (media y desviación estándar en función de la frecuencia). En el caso de los sujetos normoyentes, la discriminación frecuencial tonotópica es máxima alrededor de 1 kHz (alcanzando valores del 0.8 % en promedio), y cae hacia bajas y altas
frecuencias. Los pacientes implantados presentan una capacidad
de discriminación frecuencial tonotópica significativamente peor.
En este caso, la resolución es máxima para bajas frecuencias (alcanzando, en promedio, el 8 %) y a medida que nos desplazamos
a frecuencias mayores cae rápidamente (llegando a valores próximos al 30 % para 4 kHz). Se observa una gran dispersión en los
resultados entre los sujetos implantados.
La discriminación frecuencial basada en la codificación temporal es máxima, tanto para normoyentes como para implantados,
para las frecuencias más bajas. Esto es coherente con el hecho de
que la tanto la capacidad de sincronización de las terminaciones
nerviosas como la capacidad de analizar el patrón temporal de
estimulación son mayores para bajas frecuencias. En este caso,
la resolución frecuencial se sitúa en torno al 1 % para los sujetos
normoyentes, y en torno al 4 % para los implantados, siendo las
diferencias entre ambos grupos mucho menos acusadas que en el
caso de la discriminación frecuencial tonotópica.
Se observa que los pacientes implantados obtienen una resolución espectral tonotópica muy pobre en comparación con la de
los normoyentes. Sin embargo, el implante coclear proporciona,
a partir del patrón temporal de estimulación, una resolución suficiente para percibir las variaciones de tono de la señal de voz.
Las variaciones de tono en una frase, que tı́picamente se encuentran en un rango entre ∆f /f =20 % y ∆f /f =50 % (dependiendo del locutor) resultarı́an claramente apreciables para un sujeto
implantado. La discriminación frecuencial es también adecuada
para percibir el tono musical para un porcentaje considerable de
pacientes implantados (una diferencia de 1/4 de tono corresponde
a ∆f /f =3 %). Esta habilidad se verificarı́a para la voz cantada y
serı́a aplicable a otras fuentes de sonido o instrumentos (con tono
fundamental en bajas frecuencias, ricas en armónicos y periodos
de ataque y caı́da lentos).
Las diferencias observadas entre los distintos pacientes implantados con respecto a la discriminación frecuencial parecen
estar relacionados con diversos factores, como la etiologı́a de la
sordera, el estado de las terminaciones nerviosas, la experiencia
en el uso del implante o el entrenamiento auditivo. Se ha observado también una mejor discriminación frecuencial para los pacientes que disponen de una mayor tasa de estimulación.
5. Control del tono
El análisis del control del tono en la voz producida por pacientes implantados proporciona también información sobre la
habilidad para percibir el tono fundamental. Los sordos poslocutivos, al cabo de un cierto tiempo de privación auditiva pierden
poco a poco el control de la voz, deformando algunos fonemas y
mostrando alteraciones en que afectan a la intensidad y al tono.
Una vez implantados, la audición proporcionada por el implante
permite que los pacientes oigan su propia voz, de modo que esta
realimentación hace que mejore considerablemente el control de
la voz. En el caso de niños con sorderas profundas prelocutivas
implantados, el análisis del tono resulta más interesante, pues el
control del tono lo han aprendido a partir de la percepción proporcionada por el implante coclear.
En la figura 4 hemos analizado la voz producida por una mujer normoyente, y dos niños sordos prelocutivos implantados. El
primero de ellos fue implantado a principios de los noventa con
el sistema NUCLEUS22, un implante con 22 electrodos que utilizaba una estrategia de baja tasa de estimulación (MPEAK) en
el periodo en que el niño aprendió a hablar. El segundo utiliza
el sistema COMBI40+, más actual, que dispone de 12 canales y
utiliza una estrategia de alta tasa de estimulación (CIS). Para cada caso, se ha grabado una frase, de la cual se ha representado
un espectrograma de banda estrecha, un espectrograma de banda
ancha, la amplitud de la señal en el tiempo, y la salida de un detector de tono fundamental (la frecuencia fundamental en función
del tiempo para los segmentos de voz sonoros).
En estas figuras se observa que el paciente con la tasa de estimulación mayor presenta un mejor control del tono fundamental. Este paciente modifica el tono de acuerdo con el significado
global de la frase, haciendo uso del valor semántico de esta caracterı́stica suprasegmental. Sin embargo, el paciente implantado
con un sistema de baja tasa de estimulación presenta un menor
control del tono. En este caso las modificaciones del tono no se
planifican de acuerdo con el significado global de la frase, sino que hay variaciones casi aleatorias del tono, que se observan
prácticamente para cada sı́laba, y que varı́an en un rango mucho
más estrecho que en el caso del sujeto normoyente o del paciente
implantado con un sistema de alta tasa de estimulación.
Estas observaciones son consistentes con el hecho de que en
el caso de los pacientes implantados, la percepción del tono de la
voz está basado en el principio de codificación temporal y no en
el principio tonotópico.
4000
3000
3000
frecuencia (Hz)
4000
2000
1000
0
0
0.5
1
tiempo (s)
0
0
amplitud
0.5
0
−0.5
0.5
1000
1.5
1
−1
0
2000
1
tiempo (s)
1.5
2
frecuencia del tono fundamental (Hz)
frecuencia (Hz)
(A) Mujer normoyente
(/seis-dos-tres-tres-zero/)
0.5
1
tiempo (s)
6. Conclusiones
1.5
400
300
200
100
0
0
0.5
1
tiempo (s)
1.5
2
4000
3000
3000
frecuencia (Hz)
4000
2000
1000
0
0
0.5
1
1.5
tiempo (s)
2
0
0
amplitud
0.5
0
−0.5
1
1000
2.5
1
−1
0
2000
2
3
frecuencia del tono fundamental (Hz)
frecuencia (Hz)
(B) Niño implantado con NUCLEUS22
(/i-coxerlamaleta-iabaxo/)
0.5
1
1.5
2
tiempo (s)
2.5
300
250
200
150
100
50
0
0
1
tiempo (s)
2
Los implantes cocleares proporcionan una resolución espectral tonotópica muy pobre, debido a limitaciones técnicas del procedimiento de estimulación. Sin embargo, proporcionan un grado
de discriminación frecuencial aceptable para sonidos periódicos
de tipo vocálico. Esta resolución es obtenida a través del patrón
temporal de estimulación. Por esta razón, las estrategias de codificación orientadas a preservar la resolución temporal (de alta
tasa de estimulación) proporcionan una mejor percepción del tono que las orientadas a preservar la resolución espectral (con un
número elevado de canales).
Los principales factores involucrados en la percepción del tono fundamental se pueden agrupar en aspectos de origen técnico
(la tasa de estimulación y la estrategia de codificación) y aspectos
de origen fisiológico (estado de las terminaciones nerviosas y sincronización de la respuesta neural al estı́mulo eléctrico). También
influyen aspectos como el entrenamiento auditivo y la experiencia
en el uso del implante coclear. Los implantes cocleares de alta tasa de estimulación proporcionan una discriminación frecuencial
adecuada para percibir el tono fundamental en señales de voz. En
algunos casos permiten también un grado de percepción del tono
aceptable para la música. Para potenciar esta habilidad serı́a conveniente que los programas de entrenamiento auditivo para pacientes implantados incluyeran un entrenamiento especı́fico para
la percepción del tono fundamental ası́ como determinados ejercicios de educación musical.
3
tiempo (s)
7. Referencias
4000
3000
3000
frecuencia (Hz)
4000
2000
1000
0
0
1
2
tiempo (s)
0
0
1
amplitud
0
−0.5
1
2
tiempo (s)
1000
3
0.5
−1
0
2000
3
4
frecuencia del tono fundamental (Hz)
frecuencia (Hz)
(C) Niño implantado con COMBI40+
(/iral-patio-i-xugando/)
1
2
tiempo (s)
1
2
tiempo (s)
3
300
250
200
150
100
50
0
0
3
4
Figura 4: Ejemplos de frases pronunciadas por: (A) una mujer
normoyene; (B) un niño implantado con el sistema NUCLEUS22;
(C) un niño implantado con COMBI40+. Entre paréntesis aparecen las transcripciones fonéticas de las frases pronunciadas.
Para cada frase se han representado espectrogramas de banda
estrecha y ancha, la señal en el tiempo y la frecuencia fundamental de los segmentos sonoros.
[1] B. Wilson, C. Finley, D. Lawson, R. Wolford, D. Eddington and W.
Rabinowitz. “Better speech recognition with cochlear implants”. Nature, (352):236–238, 1991.
[2] P.C. Loizou. “Mimicking the human ear”. IEEE Signal Processing
Magazine, pages 101–130, 1998.
[3] P. Blamey, P. Arndt, F. Bergeron, G. Bredberg and J. Brimacombe. “Factors affecting auditory performance of postlinguistically
deaf adults using cochlear implants”. Audioogy and Neuro-otology,
(1):293–306, 1996.
[4] R.S. Tyler, H. Fryauf-Bertschy, D.M. Kelsay, B.J. Gantz, G.P. Woodworth and A. Parkinson. “Speech perception by prelingually deaf
children using cochlear implant”. Otolaryngol. Head Neck Surg.,
(117):180–187, 1997.
[5] J.O. Pickles. An introduction to the phisiology of hearing. Raven
Press. London, 1982.
[6] M. Sainz, A. de la Torre and C. Roldán. “Frequency resolution in
cochlear implant patients”. 6th Europ. Symp. on Paediatric Cochlear
Implantation, Feb 2002.
[7] A. de la Torre, M. Sainz and C. Roldán. “Perception of the tone
with cochlear implants. Influence of the coding strategy”. 7th Intern.
Cochlear Implant Conference, Sep 2002.
[8] A. de la Torre, M. Sainz and C. Roldán. “Influence of placement and
configuration of the electrodes over the perception using cochlear
implants”. 6th Europ. Symp. on Paediatric Cochlear Implantation,
Feb 2002.
[9] L.R. Rabiner and R.W. Schafer. Digital processing of speech signals.
Prentice Hall, 1978.
Descargar