“SECUENCIA PARAMÉTRICA DEL TIMBRE DE VOZ” OPCIÓN I

Anuncio
SECRETARIA DE EDUCACIÓN PÚBLICA
DIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR
TECNOLÓGICA
INSTITUTO TECNOLÓGICO DE MÉRIDA
“SECUENCIA PARAMÉTRICA DEL TIMBRE DE VOZ”
OPCIÓN I
“TESIS PROFESIONAL”
PARA OPTAR AL TITULO DE:
INGENIERO ELECTRÓNICO
PRESENTA:
MAURICIO CHACÓN GONZÁLEZ
MÉRIDA YUCATÁN, MÉXICO
2010
i
Agradecimiento al pueblo de México que con sus impuestos mantiene la educación pública,
gratuita, laica y libre; a Carlos y Josefina mis padres; a Ileana por brindarme su apoyo; a mi
asesora de tesis la Ing. Margarita Álvarez Cervera. También a Rafael mi abuelo que con sus
comentarios me impulsaron a realizar este trabajo de investigación.
ii
ÍNDICE DE CONTENIDO
AGRADECIMIENTOS…………………………………………………………………………i
INTRODUCCIÓN...................................................................................................................xii
Objetivos de Investigación………………………………………………………………...xiv
Objetivo General……………………………………………………………………...xiv
Objetivos Específicos…………………….……………………………………...……xiv
Hipótesis…………………………………………………………………………………...xiv
Delimitaciones y limitaciones……………………………………………………………..xiv
Justificación………………………………………………………………………………...xv
Impacto Social, tecnológico, económico y ambiental……………………………………...xv
CAPÍTULO I La voz Humana, el oído y el análisis frecuencial……………………………1
1.1 Conceptos generales del sonido…………………………………………………………….1
1.1.1 Características y cualidades del sonido (Timbre, frecuencia, amplitud de onda,
etc.)………………………………………………….……………………………………….1
1.1.2 Las formas de onda……...…………………………………………………………...19
1.1.3 Los armónicos………………………………...……………………………………...21
1.1.4 Los formantes………………………...………………………………………………26
1.1.5 La transformada, el teorema y la transformada rápida de Fourier…………………...30
1.1.6 El espectro de sonido………………………………………………………………...36
1.2 Bases y fundamentos de algunos de los softwares que se pueden utilizar para el análisis de
la voz humana…………………………………………………………………………………39
1.2.1 Algunos de los métodos de análisis acústico del habla………………………………39
1.2.2 NCH Software y sus aplicaciones (WavePad, Tone Generator)……………………..41
1.2.3 Praat…………………………………………………………………………………..44
1.2.4 SFSWin………………………………………………………………………………49
1.3 El oído……………………………………………………………………………………..52
1.3.1 Funcionamiento del oído (oído externo, medio e interno)…………………………...52
1.3.2 Funcionamiento de la cóclea…………………………………………………………61
1.3.3 Aspirantes para las prótesis auditivas (según el nivel del problema auditivo)……….68
1.4 Tipos de síntesis…………………………………………………………………………...75
1.4.1 Síntesis de sonido…………………………………………………………………….75
iii
CAPÍTULO II La problemática de las prótesis auditivas para sordos profundos………79
2.1 Trayectoria de las prótesis auditivas………………………………………………………79
2.1.1 Las primeras prótesis…………………………………………………………………79
2.1.2 Tecnología de punta y lo más avanzado en Australia, Austria y Estados Unidos…...83
2.1.2.1 Australia……………………………………………………………………….83
2.1.2.2 Austria…………………………………………………………………………94
2.1.2.3 Estados Unidos……………………………………………………………….110
2.1.2.4 Conclusiones sobre los 3 fabricantes de Implantes Cocleares……………….131
2.2 Algunas de las estrategias de procesamiento convencionales usadas en los implantes
cocleares (no son las más actuales)………………………………………………………….133
2.2.1 Introducción……………………………………………………………..………….133
2.2.2 Estrategias…………………………………………………………………………..135
2.3 Funcionamiento de una prótesis auditiva actual…………………………………………138
2.3.1 Cirugía de implante coclear………………………………………………………....138
2.3.2 Primeros sonidos - Programación inicial…………………………………………...140
2.3.3 El funcionamiento de una prótesis auditiva actual para sordos profundos…………142
2.3.4 Procesamiento de la señal digital de alta definición………………………………..151
2.3.5 Cobertura coclear completa…………………………………………………………153
2.3.6 El futuro de los implantes en menos de 5 años……………………………………..157
2.4 Problemas anteriores y actuales de las prótesis auditivas………………………………..160
2.4.1 Efectividad de los implantes cocleares……………………………………………...160
2.4.2 La problemática actual de los implantes modernos………………………………...164
2.5 Análisis del habla en un implante coclear………………………………………………..168
2.5.1 Problemas que afectan el reconocimiento del habla en un implante coclear……….168
2.5.2 Descripción de una técnica de procesamiento convencional “CIS” (no es una técnica
de última generación)……………………………………………………………………..169
2.5.3 Un ejemplo del análisis del habla con un implante Coclear………………………..173
CAPÍTULO III Análisis paramétrico……………………………………………………..174
3.1 El experimento con la vocal “a”…………………………………………………...……174
3.1.1 Análisis paramétrico y síntesis paramétrica de la vocal “a”………………………..174
3.1.1.1 Descripción general…………………………………………………………..174
3.1.1.2 Realización del análisis paramétrico…………………………………………175
iv
3.1.1.3 Realización de la síntesis aditiva paramétrica………………………………..180
3.2 El experimento con la palabra “campana”…………………………….………..………..199
3.2.1 Análisis paramétrico y síntesis paramétrica de la palabra “campana”……………...199
3.2.1.1 Descripción general…………………………………………………………..199
3.2.1.2 Realización del análisis paramétrico…………………………………………200
3.2.1.3 Realización de la síntesis aditiva paramétrica………………………………..204
3.3 Otros experimentos………………………………………………………………………220
3.3.1 Muestreos paramétricos de otras palabras…………………………………………..220
3.3.2 Los experimentos con SFS………………………………………………………….225
CAPÍTULO IV Planteamiento de otros experimentos…………………………………..227
RESULTADOS…………………………………………………………………….……….228
CONCLUSIONES…………………………………………………………………………..229
RECOMENDACIONES………………………………………………...………………….230
RESUMEN…………………………………………………………………………………..231
REFERENCIAS BIBLIOGRÁFICAS……………………………………………………….I
ANEXOS…………………………………………………………………………………….XV
v
ÍNDICE DE FIGURAS
Figura 1.1 Ejemplo de una fuente de sonido……………………………………………………1
Figura 1.2 Un timbre eléctrico con una bomba de vacío……………………………………….2
Figura 1.3 Describe lo que se ha descrito anteriormente……………………………………….3
Figura 1.4 La intensidad de una onda sonora…………………………………………………..5
Figura 1.5 Ejemplo de un ciclo completo de una partícula …………………………………...9
Figura 1.6 Dos partículas que realizan ciclos completos, con igual frecuencia pero con
diferente amplitud……………………………………………………………………………..10
Figura 1.7 Demostración de la relación entre tono y frecuencia…………………...................12
Figura 1.8 La diferencia en el timbre………………………………………………………….13
Figura 1.9 Un resorte o un péndulo oscilando………………………………………………...14
Figura 1.10 Gráfica de un seno………………………………………………………………..14
Figura 1.11 Pulsaciones producidas por la superposición de dos ondas de frecuencias muy
cercanas………………………………………………………………………………………..16
Figura 1.12 Tono enmascarador de 1200 Hz………………………………………………….17
Figura 1.13 Distintos tipos de formas de onda………………………………………………..20
Figura 1.14 Teclas de un piano que muestran una escala musical…………………………….23
Figura 1.15 Analogía del timbre………………………………………………………………25
Figura 1.16. El tracto Vocal…………………………………………………………………...27
Figura 1.17 Formante………………………………………………………………………….30
Figura 1.18
Señal sinusoidal ideal representada en el tiempo con su correspondiente
representación en el espacio de frecuencias…………………………………………………...31
Figura 1.19 Construcción de una onda Cuadrada a partir de ondas senoidales……………….32
Figura 1.20 Representaciones espectrales de un sonido indeterminado………………………38
Figura 1.21 Oscilograma de una oración en castellano……………………………………….39
Figura 1.22 El Análisis Espectral de la vocal A en un tiempo dado con 2 herramientas
diferentes………………………………………………………………………………………40
Figura 1.23 Espectrograma de una oración en castellano…………………………………….41
Figura 1.24 Ejemplo de las aplicaciones con el wavepad al archivo “campana.wav”, en el
tiempo de 600ms………………………………………………………………………………43
Figura 1.25 Ejemplo de un tono generado con 3 ondas sinusoidales con el tone generator…..43
vi
Figura 1.26 Muestra cómo seleccionar el archivo de audio que se desea analizar…………...45
Figura 1.27 Muestra como se ve el menú de formant settings………………………………...46
Figura 1.28 Un ejemplo de la ventana de edición (oscilograma, espectrograma y formantes),
del archivo “Campana.wav”…………………………………………………………………..47
Figura 1.29 La obtención de formantes mediante una selección determinada del
oscilograma................................................................................................................................48
Figura 1.30 Obtención de la lista de los formantes……………………………………………48
Figura 1.31 La ventana de cross-section generada por SFS para el análisis del archivo
“Campana.wav”……………………………………………………………………………….51
Figura 1.32 Corte transversal del oído derecho……………………………………………….53
Figura 1.33 Como está constituido el Oído Externo…………………………………………..54
Figura 1.34 Como está constituido el oído medio…………………………………………….56
Figura 1.35 El laberinto óseo y membranoso…………………………………………………58
Figura 1.36 Corte transversal del conducto coclear en escala 25:1…………………………...60
Figura 1.37 La cóclea…………………………………………………………………………60
Figura 1.38 El órgano de corti………………………………………………………………...61
Figura 1.39 La distribución de las frecuencias en la cóclea…………………………………..62
Figura 1.40 Dos vistas de la cóclea hipotéticamente rectificada……………………………..63
Figura 1.41 Arriba, onda viajera en la membrana basilar en un instante dado.
Abajo, posición de la onda en tres instantes de tiempo t1, t2 y t3…………………………….64
Figura 1.42 Envolvente espacial de las ondas viajeras sobre la membrana basilar para cuatro
frecuencias diferentes………………………………………………………………………….65
Figura 1.43 Ubicación de la resonancia a lo largo de la membrana basilar en función de la
frecuencia……………………………………………………………………………………...65
Figura 1.44 A la izquierda, una célula ciliada entre la membrana basilar y tectoria en estado de
reposo………………………………………………………………………………………….66
Figura 1.45 Un audiograma…………………………………………………………………...74
Figura 2.1 Historia temprana de los implantes cocleares……………………………………..82
Figura 2.2 Se puede observar cómo está implantado el dispositivo completo en el cráneo
humano………………………………………………………………………………………...83
Figura 2.3 Partes del procesador de sonido CP810…………………………………………...85
vii
Figura 2.4 Este es el electrodo, la parte del implante que va dentro de la cóclea…………….87
Figura 2.5 Los electrodos de Cochlear vienen con 22 contactos de estimulación……………89
Figura 2.6 Se observa el tamaño diminuto del implante de la serie CI500…………………..90
Figura 2.7 El diseño del circuito del implante………………………………………………..91
Figura 2.8 Forma física del implante quirúrgico……………………………………………..91
Figura 2.9 El mando a distancia Nucleus……………………………………………………..92
Figura 2.10 En esta figura se puede observar a
los procesadores OPUS 1 Y OPUS 2
respectivamente………………………………………………………………………………..96
Figura 2.11 Batería recargable y sistema de carga DaCapo…………………………………..97
Figura 2.12 Una señal sonora se puede dividir en dos componentes: la envolvente y la
estructura fina………………………………………………………………………………….97
Figura 2.13 Una fotografía del Big Ben de Londres demuestra los beneficios que proporciona
la estructura fina……………………………………………………………………………….98
Figura 2.14 Las opciones de portabaterías que maneja el OPUS 2…………………………102
Figura 2.15 Control Fine Tuner……………………………………………………………..103
Figura 2.16 Guía de electrodos……………………………………………………………...107
Figura 2.17 Implante Coclear PULSARCI100……………………………………………...108
Figura 2.18 Implante Coclear SONATATI100……………………………………………...109
Figura 2.19 Partes del sistema Harmony……………………………………………………112
Figura 2.20 El procesador Harmony………………………………………………………..113
Figura 2.21 Las diferentes combinaciones de colores………………………………………114
Figura 2.22 Se pueden conectar diferentes auriculares al procesador……………………….114
Figura 2.23 Diferentes tipos de Ganchos Auriculares……………………………………….115
Figura 2.24 Imágenes respectivas a las diferentes opciones de pilas (desechables y
recargables) y cargadores…………………………………………………………………….117
Figura 2.25 Algunos accesorios del sistema Harmony……………………………………..118
Figura 2.26 El Procesador de sonido Platinum Series™……………………………………121
Figura 2.27 Algunos Accesorios del procesador PSP…………………………………….....122
Figura 2.28 El implante HiRes 90K Harmony………………………………………………124
Figura 2.29
Ejemplo que ayuda a entender cómo funciona la distribución activa de la
corriente…………………………………………………...…………………………………129
viii
Figura 2.30 Evolución de los diferentes tipos de estrategias de procesamiento del sonido...137
Figura 2.31 En esta figura se observan los principales pasos que se siguen en la cirugía…...139
Figura 2.32 Componentes de un sistema de Implante Coclear………………………………145
Figura 2.33 Funcionamiento de un implante coclear………………………………………...146
Figura 2.34 Esquema de la membrana basilar que muestra la base y el ápice……………..150
Figura 2.35 La estimulación de los Electrodos dentro de la cóclea…………………………150
Figura 2.36 Distribución de los canales……………………………………………………...155
Figura 2.37 Gráfica que muestra los resultados del porcentaje de monosílabos entendidos
correctamente, según el tipo de estimulación de los canales………………………………...155
Figura 2.38 Se puede observar como la frecuencia de 350 Hz es percibida de forma correcta en
la cóclea que tiene la inserción completa del electrodo……………………………………...156
Figura 2.39 Se observa cómo queda el electrodo en la cóclea al ser introducido
profundamente………………………………………………………………….....................157
Figura 2.40 En este análisis temporal de frecuencia se muestra una pequeña canción donde se
entona la letra “A” a diferentes tonos por una mujer………………………………………...161
Figura 2.41 Muestra la estimulación simultánea……………………………………………164
Figura 2.42 Se observa la diferencia de la salida de los pulsos……………………………...167
Figura 2.43 Los tipos de pulsos……………………………………………………………...167
Figura 2.44 Una representación de la forma de onda de un muestreo secuencial continuo de
una implante de 4 canales……………………………………………………………………169
Figura 2.45 Diagrama a bloques de la estrategia CIS en un implante coclear………………172
Figura 2.46 Diagrama que muestra en la parte de arriba la operación de un implante coclear
de 4 canales…………………………………………………………………………………..173
Figura 3.1 El oscilograma del wavepad con el
archivo de sonido “a de jorge.wav” a
100ms………………………………………………………………………………………...178
Figura 3.2 Análisis espectral con la aplicación FFT del wavepad a 100 ms………………...179
Figura 3.3 El primer grupo de 16 del muestrea de 100 ms…………………………………..182
Figura 3.4 Los 16 archivos tipo tono, generados por el tone generator……………………...183
Figura 3.5 Explicación de la nomenclatura numérica para los archivos de tipo Tone y
wave………………………………………………………………………………………….183
Figura 3.6 Copia del archivo 1_16 a 100ms.wave en Untitled 1…………………………….186
ix
Figura 3.7 Apreciación del efecto Paste Mix con 64 armónicos…………………………....187
Figura 3.8 Describe la aplicación de mezcla (superposición) al utilizar el Paste Mix………188
Figura 3.9 Los archivos que son el resultado de la mezcla…………………………………..188
Figura 3.10 Copia del archivo 3_mezcla 64 a 1 00.wave……………………………………190
Figura 3.11 Se copia el archivo 5_mezcla 64 a 200.wave…………………………………...190
Figura 3.12 La correcta posición del cursor naranja del wavepad…………………………...191
Figura 3.13 El resultado de la combinación de los archivos 3_mezcla 64 a 1 00.wave y
5_mezcla 64 a 200.wave……………………………………………………………………..192
Figura 3.14 Los 16 tonos generados por el tone generator en formato wave, abiertos con el
wavepad……………………………………………………………………………………...193
Figura 3.15 El archivo que es resultado de la combinación entre los archivos 3_mezcla 64 a 1
00.wave y 5_mezcla 64 a 200.wave………………………………………………………….194
Figura 3.16 Algunas herramientas de edición de audio del wavepad………………………..195
Figura 3.17 Los archivos enditados y el resultado final de la síntesis de la letra “a”………..196
Figura 3.18 Los indicadores de tiempo del wavepad, según la posición o selección del cursor
naranja………………………………………………………………………………………..198
Figura 3.19 El archivo de audio “a de jorge.wav”…………………………………………...198
Figura 3.20 Configuración de la tabla 3.2……………………………………………………203
Figura 3.21 Algunos archivos tipo tono, generados por el tone generator………………….207
Figura 3.22 Algunos archivos tipo wave, generados por el tone generator…………………208
Figura 3.23 El análisis espectral del archivo 9_16 a 270ms.wave a 1 ms…………………..210
Figura 3.24 El análisis espectral del archivo 10_17 a 29 a 270ms.wave a 1 ms……………211
Figura 3.25 El análisis espectral del archivo 5_mezcla 1 a 29 a 270.wave…………………211
Figura 3.26 Estos son algunos de los 68 archivos generados con la aplicación de Paste
Mix…………………………………………………………………………………………...212
Figura 3.27 Resultados de las combinaciones del primer grupo de muestreos de 230 a 870
ms…….....................................................................................................................................213
Figura 3.28 Resultado de las combinaciones del segundo grupo de muestreos de 200 a 220
ms…………………………………………………………………………………………….214
x
Figura 3.29 Los archivos editados y el resultado final de la síntesis de la palabra
“Campana”…………………………………………………………………………………...215
Figura 3.30 El análisis espectrográfico del archivo original “campana.wave”……………..217
Figura 3.31 El análisis espectral del archivo de síntesis de “campana” antes de aplicar el filtro
pasa bajos…………………………………………………………………………………….218
Figura 3.32 El análisis espectral y espectrográfico realizado al archivo resultante de la síntesis
de “campana”………………………………………………………………………………...218
Figura 3.33 Las cinco palabras con su análisis espectrográfico……………………………..222
Figura 3.34 Las palabras “campana” y “pelele”…………………………………………….223
Figura 3.35 Las palabra “coloso”……………………………………………………………224
xi
ÍNDICE DE TABLAS
Tabla 1.1 Algunos niveles de intensidad en dB………………………………………………...8
Tabla 1.2 Los armónicos principales, de la escala armónica………………………………….24
Tabla 1.3 Formantes que aparecen en el muestreo de 549 ms………………………………..51
Tabla 1.4 Harmónicos (en total son 88 muestras), del muestreo de 549 ms…………………..51
Tabla 2.1 Estrategias de Actualización………………………………………………………124
Tabla 2.2 Comparación entre el Harmony y el Nucleus 5…………………………………...163
Tabla 3.1 El análisis paramétrico de la vocal “a”……………………………………………177
Tabla 3.2 sección 1 Muestreo extenso de campana………………………………………….201
Tabla 3.2 sección 2 Muestreo extenso de campana………………………………………….202
xii
INTRODUCCIÓN
Padecer de la vista o del oído podía ser un problema, pero actualmente para la mayoría de los
casos existe una solución. Por ejemplo: si tienes cataratas o usas lentes te puedes operar con
rayo láser, si no puedes escuchar bien existen aparatos que permiten que lo hagas como si no
tuvieras “problema”. Para ello la medicina pasó por muchos retos que venció, pero no lo hizo
sola; porque necesitó de la intervención de otras ramas de la ciencia como: la física, mecánica
y electrónica. Actualmente, gracias a la investigación científica un sordo profundo tiene
grandes posibilidades de “oír”.
Cada padecimiento aspira a alguna solución en particular. Por ejemplo: las personas
que tienen déficit de audición, dependiendo de la pérdida de la sensibilidad auditiva podrían
necesitar desde un simple amplificador en el oído, hasta un implante quirúrgico de una
prótesis para el caso de los sordos profundos.
Todos estos avances se han logrado con la constante experimentación e investigación
de diferentes grupos científicos en todo el mundo. Para el caso de la ayuda a los sordos, son
varios los países que se han destacado como: Australia, Austria, Francia y Estados Unidos.
Históricamente el primer implante auditivo
se realizó el 25 febrero de 1957 por Andre
Djourno en Francia a una paciente sorda. Sin embargo, el sonido posee diferentes
características que lo hacen complejo y que han provocado que con el paso de los años, se
tengan que superar diferentes barreras para lograr que los sordos profundos escuchen.
Hablando del sonido:
El sonido de la voz humana posee una característica muy peculiar, el timbre; es el que
nos permite
distinguir a dos personas que hablan o a la misma nota producida por 2
instrumentos musicales diferentes. A través del timbre somos capaces de diferenciar, dos
sonidos de diferentes fuentes de la misma intensidad y del mismo tono (o frecuencia
fundamental). Los sonidos de la voz están compuestos por múltiples ondas simultáneas y que
el oído percibe como una sola suma. El timbre depende de la cantidad de armónicos que tenga
un sonido y de la intensidad de cada uno de ellos. Un Do emitido por una flauta es distinto al
Do que emite una trompeta, ya que aunque estén tocando la misma nota, tienen distintos
armónicos. Estos armónicos generan variaciones en la onda sinusoidal fundamental.
xiii
Los tonos puros son ondas con un modelo matemático sinusoidal de una frecuencia,
fase e intensidad constante, asociado a un movimiento armónico simple. En la naturaleza de la
voz, no existe este sonido puro, libre de armónicos.
El Teorema de Fourier (en 1822) establece que cualquier forma de onda periódica
puede descomponerse en una serie de ondas (armónicos), que tiene una frecuencia que es
múltiplo de la frecuencia de la onda original (frecuencia fundamental). Así, las señales
armónicas son tonos puros con diferentes intensidades, este análisis nos genera un conjunto
paramétrico capaz de reproducir las señales. Para señales aperiódicas o casi periódicas como la
voz humana en el caso particular de las vocales castellanas, se pueden analizar a través de la
transformada rápida de Fourier.
Debido a la descripción anterior se podrá notar que el sonido es complejo, entonces
diseñar aparatos que permitan escuchar no ha sido fácil. Si nos enfocamos en la voz humana
aquella es difícilmente legible por sus características como el timbre: que seria como la huella
digital de la voz. Por ejemplo; si hacemos que 3 personas diferentes del mismo sexo, edad y
complexión digan la vocal “a” a una persona que oye de forma normal, diferenciar la “a” de
las 3 diferentes personas no será ningún problema. Ahora una persona que use una prótesis
auditiva es difícil que puede tener el mismo resultado, ya que actualmente personas que
podían escuchar antes y por alguna razón han perdido esa facultad, informan que oír a través
de una prótesis no es lo mismo que tener una audición normal (1). Además, las personas que
posean estas prótesis deberán aprender a interpretar los sonidos que perciban (2).
Entonces que una persona sorda pueda escuchar mediante la ayuda de una prótesis
auditiva, es un gran avance científico, pero actualmente no existe la perfección en la
simulación de la audición humana.
Este trabajo queda estructurado de la siguiente manera: en el primer Capítulo se
describen los aspectos generales de la voz humana, el oído y el análisis frecuencial para un
mejor entendimiento del tema. El segundo Capítulo, plantea la problemática de las prótesis
auditivas. El tercer Capítulo
describe todo el trabajo experimental desde el análisis
paramétrico hasta la síntesis. El cuarto Capítulo hace referencia a los resultados obtenidos que
ayudarán a la fabricación de mejores prótesis.
xiv
Objetivos de Investigación
Objetivo General
Realizar una investigación que optimice el reconocimiento del timbre de voz, con un proceso
secuencial paramétrico, que ayude a la construcción de instrumentos y prótesis de mayor
fidelidad para los sordos profundos.
Objetivos Específicos
1. Describir los conocimientos generales y necesarios para el entendimiento de este
trabajo.
2. Investigar sobre la tecnología de punta en prótesis auditivas alrededor del mundo.
3. Hacer un análisis y una síntesis paramétrica de al menos una vocal castellana emitida
por una persona.
4. Realizar un análisis y una síntesis paramétrica de al menos una palabra castellana
emitida por una persona.
Hipótesis
Este trabajo sigue una idea que es fundamental en la parte experimental de esta investigación,
donde se cree que “dado un análisis paramétrico, la síntesis paramétrica de una señal de una
vocal en castellano mantiene el timbre de la persona emisora”.
Delimitaciones y limitaciones
Debido a las limitaciones del software utilizado para el análisis y síntesis paramétrico del
timbre de voz y al tiempo que se dispone para realizar este trabajo, obtener las síntesis de más
de una vocal emitida por una persona, es probable que no se pueda llevar a cabo.
xv
Justificación
Faltan pasos que dar en la ciencia para algún día alcanzar una alta reproducción de la audición
humana. Este trabajo de investigación busca la obtención de un código paramétrico confiable
que ayude a diseñar mejores prótesis auditivas, que puedan tener la capacidad de identificar y
procesar correctamente una de las características más peculiares de la voz humana, su timbre.
Debido a ello, la interpretación de los diferentes timbres de voz en un entorno ruidoso
es un problema fundamental a resolver en las prótesis auditivas, y por consiguiente el enfoque
de este trabajo.
Impacto Social, tecnológico, económico y ambiental
Esta investigación puede tener un impacto en la sociedad, ya que contribuye con herramientas
teóricas que ayudarán a la construcción de prótesis auditivas para sordos profundos, de mayor
calidad y menor costo. Puede motivar en un futuro a que se realicen más investigaciones sobre
el tema del timbre de voz, en la problemática de un mejor entendimiento para el caso de los
sordos profundos que posean una prótesis.
1
CAPÍTULO I
La Voz Humana, El Oído y El Análisis Frecuencial
1.1 Conceptos generales del sonido
1.1.1 Características y cualidades del sonido (Timbre, frecuencia, amplitud de onda, etc.)
Definición del sonido.
(1) Cuando se produce una perturbación periódica en el aire, se originan ondas sonoras
longitudinales donde el movimiento de partículas se desplaza en la misma dirección que la
onda. Por ejemplo, si se golpea un diapasón con un martillo, las ramas vibratorias emiten
ondas longitudinales. El oído, que actúa como receptor de estas ondas periódicas, las interpreta
como sonido.
El término sonido se usa de dos formas distintas. Los fisiólogos definen el sonido en término
de las sensaciones auditivas producidas por perturbaciones longitudinales en el aire. En física,
por otra parte, nos referimos a las perturbaciones por sí mismas y no a las sensaciones que
producen.
El Sonido es una onda mecánica longitudinal que se propaga a través de un medio elástico. (El
concepto de sonido se describirá en su significado físico).
Figura 1.1 Ejemplo de una fuente de sonido.
Al provocar las vibraciones del diapasón el oído las percibe como sonidos (1).
2
La producción de una onda sonora.
Deben haber dos factores para que exista el sonido. Es necesaria una fuente de vibración
mecánica y también un medio elástico a través del cual se propague la perturbación.
La fuente puede ser un diapasón, una cuerda que vibre o una columna de aire vibrando en un
tubo de órgano, la vibración de las cuerdas vocales, etc.
Los sonidos se producen por una materia que vibra. La necesidad de la existencia de un medio
elástico se puede demostrar colocando un timbre eléctrico dentro de un frasco conectado a una
bomba de vacío. Cuando el timbre se conecta a una batería para que suene continuamente, se
extrae aire del frasco lentamente. A medida que va saliendo el aire del frasco, el sonido del
timbre se vuelve cada vez más débil hasta que finalmente ya no se escucha. Cuando se permite
que el aire penetre de nuevo al frasco, el timbre vuelve a sonar. Por lo tanto, el aire es
necesario para transmitir el sonido.
La bomba de vacío
Figura 1.2 Un timbre eléctrico con una bomba de vacío.
Un timbre que se acciona en el vacío no puede escucharse. Es necesario un medio
material para que se produzca el sonido (1).
Ahora describiendo más detalladamente las ondas sonoras longitudinales en el aire que
proceden de una fuente que producen vibraciones. Una tira metálica delgada se sujeta
fuertemente en su base, se tira de uno de sus lados y luego se suelta. Al oscilar el extremo libre
de un lado a otro con movimiento armónico simple, se propagan a través del aire una serie de
ondas sonoras longitudinales periódicas que se alejan de la fuente. Las moléculas de aire que
colindan con la lámina metálica se comprimen y se expanden alternativamente, transmitiendo
3
una onda. Las regiones densas en las que gran número de moléculas se agrupan acercándose
mucho entre sí se llaman compresiones. Son exactamente análogas a las condensaciones
estudiadas para el caso de ondas longitudinales en un resorte en espiral. Las regiones que
tienen relativamente pocas moléculas se conocen como rarefacciones. Las compresiones y
rarefacciones se alternan a través del medio, en la misma forma que las partículas de aire
individuales oscilan de un lado a otro en la dirección de la propagación de la onda.
Puesto que una compresión corresponde a una región de alta presión y una rarefacción
corresponde a una región de baja presión, una onda sonora también puede representarse
trazando en una gráfica el cambio de presión P, así como una función de la distancia x. La
distancia entre dos compresiones o rarefacciones sucesivas es la longitud de onda.
Compresión
A.
Rarefacción
B.
Figura 1.3 Describe lo que se ha descrito anteriormente.
λ. es la longitud de onda.
A. Compresiones y rarefacciones de una onda sonora en el aire en un instante
determinado.
B. Variación sinusoidal de la presión como función del desplazamiento (1).
Velocidad del sonido.
La velocidad del sonido se puede medir directamente determinando el tiempo que tardan las
ondas en moverse a través de una distancia conocida. En el aire, a 0ºC, el sonido viaja a una
velocidad de 331 m/s.
La velocidad de una onda depende de la elasticidad del medio y de la inercia de sus partículas.
4
Por ejemplo; la velocidad del sonido en un medio en estado sólido como el aluminio es mayor
que en el aire, a 6400 m/s.
Ondas sonoras.
Se ha definido al sonido como una onda mecánica longitudinal que se propaga a través de un
medio elástico. Ésta es una definición amplia que no impone restricciones a ninguna
frecuencia del sonido. Los fisiólogos se interesan principalmente en las ondas sonoras que son
capaces de afectar el sentido del oído. Por lo tanto, es conveniente dividir el espectro del
sonido de acuerdo con las siguientes definiciones:
•
Sonido audible es el que corresponde a las ondas sonoras en un intervalo de
frecuencias de 20 a 20,000 Hz.
•
Las ondas sonoras que tienen frecuencias por debajo del intervalo audible se
denominan infrasónicas.
•
Las ondas sonoras que tienen frecuencias por encima del intervalo audible se llaman
ultrasónicas.
Cuando se estudian los sonidos audibles, los fisiólogos usan los términos: fuerza, tono y
calidad (timbre) para describir las sensaciones producidas. Por desgracia, estos términos
representan magnitudes sensoriales y por lo tanto subjetivas. Lo que es volumen fuerte para
una persona es moderado para otra. Lo que alguien percibe como calidad, otro lo considera
inferior. Como siempre, los físicos deben trabajar con definiciones explícitas que se puedan
medir. Por lo tanto, el físico intenta correlacionar los efectos sensoriales con las propiedades
físicas de las ondas. Estas correlaciones se resumen en la siguiente forma:
Efectos sensoriales (cualidades del sonido) y (características del sonido) propiedad física.
Intensidad acústica (volumen)/ amplitud.
Tono /frecuencia.
Timbre (calidad) / forma de la onda.
5
El significado de los términos de la izquierda puede variar considerablemente de uno a otro
individuo. Los términos de la derecha son medibles y objetivos. Estos términos se describirán
a continuación.
Cualidades y características del sonido.
Intensidad
Las ondas sonoras constituyen un flujo de energía a través de la materia. La intensidad de una
onda sonora específica, es una medida de la razón a la cual la energía se propaga a través de
un cierto volumen espacial. Un método conveniente para especificar la intensidad sonora es en
términos de la rapidez con que la energía se transfiere, a través de la unidad de área normal a
la dirección de la propagación de la onda.
Puesto que la rapidez a la cual fluye la energía es la potencia de una onda, la intensidad puede
relacionarse con la potencia por unidad de área que pasa por un punto dado.
Figura 1.4 La intensidad de una onda sonora.
Es una medida de la potencia transmitida por unidad de área perpendicular a la
dirección de propagación de onda. Su fórmula es la siguiente I= P/A.
Las unidades para la intensidad resultan de la relación de una unidad de potencia entre una
unidad de área.
6
En unidades del SI, la intensidad se expresa en la unidad de Watt/m2, sin embargo, la rapidez
de flujo de energía en ondas sonoras es pequeña por lo que se usa W/cm2. El factor de
conversión es:
1 W/cm2 = 1 x 10-2 W/m2
La intensidad I0 del sonido audible apenas perceptible es el orden de 10-12 W/m2. Esta
intensidad, que se conoce como umbral de audición, ha sido adoptada por expertos en acústica
como la intensidad mínima para que un sonido sea audible (se toma como una referencia fija).
El umbral de audición representa el patrón de la intensidad mínima para que un sonido sea
audible. Su valor a una frecuencia de 1000 Hz es:
I0 = 1 x 10-12 W/m2 = 1 x 10-14 W/cm2
El intervalo de intensidades por arriba del cual el oído humano es sensible es enorme. Abarca
desde el umbral de audición I0 hasta una intensidad de 10-12 veces mayor. EL extremo superior
representa el punto en el que la intensidad es intolerable para el oído humano. La sensación se
vuelve dolorosa y no sólo auditiva.
El umbral del dolor representa la intensidad máxima que el oído promedio puede registrar sin
sentir dolor. Su valor es:
1p = 1 W/m2 = 100 W/cm2
En vista de la amplitud del intervalo de intensidades al que es sensible el oído, es más
conveniente establecer una escala logarítmica para las mediciones de intensidades sonoras. Se
utiliza una escala logarítmica porque la sensibilidad que presenta el oído humano a las
variaciones de intensidad sonora sigue una escala aproximadamente logarítmica, no lineal.
Dicha escala se establece a partir de la siguiente regla.
Cuando la intensidad I, de un sonido es 10 veces mayor que la intensidad I2 de otro, se dice
que la relación de intensidades es de 1 bel (B).
O sea que, cuando se compara la intensidad de dos sonidos, nos referimos a la diferencia entre
niveles de intensidad dada por:
B= log I1 / I2 beles (B)
Donde I1, es la unidad de un sonido e I2 es la intensidad del otro.
7
En la práctica, la unidad de 1 B es demasiado grande. Para obtener una unidad más útil, se
define el decibel (dB) como un décimo del bel.
Usando la intensidad I0 como patrón de comparación para todas las intensidades, es posible
establecer una escala general para valorar cualquier sonido. El nivel de intensidad en decibeles
de cualquier sonido de intensidad I puede calcularse a partir de la relación general.
B= 10 log I/ I0 decibles (dB)
Donde I0 es la intensidad del umbral de audición (1 x 10-12 W/m2). El nivel de intensidad para
I0 es de cero decibeles.
Entonces se tiene que en virtud de la notación logarítmica de los decibeles, existe un amplio
intervalo de intensidades y se reduce a un espectro de 0 a 120 dB (pero hay sonidos de mayor
intensidad, por encima del umbral del dolor). Sin embargo hay que recalcar, que la escala no
es lineal sino logarítmica. Un sonido de 40 dB es mucho más que el doble de intensidad de un
sonido de 20 dB. Un sonido es 100 veces más intenso que otro es tan sólo 20 dB mayor. En la
siguiente tabla 1.1 aparecen varios ejemplos de los niveles de intensidad de sonidos comunes.
8
Nivel de intensidad de algunos sonidos comunes
(
dB)
Umb
r
a
lde
(
dB)
0
Tr
á
f
i
c
ope
s
a
do
70
10
Fá
b
r
i
c
a
80
Rumordeh
oj
a
s
20
Ca
mi
ónpe
s
a
do
90
Mur
mul
l
oa5m
30
Tr
e
ns
ub
ur
b
a
n
o
100
Bi
bl
i
ot
e
c
a
40
Of
i
c
i
nat
r
a
n
qui
l
a
50
Con
c
i
e
r
t
oder
oc
k
120(
umb
r
a
ldedol
or
)
60
Ma
r
t
i
l
l
one
umá
t
i
c
o
130
a
udi
c
i
ón
Re
s
pi
r
a
c
i
ón
n
or
ma
l
Con
ve
r
s
a
c
i
ón
n
or
ma
l
Rui
dode
c
on
s
t
r
uc
c
i
ón
110
Tabla 1.1 Algunos niveles de intensidad en dB (2).
Ampl
i
t
ud(
r
e
l
a
c
i
on
a
doc
onl
ai
n
t
e
n
s
i
da
d)
Laa
mpl
i
t
uddeun
aon
dades
oni
do,e
se
lgr
a
dodemovi
mi
e
n
t
odel
a
smol
é
c
ul
a
sdea
i
r
ee
nl
a
on
da
,quec
or
r
e
s
p
on
deal
ai
n
t
e
ns
i
da
ddel
ar
a
r
e
f
a
c
c
i
ónyc
ompr
e
s
i
ónquel
aa
c
ompaa
n
.
Cua
n
t
oma
y
ore
sl
aa
mpl
i
t
uddel
aon
da
,má
si
n
t
e
n
s
oe
se
lgol
pel
a
smol
é
c
ul
a
sa
lt
í
mpa
n
ode
l
oí
doymá
sf
ue
r
t
ee
se
ls
oni
dope
r
c
i
bi
do.Laa
mpl
i
t
uddeun
aon
dades
oni
dopue
dee
x
pr
e
s
a
r
s
e
e
nuni
da
de
sa
b
s
ol
ut
a
smi
di
e
n
dol
adi
s
t
a
n
c
i
adede
s
pl
a
z
a
mi
e
n
t
odel
a
smol
é
c
ul
a
sde
la
i
r
e
,ol
a
di
f
e
r
e
n
c
i
adepr
e
s
i
on
e
se
n
t
r
el
ac
ompr
e
s
i
ónyl
ar
a
r
e
f
a
c
c
i
ón
,ol
ae
n
e
r
gí
at
r
a
n
s
por
t
a
da(
10)
.
9
Fr
e
c
ue
n
c
i
a
(
3)Laf
r
e
c
ue
n
c
i
adeos
c
i
l
a
c
i
óndeun
apa
r
t
í
c
ul
a
,(
odec
ua
l
qui
e
rma
gni
t
ud,c
omopore
j
e
mpl
o
e
lv
ol
t
a
j
edeun
as
ea
le
l
é
c
t
r
i
c
a
)e
sl
ac
a
n
t
i
da
ddec
i
c
l
osc
ompl
e
t
ose
nunt
i
e
mpoda
do.La
f
r
e
c
ue
n
c
i
as
emi
dee
nh
e
r
t
z
i
os(
Hz
.
)
,ei
n
di
c
ae
ln
úme
r
odec
i
c
l
osc
ompl
e
t
ose
nuns
e
gun
do.
Unc
i
c
l
oe
se
lr
e
c
or
r
i
doc
ompl
e
t
oquee
f
e
c
t
úaunapa
r
t
í
c
ul
ade
s
des
upos
i
c
i
ónc
e
n
t
r
a
l
,h
a
s
t
a
ot
r
av
e
ze
s
ami
s
mapos
i
c
i
ón
,pa
s
a
n
dopors
up
os
i
c
i
óndede
s
pl
a
z
a
mi
e
n
t
omá
xi
moymí
ni
mo.
Figura 1.5 Ejemplo de un ciclo completo de una partícula (3).
Loss
oni
dosdeun
aúni
c
af
r
e
c
ue
n
c
i
a
,s
el
l
a
ma
nt
on
ospur
os
.Unt
on
opur
os
ee
s
c
uc
h
ac
omoun
"
pi
t
i
do"
,e
lt
i
mbr
ede
pe
n
de
r
ádel
af
r
e
c
ue
n
c
i
aquel
oge
n
e
r
e
.Els
oni
doques
ee
s
c
uc
h
ae
ne
l
t
e
l
é
f
on
oa
n
t
e
sdema
r
c
a
r
,pore
j
e
mpl
o,c
or
r
e
s
p
on
deaunt
on
opu
r
odef
r
e
c
ue
n
c
i
ac
e
r
c
a
n
aa400
Hz
.
Lapos
i
c
i
óndeun
apa
r
t
í
c
ul
ae
nuni
ns
t
a
n
t
edet
i
e
mpoc
on
c
r
e
t
o,de
pe
n
de
r
ádet
r
e
sf
a
c
t
or
e
s
:
f
r
e
c
ue
n
c
i
a
,módul
oyf
a
s
e
.Laf
r
e
c
ue
n
c
i
ay
as
ehade
f
i
ni
do.Elmódul
oi
n
di
c
al
aa
mpl
i
t
uddel
a
os
c
i
l
a
c
i
ón
,s
is
et
r
a
t
adepa
r
t
í
c
ul
a
sques
emue
ve
n
,e
lmódul
oe
s
t
a
r
áde
f
i
ni
doe
nme
t
r
os(
m)
,s
i
s
et
r
a
t
adeun
as
ea
le
l
é
c
t
r
i
c
a
,e
lmódul
oe
s
t
a
r
áde
f
i
ni
doe
nv
ol
t
i
os(
V)
.Enl
as
i
gui
e
n
t
efigura
1.6 s
et
i
e
n
e
ndospa
r
t
í
c
ul
a
squer
e
a
l
i
z
a
nc
i
c
l
osc
ompl
e
t
os(
h
a
c
e
nunc
i
c
l
oypa
r
a
n
)
.La
sdos
os
c
i
l
a
nc
oni
gua
lf
r
e
c
ue
n
c
i
a
,pe
r
ov
a
r
í
al
aa
mpl
i
t
ud,y
aquee
lmódul
odel
apa
r
t
í
c
ul
aI
Ie
s
ma
y
orquee
lmódul
odel
apa
r
t
í
c
ul
aI
.
10
Figura 1.6 Dos partículas que realizan ciclos completos, con igual frecuencia pero con
diferente amplitud (3).
Laf
a
s
ei
ndi
c
al
apos
i
c
i
óndel
apa
r
t
í
c
ul
aqueos
c
i
l
ae
ne
lmome
n
t
odee
mpe
z
a
rac
on
t
a
re
l
t
i
e
mpo,e
sde
c
i
re
nT=0s
.Laf
a
s
es
emi
dee
nr
a
di
a
n
e
s(
r
a
d)oe
ngr
a
dos()
.360 =2πr
a
d.Si
c
a
l
c
ul
a
mose
lc
os
e
n
odel
af
a
s
e
,n
osdaunv
a
l
ore
n
t
r
e1y1.Vi
e
n
dol
a
spa
r
t
í
c
ul
a
sIyI
I
,1
s
i
gni
f
i
c
a
r
í
aquel
apa
r
t
í
c
ul
ae
s
t
a
b
aal
ade
r
e
c
h
ade
lt
od
o,1al
ai
z
qui
e
r
dade
lt
od
o.
Seh
a
bl
adef
a
s
er
e
l
a
t
i
v
ac
ua
n
do l
o quei
n
t
e
r
e
s
ae
sl
adi
f
e
r
e
n
c
i
aquee
xi
s
t
ee
n
t
r
ed
os
movi
mi
e
n
t
osde l
a mi
s
ma f
r
e
c
ue
nc
i
a
.Sidospa
r
t
í
c
ul
a
su on
da
ss
e mue
ve
nc
on i
gua
l
f
r
e
c
ue
n
c
i
a
,pe
r
oc
ua
n
doun
apa
s
aporc
e
r
o,l
aot
r
an
ol
oh
a
c
eol
oh
a
c
ee
ndi
r
e
c
c
i
ónc
on
t
r
a
r
i
a
,
t
e
n
dr
á
nun
af
a
s
er
e
l
a
t
i
v
adi
s
t
i
n
t
adec
e
r
o.Sipa
s
aun
apa
r
t
í
c
ul
ae
x
a
c
t
a
me
n
t
eporc
e
r
o,yl
aot
r
a
l
oh
a
c
ee
ndi
r
e
c
c
i
ónc
on
t
r
a
r
i
a
,t
e
n
dr
á
nunaf
a
s
er
e
l
a
t
i
v
ade180 (
gr
a
dos
)odeπr
a
di
a
n
e
s
.En
e
s
t
ec
a
s
o,s
il
a
sdoson
da
st
i
e
n
e
ni
gua
lmódul
o,s
ec
a
nc
e
l
a
r
á
nunaal
aot
r
a
,s
i
e
n
doe
lr
e
s
ul
t
a
do
t
ot
a
lc
e
r
o.Sidosma
n
ost
r
a
t
a
ndemov
e
rc
oni
gua
lf
ue
r
z
aun
ah
oj
adepa
pe
l
,c
a
daun
ade
s
deun
l
a
do,c
onf
a
s
er
e
l
a
t
i
v
ac
e
r
o,e
lde
s
pl
a
z
a
mi
e
n
t
odel
ah
oj
as
e
r
ámá
xi
mo.Esde
c
i
r
,c
ua
n
doun
a
e
mpuj
al
aot
r
ar
e
c
oge(
l
a
sdospa
s
a
nporc
e
r
oe
ne
lmi
s
momome
n
t
oymi
s
madi
r
e
c
c
i
ón
)
.Sil
o
h
a
c
e
nc
onf
a
s
er
e
l
a
t
i
va180,e
lde
s
pl
a
z
a
mi
e
n
t
os
e
r
án
ul
o.
Al
af
r
e
c
ue
n
c
i
adeos
c
i
l
a
c
i
óndeunapa
r
t
í
c
ul
as
el
epue
deme
di
re
lt
i
e
mpoquet
a
r
dae
n
c
ompl
e
t
a
r
s
el
osc
i
c
l
os
.Es
t
ame
di
das
el
ec
on
oc
ec
omoElpe
r
i
odo(
T)
,quee
se
li
nve
r
s
odel
a
f
r
e
c
ue
n
c
i
a(
T=1/
f
)
.Elpe
r
i
odo s
emi
dee
ns
e
gun
dos(
s
)
.Cua
l
qui
e
rs
oni
do (
v
oz
,mús
i
c
a
,
r
ui
do.
.
.
)e
s
t
ác
ompue
s
t
op
ormúl
t
i
pl
e
sf
r
e
c
ue
nc
i
a
s
.Sepue
dede
s
c
ompon
e
re
ls
oni
do e
n
11
múl
t
i
pl
e
st
on
ospu
r
os
.Siuns
oni
doc
a
mbi
ac
one
lt
i
e
mpo,l
aa
mpl
i
t
udyf
a
s
edec
a
dat
on
opur
o
of
r
e
c
ue
nc
i
ae
nques
ede
s
c
omponee
s
es
oni
do,t
a
mbi
é
nva
r
i
a
r
í
ac
one
lt
i
e
mpo.
Elt
on
ooa
l
t
ur
a(
un
ar
e
l
a
c
i
ónc
onl
af
r
e
c
ue
n
c
i
a
)
(
1)Ele
f
e
c
t
odel
ai
n
t
e
n
s
i
da
de
ne
loí
doh
uma
n
os
ema
ni
f
i
e
s
t
ae
ns
ími
s
moc
omov
ol
ume
n
.En
ge
n
e
r
a
l
,l
a
son
da
ss
on
or
a
sques
onmá
si
n
t
e
ns
a
ss
ont
a
mbi
é
ndema
y
orv
ol
ume
n
,pe
r
oe
loí
do
n
oe
si
gua
l
me
n
t
es
e
n
s
i
bl
eas
oni
dosdet
oda
sl
a
sf
r
e
c
ue
n
c
i
a
s
.Porl
ot
a
n
t
o,uns
oni
dodea
l
t
a
f
r
e
c
ue
n
c
i
apue
den
opa
r
e
c
e
rt
a
na
l
t
o,c
omoun
odeme
n
orf
r
e
c
ue
n
c
i
aquet
e
n
gal
ami
s
ma
i
n
t
e
n
s
i
da
d.Pore
j
e
mpl
ol
as
e
n
s
a
c
i
óndev
ol
ume
nquepr
oduc
euns
oni
dode100dBn
oe
sl
a
mi
s
mas
ie
ls
oni
doe
sde50Hzques
ie
sde2000Hz(
2)
.
Laf
r
e
c
ue
nc
i
adeuns
oni
dode
t
e
r
mi
nal
oquee
loí
doj
uz
ga
,c
omoe
lt
on
ode
ls
oni
do.Los
mús
i
c
osde
s
i
gn
a
ne
lt
on
oporl
a
sl
e
t
r
a
squec
or
r
e
s
pon
de
nal
a
sn
ot
a
sdel
a
st
e
c
l
a
sde
lpi
a
n
o.
Pore
j
e
mpl
o,l
a
sn
ot
a
sd
o,r
eyf
as
er
e
f
i
e
r
e
nat
on
ose
s
pe
c
í
f
i
c
os
,of
r
e
c
ue
nc
i
a
s
.
Elt
on
o,e
sl
ac
a
r
a
c
t
e
r
í
s
t
i
c
aquen
ospe
r
mi
t
edi
f
e
r
e
n
c
i
a
runs
oni
doa
gudodeun
ogr
a
v
e
.Vi
e
ne
pr
oduc
i
dopore
ln
úme
r
odevi
b
r
a
c
i
on
e
spors
e
gun
do(
f
r
e
c
ue
nc
i
a
)
,a
s
íama
y
orn
úme
r
ode
vi
br
a
c
i
on
e
spors
e
gun
domá
sa
gudoe
se
ls
oni
do,yame
n
orn
úme
r
odevi
br
a
c
i
on
e
smá
sgr
a
ve
e
se
ls
oni
do.(
4
)
Une
j
e
mpl
odel
apr
oduc
c
i
óndedi
f
e
r
e
n
t
e
st
on
os
:undi
s
c
odes
i
r
e
n
a
,c
omoe
lques
emue
s
t
r
a
e
nl
as
i
gui
e
n
t
efigura 1.7,pue
deu
t
i
l
i
z
a
r
s
epa
r
ade
mos
t
r
a
rc
ómoe
lt
on
oque
dade
t
e
r
mi
na
dopor
l
af
r
e
c
ue
n
c
i
adeuns
oni
do.Un
ac
or
r
i
e
n
t
edea
i
r
es
ee
nví
as
ob
r
eunahi
l
e
r
adea
guj
e
r
os
i
gua
l
me
n
t
ee
s
pa
c
i
a
dos
.Alv
a
r
i
a
rl
av
e
l
oc
i
da
dder
ot
a
c
i
ónde
ldi
s
c
o(
os
e
al
af
r
e
c
ue
n
c
i
ade
r
ot
a
c
i
ón
)
,e
lt
on
ode
ls
oni
dor
e
s
ul
t
a
n
t
es
ei
n
c
r
e
me
nt
aode
c
r
e
c
e
.
12
Figura 1.7 Demostración de la relación entre tono y frecuencia (1).
For
madeon
da
(
1)Doss
oni
dosde
lmi
s
mot
on
os
epue
de
ndi
s
t
i
n
gui
rf
á
c
i
l
me
n
t
e
.Pore
j
e
mpl
o,s
is
ue
n
al
an
ot
a
do(
250Hz
)s
uc
e
s
i
va
me
n
t
ee
nunpi
a
n
o,un
af
l
a
ut
a
,un
at
r
ompe
t
ayunvi
ol
í
n.Aúnc
ua
n
do
c
a
das
oni
dot
i
e
n
ee
lmi
s
mot
on
o,h
a
yun
ama
r
c
a
dadi
f
e
r
e
nc
i
ae
ne
lt
i
mb
r
e
.Sedi
c
equee
s
t
a
di
f
e
r
e
n
c
i
ar
e
s
ul
t
aun
av
a
r
i
a
c
i
óne
nl
ac
a
l
i
da
doe
lt
i
mb
r
ede
ls
oni
do.En
t
on
c
e
sl
af
or
made
on
dae
sl
ac
a
r
a
c
t
e
r
í
s
t
i
c
aquen
ospe
r
mi
t
i
r
ádi
s
t
i
n
gui
run
an
ot
adel
ami
s
maf
r
e
c
ue
n
c
i
ae
i
n
t
e
n
s
i
da
dpr
oduc
i
dapori
n
s
t
r
ume
n
t
osdi
f
e
r
e
n
t
e
s
.Laf
or
madeon
davi
e
n
ede
t
e
r
mi
na
daporl
os
a
r
móni
c
os(
l
ae
x
pl
i
c
a
c
i
óndel
osa
r
móni
c
oss
ede
s
c
r
i
b
emá
sa
de
l
a
n
t
e
)
.(
4)
Enl
osi
ns
t
r
ume
n
t
osmus
i
c
a
l
e
s
,i
nde
pe
n
di
e
n
t
e
me
n
t
edel
af
ue
n
t
edevi
br
a
c
i
ón
,ge
n
e
r
a
l
me
n
t
es
e
e
x
c
i
t
a
ne
nf
or
mas
i
mul
t
á
n
e
adi
ve
r
s
osmodosdeos
c
i
l
a
c
i
ón
.Porc
on
s
i
gui
e
n
t
e
,e
ls
oni
do
pr
oduc
i
doc
on
s
i
s
t
en
os
ól
oe
nl
af
un
da
me
n
t
a
l
,s
i
not
a
mbi
é
ne
nva
r
i
oss
ob
r
e
t
on
os
.Lac
a
l
i
da
d
deuns
oni
dos
ede
t
e
r
mi
napore
ln
úme
r
o yl
a
si
n
t
e
n
s
i
da
de
sr
e
l
a
t
i
v
a
sdel
oss
ob
r
e
t
on
os
pr
e
s
e
n
t
e
s
.Ladi
f
e
r
e
n
c
i
ae
nl
ac
a
l
i
da
dot
i
mb
r
ee
nt
r
ed
oss
oni
dospue
deobs
e
r
va
r
s
ee
nf
or
ma
obj
e
t
i
v
aa
n
a
l
i
z
a
n
dol
a
sc
ompl
e
j
a
sf
or
ma
sdeon
daquer
e
s
ul
t
a
ndec
a
das
oni
do.
Ti
mbr
e(
r
e
l
a
c
i
on
a
doc
onl
af
or
madeon
da
)
Es
t
apa
r
t
ee
smuyi
mpor
t
a
n
t
e
!
,por
quee
ne
s
t
et
r
a
b
a
j
odet
e
s
i
se
ne
lCa
pí
t
ul
oI
I
Is
eh
a
c
e
n
di
f
e
r
e
n
t
e
sa
n
á
l
i
s
i
sys
í
n
t
e
s
i
sc
ons
ea
l
e
sdev
oz
,don
deun
odel
os f
a
c
t
or
e
spr
i
n
c
i
pa
l
e
sde
e
s
t
udi
oe
se
lt
i
mbr
e
.
13
(
5)Elt
i
mb
r
ee
sl
ac
ua
l
i
da
ddel
as
e
n
s
a
c
i
óns
on
or
aquepe
r
mi
t
ee
s
t
a
bl
e
c
e
rl
apr
ov
e
ni
e
n
c
i
ade
l
osdi
f
e
r
e
n
t
e
ss
oni
dosyr
ui
dos
.Loss
oni
dospr
oduc
i
dosporunmi
s
moi
ns
t
r
ume
n
t
ot
i
e
n
e
n
t
od
osunt
i
mbr
ei
gua
los
i
mi
l
a
r
,c
ua
l
qui
e
r
as
e
as
ut
on
oei
n
t
e
ns
i
da
d;porot
r
apa
r
t
e
,d
oss
oni
dos
dei
gua
lt
on
oei
n
t
e
ns
i
da
de
j
e
c
ut
a
dospori
ns
t
r
ume
n
t
osdi
s
t
i
n
t
oss
e
r
á
ni
nc
onf
un
di
bl
e
s
,pue
ss
u
t
i
mb
r
es
e
r
ádi
f
e
r
e
n
t
e
.
Dosmovi
mi
e
n
t
osvi
b
r
a
t
or
i
osdei
gua
lf
r
e
c
ue
n
c
i
aya
mpl
i
t
udpr
oduc
i
r
á
ns
oni
dosde
lmi
s
mo
t
on
oei
n
t
e
n
s
i
da
d;s
ie
s
t
oss
oni
dosdi
f
i
e
r
e
ne
ns
ut
i
mbr
e
,e
se
vi
de
n
t
equeh
a
b
r
áun
at
e
r
c
e
r
a
c
a
r
a
c
t
e
r
í
s
t
i
c
ade
lmovi
mi
e
n
t
ovi
b
r
a
t
or
i
oques
e
r
ál
aquepr
oduc
i
r
ádi
c
h
adi
f
e
r
e
n
c
i
a
.Es
t
a
c
a
r
a
c
t
e
r
í
s
t
i
c
ade
lmovi
mi
e
n
t
ovi
b
r
a
t
or
i
oe
sl
al
e
ys
e
gúnl
ac
ua
lv
a
r
í
al
ae
l
on
ga
c
i
ón(
di
s
t
a
n
c
i
a
,
del
apa
r
t
í
c
ul
aquevi
b
r
a
,r
e
s
pe
c
t
odes
up
os
i
c
i
óndee
qui
l
i
b
r
i
oe
nc
ua
l
qui
e
ri
n
s
t
a
n
t
e
.
)e
nf
un
c
i
ón
de
lt
i
e
mpoe
ne
li
n
t
e
r
v
a
l
odeunpe
r
í
odo.
Lar
e
pr
e
s
e
n
t
a
c
i
óngr
á
f
i
c
adel
av
a
r
i
a
c
i
óndel
ae
l
on
ga
c
i
óne
nf
un
c
i
ónde
lt
i
e
mpo,or
i
gi
n
al
a
s
di
s
t
i
n
t
a
sc
ur
v
a
s que c
a
r
a
c
t
e
r
i
z
a
ne
lt
i
mb
r
e de c
a
da s
oni
do.Pore
s
t
ar
a
z
ón
,s
e di
c
e
f
r
e
c
ue
n
t
e
me
n
t
equee
lt
i
mb
r
ede
pe
n
dedel
af
or
maodel
ac
ompl
e
j
i
da
ddel
aon
das
on
or
a
.
Piano Do
Clarinete Do
Figura 1.8 La diferencia en el timbre.
Muestra la forma de onda, de dos notas de igual frecuencia fundamental pero de
instrumentos diferentes (6).
Ha
yr
e
c
or
da
rquel
a
sc
ur
v
a
sc
or
r
e
s
pon
di
e
n
t
e
sal
a
son
da
ss
on
or
a
squeé
s
t
a
sor
i
gi
na
n
,n
o
i
ndi
c
a
ne
lmovi
mi
e
n
t
or
e
a
ldel
a
spa
r
t
í
c
ul
a
sde
lc
ue
r
pos
on
or
oode
lme
di
oe
ne
lc
ua
ls
e
pr
opa
gal
aon
das
i
n
oquer
e
pr
e
s
e
n
t
a
nl
a
sv
a
r
i
a
c
i
on
e
se
nf
un
c
i
ónde
lt
i
e
mpodel
ae
l
on
ga
c
i
ón
dedi
c
h
a
spa
r
t
í
c
ul
a
s
,mi
e
n
t
r
a
squel
osmovi
mi
e
n
t
oss
er
e
a
l
i
z
a
ns
ob
r
epe
queí
s
i
ma
st
r
a
y
e
c
t
or
i
a
s
r
e
c
t
i
l
í
ne
a
s
.
14
Pa
r
aa
c
l
a
r
a
re
s
t
o,r
e
c
ur
r
a
mosal
as
i
nus
oi
de
;s
es
a
b
equeé
s
t
ar
e
pr
e
s
e
n
t
ae
lmovi
mi
e
n
t
odeun
pun
t
oques
emue
v
ec
onmovi
mi
e
n
t
oa
r
móni
c
os
i
mpl
e
,y
as
e
aé
s
t
ee
lpun
t
oma
t
e
r
i
a
ldeun
pé
n
dul
oqueos
c
i
l
al
a
t
e
r
a
l
me
n
t
es
ob
r
euna
r
c
odec
i
r
c
unf
e
r
e
n
c
i
aol
ape
s
adeunr
e
s
or
t
e
os
c
i
l
a
n
dos
ob
r
eun
al
í
ne
av
e
r
t
i
c
a
l
.Ese
vi
de
n
t
equel
ac
ur
v
ar
e
pr
e
s
e
n
t
as
ol
a
me
n
t
el
av
a
r
i
a
c
i
ón
del
ae
l
on
ga
c
i
óne
nf
un
c
i
ónde
lt
i
e
mpo,pue
sdeot
r
omodo,e
lmovi
mi
e
n
t
odel
ape
s
aye
l
movi
mi
e
n
t
oc
ur
vi
l
í
ne
ode
lpun
t
oma
t
e
r
i
a
ldel
ape
s
ade
bi
e
r
a
nr
e
pr
e
s
e
n
t
a
r
s
edema
n
e
r
adi
s
t
i
n
t
a
.
Figura 1.9 Un resorte o un péndulo oscilando.
Una partícula describe un movimiento vibratorio u oscilatorio cuando se desplaza
sucesivamente a un lado y a otro de su posición de equilibrio, repitiendo a intervalos
regulares sus variables cinemáticas (7).
0
Figura 1.10 Gráfica de un seno.
Un resorte o un péndulo oscilando son ejemplos de un movimiento armónico simple,
el cual es el más simple de los movimientos vibratorios. Se llaman así porque se
expresan mediante funciones armónicas de seno y coseno. La proyección del
movimiento sobre un eje “0”, genera la gráfica que se muestra en la figura (7).
15
Sin
osr
e
f
e
r
i
mosa
lt
i
mbr
ede
s
deun
ape
r
c
e
pc
i
óne
ne
loí
do,e
s
t
es
e
gúnl
al
e
ydeOhm (
G.S.
Ohm,f
ueunf
í
s
i
c
oa
l
e
má
ne
npr
opon
e
rl
a
ss
e
ns
a
c
i
on
e
sde
lt
i
mbr
ee
ne
loí
do)a
n
a
l
i
z
al
a
son
da
s
c
ompl
e
j
a
s que s
ob
r
eé
li
nc
i
de
n
,de
s
c
omponi
é
n
dol
a
se
ns
us c
ompon
e
n
t
e
ss
i
nus
oi
da
l
e
s
,
c
ompor
t
á
n
dos
ec
omos
ie
s
t
uvi
e
r
ac
ons
t
i
t
ui
doporu
n
amul
t
i
t
udder
e
s
on
a
dor
e
s
,c
a
daun
odel
os
c
ua
l
e
sr
e
s
ue
n
apa
r
auns
oni
dos
i
mpl
ede
t
e
r
mi
na
do;s
ee
n
t
i
e
n
depors
oni
dos
i
mpl
ee
lpr
oduc
i
do
porun
as
ol
aon
das
i
nus
oi
da
l
.
Los s
oni
dos s
i
mpl
e
s que c
ompon
e
ne
ls
oni
do c
ompl
e
j
os
el
e
sl
l
a
ma
na
r
móni
c
os
.
Sel
l
a
ma
na
r
móni
c
osa
ur
a
l
e
sl
oss
oni
dosge
n
e
r
a
dosp
orl
adi
s
t
or
s
i
óni
n
t
r
oduc
i
dapore
loí
do.
Esf
á
c
i
lde
mos
t
r
a
rs
ue
xi
s
t
e
n
c
i
a
,c
r
e
a
n
do pul
s
a
c
i
on
e
sc
on s
oni
dospur
osde f
r
e
c
ue
nc
i
a
pr
óxi
ma
.
Ale
s
t
udi
a
re
lt
i
mbr
edes
oni
dospr
oduc
i
dosporpe
r
c
us
i
óne
sne
c
e
s
a
r
i
ot
oma
re
nc
ue
n
t
al
a
e
xi
s
t
e
n
c
i
adepa
r
c
i
a
l
e
st
r
a
n
s
i
t
or
i
osof
uga
c
e
s
,quea
pa
r
e
c
e
ni
nme
di
a
t
a
me
n
t
ede
s
pué
sdel
a
pe
r
c
us
i
ónydur
a
nf
r
a
c
c
i
on
e
spe
quea
sdes
e
gun
do,modi
f
i
c
a
n
dogr
a
n
de
me
n
t
es
i
ne
mba
r
go,e
l
t
i
mb
r
ede
ls
oni
do.
He
r
ma
nnv
onHe
l
mh
ol
t
ze
ns
ul
i
br
o"
Se
ns
a
c
i
on
e
ss
on
or
a
s
"
,publ
i
c
a
doe
n1862,r
e
s
umi
ól
os
r
e
s
ul
t
a
dosde8aosdee
x
pe
r
i
e
n
c
i
a
sr
e
a
l
i
z
a
da
spa
r
ac
onf
i
r
ma
rl
al
e
ydeOhm di
c
i
e
n
do:"
l
a
s
di
f
e
r
e
n
c
i
a
sdet
i
mb
r
edel
osdi
s
t
i
n
t
oss
oni
dos
,pr
ovi
e
n
e
núni
c
a
me
n
t
edel
apr
e
s
e
n
c
i
ade
a
r
móni
c
osydes
ui
n
t
e
n
s
i
da
dr
e
l
a
t
i
v
a
"
.He
l
mhol
t
zyOhm s
os
t
e
ní
a
nquel
af
a
s
edel
os
di
f
e
r
e
n
t
e
sa
r
móni
c
osn
oi
nf
l
uy
ee
ne
lt
i
mbr
ede
lc
ompl
e
j
o,pe
r
oe
s
t
ea
s
pe
c
t
odes
ut
e
or
í
aha
s
i
dor
e
f
ut
a
dop
orob
s
e
r
v
a
dor
e
smá
sr
e
c
i
e
n
t
e
s
.
Ens
ua
s
pe
c
t
of
i
s
i
ol
ógi
c
o,l
a
st
e
or
í
a
sdeHe
l
mhol
t
zyOhm s
upon
e
nquel
a
sf
i
br
a
sdel
a
me
mbr
a
n
ab
a
s
i
l
a
ryl
osór
ga
n
osdeCor
t
ide
s
e
mpea
ne
lpa
pe
lder
e
s
on
a
dor
e
spa
r
al
oss
oni
dos
s
i
mpl
e
s
.Lat
e
or
í
adeHe
l
mh
ol
t
z
,muyc
onv
e
ni
e
n
t
eba
j
oc
i
e
r
t
osa
s
pe
c
t
os
,n
oe
x
pl
i
c
ac
ont
od
o
v
a
r
i
osf
e
n
óme
n
osc
omol
a
spul
s
a
c
i
on
e
sye
le
nma
s
c
a
r
a
mi
e
n
t
o,r
a
z
ónporl
ac
ua
lhac
a
í
doe
n
de
s
us
o.
Es
t
os2úl
t
i
mosf
e
n
óme
n
oss
oni
mpor
t
a
n
t
e
sys
ede
s
c
r
i
b
e
nac
on
t
i
n
ua
c
i
ón
:
16
Fe
n
óme
n
odeb
a
t
i
doopul
s
a
c
i
on
e
s
:
(
8)Las
upe
r
pos
i
c
i
óndeon
da
sdef
r
e
c
ue
n
c
i
a
sƒ1 y ƒ2 muy cercanas entre sí produce un
fenómeno particular denominado pulsación (o batido).
En esos casos nuestro sistema auditivo (porque excitan prácticamente la misma zona de la
membrana basilar, sumándose sus efectos.) no es capaz de percibir separadamente las dos
frecuencias presentes, sino que se percibe una frecuencia promedio (ƒ1 + ƒ2) / 2, pero que
cambia en amplitud a una frecuencia de ƒ2 - ƒ1.
Es decir, si se superponen dos ondas senoidales (tonos puros) de 300 Hz y 304 Hz, nuestro
sistema auditivo percibirá un solo sonido cuya altura corresponde a una onda de 302 Hz y
cuya amplitud varía con una frecuencia de 4 Hz (es decir, cuatro veces por segundo).
Figura 1.11 Pulsaciones producidas por la superposición de dos ondas
de frecuencias muy cercanas (8).
Fenómeno de enmascaramiento:
(9) Es la anulación de un sonido por la mayor intensidad sonora de otro. Un ejemplo:
Un tono enmascarador de 1200 Hz que está a 20, 40, 60 y 80 dB por encima de su umbral de
audición.
A 20 dB únicamente los tonos de frecuencia parecida quedan un poco enmascarados. Basta
con elevar a 15 dB el tono enmascarado para percibirlo. Las frecuencias tanto altas como bajas
se oirán con cualquier intensidad sonora. Si aumenta la sonoridad del tono enmascarador la
cosa cambia. A 60 dB se empiezan a enmascarar un poco las altas frecuencias. Al subir a 80
17
dB el tono enmascarador, se puede observar como los tonos de frecuencia alta quedan muy
enmascarados mientras que los graves apenas se enmascaran.
Se puede resumir el fenómeno con las siguientes palabras:
•
El efecto es máximo para sonidos con frecuencias próximas a las del sonido
enmascarador.
•
El efecto es mínimo para sonidos de baja frecuencia.
•
Con intensidad sonora elevada se enmascaran más las frecuencias altas, al igual que las
frecuencias con un nivel de presión sonora baja del sonido enmascarador.
La siguiente figura 1.12 muestra las curvas de puntos del sonido enmascarado, y muestra
cuantos dB se tiene que elevar este tono enmascarado por encima de su umbral de audición
para que se pueda percibir.
Figura 1.12 Tono enmascarador de 1200 Hz (9).
Continuando con la descripción del timbre:
El profesor Fritz Volbach, en su interesante libro "La orquesta moderna", sostiene que hay
sólo dos formas básicas en las ondas sonoras: una forma sinuosa y una forma dentada, con
todos los posibles tipos de transición, correspondiendo las formas sinuosas a los sonidos de la
flauta y la trompa y las formas dentadas al oboe y la trompeta; los armónicos se agregan a
estas ondas formando ondas de superposición, pero sin alterar su carácter básico; sostiene
además, que los armónicos de un sonido poseen ya el timbre de éste. Según Volbach, no podrá
18
nunca sintetizarse el timbre de la trompeta a partir de parciales de la flauta, por ejemplo,
aunque se varíen sus intensidades y se quiten o añadan parciales.
Haciendo estudios sobre los instrumentos de viento, deduce que el modo de provocar la
vibración del aire influye decisivamente sobre el timbre: si las compresiones y dilataciones se
producen suavemente, la forma básica de la onda será sinuosa, evolucionando hacia la forma
dentada cuanto más violenta es la producción de las ondas. El estudio de las ondas producidas
por explosiones, parece confirmar esta teoría.
Una de las contribuciones modernas que más interesa al estudio del timbre, es la teoría del
formante (se describirá detalladamente más adelante). Según la teoría clásica de Helmholtz, el
timbre de los sonidos, dependía de la relación entre las frecuencias de los distintos armónicos
y la frecuencia de la fundamental, cualquiera sea esta última. La teoría del formante sostiene
por el contrario que para cada timbre existe una banda estrecha de frecuencias, de altura
absoluta fija, que está siempre presente, cualquiera sea la frecuencia de la fundamental. En el
caso del violín, las frecuencias formantes que caracterizan su timbre estarían siempre
comprendidas entre 3500 y 5000 ciclos.
Las sensaciones de timbre no son mensurables como las de altura y de intensidad, pues la
mayor o menor complejidad de un movimiento vibratorio no constituye una magnitud para la
cual pueda establecerse una unidad de medida, ni escalas. No existen por lo tanto umbral ni
cima para las sensaciones de timbre. Para ordenar los sonidos según su complejidad, se
establece una relación entre la energía total y la energía de todos los parciales menos la
fundamental; un sonido con 3 % de distorsión será uno en que la fundamental posee el 97 %
de la energía total.
El estudio del timbre se puede realizar por dos vías opuestas y complementarias: por análisis y
por síntesis.
El primero en analizar sonidos fue Helmholtz que efectuó sus análisis mediante los
resonadores por él inventados. El uso de resonadores permite determinar cuales son los
armónicos presentes pero no su intensidad; para esto se recurre actualmente a los analizadores
armónicos, que muestran simultáneamente las intensidades de los armónicos componentes
mediante diversos circuitos eléctricos. Los resultados de estos análisis son expuestos en lo que
19
se llama espectros armónicos. Los espectros armónicos de los distintos instrumentos: las
ordenadas son proporcionales a las intensidades (medida en decibeles) y las abscisas a las
frecuencias de los armónicos (como el caso de uno de los programas utilizados para el análisis
de una señal sonora “wavepad”, que se describirá más adelante).
La síntesis de sonidos es también de gran utilidad, pues permite confirmar los resultados del
análisis. Helmholtz y Koenig construyeron un aparato formado por diez diapasones y sus
correspondientes resonadores mediante el cual sintetizaron con bastante éxito algunos sonidos.
Actualmente se utiliza un aparato llamado "synthephone" que permite sintetizar la mayoría de
los sonidos conocidos y crear timbres nuevos.
1.1.2 Las Formas de Onda
Una Forma de Onda es una representación gráfica de las variaciones de alguna señal continua
con respecto al tiempo. La forma de onda de un sonido representa los cambios en la presión
del aire (amplitud) que son causadas por la excitación del aire, por ejemplo, por un
instrumento musical.
Debe comprenderse que esta no es la única forma en que un sonido puede ser definido. Una
forma de onda representa a la señal en su desarrollo temporal, es una representación en el
"dominio del tiempo". El sonido puede ser también representado en el "dominio de la
frecuencia"; esto se conoce como espectro (se describirá más adelante), y ofrece una imagen
del timbre sonoro. Una considerable cantidad de sofisticadas técnicas de análisis han sido
desarrolladas para poder convertir ("transformar") la representación de una señal del dominio
temporal al dominio de las frecuencias, y viceversa ("transformación inversa"). Muchas de
ellas están basadas en el uso de computadoras. En la realización del Capítulo III en el análisis
y síntesis de sonidos se tienen ambas representaciones (11).
(12) Formas comunes de onda.
20
Figura 1.13 Distintos tipos de formas de onda (12).
La definición (nombre) hace referencia a la forma o característica que tiene cada una de
ellas:
1. Onda senoidal.
2. Onda en diente de sierra.
3. Onda cuadrada.
4. Pulso.
5. Onda senoidal amortiguada.
6. Onda triangular.
7. Escalón.
8. Forma de onda compleja.
Algunos ejemplos que generarían estas formas de onda:
•
Onda senoidal, es la tensión de la red eléctrica de uso doméstico, con una tensión de
120 V y una frecuencia de 60 Hz.
•
Una onda cuadrada, es la que proporciona por ejemplo un generador de efecto Hall.
•
El escalón, se produce cuando se detecta el paso de un estado eléctrico a otro; por
ejemplo la puesta en marcha de un elemento.
•
El pulso, se produce cuando se detecta la activación momentánea de un elemento, por
ejemplo el destello intermitente de una lámpara.
•
Las formas de onda compleja, son las que pueden ser una combinación de varias
(cuadrada, senoidal amortiguada etc.). Por ejemplo las del encendido de un
electrodoméstico (otro ejemplo podría ser la voz humana).
21
Pero específicamente en este Capítulo se habla del sonido, entonces se manejará un enfoque
con las formas de onda generadas por los sonidos.
(13) Según se elija una forma de onda u otra se consigue un tipo de sonido u otro (generando
diferentes timbres de uno a otro). Estas cuatro son las cuatro formas de onda típicas, las
clásicas:
•
Sinusoide: es un tipo de forma de onda que sirve para sonidos muy artificiales, ya que
en la naturaleza es raro encontrar un sonido sinusoidal (por ejemplo el silvido).
•
Cuadrada: esta forma de onda es parecida a la sinusoide, pero en este caso se consigue
un sonido más rico. Es ideal para combinarla con la triangular, y conseguir así buenos
sonidos de bajo.
•
Triangular: en este caso, esta forma de onda es buena para hacer sonidos tipo clarinete
y también para sonidos arpegiados.
•
Diente de sierra: esta forma de onda es la que más se suele emplear en la música dance.
Con ella se pueden hacer sonidos de todo tipo, siempre muy ricos en armónicos, y con
gran cuerpo. Sonidos como tipo trompeta.
1.1.3 Los armónicos
Los armónicos.
(14) Son los componentes de un sonido que se definen como las frecuencias secundarias que
acompañan a una frecuencia fundamental (o primer armónico) o generadora. Los armónicos
contribuyen a la percepción auditiva de la calidad de sonido o timbre.
Los sonidos armónicos son producidos por la naturaleza, al recibir cuerpos capaces de vibrar
las ondas sonoras que emite un sonido fundamental al espacio y se han utilizado como base de
los sistemas de temperamento justo.
22
El armónico de una onda es un componente sinusoidal de una señal. Su frecuencia es un
múltiplo de la fundamental.
La amplitud de los armónicos más altos es mucho menor que la amplitud de la onda
fundamental y tiende a cero; por este motivo los armónicos por encima del quinto o sexto
generalmente son inaudibles.
Los armónicos son a su vez, los que generan el timbre característico de una fuente de sonido
(ya sea una voz humana, un instrumento musical, etc.). Son los que permiten diferenciar un
tipo de instrumento de otro, o reconocer el timbre de la voz de una persona.
Los armónicos más altos son inaudibles, y lo que da diferentes timbres a diferentes
instrumentos es la amplitud y la ubicación de los primeros armónicos y los parciales (los
armónicos cuyas frecuencias no son múltiplos enteros se denominan parciales).
Cuando se ejecuta una nota en un instrumento musical se genera una onda de presión de aire.
Esta onda sonora está acompañada por una serie de armónicos y cada armónico de esta serie
tiene una amplitud (volumen o fuerza del sonido) diferente. Por ejemplo en el clarinete son
más fuertes los armónicos impares (el 3º, el 5º, el 7º, etc.).
A partir del quinto armónico, todos los siguientes armónicos impares suenan ligeramente
desafinados con respecto al temperamento igual. (15) El temperamento igual (que no debe
confundirse con el sistema justo de afinación) es el sistema de afinación más utilizado
actualmente en la música occidental, y que usa intervalos iguales entre los 12 semitonos que
dividen la octava, lo que se conoce como escala cromática. Una octava es la repetición de un
sonido armonioso cuya frecuencia es doble del primero.
23
Figura 1.14 Teclas de un piano que muestran una escala musical.
La octava es lo que correspondería a un salto de ocho teclas blancas del piano. De
la tecla Sol hasta la otra tecla sol la frecuencia se duplica (15).
Serie armónica.
Sucesión de los sonidos cuyas frecuencias son múltiplos enteros positivos de la de una nota
base (puede ser la nota Do), llamada fundamental.
Para estudiar la serie armónica se numera cada sonido con un índice, comenzando por el
número uno para el sonido fundamental. Es una importante propiedad de la serie el hecho de
que las proporciones (las razones o cocientes) entre los índices respectivos de dos sonidos
cualquiera sean también la proporción entre las frecuencias vibratorias de dichos sonidos; esta
proporción caracteriza al mismo intervalo entre dos notas cualesquiera, cuando sus frecuencias
se encuentran en la misma proporción. Puede estar constituida por 16 sonidos diferentes
partiendo de la fundamental como base.
Por ejemplo (la escala armónica de los 5 primeros armónicos y más importantes):
El primer sonido de la serie, o sonido fundamental, tiene una frecuencia que coincide con la de
la nota cuya altura se percibe. El resto de los sonidos se añaden a éste sin alterar su altura
aparente, pues el oído funde o integra todos los armónicos en una sola sensación.
El segundo sonido de la serie tiene una frecuencia doble de la del primero. Su altura es una
octava por encima de aquél.
El tercer sonido tiene una frecuencia triple de la del primero, y está en una proporción de 3 a 2
con la del segundo; su altura es una quinta justa por encima de éste, y una doceava (intervalo
compuesto por una octava más una quinta) por encima del primero.
24
El cuarto sonido tiene una frecuencia doble de la del segundo; su altura será una octava por
encima de éste, y por tanto serán dos octavas por encima del fundamental. Cada vez que el
número de orden (o índice) de un armónico es doble, su altura estará siempre una octava por
encima.
El sonido número cinco se encuentra una tercera mayor por encima del sonido número cuatro.
Hasta llegar al índice 16…
Nº de Armónico Frecuencia Nota
Intervalo
1º armónico
264 Hz
do1 tono fundamental (el primer do a la izquierda del piano)
2º armónico
528 Hz
do2
octava
3º armónico
792 Hz
sol2
quinta
4º armónico
1056 Hz
do3
octava
5º armónico
1320 Hz
mi3
tercera mayor
Tabla 1.2 Los armónicos principales, de la escala armónica (14).
La serie armónica y el timbre.
En una teoría simplificada del timbre musical, cada uno de los sonidos de la serie armónica es
un componente del timbre o color del sonido representado por una nota cuya frecuencia es la
del sonido fundamental. A los sonidos de la serie armónica, componentes del timbre, se les
llama sonidos armónicos o simplemente armónicos. También se han denominado a veces
sonidos parciales, alícuotas, acompañantes o concomitantes.
Los sonidos de la serie armónica representan los elementos de la serie de Fourier que resulta al
aplicar el análisis de Fourier a una forma de onda periódica. Puesto que las formas de onda de
los sonidos del mundo real nunca son estrictamente periódicas, el timbre que se analiza por
este método (análisis de Fourier) se corresponde con el concepto de timbre estático. A la lista
de los armónicos (y sus intensidades relativas) que constituyen un sonido y que determinan el
timbre estático de éste, se le llama "receta" del timbre. Se puede asimilar la "receta" de
25
armónicos de un timbre musical con la lista de ingredientes de un plato de comida. Cualquier
modificación en esta lista o en las proporciones de cada ingrediente, altera el "sabor", "color"
o timbre del sonido.
El timbre de un sonido musical representado esquemáticamente por su receta de armónicos, es
una versión muy simplificada del espectro de dicho sonido.
(16) Pero es importante recalcar que el timbre no es estático es dinámico.
Cuando nos limitamos a decir que una determinada forma de onda corresponde a un timbre,
nos estamos limitando al concepto estático del mismo. De igual modo en una foto, es la
representación de una persona en el momento que se tomó la fotografía y no es la persona en
sí.
Figura 1.15 Analogía del timbre (16)
De esta persona solo podemos obtener diferentes ángulos de su rostro al moverse en un
lapso de tiempo tomándole diferentes fotos. Lo mismo sucede con el timbre, como este
no es estático solo podemos obtener pequeñas muestras de éste, si se hace referencia
del timbre estático.
Entonces para obtener un mejor resultado hay que analizar los espectros de los sonidos
con mayor profundidad, ya que sus espectros (y su contenido en armónicos) varían
continuamente en el tiempo. Es decir: no es igual al comienzo que al final, y tampoco en
su parte media. Por lo que en conclusión el timbre tiene un carácter dinámico
Entonces el timbre es algo que esta en constante evolución, ya que la forma de onda no es
igual entre cada instante y el siguiente, por lo que se hablará del timbre como una propiedad
dinámica del sonido, caracterizada, no por un solo factor, sino por un conjunto de ellos:
•
Forma de onda básica.
•
Transitorios de ataque (armónicos que aparecen al principio y que pueden desaparecer
en el transcurso de la ejecución, como cuando se golpea un diapasón).
26
•
Envolvente de intensidad.
•
Ruido.
El timbre de un instrumento no está descrito de forma completa si se ignora el ruido.
Cualquier sonido, por lo general no es perfectamente periódico (su onda no se repite siempre
de forma idéntica) y por tanto existe una componente “caótica” (el ruido) que bajo el prisma
del análisis de Fourier no corresponde a ningún armónico. Sin embargo, esta componente
caótica puede tener una importancia relativamente grande respecto de la parte armónica, tanto;
que caracteriza al sonido como proveniente de un determinado instrumento, de forma muy
clara.
En ocasiones, la parte no periódica es prácticamente la única que existe, y entonces no es
posible encontrar un patrón de repetición que corresponda a la frecuencia del sonido.
1.1.4 Los formantes
(17) El sonido generado en la laringe que origina la voz por sí solo, no sirve para la
comunicación oral; por lo que debe sufrir una serie de transformaciones en las cavidades
supralaríngeas (arriba de la laringe) y llegue a ser un sonido inteligible el que salga por los
labios.
Si consideramos la laringe como fuente sonora, las estructuras referidas por encima de ella se
denominan tracto vocal. El tracto vocal está constituido por la laringe supraglótica, la faringe,
la boca y las fosas nasales. El tracto vocal, durante el habla, está modificando continuamente
su anatomía en la forma de distintos gestos articulatorios de tal manera que se intensifican o
atenúan diferentes sonidos.
27
Tracto Vocal (Sección
Sagital)
Tracto
Nasal
Paladar
Figura 1.16. El tracto Vocal.
Orificios
Alvéolos
Dientes
Labios
Velo del
paladar
Lengua
Epiglotis
Laringe
Vibración
Cuerdas Vocales
Faringe
Tráquea
Flujo de
Aire
Cuerdas Vocales
(Inspiración y Fonación)
La voz humana es producida por el
paso del aire procedente de los
pulmones, que al llegar a la laringe,
produce la vibración de los dos pares
de cuerdas vocales. Las cavidades de
la cabeza, relacionadas con el
sistema respiratorio y nasofaríngeo,
actúan como resonadores, mientras
que los dientes, labios y paladar,
como articuladores.
La combinación de éstos, permiten
generar distintos sonidos (vocales y
consonantes). En el caso de las
vocales, el paso del aire no se ve
interrumpido en el tracto vocal,
diferenciándose únicamente por su
forma (configuración boca lengua,
paladar). Esto es lo que produce la
amplificación o atenuación de las
frecuencias generadas previamente
(18).
Las zonas donde se intensifican determinados sonidos se llaman resonancias, por lo que cada
forma que adquiere el tracto vocal tiene una determinada curva de resonancia. La mecánica del
habla necesita el cambio continuo de curvas de resonancia y de las fuentes sonoras acopladas a
ella para producir los diferentes fonemas del habla. Si desea emitir una vocal determinada se
impone al tracto vocal a una cierta conformación que lo convierte en un resonador complejo a
través del cual se propaga el sonido laríngeo. De igual manera, en los espectros sonoros de las
vocales existen grupos de armónicos de diferentes rangos de frecuencia (ancho de banda), que
28
presentan máximos relativos de intensidad, y corresponden a los formantes, distinguiéndose
hasta un quinto formante de acuerdo con los valores crecientes de sus frecuencias medias.
Estas frecuencias medias para cada vocal no son valores rígidos, pueden variar de locutor en
locutor y aún dentro de cada uno de ellos, de todas formas el rango de variación de las
frecuencias donde aparecen los formantes tiene unos límites, al sobrepasarlos la inteligibilidad
del habla corre el riesgo de deteriorarse. Según Sundberg hay formas de modificar el tracto
vocal y por lo tanto la frecuencia de los formantes; por ejemplo, si se desciende la laringe o se
produce un entubamiento de los labios se puede alargar el tracto vocal consiguiéndose un
descenso del primer formante, que dará como resultado una voz más oscura. La maniobra
opuesta produce una elevación del primer formante.
Las características de los formantes son la base en la comparación e identificación de
diferentes voces, y especialmente las frecuencias altas del espectro aportan al receptor
información acústica obre el timbre personal del sonido de la voz. Por ejemplo el tercer y
cuarto formantes son puntos muy significativos en la identificación de las personas ya que los
formantes más altos son producto del timbre individual de cada locutor. Estos picos o
frecuencias formánticas son debido, no necesariamente a un armónico, sino a un grupo de
armónicos de frecuencias próximas a la de resonancia. Un formante se define como un
máximo en la función de transferencia del tracto vocal.
Cada vocal se caracteriza por unos formantes determinados que distinguen unas de otras, así
las vocales castellanas se pueden clasificar en función de su estructura armónica o timbre en
vocales agudas (e, i), vocales graves (o, u), y neutras(a).
Mediante un análisis LPC (Lineal Predictive C o d i n g) del que disponen la mayoría de los
programas informáticos analizadores de voz, se pueden identificar los valores en frecuencia de
los distintos formantes, su energía o intensidad y su definición o grado de aplanamiento
mediante el valor ancho de banda (bandwidth).
En síntesis y más concretamente se definirán a los formantes respondiendo las siguientes
preguntas:
29
¿Qué es una Formante?
(19) Es el pico de intensidad en el espectro de un sonido, se trata de concentración de energía
(amplitud de onda) que se da en una determinada frecuencia. En el habla se determinan por el
proceso de filtrado por resonancia que se produce en el tracto vocal por la configuración de los
articuladores. Técnicamente los formantes son bandas de frecuencia donde se concentra la
mayor parte de la energía sonora de un sonido.
¿Para qué sirven?
Los formantes permiten distinguir los sonidos del habla humana, sobre todo las vocales y otros
sonidos sonoros. También sirven para los sistemas de reconocimiento de voz. Esto es posible
porque cada sonido del habla humana tiene una signatura características de formantes, es
decir, hace un reparto diferente de la energía sonora entre los diferentes formantes, lo cual
permite clasificarlos o categorizarlos. El oído humano puede hacer ese análisis de formantes
de manera inconsciente, y es por eso que se pueden distinguir los sonidos de la lengua
materna.
Por ejemplo en muchas lenguas los dos formantes principales permiten distinguir la mayoría
de sonidos vocálicos del habla.
¿Cómo se producen?
La mayoría de los formantes de los sonidos del habla se producen por la resonancia del tracto
vocal. La vibración de las cuerdas vocales produce ondas sonoras con un espectro de
frecuencia bastante distribuido, estas son filtradas por el tracto vocal y algunas frecuencias son
reforzadas y otras atenuadas. Las frecuencias fuertemente reforzadas son precisamente los
formantes principales de la emisión sonora.
30
Figura 1.17 Formante.
Es el pico de intensidad en el espectro de un sonido, que se da en una determinada
frecuencia (19).
Para un mayor entendimiento y una descripción más detallada sobre los “Formantes”,
consultar el “Anexo 4”
1.1.5 La Transformada, El teorema y la Transformada Rápida de Fourier
La Transformada de Fourier.
(20) Es una herramienta matemática que tiene un uso muy amplio en lo referente al
tratamiento digital de señales, hoy en día se encuentra implementada por ejemplo: en
dispositivos electrónicos de reconocimiento de voz e imagen. Esta puede ser aplicada en
varios campos como: el análisis espectral, ecuaciones diferenciales, resolución de problemas
elásticos estacionarios y dinámicos, etc.
El desarrollo matemático de la transformada de Fourier fue explicado por Jean Baptiste
Joseph Fourier (1768-1830), en su libro la Teoría Analítica del Calor, publicado en 1822.
31
(21) El consiguió establecer una relación de las vibraciones en el espacio de tiempos y el
espacio de frecuencias. (22) Describió que Toda señal periódica, sin importar cuan complicada
parezca, puede ser reconstruida a partir de sinusoides cuyas frecuencias son múltiplos enteros
de una frecuencia fundamental, eligiendo las amplitudes y fases adecuadas.
Figura 1.18 Señal sinusoidal ideal representada en el tiempo con su correspondiente
representación en el espacio de frecuencias (21)
Teorema de Fourier.
(21) Este teorema se refiere a los movimientos vibratorios periódicos complejos M.V.P.C. La
periodicidad de las señales es lo que hace que las percibamos con una altura de tono definida.
Nuestro cerebro percibe una altura de tono definida si al tímpano llega una secuencia periódica
de pulsos o presiones y depresiones. Hace falta una periodicidad en la señal para tener una
altura de tono definida.
El teorema dice que si se tiene un M.V.P.C. de frecuencia f siempre es posible descomponerlo
en una suma de movimiento vibratorio armónico simple de frecuencias f, 2f, 3f, 4f, 5f, 6f, etc.
y de amplitudes variables de forma que sumados todos nos den el M.V.P.C. nuevamente.
Un ejemplo sería; un sonido musical producido por un instrumento que viene acompañado por
una serie de sonidos (armónicos). Estos sonidos son las diferentes formas naturales de vibrar
de ese instrumento o fuente (cuerdas) y en muchos casos, afortunadamente, se asemejan a lo
que denominamos serie armónica natural. Para cada frecuencia fundamental f existen todos
sus múltiplos o unos cuantos de ellos cuya suma nos da una función en el tiempo de forma
32
compleja y periódica de frecuencia f. Por este motivo es más fácil comprender y analizar la
señal si utilizamos la representación en el espacio de frecuencias.
Gracias al análisis de Fourier pueden aparecen desglosados todos los armónicos de los que se
compone la señal o sonido complejo (es como si los sonidos pasarán por un prisma que los
descompone en sus diferentes partes).
(23) Un ejemplo al aplicar el teorema de Fourier:
Se puede construir una onda cuadrada a apartar de ondas senoidales. Se tienen 5 ondas
senoidales de frecuencias de: 1000 Hz, 3000 Hz, 5000 Hz, 7000 Hz y 9000 Hz y de las
siguientes amplitudes: 1, 0.33, 0.20, 0.14 y 0.11 respectivamente. Al mezclarlas en un
programa se obtiene como resultado una onda casi cuadrada, como se muestra en la siguiente:
figura 1.19:
Figura 1.19 Construcción de una onda Cuadrada a partir de ondas senoidales (23).
Para construir la onda cuadrada sólo se necesitan los armónicos que son múltiplos
impares de F0 (frecuencia fundamental), es decir, 3F0, 5F0, 7F0,..., etc.
(24) El teorema de Fourier permite no sólo analizar curvas periódicas sino también curvas no
periódicas, en este caso la curva se extiende desde -infinito a +infinito y se puede suponer que
este intervalo cubre un periodo (Los sonidos que son producidos por la voz humana como el
de la “s” podría ser un ejemplo).
La Transformada Rápida de Fourier.
(25, 26) La transformada discreta de Fourier (DFT) es la transformada de Fourier para
secuencias de longitud finita, es decir, la transformada se calcula sobre el intervalo temporal
33
0 < n < N-1, siendo N la longitud de una secuencia de duración finita. Esta requiere del
cálculo de N funciones exponenciales para obtener F(n).
Cuando N es grande, el número de operaciones implicadas en la transformada es enormemente
grande (es un esfuerzo de cálculo). De ahí que la computación debe simplificarse para hacer
práctica la técnica de la transformación. Por lo que se han desarrollado ciertos métodos
(algoritmos) que permiten ahorrar cálculos y evaluar de manera rápida la DFT.
Esto fue posible desde que surgió el Algoritmo que se denomina FFT (Fast Fourier
Transform) y fue propuesto por primera vez en 1965, por Cooley y Tukey.
El principio fundamental del algoritmo FFT se basa en la descomposición del cálculo de la
DFT de una secuencia de longitud N en DFT's cada vez más pequeñas.
Como ejemplo, se describe el siguiente problema de búsqueda:
Una persona vive en un rascacielos de N plantas. Se quiere averiguar en qué planta está su
apartamento. Las preguntas sólo serán contestadas con " sí " o " no”. ¿Cuántas preguntas se
deben de formular para averiguar dónde vive?
La aproximación más sencilla y más directa consiste en preguntar: " ¿Vives en la planta N?".
En el mejor de los casos, esta sospecha inicial resulta cierta, pero es más probable estar
equivocados, de tal manera que habrá que repetir la misma pregunta con otras plantas. En el
peor de los casos, se harán exactamente N-1 preguntas. Con cada pregunta sólo se puede
excluir una de las N posibilidades.
Sin embargo, con la pregunta " ¿Vive en la mitad superior del edificio? ", al hacer esta
pregunta se puede excluir la mitad de las posibilidades de una sola vez. Tras la respuesta, se
puede saber si él vive en la mitad superior o inferior del edificio, y se pueden seguir haciendo
las preguntas de la misma manera, mediante la partición de las restantes posibilidades en dos
mitades (método de la búsqueda dicotómica o binaria). Con esta estrategia, se necesita un
menor número de preguntas.
Si el número de plantas es una potencia de dos, es decir del tipo 2p, se necesitan exactamente
p preguntas. Así, para N plantas, se necesitan log2 N preguntas.
34
Una medida de la complejidad operacional de un problema con N componentes es la potencia
más grande de N que aparece en el cálculo de operaciones necesarias para resolverlo. Esta
aproximación es útil, ya que la potencia más grande en N domina el número de operaciones
necesarias para un valor de N grande.
La FFT constituye uno de los mayores desarrollos en la tecnología del tratamiento en general,
de cualquier tipo de señal.
Las diversas aplicaciones de la FFT surgen de sus raíces: la transformada discreta de Fourier y
de ahí, la transformada de Fourier.
La evolución de la informática, particularmente la del ordenador personal, ha hecho de la FFT
una herramienta de análisis manejable y potente.
Breve descripción matemática.
(27) Teorema de Fourier: se deduce que cualquier vibración x (t) que esté definida en un
período de tiempo de T seg. (y de la cual dispongamos de N muestras), puede reconstruirse
exactamente mediante la suma de ondas armónicas.
Siempre y cuando su media (x) = 0, y que se satisfaga la relación de Nyquist.
El requisito de que la media de la amplitud de la vibración sea 0 no es ninguna limitación en la
práctica (ni conceptual), puesto que siempre se puede hacer un cambio de variable de la forma:
Por lo que (x`) = 0.
La frecuencia de cada vibración armónica se da por:
35
Siendo N, el número de muestras que se tiene de la vibración. En la práctica, el análisis de
Fourier consiste en determinar las dos series de amplitudes {ak} y {bk} de N/2 elementos cada
una que corresponda a una vibración dada.
Así pues, se puede considerar que cualquier vibración está compuesta por la interacción o
interferencia (suma) de un conjunto de ondas armónicas simples, de frecuencia fk, cada una en
la magnitud (o proporción) dada por sus amplitudes ak y bk respectivas.
(22) Transformada de Fourier.
•
t: Tiempo.
•
f: Frecuencia en Hz.
•
x (t): Señal de prueba.
•
e−j2πft: Fasor de Sondeo.
•
X (f): Espectro en función de la frecuencia f.
x (t) ↔ X (f), es decir para una función x (t) existe un equivalente X (f).
X (f), el espectro, revela la fuerza (energía) de varias componentes de frecuencia, ordenadas
por frecuencia.
La transformada de Fourier actúa como un detector de energía infrecuencia dependiente.
Transformada Discreta de Fourier (DFT).
Cuando la función está dada por una lista de N valores se dice que está discretizada o
muestreada, entonces la integral que define la transformada de Fourier se convierte en la
sumatoria:
•
N: Numero de Samplers en x[n]
36
•
x[n]: Señal de prueba discreta (con índice n)
•
X[k]: Espectro en función de la frecuencia discreta (con índice k)
•
e−jkwn/N: Fasor de sondeo discreto (en otras ecuaciones se pone como Wn)
El equivalente en tiempo y frecuencia discreta es la transformada discreta de Fourier.
(25) La Transformada Rápida de Fourier (FFT).
La eficiencia de dicho algoritmo se basa en las propiedades de simetría y periodicidad del
fasor Wn evitando operaciones redundantes de la DFT. Por el contrario el algoritmo esta
limitado a que la longitud de la secuencia N a de ser potencia de 2, es decir se ha de cumplir:
N= 2m y en el caso de que no sea así se deberán añadir ceros a la secuencia hasta conseguir un
número potencia de 2, lo que se conoce como zero-padding.
Los diferentes algoritmos de la FFT se pueden clasificar según si el cómputo se realiza en
tiempo (FFT Decimation-In-Time, Decimación en tiempo) o en frecuencia (FFT Decimación –
In-Frecuency, Decimación en frecuencia). En el primer caso se realiza una reordenación
previa de las muestras temporales y el resultado queda ordenado correctamente. En el segundo
caso, o computo en frecuencia, se realizan los cálculos según llegan las muestras y al final del
proceso se debe realizar una reordenación del las muestras de salida.
Nota importante: al describir a la transformada de Fourier en este Capítulo de tesis, hay
muchos temas que se han omitido (por ejemplo: la transformada inversa, teorema de
convolución…), debido a que solo se describe al Teorema de Fourier de una forma muy
general para que se pueda tener un mejor entendimiento en este trabajo.
1.1.6 El espectro de Sonido
(28) Espectro del sonido es un diagrama que muestra las amplitudes relativas de las diferentes
frecuencias componentes de un sonido.
37
(29) El espectro es importante debido a varias razones:
Primero porque permite una descripción de las ondas sonoras que está íntimamente vinculada
con el efecto de diferentes dispositivos y modificadores físicos del sonido. En otras palabras,
si se conoce el espectro de un sonido dado, es posible determinar cómo este se podría ver
afectado por algún cuerpo o algún fenómeno.
En segundo lugar, porque la percepción auditiva del sonido es de naturaleza
predominantemente espectral. En efecto, antes de llevar a cabo ningún otro procesamiento de
la señal acústica, el oído descompone el sonido recibido en sus componentes frecuenciales, es
decir en las ondas senoidales que, según el teorema de Fourier, conforman ese sonido.
¿Cómo se obtiene?
(3) Aunque el proceso de cálculo es bastante tedioso, la electrónica e informática actuales, con
hardware o software que trabajan con procesos como la FFT (Transformada Rápida de
Fourier), simplifican enormemente el trabajo de cálculo. Porque hace escasos 10 años, para
calcular el nivel espectral de una señal de audio de escasa duración se requerían varios
minutos o incluso horas y potentes ordenadores. Actualmente todos estos cálculos se
implementan en procesadores y plugins capaces de mostrar los resultados en tiempo real.
A la hora de calcularse el espectro, este no se calcula en nivel espectral para cada frecuencia
(cerca de 20 KHz) sino que éstas se agrupan en bandas, dando lugar a la representación en
bandas de frecuencia. Este se obtiene al calcular la energía que aporta cada frecuencia al
sonido total. Normalmente la representación no se hace en términos de energía directamente,
sino que se calcula el nivel (10Log) respecto a la energía de referencia. Con esto se obtiene el
Nivel espectral expresado en dB.
La siguiente figura 1.20 muestra representaciones espectrales de un sonido indeterminado (en
un instante concreto).
38
•
•
•
•
•
Figura 1.20 Representaciones espectrales de un sonido indeterminado (3)
La figura central muestra el espectro representado en bandas de media octava y la
figura de arriba en bandas de una octava. Los números representan las
frecuencias centrales expresadas en Hz.
Para los tres casos el espectro está representado de 20 a 20 K Hz.
La relación que existe entre frecuencias centrales es la siguiente: en bandas de
octava: f2 = 2 · f1. En bandas de media octava: f2 = 21/2 · f1. En bandas de tercio
de octava: f2 = 21/3 · f1. Siendo f1 la frecuencia central de una banda y f2 la
frecuencia central de la banda superior contigua.
Las representaciones en octavas suelen contar con 10 bandas y las de media
octava con 20. También se utilizan las de tercio de octava (30 o 31 bandas).
Las representaciones se hacen sobre ejes de frecuencia logarítmicos, esto hace
que en la representación se vea la misma distancia entre las frecuencias 100 Hz y
200 Hz que entre 1 KHz y 2 Khz.
En conclusión.
La representación espectral (o el espectro) puede resultar muy útil si se sabe interpretar.
Básicamente aporta información sobre cuanto contribuye cada frecuencia o cada banda de
frecuencia al sonido total. Dicho de otra forma, el espectro permite "ver" el sonido que le llega
al oído.
39
1.2 Bases y fundamentos de algunos de los softwares que se pueden utilizar para el análisis de
la voz humana
1.2.1 Algunos de los métodos de análisis acústico del habla
Análisis oscilográfico.
(30) Este método de análisis utiliza un Oscilograma, que es la representación de las
variaciones de amplitud en el habla (eje vertical) a lo largo del tiempo (eje horizontal).
Figura 1.21 Oscilograma de una oración en castellano (30).
Aplicaciones: cuando se hace un análisis de la sonoridad (La sensación subjetiva de la
intensidad se define como sonoridad y depende de la frecuencia, ancho de banda y
duración del sonido(31).), de amplitud (intensidad), la duración, las pausas, el acento, la
velocidad de elocución y el ritmo.
Análisis espectral.
Método que puede utilizar 2 herramientas:
•
Transformada Rápida de Fourier (FFT). Representación de la frecuencia (eje
horizontal) y la amplitud (eje vertical) de los armónicos en un instante de la señal
sonora del habla. Por ejemplo, si se tomo como referencia a la figura 1.21 y se le hace
el análisis a los 3 ms, aplicando la FFT, aparecerá un diagrama donde se verán los
armónicos.
•
Codificación por predicción lineal (LPC, Linear Predictive Coding). Representación de
la frecuencia (eje horizontal) y la amplitud (eje vertical) de los picos espectrales que
40
representan las resonancias del tracto vocal (formantes) en un instante de la señal
sonora del habla.
A. Análisis espectral con FFT
B. Análisis espectral con LPC
Figura 1.22 El Análisis Espectral de la vocal A en un tiempo dado con 2 herramientas
diferentes (30) .
Aplicaciones de las 2 herramientas:
A. Análisis de la sonoridad y de la estructura formántica (timbre).
B. Análisis de la estructura formántica (timbre).
Análisis espectrográfico.
Método que utiliza un espectrograma, que es la representación de las variaciones de la
frecuencia (eje vertical) y la amplitud (se representa en niveles de escala de grises) de la señal
sonora a lo largo del tiempo (eje horizontal).
41
Figura 1.23 Espectrograma de una oración en castellano (30).
Aplicaciones: Análisis de la sonoridad, la duración, la estructura formántica (timbre), la
amplitud (intensidad), las pausas, el acento, la velocidad de elocución y el ritmo
1.2.2 NCH Software y sus aplicaciones (WavePad, Tone Generator)
(32) Wavepad es un software australiano profesional para la edición de audio y es uno de los
muchos componentes de la gama de software de audio de NCH Swift Sound.
Características:
•
Es un potente editor de música y audio para los sistemas operativos de Windows y
Mac.
•
Permite grabar y editar música, voces y otro tipo de grabaciones de audio.
•
Al editar archivos de audio se puede cortar, copiar y pegar partes de grabaciones y
luego añadir efectos como eco, amplificación y reducción de ruido. Funciona como un
editor para wav, mp3 y otros formatos.
•
Las herramientas incluyen análisis espectral, (FFT), síntesis del habla (conversión
texto a voz) y convertidor de voz.
•
Admite velocidades de muestreo desde 6 a 196kHz, estéreo o mono, 8, 16, 24 o 32
bits.
42
•
Al explorar las otras funcionalidades, hay herramientas muy potentes especializadas
como el tone generator.
Esta aplicación es un generador de onda (puede ser sinusoidal, cuadrada, de triángulo y
diente de sierra), generador de frecuencia y generador de señales que permite crear
tonos de prueba de audio, barridos o formas de onda de ruido (blanco y rosa) al utilizar
la computadora. Simultáneamente se pueden manejar hasta 16 diferentes tonos a la vez
en el modo monocanal y hasta 32 en modo stereo (16 por cada canal). Se puede
cambiar la frecuencia, la amplitud y el tiempo de duración. Una vez creado el tono se
puede guardar como archivo de audio .wav, que posteriormente puede ser analizado
con el programa wavepad.
Ejemplos de algunas aplicaciones (descritas en la figura 1.24 y 1.25):
•
Aplicaciones que se le hicieron al archivo de audio “campana.wav” (mismo archivo
que se usara en el análisis paramétrico en el Capítulo III) grabado a 16 bits monocanal
a 44.1 KHz.
•
En la primera gráfica de la siguiente figura 1.24 está el espectrograma. Se obtiene al
ejecutar la aplicación de Análisis Temporal de Frecuencia (TFFT), aplicación que se
encuentra en el tools. Al mover el cursor del mouse se va cambiando la frecuencia y la
amplitud.
•
En la segunda gráfica, esta el Análisis Espectral. Se obtiene al ejecutar la aplicación de
Análisis de Frecuencia (FFT), aplicación que se encuentra en el Tools. Al mover el
cursor del Mouse se va cambiando la frecuencia y la amplitud al señalar cualquiera de
los picos (armónicos) del espectro.
En el espectro con el cursor de Mouse esta señalado el pico de mayor energía a 753 Hz
con -23 dB (Marcado con una flecha negra).
•
En la tercera gráfica esta el oscilograma del archivo completo. Sale automáticamente al
abrir el archivo de audio campana.wav.
•
En la figura 1.25 se describe como se genera un tono senoidal, compuesto por 3
diferentes tonos con el tono generator.
43
Figura 1.24 Ejemplo de las aplicaciones con el wavepad al archivo “campana.wav”, en
el tiempo de 600ms (el tiempo esta indicado con la flecha negra).
Figura 1.25 Ejemplo de un tono generado con 3 ondas sinusoidales con el tone generator
(se cambió la frecuencia, la amplitud y el tiempo de duración).
44
1.2.3 Praat
(33) Un software libre de multiplataforma para el estudio fonético del habla. Permite el
análisis, manipulación y síntesis de voz. Es desarrollada por Paul Boersma y David Weenink
en el Instituto de Ciencias Fonéticas de la Universidad de Ámsterdam.
Ejemplos de algunas aplicaciones: permite obtener la frecuencia fundamental (la curva
melódica azul llamada Pitch que aparece en el espectrograma), los formantes (puntos rojos que
se pueden observar en el espectrograma), el análisis espectral con FFT y muchas más como la
curva de intensidad (en el espectrograma aparece como una curva de color amarillo).
Se describe a continuación como sacar los formantes:
Hay dos maneras. Una es observar los formantes en la ventana de edición en la que se puede
obtener datos numéricos precisos. La otra manera es crear un objeto formant con el fin de
obtener datos de manera automática (únicamente se describirá la primera forma).
Formantes en la ventana de edición de praat.
•
Primero hay que seleccionar el archivo de sonido para el análisis. La selección del
archivo de sonido que se desea analizar se realiza a partir del menú read,
seleccionando la opción read from file.
•
Una vez seleccionado el archivo (de la ventana de objects) que contiene la señal sonora
que se desea analizar, se elige, en el menú de la derecha, la opción edit.
45
Figura 1.26 Muestra como seleccionar el archivo de audio que se desea analizar.
El archivo seleccionado es el mismo que se uso en el ejemplo de wavepad (mismo que se
usara en el capitulo 3). Para empezar el análisis de formantes por este método se
selecciona la opción Edit (marcada con la flecha negra).
Después se abre una ventana de análisis y de edición en la que se muestra el oscilograma en la
parte superior y el espectrograma en la parte posterior. En el menú superior del programa hay
diferentes opciones selecciónables, cada una con diferentes aplicaciones.
En una de ellas, praat despliega una ventana que tiene la opción formants en el menú superior.
Si se activa la opción show formants, aparecen en rojo los formantes identificados por el
programa.
Con la opción formant settings, se despliega un formulario en el que se especifican varios
parámetros. Para una voz femenina, hay que usar 5500 para el campo maximun formant. (Hz)
y fijar en 5 el campo number of formants. Para voz masculina hay que cambiar el valor de
maximun formant (Hz) a 5000. Esto implica que el programa encontrará solo 5 formantes
entre los 0 Hz y los 5500 Hz, o 5000 Hz (Esos 5000 o 5500 Hz son el ancho de banda máximo
del espectrograma).
46
Con la opción dot size (mm) puedes cambiar el tamaño del trazo. Con 0.5 será bastante fino y
con 2 será más grueso (los puntos rojos aumentan de tamaño).
Ajustando estos parámetros se puede inspeccionar visualmente los valores de los formantes de
una señal en la ventana de edición. Al situar el cursor en un punto del espectrograma, por
ejemplo, sobre un punto de formante, al lado izquierdo de la ventana aparecería el valor en Hz
correspondiente a ese punto.
Figura 1.27 Muestra como se ve el menú de formant settings.
En la parte de maximun formant (Hz), esta en 5000.0 porque el archivo de sonido
corresponde a una voz masculina. En dot size esta en 1.0 ya que de ser mayor se verían
muy grandes los puntos rojos de los formantes.
En el menú formant hay una serie de posibilidades bajo la sección query para la obtención de
valores de los formantes y de los anchos de bandas respectivos. La primera de esas opciones,
formant listing, da la lista de los valores de los centros de frecuencia de los formantes si se
tiene el cursor en un punto de la señal o en una selección, al tener un fragmento marcado. La
lista de valores se puede copiar en un programa para hacer los cálculos. Las demás opciones se
refieren al centro de frecuencia o al ancho de banda (bandwidth) de cada formante.
Las siguientes figuras 1.28, 1.29 y 1.30 describen la obtención de los formantes en la ventana
de edición:
47
5
2
3
4
1
Figura 1.28 Un ejemplo de la ventana de edición (oscilograma, espectrograma y
formantes), del archivo “Campana.wav”.
Al contar las líneas formadas por los puntos rojos superpuestos en el espectrograma, se
observa que el máximo número de formantes es 5. Por ejemplo, en la zona marcada con
(1), corresponde a la línea del grupo del 3 formante.
El valor que se muestra en el lado izquierdo (2) corresponde al centro de la frecuencia
del formante que está en el punto del cursor (3), donde el eje de la “y” es la frecuencia y
el eje de la “x” es el tiempo (5).
Algunas veces, se producen resonancias que no corresponden estrictamente a los
formantes que interesan para la descripción fonética, sino que son resonancias propias
de una emisión de una persona. El análisis de los formantes debe seguir una cierta lógica
que gráficamente se manifiesta en la continuidad de la dirección del trazo. Aquellos
puntos que se salen de esa dirección son valores espurios que no deben ser considerados
en el análisis. En la zona marcada con (4) ocurre este fenómeno: aparecen unos puntos
que no se deben tomar en cuenta en el análisis. En otras palabras, al estudiar los
formantes de una vocal se debe tomar la medición en una zona de la señal en la que los
valores sean claros y consistentes.
48
Figura 1.29 La obtención de formantes mediante una selección determinada del
oscilograma.
Se selecciono con el cursor del tiempo de 558 ms a 611 ms (es la “a” tónica de la frase
“campana”).
Figura 1.30 Obtención de la lista de los formantes (esta luego puede ser manipulada por
cualquier programa como word, excel y otros más).
Al desplegar el menú de Formant, se selecciona Formant listing para que se forme la lista
con los formantes. Esta lista corresponde al intervalo de tiempo seleccionado en el
oscilograma.
49
Nota importante: las demás aplicaciones del programa no son descritas debido a que solo se
pretende en este capítulo, describir de forma general el programa con una de sus aplicaciones
más significativas.
1.2.4 SFSWin
(34) SFS (Speech Filing System) es un software cuya propiedad actual es de Marcos Huckvale
de la University College London (UCL). Esta en distribución libre siempre y cuando se
respeten los derechos del autor y no se modifique el programa. Actualmente se usa en el
departamento de fonética y lingüística en la UCL desde 1987.
Se utiliza para el trabajo de investigación de la voz, en la percepción del habla y el oído, en el
discurso de síntesis y reconocimiento de voz. También se usa en el laboratorio de enseñanza
en cursos tales como: "Acústica del habla y la audición", en la "Introducción a la ciencia del
habla y la audición", y en el "Procesamiento del habla por computadora".
Este software nace de un proyecto llamado SPAR (que concluye en 1987) con la colaboración
de diferentes institutos como: University College London, Imperial College London y GEC
Hirst Research Centre. Este proyecto fue diseñado para apoyar una investigación cooperativa
a través de múltiples instituciones. Gracias a él, se estandarizó el formato de formas de onda,
la frecuencia fundamental, los datos de control a la hora de sintetizar y los espectrogramas.
Descripción de como sacar los formantes con SFS.
Hay varias formas de hacerlo. Descripción de la primera (la más fácil):
Se carga una señal de audio, se selecciona la opción Tools|Speech|Display|Cross-section, y a
continuación ya se pueden hacer las mediciones de los formantes de forma interactiva. Una
vez que se abre la ventana generada por el programa como la de la siguiente figura 1.31; se
puede entonces a partir de estos resultados generados hacer un conjunto de estadísticas y
comparaciones con independencia para obtener los resultados deseados.
Las posibilidades de este programa son similares a la de los programas anteriores, ya que se
pueden generar diferentes gráficas como: el oscilograma, el espectrograma, las gráficas de
50
análisis espectral por FFT y LPC, la autocorrelación y otras más.
Para que aparezcan las diferentes gráficas previamente mencionadas, solo hay que entrar a la
opción view de la ventana del programa que se desplegó al seleccionar la opción de crosssection, y seleccionar la gráfica que se desee visualizar.
Para visualizar los formantes sólo hay que posicionar el cursor en un tiempo determinado en el
oscilograma, luego ir a la opción de view y seleccionar la opción de formants table. Aparecerá
una tabla como la tabla 1.3, que despliega los formantes con su frecuencia y banda respectiva
en Hz. Tiene también la opción de ver los armónicas que aparecen al seleccionar harmonics
table en la misma opción de view. Aparecerá igual una tabla como la tabla 1.4, que despliega
los armónicos con su frecuencia en Hz y su amplitud en dB respectivos. La siguiente figura
1.31 y las tablas 1.3 y 1.4 muestran lo previamente descrito.
Nota importante: las demás aplicaciones del programa no son descritas debido a que solo se
pretende en este capítulo, describir de forma general algunas de ellas.
51
1
2
Figura 1.31 La ventana de cross-section generada por SFS para el análisis del archivo
“Campana.wav”.
El muestreo es a 549 ms (1). En la parte de arriba se ve el oscilograma, luego en la parte
media el espectrograma y de último, las diferentes gráficas que aparecen al ser
seleccionadas en la opción view.
Tabla 1.3 Formantes que aparecen en
el muestreo de 549 ms.
Tabla 1.4 Harmónicos (en total son 88
muestras), del muestreo de 549 ms.
52
1.3 El oído
1.3.1 Funcionamiento del oído (oído externo, medio e interno)
(10) En esta sección se describe como funciona el órgano receptor del sonido, es decir; el oído.
La generación de sensaciones auditivas en el ser humano es un proceso extraordinariamente
complejo, el cual se desarrolla en tres etapas básicas:
•
Captación y procesamiento mecánico de las ondas sonoras.
•
Conversión de la señal acústica (mecánica) en impulsos nerviosos, y transmisión de
dichos impulsos hasta los centros sensoriales del cerebro.
•
Procesamiento neural de la información codificada en forma de impulsos nerviosos.
La captación, procesamiento y transducción de los estímulos sonoros se llevan a cabo en el
oído propiamente dicho, mientras que la etapa de procesamiento neural, en la cual se producen
las diversas sensaciones auditivas, se encuentra ubicada en el cerebro.
Así pues, se pueden distinguir dos regiones o partes del sistema auditivo:
•
Región periférica, en la cual los estímulos sonoros conservan su carácter original de
ondas mecánicas hasta el momento de su conversión en señales electroquímicas. (35)
Está constituida por: el oído externo, medio e interno y el nervio auditivo con sus
divisiones cocleares y vestibular.
•
Región central, en la cual se transforman dichas señales en sensaciones. (35) Está
constituida por: las vías nerviosas centrales auditivas, centros auditivos corticales y
subcorticales y el mecanismo central del equilibrio.
Región periférica.
El oído o región periférica se divide usualmente en tres zonas llamadas; oído externo, oído
medio y oído interno, de acuerdo a su ubicación en el cráneo, como puede verse en la figura
1.32:
53
Figura 1.32 Corte transversal del oído derecho.
Se muestran las partes anatómicas más representativas del aparato auditivo (36).
Oído externo.
(36 y 37) Consta del pabellón u oreja, y el canal auditivo externo. El pabellón recoge las ondas
sonoras y las conduce hacia el canal auditivo mediante reflexiones y difracciones (básicamente
esa es la función principal de oído externo).
Si bien es direccional, debido a sus irregularidades es menos direccional que la oreja de otros
animales, como el gato o el perro, que además poseen control muscular voluntario de su
orientación. El canal auditivo conduce el sonido al tímpano.
La parte más externa está recubierta por pilosidad y por glándulas sebáceas que segregan
cerumen. Ejercen una acción higiénica, al fijar y arrastrar lentamente hacia el exterior las
partículas de polvo que de otra forma se depositarían en el tímpano. Una segunda función es
proteger al oído de ruidos muy intensos y prolongados, ya que la secreción aumenta en
presencia de tales ruidos, cerrando parcialmente el conducto. Debido a la forma y las
dimensiones físicas el oído externo posee una resonancia cuya frecuencia está en las
proximidades de los 3000 Hz.
Descripción de las funciones de las partes que los constituyen:
54
•
El cartílago de la oreja: Es la parte del oído que se proyecta al exterior. Está constituida
por una lámina fibrocartilaginosa cubierta de piel que forma numerosos repliegues
donde son reflejadas las ondas sonoras hasta que entran en el conducto auditivo
externo (hélice, pliegue antihelical y la antihélice).
•
El lóbulo de la oreja: El lóbulo de la oreja es una parte del oído externo que se
encuentra en la parte inferior de la oreja debajo del trago. Está compuesto por tejido
adiposo y areolar bastante resistente. Es la pequeña parte de la oreja que no está
compuesta de cartílago.
•
El conducto auditivo externo: Se encuentra en la parte externa y visible del oído. Es
una cavidad llena de aire que mide unos 2,5 cm. y que finaliza en la membrana
timpánica. En su parte más externa tiene unas formaciones pilosas que protegen al oído
de la entrada de objetos extraños.
Figura 1.33 Como esta constituido el Oído Externo (38).
Oído medio.
(36 y 37) Está ubicado en la caja timpánica, y lo integran: el tímpano, los huesecillos u
osículos, y la trompa de Eustaquio. Su función es la de llevar los sonidos al oído interno y la
de controlar los cambios de presión que puedan aparecer en el oído (como cuando se cambia
de altura).
55
El tímpano es una membrana elástica, semitransparente y algo cónica, que comunica el canal
auditivo externo con la caja timpánica. Éste recibe las vibraciones del aire y las comunica a los
huesecillos.
Los huesecillos son una cadena de tres pequeños huesos: el martillo, el yunque y el estribo
que comunican al oído interno las vibraciones sonoras que capta el tímpano. Están sostenidos
en su lugar por una serie de pequeños ligamentos y músculos. La finalidad de esta cadena es
convertir vibraciones de gran amplitud y poca presión, como las hay en el tímpano, en
vibraciones de pequeña amplitud y mayor presión, requeridas en el líquido que llena el oído
interno. Los músculos, además de la función de sostén de la cadena osicular, sirven de
protección del oído interno frente a sonidos intensos. Cuando penetra en el oído un ruido muy
intenso, se produce la contracción refleja de estos músculos haciendo rígida la cadena, que
pierde entonces su eficiencia mecánica y la energía es disipada antes de alcanzar el oído
interno. Esta protección sólo es efectiva para sonidos mayores a 500 ms de duración.
Descripción de las funciones de las partes que los constituyen:
•
La membrana timpánica: Sirve de separación entre el conducto auditivo externo y la
cavidad timpánica o caja del tímpano (lugar donde se encuentra la cadena de
huesecillos). Su misión es transmitir las vibraciones sonoras que llegan a través del aire
al interior del oído medio, transformándolas en ondas mecánicas.
•
El martillo, yunque y el estribo: Están conectados entre si formando una cadena
articulada. Se encargan de transmitir al oído interno las vibraciones sonoras que llegan
por el aire. Actúan también como niveladores mecánicos de las mismas, transformando
las ondas sonoras en vibraciones mecánicas. Las ondas sonoras hacen que el tímpano
vibre, y estas vibraciones mueven el martillo, que también desplaza al yunque y al
estribo, que está conectado a la membrana oval y que por lo tanto recibe estás
vibraciones aumentadas en 5 decibelios.
•
El lenticular: Muchos autores lo consideran como una prolongación articulada del
yunque y lo denominan proceso lenticular. Otros lo consideran como uno más de los
huesos del oído medio. El caso es que forma la articulación entre el yunque y el estribo
56
formando parte de la cadena articulada que se encarga de transmitir al oído interno las
vibraciones sonoras que llegan por el aire.
•
La trompa de Eustaquio: Es un conducto osteofibromembranoso de unos 4 cm. de
longitud revestido por mucosa, que establece comunicación entre la caja timpánica y la
parte superior de la faringe. Su misión es ajustar la presión del aire de la cavidad
timpánica con la del exterior.
Ligamento superior del martillo
Martillo
Yunque
Ligamento posterior del yunque
Estribo en la ventana oval
Nervio facial
Ligamento lateral
del martillo
Ventana redonda
Ligamento anterior del
martillo (contacto)
Membrana del
tímpano
Oído medio
Conducto auditivo externo
Músculo estapedio
Músculo tensor
del tímpano
Trompa de
Eustaquio
Figura 1.34 Como esta constituido el oído medio (39).
Oído interno.
(36, 37, 38, 39 y 40) El oído interno representa el final de la cadena de procesamiento
mecánico del sonido, y en él se llevan a cabo tres funciones primordiales: filtraje de la señal
sonora, transducción y generación de impulsos nerviosos.
¿Cómo esta constituido el oído interno?
Está situado en el espesor de la porción petrosa del hueso temporal, medialmente a la cavidad
timpánica.
57
Contiene el órgano vestibulococlear relacionado con la recepción del sonido y el
mantenimiento del equilibrio.
Está constituido por el laberinto, cavidad ósea externa que envuelve a un laberinto
membranoso interno. El óseo contiene la perilinfa, el membranoso contiene la endolinfa. El
espacio que separa el laberinto membranoso del laberinto óseo se llama espacio perilinfático.
El laberinto óseo, es una cavidad ovoidea alargada de adelante hacia atrás y esta dividida en 3
partes: vestíbulo, cóclea y conductos o canales semicirculares (óseos).
En la cóclea o caracol (es un conducto enrollado alrededor de un eje cónico, el modiolo) hay 3
cámaras: escala vestibular (la membrana de Reissner la separa de la escala media), escala
media (la membrana basilar la separa de la escala timpánica) y la escala timpánica.
Laberinto membranoso, consiste en una serie de sacos y conductos comunicados suspendidos
en el laberinto óseo. Tiene 3 partes: utrículo y sáculo, conductos semicirculares o canales
semicirculares (membranosos) y ampollas, conducto coclear.
La siguiente figura 1.35 se muestran algunas de las partes del oído interno previamente
descritas:
58
Figura 1.35 El laberinto óseo y membranoso (39)
Funcionamiento de las partes que lo constituyen:
Los canales semicirculares
Son el órgano sensor del sistema de equilibrio. Son 3 pequeños conductos curvados en
semicírculo, con ejes aproximadamente en cuadratura que se abren en el vestíbulo por sus 2
extremidades. Se dividen según su orientación: anterior, posterior y lateral.
Interiormente están recubiertos por terminaciones nerviosas y contienen líquido endolinfático.
Al rotar la cabeza en alguna dirección, por inercia el líquido tiende a permanecer inmóvil. Se
crea un movimiento relativo entre el líquido y los conductos que es detectado y comunicado al
cerebro por las células nerviosas, lo cual permite desencadenar los mecanismos de control de
59
la estabilidad. Al haber tres canales en cuadratura se detectan movimientos rotatorios en
cualquier dirección.
El vestíbulo
Es una cavidad ovoidea aplanada transversalmente y alargada verticalmente, contiene el
utrículo, el sáculo y contiene el conducto endolinfático.
Presenta la ventana vestibular en su pared lateral, ocupada por la base del estribo, y se
continúa hacia adelante con la cóclea ósea y hacia atrás con los conductos semicirculares.
Entonces básicamente el vestíbulo comunica los canales semicirculares con el caracol, y al
mismo tiempo comunica el caracol con la caja timpánica a través de dos orificios
denominados ventana oval y ventana redonda (también llamada tímpano secundario),
cubiertos por membranas de unos 3 mm y 2 mm respectivamente.
La cóclea o caracol
El caracol contiene el órgano principal de la audición: la cóclea, que es un conducto en espiral
que se desprende de la parte anterior e inferior del vestíbulo y se enrolla alrededor del
modiolo, da 2 vueltas y media de espiral y termina en una extremidad cerrada llamada cúpula.
Está dividida en tres secciones. La sección inferior, denominada rampa timpánica y la
superior, conocida como rampa vestibular, contienen un líquido perilinfático, rico en sodio
(Na) y se conectan a través de un pequeño orificio, el helicotrema, ubicado hacia el vértice
(ápex) del caracol. La cavidad central (tercera sección) es la partición coclear o rampa coclear
y contiene líquido endolinfático, rico en potasio (K).
La rampa vestibular se comunica con el oído medio a través de la ventana oval, y la rampa
timpánica lo hace a través de la ventana redonda. La partición coclear contiene la membrana
basilar, una membrana elástica sobre la que se encuentra el órgano de corti, una estructura que
contiene las células ciliadas o pilosas. Las células ciliadas se comportan como diminutos
micrófonos, generando pulsos eléctricos (denominados potenciales de acción) de unos 90 mV.
como respuesta a la vibración. Estos pulsos son enviados al cerebro a través de una serie de
células nerviosas (neuronas) reunidas en el nervio auditivo.
Las siguientes figuras 1.36, 1.37 y 1.38 ayudaran a entender lo previamente descrito:
60
Figura 1.36 Corte transversal del conducto coclear en escala 25:1 (36).
Figura 1.37 La cóclea (41).
61
Membrana tectoria
Espacio subtectorial
Células ciliadas
internas
Células del borde
Cilios que están en
contacto con la
membrana tectoria
Células ciliadas
externas
Células de
Hesen
Surco
esperial
interno
Fibra nerviosa
Membrana basilar
Figura 1.38 El órgano de corti (10).
Haciendo un zoom a la figura 1.36 en la parte de la membrana tectoria se localiza el
órgano de corti
1.3.2 Funcionamiento de la cóclea
(36) Como ya se había descrito la cóclea forma parte del oído interno y es el órgano principal
de la audición. Esta constituida principalmente por 3 partes donde en una de ellas esta la
membrana basilar (en la membrana tectoria, donde esta el líquido endolinfático). Sobre de ella
esta el órgano de corti donde se encuentran las células ciliadas.
¿Qué ocurre dentro de la cóclea?
(10, 36 y 43) Las ondas sonoras son transmitidas por la platina del estribo que se desplaza
hacia adentro y hacia afuera en la ventana oval. Estos movimientos de pistón provocan
oscilaciones en el fluido de la escala vestibular (perilinfa). La membrana de Reissner (figura
1.36), la cual separa los fluidos de la escala vestibular y la escala central o media (rampa
coclear), es sumamente delgada y, en consecuencia, los líquidos en ambas escalas pueden
tratarse como uno solo desde el punto de vista de la dinámica de los fluidos. Así, las
62
oscilaciones en la perilinfa de la escala vestibular se transmiten a la endolinfa y de ésta a la
membrana basilar; la membrana basilar, a su vez, provoca oscilaciones en el fluido de la escala
timpánica (las oscilaciones residuales salen por la venta redonda, desembocando en la caja
timpánica).
En conclusión, el sonido propagado a través del oído externo y medio llega hasta la cóclea,
donde las oscilaciones en los fluidos hacen vibrar a la membrana basilar y a todas las
estructuras que ésta soporta.
La membrana basilar mide alrededor de 35 mm de longitud y su anchura aumenta
progresivamente de la base hasta el ápex de la cóclea pasando de 0.04 a 0.5 mm (pero de
forma contraria se adelgaza en espesor desde la base de la cóclea hasta el ápex), por tanto, la
membrana basilar tiene una rigidez y una masa diferentes en cada punto a lo largo de ella. Este
cambio de grosor implica modificaciones importantes en su rigidez ya que ésta disminuye en
una relación de 1 a 100, de la extremidad basal al ápex, oscilando o resonando a una
frecuencia diferente en cada punto según las características del mismo. En la figura 1.39,
muestra la distribución de las frecuencias desde la base hasta el ápex de la cóclea (las
frecuencias más bajas están en el ápex). Esto se conoce como la tonotopia de la cóclea:
Figura 1.39 La distribución de las frecuencias en la cóclea.
Como si la cóclea fuese un filtro pasa banda a lo largo de la membrana basilar (43).
63
En la figura 1.40 se muestran dos vistas de la membrana basilar con la cóclea hipotéticamente
estirada desde su forma helicoidal hasta una forma rectilínea.
Figura 1.40 Dos vistas de la cóclea hipotéticamente rectificada (36).
Arriba, vista superior.
Abajo, vista lateral.
¿Qué provocan las perturbaciones dentro de la cóclea?
Cuando llega una perturbación a la ventana oval, el líquido de la sección superior se encuentra
inicialmente a mayor presión que el de la sección inferior, lo cual provoca una deformación de
la membrana basilar que se propaga en forma de onda (denominada onda viajera) desde la
región basal hasta la región apical, tendiendo a aumentar la amplitud conforme la rigidez de la
membrana va disminuyendo. Cuando la perturbación es periódica, tal como sucede con una
vibración sonora, la membrana comienza a vibrar con una envolvente (figura 1.41) cuyo
máximo se produce en cierta posición que depende de la frecuencia del sonido, como se
muestra en la figura 1.42. Resulta, así, que existe una localización del pico de resonancia de la
membrana basilar en función de la frecuencia, que se ha representado gráficamente en la
figura 1.43. Esto confiere al oído interno una cualidad analítica que es de fundamental
64
importancia en la discriminación tonal del sonido, especialmente para los sonidos de
frecuencias superiores a los 1000 Hz.
El movimiento de la membrana basilar ocasiona que las células ciliadas emitan un pulso
eléctrico (que va hacia las terminales nerviosas del nervio auditivo). El mecanismo para ello se
ilustra en la figura 1.44. Debido a que la membrana basilar y tectoria tienen ejes diferentes, el
movimiento relativo provoca un pandeo de los cilios que fuerza la apertura de unas diminutas
compuertas iónicas. El intercambio iónico genera una diferencia de potencial electroquímico
que se manifiesta como un pulso de unos 90 mV de amplitud o potencial de acción.
Figura 1.41 Arriba, onda viajera en la membrana basilar en un instante dado.
Abajo, posición de la onda en tres instantes de tiempo t1, t2 y t3 (36).
65
Figura 1.42 Envolvente espacial de las ondas viajeras sobre la membrana basilar para
cuatro frecuencias diferentes (36).
Figura 1.43 Ubicación de la resonancia a lo largo de la membrana basilar en función de
la frecuencia (36).
66
Figura 1.44 A la izquierda, una célula ciliada entre la membrana basilar y tectoria en
estado de reposo.
A la derecha, cuando se produce un movimiento de la membrana basilar a causa de una
onda viajera, los cilios (pelos) de la célula ciliada experimentan un pandeo (36).
El potencial de acción generado por cada célula ciliada debe ser comunicado al cerebro. Ello
se realiza a través de las neuronas, complejos sistemas con varias entradas y varias salidas,
capaces de realizar operaciones de ponderación, de comparación y de generación de nuevos
potenciales de acción.
En la función coclear se distinguen en resumen 3 procesos:
•
Primer período en el que lo fundamental es la mecánica coclear originada por los
movimientos de los líquidos y las membranas.
•
Segundo período de micromecánica coclear en el que ocurren desplazamientos del
órgano de corti con respecto a la membrana tectoria (movimiento de las células
ciliadas).
•
Tercer período en el que se produce la transducción o transformación de la energía
mecánica en energía bioeléctrica.
Células ciliadas, el mecanismo de transducción de la cóclea.
(37) Sobre la membrana basilar y en el interior de la escala media se encuentra el órgano de
corti, el cual se extiende desde el ápex hasta la base de la cóclea y contiene las células ciliadas
que actúan como transductores de señales sonoras a impulsos nerviosos. Sobre las células
67
ciliadas se ubica la membrana tectoria, dentro de la cual se alojan las prolongaciones o cilios
de las células ciliadas externas. La membrana tectoria actúa únicamente como una masa,
produciendo una fuerza de desplazamiento horizontal sobre los cilios (42).
Dependiendo de su ubicación en el órgano de corti, se pueden distinguir dos tipos de células
ciliadas: internas y externas. Existen alrededor de 3500 células ciliadas internas y unas 12500
células externas. Ambos tipos de células presentan conexiones o sinapsis con las fibras
nerviosas aferentes (que transportan impulsos hacia el cerebro) y eferentes (que transportan
impulsos provenientes del cerebro), las cuales conforman el nervio auditivo.
El propósito de ambos tipos de células y de la distribución de las conexiones nerviosas, es el
"mecanismo de transducción".
Internas
Externas
Figura 1.44 Células ciliadas internas y externas.
Al observar la figura 1.38, en la membrana basilar están las células ciliadas (38).
68
1.3.3 Aspirantes para las prótesis auditivas (según el nivel del problema auditivo)
La pérdida de la audición.
(44 a la 49) Es la disminución de la capacidad auditiva que determina que los sonidos se
escuchan con menor intensidad. Esta perdida puede ser temporal, debido a una serie de causas
que interfieren en la entrada de las ondas hacia el oído interno (cerumen, quistes,
inflamaciones del oído, etc.) o permanente, en cuyo caso se produce una degeneración
nerviosa que impide la transmisión de los sonidos que llegan al oído hasta el cerebro.
Los síntomas
Sordera, incapacidad de oír bien, pérdida de la audición, imposibilidad de oír las
conversaciones, problemas con los sonidos de frecuencias altas, etc.
Causas
Perdida de audición temporal, es aquella que surge de momento y desaparece cuando la causa
momentánea que lo produce es eliminada. Entre las causas principales están las siguientes:
•
Tapones en los oídos. La acumulación de cera en el oído es una de las causas más
frecuentes.
•
La presencia de algún cuerpo extraño en el interior del oído como pelos o pelusa, agua
después de un baño o una inmersión bajo el agua, etc. Estos cuerpos extraños pueden
frenar el paso de las ondas sonoras hacia el interior del oído.
•
Golpes en los oídos. Pueden frenar de igual manera el paso de las ondas sonoras hacia
el interior del oído.
•
Cambios de presión. Los cambios bruscos de presión a los que se puede someter el
oído al subir o bajar montañas, al viajar en avión, etc.
•
Infecciones en el oído. La presencia de microorganismos produce inflamaciones
(otitis) que impiden el paso de las ondas sonoras hacia el oído o la vibración de los
huesecillos.
69
Perdida de audición permanente, es aquella que aparece por lesión del nervio auditivo, del
órgano de corti o de las partes del cerebro encargadas de la audición. Entre las causas
principales están las siguientes:
•
Edad. La perdida de audición se hace mayor a medida que las personas envejecen
(presbiacusia). Afecta a un 25 % de personas mayores de 65 años y a un 75 % de
personas mayores de 75 años. No se sabe exactamente cuales son las causas, aunque
existe una predisposición genética a padecerla. En este tipo de patología se muestra
principalmente una dificultad mayor en oír los sonidos de alta frecuencia. En la
conversación se produce la incapacidad de oír las vocales de una conversación que son
los sonidos más altos.
•
Otosclerosis. Es la esclerosis o endurecimiento de los tejidos del oído interno. Esta
enfermedad impide una vibración normal de los huesecillos del oído (como el estribo)
y produce sordera.
•
Enfermedad de meniere. Se caracteriza por la alteración del equilibrio y de la audición,
causada por el aumento de líquido (endolinfático) en el laberinto o una inflamación del
mismo. Es un tipo de enfermedad que puede aparecer repentinamente y luego, tras
varias horas, desaparecer y no presentarse en un periodo de tiempo muy prolongado. A
veces puede ocurrir diariamente. Con el tiempo, produce un deterioro de la audición.
Habitualmente aparece en un solo oído, pero puede aparecer en los dos.
•
Algunas enfermedades del cuerpo humano que pueden desencadenar la pérdida de la
audición son: el colesterol, la hipertensión, la esclerosis múltiple, diabetes,
enfermedades renales, artritis reumatoide, etc.
•
Tumores en los oídos.
•
Tímpano perforado. Como consecuencia de introducir algún objeto punzante en el
oído, o después de alguna explosión cercana muy fuerte, así como de un golpe, etc.
•
Consumo de drogas. El consumo de tóxicos, como alcohol, tabaco o ciertos
medicamentos como los antibióticos, la aspirina, los hipotensores, los cardíacos,
pueden ser la causa de pérdida de audición.
•
Causas ambientales. Son factores que actúan sobre la persona y tienen como resultado
la aparición de la pérdida auditiva; estos factores pueden aparecer antes, durante o
70
después del nacimiento. Un ejemplo sería la exposición demasiado prolongada a
sonidos de muchos decibelios.
•
Causas genéticas. Estas causas son de carácter hereditario, y suponen la aparición de la
sordera desde el mismo momento del nacimiento o bien el desarrollo de la misma de
forma progresiva.
Ahora bien, siempre se debe de considerar que de un 20 a un 30 % de las pérdidas auditivas
tienen un origen desconocido.
En términos clínicos la pérdida de la audición es conocida como hipoacusia.
La hipoacusia es la disminución del nivel de audición por debajo de lo normal, lo cual
constituye un motivo habitual de consulta médica y es especialmente frecuente en la población
anciana (Aunque, puede aparecer en cualquier etapa de la vida desde el nacimiento). Con
frecuencia, da lugar a situaciones de minusvalía con importantes repercusiones físicas y
psicológicas.
Según su intensidad, la hipoacusia se clasifica en:
•
Leve (pérdida menor de 35 dB).
•
Moderada (pérdida entre 35 y 60 dB).
•
Profunda (pérdida entre 60 y 90 dB).
•
Total o cofosis (pérdida superior a 90 dB).
Dependiendo de la parte del oído que esta afectada, se pueden distinguir los siguientes tipos de
pérdida auditiva:
•
Pérdida auditiva conductiva. Cualquier problema que aparezca en el oído medio o
externo y que dificulte la conducción del sonido en el oído de forma apropiada es
conocido como pérdida auditiva conductiva. Las pérdidas conductivas suelen ser
ligeras o moderadas causando sorderas de no más de 60 o 70 decibelios. En algunos
casos estas sorderas pueden ser temporales. En muchos de ellos la medicación o la
cirugía pueden ayudar dependiendo de la causa específica del problema.
Frecuentemente, la sordera de tipo conductivo se puede resolver con ayuda de
audífonos que, básicamente, amplifican el nivel de sonido recibido.
71
•
Pérdida auditiva neurosensorial. Un problema en la cóclea (oído interno) puede causar
una pérdida auditiva nerurosensorial. Dicha pérdida auditiva puede ser el resultado de
la pérdida o deterioro de las células sensoriales (células ciliadas) en la cóclea y, la
mayoría de las veces, es permanente. La sordera neurosensorial, también conocida
como "sordera del nervio", puede ser ligera, moderada, severa o profunda. Los
procedimientos quirúrgicos no pueden curar la pérdida auditiva neurosensorial. Las
opciones de tratamiento tradicional para la pérdida auditiva nerurosensorial de
moderada a severa son las prótesis auditivas como los audífonos. Si la sordera es
severa o profunda puede ser de ayuda el uso de implantes cocleares.
•
Pérdida auditiva retrococlear. Cualquier problema cuyo resultado sea la ausencia o
deterioro del nervio auditivo, puede causar una pérdida auditiva retrococlear. La
pérdida auditiva retrococlear es una sordera profunda de tipo permanente. Los
audífonos y los implantes cocleares no son de ayuda porque el nervio auditivo no es
capaz de transmitir suficiente información al cerebro. En estos casos, una opción de
tratamiento podría ser el implante de tronco cerebral.
•
Pérdida auditiva mixta. Este tipo de pérdida auditiva es la forma más común y
representa la combinación de una pérdida auditiva conductiva y neurosensorial.
Debido a esta combinación resulta dificultoso encontrar una modalidad de tratamiento
apropiada. Por lo tanto la evaluación y valoración de cada paciente es de gran
importancia para poder encontrar la mejor solución al problema.
¿Cómo se realiza la prueba de la audición?
Existen varios métodos para examinar la audición, que varían según el hospital y las
condiciones del paciente:
•
Los exámenes auditivos basados en comportamiento comprenden la observación
cuidadosa de la conducta del paciente (niños) al responder a sonidos como un discurso
calibrado y tonos puros de diferente agudeza (frecuencia). Algunas veces, otras señales
calibradas se utilizan para obtener información sobre frecuencia.
•
Las pruebas psicológicas no son pruebas de audición pero son medidas que pueden
estimar parcialmente la función auditiva. Estas pruebas son utilizadas en los niños que
no pueden ser examinados con pruebas basadas en comportamiento debido a su corta
72
edad, retrasos en el desarrollo u otras condiciones médicas, y en algunas condiciones
pueden ayudar a establecer el estado de funcionamiento de un sistema auditivo con
problemas.
•
Respuesta Automática al Estímulo Auditivo Cerebral (Auditory Brainstem Response,
ABR). La prueba consiste en insertar pequeños audífonos en el canal auditivo.
Generalmente sonidos tipo "clic" son emitidos a través de los audífonos mientras que
electrodos colocados en posición miden la repuesta de los nervios auditivos al sonido.
Una computadora calcula la media de estas respuestas auditivas y emite resultados
representados como ondas en la pantalla.
•
Prueba del Estado de Respuesta Auditiva Estable (ASSR). Este es un nuevo examen
que actualmente debe hacerse en conjunto con el examen ABR para evaluar el nivel de
audición. El sonido es transmitido a través de los canales auditivos, y una computadora
recoge la respuesta cerebral al sonido y automáticamente establece un nivel de
audición.
•
Prueba de Emisión Otoacústica (Otoacoustic Emissions Test, OAE). Durante esta
prueba breve, un instrumento pequeño se coloca dentro del canal de audición.
Numerosos pulsos de sonido son emitidos y una respuesta tipo "eco" proveniente de las
células pilosas externas del oído interno es grabada. Estas grabaciones son analizadas
por una computadora que establece un promedio. Una grabación normal se asocia con
una función de célula pilosa normal y esto típicamente refleja una audición normal.
•
Timpanometría. No es una prueba de la audición sino un procedimiento que puede
demostrar cuán bien se mueve el tímpano cuando un sonido suave se emite que
introduce presión por medio de aire en el canal del oído. Esto ayuda a identificar
problemas en el oído medio, como lo son el fluido que puede almacenarse detrás del
tímpano. Un tímpanograma es una representación gráfica de una timpanometría. Una
línea "plana" en un tímpanograma puede indicar que el tímpano no tiene movimiento,
mientras que un patrón con "elevaciones" generalmente indica una función normal. Un
examen visual del oído debe ser realizado conjuntamente con una timpanometría.
•
Examen de audiometría. El fundamento de toda evaluación audiológica es la
audiometría de tonos puros. Este estudio pone de manifiesto la mínima intensidad
(umbral) a la cual el paciente es capaz de identificar un estímulo sonoro. El
73
complemento de la audiometría tonal es la audiometría vocal o verbal. Su objetivo es
evaluar la capacidad de comprensión de la palabra, es decir la capacidad de percibir el
lenguaje hablado. El paciente ingresa a una cabina insonorizada en donde queda
aislado del ruido. Se coloca unos audífonos a través de los cuales se le hará un
estímulo auditivo hasta encontrar el punto donde el paciente no refiere percepción. Se
ejecuta un oído a la vez y con tonos altos y bajos. Esta prueba puede ser efectuada en
niños desde la edad de 6 años.
•
Exploración de Oído. Se usa para identificar la presencia de cerumen o cuerpos
extraños que puedan interferir con la audición normal y en algunos casos puede
desarrollar vértigo. Asimismo, este estudio es muy útil para detectar la presencia de
lesiones bacterianas y micóticas que impliquen infecciones frecuentes o recurrentes del
oído. Para esta prueba se utiliza un instrumento con un haz de luz llamado otoscopio,
el cual se introduce en el oído para observar detenidamente la condición del canal
auditivo, el tímpano y cada una de las estructuras internas.
Las pruebas ABR o OAE generalmente son utilizadas en hospitales para chequear a los recién
nacidos.
La siguiente figura 1.45 es un audiograma, un gráfico que ilustra la audición de las personas
en cada uno de los oídos, indicando el grado y tipo de pérdida auditiva (Se usa en la
audiometría).
74
Figura 1.45 Un audiograma (47).
Muestra el tono (frecuencia) de los sonidos, desde baja a alta frecuencia. La intensidad
del sonido, también llamado nivel auditivo, se mide en decibelios (dB).
El audiograma muestra el umbral auditivo para distintas frecuencias. El umbral auditivo se
mide y se define como la intensidad más baja a la que el oyente puede identificar la presencia
de la señal al menos el 50% de las veces. Se define como nivel auditivo la desviación en dB
entre el umbral auditivo de un individuo y el nivel cero de referencia. El nivel cero de
referencia es el umbral auditivo de la media normal de una persona joven. La audición normal
no está solo en la línea cero, si no también el rango comprendido hasta 20 dB.
75
1.4 Tipos de síntesis
Diferencia importante
Es importante diferenciar lo que se hace en este trabajo de tesis y lo que se refiere a síntesis de
voz.
(50) Hay varias tecnologías del lenguaje que permiten
el acceso y transferencia de
información a través del habla. Estas interfaces basadas en voz involucran principalmente dos
tecnologías: reconocimiento y síntesis de voz.
•
El reconocimiento de voz: es el proceso de transformar una señal de voz a texto.
•
La síntesis de voz o Tts (Text to speech): es el proceso de transformar el texto a una
secuencia de sonidos (que en conjunto simulan la voz).
En el Capítulo III de esta tesis, se hacen síntesis de sonidos. La diferencia es que esta tesis
trabaja con parámetros (armónicos) que no provienen de un texto (como lo hace la síntesis de
voz), pero que al final obtienen sonidos sintetizados que simulan la voz.
Dentro de uno de los tipos de síntesis de voz hay una que se llama síntesis por formantes o
paramétrica, la cual se asemeja un poco a este trabajo de tesis. En este tipo de síntesis se
genera la voz variando parámetros que aplican señales armónicas. Al modificar los parámetros
(pueden ser las formantes) involucrados en el modelo, se producen sonidos semejantes a los
del habla.
1.4.1 Síntesis de sonido
(51 y 52) La síntesis de sonido consiste en la obtención de sonidos a partir de diferentes
medios no acústicos; variaciones de voltaje en el caso de la síntesis analógica, o por medio de
programas computarizados en el caso de la síntesis digital.
Desde que comenzó la síntesis de sonido, se han desarrollado diversos métodos que
permitieron el acercamiento hacia los sonidos deseados. Las diferentes técnicas dieron lugar a
diferentes tímbricas. Algunos tipos de síntesis son:
76
•
Síntesis substractiva: método de sintetización de sonido donde una señal rica en
armónicos es generada por uno o varios osciladores que poseen diferentes tipos de
forma de onda en referencia a su forma. Esta señal es después filtrada para substraer
las frecuencias que no se desean en la señal final con el fin de buscar la sonoridad
deseada. La forma de filtrar estas frecuencias es usando Filtros Controlados por
Tensión (VCF).
•
Síntesis aditiva: consiste en la combinación de varios osciladores para conseguir un
nuevo sonido o timbre. En este tipo de síntesis es muy importante la utilización de
diferentes envolventes (de ataque, caída, parte sostenida y extinción) para cada
oscilador que le dan dinámica y expresividad al sonido resultante. Es la más utilizada
para emular sonidos de instrumentos reales.
•
Síntesis granular: es una técnica de producción de sonidos que se basa en una
concepción del sonido al nivel de partículas o cuantos, de tal forma que cambios en la
señal relacionados con el tiempo alteran el timbre de un sonido y viceversa. De ahí se
obtienen altas densidades de cuantos acústicos, que se pueden llamar granos. Un grano
sonoro es un fragmento de muy corta duración (entre 5 y 100 ms) a los cuales se les
aplica envolventes. Al repetir varios granos en una sucesión a una tasa mayor a 20 Hz,
los granos se funden produciendo un sonido continuo.
•
Síntesis mediante tabla de ondas o wavetable: es una técnica de síntesis de sonido
utilizando sistemas de muestreo digital almacenando sonido de alta calidad y
reproduciéndolo cuando se solicite. Dado que las tablas de onda pueden ser sintéticas,
pero también pueden proceder de sonidos reales, la síntesis por tabla de ondas se
utiliza frecuentemente para emular instrumentos reales.
•
Síntesis mediante modulación de frecuencias (FM): consiste en variar la frecuencia de
una señal portadora con respecto a una segunda (denominada moduladora), generando
finalmente una onda modulada. La FM puede generar salidas de señal complejas que
contengan múltiples frecuencias con sólo dos osciladores.
•
Síntesis por modulación de amplitud (AM): de igual manera que la síntesis mediante
modulación de frecuencias (FM), la señal portadora es, ahora, modificada en amplitud
por la moduladora.
77
•
Síntesis por modulación en anillo (RM): aunque también es una modulación en
amplitud, lo que realmente se hace es multiplicar la portadora por la moduladora,
generando así sonidos más agudos.
•
Síntesis mediante modelado físico: destinada a la emulación de instrumentos existentes
y se basa en las propiedades físicas de cada instrumento a emular.
•
Síntesis mediante distorsión de fase: basándose en osciladores digitales, trata de
reproducir aleatoriamente una forma de onda previamente almacenada, consiguiendo
así saltos de fase y, por tanto, adición o eliminación de armónicos a la señal de salida.
De los tipos de síntesis descritos anteriormente la que se utiliza en el Capítulo III de esta tesis
es la de tipo aditiva, la cual se describe a continuación de forma teórica.
La síntesis aditiva.
(53 y 54) La síntesis aditiva fue uno de los primeros métodos utilizados para hacer síntesis.
Decayó con la aparición de los sintetizadores analógicos, para resurgir con nueva fuerza con la
aparición de las computadoras. El motivo de este retorno se debe a que ahora es posible
ejercer un control automatizado, basado en el análisis de Fourier, sobre un gran número de
parámetros (frecuencia, amplitud, fase de las ondas, etc.).
Como ya se había descrito anteriormente según el teorema de Fourier, cualquier forma de
onda puede expresarse como una suma de señales sinusoidales a diferentes frecuencias. Si
dicha forma de onda es periódica, entonces las frecuencias de las sinusoides son múltiplos de
la frecuencia fundamental. Estas dos afirmaciones son la base de la síntesis aditiva.
Este tipo de síntesis utiliza una técnica de control automatizado denominada a veces como de
análisis y resíntesis, que permite sintetizar sonidos, tan similares como se desee a otros ya
existentes, a partir de un minucioso análisis de Fourier.
El proceso es aproximadamente el siguiente:
•
Mediante un análisis de Fourier, se estudia la evolución del espectro de cualquier
sonido en el tiempo (es decir, la amplitud de cada armónico en varios instantes de
tiempo).
78
•
Con esta información temporal se obtiene la envolvente (evolución de la amplitud en el
tiempo) de cada uno de estos armónicos.
•
A partir de la información contenida en este espectro dinámico, se sintetiza un nuevo
sonido, sumando en cada instante todos los armónicos con sus respectivas amplitudes.
El resultado es un sonido prácticamente idéntico al original, circunstancia que puede
parecer que no presenta ninguna utilidad. Ahora bien, alterando cualquiera de estos
parámetros se pueden obtener infinitas variaciones del sonido original.
•
Realizar minuciosamente este proceso de forma manual resulta difícil. Hoy en día, este
proceso se puede automatizar y modificar con la ayuda de programas computarizados.
Aunque la síntesis aditiva se puede usar para crear sonidos diferentes en la música, esta fue
utilizada para trabajar en el timbre de la voz y para comprobar la hipótesis de esta tesis.
El método que se utiliza en la síntesis aditiva no es exactamente el mismo porque existen
algunas diferencias, una de ellas es que se usa un método manual y no automatizado, pero se
basa en el principio fundamental de la síntesis aditiva el teorema de Fourier.
79
CAPÍTULO II
La problemática de las prótesis auditivas para sordos profundos
2.1 Trayectoria de las prótesis auditivas
2.1.1 Las primeras prótesis
Historia del Implante Coclear.
(55) Luigi Galvani en Italia, trabajando en la disección de la pata de una rana, accidentalmente
fue tocado en su bisturí por una chispa eléctrica generada por una maquina eléctrica que tenia
a su costado y para su gran asombro, observo como la pata se contraía y lo atribuyó a un fluido
eléctrico transportado por el nervio ciático de la rana. Publicó esta experiencia en 1791, en su
tratado: De viribus electricitatis in motu musculari.
Alessandro Volta (1745-1827) inventa la primera pila eléctrica, llamada pila de Volta y hace
pruebas para estimular con ella los ojos, la lengua y los oídos. En su propio oído, en el canal
auditivo externo, coloca 2 electrodos con puntas redondeadas y hace pasar entre ellos una
corriente de 50 voltios, teniendo como consecuencia sensaciones auditivas. En 1800 comunica
en una carta al presidente de la Royal Society: “En el momento que cerré el circuito comencé a
sentir un sonido, mejor dicho un ruido y lo seguí sintiendo incesantemente mientras pasaba la
corriente, ceso inmediatamente que interrumpí el paso de la corriente”.
Andreev, Gersuni y Volkov, en 1932 comunican su trabajo: “Excitabilidad eléctrica del oído
humano. Efecto de las corrientes alternas sobre el aparato auditivo afectado”. Sale publicado
en el Jour Physiol Rusia en 1935.
Andre Djourno en Francia en 1953 inicia sus trabajos estimulando con electricidad diversos
nervios, insertando electrodos en los mismos. En 1957 es consultado por un
otorrinolaringólogo francés, Eyries, sobre la posibilidad de implantar una paciente que había
quedado sorda y con parálisis facial como consecuencia de una cirugía previa para extirpar un
colesteatoma del oído medio. La paciente es implantada el 25 de Febrero de 1957
colocándosele un electrodo en el nervio sacular de su oído. La paciente vuelve a escuchar
sonidos y a comprender algunas palabras, pero con el tiempo deja de funcionar. Eyries la
80
vuelve a implantar con éxito por un tiempo, pero al dejar de funcionar nuevamente, no insisten
y no implantan más pacientes. Djourno creía que sus trabajos eran para el beneficio de la
humanidad y que por ende no podía lucrar con los mismos, así que no registra su invención y
se niega a vender derechos a firmas comerciales, es posiblemente por esto, que al quedarse sin
fondos para su investigación, no pudo continuar implantando.
En 1958, Maspetiol, otro medico francés, implanta una paciente de origen vietnamita con
resultados similares a los de Djourno. Luego de esto, dejan de implantar en Francia. Sin
embargo, Djourno continua estimulando el oído en lo que seria hoy día el Test de
Estimulación del Promontorio (tiene como finalidad la estimulación de la cóclea, para ver si
las terminales nerviosas del nervio aditivo son funcionales), que se utiliza para saber si el
implante tiene posibilidades de éxito, al seleccionar los casos.
Blair Simmons, de la Stanford University, en San Francisco, en 1964, implanta un paciente
con electrodos múltiple pero sus electrodos no son muy alentadores y por ello abandona su
proyecto.
Michelson, en 1968, inserta electrodos dentro de la cóclea de animales y demuestra contra lo
que se creía que los mismos pueden mantenerse durante mucho tiempo en la misma sin que se
produjera daño a sus células.
Hacia fines de la década del 60, William F. House, de Los Ángeles, USA, implanta varios
electrodos en el interior de la cóclea de un profesor que queda sordo como consecuencia de
una infección. En aquel entonces los cables salían a través de la piel y se conectaban a
computadoras y generadores de estimulo eléctricos que ocupaban todo un escritorio.
House trabajaba también con Jack Urban, un ex ingeniero de la NASA quien aplicaba todos
sus conocimientos adquiridos en la Agencia Aeroespacial para mejorar la cirugía del oído.
Con el tiempo y mucho esfuerzo de todo el equipo y del paciente, se logra en 1973 el primer
implante portátil, que el paciente podía llevar en si mismo todo el tiempo. En ese entonces los
cables de los electrodos llegaban a una especie de enchufe de baquelita que estaba atornillado
al hueso detrás de la oreja, salía a través de la piel. Como es lógico, eran frecuentes las
infecciones de la piel alrededor de este enchufe.
81
El Dr. House crea entonces varios centros de investigadores dentro de USA y también en el
extranjero, como en el hospital británico de Buenos Aires de Argentina. (56) Otros grupos en
San Francisco (Schindler, Merzenich y Michaelson), Francia (Chouard), Alemania (Banfai) y
Austria (Burian), iniciaron protocolos clínicos con implantes cocleares en la década de los 70.
En 1979 se realiza el primer implante de Latinoamérica, en el hospital británico de Buenos
Aires. Todo este proyecto de investigación era estrictamente supervisado por la FDA de USA.
El implante que se utilizo para ese entonces era de un solo canal y solo permitía discriminar
ruidos y ayudar mucho a la labiolectura.
En 1978 y 1989 el Prof. Graeme Clark, de la Universidad de Melbourne, Australia, implanta
sus primeros dos pacientes con implantes multicanal y con una moderna tecnología de
estimulación y estrategia de codificación, logra que estos pacientes comprendan las palabras
sin necesidad de la labiolectura. En 1981 ya esta disponible el primer implante coclear
Nucleus 22 desarrollado por Clark en colaboración con la firma Australiana Nucleus. En 1985
es aprobado por la FDA para ser utilizado en pacientes en USA y en Argentina en Marzo de
1987 se implantaron los primeros 3 casos de Latinoamérica con éxito total, dos casos eran
postlocutivos y uno era prelocutivo.
En Junio de 1998 la FDA autoriza la implantación en niños mayores de 2 años, en 1999 se
autoriza para menores de 2 años y en 2000 se autoriza la implantación no solo para sorderas
profundas sino también para las sorderas severas. Hoy en día, ya se ha iniciado la
implantación de ambos oídos de los pacientes.
Existen en la actualidad varias fabricantes de implantes cocleares, como Nucleus (Australia),
Clarion (USA), MedEL (Austria) y Digisonic (Francia), todos ellos excelentes y que ofrecen la
posibilidad de elegir entre todos ellos, de gran confiabilidad y excelentes resultados
(actualmente están descontinuados).
82
(56) La historia temprana de las entidades de importancia se ilustra en la siguiente figura 2.1,
que muestra los principales eventos y los principales desarrolladores de los sistemas de
implantes cocleares.
Figura 2.1 Historia temprana de los implantes cocleares. Los investigadores y los
lugares del origen se demuestran, junto con un calendario para los diferentes
descubrimientos. Las etapas iniciales del desarrollo se representan con las líneas
delgadas, y los usos clínicos de dispositivos se representan con las líneas gruesas. La
mayor parte de estos dispositivos están descontinuados, y muchos de los esfuerzos de
desarrollo se han continuado (56).
(57) Actualmente, después de una experiencia que supera los 70.000 implantes cocleares en el
mundo, se puede considerar esta técnica como no experimental, habiendo quedado demostrada
su eficacia en el tratamiento de la hipoacusia profunda.
83
2.1.2 Tecnología de punta y lo más avanzado en Australia, Austria y Estados Unidos.
2.1.2.1 Australia.
(58)
En Australia se encuentra “Cochlear TM”, empresa que desarrolla los implantes
cocleares más avanzados del mundo. Tiene sus inicios en los años 80, gracias a las
investigaciones del Dr. Graeme Clark. En las ultimas 2 décadas, esta empresa ha logrado
muchas innovaciones tecnológicas en las prótesis auditivas, con más de 170,000 implantes
con éxito. El implante más moderno de esta compañía es el siguiente:
Nucleus® 5
Proporciona sonido imitando la audición natural y está diseñado para ofrecer los mejores
resultados de rendimiento auditivo a las personas con hipoacusia de severa a profunda.
Figura 2.2 Se puede observar como esta implantado el dispositivo completo en el cráneo
humano (58).
84
El sistema Cochlear Nucleus 5 incluye:
1. El procesador de sonido
Capta las ondas sonoras y las convierte en un código digital.
2. La bobina
Transmite el sonido codificado digitalmente desde el procesador de sonido hasta el
implante.
3. El implante
Convierte el sonido codificado digitalmente en señales eléctricas y las envía a lo largo
del haz de electrodos que se ha colocado en la cóclea (oído interno).
4. Fibras del nervio auditivo
Los electrodos del implante estimulan las fibras naturales del nervio auditivo de la
cóclea, que a su vez envían las señales al cerebro, donde se interpretan como sonido.
5. El mando a distancia
Para controlar la audición mediante el mando a distancia.
Características del Nucleus 5
El procesador de sonido CP810.
Es el procesador de sonido más pequeño de la compañía. Proporciona un rendimiento auditivo
líder en la industria en una unidad atractiva y sofisticada con numerosas funciones; resistente,
adaptable y diseñado de forma ergonómica para adaptarse a orejas de cualquier tamaño
85
1. Bobina.
2. Imán de la bobina.
3. Cable de la bobina.
4. Tecla inferior.
5. Micrófonos.
6. Tecla Superior.
7. Indicador Luminoso.
8. Codo.
9. Unidad de procesamiento.
10. Compartimiento de pilas.
11. Tapa de la entrada de accesorios.
Figura 2.3 Partes del procesador de sonido CP810 (58).
Se puede gestionar la audición del paciente adaptando el procesador a su entorno mediante el
software SmartSound™ 2, que incluye cuatro entornos auditivos adecuados para diferentes
situaciones. Se puede controlar mediante el procesador de sonido o con el mando a distancia.
SmartSound 2 incluye:
•
Cotidiano
Diseñado para mejorar la audición en situaciones cotidianas como la vida familiar o en
el lugar de trabajo.
•
Ruido
Diseñado para reducir, pero sin bloquear por completo, el ruido de fondo procedente
de todas las direcciones, como en un partido de fútbol o cuando se cruza una calle muy
transitada.
86
•
Focalizado
Diseñado para facilitar el entendimiento de una persona que se pueda tener enfrente
incluso cuando hay un ruido de fondo considerable, como en una fiesta o en un
restaurante.
•
Música
Diseñado para mejorar la percepción musical para los siguientes casos: si se toca algún
instrumento, se escucha la radio o se asista a un espectáculo en directo.
El audiólogo tendrá acceso a Custom Sound™ Suite 3.0, un software específico desarrollado
por Cochlear para posibilitar el uso de SmartSound 2 y otras funciones.
Aquel simplifica la programación a través de un flujo de trabajo más eficiente y mejora la
interfaz de usuario para dejar más tiempo a la consulta de los pacientes. Con menos pasos este
programa permite la configuración de un solo mapa con las cuatro configuraciones de
ambiente (cotidiano, ruido, etc.) de SmartSound 2 y con la escritura de programas al
procesador con un clic en vez de 13 (59).
El procesador tiene incluso la opción de conectarse a otros dispositivos como: reproductores
de MP3, la televisión y sistemas FM de forma inalámbrica o alámbrica.
También funciona cuando se habla por teléfono: al descolgarlo y acercarlo a la oreja, el
procesador de sonido reconoce la señal y enciende la telebobina para optimizar la audición al
hablar por teléfono.
Este procesador además protege la calidad del sonido: ya que al diseñarlo se pensó en hacerlo
duradero porque protege los diminutos y sofisticados micrófonos del sudor, la suciedad y la
mugre propios de un estilo de vida normal y activo. Para ello utilizan los protectores de
micrófono de GORE® Protective Vents. Además este procesador es el más resistente al agua
(60) y esta adecuado al deporte.
Puede usar pilas:
Recargables
87
•
Se recargan de dos a cuatro horas.
•
Recargables estándar: hasta 31 horas de duración de las pilas.
•
Recargables compactas: hasta 18 horas de duración de las pilas.
Desechables
•
Hasta 60 horas de audición
•
Pilas desechables de cinc-aire.
La bobina.
La bobina es un pequeño disco redondo que se coloca encima del implante. Transfiere las
señales electromagnéticas desde la unidad de procesamiento hasta el implante. La bobina está
acoplada a un cable de bobina extraíble, que se enchufa en la unidad de procesamiento.
El implante de la serie CI500.
Parte del implante se coloca dentro de la cóclea, esta parte se denomina electrodo. Su diseño y
su ajuste son cruciales para obtener un buen rendimiento auditivo. Éste se ha diseñado para
trabajar en sinergia con la cóclea del paciente.
Figura 2.4 Este es el electrodo, la parte del implante que va dentro de la cóclea
(58).
88
Las características del implante serie (de forma general):
•
Un implante físico diferente ya que tiene las siguientes características:
Ø Curvado para adaptarse a la forma de la cóclea.
Tiene electrodos finos que se curvan alrededor de la cóclea para adaptarse a la forma
natural de ésta.
Ø La longitud adecuada.
Su diseño con la longitud apropiada se ajusta de acuerdo al perfil de hipoacusia y a la
posición natural del nervio auditivo. Debido a lo anterior, se podrá tener acceso a todos
los sonidos importantes del mundo real. Incluso se pretende evitar los potenciales daños
a la cóclea causados por una inserción demasiado profunda del electrodo.
Ø Diseño flexible: Softip™.
El Softip en el extremo del electrodo favorece una inserción suave, concebida para
minimizar el riesgo de dañar las delicadas estructuras de la cóclea.
•
Tiene el AutoNRT™
AutoNRT (Telemetría de Respuesta Neural Automática) permite que el especialista confirme
la ubicación precisa de los contactos de estimulación al medir la respuesta del nervio auditivo.
Esta combinación de diseños permite al cirujano posicionar al electrodo más cerca del nervio
auditivo para una estimulación más focalizada y precisa, provocando de igual manera que se
presione menos la cóclea.
89
•
Alto número de puntos de estimulación
Los electrodos de Cochlear vienen con 22 contactos de estimulación de platino auténtico,
diseñados para ofrecer una cobertura completa de la “zona de audición”, proporcionando al
nervio auditivo un sonido de gran precisión.
Figura 2.5 Los electrodos de Cochlear vienen con 22 contactos de
estimulación (58).
•
161 tonos sonoros diferentes
El microchip en combinación con su estrategia de codificación de sonido, puede percibir hasta
161 tonos diferentes provocando que el sonido se perciba de forma más natural. Debido a ello,
el audiólogo tendrá la posibilidad de programar el sonido según la preferencia del paciente.
•
De una contracción de alta resistencia
90
La serie CI500 es 2½ veces más resistente que la generación anterior de implantes: Nucleus
Freedom™, y cumple ya las normas que probablemente serán vigentes en el futuro.
•
40% más delgado
Como en todos los implantes Nucleus anteriores esta nueva serie CI500 se ha desarrollado en
colaboración con cirujanos de todo el mundo, para que así se pueda simplificar aún más el
procedimiento quirúrgico.
Figura 2.6 Se observa el tamaño diminuto del implante de la serie CI500 (58).
El resultado es el siguiente:
Ø El implante coclear más delgado del mundo.
Ø Un único micro-dispositivo robusto y con tan solo 3.9 mm de grosor.
Ø Mejor adaptación a la forma de la cabeza.
Ø Un implante coclear ideal para personas de cualquier edad.
•
Adecuado para la Resonancia magnética por imágenes (RMI)
Con un implante Nucleus se puede someter el paciente de forma segura a:
Ø una RMI de potencia media hasta 1,5 teslas con el imán colocado
Ø una RMI de alta potencia hasta 3 teslas con el imán retirado mediante una sencilla
intervención ambulatoria
Se denomina cirugía ambulatoria a intervenciones quirúrgicas de menor grado, en las cuales el
paciente puede ser dado de alta después del procedimiento, se usa anestesia local y no es
necesario pernoctar en el Hospital (61).
91
•
Diseñado para hoy en día y para el futuro
Figura 2.7 El diseño del circuito del implante (58).
El microchip de la serie CI500 tiene mayor capacidad. Ello significa que podrá sacar el
máximo partido de las actualizaciones que se realicen en las próximas décadas, será tan fácil
como actualizar su procesador de sonido.
Diseño fino y perfectamente liso con materiales blandos
1. titanio pulido
2. con una silicona más resistente
Figura 2.8 Forma física del implante quirúrgico (58).
92
El mando a distancia Nucleus CR110
El mando a distancia Cochlear Nucleus CR110 le podrá proporcionar al usuario el control
total sobre la audición: desde el control inalámbrico de las funciones del procesador de sonido,
hasta la visualización de la información principal en caso de que se quiera saber si todo
funciona correctamente.
Figura 2.9 El mando a distancia Nucleus CR110 (58)
Funciones del control:
1. Comprobación con una sola tecla
Al pulsar la tecla “Cochlear”, el dispositivo comprueba el estado de la unidad de
procesamiento, el compartimento de la pila, la bobina y el cable de la bobina.
2. Interfaz simple de usuario
Se puede cambiar el volumen, la sensibilidad y los programas para adaptarlos a
diferentes situaciones de escucha, además viene con una serie de funciones adicionales
que mejoran el rendimiento del dispositivo.
3. Pantalla LCD a color
Se puede confirmar en la pantalla LCD que el procesador de sonido ha realizado el
cambio deseado.
El usuario recibirá alertas en la pantalla
Cuando las pilas tengan poca carga, la bobina no esté conectada, el procesador no
93
funcione correctamente y otros.
Se restablecerá fácilmente.
Al pulsar “Reset” se vuelve a los ajustes originales.
Larga duración de las pilas
Las pilas recargables duran aproximadamente una semana, y se recargan rápidamente
de dos a cuatro horas.
4. Dos implantes, un mando a distancia.
Con sólo pulsar una tecla se puede controlar o modificar los ajustes de 2 procesadores
(izquierdo y derecho) simultáneamente.
Actualmente el producto está disponible en Australia, Canadá, EUA y próximamente lo estará
de manera comercial en Latinoamérica y Europa (62).
94
2.1.2.2 Austria.
(63) En Austria se encuentra “MED-EL”, compañía que desarrolla al igual que “Cochlear
TM”, prótesis auditivas de la mejor tecnología porque mediante su investigación, establece los
estándares de referencia en dispositivos auditivos implantables a escala global. Nace de la
idea de los Profesores Ingeborg Hochmair y Erwin Hochmair en Viena a mediados de 1970,
motivados por la pasión de superar las barreras de la pérdida auditiva
A mediados de 1970, estos profesores inician sus proyectos de investigación sobre la
estimulación de los nervios auditivos y las tecnologías de procesamiento de sonido en la
Universidad Técnica de Viena, Austria. En 1977, desarrollaron el primer implante coclear
micro-electrónico multi-canal del mundo. Y así, el 16 de Diciembre de 1977 fue implantado el
primer paciente a escala mundial por el cirujano Prof. Kurt Burian. En los años posteriores, se
lograron numerosas innovaciones tecnológicas en una rápida sucesión y en 1989 se fundó
“MED-EL” en Innsbruck.
Los implantes disponibles de MED-EL
Esta empresa maneja una amplia gama de productos que se ajuntas a las necesidades de los
pacientes para el caso de los sordos profundos y son los siguientes:
•
MAESTRO: Un sistema con varias opciones que se describe más adelante, que tiene
una restricción puede estar sujeto a la disponibilidad del mercado de cada país.
•
TEMPO+: Está compuesto por una unidad de control del procesador de palabra, una
bobina, un cable de bobina y cuatro portabaterías diferentes. La unidad de control del
procesador de palabra tan sólo mide 0.8 cm de ancho x 2.5 cm de largo x 1.5 cm de
alto, incluyendo los botones de volumen, sensibilidad y programas. Tiene un peso
extremadamente reducido, pesando tan sólo 11g incluyendo las baterías.
•
COMBI40+: Se utiliza a escala mundial en más de 80 países. Está diseñado para una
cobertura coclear completa (aprox. 31.5 mm), busca la estimulación máxima de fibras
nerviosas en toda la extensión de la cóclea. Maneja encapsulado cerámico, un
electrodo suave que esta disponible en diferentes variantes como: el estándar, mediano,
comprimido, FLEXEAS, etc., según la necesidad del paciente.
95
Se profundizara sobre el primero debido a que es lo último en tecnología que maneja la
empresa.
El sistema MAESTRO
Está compuesto por dos procesadores de palabra: OPUS1 y OPUS2, varios portabaterías para
las distintas opciones de uso, la bobina, dos diseños de implante: PULSARCI100 y SONATATI100
y una amplia variedad de guías de electrodos.
Los procesadores de palabra OPUS de MED-EL ofrecen a los usuarios un mayor detalle y
claridad de sonido, para una mejor apreciación musical y comprensión del habla. Son
compactos y de poco peso. Se pueden programar para diferentes situaciones incluyendo las
específicas para niños, asegurando que el procesador de palabra se adapte a las necesidades de
cada individuo, estilo de vida y actividades.
Estos procesadores también están protegidos en contra de la humedad, ya que la placa base de
los circuitos utilizada en los procesadores de palabra están recubiertas por materiales
especiales para proteger con eficacia los componentes electrónicos. Se emplean conectores
tratados con lubricantes específicamente desarrollados para repeler el agua. El encapsulado del
dispositivo está diseñado para actuar como barrera contra los fluidos y el vapor de agua, pero
no está cerrado herméticamente; esto previene la corrosión mucho más efectivamente, ya
que permite que la existencia de humedad interna se seque mucho más eficientemente que
aquella que quedaría encerrada dentro si el sistema fuese totalmente hermético.
EL OPUS 1 presenta conmutadores fáciles de manejar para seleccionar los programas y
realizar ajustes, OPUS 2 presenta un diseño sin interruptores al funcionar con FineTuner, una
unidad de control remoto.
96
Figura 2.10 En esta figura se puede observar a los procesadores OPUS 1 Y OPUS 2
respectivamente. El segundo funciona con Fine Tuner el control remoto (63).
Manejan la Nueva Batería Recargable y sistema de carga DaCapo.
El Sistema DaCapo consta de DaCapo PowerPacks (baterías recargables), el cargador DaCapo
y la estructura DaCapo.
•
Ha sido desarrollado para los procesadores de palabra TEMPO+, OPUS 1 y OPUS 2.
•
Da una gran eficiencia energética sin comprometer el funcionamiento.
•
Reduce aún más el peso de los procesadores de voz.
•
Respeta el Medioambiente.
•
Completamente compatible con los sistemas FM y otros dispositivos externos.
•
Intercambiable por las distintas opciones de unidad de baterías.
•
Tiempo de carga: menos de 4 horas
•
Duración de carga 10-12 horas
El cargador DaCapo tiene 2 alojamientos independientes de carga con luces indicadoras de
carga por separado y alimentación compatible con los estándares internacionales (desde 100240 V AC, 50-60 Hz) con varias tomas de alimentación. También dispone de un cable
adaptador opcional para el encendedor del coche (7-15V DC)
97
Figura 2.11 Batería recargable y sistema de
carga DaCapo (63).
Utilizan la tecnología FineHearing™
Hasta el momento, los implantes cocleares tan sólo habían estado preparados para procesar la
información de la envolvente de las señales sonoras.
Los procesadores de palabra OPUS tienen una electrónica que soporta el “FineHearing™”,
que busca proporcionar a los usuarios la información del sonido más clara y detallada para
experimentar una audición excepcional en cualquier situación.
FineHearing™: está diseñada para superar las limitaciones de las tecnologías convencionales
basadas en la envolvente, permite a los usuarios experimentar la detallada estructura fina de
los sonidos complejos. La información de la estructura fina contiene pistas y características
temporales que son muy importantes a la hora de escuchar música o cuando se tiene una
conversación en entornos ruidosos.
Figura 2.12 Una señal sonora se puede dividir
en dos componentes: la envolvente y la
estructura fina (63).
98
En una señal sonora: la envolvente es el perfil general de una señal acústica que refleja los
cambios de la sonoridad en el tiempo (intensidad). La estructura fina contiene información
más detallada y refleja los pequeños detalles del timbre (frecuencia) que se modifican
rápidamente en el tiempo.
Para entender lo que es la estructura fina, un ejemplo:
Envolvente
Estructura Fina
Envolvente y la
Estructura Fina
Figura 2.13 Una fotografía del Big Ben de Londres demuestra los beneficios que
proporciona la estructura fina (63).
En la envolvente se muestra la silueta del Big Ben; sin embargo, se pierden algunos detalles.
Esto es comparable con la envolvente de una señal sonora. En la estructura fina, se muestran
los detalles ornamentales del reloj; que se comparan con los detalles y la finura que pueden
llegar a tener de igual manera una señal sonara. La integración de ambas fotografías
proporciona los detalles, profundidad y dimensión del Big Ben. Lo mismo pasa en el sonido al
integrar la información de la envolvente y de la estructura fina.
99
Características de los procesadores de palabra OPUS:
•
Procesamiento del Sonido: Los procesadores de palabra soportan una amplia variedad
de estrategias de procesamiento de sonido para asegurar el mejor rendimiento posible.
•
Gestión Automática del Sonido: Permite que los sonidos, tanto de baja como de alta
intensidad, sean escuchados de forma clara y cómoda en todas las situaciones. Asegura
que todos los ajustes se realicen automáticamente sin que el usuario tenga que realizar
acción alguna.
•
Ventana de Adaptación de Sonido: En la audición natural, el rango entre el sonido más
débil y el sonido más intenso que una persona pueda escuchar cómodamente, es
conocido como Rango Dinámico y es de alrededor de 120dB. Para los usuarios de
implante coclear, este rango es conocido como Rango Dinámico de Entrada (IDR). Los
procesadores de palabra proporcionan un IDR de 75 dB. Esta Ventana asegura que este
rango se adapte automáticamente a los sonidos recibidos, dependiendo de su
intensidad.
•
Control Automático de Ganancia de Doble Lazo (AGC): Los procesadores de palabra
OPUS están provistos de Dual-Loop AGC (AGC= Control Automático de Ganancia)
que ajusta los sonidos muy débiles y muy intensos para que sean escuchados clara y
cómodamente por el usuario del implante.
•
Identificación de implante IRIS™: IRIS™ significa Reconocimiento Individual del
Sistema de Implante, aquel evita que se produzca la estimulación si el procesador
utilizado no es el correcto. Esto es especialmente importante para los niños
implantados bilateralmente, en situaciones de grupo y en colegios con varios niños
utilizando implantes.
•
Luz de Estado: Es un pequeño LED integrado en los procesadores que proporciona a
los usuarios, una indicación visual del normal funcionamiento. En caso de falla el
patrón de parpadeo le indica el tipo de atención requerida.
•
Bloqueo de Seguridad: Todas las configuraciones de OPUS pueden ser bloqueadas
para asegurar que ningún componente del procesador de palabra pueda quitarse o
manipularse.
100
• SoundGuard: Monitoriza continuamente sus mapas de programación en busca de
inconsistencias de datos, tales como aquellos resultantes de la ESD o electricidad
estática. Si se detecta algún problema, SoundGuard detiene la estimulación y activa el
parpadeo de la luz de Estado. En la mayoría de los casos, todos los datos de
programación se reestablecen simplemente apagando y encendiendo el sistema, de esta
manera no será necesaria la visita a su audiólogo o profesional de la audición.
Con respecto a los procesadores de palabra OPUS 1 y OPUS 2, se describirá específicamente
solo al segundo debido a que el enfoque de este capítulo es con respecto a las tecnologías de
punta.
Procesador de palabra OPUS 2
OPUS 2 de MED-EL es el procesador de palabra más pequeño, fino y con menor
peso disponible de la compañía. Está diseñado sin conmutadores para realizar los ajustes, ya
que los ajustes se hacen mediante una unidad de control remoto el FineTuner. Tiene una nueva
electrónica que soporta las nuevas estrategias de codificación de sonido, con un diseño
modular donde hay distintas opciones de uso para todas las edades y necesidades, con 4
programas y un volumen ajustable. Maneja la compatibilidad con los implantes cocleares
MED-EL de ahora y en el futuro (SONATATI100, PULSARCI100, C40+, este último más
adelante con una futura versión de software).
Presenta un telecoil integrado y un jack de entrada de audio estándar para conectar, por
ejemplo: teléfonos, TV, sistemas Hi-Fi, reproductores MP3, sistemas FM sin cables,
Bluetooth, videoconsolas de juegos y muchos más dispositivos.
El telecoil es un receptor en miniatura que se puede utilizar con una amplia variedad de
teléfonos, sistemas de sonido públicos y sistemas de lazo inductivo. Cines, colegios, museos y
muchos otros lugares, ofrecen sistemas de lazo inductivo y sistemas de infrarrojos que hacen
más fácil la audición minimizando el ruido de fondo.
101
Usa una selección de portabaterías diferentes:
•
Unidad de Baterías Estándar: Diseñado para ajustarse perfectamente detrás del
pabellón auditivo. Tiene 12 gramos de peso aprox., incluyendo las baterías, esta
opción es para el uso diario.
•
Sistema de Batería Recargable DaCapo: el cual se describió anteriormente.
•
BabyBTE: Para la implantación en niños. Todo el procesador se fija en la ropa del bebé
sin tener que colocar ningún dispositivo en la oreja. Cuenta con un sistema de bloqueo
de seguridad que impide su manipulación y está provisto de una Luz de Estado, que
permite comprobar el correcto funcionamiento.
•
ActiveWear: En deportes, fitness u otras actividades de alto impacto, este permite fijar
el procesador a la ropa para que permanezca seguro en su lugar. Esta configuración es
mucho menos susceptible a la humedad de la transpiración cutánea. En aquellos
deportes en los se requiera el uso del casco, no interferirá con la audición ya que el
micrófono no estará cubierto.
•
Portapilas Pediátrico: El procesador de 2gramos esta a la altura del oído y el
portabaterías esta sujeto a la ropa. En cuanto a seguridad: si la unidad de control se
cae del pabellón auditivo mientras el niño juega, el portapilas, al estar sujeto a la ropa
evitará que el procesador caiga al suelo.
•
Pack de Baterías Remoto: Permite utilizar una única batería AA, tanto recargable
como
desechable.
Se
incluyen
tres
baterías
recargables
y
un
cargador.
Aproximadamente la carga dura de 2–3 días de uso. Otra característica de este pack
remoto, es que cuenta con un conector jack de entrada de señal como los utilizados en
los audífonos. Esto le facilita el acceso a teléfonos móviles, reproductores MP3,
televisores, etc. También se pueden conectar a este jack dispositivos de ayuda auditiva
de conexión directa (ALD) como los sistemas FM y Bluetooth proporcionando
conexión sin cables wireless.
102
Unidad de
Baterías Estándar
y
Sistema DaCapo
Baby BTE y
ActiveWear
Portabaterías
Pediátrico
Pack de Baterías
Remoto
Figura 2.14 Las opciones de portabaterías que maneja el OPUS 2
(63).
Presenta un diseño sin botones ni interruptores al funcionar con FineTuner, una unidad de
control remoto.
Esto quiere decir que los cambios en los ajustes se hacen sobre la marcha en la ausencia de
conmutadores, sin tener que quitarse el procesador del pabellón auditivo y sin interrumpir la
audición. No es necesario utilizar el sintonizador FineTuner diariamente, ya que OPUS 2
activa automáticamente el mismo programa, volumen y sensibilidad que utilizó por última
vez. La mayor parte de los pacientes raramente necesitan modificar los ajustes del procesador.
Los pacientes con un implante bilateral MED-EL, tienen la posibilidad de utilizar el mismo
sintonizador para los dos procesadores de palabra. Además, los botones de FineTuner pueden
bloquearse totalmente o sólo habilitarse para determinadas funciones, para el caso del uso de
los niños.
103
Figura 2.15 Control Fine Tuner. Los
grandes botones facilitan su uso,
especialmente para aquellas
personas con dificultades de visión o
con problemas para utilizar pequeños
botones (63).
Maneja las siguientes estrategias de Codificación de Sonido:
•
Fine Structure Processing (FSP).
•
High Definition CIS (HD-CIS).
•
Continuous Interleaved Sampling (CIS+).
Después de describir al procesador OPUS 2, es momento de hacer referencia de los implantes
que forman parte del sistema MAESTRO de MED-EL.
Implantes Cocleares PULSARCI100 y SONATATI100 descritos de forma general
Características:
•
Utilizan la plataforma electrónica avanzada I100 de MED-EL
Ø Proporciona acceso a sofisticadas estrategias de codificación del sonido disponibles
ahora y el futuro.
Ø Esta diseñada para conseguir una eficiencia de alto rendimiento. Esto se traduce en una
excepcional duración de las baterías sin comprometer el funcionamiento del implante.
Ø Los componentes electrónicos que poseen forman parte de un microchip hecho a
medida llamado ASIC (Circuito Integrado de Aplicación Específica).
104
Ø Emula el
proceso natural de audición (comportamiento estocástico) mediante el
empleo de tasas de estimulación que se ajusten a las propiedades del nervio auditivo
del receptor.
Ø Soporta FineHearing™ (descrito anteriormente) y Estimulación Paralela Inteligente
(IPS™), tecnologías diseñadas para proporcionar un mayor detalle y claridad de sonido
en todas las situaciones auditivas. IPS estará disponible en las próximas
actualizaciones de software.
•
Tecnología a Futuro
Ø Podría utilizar la tecnología de estimulación Paralela Inteligente (IPS™)
Es aquella que utiliza sofisticados algoritmos matemáticos, incluyendo
la
Compensación de la Interacción entre Canales, la Estimulación Paralela con
Correlación de Fase y Polaridad y los Pulsos Trifásicos, para controlar
automáticamente la interacción entre canales (disponible en futuras versiones).
Ø Estimulación
Paralela
con
Correlación
de
Fase
y
Polaridad
(SCS)
Esta estimulación está diseñada para sincronizar el inicio de todos los pulsos paralelos
para que sucedan exactamente al mismo tiempo en canales múltiples iniciándose con la
misma polaridad, lo que reduce al mínimo la diferencia de potencial entre canales y,
por lo tanto, la interacción entre los mismos.
Ø Pulsos Trifásicos
Tradicionalmente, los sistemas de Implante Coclear han proporcionado la estimulación
eléctrica mediante el empleo de pulsos eléctricos bifásicos, generando un reducido
campo eléctrico residual en la cóclea al final de cada pulso. Pero los implantes de
MED-EL soportan pulsos trifásicos que minimizan estos campos eléctricos residuales.
(En la sección 2.4 de este capítulo se explica el significado de interacción entre canales.)
•
Amplio rango de telemetría y funciones de evaluación con el Kit de Diagnóstico
Exhaustivo (CDT)
El CDT es un conjunto de herramientas de diagnóstico avanzado para ser utilizado por los
profesionales del implante coclear:
105
Ø Emplea técnicas innovadoras: como los pulsos trifásicos de precisión y modulación
adaptativa Sigma-Delta.
Ø Impedancia y Telemetría de Campo (IFT): Proporciona información referente al
implante y a la integridad de los electrodos.
Ø Telemetría de Estado*: Posibilita el chequeo de la información del implante, por
ejemplo, chequeo de Identidad, voltaje, etc.
Ø IFT de Precisión*: Medidas extensivas de impedancia y telemetría de campo.
Ø Telemetría de Respuesta del Nervio Auditivo (ART™): Suministra información
precisa de la respuesta fisiológica del nervio auditivo a la estimulación producida por
el implante coclear; también conocida como ECAP (Potencial de Acción compuesto
Evocado Eléctricamente). ART emplea la tecnología de modulación Sigma-Delta
patentada por MED-EL que actúa a 1.2 megamuestras por segundo.
(*Características que estarán disponibles en futuras versiones de software.)
•
RMN (Resonancia Magnética Nuclear) Segura
Los implantes cocleares MED-EL ofrecen seguridad en RMN (a 0.2, 1.0 y 1.5 Tesla) sin
necesidad de intervención quirúrgica para la retirada del imán interno.
•
Variedad en el Diseño de los Electrodos
Cada una de ellas está diseñada para ajustarse a los requerimientos clínicos específicos de cada
paciente. La gran variedad de guías de electrodos proporciona a los cirujanos la posibilidad de
seleccionar la solución óptima para cada tipo de oído incluyendo opciones para individuos que
presentan osificación coclear o audición residual.
PULSARCI100 y SONATATI100 están disponibles con las siguientes opciones de guía de
electrodos, dependiendo de la disponibilidad en el mercado:
Ø Guía de Electrodos Estándar: Ofrece la inserción más profunda (aproximadamente
31mm) y la mayor distancia entre canales (2.4mm). Presenta 12 pares de contactos
106
(se entiende como 24 canales de estimulación) y está diseñado para proporcionar la
estimulación del rango de frecuencia completo de la cóclea.
Ø Guía de Electrodos Mediana: Presenta 12 pares de electrodos con una distancia entre
canales moderada (1.9mm), idónea para aquellos casos en los que no se desea una
inserción profunda o no es posible debido a restricciones anatómicas.
Ø Guía de Electrodos Comprimida: Diseñada específicamente para casos de osificación
parcial o malformación de la cóclea. Presenta 12 pares de contactos equidistantes a
una distancia más corta (1.1mm) para maximizar el número de canales disponibles y
optimizar el rendimiento.
Ø Guía de Electrodos Bifurcada: Para casos de osificación severa de la cóclea, se
compone de dos ramas de electrodos separadas, una con cinco pares y otra con siete
pares de contactos. Las guías están diseñadas para la inserción en áreas diferentes de
la cóclea para maximizar el número de canales disponibles y optimizar el
rendimiento.
Ø Guía de Electrodos FLEXsofá: Presenta la misma disposición que la Guía de
Electrodos Estándar y permite la inserción profunda dentro de la región apical de la
cóclea. La alta flexibilidad mecánica de la sección distal de la guía de electrodos
reduce la fuerza de inserción necesaria.
Ø Guía de Electrodos FLEXEAS: Está diseñada para inserción reducida dentro de la
espira basal de la cóclea. La alta flexibilidad mecánica de la sección distal de la guía
de electrodos reduce la fuerza de inserción necesaria.
Ø Implante de Tronco Cerebral (ABI): Diseñado para individuos con nervios auditivos
no funcionales, normalmente debido a Neurofibromatosis Tipo II (NF2). La guía de
electrodos presenta 12 contactos dispuestos en una paleta suave de silicona
preformada.
107
Guía de Electrodos Estándar
Guía de Electrodos Mediana Guía de Electrodos
Comprimida
Guía de Electrodos Bifurcada Guía de Electrodos FLEX sofá
Implante de Tronco Cerebral (ABI)
Figura 2.16 Guía de electrodos (63).
Guía de Electrodos
FLEX EAS
108
Implante Coclear PULSARCI100
Caracterizan de este implante auditivo:
•
Es el implante coclear más pequeño con un grosor de: 4 mm, disponible de la
compañía.
•
El encapsulado cerámico proporciona un diseño extremadamente compacto que
contiene, de forma segura, la bobina receptora que recibe las señales enviadas por el
procesador de palabra.
•
La cerámica utilizada en el implante está compuesta por un material biocompatible
especial; los materiales del implante cerámico tiene una larga trayectoria en varias
aplicaciones clínicas y son especialmente resistentes al clima y al tiempo.
•
Tiene una historia en fiabilidad a largo plazo sin precedentes.
•
Ideal para los niños.
Figura 2.17 Implante Coclear PULSARCI100 (63).
109
Implante Coclear SONATATI100
Caracterizan de este implante auditivo:
•
El implante de titanio más ligero con un peso de: 8.6 gr. disponible de la compañía.
•
Está encapsulado en una cápsula compacta y ligera, combinando titanio de doble capa
y silicona flexible.
•
Su excepcional pequeño tamaño y espesor, lo hacen ideal para niños, bebés y al mismo
tiempo para adultos.
•
Diseñado para permitir técnicas quirúrgicas
mínima
mente invasivas que
hacen posibles una recuperación más rápida.
•
La flexibilidad le permite ajustarse al perfil del cráneo.
•
Como características de seguridad incluye: la identificación de implante IRIS (Ya ha
sido descrita en las características del OPUS 2), chequeo de integridad del implante y
condensadores de salida acoplados.
Figura 2.18 Implante Coclear SONATATI100 (63).
110
2.1.2.3 Estados Unidos.
Introducción
(64) Advanced Bionics Corporation es uno de los líderes internacionales en Implantes
cocleares. Evolucionó a partir de dos compañías que desarrollaron y comercializaron
dispositivos médicos, una de marcapasos y otra de sistemas de microinfusión (bombas
miniatura para la administración de fármacos que se utilizaban en el tratamiento de la
diabetes). Se fundó en 1993 para fabricar y distribuir el implante coclear Clarion® para tratar
la sordera.
Alfred E. Mann fundó Advanced Bionics en 1993 y pidió a Jeff Greiner que dirigiera la
organización formada por siete ingenieros y científicos. Al Mann y Jeff Greiner han estado
trabajando juntos desde entonces y la organización ha crecido hasta más de 700 empleados en
todo el mundo. Fue adquirida por Boston Scientific en el año 2004.
El implante más moderno de esta compañía es el siguiente:
(65) El nuevo sistema Harmony HiResolution® Bionic Ear:
Es el nombre de la última gama de productos de esta compañía, con el implante HiRes 90K®,
el procesador HiRes® Harmony y dos formas de procesamiento de sonido HiResolution®:
HiRes® e HiRes® Fidelity 120™.
El Harmony es un sistema modular que proporciona la flexibilidad necesaria para adaptarse a
las diferentes edades, estilos de vida y situaciones. Contiene: un módulo procesador, un
auricular con cable, una variedad de baterías y diversas patillas fáciles de conectar, para
opciones alternativas de entrada. Es compatible con los sistemas de circuito cerrado de
inducción e incluye elementos diagnósticos para indicar el funcionamiento correcto.
Algunas de sus características principales son las siguientes:
•
Con en el micrófono T-Mic®, la calidad del sonido comienza con el micrófono en el
lugar correcto, a la entrada del oído.
•
Tiene un gran Rango Dinámico de Entrada de 20 dB–80 dB programable (60 dB
predeterminado), con un Control de Ganancia Automático de doble acción y un
111
potente procesador de sonido de 16 bits; que mejoran la inteligibilidad en ambientes
ruidosos y de nivel variable de sonidos, desde los más bajos hasta los más fuertes.
•
Como en los procesadores previos, es robusto, resistente al sudor y la humedad, y está
reforzado por la tecnología PowerCel™ recargable.
•
Tiene un modo Power Economy (ahorro energético) que alarga la duración de la pila
un 50% más comparado con la generación anterior de BTE, por lo que los usuarios
pueden disfrutar cómodamente de un día entero de funcionamiento con una sola carga.
•
Tiene garantía para la exposición al agua.
•
Posee la característica de seguridad Intellilink™ que asocia el procesador con un
implante específico, para proteger contra la estimulación si los procesadores son
accidentalmente cambiados de oído o entre los usuarios.
•
Maneja opciones de ganchos auriculares intercambiables para utilizar naturalmente el
teléfono, conectar entradas de audio periféricas, monitorizar el estado de los
dispositivos de los niños y más.
•
Viene con cubiertas y tapas Accent Color intercambiables.
•
Tiene el procesamiento del sonido HiResolution.
112
1
1.
2.
3.
4.
5.
Mandos de procesador.
Gancho auricular.
Modulo de procesador.
PowerCel Recargable.
Cubiertas y caperuzas
auriculares de colores
Accent.
6. Auricular.
6
5
4
3
2
Figura 2.19 Partes del sistema Harmony (64).
113
A continuación, se describen algunas de las características, funciones, opciones de
configuración, sistemas de baterías, accesorios y modalidades (Procesador de sonido Platinum
Series) del sistema Harmony.
El procesador HarmonyTM
Figura 2.20 El procesador Harmony
1. Conmutador de programas con
tres posiciones para
retroalimentación táctil y visual.
2. Dial de volumen para
retroalimentación táctil y visual.
3. T-Coil Interna, es una telebobina
incorporada para acceso inalámbrico
a teléfonos compatibles con
audífonos y circuitos cerrados de
inducción.
4. Indicador visual multicolor que
proporciona el estado del procesador
y la vida restante de la batería.
Colores: rojo cuando no se está
comunicando con el implante,
naranja cuando la carga de la pila
está baja o es necesario cambiar
pronto la pila, verde cuando el
procesador está transmitiendo
correctamente la información del
sonido hasta el implante (64).
Se ofrece en tres colores básicos, con un auricular discreto, ligero y de perfil bajo.
Ofrece 20 opciones de cubiertas de color proporcionan más de 60 combinaciones de colores,
de modo que el procesador se puede individualizar para adaptarlo a la personalidad y estilo del
usuario.
114
Figura 2.21 Las diferentes combinaciones de colores (64).
Al igual que los demás sistemas de las otras compañías, el harmony permite la conexión a
otros dispositivos acústicos; ya que el gancho auricular es una herramienta de escucha:
Figura 2.22 Se pueden conectar diferentes auriculares al procesador.
Los ganchos auriculares se suministran en tres colores básicos para adaptarlos al color
del módulo del procesador. Están disponibles además en tamaño normal y pequeño,
para adultos y niños (64).
115
Tipos de Ganchos:
•
Gancho auricular estándar: Sirve para sujetar el procesador en el oído y utiliza el
micrófono integrado del módulo del procesador.
•
Micrófono T-Mic™: Es un micrófono personalizado que se coloca en el oído para uso
en aplicaciones diarias, desde escuchar música en ambiente ruidoso hasta acceso fácil a
teléfonos móviles, aparatos de audio y sistemas de audición asistida.
•
Adaptador iConnect™: Proporciona acceso sin cables a los modernos receptores de
FM miniaturizados más comunes. Compatible con Phonak MicroLink MLxS, el
receptor FM miniaturizado que normalmente se utiliza en las escuelas. Con una fuente
de alimentación separada, proporciona recepción de FM fiable sin perjuicio de un
suministro de energía constante.
•
Direct Connect: Permite acceder a diversos aparatos de audio de funcionamiento de
pilas (como sistemas de MP3 y CD) a través de un cable desmontable con un conector
estéreo de 3,5 mm. También se puede usar como gancho auricular autónomo; basta con
desconectar el cable. T-Coil externo: un accesorio que se conecta al Direct Connect,
puede utilizarse en lugar de la opción T-Coil integrada de Harmony si se precisa un
ajuste fino manual de la recepción de la señal de bucle inductivo.
1
5
2
3
4
1. Gancho auricular estándar.
2. Micrófono T-Mic™.
3. Adaptador iConnect™, con Phonak MicroLink
MLxS, el receptor FM miniaturizado.
4. Direct Connect.
5. T-Coil externo, conectado al gancho Direct
Connect.
Figura 2.23 Diferentes tipos de Ganchos Auriculares (64).
116
Las opciones de energía para el procesador del sistema Harmony:
•
Utilizan la tecnología de pilas recargables de ion-litio PowerCels de quinta generación
y están diseñadas de acuerdo con normas de seguridad más estrictas que las pilas
recargables normales, para conseguir un sonido de alta resolución.
•
No dañan el medioambiente ya que se ahorra en pilas desechables y pueden recargarse
cientos de veces, proporcionando años de uso.
•
Las pilas PowerCel se instalan y desinstalan fácilmente.
•
Con una sola carga, puede disfrutar de un día completo de servicio y se puede recargar
mientras el usuario este durmiendo.
•
Maneja diferentes modos y opciones de carga de las baterías.
•
Esta en desarrollo y depende de la disponibilidad del país, las opciones de alimentación
fuera del oído, con pilas tanto desechables (AAA LR3) como recargables. Estas
opciones proporcionan desde un día completo hasta varios días de duración de las
pilas. La porción del Harmony usada sobre el oído es significativamente más pequeña
y ligera cuando se utilizan esas opciones.
Ø Ideal para oídos pequeños.
Ø Práctico para implantes bilaterales, ya que los 2 procesadores harmony pueden
ser conectados a una misma opción de alimentación.
Ø Da tranquilidad durante los viajes cuando no se tiene la opción de recarga.
•
Se puede elegir entre las pilas PowerCel Slim y PowerCel Plus y se suministran en 3
colores básicos para adaptarlos al color del módulo del procesador.
Ø La pila recargable PowerCel Slim es delgada y discreta y proporciona un
promedio de 14 horas de funcionamiento sin necesidad de recarga.
Ø La pila PowerCel Plus ofrece aproximadamente 24 horas de tiempo de
funcionamiento, proporcionado la conveniencia de más de un día completo de
operación, si necesidad de una recarga.
117
Se coloca y se quita Las
pilas
PowerCel
se
con mucha facilidad suministran en tres colores
básicos para adaptarlas al color
del módulo del procesador
Cargador PowerCel Alimentador de carga
Carga de forma
PowerCel
simultánea cuatro pilas Conecta el cargador a
recargables.
una toma de corriente.
Hace que el módulo del procesador sea
más liviano. Lleva pilas desechables AA
y esta disponible en América.
PowerCel
Slim
Adaptadores de
alimentador de carga
PowerCel
Permite la adaptación a
especificaciones de
alimentación
internacionales (incluye 3
adaptadores).
PowerCel
Plus
Adaptador de
cargador de
pilas para
automóvil
Permite conectar
el cargador al
mechero del
automóvil.
Adaptador Powerpak y Adaptador Power Cel
respectivamente. El primero usa pilas AAA y el
segundo una recargable. Esta disponible en
Europa.
Figura 2.24 Imágenes respectivas a las diferentes opciones de pilas (desechables y
recargables) y cargadores (64).
118
Algunos accesorios:
El cable Direct Connect
Proporciona la interfaz entre el Direct Connect y los
dispositivos de escucha asistida, junto con el uso del
cable de la interfaz de audio (la siguiente figura). El
cable es negro, viene con una pinza resistente con
adaptador estéreo a mono, y está disponible en tres
largos diferentes. Se conecta el gancho auricular al
conector hembra de entrada.
El cable de la interfaz de audio
Se utiliza con Direct Connect y con el cable de Direct
Connect y
permite conectar el procesador con
dispositivos portátiles, alimentados con pilas, tales
como MP3, CD, y reproductores DVD y otras
tecnologías de escucha asistida.
Caja de transporte
Diseñada para guardar el dispositivo HiRes Harmony y
sus accesorios. Tiene compartimentos para Harmony,
pilas PowerCel y otros accesorios. Además, contiene un
sistema de secado para reducir la humedad.
Cartera para objetos pequeños
Esta hecha para una, dos o más pilas PowerCel y para
opciones de gancho auricular como Harmony TCoil,
Direct Connect y cables.
Figura 2.25 Algunos accesorios del sistema Harmony (64).
119
Procesador de sonido Platinum Series™ (PSP), una configuración diferente
Este procesador se usa sobre el cuerpo dejando libre al oído.
Posee algunas de las características que proporciona el procesador harmony, como:
•
El amplio rango dinámico de entrada de 20 dB–80 dB programable (60 dB
predeterminado).
•
Un potente control de ganancia automático de doble acción.
•
Una cómoda interfaz para poder acceder a los teléfonos compatibles con audífonos y
sistemas de FM.
•
El sistema de seguridad Intellilink™ asocia el procesador con un implante específico,
para proteger contra la estimulación si los procesadores son intercambiados
accidentalmente entre oídos o entre receptores.
•
Está disponible con tapas y pegatinas intercambiables, de manera que los receptores
pueden personalizar sus cabezales para ajustarse a su personalidad y estilo.
•
Puede alimentarse exclusivamente con baterías de iones de litio recargables (dura de
10-12 horas) o con pilas AA.
•
Utiliza el sistema HiResolution Sound.
Hay algunas cualidades que son únicas en este tipo de procesador:
Tiene Ventajas para los niños
•
Auricular y micrófono integrados, por lo que no se lleva nada sobre el oído.
•
Carcasa de aluminio, ligera y resistente, para mayor protección.
•
Viene con alarmas acústicas programables e indicador visual incorporado (Un LED),
para que se pueda vigilar con facilidad la comunicación y el estado de las baterías.
•
Bloqueo programable de los controles para eliminar los cambios de volumen
accidentales.
•
Conexión simple con los sistemas de FM y las telebobinas (útil cuando el niño esta
atendiendo en una clase en la escuela).
120
•
Comprobador del micrófono incorporado para los padres y los maestros.
•
También se dispone de un arnés blando y ligero, para sujetar con seguridad el PSP en
su posición.
Ventajas para los adultos
Ofrece ventajas exclusivas para algunos adultos. En particular, los usuarios ancianos, con
problemas visuales o con poca destreza manual se pueden beneficiar con los grandes controles
táctiles del PSP. Además, algunos adultos se sienten incómodos por los audífonos (y por un
procesador de implante coclear a nivel del oído) y desean llevar lo menos posible sobre el
oído.
121
1.
2.
3.
4.
5.
Procesador.
Switch de Programación.
Control de Volumen.
Control de Sensibilidad.
El Cable Conector del
Auricular.
6. El LED que da la luz de estado.
7. Puerto Auxliar de Conexión.
8. Batería Recargable.
9. Auricular y Cubierta de Color.
10. Micrófono.
5
4
3
2
6
1
7
9
8
10
Figura 2.26 El Procesador de sonido Platinum Series™ (PSP) (64).
122
Algunos accesorios del PSP:
1
3
2
4
5
6
1. Fonocaptor de telebobina. Se usa con teléfonos compatibles para audífonos u
otros sistemas de telebobina.
2. Adaptador telefónico. Conecta el teléfono directamente al procesador de sonido
para escuchar sin interferencias.
3. El auricular del procesador Platinum. Se suministra con 6 caperuzas de colores
intercambiables, herramienta de desmontaje y una pinza de sujeción al cabello
para utilizar en caso de necesidad.
4. Los auriculares para probar el micrófono. Permiten oír la entrada de audio
procedente del micrófono y se utilizan para supervisar y solucionar problemas de
la entrada de audio del procesador, del auricular y del cable.
5. Compartimiento para pilas AA. Permite usar tres pilas AA para alimentar el
procesador.
6. Micrófono auxiliar. Se coloca en la ropa o en otros lugares y es útil para oír en
ambientes ruidosos.
Figura 2.27 Algunos Accesorios del procesador PSP (64).
123
También cuenta con: el cargador de carro y el que va a una toma de corriente, 5 sujetadores
que van a la ropa para fijar el cable del auricular, y la posibilidad de seleccionar 2 colores
distintos de cable para el auricular que va a la cabeza. Viene también, con diferentes tipos de
funda para el procesador según las necesidades del usuario.
El implante HiRes 90K Harmony
Con 16 fuentes
de alimentación
independientes
5.5 mm
Diámetro 20 mm
Figura 2.28 El implante HiRes 90K Harmony
El sistema Harmony acepta las estrategias de procesamiento del sonido más
avanzadas disponibles hoy día y está preparado para las innovaciones futuras (64).
124
Desde su introducción en 2001, esta plataforma electrónica ha soportado ya dos estrategias y
actualizaciones del procesador de sonidos:
•
El nuevo software y los procesadores externos seguirán mejorando la audición de los
receptores (pacientes) a lo largo del tiempo, sin la necesidad de la cirugía de un nuevo
implante.
•
Miles de receptores de implantes cocleares de Advanced Bionics se han actualizado del
procesamiento convencional del sonido al sonido HiResolution y posteriormente al
HiRes Fidelity 120 sin un nuevo implante, esto se debe a que el ordenador interno del
implante
tiene más capacidad (aun no se llena y le queda espacio para futuras
tecnologías).
2000
2002
2006
Modo
Sonido
Hires
ESTRATEGIA
estándar
HiResolution
120
Frecuencia temporal (pps)
6500
83000
83000
Sitios de estimulación
8
16
120
dB)
84
84
96
Duración de la pila (Horas)
6
9
14
IDR (Rango dinámico de entrada en
Tabla 2.1 Estrategias de Actualización (64).
Características del HiRes 90K:
•
El dispositivo interno HiRes 90K tiene una gran fiabilidad, porque tiene una garantía
de 10 años.
•
El alojamiento superior de silicona es elástica, suave, flexible y se adapta bien a la
forma de la cabeza.
125
•
El implante está alojado en una carcasa herméticamente sellada de titanio, que protege
los componentes electrónicos internos frente al impacto y el traumatismo.
•
Se fabrico con una bobina de oro de alta precisión para la transmisión de datos de
banda ancha con un total de hasta 120 bandas de información espectral. La bobina
transmisora y receptora está hecha de cable de oro triple con protección de hélice de
platino.
•
Imán extraíble. El imán utilizado para atraer el implante al cabezal externo puede
extraerse quirúrgicamente y luego colocarse de nuevo para permitir un examen de RM
de hasta 0,3 y 1,5 Teslas.
•
Tiene el electrodo HiFocus® para un objetivo neuronal. El electrodo patentado ofrece
16 contactos de platino-iridio que centran la estimulación en las fibras del nervio
auditivo. Los contactos de precisión están diseñados para la generación de señales
consistentes y la entrega de información precisa.
•
El HiRes 90K acepta 90000 actualizaciones de información procedentes del procesador
de sonidos por segundo, de aquí su nombre y suministra información a una velocidad
de 83000 estimulaciones por segundo.
•
Tiene el NRI (Imágenes de Respuesta Neural), que está diseñado para optimizar el
proceso de ajuste del implante y ayudar en la programación para niños. En si es una
característica habilitada por medio de la plataforma de los componentes electrónicos
del implante que mide el potencial de acción compuesto provocado eléctricamente
(ECAP) de los nervios auditivos.
•
Característica de seguridad IntelliLink. Cada implante tiene una identidad única de
manera que una vez vinculado y asociado con el procesador de sonido programado
para ese oído, Intellilink protege contra la estimulación si se intercambian
accidentalmente los procesadores entre los oídos o entre receptores.
•
Su plataforma electrónica ofrece a los pacientes acceso a estimulación simultánea,
parcialmente simultánea y no simultánea.
•
Flexibilidad de programación al ofrecer
la capacidad de seleccionar entre varias
estrategias, para programar el Harmony HiResolution Bionic Ear System. Dentro de la
estrategia seleccionada, la gestión automatizada de los parámetros de ancho de pulsos,
frecuencia y cumplimiento optimiza y estandariza los programas. Las características
126
programables tales como el IDR, el rango de volumen, la sensibilidad, y la ganancia
ofrecen más satisfacción y mejores resultados al receptor, tales como escuchar música
o poder oír en ambientes ruidosos.
•
Memoria interna.
•
Telemetría bidireccional.
Los sistemas de procesamiento HiResolution y HiRes Fidelity 120 que utiliza AB
El sonido HiResolution.
Produce una representación precisa del medio acústico diseñado para oír en el mundo real.
•
Oír desde susurros hasta gritos.
•
Escuchar música.
•
Utilizar el teléfono.
•
Oír en restaurantes.
•
Reconocer voces.
Es un sistema avanzado que permite oír no sólo palabras y frases, sino también el significado
transmitido con las emociones y las inflexiones de la voz. Se adapta de manera automática y
reflexiva a su ambiente, sin tener que pulsar un botón o cambiar un interruptor.
Se siguen 4 pasos, para lograr el éxito de una buena simulación de la audición en los implantes
cocleares de AB:
•
Captura del medio ambiente sonoro.
Las personas con audición normal pueden percibir una amplia gama de niveles sonoros dentro
de una variada gama de frecuencias. El sistema HiResolution captura una gama completa de
sonidos, y el control automático de ganancia permite al usuario del implante coclear oír a
oradores que hablan con diferentes niveles a distancias variables. Todo esto se hace con una
necesidad mínima de ajuste en los controles del procesador de sonidos.
127
Ejemplo:
Es capaz de capturas un rango dinámico amplio, y puede percibir a tres oradores que hablan
con intensidades variables entre 20 dB y 100 dB.
•
Composición del espectro completo.
El medio ambiente natural está constituido por muchos sonidos complejos. Algunos sistemas
de implante coclear representan esos sonidos sólo parcialmente, mediante selección de
determinados componentes.
El sistema HiResolution está diseñado para conservar el espectro amplio de sonidos, mejorar
la capacidad de escucha en situaciones difíciles y potenciar la apreciación de la música.
•
Detalle del sonido.
Muchas características importantes de las voces y los instrumentos musicales están contenidos
en el detalle temporal fino. Con los métodos de baja resolución convencionales se desechan
los detalles temporales finos.
Un método de baja resolución puede ser suficiente para percibir el habla en ambiente
silencioso, pero resulta insuficiente para las situaciones de escucha más difíciles. Por ejemplo,
en el restaurante o al hablar por teléfono.
El sistema HiResolution ofrece 10 a 20 veces mayor detalle del sonido que los sistemas de
baja resolución, con el fin de conservar el detalle fino de los sonidos complejos, y permite el
suministro de una representación más exacta del medio ambiente acústico.
•
Suministro del sonido al nervio auditivo.
La rapidez y la exactitud del suministro de información al nervio auditivo son tan importantes
como la resolución del procesamiento del sonido. La estimulación rápida y exacta es clave
para reproducir los patrones neurales de la audición normal, y transferir el detalle de los
sonidos complejos (ofrece las frecuencias de estimulación hasta 83000 pulsos por segundo).
El sistema HiRes Fidelity 120 el sistema más nuevo.
128
Es una nueva característica del sonido HiResolution, diseñada para disfrutar la riqueza de los
sonidos complejos, como la música, y si se requiere de más detalles del sonido que para sólo
comprender las palabras, como la identidad del orador, el tono y la emoción de la voz y otros
indicios, que son transmitidos por los cambios del tono o de la frecuencia.
En la cóclea sana, el tono es codificado mediante localización exacta de la información
temporal fina a lo largo de la cóclea, que responde a las diferentes frecuencias. Hasta ahora,
los sistemas de implante coclear han estado limitados en cuanto a la resolución espacial por el
número y la separación de los contactos de los electrodos.
El sistema HiRes 120 elimina esta limitación, utiliza la capacidad del implante HiRes 90K para
distribuir activamente la corriente entre los electrodos, un proceso que se describe a
continuación.
Distribución activa de la corriente en el sistema Hires 120
La técnica de distribución de la corriente es similar a la función “balance” de un sistema
estéreo de alta fidelidad, que desvía la imagen acústica desde la izquierda hacia la derecha al
mismo que varía el volumen entre los dos altavoces.
La distribución activa de la corriente se hace posible con el implante HiRes 90K debido a que
cada electrodo tiene su propia fuente de alimentación independiente, lo que permite
suministrar corriente a dos parejas de electrodos simultáneamente. En teoría, con control fino
de la proporción de corriente suministrada a cada electrodo de la pareja, el lugar de
estimulación es “distribuido” entre los dos electrodos. Así se crean bandas discretas
adicionales de estimulación.
Históricamente, el número de electrodos en un sistema ha definido la cantidad de bandas
espectrales de estimulación. Por tanto, el número de bandas espectrales de resolución se limitó
al número máximo de electrodos porque hay sólo una fuente de alimentación para todos los
electrodos. El HiResolution Sound, tiene una fuente de alimentación para cada electrodo,
ofreciendo la capacidad de crear más bandas espectrales que número de electrodos.
129
El HiRes 120 genera 8 sitios de estimulación entre cada pareja de electrodos. Por tanto,
cuando los 16 electrodos están activados, pueden ofrecerse 120 bandas espectrales, esto es 15
pares de electrodos multiplicados por 8 bandas espectrales equivalen a 120.
La siguiente figura 2.29, ilustra el modo en que tres distribuciones diferentes de corriente en
dos electrodos crean patrones de estimulación distintos.
Cuando la corriente es
suministrada sólo al
electrodo izquierdo,
las neuronas próximas
a él tienden a ser
estimuladas.
Cuando se suministra la
mitad de la corriente a
cada electrodo, el lugar
del campo eléctrico está a
mitad de camino entre los
electrodos y tienden a ser
estimuladas las neuronas
de esa zona.
Conforme la proporción
de corriente se desvía al
electrodo de la derecha,
también cambia la zona
de neuronas que tienden
a ser excitadas.
Figura 2.29 Ejemplo que ayuda a entender como funciona la distribución activa de la
corriente (65).
(66) Hasta hace poco, solo un electrodo era estimulado a la vez, pero eso ha cambiado. Si
estimulas dos electrodos adyacentes al mismo tiempo, el campo eléctrico, se maximiza entre
los dos contactos de estimulación y proporcionar un tono intermedio entre los dos. Y
dependiendo de la proporción de las corrientes en los dos contactos, se puede conseguir
muchos tonos intermedios; por lo que además de tener los electrodos físicos, ahora se tienen
electrodos virtuales. Esta técnica se denomina haz de dirección.
130
El software utilizado de AB
Desarrollado con la colaboración de audiólogos de todo el mundo, la nueva plataforma de
programación automatiza y acelera muchos pasos de la programación, para reducir en forma
significativa el tiempo requerido para programar el implante.
Se llama “Suite Profesional SoundWave” utilizado exclusivamente por profesionales de
implantación coclear para la programación y el ajuste auditivo con el Harmony HiResolution
Bionic Ear System.
En las opciones de programación de ajuste están disponibles seis opciones de estrategia
distintas para seleccionar las que mejor se ajustan a las necesidades de audición individuales.
La flexibilidad y las elecciones permiten que los receptores puedan comparar y evaluar el
desarrollo auditivo con diferentes variaciones en los parámetros y opciones de programación.
Elecciones en los programas de procesamiento del sonido de alta resolución
•
HiRes-P (emparejado)
•
HiRes-P con fidelidad 120
•
HiRes-S (secuencial)
•
HiRes-S con fidelidad 120
Elecciones adicionales para el procesamiento del sonido convencional
•
CIS
•
MPS
Precio actual en el mercado del implante de AB
Puede venir con paquetes de equipamiento distintos en versiones para niños o para adultos, los
equipamientos de tipo estándar tienen el siguiente precio aproximado en dólares en EUA.:
•
Harmony kit para adultos: $7,800.
•
Harmony kit pediátrico:
$7,800.
•
PSP kit para adultos:
$7,800.
•
PSP kit pediátrico:
$7,800.
131
2.1.2.4 Conclusiones sobre los 3 fabricantes de Implantes Cocleares
Los 3 fabricantes son buenos, y decir cual es el mejor puede llegar a ser un poco subjetivo,
debido a que esa respuesta la tiene el futuro aspirante a ser implantado.
La mejor opción, es una repuesta que tiene que considerar varios aspectos: los recursos
monetarios disponibles, las disponibilidades del mercado según el país donde reside el
aspirante, los diferentes factores biológicos y fisiológicos como: la edad, las características de
la sordera y la compatibilidad con el implante del fabricante. También se debe de considerar la
garantía, el soporte técnico y las diferentes especificaciones técnicas que varían según el
fabricante, para ver si se adaptan a lo que se requiera o se necesite.
Además, el éxito de un implantado radica en una buena rehabilitación. Esta va de acuerdo a
una adecuada gestión y programación del audiólogo y del apoyo de los familiares y amigos, en
un proceso que dura varios meses y que se puede prologar en años.
Cada uno de ellos posee características únicas como por ejemplo: el Nucleus5 de Cochlear TM
tiene un mando a distancia con una pantalla LCD, MED-El proporciona una amplia variedad
de electrodos para la cóclea que se adaptan a diferentes necesidades clínicas y AB da la opción
de su procesador PSP que permite que no se lleve nada en el oído. Y si se les compara
mutuamente, todos tienen ventajas y desventajas.
132
Aclaraciones
En esta pequeña investigación de cada uno de los 3 fabricantes de implantes cocleares, la
información que fue previamente descrita en este capítulo es proporcional a la que está
publicada, en las páginas respectivas de cada uno de ellos en Internet.
Si en algún momento parece que se describió más a uno que a los demás, fue porque el
fabricante proporciona más información en sus páginas de enlace en la Internet.
Cuando se describieron las diferentes tecnologías usadas por los fabricantes, se puede notar
que existe un carecimiento científico en la información debido a dos razones: las tecnologías
que fueron descritas anteriormente, están patentadas provocando que la mayoría de la
información este restringida y porque está información fue sacada de páginas que están
enfocadas en el marketing.
Aunque se cumple con las expectativas ya que el objetivo del inciso de este capítulo, fue
proporcionar la información de la tecnología de punta en materia de prótesis auditivas.
En el “Anexo 2” de esta tesis hay una comparación minuciosa entre las 3 marcas.
133
2.2 Algunas de las estrategias de procesamiento convencionales usadas en los Implantes
Cocleares (no son las más actuales)
2.2.1 Introducción
(67) El procesamiento de señal para los implantes cocleares multicanales se lleva a cabo
principalmente a lo largo de dos líneas de enfoque.
El primer enfoque es la representación de la onda donde la señal pasa por filtros pasa banda y
la forma de onda correspondiente filtrada es usada para hacer la estimulación eléctrica en los
diferentes electrodos.
El segundo enfoque es la extracción de importantes características del habla como la
frecuencia fundamental y la formación de formantes presentada.
En mayoría de las estrategias de procesamiento hay 3 diferentes parámetros que provocan
diferentes procesos que se hacen antes de que se
manden las señales acústicas a los
electrodos.
El primer parámetro es el número de electrodos usados en la estimulación (que va de 12 a 22).
El número de electrodos usados en la estimulación determina la resolución de la frecuencia
proporcionada por el implante.
El segundo parámetro es la configuración de los electrodos. La corriente cuando se manda al
haz de electrodos esta tiende ha esparcirse simétricamente, donde diferentes configuraciones
de electrodos son utilizadas para controlar el esparcimiento de la corriente. Hay dos
configuraciones de electrodos: mono polar y bipolar. La primera comparte un electrodo de
referencia que funciona como tierra para todos los electrodos. En la segunda cada electrodo
individual tiene su propia tierra o dicho de otra forma su electrodo de referencia.
El tercer parámetro es la amplitud eléctrica de la corriente, que es usualmente generada al
usar un cierto tipo de detector de la envolvente en el filtrado de forma de onda, la amplitud de
la corriente eléctrica es usada para controlar en nivel de fuerza del estímulo percibido. Un
valor mayor de la amplitud de la corriente eléctrica causa una mayor población de fibras
nerviosas en las proximidades del electrodo al ser estimulado y la intensidad de la
estimulación percibida será mayor. Por el otro lado un valor pequeño de la amplitud de la
corriente provoca la percepción de una estimulación suave.
134
La amplitud de la corriente eléctrica proporciona información espectral de dos diferentes
maneras. Las amplitudes de la corriente eléctrica pede proporcionar información espectral en
los canales, por el tiempo que varían los niveles de amplitud de corriente en cada electrodo.
La amplitud de la corriente también puede proporcionar información espectral a través de los
canales al variar los niveles de corriente en diversos electrodos estimulados en el mismo ciclo
de tiempo.
Otro parámetro importante es la tabla de compresión usada para comprimir la amplitud de la
señal acústica al generar las amplitudes de corriente. En una conversación cotidiana, la
amplitud acústica puede variar en un rango de 30-50 dB. Para el caso de la estimulación
eléctrica del nervio auditivo provocado por los electrodos en la cóclea, el rango dinámico entre
él estímulo apenas perceptible y el incómodo ruidoso puede ser cerca de 15-25 dB.
Pero de todas maneras ciertos implantes cocleares
pueden tener rangos dinámicos más
pequeños como de 5 dB.
Por lo tanto las amplitudes de la señal acústica son generalmente comprimidas para que
encajen en el rango dinámico eléctrico de los usuarios particulares de implante coclear,
mediante diversas medidas psicofísicas.
En los dispositivos de implante coclear dos tipos de tablas de compresión son usadas para
comprimir la amplitud de la señal acústica, para luego generar las amplitudes de corriente
eléctrica. Un tipo de compresión utiliza una función logarítmica y otro tipo de compresión una
función de ley de potencia (power-law function), ambos tipos con un mismo fin, obtener la
amplitud de la corriente eléctrica.
Otros parámetros involucrados en el procesamiento de señales, específicamente en la
estimulación pulsátil (porque hay algunas estrategias que usan señales analógicas), son la
frecuencia del pulso y el ancho de pulso. En la estimulación pulsátil la frecuencia (rango del
pulso) controla el número de pulsos por segundo generados en la estimulación de los
electrodos. El ancho del pulso es la duración de solo un instante del tiempo de estimulación
usualmente especificado en microsegundos. La anchura del pulso y la frecuencia del pulso son
cantidades interconectadas y de dimensiones opuestas. Una anchura grande de pulso tiene
como resultado una pequeña frecuencia de pulso y una pequeña anchura de pulso tiene como
135
resultado una frecuencia de pulso grande. La frecuencia del pulso es determinada en parte, por
las diferentes estrategias utilizadas para el tratamiento de la señal y por la psicofísica de cada
paciente. La forma del pulso en general, puede ser de dos tipos, la forma de pulsos
monofásicos y la forma de pulso bifásico. La mayoría de las estrategias de procesamiento de
señales de corriente usan pulsos bifásicos para equilibrar la distribución de carga.
2.2.2 Estrategias
(67) Estrategia F0/F1/F2.
Es una estrategia características de extracción que se desarrolla para proporcionar información
sobre las características del habla, con la frecuencia fundamental (F0), primer formante (F1) y
el segundo formante (F2) que son importantes para el reconocimiento de voz. Esta es una
estrategia pulsátil que utiliza dos pulsos en cada ciclo de tiempo, para transmitir información
acerca del primer y segundo formante a dos electrodos implantados correspondientes
respectivamente. La frecuencia fundamental se utiliza para determinar el rango del pulso de
estimulación para una porción de la señal del habla expresada (la parte del espectro de
frecuencia donde esta la voz).
La frecuencia Fundamental F0, F1 y F2, son determinadas por filtros pasa bajo y pasa banda
seguidos por detectores de cruce por cero. El filtro pasa bajo para F0 tiene una frecuencia de
corte de 270 Hz, la de F1 tiene un filtro pasa banda con los límites de frecuencia de 300-1000
Hz, y el de F2 tiene otro filtro pasa banda con los límites de frecuencia de 1000-3000 Hz. Las
amplitudes correspondientes del primer (A1) y segundo formante (A2) se obtienen por la
realización de la detección de la envolvente de la salida filtrada correspondiente.
Esta estrategia fue empleada en el procesador portátil de palabras Nucleus (WSP) en 1985.
Estrategia MPEAK.
Es una extensión de la estrategia de F0/F1/F2 que incluye información de alta frecuencia
además de la información del primer y segundo formante. La estrategia de MPEAK utiliza tres
filtros adicionales pasa banda para proporcionar información de alta frecuencia que es
importante para el reconocimiento de las consonantes.
136
Esta estrategia realiza la extracción de la frecuencia fundamental (F0) y el primer (F1, A1) y
segundo formante (F2, A2) de la misma manera que la estrategia F0/F1/F2, usando detectores
de la envolvente y detectores de cruce por cero.
Los tres canales adicionales de altas frecuencias usan filtros pasa banda con los rangos de
frecuencia que van de: 2000-2800 Hz, 2800-4000 Hz y 4000-6000 Hz. Las amplitudes para
estos canales de alta frecuencia son generadas realizando la detección de la envolvente en la
salida correspondiente de los filtros pasa banda.
Las salidas de alta frecuencia del canal fueron mandadas siempre a tres electrodos fijos. Esta
estrategia fue utilizada en el procesador del habla Nucleus miniatura (MSP).
Para la parte de voz de la señal del primer y segundo formante y los dos canales de alta
frecuencia (excluyendo el canal de 4-6 kHz.) son usados para mandar la estimulación
apropiadamente en los 4 electrodos de estimulación usando un rango de pulso correspondiente
a la frecuencia fundamental.
Para la señal que no forme parte de la voz (unvoiced signal) la frecuencia de los 3 canales de
alta frecuencia y el canal del segundo formante, son usados para mandar la estimulación a los
4 electrodos correspondientes a un rango de pulso nominal de 250 pulsos por segundo.
(68)Estrategia “Spectral-Peak” (SPEAK).
Se basa en la extracción de los rasgos principales de la palabra persiguiendo conseguir una
perfecta transmisión de los formantes seleccionados que representen más fidedignamente el
mensaje hablado. Los pulsos se liberan en una secuencia no simultánea sobre los electrodos
seleccionados.
Estrategia “analógica-comprimida” (CA).
Envía las señales de forma simultánea por lo que se pueden producir interacciones entre los
canales generando la suma de los campos eléctricos de cada electrodo. Así la respuesta neural
quedará distorsionada.
Estrategia “basada en el muestreo secuencial continuo” (CIS).
137
Los pulsos llegan a los electrodos de forma no simultánea, estimulando un solo electrodo en
cada momento. La velocidad en que se estimulan los electrodos ejerce un papel importante en
el reconocimiento del habla. A mayor velocidad, mejores resultados.
Estrategia “analógica simultánea” (SAS).
Puede usarse con ondas pulsátiles o analógicas, ocurriendo en todos los canales al mismo
tiempo. La tasa de estimulación ocurre a velocidades muy altas (91.000 muestras/s), por lo que
estas estrategias son ricas en información temporal detallada.
Estrategia “advanced combination encoders” (ACE).
Combina elementos de las estrategias SPEAK y CIS. Esta estrategia permite elegir qué
electrodos estimular, de qué manera estimular los canales y la tasa de estimulación, pudiendo
adaptar la programación a cada paciente de una forma más individualizada y personal.
La siguiente figura 2.30, muestra la evolución cronológica de algunas de las estrategias
previamente descritas:
Figura 2.30 Evolución de los diferentes tipos de estrategias de procesamiento del
sonido (68).
138
2.3 Funcionamiento de una prótesis auditiva actual
Antes de describir el funcionamiento, es importante abordar otros temas que son importantes
para entender todo lo referente a los implantes cocleares que existe actualmente.
Son 2 temas, uno hace referencia a lo que pasa en la cirugía del implante y el otro describe lo
que debe suceder después de la misma.
2.3.1 Cirugía de Implante Coclear
(69) El procedimiento quirúrgico normalmente dura entre 1 y 3 horas. Los riesgos que implica
una cirugía de implante coclear son pequeños y comparables con los de otras cirugías de oído.
139
A
B
C
D
(70) figura 2.31 En esta figura se observan los principales pasos que se siguen en
la cirugía:
A. El abordaje, donde se hace la incisión.
B. Se hacen los: Colgajos, Lecho óseo y la Mastoidectomía.
C. Cocleostomía.
D. Introducción de los electrodos, hay diferentes técnicas.
Procedimiento quirúrgico.
1. Se aplica anestesia general.
2. Se afeita el pelo en la zona donde se va a realizar la incisión.
3. Se realiza la incisión.
4. Se hace un "lecho" en el hueso mastoideo detrás del oído, para ellos se utiliza un
microscopio y un taladro. El implante se situará en este lecho.
5. Se inserta la guía de electrodos dentro de la cóclea.
6. Se fijan en su sitio tanto la guía de electrodos como el implante.
7. Se evalúa el funcionamiento de los electrodos antes de cerrar la incisión.
140
8. A veces aparece una ligera incomodidad cuando el paciente se despierta. Puede ser
administrada medicación para el dolor si es necesario.
9. Los pacientes suelen estar repuestos al día siguiente. El tiempo de estancia en el hospital
varía de uno a varios días dependiendo de las prácticas locales.
2.3.2 Primeros Sonidos - Programación inicial
(57) Este procedimiento puede variar según la marca del implante debido a las diferencias que
existen de unos modelos a otros.
El procesador debe de ser programado o activado según las características propias de cada
paciente. En dicho proceso se habrá de contar con personal especializado y con el equipo
material apropiado al implante elegido. Se usan técnicas telemétricas que informan sobre las
respuestas neurales obtenidas a partir de la estimulación de los electrodos implantados, y es de
gran utilidad para determinar el mapa auditivo durante la programación del implante coclear.
La programación del implante coclear deberá ser revisada periódicamente, pues a lo largo de
la evolución se irán produciendo cambios que precisarán nuevos ajustes en la forma de
estimulación de los electrodos del implante. Estos controles también permitirán detectar y
diagnosticar fallos en el equipo, facilitando así su pronta reparación.
A continuación se describe el procedimiento de programación de la marca MED-EL, que se
describe en su página de Internet:
El programa del procesador de palabra, también conocido como mapa, contiene ajustes de
tono y volumen. Los programas se adaptan según las necesidades particulares de cada paciente
durante las "sesiones de ajuste o programaciones" por el ingeniero clínico o por el audiólogo.
El ajuste del procesador de palabra se realiza entre 3 y 6 semanas posteriores a la cirugía. Este
proceso se hace de forma individualizada para cada paciente.
Pasos de la programación.
•
Se conecta el procesador al ordenador/computadora del ingeniero clínico o audiólogo.
•
El usuario se coloca el procesador.
•
El ordenador/computadora genera señales a unos niveles controlados cuidadosamente.
141
•
El usuario indica cuál es la señal más débil que ha oído (umbral) y la señal oída con el
volumen más intenso sin que produzca molestia (MCL, nivel máximo confortable).
•
Estos dos niveles son medidos en todos los electrodos situados en la cóclea.
•
Utilizando esta información, se crea un programa que permite oír todos los sonidos
entre esos dos niveles y asegura que el sonido sea lo suficientemente alto para ser oído
pero no tanto como para producir molestia, emulando así la audición normal tanto
como sea posible.
•
El programa se ajusta durante las siguientes sesiones clínicas siguiendo la
programación inicial.
Seguimiento.
Para obtener el máximo beneficio del implante, se debe de seguir un programa postoperatorio.
Los programas de seguimiento varían de acuerdo a las prácticas locales, pero normalmente
incluyen:
•
Ayuda, asesoramiento y soporte.
La ayuda debería estar disponible para preguntas generales, cuestiones técnicas e
información de grupos de apoyo para usuarios de implantes cocleares y sus familias.
•
Chequeos médicos con regularidad.
La zona del implante debe ser revisada con regularidad por un médico.
•
Reprogramaciones con regularidad del procesador de palabra.
Los usuarios de un IC deben visitar su clínica con regularidad para la reprogramación
del procesador de palabra. Esto permite al ingeniero clínico o audiólogo asegurarse de
que el implante está funcionando correctamente. El ingeniero clínico o audiólogo
puede también hacer pequeñas modificaciones o mejoras al programa para que el
usuario siga obteniendo el máximo beneficio.
•
Logopedia.
Se recomienda, especialmente en niños, terapia para el habla y el lenguaje.
•
Orientación educativa y soporte (para niños).
Los niños que utilizan implantes cocleares normalmente tienen un contacto regular con
142
un especialista educativo calificado para trabajar con personas sordas o con pérdidas
auditivas.
2.3.3 El Funcionamiento de una Prótesis auditiva actual para sordos profundos
(71) Un implante coclear.
Es una prótesis implantada quirúrgicamente que ayuda a superar algunos problemas de
audición cuyo origen está en el oído interno, o cóclea. La cóclea, es un pequeño tubo enrollado
en forma de caracol ubicado en la parte del oído conectada al nervio auditivo. Su función
consiste en recoger las señales eléctricas procedentes de las vibraciones sonoras y transmitirlas
al nervio auditivo, quien a su vez envía esas señales al cerebro, donde son interpretadas como
sonidos reconocibles.
Si partes importantes de la cóclea no funcionan correctamente y el nervio auditivo no puede
recibir estimulación alguna, las señales eléctricas no pueden llegar al cerebro, por lo que
resulta imposible oír. (Esto se denomina “sordera neurosensorial”.) Sustituyendo a la parte
lesionada de la cóclea, el implante coclear utiliza sus propias señales eléctricas para estimular
el nervio auditivo, permitiendo oír a la persona.
Una persona normal donde el oído trabaja correctamente cuando reciben las ondas sonoras,
estas pasan por diferentes partes del oído (proceso de la audición descrito en el capítulo 1.4)
provocando ciertas vibraciones que cuando llegan al oído interno, hacen que se mueva el
fluido que hay en el interior de la cóclea. El movimiento del fluido estimula a los cilios, que
son miles de diminutos receptores auditivos que recubren el interior de la cóclea. Al inclinarse
hacia delante y hacia atrás, los cilios envían señales eléctricas al nervio auditivo, que a su vez
trasmite esas señales al cerebro, donde son interpretadas.
Debido al envejecimiento, la herencia, determinadas enfermedades, las infecciones o la
exposición repetida a ruidos fuertes, los cilios pueden lesionarse o destruirse completamente.
Si los cilios no funcionan correctamente, el nervio auditivo no recibe estimulación y, por lo
tanto, no puede enviar información al cerebro, por lo que la persona no puede oír.
143
Las pérdidas auditivas pueden ser leves, moderadas o graves; dependiendo de la cantidad de
cilios lesionados, ausentes o destruidos. Las personas con pérdidas auditivas leves o
moderadas pueden experimentar grandes mejorías utilizando audífonos (unos dispositivos que
amplifican los sonidos). Pero las personas con sordera grave o profunda pueden tener
dificultades incluso para oír sonidos fuertes. En estos casos, los audífonos no son útiles y los
médicos pueden recomendar los implantes cocleares.
Lo que hace un implante coclear.
Estimula artificialmente el área del oído interno con señales eléctricas y envía esas señales al
nervio auditivo, permitiendo oír al usuario. A pesar de que la calidad del sonido se describe a
veces como “mecánica” y no completamente igual a la que experimentan las personas que
oyen con normalidad, los implantes cocleares permiten a los usuarios oír sonidos que, sin
ellos, no podrían oír.
Un implante coclear consta de una parte interna, que se implanta en el interior del cráneo, y de
una parte externa que contiene el procesador de sonido y habla. Los distintos componentes del
implante coclear trabajan conjuntamente para captar el sonido, transferirlo al nervio auditivo y
enviarlo al cerebro.
La parte interna de un implante coclear consta de:
•
Un receptor-estimulador que contiene todos los circuitos electrónicos que controlan el
flujo de impulsos eléctricos que se envían al oído.
•
Una antena (Bobina) que recibe las señales del mundo exterior y del procesador de
sonido y habla.
•
Un imán que ayuda a mantener el procesador de sonido y habla en su sitio.
•
Un cable que contiene electrodos que se insertan en la cóclea (la cantidad de electrodos
varía en función del modelo de implante utilizado). Los electrodos funcionan de una
forma muy similar a los cilios y emiten impulsos eléctricos para estimular al nervio
auditivo.
144
El procesador de sonido y habla es un miniordenador que procesa el sonido y lo digitaliza es
decir, lo transforma en información digital y luego envía esa información a la parte interna del
implante en forma de señales eléctricas.
El procesador de sonido y habla, se lleva en el exterior y suele tener el aspecto de un audífono
normal y corriente. No obstante, dependiendo del tipo de procesador de sonido y habla
utilizado, se puede llevar detrás de la oreja como si se tratara de un audífono o unos
auriculares o bien en otra parte del cuerpo, por ejemplo en el cinturón o un bolsillo.
La parte externa del implante coclear consta de:
•
El procesador de sonido y del habla (que puede ser un modelo que se acopla a la ropa
como una radio portátil o un modelo que se engancha a la oreja).
•
Un micrófono.
•
Un transmisor (Bobina) que envía las señales a la parte interna del implante. El
transmisor también incluye un imán que ayuda al usuario a alinear el procesador con la
parte interna.
Para que el implante coclear funcione correctamente, la parte interna y el procesador de sonido
y habla deben estar alineados, esa es la función de los imanes. Alineando los dos imanes,
ambas partes del implante quedan bien sujetas y pueden funcionar como si se tratara de una
sola.
145
Transmisor Externo (Bobina)
El implante Receptor- Estimulador
Electrodo de Referencia
Micrófono,
compartimiento
de baterías y
procesador del
habla
Electrodo
Intracoclear
Figura 2.32 Componentes de un sistema de Implante Coclear (56)
Funcionamiento de un Implante Coclear.
•
El micrófono recoge el sonido.
•
El sonido es enviado al procesador de sonido y del habla.
•
El procesador de sonido analiza el sonido y lo transforma en una señal eléctrica. (La
señal eléctrica contiene información que determina cuánta corriente eléctrica se enviará
a los electrodos.)
•
El transmisor (bobina) envía la señal a la parte interna del implante, donde es
decodificada.
146
•
La parte interna del implante determina cuánta corriente eléctrica debe transmitirse a
los electrodos y envía la señal. La cantidad de corriente eléctrica determinará el
volumen del sonido, y la posición de los electrodos, el tono del mismo.
•
Las terminaciones nerviosas que hay en el interior de la cóclea (el área donde se
encuentran los cilios) son estimuladas y envían información al cerebro a través del
nervio auditivo.
•
El cerebro interpreta el sonido y la persona oye.
Componente Externo
Componente Interno
Transmisión al Implante
Sonido
Micrófono Amplificador Codificación
del sonido
Estimulación Eléctrica
Figura 2.33 Funcionamiento de un implante coclear (72).
(73)Clasificación de los Implantes Cocleares.
Estos pueden clasificarse atendiendo a tres criterios: ubicación de los electrodos
(intracocleares o extracocleares), número de canales (mono o multicanales) y forma de tratar
la señal sonora (extracción o no de los distintos formantes del sonido).
También los implantes cocleares pueden ser clasificados de acuerdo al tipo de electrodos
(monopolares, bipolares), método de estimulación (pulsátil, analógica) o forma de transmisión
de las señales a nivel de la piel (conexiones percutáneas o transcutáneas).
(74) Por el número de canales están: los implantes Monocanales,
que proporcionan
estimulación en un sólo punto, utilizando un sólo electrodo (más el GND). Los Multicanales
147
proporcionan estímulos en varios nervios aferentes (aquellos que transportan señales al
cerebro).
(75) Por tipo de acoplamiento: si el acoplamiento de la transmisión entre el procesador de
señales y el electrodo es una conexión eléctrica directa, se llama un acoplamiento percutáneo.
Si el acoplamiento de la transmisión es de radiofrecuencia entonces se llama acoplamiento
transcutáneo.
(76) Parte de esa clasificación ha quedado en el pasado, ya que
las clasificaciones de
implantes cocleares basadas en la ubicación de los electrodos (intracocleares o extracocleares)
y el número de canales de estimulación (monocanales o multicanales), han quedado en desuso
al ser todos los implantes cocleares, multicanales e intracocleares.
De este modo, hoy día existen diferencias menores entre los distintos implantes cocleares,
que pueden clasificarse según:
•
Carcasa del dispositivo implantable:
Ø Existen modelos de implantes con carcasas de cerámica, más resistentes a la formación
de biofilms y menos resistentes a traumatismos mecánicos.
Ø Carcasas de titanio-silicona, más resistentes a traumatismos mecánicos aunque más
sensibles a la formación de biofilms. Un biofilm (77) es un conjunto de bacterias que
crece adherido a distintas superficies de forma natural y que, por sus particularidades,
es extremadamente difícil de erradicar, al ser más resistente al tratamiento antibiótico y
la acción del sistema inmune. El biofilm de la bacteria Staphylococcus aureus, una de
las que más frecuentemente causa infecciones asociadas al uso de catéteres, válvulas,
prótesis y otros tipos de implantes médicos.
•
Tipos de estimulación eléctrica:
148
Para la estimulación de la corriente en los electrodos se necesitan 2 electrodos, un electrodo
activo y otro de referencia. Dependiendo de cómo se agrupen estos 2 electrodos pueden ser:
Ø Monopolar: los electrodos estimulan compartiendo un electrodo de referencia
extracoclear y distal al lugar de estimulación, disminuyendo la cantidad de corriente
necesaria para estimular. Este modo es incompatible con una estimulación simultánea
(analógica), ya que produciría un fenómeno de suma de campos. Tiene la ventaja de
requerir niveles de estimulación más bajos que la bipolar y consta (69) de tantos
electrodos como de bandas frecuenciales tenga el sistema.
Ø Bipolar: los electrodos se estimulan en parejas (ambos son intracocleares), estando la
pareja compuesta por electrodos muy próximos, siendo uno el electrodo estimulante y
el otro el de referencia. Esta estrategia de estimulación provoca una menor interacción
entre los electrodos, pero requiere de niveles de estimulación muy altos, es compatible
con la estimulación simultánea y consta (69) de dos electrodos por cada banda
frecuencial.
•
Estrategias de procesamiento del sonido (codificación):
Determinan el conjunto de operaciones que se realizan con la señal de audio para generar los
estímulos en los distintos electrodos del implante. Actualmente, existen 2 grupos de estrategias
y ambas comparten el hecho de separar la señal de audio en varias bandas de frecuencia
mediante un banco de filtros:
Ø Analógica: ondas continúas que preservan el origen sinusoidal de la señal de entrada al
procesador. Las estrategias analógicas, con el fin de obtener ondas de estimulación
continuas, deben activar los electrodos de forma simultánea, para ellos se presenta en
cada electrodo una corriente que varía de forma ininterrumpida, acorde a la señal de
salida del filtro correspondiente.
Ø Pulsátil: ondas bifásicas discretas convertidas desde la señal acústica analógica de
entrada. La estimulación se realiza de forma que en cada momento hay un solo canal
activo para evitar las interferencias entre canales. Para este caso, se presentan pulsos
breves que pueden estimular a los electrodos de forma secuencial, de modo que en
cada momento solo hay un electrodo activo.
149
Los distintos fabricantes de implantes cocleares aportan diferentes estrategias de
procesamiento del sonido, siendo éstas el resultado de los avances en la tecnología de los
implantes y en el mejor conocimiento de la estimulación eléctrica del oído.
Nota importante: aún siendo multicanales todos los implantes cocleares disponibles, presentan
diferencias en cuanto al número de canales de estimulación. No es quizás un hecho diferencial
pues no se han encontrado diferencias importantes respecto a este hecho, siendo precisos como
mínimo entre 4 y 6 canales para la discriminación del lenguaje. A más canales útiles, mayor
colorido y mejor discriminación, siendo el factor limitante la interacción eléctrica entre
canales, limitando así el número máximo de ellos. Los dispositivos actuales usan desde 12
hasta 22 canales de estimulación, como máximo, dependiendo del requerimiento.
Algunos Parámetros y algunas características de los Implantes Cocleares.
El implante coclear produce una estimulación eléctrica del nervio auditivo a través de unos electrodos
que se insertan en el interior de la cóclea. Los implantes cocleares dividen el sonido en canales o
bandas de frecuencia, correspondiendo cada banda a uno o varios electrodos intracocleares, de forma
que los canales de frecuencias más graves estimulan los electrodos de las zonas más apicales, mientras
que los de frecuencias más agudas hacen lo propio con los electrodos de las zonas más basales.
Todo ello basándose en la teoría tonotópica, según la cual la sensación de tono se percibe a través del
lugar a lo largo de la cóclea en el que se produce la estimulación.
150
Figura 2.34 Esquema de la membrana basilar que muestra la base y el ápice (Apex en
ingles). La posición de desplazamiento máximo en respuesta a las sinusoides de distinta
frecuencia (en Hz) se indica. La estimulación de los electrodos en la cóclea sigue la teoría
tonotópica, donde las frecuencias más bajas están en el Apex y las más altas en la Base y
la cesación del tono depende del lugar de estimulación (78).
Figura 2.35 La estimulación de los Electrodos dentro de la cóclea (56).
151
Esta estimulación de los electrodos en la cóclea puede variar si tomamos en cuenta otro principio, la
hora de la estimulación llamada codificación temporal, según la cual, las variaciones temporales de las
características del sonido se perciben a través del patrón temporal de actividad en las fibras del nervio
auditivo. Por ello, la estimulación generada por cada electrodo varía en el tiempo de acuerdo con la
energía que hay en cada instante de tiempo en la correspondiente banda de frecuencia, y permite la
percepción de la evolución temporal de las características del sonido.
La calidad de sonido que va a percibir el paciente implantado va a depender de la resolución espectral,
temporal y en intensidad.
•
Resolución espectral: es la capacidad para distinguir la frecuencia de los sonidos, y en
principio será mayor cuanto mayor sea el número de canales. La falta de resolución espectral
no afecta de forma importante a la inteligibilidad de la voz, pero sí afecta a la percepción de la
voz en condiciones de ruido.
•
Resolución temporal: es la capacidad de percibir cambios temporales en las propiedades de la
señal de audio. Se modifica en función de la tasa de estimulación. La tasa de estimulación es
el número de pulsos por segundo que se suministra a cada electrodo
•
Resolución en intensidad: determina la capacidad de percibir diferencias de intensidad (tonos)
de dos sonidos y depende fundamentalmente del estado de las terminaciones nerviosas; siendo
mejor para un mayor porcentaje de terminaciones supervivientes.
Las prótesis actuales en sus procesadores de palabra, usan técnicas de procesamiento digital
que son muy diferentes a las que se usaban hace 10 años, como describe el siguiente ejemplo:
2.3.4 Procesamiento de la Señal Digital de Alta Definición
CIS+.
(79) Una estrategia de codificación del sonido es un método de conversión de ondas sonoras
en patrones de pulsos eléctricos. El implante genera estos pulsos eléctricos para estimular el
nervio auditivo mediante la guía de electrodos en la cóclea. El procesador de palabra
TEMPO+ de la marca MED-EL, utiliza "Continuous Interleaved Sampling" (CIS) y la
Transformada de Hilbert para proporcionar un Procesamiento de Señal Digital de Alta
Definición, también conocido como CIS+.
152
CIS+, es la implementación óptima de la estrategia CIS. Proporciona un rango frecuencial
amplio y unos parámetros de estimulación altamente flexibles. Estos parámetros se pueden
ajustar a medida para adaptarse a las necesidades de cada persona, incluyendo factores tales
como:
•
Umbral y máximo nivel de confort
•
Duración de Pulso
•
Rango de Frecuencia
•
Bandas de Frecuencia
•
Asignación de pasos de banda
•
Número de canales
•
Tasa de Estimulación
•
Orden de Estimulación
•
Mapa de compresión/función de compresión
•
Modo Volumen
•
Rango de Volumen
La Transformada de Hilbert.
Es un sofisticado algoritmo matemático que analiza los sonidos entrantes con más rigor que
otros métodos. Como consecuencia, permite una representación más precisa de la dinámica
temporal (aspectos temporales) de la señal sonora. La aplicación de la Transformada de
Hilbert tiene como resultado un patrón de estimulación que representa muy estrechamente la
envolvente (forma acústica) del sonido original. Mientras que otros sistemas de implante
coclear utilizan otras técnicas, las llamadas "rectificación de onda", "Filtración de paso bajo" o
"Transformada rápida de Fourier" para representar el sonido, la Transformada de Hilbert esta
preparada para hacer esto mismo con un grado de precisión mucho más elevado.
También hoy en día se busca que los implantes tengan una mejor estimulación de la cóclea,
para que las personas implantadas puedan experimentar una audición más natural.
153
2.3.5 Cobertura Coclear Completa
Es mejor una inserción más profunda.
(80) La cobertura coclear completa se define como la estimulación mediante la guía de
electrodos del implante de toda la extensión de la cóclea, desde el extremo apical hasta el
extremo de la región basal. Esto se puede conseguir únicamente mediante la inserción
profunda de una guía de electrodos atraumática especialmente larga con un espaciado óptimo
de las áreas de contacto del electrodo.
Los datos demuestran con firmeza que tanto en los test crónicos como en los agudos, la
extensión de la cobertura coclear tiene un gran impacto en la inteligibilidad del habla. Cuando
la distancia entre el electrodo más apical y el más basal se restringe a tan sólo 21 mm
aproximadamente, el rendimiento sufre, independientemente de si esta cobertura restringida
está estimulando la región del extremo apical, la región media o la región basal de la cóclea.
Cuando la distancia entre la estimulación más apical y la estimulación más basal se incrementa
hasta 31 mm., el rendimiento mejora considerablemente, desde un 10 a un 30%, dependiendo
de la medida utilizada.
La inserción poco profunda de guías de electrodos cortas no puede utilizar las neuronas de la
región apical. Además, los estudios muestran que se produce una disminución del rendimiento
en los individuos con una guía de electrodos corta insertada profundamente.
La estimulación de la extensión total de la cóclea mediante una guía de electrodos larga
insertada profundamente, proporciona al usuario del implante los mejores resultados en las
medidas de inteligibilidad del habla y en la calidad del sonido.
Resultados de un estudio que justifican la inserción más profunda.
A continuación, se describe un estudio que demuestra lo que pasa al intentar hacer una
estimulación más completa de la cóclea, mediante una inserción más profunda de los
electrodos.
154
Los resultados de un estudio llevado a cabo en 10 usuarios de implantes cocleares MED-EL
con una guía de electrodos estándar insertada totalmente (31 mm), indican ventajas en una
configuración de electrodo que proporcione una amplia distribución de los canales a lo largo
de toda la extensión de la cóclea. Los sujetos fueron analizados en 4 condiciones: solo con los
8 canales más basales activados (basal 8), con una distribución irregular de 8 canales en la
extensión completa de la cóclea (spread 8a y 8b), y con todos los 12 canales activados. Los
sujetos eran adultos post-locutivos (sordera que aparece después de adquirir habilidades de
lenguaje y lectura), evaluados con tests de palabras monosilábicas y de frases, utilizados para
determinar el umbral de recepción verbal. En la condición spread 8, en la que se proporcionó
estimulación en toda la extensión de la cóclea, se produjo de media un aumento del 24% en la
puntuación obtenida en el test de palabras monosilábicas, comparadas con la condición basal
8. El umbral de recepción verbal disminuyó significativamente en condición spread 8
comparado con la condición basal 8, donde solo se estimuló una región restringida de la
cóclea.
Descubrimientos similares se demostraron en un estudio con 8 usuarios de implantes MEDEL. Los investigadores evaluaron los efectos de la inserción profunda de la guía de electrodos
y la distancia entre contactos en la discriminación del habla. Los resultados mostraron
que, con 6 canales activos, la percepción verbal fue significativamente mayor con los canales
distribuidos en casi toda la extensión de la cóclea (spread 6) que con los canales concentrados
cerca del extremo basal de la guía (partial 6).
155
Figura 2.36 Distribución de
los canales (80).
Figura 2.37 Gráfica que muestra
los resultados del porcentaje de
monosílabos entendidos
correctamente, según el tipo de
estimulación de los canales (80).
Existen dos posibles razones por las cuales la inteligibilidad del habla mejora y los umbrales
verbales son menores cuando se estimula toda la cóclea:
•
La Cobertura Coclear Completa permite que la distribución de frecuencias del
implante coclear sea más natural, lo cual quiere decir que la localización física de los
contactos de los electrodos se aproxima más a la tonotopicidad natural de la cóclea.
•
Una segunda posibilidad es que una guía de electrodos más larga permite un espaciado
entre contactos más amplio y, de esta manera, se produce una reducción de la
interacción entre canales.
156
Con estos estudios y otros se comprobó que la estimulación coclear completa tiene claras
ventajas en la inteligibilidad del habla de los usuarios de implante coclear.
La siguiente figura 2.38 muestra las ventajas de un electrodo insertado de forma profunda en
la cóclea:
Inserción completa
Filtro de salida de
baja frecuencia
Excelente marca
tonotópica
Simulación de
Frecuencia de
350 Hz
Inserción poco profunda
Perdida tonotópica
Figura 2.38 Se puede observar como la frecuencia de 350 Hz es percibida de
forma correcta en la cóclea que tiene la inserción completa del electrodo
(80).
157
Un esquema que muestra a un electrodo insertado de forma profunda en la cóclea:
Ángulo de inserción en grados.
Largo del electrodo en mm.
Frecuencia en Hz.
Figura 2.39 Se observa cómo queda el electrodo en la cóclea al ser introducido
profundamente (80).
Como último punto acerca de las prótesis actuales, se describirá a continuación sobre el futuro
cercano y la meta tecnológica a alcanzar en materia de las prótesis auditivas.
2.3.6 El futuro de los implantes en menos de 5 años
Un proyecto a futuro del pionero de los implantes G. Clark.
158
(81) El científico australiano Profesor Graeme Clark, fue pionero en el desarrollo de los
implantes cocleares hace 30 años, ya que en 1978 desarrollo el primer implante coclear que
proporciono comprensión del habla a los sordos profundos.
Durante los últimos 20 años, más de 120,000 implantes se han colocado en 100 países el 70%
utilizando el aparato desarrollado por el Sr. Clark en Australia.
En la actualidad un implante coclear trabaja estimulando el oído interno que no funciona de
una persona sorda, mediante el envió de impulsos eléctricos en patrones interpretados por el
cerebro como sonido directamente a los nervios auditivos.
Hay entre 10,000 y 20,000 de estos nervios y mejorar la tecnología actual significa encontrar
nuevas maneras de estimularlos independientemente en porciones más pequeñas.
Razón por la cual G. Clark está ahora trabajando en una versión hi-fi (alta fidelidad) de
implantes, que estarán disponibles aproximadamente en unos cinco años.
Esta nueva versión hi-fi formara parte de una nueva generación de implantes cocleares, ya
que no sólo permitiría a las personas sordas escuchar el ruido y reconocer el habla; sino que
introduciría matices al sonido, el tono con todos sus detalles y mejorara la claridad.
Él desde el 2008 esta trabajando en este proyecto. Un artículo que salio publicado a finales del
2008 en el periódico Australiano The West Australian, hace una referencia al respecto. En la
publicación del artículo, el científico justifica el porque hay que hacer una mejora a los
implantes cocleares en el futuro. Ya que hace una mención de sus defectos actuales, porque
dice que al escuchar el habla por un implante coclear, es como si alguien escuchara una voz
ronca y áspera; y también indica que al escuchar música se tiene un sonido muy pobre. Igual
explica que la inteligibilidad del habla se ve perjudicada en ambientes ruidosos y de mala
acústica.
Señala también que los nanotubos de carbono en miniatura tendrán un papel importante para
mejorar la tecnología en los implantes cocleares.
159
A donde se quiere llegar.
(82 y 83) El doctor Ángel Ramos, jefe del Servicio de Otorrinolaringología del Complejo
Hospitalario Universitario Insular Materno Infantil, y Presidente de la Academia Europea de
Otología y Neurotología; lleva 30 años implantando implantes cocleares en España desde
1981. Este doctor opina sobre el futuro de los implantes coleares, donde menciona los
siguientes posibles objetivos a largo plazo de la medicina:
Se pretende que en un futuro el implante coclear sea un sistema totalmente implantable. Para
ello todavía hay que mejorar la tecnología del micrófono y las baterías.
Aunque en realidad no existe un plan de ruta bien definido por los fabricantes, y la tecnología
del futuro.
Otro posible camino en el futuro para regenerar la perdida de la audición en vez los implantes,
es mediante la regeneración del oído interno. Quizás las técnicas ya no pasen por cirujanos
sino por ingenieros genetistas que, a través de la aplicación de nuevas tecnologías, consigan
regenerar ese oído dañado o malformado.
Esta información salió publicada en la revista AVANCE Coclear #22 de la organización
GAES (Se dedica a proporcionar soluciones auditivas a las personas con problemas de
audición, en Barcelona), en el 2009.
160
2.4 Problemas anteriores y actuales de las prótesis auditivas
2.4.1 Efectividad de los implantes cocleares
(84) Las personas que pueden recuperar su audición gracias a un implante, son aquellas que
padecen sordera de severa a profunda en ambos oídos y que han obtenido un escaso o nulo
beneficio con los audífonos. No todas las personas que reciben un IC recuperan su capacidad
auditiva en el mismo grado, ya que intervienen múltiples factores como el estado del nervio
acústico, cuando se ha producido la pérdida auditiva, la edad de implantación, el nivel de
lenguaje oral, así como la motivación y el compromiso del paciente para seguir el proceso de
rehabilitación.
Las estadísticas realizadas, reflejan que los mejores resultados se obtienen cuando el paciente
es un niño nacido con una pérdida de audición severa. En adultos, la efectividad ronda un 85%
si el paciente ya había adquirido el lenguaje antes de que se produjera el trastorno auditivo. En
este sentido, los beneficios serán mayores cuanto antes se realice el implante después de que
aparezca la pérdida auditiva, ya que el proceso de recuperación será más exitoso porqué la
persona aún conserva la memoria auditiva.
(85) Ejemplo que muestra lo que pasa cuando se oye a través de un implante coclear de última
generación, este es de la marca Advanced Bionics con la tecnología HiRes Fidelity 120:
161
Tiempo
HiRes 120
Frecuencia
Procesamiento convencional
Frecuencia
Frecuencia
Sonido Original
Tiempo
Tiempo
Figura 2.40 En este análisis temporal de frecuencia se muestra una pequeña
canción donde se entona la letra “A” a diferentes tonos por una mujer (65).
Al observar la imagen anterior, se puede notar que actualmente ni con una de las tecnologías
más avanzadas de procesamiento en los implantes cocleares, el sonido obtenido es muy
parecido pero todavía no es igual al original. Para lograr ese resultado, el implante HiRes90K
de AB trabaja con un electrodo que tiene 16 puntos de estimulación dentro de la cóclea (en la
figura anterior en el tercer análisis temporal se ven los 16 puntos).
Es una realidad que los fabricantes de implantes cocleares a veces, con tal de acaparar la
atención de los futuros receptores, tratan de exagerar un poco las características de sus
dispositivos, al ocultar las deficiencias reales que siguen existiendo actualmente en los
implantes cocleares. Por ejemplo:
162
A continuación, se describe un análisis a algunas de las características de los implantes
Harmony de AB y Nucleus 5 de Cochlear (86).
Característica
Resolución temporal (Tasa
de estimulación, los pulsos
por segundo o pps)
Sistema
Sistema
Harmony de
Nucleus 5 de
AB
Cochlear
Mientras más rápida sea la tasa
Hasta 83.000
Hasta 31,500
de estimulación, más precisa
pps
pps
será la percepción del sonido en
la cóclea.
Hasta 120
Resolución espectral
virtuales (16
(Bandas de frecuencia)
reales)
Rango dinámico de
entrada (IDR)
Lo que significa
Hasta 80 dB
Cuanto mayor sea la resolución,
Hasta 22
se escuchara un sonido más
detallado.
Hasta 45 dB
Cuanto más ancha, son más los
sonidos que se podrán oír.
Mientras mayor sea la percepción
Percepciones potenciales
del tono
460
161
del tono, se tendrá una mejor
oportunidad para diferenciar los
sonidos.
Tabla 2.2 Comparación entre el Harmony y el Nucleus 5 (86).
163
La realidad de algunas características.
(87) Los números tan elevados de la Resolución Temporal en realidad no son tan importantes,
porque ya se ha demostrado que la mayoría de los usuarios de implantes cocleares no son
capaces de discriminar diferencias de tono para los rangos por encima de 300 pulsos por
segundo por canal.
Los números de Resolución Espectral también son demasiado exagerados. Incluso para los
sistemas con pares de electrodos con 22 canales de estimulación, la mayoría de los usuarios
son incapaces de utilizar más de 4 a 8 canales para reconocimiento de voz.
Sí, en teoría, más canales permiten la percepción del tono de mejor manera, pero en la práctica
esto sólo es relevante para tonos puros y no se traducen en sonidos complejos debido a las
interacciones de la corriente entre los canales (esta se describe más adelante).
Un amplio Rango dinámico de entrada es útil para situaciones en silencio, pero en el ruido
sólo significa que el receptor escuchará más ruido, por lo que un amplio IDR podría ser
positivo o negativo dependiendo de la situación en la que se encuentre el receptor. Los
estudios actuales sugieren que un rango dinámico de entrada de 40 dB es mejor que uno de 30,
pero no hay una evidencia que sugiera que un IDR mayor de 45 dB ofrezca algún beneficio
adicional.
Percepciones potenciales del tono. El énfasis (cuando se habla con tristeza, felicidad, etc.) está
en gran medida en el potencial del tono, o sea en otras palabras, este esta presente y puede
cambiar según la forma en la que se digan las palabras al hablar.
Las investigaciones de la percepción del tono sugieren que los usuarios de implantes cocleares
son incapaces de clasificar de forma fiable la dirección de un cambio de tono, por un par de
notas de 1 / 4 de una octava de diferencia.
Las estrategias actuales de procesamiento del habla son pobres en el suministro de
información del tono, ya que deben trabajar dentro de las limitaciones de la estimulación
eléctrica en un entorno lleno de líquido dentro de la cóclea.
164
Es importante recalcar que con las descripciones anteriores, no se pretendió poner en entre
dicho a los fabricantes de implantes, ya que este tema solo pretende recalcar algunas de las
limitaciones que tienen los implantes cocleares actualmente. Para terminar, se describe algo
sobre la interacción entre canales.
2.4.2 La problemática actual de los implantes modernos
(88) En la audición normal, el sonido entrante estimula varias zonas de la cóclea al mismo
tiempo. Este tipo de estimulación se conoce como estimulación simultánea o estimulación en
paralelo. Hasta el momento, los implantes cocleares no han sido capaces de emular
eficazmente este tipo de estimulación debido a la interacción entre canales.
¿Qué es la interacción entre canales? Cuando se estimula la cóclea con un implante coclear se
crean varios campos eléctricos simultáneamente. Cuando esos campos se solapan, la señal
sonora se distorsiona y se pierde claridad de sonido. A la superposición de las señales de
sonido se le llama interacción entre canales.
Interacción entre Canales
Guía de Electrodos
Estimulación Simultánea sin Implante coclear
Guía de Electrodos
Estimulación Simultánea con Implante coclear
Figura 2.41 Muestra la estimulación simultánea (90).
165
Debido a esto actualmente, la interacción entre canales, es uno de los defectos a superar en los
implantes cocleares modernos. Para sustentar lo anterior, se describe un resumen de un estudio
realizado en el 2005 por la universidad de Dallas Texas, al implante coclear Clarion de la
marca AB (productor que actualmente ya esta descontinuado).
(89) Prueba del Implante Clarion de la marca AB.
La Prueba:
Las interacciones del campo eléctrico puede interrumpir el estimulo del pulso (generado por el
electrodo) antes de la activación neuronal. Para probar si la inteligibilidad del habla se puede
degradar por esta interacción, el reconocimiento del habla y la interacción fueron examinados
para un conjunto de tres electrodos de “Clarion”: el electrodo bipolar pre-curvado, el
electrodo bipolar realzado con un posicionador del electrodo, y el electrodo Hi-Focus con un
posicionador. La interacción de canales fue medida al comparar los límenes de la detección del
estímulo de una señal en presencia de una señal de perturbación por debajo de los límites, en
función de la separación entre los dos electrodos simultáneamente estimulados. La
identificación correcta de vocales, de consonantes, y de palabras en oraciones fue medida con
dos estrategias del habla: una que utilizó el estímulo simultáneo (SAS) y otra el estímulo
secuencial (CIS). Los datos del reconocimiento del habla fueron correlacionados con la
interacción del campo eléctrico medido para la estrategia que utilizó el estímulo simultáneo
pero no para la estrategia de estimulo secuencial. Un mayor nivel en el reconocimiento del
habla con la estrategia simultánea es asociado generalmente a los niveles inferiores de la
interacción del campo eléctrico. La interacción del campo eléctrico representó hasta un 70%
de la varianza en las puntuaciones del reconocimiento de voz, sugiriendo que esta interacción
es un contribuyente importante en la variabilidad encontrada en pacientes que usan estrategias
simultáneas.
El resultado:
Después de realizar el estudio a ocho sordos postlocutivos usuarios de implantes cocleares (20
a 69 años de edad), los resultados sugieren que existe una relación entre las interacciones del
campo eléctrico y el funcionamiento psicofísicos del reconocimiento de habla. Las
interacciones del campo eléctrico pueden ser uno de los factores que limitan el éxito de las
166
estrategias simultáneas del procesamiento del habla. Consecuentemente, la gama de estrategias
del procesamiento del habla disponibles para cada paciente puede ser limitada y las ventajas
potenciales de estrategias simultáneas o sus híbridas no pueden ser realizadas completamente,
hasta que los efectos de las interacciones del campo eléctrico se reduzcan.
Lo rescatable a este problema es que los fabricantes están buscando las soluciones.
Una posible solución de Med-El a la interacción ente canales.
(90) Med-El por ejemplo, esta buscando diferentes formas que ayuden a reducir los efectos de
la interacción entre canales. Actualmente trabaja con la tecnología de Estimulación Paralela
InteligenteTM (IPS), que en conjunto utiliza las siguientes estrategias:
Channel Interaction CompensationTM (CIC)
Una tecnología patentada, para calcular matemáticamente la dispersión de la corriente
eléctrica en tiempo real y reducir automáticamente la posible interacción entre canales. Con
base en las primeras investigaciones, se cree que la estimulación simultánea con interacción
limitada entre canales puede proporcionar un sonido más rico y más detallado y un mejor
desempeño en situaciones en las que es difícil oír.
Sign Correlated Stimulation TM (SCS)
En el pasado, los impulsos eléctricos producidos durante la estimulación simultánea no se
podían controlar para que ocurrieran al mismo tiempo. Este desfase entre el comienzo y el fin
de cada impulso puede causar un “desgarro de corriente” o impedir el control de la interacción
entre canales. Esta tecnología patentada esta diseñada para controlar el inicio de cada impulso
eléctrico para que ocurra exactamente al mismo tiempo en varios canales.
167
Estimulación Secuencial
SCS
Figura 2.42 Se observa la diferencia de la salida de los pulsos (90).
Impulsos trifásicos
Los sistemas de implante coclear tradicionalmente han dado estimulación eléctrica mediante
impulsos eléctricos bifásicos que causan una pequeñísima cantidad de electricidad residual en
la cóclea después de cada impulso de estimulación. Esto contribuye a la interacción de
canales, por lo que este fabricante esta estudiando el uso de impulsos triásicos, para reducir los
campos eléctricos residuales y así reducir al mínimo la interacción.
Bifásico
Trifásico simétrico
Trifásico de precisión
Figura 2.43 Los tipos de pulsos (90).
Pero la tecnología IPS de Med-EL todavía no se encuentra disponible en el mercado.
168
2.5 Análisis del habla en un implante coclear
2.5.1 Problemas que afectan el reconocimiento del habla en un implante coclear
(91) Muchos de los estudios de la investigación conducidos en el campo de implantes
cocleares se han centrado hasta ahora, sobre todo en cómo mejorar la percepción del habla con
implantes cocleares.
Esto es debido a que la percepción del habla en condiciones de ruido todavía genera
problemas en este campo.
Para solucionar este problema se usan diferentes estrategias, algoritmos y mecanismos para
reducir el ruido al el momento que la señal es procesada por el procesador del implante.
Ejemplos:
•
Un algoritmo. El método de la reducción del nivel de ruido de “la ponderación del
coeficiente SNR” (Signal Noise Ratio weighting) que es una algoritmo basado en el
aumento exponencial que utiliza las estimaciones de SNR para realizar la reducción del
nivel de ruido para los procesadores implantes cocleares.
•
Un mecanismo. Hay resultados que muestran que los implantes bilaterales mejoran el
reconocimiento del habla en un entrono ruidoso, en comparación con los implantes
unilaterales (92).
Este problema que ha impulsado a otras investigaciones es uno de los motivos para la
realización de esta tesis, ya que se busca algo que pueda mejor la percepción del habla en los
procesadores de los implantes. Aunque específicamente en este trabajo se realizan
investigaciones sobre el timbre de voz, que son descritos en el capítulo 3 y 4.
Hay que recalcar que debido a las condiciones con las que se cuentan, no se podrá probar por
el momento que las técnicas utilizadas en el reconocimiento del timbre de voz de esta tesis,
pueden mejorar el reconocimiento del habla en entornos ruidosos al utilizar este tipo de
prótesis auditivas.
169
2.5.2 Descripción de una técnica de procesamiento convencional “CIS” (no es una técnica de
última generación)
Descripción de la estrategia CIS.
(93) A fin de evitar la distorsión del habla causada debido a la interacción de canales por la
suma de los potenciales eléctricos, los investigadores de Research Triangle Institute (RTI)
desarrollaron la estrategia basada en el muestreo secuencial continuo “CIS” (continuous
interleaved sampling).
La estrategia CIS utiliza los pulsos bifásicos de estimulación secuencial en los electrodos (esto
significa que sólo un electrodo es estimulado a la vez), evitando así la sobreposición de los
potenciales eléctricos en los electrodos. Esta sobreposición genera distorsiones en la
Amplitud
Amplitud
Amplitud
Amplitud
percepción del habla (94).
Tiempo
Figura 2.44 Una representación de la forma de onda de un muestreo
secuencial continuo de una implante de 4 canales (93).
170
Funcionamiento de la estrategia CIS.
(95) La estrategia CIS filtra el habla y la entrada de otras señales de otros sonidos en bandas
de frecuencia mediante un banco de filtros pasa banda. Las variaciones de la envolvente en las
diferentes bandas están representadas en los electrodos correspondientes en la cóclea mediante
la modulación de trenes de pulsos eléctricos bifásicos.
La señales envolventes extraídas por los filtros pasa banda son comprimidas por una función
de mapeo no lineal (por ejemplo una logarítmica) antes de la modulación, para poder
establecer el rango dinámico del sonido en el ambiente hasta aproximadamente 100 dB en
correlación con el estrecho rango dinámico del potencial evocado de la audición,
aproximadamente 10 dB o algo mayor. El mapeo puede ser más restringido, por ejemplo de
aproximadamente el rango de 30 dB para los sonidos del habla en el ambiente por un rango de
10 dB para el rango del potencial evocado de la audición. Para tal asignación restringida algún
tipo de ganancia automática o control de volumen después de la entrada del micrófono es
esencial, para cambiar el rango de de las señales de ambiente del sonido en el rango dinámico
del procesamiento para el banco de filtros y los detectores de la envolvente.
El corte de frecuencia del filtro pasa bajos en cada detector de envolvente normalmente se
establece en 200 Hz o más, de modo que las frecuencias fundamentales (F0s) de los sonidos
del habla están representadas en la modulación de ondas. El rango de pulsos en los
procesadores CIS suelen aproximarse o superar los 1000 pulsos por segundo en cada
electrodo, para garantizar un adecuado muestreo de las frecuencias más altas en la modulación
de ondas
Luego al final del proceso de esta estrategia, en la salida de cada canal del los filtros se van
directamente a cada electrodo intracoclear, desde los electrodos menos profundos hasta los
más profundos, al ser asignados respectivamente de acuerdo a su posición en la cóclea ya sea
en la base o en el ápex.
El nombre de la estrategia CIS viene de un muestreo continuo de una señal envolvente
comprimida rápidamente por pulsos que se intercalan a través de electrodos. El tren de pulsos
de los diferentes canales y sus electrodos correspondientes son intercalados en el tiempo, de
171
manera que los pulsos a través de los canales y los electrodos no sean simultáneos (Esto
elimina la principal causa de interacción de los electrodos).
Hasta la fecha entre 4 y 22 canales (y los sitios correspondientes estímulo) se han utilizado en
las implementaciones de CIS
Algunas aclaraciones.
Los Potenciales evocados registran las respuestas cerebrales provocadas por estímulos
auditivos (mediante técnicas neurofisiológicas), al estudiar la respuesta del nervio colear...
(96)
En la etapa de compresión de la envolvente en el procesador CIS, se podría utilizar por
ejemplo una función no lineal logarítmica.
¿Para qué sirve la compresión?
La compresión es necesaria porque el rango de amplitudes en la señales acústicas (del sonido
y del habla en el ambiente) son mayores que el rango dinámico del potencial eléctrico del
implante del paciente.
El rango dinámico del potencial eléctrico esta definido desde el nivel de umbral mínimo
audible y el nivel del umbral de no confortabilidad (94).
Ha sido demostrado, que la fuerza de un estimulo eléctrico (en los pacientes implantados) en
micro amperes es análoga a la fuerza de estimulo acústico en dB (94).
172
La siguiente figura 2.45 describe la estrategia CIS:
Filtro
Banda Envolvente
Compresión
Modulación
Figura 2.45 Diagrama a bloques de la estrategia CIS en un implante coclear (95).
Resumen de la estrategia CIS.
En la figura 2.45, la entrada está indicada por el círculo negro en la parte izquierda del
diagrama. Esta entrada puede ser un micrófono o una fuente alternativa. Después de la entrada
esta el filtro de Pre-énfasis (Pre-emp), que es utilizado para atenuar componentes fuertes
debajo de 1.2 KHz. Este filtro es seguido por múltiples canales de procesamiento. Cada canal
tiene su filtro pasa banda (BPF), detector de envolvente, compresión y modulación. El detector
de la envolvente usa un rectificador de media onda o de onda completa (Rect.) seguido de un
filtro pasa bajo (LPF.). La salida de la envolvente es comprimida (NonlinearMap) para encajar
en el rango dinámico del paciente y luego es modulada por pulsos bifásicos. Las formas de
ondas de dos de los moduladores se muestran seguidas por los bloques multiplicadores
(círculos con la “x”). La salida de los multiplicadores va directamente a los electrodos
intracocleares (El-1 a El-n).
173
2.5.3 Un ejemplo del análisis del habla con un implante Coclear
Micrófono
Volumen
Procesador
del Habla
Filtros Pasa Banda
Haz de
Electrodos
Piel
Transmisor
Detectores de Envolvente
Contactos
de los
Electrodos
Receptor
Generación de
pulsos
Electrodos
Micrófono
Figura 2.46 Diagrama que muestra en la parte de arriba la operación de un implante
coclear de 4 canales. La parte de abajo muestra una implementación sencilla de la
estrategia de señales CIS usando la sílaba “sa” como señal de entrada (94)
En la figura anterior, en la operación de un implante coclear, el sonido es recogido por un
micrófono y mandado a un procesador. El sonido es luego procesado y los estímulos eléctricos
son mandados a los electrodos por un enlace de radiofrecuencia (implante transcutáneo).
En el análisis de la sílaba “sa”, la señal se dirige primero a un banco de 4 filtros pasa banda
que dividen la forma de onda acústica en cuatro canales. Las envolventes de las formas de
ondas de la pasa banda son luego detectadas por los rectificadores y los filtros pasa bajos. Los
pulsos bifásicos tienen generalmente, amplitudes proporcionales a la envolvente de cada canal
y son trasmitidos a los cuatro electrodos a través de un link de radiofrecuencia.
174
CAPÍTULO III
Análisis paramétrico
3.1 El experimento con la vocal “a”
En el Capítulo I, fueron descritas las bases teóricas para el entendimiento de esta tesis, así
como la descripción del software que se usa para estudiar la voz. En el Capítulo II, se
describieron las principales marcas de implantes cocleares que existen en el mercado global,
sus deficiencias actuales y los posibles avances, en relación a las prótesis auditivas para sordos
profundos.
En esta sección se describe la parte experimental de la tesis con diferentes análisis, y síntesis
de tipo aditiva realizados a diferentes señales de voz; la señal de la vocal “a” y la señal de la
palabra “campana”.
3.1.1 Análisis paramétrico y síntesis paramétrica de la vocal “a”
3.1.1.1 Descripción general.
En el primer experimento se realizó un análisis paramétrico y una síntesis aditiva paramétrica
a una señal de voz que tiene grabada la vocal “a”, emitida por una persona de sexo masculino
en la edad adulta.
Descripción del procedimiento de forma general:
•
Se grabó la señal de voz con el programa wavepad (software que esta descrito en el
Capítulo I sección 1.2.2). El archivo se encuentra en el disco de esta tesis en la carpeta
Archivos de sonido, con el nombre de “a de jorge.wav”. Fue grabado en el formato
PCM uncompressed, con las siguientes características; a 44.1 kHz, 16 bits, monocanal.
El archivo tiene una duración de 404 ms.
•
Después se realizó el análisis paramétrico.
•
Luego esos datos fueron sintetizados con el tone generator (software que esta descrito
en el Capítulo I sección 1.2.2).
175
•
Al final con el wavepad, una vez obtenidos los archivos sintetizados que son fracciones
del resultado final, se hicieron algunos ajustes (como la reducción del ruido) con el fin
de que el archivo final resultante sea parecido al original. El archivo final de sonido,
que es el resultado exitoso del experimento, se encuentra en el disco de tesis. Para
tener acceso al archivo hay que abrir la carpeta síntesis con el tone generator, luego en
esta sección se encuentran dos carpetas donde una de ellas tiene el nombre de la vocal
a, al abrirla aparecen varias carpetas y una tiene el nombre de edición y resultados,
donde se encuentra el archivo con el nombre de “7_resultado final.wav”.
3.1.1.2 Realización del análisis paramétrico.
En esta parte se describe como se obtuvieron los datos que fueron usados para la síntesis
aditiva.
Mediante la aplicación FFT del programa wavepad, se analizo la evolución del espectro de
sonido en el tiempo a diferentes muestreos, donde se tomó en cuenta la amplitud en decibeles
y la frecuencia en hertz de cada uno de los armónicos sucesivos más significativos (los de
mayor energía). En cada muestreo se manejo un total de 64 armónicos.
El análisis espectral con FFT se hizo en 4 diferentes muestreos al archivo de sonido “a de
jorge.wav”, consecutivamente cada 100 ms. Como resultado se obtuvo la siguiente tabla 3.1.
La tabla se encuentra en el disco de esta tesis en la carpeta de tablas con el nombre de “A de
Jorge”.
176
Estudio de la "a" de Jorge a diferentes muestreos en Hz y dB
Muestreo a 100 ms
Muestreo a 200 ms
Muestreo a 300 ms
Muestreo a 400 ms
1
129
-23
118
-26
107
-25
21
-47
2
258
-25
247
-25
226
-30
75
-53
3
387
-30
366
-28
322
-40
107
-55
4
516
-26
495
-29
430
-39
172
-56
5
635
-20
613
-22
581
-38
258
-58
6
764
-12
742
-16
689
-30
312
-64
7
893
-19
861
-14
807
-25
516
-60
8
1022
-21
979
-21
915
-30
635
-60
9
1141
-22
1098
-28
1022
-31
764
-56
10
1281
-16
1227
-26
1130
-35
850
-49
11
1399
-17
1345
-20
1238
-33
1055
-57
12
1539
-31
1464
-35
1388
-32
1227
-62
13
1668
-37
1593
-38
1464
-36
1335
-60
14
1787
-40
1722
-41
1571
-42
1431
-59
15
1927
-43
1830
-47
1614
-44
1475
-62
16
2056
-41
1970
-52
1798
-49
1550
-65
17
2164
-37
2088
-46
1905
-50
1625
-69
18
2304
-40
2196
-41
2045
-54
1679
-66
19
2433
-35
2336
-42
2131
-51
1733
-64
20
2562
-30
2444
-35
2260
-49
1916
-72
21
2691
-38
2562
-39
2368
-48
2228
-79
22
2820
-42
2702
-47
2487
-45
2454
-77
23
2950
-46
2810
-48
2551
-45
2627
-70
24
3038
-46
2928
-53
2605
-45
2691
-69
25
3208
-45
3079
-52
2734
-51
2723
-66
26
3326
-43
3176
-53
2820
-54
2896
-70
27
3466
-37
3283
-49
2960
-57
2993
-71
28
3585
-37
3434
-46
3176
-58
3154
-69
29
3703
-44
3531
-42
3294
-58
3509
-75
30
3854
-44
3660
-42
3520
-55
3639
-74
31
3940
-58
3789
-53
3639
-55
3682
-73
32
4102
-62
4249
-52
3822
-54
3811
-75
33
4198
-66
4435
-55
3983
-60
3951
-79
34
4360
-57
4554
-61
4048
-64
4123
-81
177
35
4457
-62
4640
-65
4242
-68
4220
-81
36
4618
-59
4737
-65
4565
-65
4328
-81
37
4758
-65
4888
-65
4758
-61
4478
-83
38
4877
-60
4984
-70
4877
-61
4543
-84
39
5006
-65
5017
-69
4931
-60
4597
-83
40
5146
-67
5103
-72
4994
-56
4844
-82
41
5275
-65
5307
-69
5038
-61
4952
-83
42
5404
-67
5469
-68
5124
-61
5049
-82
43
5604
-74
5512
-73
5243
-61
5103
-78
44
5770
-68
5695
-71
5307
-58
5211
-75
45
5846
-72
5792
-73
5415
-64
5275
-72
46
5910
-65
5835
-76
5501
-67
5404
-80
47
6040
-65
5953
-73
5641
-70
5512
-78
48
6169
-69
6072
-69
5803
-75
5641
-77
49
6223
-74
6180
-72
6018
-75
5781
-78
50
6352
-78
6330
-81
6126
-75
5900
-82
51
6481
-82
6438
-80
6233
-77
5964
-81
52
6556
-80
6556
-83
6363
-79
6061
-79
53
6664
-77
6675
-82
6696
-81
6115
-82
54
6793
-72
6804
-73
6922
-79
6158
-83
55
6847
-75
6965
-76
7062
-80
6255
-79
56
6987
-71
7052
-78
7278
-80
6492
-87
57
7052
-69
7116
-77
7396
-82
6589
-90
58
7181
-69
7170
-77
7536
-89
6653
-88
59
7288
-73
7364
-84
7988
-90
6729
-91
60
7461
-80
7536
-89
8279
-88
6912
-90
61
7579
-84
7676
-90
8925
-86
6965
-91
62
7708
-84
7859
-91
9259
-77
7385
-91
63
7870
-85
7999
-89
9603
-72
8042
-91
64
7999
-83
8171
-88
9711
-70
8322
-94
Tabla 3.1 El análisis paramétrico de la vocal “a”.
Las siguientes figuras 3.1 y 3.2, muestran como se obtuvieron los armónicos:
178
Figura 3.1 El oscilograma del wavepad con el archivo de sonido “a de jorge.wav” a
100ms (indicado por las flechas negras).
179
1
2
*
64
Figura 3.2 Análisis espectral con la aplicación FFT del wavepad a 100 ms.
Para poder conocer la magnitud en Hz y dB de cada uno de los 64 armónicos, solo se
tiene que correr el cursor del mouse a través de la gráfica desplegada del programa
sobre cada uno de los picos azules que representan los armónicos. El valor aparece en la
esquina superior derecha del programa (*) y va cambiando al mover el cursor.
Ejemplos de algunos valores que coinciden con los de la tabla 3.1:
• (1) 129 Hz, -23 dB.
• (2) 258 Hz, -25 dB.
• (64) 7999 Hz, -83 dB.
Nota importante: como ya se había descrito antes en el Capítulo I en la sección 1.1.3 el sonido
en la naturaleza, por lo general no es perfectamente periódico (su onda no se repite siempre de
forma idéntica) y por tanto existe un componente “caótico” (el ruido) que bajo el prisma del
análisis de Fourier no corresponde a ningún armónico. Por lo que al hacer el análisis
paramétrico de los 64 picos, no todos son armónicos pero son necesarios para el estudio del
timbre de la voz.
180
3.1.1.3 Realización de la síntesis aditiva paramétrica.
En esta sección se describe como se obtuvo el archivo “7_resultado final.wav”, después de
realizar una síntesis aditiva (En el Capítulo I sección 1.4 están los fundamentos teóricos de
síntesis).
A partir de la información obtenida de la tabla 3.1, se sintetizó un sonido (7_resultado
final.wav), al sumar en cada muestreo todos los armónicos con sus respectivas amplitudes.
Para lograr lo anterior se utilizó el tone generator y el wavepad, donde cada programa tuvo
una función diferente en un proceso que tuvo dos etapas; la generación de los tonos con el
tone generator y la de síntesis con el wavepad.
El resultado fue un sonido muy parecido al original, lo que demostró que la hipótesis de esta
tesis es correcta para el caso de una vocal.
La generación de los tonos con el tone generator:
El tone generator como ya se había descrito antes (en el Capítulo I en la sección 1.2.2), es un
generador de onda que permite generar hasta 16 tonos simultáneos. También permite la
manipulación de las amplitudes y los periodos de duración de los tonos generados.
Al generar los tonos, el programa permite guardarlos en dos formatos diferentes como tono o
archivo wave (.wav). Se puede acceder a cualquiera de estas opciones al seleccionar File/Save
As Wav o en File/Save As Tone, en el programa.
Cuando se guarda como archivo de tipo tono, permite que se pueda volver a abrir para
cualquier posible modificación. Pero cuando se guarda como archivo de tipo wave, es para que
se pueda abrir con el wavepad o cualquier programa de edición o reproducción de audio.
El programa posee también una opción que permite que se pueda editar con el wavepad el
tono de forma directa sin que se tenga que guardar, para ello sólo hay que seleccionar con el
cursor del mouse el icono Edit de la primera barra de iconos del programa.
La tabla 3.1 tiene 4 muestreos diferentes a 100, 200, 300 y 400 ms, donde cada uno de ellos
tiene 64 armónicos. Entonces si solamente se pueden generar hasta 16 tonos con el tone
181
generator, fue necesario generar por cada muestreo 4 grupos de 16 tonos para igualar los 64
armónicos. En total se generaron 16 grupos de tonos (cada unos con sus 16 tonos respectivos).
A continuación se describe como se hizo el primer grupo del muestreo de 100 ms con el tone
generator:
•
Primero, es importante seleccionar en el menú del programa Tone/Number of
Tones/16, para poder tener 16 tonos diferentes.
•
Para el control del tiempo de duración de los tonos es necesario seleccionar
Tone/Constant (Specified Duration).
•
Se manejan tonos de un solo canal por lo que hay que especificarlo, entonces se tiene
que seleccionar Tone/Mono.
•
Como son tonos con una amplitud variable hay que activar la opción al seleccionar
Tone/Variable Amplitude.
•
Ya que el tone generator es un programa que maneja varias formas de onda, se
selecciona el tipo de onda senoidal de las 7 opciones disponibles del programa; para
ello hay que seleccionar Tone/Sine.
•
Una vez hecho lo anterior el programa generó 16 tonos con frecuencias, amplitudes y
un tiempo de duración por defecto, que se cambiaron por el primer grupo de 16 tonos
del muestreo de 100 ms de la tabla 3.1, como se muestra en la siguiente figura 3.3:
182
Figura 3.3 El primer grupo de 16 del muestrea de 100 ms (se puso 200ms en Sine
Duration, más adelante se explica la razón)
El proceso que se ha descrito se siguió para generar los 15 grupos de tonos restantes. Los 16
grupos de tonos fueron grabados en los dos formatos disponibles del programa y se encuentran
en el disco de esta tesis.
Los archivos de tipo tono y wave están respectivamente en las siguientes carpetas del disco de
esta tesis: Síntesis con ToneGenerator\la vocal a\tonos generados, y en Síntesis con
ToneGenerator\la vocal a\sonidos generados\de los tonos. Los archivos tienen una
numeración del 1 al 16.
La siguiente figura 3.4, muestra los 16 archivos de tipo tono y wave, generados por el tone
generator:
183
Figura 3.4 Los 16 archivos tipo tono, generados por el tone generator
Los 16 archivos tipo wave, generados por el tone generator
La figura muestra que el conjunto de archivos tiene una nomenclatura de numeración que es la
misma para ambos. La siguiente figura 3.5 explica la nomenclatura:
1
3
2
Figura 3.5 Explicación de la nomenclatura numérica para los archivos de tipo Tone y
wave.
1. Indica el orden cronológico de los archivo y va del 1 a 16.
2. Representa la cantidad de armónicos correspondientes a la tabla 3.1. Cada
muestreo de la tabla tiene 64 armónicos, su equivalente para cada uno con el tone
generator es: 16 + 17 a 32 + 33 a 48 + 49 a 64 = 64. Cada grupo tiene un total de
16 armónicos, porque esa cantidad es el máximo de generación de tonos del tone
generator.
3. Al muestreo que corresponde cada grupo de armónicos. Son un total de 4 grupos
de 4 archivos cada uno, que en conjunto igualan a la tabla 3.1.
Síntesis con el wavepad:
Después de que se generaron los 16 grupos de tonos con el tone generator al utilizar los datos
de la tabla 3.1, en formato de tipo wave; se procedió a realizar la síntesis aditiva al utilizar el
wavepad. Éste permitió que se puedan sumar los grupos de armónicos con el objetivo de crear
184
el archivo de sonido sintetizado “7_resultado final.wav” que es casi igual al original “a de
jorge.wav”.
Este procedimiento se divide en dos etapas, una de mezcla y otra de edición de audio.
Etapa de mezcla.
Como ya se había descrito antes son en total 4 muestreos de 100 a 400 ms en la tabla 3.1. Para
poder igual los 64 armónicos de cada uno de ellos; se generaron los 16 archivos que se
muestran en la figura 3.4. Pero los 64 armónicos que se generaron con el tone generator para
cada muestreo están separados por grupos de 16, entonces la finalidad es obtener archivos que
tengan en conjunto los 64 armónicos a la vez.
Entonces en esta etapa del proceso de síntesis aditiva paramétrica consistió en la mezcla y
combinación de los 16 grupos de tonos (previamente generados por el tone generator),
mediante el uso de dos aplicaciones que tiene el wavepad:
•
La primera aplicación permite la mezcla (superposición) de 2 o más archivos de audio
(cada archivo de audio tiene diferentes armónicos).
•
La segunda, permite pegar (combinación) dos o más archivos de audio pero sin el
efecto anterior de mezcla ya que al pegar los archivos de audio, se conserva la forma
original de cada uno de ellos y se incrementa el tiempo de duración del archivo
resultante.
Descripción de la aplicación mezcla (superposición):
Para poder ejecutar la aplicación mezcla (superposición) con el wavepad, hay varias formas de
hacerlo una de ellas se describe a continuación. Este ejemplo describirá como se hizo la
mezcla para el primer grupo de 4 archivos que corresponden al muestreo de 100ms.
Procedimiento:
•
Es necesario abrir los archivos, que se desean mezclar. Para este caso se abrieron los
cuatro archivos: 1_16 a 100ms.wave al 4_49 a 64 a 100ms.wave.
185
•
Luego hay que generar un archivo en blanco. Sólo se tiene que seleccionar en el menú
del wavepad: File /New File. Al hacerlo aparecen diferentes opciones del formato del
archivo de audio que se desea, se selecciona en Sample Rate: 44100 y en Channels:
Mono (single).
•
A continuación se selecciona con el cursor del mouse el primer archivo 1_16 a
100ms.wave, luego al presionar el clic derecho de mouse se despliega un menú, donde
se selecciona Copy.
•
Nuevamente hay que dirigirse al archivo en blanco que por default tiene el nombre de
Untitled 1, y se despliega el menú al presionar con el clic derecho del mouse sobre el
archivo y se selecciona Paste.
•
Después se repite el proceso de copiado del siguiente archivo consecutivo: 2_17 a 32 a
100ms.wave.
•
Una vez copiado el archivo, se procede a pegarlo nuevamente en el archivo Untitled 1.
Pero esta vez, en vez de seleccionar en el menú desplegado al presionar el clic derecho
del mouse Paste, se selecciona Paste Mix. Al hacerlo aparece un menú, donde hay que
seleccionar en Mix Volume (%): 100 y en la parte de abajo Increase Selection.
Nota importante: para lograr un correcto efecto de superposición, antes de hacer el
pegado Paste Mix, hay que hacer que el archivo este seleccionado al 100%, para ello
solo hay que presionar el clic derecho del mouse y seleccionar Select All. Una vez
hecho lo anterior se puede hacer el Paste Mix.
•
Este proceso se puede seguir indefinidamente de 2 a n cantidad de archivos que se
deseen mezclar.
Por ejemplo si el muestreo de 100ms tiene 4 archivos de 16 tonos, solo hay que hacer 4
Paste Mix, para igualar el muestreo de 64 de la tabla 3.1. Esto sigue una matemática
básica: 16+16+16+16 tonos es igual a 64 tonos (armónicos). Para evitar que la
aplicación se vuelva confusa se pueden guardar los archivos resultantes cada 2 Paste
Mix, o a la cantidad que el usuario quiera para evitar la confusión.
•
Para este caso se hicieron los Paste Mix por separado. Primero se mezclaron los
archivos: 1_16 a 100ms.wave - 2_17 a 32 a 100ms.wave y luego los archivos: 3_33 a
48 a 100ms.wave - 4_49 a 64 a 100ms.wave, para luego hacer un Paste Mix entre los 2
186
archivo resultantes. Es un proceso de matemática simple (16+16=32) + (16+16=32) =
64.
Las siguientes figuras 3.6 a 3.8, muestran la aplicación del efecto Paste Mix del programa
wavepad, para obtener el archivo resultante de 64 armónicos que representan al muestreo de
100ms.
Las 3 figuras tienen un análisis espectral (con la aplicación FFT) en el mismo intervalo de
tiempo, a 91 ms (indicados por las flechas negras). El efecto Paste Mix es evidente al
observar como se va incrementando la cantidad de armónicos en el espectro, de 16 hasta los
64. La primera figura 3.6 solo muestra que pasa cuando se copia y pega un archivo de audio
en Untitled 1 (copia del archivo 1_16 a 100ms.wav), y las siguientes 2 muestran el efecto del
incremento de armónicos:
16
**
*
****
****
***
Figura 3.6 Copia del archivo 1_16 a 100ms.wave en Untitled 1.
* El color azul aparece en el programa cuando se tiene seleccionado al archivo por
completo.
** Así se ve cuando no se tiene ninguna selección.
*** Se indican los nombres del conjunto de archivos con los que se esta trabajando.
**** Se puede notar que casi no se ve energía en el oscilograma debido a que los
archivos tienen muy poca energía, pero si poseen información armónica que es
apreciable al aplicar la FFT.
187
32
Figura 3.7 Apreciación del efecto Paste Mix con 32 armónicos.
Se mezclaron en el archivo Untitled 1 los archivos: 1_16 a 100ms.wave - 2_17 a 32 a
100ms.wave (16+16=32).
64
Figura 3.7 Apreciación del efecto Paste Mix con 64 armónicos.
Se mezclaron en el archivo Untitled 1 los 4 archivos: 1_16 a 100ms.wave - 4_49 a 64 a
100ms.wave (16+16+16+16=64).
188
El mismo proceso se siguió para los otros 3 grupos de archivos.
La siguiente figura 3.8, es un esquema que describe la aplicación de mezcla (superposición):
Mezcla
Mezcla
100 ms
Mezcla
200 ms
Mezcla
300 ms
400 ms
Figura 3.8 Describe la aplicación de mezcla (superposición) al utilizar el Paste Mix.
Los archivos resultantes que estan en la parte inferior del esquema (3, 5, 6 y 7) son los
resultados. Ahora cada uno de ellos reprentan a los muestreos de la tabla 3.1.
Los archivos que son el resultado de la aplicación anterior, están disponibles en el disco de
esta tesis en la siguiente carpeta: Síntesis con ToneGenerator\la vocal a\sonidos
generados\mezclas y combinaciones.
La siguiente figura 3.9 muestra a los archivos resultantes:
*
**
***
*****
Figura 3.9 Los archivos que son el resultado de la mezcla.
Se puede notar que sólo para los 2 primeros muestreos (100 y 200ms) se hicieron las
mezclas paso a paso. Las últimas (de 300 y 400ms) se hicieron directas.
Los resultados finales son los archivos 3, 5, 6 y 7 (los mismos de la figura 3.8).
Nomenclatura de la numeración:
* Representa el orden cronológico del archivo.
** Indica que son los archivos de la aplicación del wavepad de tipo mezcla.
*** La cantidad de armónicos que poseen.
**** Al muestreo que pertenecen ya sea de: 100, 200, 300 y 400ms.
189
Descripción de la aplicación pegar (combinación):
El archivo original grabado de la “a de jorge.wav” tiene 404 ms, los archivos resultantes
sintetizados 3, 5, 6 y 7 (los de la figura 3.8), son su equivalente aproximado de una forma
fraccionada; por lo que se tienen que volver un solo archivo para que se parezca al original.
Para ello se utiliza la aplicación pegar (combinación) del wavepad, que es una aplicación cuyo
procedimiento es muy similar al anterior.
Descripción de un ejemplo:
•
Es necesario abrir los archivos, que se desean combinar. Se abren los archivos:
3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave.
•
Luego hay que generar un archivo en blanco.
•
A continuación se selecciona con el cursor del mouse el primer archivo 3_mezcla 64 a
1 00.wave, luego al presionar el clic derecho de mouse se despliega un menú, donde se
selecciona Copy.
•
Nuevamente hay que dirigirse al archivo en blanco que por default tiene el nombre de
Untitled 1, y se despliega el menú al presionar con el clic derecho del mouse sobre el
archivo y se selecciona Paste.
•
Después se repite el proceso de copiado del siguiente archivo consecutivo: 5_mezcla
64 a 200.wave.
Nota importante: para lograr un correcto efecto de combinación, antes de pegar el
segundo archivo en Untitled 1, hay que hacer que la línea naranja del programa
wavepad este al final del oscilograma (como se muestra en la figura 3.12).
•
Este proceso se puede seguir indefinidamente de 2 a n cantidad de archivos que se
deseen combinar. Por ejemplo para el caso de los archivos resultantes sintetizados 3,
5, 6 y 7, son 3 las combinaciones que se tendrían que hacer para lograr el archivo final
sin fracciones equivalente a “a de jorge.wav”. Esta aplicación sigue también un
proceso de matemática sencillo: 100 ms + 100 ms + 100 ms + 100 ms= 400 ms. Pero
de esta forma sería de una forma ideal y no real, ya que hace falta una etapa de edición
de audio para poder tener un resultado final correcto.
190
Las siguientes figuras 3.10 a 3.13, muestran la aplicación del efecto de combinación del
programa wavepad:
Figura 3.10 Copia del archivo 3_mezcla 64 a 1 00.wave.
El archivo se copio y se pego en el archivo untitled 1 y esta indicado por la flecha negra.
Figura 3.11 Se copia el archivo 5_mezcla 64 a 200.wave.
El archivo se copio y esta indicado por la flecha negra, pero no se ha pegado en untitled
1. Esto es debido a que el cursor naranja del programa que esta indicado por la flecha
negra no esta al final como debería de estar en el oscilograma, para un correcto efecto de
combinación.
191
Figura 3.12 La correcta posición del cursor naranja del wavepad.
La flecha negra indica la correcta posición del cursor naranja antes de pegar el otro
archivo.
Figura 3.13 El resultado de la combinación de los archivos 3_mezcla 64 a 1 00.wave y
5_mezcla 64 a 200.wave.
La flecha negra inferior muestra como se incremento el tiempo de duración a 400 ms.
Esto se debe a que se combinaron archivos que tienen cada uno de ellos de 200 ms de
duración (200+200= 400).
La otra flecha negra indica el punto en el tiempo en el que se combinaron los 2 archivos
para formar uno solo.
192
Una aclaración: A la hora de combinar los 2 archivos: 3_mezcla 64 a 1 00.wave y 5_mezcla
64 a 200.wave, se están combinando archivos que tienen cada uno de ellos 200 ms de
duración, por lo que el resultado al combinarlos será un archivo de 400 ms.
¿Por qué los 2 archivos anteriores no tienen 100 ms cada uno de ellos?
Esto es debido a que en la etapa de generación de tonos con el tone generator, para los tonos
que representan los 100 y 200 ms en la parte de sine duration, no se puso 100 ms como
debería de ser y se puso 200 ms. Para el caso de los tonos generados que representan los 300 y
400 ms, si se pusieron los 100 ms de duración.
¿Que ocurre al hacer el cambio?
Al incrementar el tiempo de duración de los tonos generados correspondientes a los 100 y 200
ms, lo único que se hace es que el tono dure por más tiempo; por lo que la cantidad de
información armónica generada (las frecuencias y las amplitudes de los tonos) no cambia.
Entonces los tonos de 100 y de 200 ms que tienen 200 ms de duración serían equivalentes a
los tonos de 100 y 200 ms que tengan un menor o mayor tiempo de duración, porque la
cantidad armónica es la misma.
Al haber incrementado el tiempo en sine duration en el tone generator en los tonos generados
de 100 y 200 ms, sólo se incremento el tiempo de duración y no se hizo ningún cambio
significativo.
¿Cuál fue la razón del cambio?
Para poder obtener un resultado provisional y conocer si estaba funcionando de manera
adecuada el experimento, sin tener que hacer ninguna modificación.
Lo que pasa es que cuando se generaron los 16 tonos equivalentes a los 4 muestreos de la
tabla 3.1, la mayor cantidad de energía se encuentra en los 2 primero muestreos de 100 y 200
ms, como se puede observar en la siguiente figura 3.14:
193
Figura 3.14 Los 16 tonos generados por el tone generator en formato wave, abiertos con
el wavepad.
Los archivos 1, 5, 9 que están marcados con las flechas negras y con la selección azul del
cursor del mouse en el programa, son los que tienen la mayor cantidad de energía en el
oscilograma. Los demás si tienen energía pero es muy pequeña y por eso no se ve nada
(La información armónica es visible para estos casos al aplicar la FFT).
Debido a esto no se puede trabajar con los archivos generados por los muestreos de 300 y 400
ms sin antes pasar por una etapa de edición.
Entonces al alargar el tiempo de duración de los 2 primeros muestreos es como si se
sustituyera la parte que hace falta de los 2 últimos (sin que exista la edición).
Por lo que únicamente se cambio el tiempo de duración, para generar un archivo de
combinación provisional y obtener un resultado de forma rápida. En la parte de edición de
audio se corrige el tiempo de duración y se dejan los tiempos de duración de 100 ms para los
muestreos de 100 y 200 ms.
194
El archivo que es resultado de la aplicación anterior, esta disponible en el disco de esta tesis en
la siguiente carpeta: Síntesis con ToneGenerator\la vocal a\sonidos generados\mezclas y
combinaciones.
La siguiente figura 3.15 muestra el archivo resultante:
*
**
***
Figura 3.15 El archivo que es resultado de la combinación entre los archivos 3_mezcla
64 a 1 00.wave y 5_mezcla 64 a 200.wave.
* El orden cronológico.
** Indica que es un archivo de la aplicación de tipo combinación del wavepad.
*** Que combinan los muestreos de 100 y 200 ms.
Las demás combinaciones se hicieron en la etapa de edición de audio, debido a que no había
caso de hacerlas ya que los archivos resultantes (6 y 7 de la figura 3.8), tienen poca energía y
necesitan ser editados, para que pueda haber un buen resultado a la hora de hacer las
combinaciones.
Edición de audio.
Esta etapa es necesaria debido a que no se pueden obtener resultados sin antes editar y corregir
algunas deficiencias que fueron generadas en los archivos de audio, en el proceso de la
realización del análisis paramétrico y síntesis aditiva paramétrica.
Los errores aparecen porque normalmente en un experimento como este, las variables
resultantes se ven afectadas por diferentes condiciones, que en este caso pueden ser: el ruido,
pérdidas de energía de los armónicos generados por el tone generator al ser manipulados por
el wavepad, las limitaciones del programa wavepad, entre otras.
El wavepad, tiene un conjunto de herramientas que sirven para editar los archivos de audio y
se describen a continuación algunas de ellas. La siguiente figura 3.16 muestra la barra de
herramientas de edición del programa wavepad:
195
1
3
2
5
4
7
6
8
Figura 3.16 Algunas herramientas de edición de audio del wavepad.
1. Insert Silence at Current Position. Inserta el silencio que se desee en la posición
donde este el cursor del programa (la línea naranja) sobre el archivo de audio, y
se puede controlar el tiempo de duración del silencio (en ms).
2. Amplify. Aumenta la intensidad o volumen de la región seleccionada a un
porcentaje que alcanza hasta el cuádruple (400%), con respecto a la referencia.
3. Normalize. Permite ajustar el volumen para que el pico más alto sea equivalente
al máximo de la señal que pueda ser usado en el audio digital (permite que el
sonido incremente su volumen sin distorsión).
4. Equalizer. Un ecualizador que permite cambiar la respuesta en frecuencia de una
señal para que pueda tener cualidades de tono diferentes. Puede usar varios tipos
de filtros como: pasa bajos, pasa altos, pasa bandas y otros más. Se puede
manipular ya sea mediante una gráfica o con valores numéricos.
5. Fade In. Permite desvanecer energía de forma tenue sobre la región seleccionada.
6. Fade Out. Se usa para desvanecer energía de forma más abrupta que la anterior
Fade in. Por ejemplo, se puede usar cuando se quiere desvanecer la parte final de
un archivo de audio, o cuando se quiere desvanecer en alguna parte determinada
del archivo.
7. CrossFade. Permite mezclar la voz y la música en una variedad de maneras
diferentes.
8. Noise Reduction. Puede ser automático o manual y se utiliza para reducir el
ruido. En la forma automática el programa determina donde hay ruido y en la
forma manual, uno selecciona la parte que tenga ruido para hacer la aplicación.
Este conjunto de aplicaciones también están disponibles en el menú Effects del
wavepad.
No todas las aplicaciones fueron utilizadas para el caso de de la edición de la síntesis de la
vocal “a”, pero para el caso de la síntesis de la palabra que se describe en la sección 3.2 de este
Capítulo, se usaron la gran la mayoría.
La técnica que se siguió para hacer esta edición, fue mediante la comparación del archivo
original “a de jorge.wav” con respecto a los resultados obtenidos en la etapa de mezcla y
combinación.
196
Se analizaron las gráficas y se copiaron los patrones que se observaron en el oscilograma del
archivo de audio original, mediante la utilización de las herramientas de edición descritas en
la figura 3.16 del wavepad; con el fin de lograr un resultado sintetizado casi idéntico.
En la siguiente figura 3.17, se observan los archivos de audio editados y el resultado final
obtenido en esta etapa del proceso de síntesis:
Figura 3.17 Los archivos enditados y el resultado final de la síntesis de la letra “a”
Cada archivo que se muestra en la figura 3.17 tuvo un procedimiento de edición que se
describe a continuación. Las ediciones se hicieron a los archivos de audio que se generaron en
la etapa de mezcla y combinación.
Cuando se aplicaron las herramientas de edición, se hicieron en intervalos específicos con un
patrón de inicio de tiempo (en el programa aparece como Start) y otro de terminación (aparece
como End). Las selecciones se controlan con el cursor naranja del programa wavepad. Por
ejemplo si se aplico un Fade Out al inicio del archivo de 0 a 30 ms, esto quiere decir que el
intervalo de tiempo corresponde a la selección con el cursor naranja del programa que va de 0
a 30 ms.
Descripciones de las ediciones:
1. editado a 300.wave. Este archivo es producto de la edición de 6_mezcla 64 a
300.wave. Sólo se aplico la herramienta de Normalize a un nivel del 75% al inicio del
archivo de 0 a 47 ms.
2. editado a 400.wave. Se obtiene después de editar el archivo 7_mezcla 64 a 400. wave.
Se le inserto un silencio de 24 ms al inicio y se le aplico un solo Fade Out a todo el
archivo. Se le puso un silencio inicial para evitar el efecto de doble sonido de “a” que
se generaba al combinar los muestreos de 300 y 400 ms.
197
3. editado de 100 y 200.wave. Es la edición del archivo 8_combinación de 100 y
200.wave Se amplifico todo con una ganancia del 350%, se eliminaron algunas partes
del archivo: al principio de 0 a 63 y al final de 275 a 336 ms, dando como resultado un
archivo de 275 ms de duración. Para compensar en el tiempo parte de esa eliminación,
se insertaron dos silencios de 60 ms de duración, uno al principio y otro al final. Al
principio del archivo se hicieron 2 Fade In, primero uno de 67 a 81 ms y otro de 59 a
68 ms. Por último se hizo un Fade Out al final de 323 a 335ms. Este archivo es el que
tiene 100 ms más de duración en cada uno de sus muestreos (son 400ms) y por eso se
hicieron las eliminaciones.
4. mejor editado de 100 y 200.wave. Es el mismo archivo anterior (numero 3) pero con
algunas modificaciones. Se elimino parte del silencio inicial ya que se redujo de 60 a 4
ms y después, y luego se elimino más información al final, desde 202 a 340 ms.
5. editado a 300 y 400.wave. Primero se hizo la combinación entre los 2 primeros
archivos (editado a 300.wave y editado a 400.wave). Después se eliminaron 24 ms
del final (de 199 a 223 ms), luego se hicieron 2 Fade Out al final de 124 a 199 ms. Y
por último se hizo una amplificación del 200 % en el inicio de 0 a 14 ms.
6. combinación de todos.wave. Es el archivo resultante al combinar los 2 archivos que
engloban el total de los 4 muestreos. La combinación se efectuó entre los 2 archivos
anteriores mejor editado de 100 y 200.wave y editado a 300 y 400.wave.
7. resultado final.wave. El archivo resultante de la edición donde al inicio se agrego un
silencio de 18 ms, y al final se eliminaron 19ms de 401 ms a 420. No se utilizo el
Noise Reduction, porque ya es un resultado aceptable (pero si se puede aplicar).
El camino previamente descrito no es el único para llegar a obtener un buen resultado
sintetizado, por ejemplo se puede manjar una amplificación mayor o menor o usar la opción de
Normalize en ves de la de amplificación, entre otras.
En este experimento a la ahora de hacer la edición, los desvanecimientos (con Fade In o Fade
Out) se hicieron porque al combinar los archivos de los 4 muestreos sin ninguna edición, se
escuchaban diferentes tonos parecidos a la vocal “a”. También se hicieron las eliminaciones de
información, para compensar los 100 ms de más que tenían los 2 primero muestreos, ya que a
la hora de hacer las síntesis hay que tratar de obtener un archivo que tenga aproximadamente
198
400 ms de duración como tiene el original “a de jorge.wav”. Los motivos de estas ediciones
serán descritos en el Capítulo IV.
Las siguientes figuras 3.18 y 3.19, muestran algunos puntos que se deben de tomar en cuenta a
la hora de trabajar y hacer cualquier edición de un archivo de audio en el wavepad.
1
2
3
4
Figura 3.18 Los indicadores de tiempo del wavepad, según la posición o selección
del cursor naranja.
1. Start. Donde empieza la selección del cursor.
2. End. Donde termina la selección de cursor.
3. Sel Lenght. Indica el tiempo de la longitud de la selección del cursor.
4. File Lenght. El tiempo total de duración del archivo que este abierto.
2
4
3
1
Figura 3.19 El archivo de audio “a de jorge.wav”.
En la edición se copiaron diferentes patrones que se pueden observar en el oscilograma,
algunos de ellos son los siguientes:
1. Los silencios donde no hay energía.
2. La amplitud de la onda.
3. El número de picos de los ciclos aperiódicos.
4. Los diferentes patrones de elongación.
Los archivos que son el resultado de la edición, se encuentran en el disco de tesis en la
siguiente carpeta: Síntesis con ToneGenerator\la vocal a\edición y resultados.
199
3.2 El experimento con la palabra “campana”
3.2.1 Análisis paramétrico y síntesis paramétrica de la palabra “campana”
Este experimento siguió los mismos lineamientos del experimento anterior, con algunas
diferencias:
•
Es de mayor escala debido a que se analizo uno palabra en ves de una letra.
•
Con un mayor número de muestreos cada 10 ms en ves de solo cuatro muestreos.
•
Se redujo la cantidad de número de armónicos de 64 a 30 porque se manejaron más
muestreos.
En esta sección del Capítulo III, hay cosas que no se describen de forma detallada debido a
que se siguieron los mismos lineamientos del experimento anterior y únicamente, se entrara en
detalle en las cosas que sean diferentes.
3.2.1.1 Descripción general.
•
Se grabó la señal de voz con el programa wavepad. El archivo se encuentra en el disco
de esta tesis en la carpeta Archivos de sonido, con el nombre de “campana.wav”. Fue
grabado en el formato PCM uncompressed, con las siguientes características; a 44.1
kHz, 16 bits, monocanal. El archivo tiene una duración de 1239 ms.
En esta misma carpeta Archivos de sonido hay un archivo con el nombre de “original
de palabras de mauricio.wave”, este archivo tiene 5 palabras grabadas de la misma
persona emisora y una de ellas es “campana”. Entonces lo que se hizo fue primero
grabar este archivo y luego hacer un recorte en la sección de campana, para luego
guardarlo como un nuevo archivo de audio “campana.wav”, al cual se le hizo todo el
análisis que se describe a continuación.
•
Después se realizó el análisis paramétrico.
•
Luego esos datos fueron sintetizados con el tone generator.
•
Al final con el wavepad, una vez obtenidos los archivos sintetizados que son fracciones
del resultado final, se hicieron algunos ajustes con el fin de que el archivo final
resultante sea parecido al original. El archivo final de sonido, que es el resultado
200
exitoso del experimento, se encuentra en el disco de tesis. Para tener acceso al archivo
hay que abrir la carpeta síntesis con el tone generator, luego en esta sección se
encuentran dos carpetas donde una de ellas tiene el nombre de campana, al abrirla
aparecen varias carpetas y una tiene el nombre de edición y resultados, donde se
encuentra el archivo con el nombre de “9_filtro pasa basabajas a 2100.wave”.
3.2.1.2 Realización del análisis paramétrico.
En esta parte se describe como se obtuvieron los datos que fueron usados para la síntesis
aditiva.
Mediante la aplicación FFT del programa wavepad, se analizo la evolución del espectro de
sonido en el tiempo a diferentes muestreos, donde se tomó en cuenta la amplitud en decibeles
y la frecuencia en hertz de cada uno de los armónicos sucesivos más significativos. En cada
muestreo se manejo un máximo de 30 armónicos.
El análisis espectral con FFT se hizo en 68 diferentes muestreos al archivo de sonido
“campana.wav”, consecutivamente cada 10 ms. Como resultado se obtuvo la siguiente tabla
3.2, que se muestra por secciones en forma de imágenes debido a que es una tabla muy
extensa. La tabla se encuentra en el disco de esta tesis en la carpeta de tablas con el nombre de
“Muestreo Extenso de Campana”.
Los armónicos se obtuvieron de la misma forma que en el experimento anterior y el método se
describió en las figuras 3.1 y 3.2.
201
Tabla 3.2 sección 1 Muestreo extenso de campana
202
Tabla 3.2 sección 2 Muestreo extenso de campana
La siguiente figura 3.20 describe la configuración de la tabla 3.2:
203
1
2
3
5
4
1.
2.
3.
4.
5.
Figura 3.20 Configuración de la tabla 3.2.
La primera columna tiene el orden cronológico de los muestreos de (1-68).
Las letras correspondientes.
Son los 68 muestreos hechos a la palabra “campana” cada 10ms.
Cada casilla de cada armónico tiene su frecuencia en Hz y su Amplitud en dB.
El orden de los armónicos de 1 a 30.
Algunas aclaraciones sobre la tabla 3.2:
•
Las letras de la columna 2 de la tabla 3.2, representan las letras que le corresponden
según el muestreo dado pero no de manera exacta; ya que realmente la palabra
“Campana” si se toma de ejemplo a la letra C, a la hora de pronunciarla es un pequeño
tiempo que dura unos pocos ms y no dura los 120 ms que se muestran en la tabla. Esto
se hizo porque se mezclaron los sonidos puros de las letras y las partes de transición.
Por ejemplo en este caso los muestreos del 1 al 12 tienen realmente en un principio a la
letra C y luego la parte de transición CA.
Esta configuración se siguió porque es muy difícil lograr separar de manera pura los
intervalos de tiempo de cada una de las letras.
•
Al principio de la tabla 3.2 en la sección 1, los 3 primeros muestreos de 200, 210 y 220
ms (marcados con un color verde oscuro) no se hicieron en un principio. Se agregaron
después de hacer el primer intento de síntesis paramétrica ya que en un principio al
204
escuchar la palabra sintetizada “campana”, solo se escuchaba “ampana” y faltaba
información de la consonante C; por lo que para solucionar el problema se realizó una
extensión del los muestreos (antes la tabla empezaba en 230 ms).
•
En la sección 2 de la tabla 3.2, en los primero 3 muestreos de (1 a 3) que corresponden
a la letra C y que van de los intervalos de tiempo de 00 a 220 ms, se pude observar que
los últimos 3 armónicos (28-30), están marcados de color rozado. Esto se debe a que
estos armónicos no corresponden al orden consecutivo de los primeros 30 como los
demás. La letra C, es una consonante que tiene armónicos con una cantidad
significativa de energía que está más allá de los 30 armónicos iniciales, razón por la
cual se hizo el cambio en la tabla. Hay que tener en cuenta que no se podía incrementar
el número de armónicos a más de 30 en la tabla 3.2, porque se siguió un mismo
formato que se le aplicó a toda la tabla.
El orden correspondiente de los armónicos del primer muestreo que tienen una
frecuencia de: 1259, 1636 y 2045 Hz, es de los siguientes números: 37, 46 y 55; en
vez de 28, 29 y 30 como el de los demás. Para el caso del segundo muestreo es el
siguiente orden: 39, 53 y 64; y para el tercero: 34, 39 y 51.
•
La tabla 3.2 en la sección 2, se pueden observar que hay celdas en blanco en los
muestreos del 4 al 19 en los valores de los últimos armónicos (del 26 al 30). Esto se
debe a que eran armónicos con muy poca energía. A partir del muestreo de 20 en
adelante no se dejaron celdas en blanco porque se tomaron en cuenta a todos.
3.2.1.3 Realización de la síntesis aditiva paramétrica.
En esta sección se describe como se obtuvo el
archivo “9_filtro pasa basabajas a
2100.wave”, después de realizar una síntesis aditiva.
A partir de la información obtenida de la tabla 3.2, se sintetizó un sonido (9_filtro pasa
basabajas a 2100.wave), al sumar en cada muestreo todos los armónicos con sus respectivas
205
amplitudes. Para lograr lo anterior se utilizó el tone generator y el wavepad, donde cada
programa tuvo una función diferente en un proceso que tuvo dos etapas; la generación de los
tonos con el tone generator y la de síntesis con el wavepad.
El resultado fue un sonido muy parecido al original que en un principio sonaba como ampana
y que luego al extender el muestreo de la tabla 3.2, se logro tener un mejor resultado al
escuchar la palabra “campana”. Los destalles se describen en la sección de las aclaraciones del
la tabla 3.2
La generación de los tonos con el tone generator:
La tabla 3.2 tiene 68 muestreos diferentes cada 10 ms donde cada uno de ellos tiene hasta
como máximo 30 armónicos diferentes (30 tonos), y si ya se sabe que solamente se pueden
generar hasta 16 tonos con el tone generator; fue necesario generar por cada uno de los
muestreos 2 grupos de tonos (el primero de 16 tonos y el segundo podía tener hasta 14 tonos
como máximo) para igualar los 30 armónicos. En total se generaron 136 tonos.
La relación del número de tonos sigue una matemática sencilla: sin son en total 68 muestreos
diferentes y cada uno de ellos tiene 2 grupos para igualar los 30 armónicos, tenemos que 68 al
multiplicarlo por 2 es igual a un total de 136 tonos.
Los detalles de cómo generar los tonos y los archivos wave con el tone generator están
descritos en el experimento anterior en la sección 3.1 de este Capítulo.
Una diferencia significativa al procedimiento anterior es que, a la hora de generar cada uno de
los tonos en la opción de Sine duration del tone generator se utilizaron 10 ms para cada uno
de los tonos generados.
Los 136 grupos de tonos fueron grabados en los dos formatos disponibles del programa y se
encuentran en el disco de esta tesis.
206
Los archivos de tipo tono y wave están respectivamente en las siguientes carpetas del disco de
esta tesis: Síntesis con ToneGenerator\campana\tonos generados, y en Síntesis con
ToneGenerator\campana\sonidos generados\de los tonos.
A la hora de abrir las dos carpetas anteriores; tonos generados y de los tonos, hay en ambas
además de los archivos de tipo tono y wave una carpeta más que tiene en nombre de Extra de
200-220. Su existencia esta justificada y es la siguiente:
Como ya se había descrito antes, en un principio se había hecho un conjunto de 65 muestreos
que empezaban en 230 ms y no en 200 ms debido a que se había omitido en un principio
información de la consonante C. Entonces los archivos de tipo tono y tipo wave que se
encuentran en las carpetas tonos generados y de los tonos, corresponden al conjunto de
muestreos inicial que originalmente se había hecho de 230 ms hasta los 870 ms.
Para el caso de los archivos de tipo tono y wave que corresponden a los muestreos extras que
se hicieron después y que van de 200 a 220 ms, su ubicación esta en esas carpetas con los
nombres de Extra de 200-220 (caso de los tonos) y Extra de 200-220 (caso de los waves).
Las dos carpetas tienen el mismo nombre, pero tienen un conjunto diferente de archivos y una
ubicación diferente que se encuentran en el disco de tesis respectivamente en: Síntesis con
ToneGenerator\campana\tonos generados\Extra de 200-220 (archivos de tipo tono), y Síntesis
con ToneGenerator\campana\sonidos generados\de los tonos\Extra de 200-220 (archivos de
tipo wave).
Los archivos tienen un orden cronológico que se estructura de la siguiente manera:
•
Caso de los archivos de tipo tono. En la carpeta tonos generados hay un total de 130
archivos que corresponden a los muestreos de 230 a 870 ms, que suman un total de 65
muestreos. Ahora bien, si esos 65 se multiplican por los 2 grupos de tonos (son en
conjunto los 30 armónicos) que se generaron en cada uno de los muestreos, se obtiene
los 130 archivos. Para el caso de la carpeta Extra de 200-220, se tienen 6 archivos que
corresponden a los muestreos que van de 200 a 230ms; entonces ya que se tiene un
207
total de 3 muestreos que se multiplican por los 2 grupos de tonos generados, dan como
resultado los 6 archivos.
•
Los archivos de tipo wave. Es la misma explicación pero en ves de ser archivos de tipo
tono, son archivos de tipo wave.
•
Entonces si se suman los 130 archivos que se hicieron en un principio, más los 6 que
se hicieron después, se obtienen un total de 136 archivos de tipo tono y wave que en
conjunto equivalen a la tabla 3.2.
La siguiente figuras 3.21 y 3.22, muestran algunos de los archivos de tipo tono y wave,
generados por el tone generator para el primer grupo de muestreos de 230 a 870ms:
Figura 3.21 Algunos archivos tipo tono, generados por el tone generator
208
Figura 3.22 Algunos archivos tipo wave, generados por el tone generator
Ambas figuras muestran que el conjunto de archivos tienen una nomenclatura de numeración
que es la misma para ambos.
El formato de la nomenclatura es el mismo que se utilizó en el experimento anterior y esta
descrito en la figura 3.5.
Síntesis con el wavepad:
Después de que se generaron los 136 grupos de tonos con el tone generator al utilizar los
datos de la tabla 3.2, en formato de tipo wave; se procedió a realizar la síntesis aditiva al
utilizar el wavepad. Éste permitió que se puedan sumar los grupos de armónicos con el
objetivo de crear el archivo de sonido sintetizado “9_filtro pasa basabajas a 2100.wave” que
es casi igual al original “campana.wav”.
Este procedimiento se divide en dos etapas, una de mezcla y otra de edición de audio.
209
Etapa de mezcla.
Como ya se había descrito antes son en total 68 muestreos de 200 a 870 ms en la tabla 3.2.
Para poder igualar los 30 armónicos (algunos muestreos tienen menos de 30) de cada uno de
ellos, se generaron los 136 archivos de tipo wave en la etapa previa (la de generación de
tonos).
Pero los 30 armónicos que se generaron con el tone generator para cada muestreo están
separados por 2 grupos, entonces la finalidad es obtener archivos que tengan en conjunto los
30 armónicos a la vez, para que cada archivo de audio ahora si pueda representar a cada uno
de los muestreos con todos sus armónicos.
Entonces, en esta etapa del proceso de síntesis consistió en la mezcla y combinación de los
136 grupos de tonos para cada uno de los 68 muestreos, mediante el uso de dos aplicaciones
que tiene el wavepad:
•
La primera aplicación permite la mezcla (superposición) de 2 o más archivos de audio.
•
La segunda, permite pegar (combinación) dos o más archivos de audio pero sin el
efecto anterior de mezcla
Descripción de la aplicación mezcla (superposición):
El procedimiento de cómo utilizar esta aplicación está descrito en el experimento anterior de la
síntesis de la vocal.
Las siguientes figuras 3.23 a 3.25, muestran la aplicación del efecto Paste Mix del programa
wavepad, para obtener el archivo resultante de 29 armónicos que representa al muestreo de
270 ms que en la tabla 3.2 tiene el número 8.
Las 3 figuras tienen un análisis espectral (con la aplicación FFT) en el mismo intervalo de
tiempo, a 1 ms (indicados por las flechas negras). El efecto Paste Mix es evidente al observar
como se va incrementando la cantidad de armónicos en el espectro de una figura a otra. De
forma ideal a la hora de hacer el Paste Mix deberían de poder observarse 29 armónicos en el
análisis espectral, ya que si se suman los 2 grupos del muestreo de 270 ms que tienen
210
respectivamente 16 y 13 dan como resultado 29 armónicos; pero en la figura 3.25 sólo se
pueden observar 13 armónicos bien definidos. Esto se debe a que las amplitudes (en dB) de
estos 2 grupos del muestreo numero 8 tienen muy poca energía, problema que es resuelto en la
etapa de edición al usar amplificaciones.
4
1
2
3
5
Figura 3.23 El análisis espectral del archivo 9_16 a 270ms.wave a 1 ms.
El tiempo esta marcado con la flecha negra (es el mismo caso para las 2 figuras
siguientes).
1. En el espectro se ven los primeros 6 armónicos del primer grupo.
2. El archivo 9_16 a 270ms.wave es al que se le aplicó el análisis espectral, por lo
que los 6 armónicos que se ven en el espectro corresponden a este muestreo. Este
es el primer archivo del muestre número 8 de la tabla 3.2.
3. Este archivo 10_17 a 29 a 270ms.wave es el segundo archivo que tiene el otro
grupo de armónicos del muestreo número 8 de la tabla 3.2.
4. Es el resultado del efecto Paste Mix al mezclar los 2 archivos anteriores.
5. Los oscilogramas tienen poca energía por eso casi no se ve (pero al aplicar la
FFT se puede observar la información armónica).
211
*
Figura 3.24 El análisis espectral del archivo 10_17 a 29 a 270ms.wave a 1 ms.
* En el espectro se ven los 7 armónicos.
*
Figura 3.25 El análisis espectral del archivo 5_mezcla 1 a 29 a 270.wave.
* Se ven los 13 (6+7) armónicos resultantes al combinar los 2 archivos: 9_16 a
270ms.wave y 10_17 a 29 a 270ms.wave, mediante el efecto Paste Mix del wavepad. La
descripción detallada de cómo aplicar el Paste Mix se describió en las figuras 3.6 y 3.7.
212
Los archivos que son el resultado de la aplicación anterior, están disponibles en el disco de
esta
tesis
en
la
siguiente
carpeta:
Síntesis
con
ToneGenerator\campana\sonidos
generados\mezclas y combinaciones\mezclas. Esta carpeta tiene los resultados del efecto Paste
Mix de los primeros muestreos que se hicieron de 230 a 870 ms y son un total de 65 archivos.
Para el caso del segundo muestreo que se hizo de 200 a 220 ms, los archivo resultantes están
en
la
siguiente
carpeta
de
tesis:
Síntesis
con
ToneGenerator\campana\sonidos
generados\mezclas y combinaciones\mezclas\Extra de 200-220, esta tiene 3 archivos.
Ambas carpetas suman en conjunto un total de 68 archivos (65+3), y la explicación del
número de archivos sigue la siguiente matemática: si en la etapa de generación de tonos se
generaron 136 archivos de sonidos que equivalen a los 68 muestreos de la tabla 3.2, hay que
recordar que los 136 representan en conjunto a los 2 grupos que se generaron para sumar los
30 armónicos de la tabla; entonces si la aplicación Paste Mix se utilizo para volver esos 2
grupos de archivos (que suman 136 archivos de audio) en un solo grupo, al dividir 136 entre 2
es igual a 68. Entonces los 68 archivos resultantes representan ahora a los 68 muestreos de la
tabla 3.2.
La siguiente figura 3.26 muestra algunos de los archivos generados en esta etapa de mezcla
(superposición):
Figura 3.26 Estos son algunos de los 68 archivos generados con la aplicación de Paste
Mix.
La nomenclatura numérica es la misma del experimento anterior y se describió en la figura
3.9
213
Descripción de la aplicación pegar (combinación):
El archivo original grabado de “campana.wav” tiene 1239 ms, los 68 archivos resultantes
sintetizados (algunos están en la figura 3.26), son su equivalente aproximado de una forma
fraccionada; por lo que se tienen que volver un solo archivo para que se parezca al original.
Para ello se utiliza la aplicación pegar (combinación) del wavepad. Los detalles de cómo
aplicar la herramienta de combinación ya se describieron en el experimento anterior en las
figuras 3.10 a 3.13.
Los resultados se muestran en las siguientes figuras 3.27 y 3.28:
1
2
3
Figura 3.27 Resultados de las combinaciones del primer grupo de muestreos de 230 a
870 ms.
La forma de combinar los archivos puede variar, ya que esta aplicación permite
combinar desde 2 archivos hasta n cantidad de ellos. Para evitar confusiones se fueron
combinando por grupos de menor tamaño.
Por ejemplo:
Para el caso de la letra C si se observa la tabla 3.2, el conjunto de muestreos abarca
parcialmente de 230 a 310 ms (faltan la parte de 200 a 230 ms, está en la siguiente figura
3.28).
Primero se combinaron los muestreos de 230 a 270 ms (archivo 1) y luego del 280 a 310
ms (archivo 2), para luego combinarlos y obtener una combinación que va de 230 a 310,
que representan casi por completo a la letra C de la tabla 3.2.
Nomenclatura:
1. El Orden cronológico del archivo. El resultado es 22 y representa a todos los
muestreos de primer grupo (de 230 a 870).
2. Al Conjunto de muestreos que representan de la tabla 3.2.
3. La equivalencia de la letra que le corresponde. La palabra campana tiene 3
vocales “a”, por lo que se les asignaron números del 1 al 3 para diferenciarlas.
214
El archivo resultante para el segundo grupo de muestreos de 200 a 220 ms es:
Figura 3.28 Resultado de las combinaciones del segundo grupo de muestreos
de 200 a 220 ms.
Se siguió la misma nomenclatura de la figura anterior 3.27.
Los archivos que son los resultados de la aplicación de combinación, están disponible en el
disco de esta tesis en las siguientes carpetas:
•
Síntesis con ToneGenerator\campana\sonidos generados\mezclas y
combinaciones\combinaciones. Para el conjunto de muestreos de 230 a 870 ms.
•
Síntesis con ToneGenerator\campana\sonidos generados\mezclas y
combinaciones\combinaciones\Extra de 200-220. Para el conjunto de muestreos de 200
a 220 ms.
Edición de audio.
En esta etapa se corrigieron los errores que aparecieron en el proceso de la realización del
análisis paramétrico, y síntesis aditiva paramétrica.
Estos errores fueron corregidos mediante la aplicación de algunas de las herramientas de
edición de audio del wavepad. La forma de como utilizar estas herramientas se describieron en
el experimento anterior de síntesis en la figura 3.16.
La técnica que se siguió para hacer esta edición, fue mediante la comparación del archivo
original “campana.wav” con respecto a los resultados obtenidos en la etapa combinación.
En la siguiente figura 3.29, se observan los archivos de audio editados y el resultado final
obtenido en esta etapa del proceso:
215
Figura 3.29 Los archivos editados y el resultado final de la síntesis de la palabra
“Campana”
Cada archivo que se muestra en la figura 3.29, tuvo un procedimiento de edición que se
describe a continuación.
Los siguientes dos archivos: 22_230_870_CAMPANA.wave y 00_200 a 220_C.wave, son los
resultados finales del proceso de combinación y estos 2 archivos fueron los que se utilizaron
para empezar la edición.
Descripciones de las ediciones:
1.
200 a 220_C_Amplificado_400%.wave. Es producto de la amplificación con una
ganancia del 400% aplicada al archivo: 00_200 a 220_C.wave. Debido a la poca
cantidad de energía que se observó en el espectro al aplicar la FFT.
2. comb_200 a 870_CAMPANA.wave. Se obtuvo al combinar el archivo anterior: 200 a
220_C_Amplificado_400%.wave, con el archivo: 22_230_870_CAMPANA.wave. La
combinación anterior, se hizo para obtener un archivo que sea equivalente y represente
en su totalidad a todos los muestreos de 200 a 870 ms de la tabla 3.2.
3. silencios.wave. Es el resultado de haber insertado dos silencios uno al principio y otro
al final al archivo anterior, con intervalos diferentes de tiempo, de 200 ms al principio
y de 358 ms al final. De esta manera ahora el archivo consta de 1238 ms de duración,
que es casi lo mismo si se compara con el archivo original campana.wave que tiene
1239 ms.
4. amplificación_200%.wave. Producto de una amplificación general del archivo anterior
a una ganancia del 200%. De esta manera ya se tiene un archivo que se parece más al
original.
216
5. 0 a 380_amplificación_200%.wave. Se obtuvo al hacer una amplificación en la parte
inicial del archivo anterior con una ganancia del 200%, y el intervalo de tiempo que se
amplifico fue de 0 a 380 ms. De esta forma se le proporcionó más energía a la parte del
archivo donde se encuentra la C.
6. 1fade out_0 a 285.wave. Es producto de la aplicación de un solo Fade Out al archivo
anterior en el intervalo de tiempo de 0 a 285 ms. Más adelante en la figura 3.30 se
explica el porque de la aplicación de este Fade out.
7. 1fade out_395 a 470.wave. Es resultado de una aplicación de un único Fade Out al
archivo anterior en el intervalo de tiempo de 395 a 470 ms. Antes de que se aplicara
este Fade out en ese intervalo de tiempo, se escuchaba “amgana” y no “campana”; y
después de esta aplicación el sonido de la consonante G cambio a P. En la siguiente
figura 3.30 se explica la razón del porque paso este fenómeno.
8. normalize a 40_200-283.wave. Se obtuvo al aplicar un Normalize al archivo anterior a
un nivel del 40%, en el intervalo de tiempo de 200 a 283 ms. Se hizo para que la
consonante C pueda sonar todavía mejor que en los casos anteriores.
9. filtro pasa basabajas a 2100.wave. Es el resultado final de la síntesis aditiva
paramétrica, y se obtuvo después de aplicar un filtro pasa bajos (se encuentra en la
herramienta de edición llamada Equalizer) a una frecuencia de corte de 2100 Hz a todo
el archivo anterior. El motivo se explica más adelante en las figuras 3.31 a 3.32.
Las siguientes figuras 3.30 a 3.32 muestran el motivo de algunas de las ediciones anteriores:
217
4
1
2
5
3
Figura 3.30 El análisis espectrográfico del archivo original “campana.wave”.
En esta gráfica los puntos más blancos significan que tienen más energía y mientras
más oscuros es lo contrario. Los detalles sobre el entendimiento de este tipo de gráfica
se describieron en el Capítulo I en la sección 1.2.1.
Interpretación de los puntos que se señalan:
1. En esta sección esta la consonante C.
2. La parte oscura significa la transición de la C a la primera A.
3. Donde empieza la letra P.
4. Esta parte oscura significa la transición de la P a la segunda A.
5. Es el fragmento con la mayor cantidad de energía y corresponde a la segunda A
al formar parte de la silaba tónica; razón por la cual hay más energía.
Cuando hay una transición de la C a la primera A hay como una pausa, y lo mismo
ocurre en la P cuando se hace la transición a la segunda A.
Estas partes oscuras que tienen casi nada de energía en la parte de la edición de la
síntesis de campana, mediante la utilización del Fade Out que se aplicó en la parte de la
C y de la P, es la forma en la que se copiaron estos patrones de la gráfica para que se
pueda escuchar en el archivo resultante de la síntesis, las letras C y P.
Otra interpretación que pueden tener estas partes oscuras en el espectrograma
(señaladas por 2 y 4), es la poca energía que se obtuvo al capturar los valores en algunas
secciones de los muestreos de la tabla 3.2. Los muestreos que corresponden a estas
secciones van aproximadamente de 240 a 260 ms para la C y de 387 a 440 ms para la P.
218
*
Figura 3.31 El análisis espectral del archivo de síntesis de “campana” antes de aplicar el
filtro pasa bajos.
La tabla 3.2 tiene como máximo 30 armónicos, pero en la parte de edición de audio al
amplificar los archivos que fueron resultados de la síntesis de la palabra “campana”, se
amplificaron armónicos que eran puro ruido (*); por lo que necesitaban ser removidos,
ya que eran información falsa que no pertenecía a ninguno de los muestreos obtenidos en
la table 3.2.
**
*
Figura 3.32 El análisis espectral y espectrográfico realizado al archivo resultante de la
síntesis de “campana”.
Este resultado se obtuvo al aplicar un filtro pasa bajos a una frecuencia de corte de 2100
Hz.
* Todo el ruido era un conjunto de armónicos falsos que quedaron fuera del espectro.
** La frecuencia más alta que se puede registrar en el espectrograma es de 2153 Hz.
219
Los archivos resultantes de la etapa de edición de audio de la síntesis aditiva paramétrica de la
palabra “campana”, están en el disco de esta tesis en la siguiente carpeta: Síntesis con
ToneGenerator\campana\edición y resultados.
220
3.3 Otros experimentos
3.3.1 Muestreos paramétricos de otras palabras
Al inicio de la descripción del experimento de síntesis de la palabra “campana”, se menciona
que se había grabado un archivo de audio con el nombre de: “original de palabras de
mauricio.wave”, el cual tiene 5 palabras grabadas de la misma persona emisora. Las palabras
grabadas son: “campana”, “pelele”, “lilí”, “coloso” y “lulú”.
Las palabras que se grabaron tienen las 5 vocales castellanas y algunas consonantes como la:
“C”, “P” y la “S”, que son importantes para ser estudiadas (por ejemplo la “S”, que en el
análisis espectral tiene mucho ruido).
El archivo “original de palabras de mauricio.wave”,
fue grabado con la siguiente
configuración a: 44.1 kHz, 16 bits, monocanal; y luego se fraccionó en 5 archivos para
facilitar el estudio de las palabras.
Los siguientes archivos de audio están en la siguiente carpeta de tesis: Archivos de sonido.
A estos archivo de audio se les hicieron diferentes análisis paramétricos, a tres diferentes
muestreos; y se manejaron como máximo hasta 100 armónicos en cada uno de ellos. Los
muestreos se hicieron con el fin de obtener diferentes análisis paramétricos de las vocales
átonas y tónicas de las 5 palabras grabadas. El procedimiento de análisis paramétrico fue el
mismo que se utilizó en los 2 experimentos anteriores.
Los grupos de muestreos están divididos según su enfoque, ya sea en vocales tónicas o átonas.
Por ejemplo; para el caso de la palabra “pelele”, tiene 2 vocales átonas y una tónica, entonces;
a esta palabra se le hicieron 3 tablas, una para cada vocal correspondiente, ya sea la primera
átona, la segunda átona o la vocal tónica.
Los muestreos se agruparon en 2 archivos de Excel y se dividieron en tablas según la vocal
que representen.
Los dos archivos están en la siguiente carpeta de tesis: Tablas. Los archivos se llaman “Atonas
de Mauricio” y “Tónicas de Mauricio”. El primer archivo se enfocó en el estudio de las
221
vocales átonas de las palabras y el segundo en las vocales tónicas; y cada uno de ellos tiene 5
hojas de cálculo.
El conjunto de muestreos de las vocales tónicas si se completo, en cambio en el caso de las
átonas no se realizaron los muestreos de “coloso” y “lulú.”
Esta etapa se quedó en el proceso de análisis paramétrico ya que no se efectuó ningún tipo de
síntesis a los muestreos obtenidos. Pero este experimento de muestreos de las vocales tónicas
y átonas queda abierto para continuarse en un futuro en otros proyectos de investigación.
Las siguientes figuras 3.33 a 3.35, describen algunas observaciones que se notaron al hacer
este experimento:
222
1
1.
2.
3.
4.
5.
2
3
4
5
Figura 3.33 Las cinco palabras con su análisis espectrográfico.
“campana”. Tiene un silencio de energía que corresponde a la P.
“pelele”. Dos silencio uno de la P y otro de la L.
“lilí”. El silencio de la L.
“coloso”. El comportamiento extraño de la S.
“lulú”. La palabra aparentemente más sencilla de analizar.
223
2
1
Figura 3.34 Las palabras “campana” y “pelele”.
1. La consonante P de “campana” en el oscilograma.
2. La consonante P de “pelele” en el oscilograma.
En el oscilograma se señala un patrón claro que se puede usar en los archivos de
audio para identificar la consonante P.
224
2
1
Figura 3.35 Las palabra “coloso”.
1. La consonante S de “coloso”, es señalada en el oscilograma.
2. La aplicación de FFT a un muestreo de 688 ms donde esta la consonante S,
tiene armónicos muy caóticos que aparecen como ruido.
Lo que se señaló en el oscilograma es un patrón claro que se puede usar en los
archivos de audio para identificar la consonante S.
225
3.3.2 Los experimentos con SFS
Las cuatro primeras palabras: “campana”, “pelele”, “lilí” y “coloso”; de las cinco que se
grabaron, fueron analizadas de nuevo pero por otro software llamado “SFS”. Los detalles del
programa se describieron en el Capítulo I en la sección 1.2.4.
A estas palabras se les aplicó de nuevo un análisis paramétrico con el programa SFS, porque
este programa permite generar las tablas de armónicos y de formantes de manera automática; a
diferencia de cómo se obtuvieron en los experimentos previos de la vocal A y de la palabra
campana.
Esto se logró al aplicar la herramienta “cross-section” del programa SFS que igual ya se
describió en el Capítulo I. Este método que se utilizó se llama “Estrategia de análisis de
Formantes”, porque en vez de capturar los armónicos del espectro se tomaron a las formantes.
Los cuatro muestreos de las palabras están en archivos de texto en el formato siguiente:
dividido en columnas (las columnas permiten mostrar más datos en menos espacio) a
diferentes muestreos de tiempo especificados en cada uno de los archivos, y se encuentran en
la siguiente carpeta del disco de esta tesis: Otros experimentos.
Pero este método tiene un defecto, a la hora de cerrar el programa y tratar de volver a los
tiempos previamente capturados de los diferentes muestreos, no vuelven a ser los mismos pero
si muy parecidos. Por ejemplo si se trabajo con el muestreo de 3500 ms y después cuando se
cierra el programa y se vuelve a abrir de nuevo, el tiempo cambia a 3494 ms (o cualquier otro
valor cercano), por lo que los cuadros generados de las tablas de armónicos y formantes
tampoco se repiten. Este defecto impide que el experimento sea repetible de la misma manera,
porque cada vez que se realice de nuevo cambiaran los muestreos y los datos a analizar
(formantes y armónicos), del mismo archivo de audio.
Algunas conclusiones de este experimento.
226
Después de haber aplicado la “Estrategia de análisis de Formantes” se observo, que la
cantidad de los datos en los formantes aumentaba considerablemente en las consonantes y
disminuía en gran medida en las vocales.
Este experimento se quedó en la etapa de análisis paramétrico ya que no se efectuó ningún tipo
de síntesis a los muestreos obtenidos, pero queda abierto para continuarse en un futuro en
otros proyectos de investigación.
227
CAPÍTULO IV
Planteamiento de otros experimentos
Este proyecto de investigación de análisis paramétrico y síntesis aditiva paramétrica del
timbre de voz, es un trabajo que podría llegar a tener un gran impacto científico; porque es
posible que ayude a implementar a futuro mejoras en las prótesis auditivas actuales, o
inclusive en otros campos de investigación que trabajen con la voz.
Se pueden plantear otras tesis de investigación como por ejemplo:
“a mayor resolución espectral de información que se maneje en un análisis paramétrico de una
vocal o una palabra, mejor será el resultado obtenido en la síntesis aditiva paramétrica; y se
deberá obtener una mejora en el reconocimiento del timbre de voz de la persona emisora”.
En otras palabras esto quiere decir que: a mayor cantidad de muestreos y de armónicos que se
manejen en las tablas de análisis paramétricos,
mejor será el resultado de la síntesis
paramétrica, y deberán de disminuir los pasos en el proceso de edición de audio.
Para probar esta hipótesis habría que realizar por ejemplo los siguientes experimentos:
Hacer las síntesis paramétricas, de los diferentes análisis paramétricos obtenidos en los
experimentos con el programa SFS al aplicar la “Estrategia de análisis de Formantes”. El
único inconveniente es que los datos obtenidos en esos muestreos, están en ganancias (dB)
negativas, y el tone generator trabajo sólo con ganancias positivas. Por lo que habría que sacar
una pequeña relación matemática para convertir esas ganancias positivas en negativas.
También, se podría investigar lo que ocurre al trabajar con personas emisoras del sexo
femenino, analizando lo que pasaría al hacer una síntesis paramétrica y ver si se mantiene su
timbre de voz.
228
RESULTADOS
Cada uno de los objetivos generales, específicos y la hipótesis de este trabajo de tesis se
cumplieron.
Los archivos sintetizados de audio de la vocal “A” y la palabra “campana”, con los nombres:
“7_resultado final.wav” y “9_filtro pasa basabajas a 2100.wave”, son la prueba de que se
realizó un trabajo de investigación exitoso.
Uno de los detalles de esta investigación es que:
No se logro plasmar por ahora algo que pueda mejorar la fabricación en un futuro de las
prótesis auditivas para sordos profundos, por que faltan varios experimentos y pasos en la
investigación para lograr esos resultados.
Este experimento queda abierto a futuras investigaciones que trabajen en la búsqueda, de
alguna herramienta que optimice el reconocimiento del timbre de voz; ya sea para
implementar alguna mejora en las prótesis auditivas actuales o en otro campo de investigación
que trabajen con la voz.
229
CONCLUSIONES
Después de haber realizado una investigación minuciosa sobre las prótesis auditivas actuales,
se confirmó que actualmente ninguna de ellas tiene un buen reconocimiento en el timbre de
voz; ya que las técnicas actuales de procesamiento que utilizan sus procesadores son
suficientes para el entendimiento de las palabras, pero no para captar de forma eficiente sus
detalles (el timbre de voz).
Es claro que, después de haber realizado los experimentos de síntesis, es necesario manejar
una mayor cantidad de datos (armónicos y muestreos más próximos) para poder obtener una
síntesis de mayor calidad; y para que el timbre de voz se pueda reconocer con mayor facilidad.
230
RECOMENDACIONES
Aplicar herramientas de análisis estadísticos a todas las tablas obtenidas de los análisis
paramétricos, para poder obtener mejores resultados a la hora de analizar y sacar conclusiones
sobre las tablas obtenidas. Tal vez el MAT-LAB ayude en el análisis de estas tablas.
Buscar cualquier herramienta o software que pueda mejorar el proceso de análisis paramétrico,
por ejemplo: un software que maneje más de 16 tonos simultáneos y que pueda manejar de
forma indistinta ganancias (dB) positivas o negativas. Esto es debido a que el tone generator
solo permite utilizar como máximo 16 tonos y trabaja únicamente con ganancias negativas.
Crear una herramienta que permita hacer una síntesis aditiva paramétrica de forma automática.
231
RESUMEN
Se describieron los diferentes aspectos que justificaron la realización de este proyecto de
investigación.
Este trabajo de tesis relata la problemática actual que existe en las prótesis auditivas, describe
los conceptos necesarios para entender lo que es el timbre de voz, y mediante diferentes
experimentos; busca alguna herramienta que pueda implantar el reconocimiento del timbre de
voz.
I
REFERENCIAS BIBLIOGRÁFICAS
(1) Leopoldo de la Fuente Silva. El sonido. [En línea] Documento de monografías.com.
Agosto 2007. <http://www.monografias.com/trabajos5/elso/elso.shtml> [consulta: 9 Junio
2010]
(2) Nivel de intensidad del sonido [En línea]
< http://web.educastur.princast.es/proyectos/jimena/pj_franciscga/intenson.htm> [consulta: 15
junio 2010]
(3) CURSO DE TECNICO DE SONIDO Y PRODUCCION MUSICAL [En línea] Puesto En
línea por el usuario Yusuf Laarbi en el foro Scribd. Publicado el 19 Agosto 2008.
<http://www.scribd.com/doc/4884482/CURSO-DE-TECNICO-DE-SONIDO-YPRODUCCION-MUSICAL> [consulta: 31 mayo 2010]
(4) Definición de sonido [En línea] Del foro Scribd .Publicado el 15 de Agosto de 2007
< http://www.scribd.com/doc/245590/Definicion-de-sonido > [consulta: 15 de Junio 2010]
(5) Carlos Alberto Rivas Mosquera, Harol Alexis García Sánchez, Juan David Morillo
Caicedo, Erika Tatiana trejos Moncada. SONIDO Y ACUSTICA [En línea] Proyecto de Física
curso 11-1. Puesto En línea por el usuario Harol Alexis (uno de los autores del documento) en
el foro Scribd. Publicado el 6 Mayo 2008. < http://www.scribd.com/doc/2896037/Proyectode-Fisica-SONIDO-Y-ACUSTICA> [consulta: 16 Junio 2010]
(6) Sonido y Acústica [En línea] < http://www.sapiensman.com/docs/sonido_y_acustica.htm>
[consulta: 16 Junio 2010]
(7) Vibraciones. Movimiento Armónico Simple. [En línea]
<http://iesalcalde.serveftp.org/fisicayquimica/departamentos/fisicayquimica/documentos/MAS
.DOC> [Consulta: 16 Junio 2010]
II
(8) Profesor Daniel Maggiolo. Apuntes de acústica musical. [En línea] Abril 2003
< http://www.eumus.edu.uy/docentes/maggiolo/acuapu/pls.html> [consulta: 18 Junio 2010]
(9) ACÚSTICA DE LA MÚSICA. [En línea]Es un pdf de la ESCUELA DE LUTHERIA.
Conservatorio de Bilbao. Curso Acústica de la Música 1º.
<http://www.conservatoriobilbao.com/ftp/unai_igartua/capitulos1a8.pdf> [consulta: 18 Junio
2010]
(10) Francisco Javier García Castillo. PROCESAMIENTO DIGITAL DEL SONIDO E
IMPLEMENTACIÓN DE ECUALIZADOR GRAFICO EN EL EZ-KIT SHARC
ADSP21061. Tesis (el título de Licenciado en Ingeniería Eléctrica Electrónica).
UNIVERSIDAD TECNOLOGICA DE PANAMA. Año 2000 p. 164, 170-177. [En línea]
<http://www.ieesa.com/universidades/tesis01/capt4b.pdf> [consulta: 15 d Junio 2010]
(11) Forma de Onda [En línea] Del sitio Eras: Electro Acustic Resource Site, en la sección de
la disciplina de estudio “la Acústica”
<http://www.ears.dmu.ac.uk/spip.php?page=rubriqueLang&lang=es&id_rubrique=103>
[consulta: 22 Junio 2010]
(12) Definición de formas de Onda [En línea] ElectriAuto 2010
< http://www.electriauto.com/electricidad/calculos-basicos/definicion-de-formas-de-onda/>
[consulta: 23 Junio 2010]
(13) Mario Raja. Las formas de onda del Oscilador. [En línea] La música es Bella, sitio Web
donde todos los temas de la música tienen cabida. 4 Julio 2009.
< http://musica-bella.blogspot.com/2009/07/las-formas-de-onda-del-oscilador.html> [consulta:
23 Junio 2010]
(14) Lia Perez. Los armónicos [En línea] Del sitio en Internet de monografías.com
< http://www.monografias.com/trabajos59/los-armonicos/los-armonicos.shtml > [consulta: 23
de Junio 2010]
III
(15) Las escalas musicales [En línea] del sitio Web Acústica Musical
<http://www.lpi.tel.uva.es/~nacho/docencia/ing_ond_1/trabajos_05_06/io2/public_html/escala
s.html> [consulta: 24 Junio 2010]
(16) Publicado por María Quintanilla. Título de los artículos: “Ruido y Timbre”, “Transitorios
de Ataque”, “Timbre estático y timbre dinámico” y “Timbre de un instrumento y de un
sonido”. [En línea] Del sito Web Acústica Musical. Noviembre 2009 < http://cpmsacusticamusical.blogspot.com/2009_11_01_archive.html > [consulta: 25 Junio 2010]
(17) M. ROSIQUE, J. L. RAMÓN, M. CANTERAS, L. ROSIQUE. ANÁLISIS
DISCRIMINANTE APLICADO A LOS FORMANTES DE LAS VOCALES
CASTELLANAS EN LA FONACIÓN CON PRÓTESIS Y ERIGMOFONÍA TRAS
LARINGUECTOMÍA TOTAL.[En línea] SERVICIO DE OTORRINOLARINGOLOGÍA.
HOSPITAL UNIVERSITARIO VIRGEN ARRIXACA. MURCIA. 25 FEBRERO 2003
<http://acta.otorrinolaringol.esp.medynet.com/textocompleto/actaotorrino23/361.pdf>
[consulta: 25 Junio 2010]
(18) Sabrina Castro López. El genero de las voces [En línea]
<http://www.df.uba.ar/users/gsolovey/fisica2/tp_especiales/El%20g%C3%A9nero%20de%20l
as%20voces.pdf> [consulta: 25 Junio 2010]
(19) Tartamudez. Pro. [En línea] Formante 15 Mayo 2009
< http://www.tartamudez.pro/2009/05/formante.html> [consulta: 29 Junio 2010]
(20) Mauricio García y Gabriel Pazmiño.LA TRANSFORMADA DE FOURIER Y SU
APLICACIÓN EN EL PROCESAMIENTO DE IMÁGENES [En línea] Universidad
Tecnológica Equinoccial de Quito. Diciembre 2008.
<http://tramites.ute.edu.ec/adjuntosSICYT/2009/01/26/1513/LA%20TRANSFORMADA%20
DE%20FOURIER%20%20informe.docx> [consulta: 8 Julio 2010]
IV
(21) ACÚSTICA DE LA MÚSICA. [En línea] Es un PDF de la ESCUELA DE LUTHERIA.
Conservatorio de Bilbao. El tema es “Acústica de la Música 1º”
<http://www.conservatoriobilbao.com/ftp/unai_igartua/capitulos1a8.pdf> [consulta: 18 Junio
2010]
(22) Juan Pablo Cáceres. Transformada de Fourier [En línea] Stanford University. Agosto
2007
<https://ccrma.stanford.edu/workshops/cm2007/topics/clases/PDFs/05fourier_handout.pdf >
[consulta: 8 Julio 2010]
(23) Teorema de Fourier [En línea] De la página Web Música y sistemas acústicos
< http://www.gradomultimedia.com/29-musica/1-teorema-de-fourier.html > [Consulta: 8 Julio
2010]
(24) El sonido y las Ondas [En línea]
<http://www.sociedadelainformacion.com/departfqtobarra/ondas/SONIDO/SONIDO.HTM>
[Consulta: 8 Julio 2010]
(25) Pedro Luís Castro García. Desarrollo de un modulo digital para el análisis espectral de
señales de audio. [En línea] Universidad Politécnica de Catalunya. 5 de septiembre de 2005
< http://upcommons.upc.edu/pfc/bitstream/2099.1/3538/2/40392-2.pdf > [Consulta: 9 Julio
2010]
(26) TRANSFORMADA RÁPIDA DE FOURIER (FFT) [En línea] del PDF transformada de
Fourier (3).
<http://www.diac.upm.es/acceso_profesores/asignaturas/tdi/tdi/transformadas/pdf/fourier3.pdf
> [Consulta: 9 Julio 2010]
(27) E. Barrull. ANÁLISIS DEL COMPORTAMIENTO VERBAL ARTICULATORIO EN
CONVERSACIONES GRUPALES ESPONTÁNEAS. Tesis doctoral desarrollada en el
Departamento de Psicología Social de la Facultad de Psicología. Universidad de Barcelona.
V
1992 [En línea] < http://www.biopsychology.org/tesis_esteve/confund/confund.htm>
[consulta: 8 Julio 2010]
(28) Juana Gil Fernández, (1988) Los sonidos del lenguaje. Madrid: Síntesis (Textos de apoyo,
Lingüística 3), 1993. p. 148
(29) Roberto E. Espectro del Sonido [En línea] En la sección de Acústica.
<http://www.angelfire.com/empire/seigfrid/Espectro.html> [consulta: 14 Julio 2010]
(30) Joaquim Llisterri (Lingüista Español). Métodos de análisis acústico del habla [En línea]
Universidad Autónoma de Barcelona. 28 Febrero 2010.
<http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/met_anal_acust.html##FFT> [consulta:
14 Julio 2010]
(31) Física del sonido [En línea] En la sección de Timbre y frecuencia armónica.
<http://tecnicaaudiovisual.kinoki.org/sonido/fisica.htm> [Consulta: 15 Julio2010]
(32) WavePad editor de sonido [En línea] Pagina Web de la compañía NCH.
< http://www.nch.com.au/wavepad/esp/ > [consulta: 15 Julio 2010]
(33) Página oficial de Internet del Software Praat. [En línea]
< http://www.fon.hum.uva.nl/praat/ > [consulta: 16 Julio 2010]
(34) Historia del SFS. [En línea] Página oficial de Internet del Software SFS.
< http://www.phon.ucl.ac.uk/resource/sfs/help/index.html> [Consulta: 21 Julio 2010]
(35) Anatomía y Fisiología del Oído. DRA. MARCELA PAZ ARREDONDO AMIGO, DR.
RODRIGO IÑIGUEZ SASSO, DR. JORGE CARO LETELIER. [En línea] PONTIFICIA
UNIVERSIDAD CATÓLICA DE CHILE ESCUELA DE MEDICINA, del departamento de
OTORRINOLARINGOLOGÍA.<http://escuela.med.puc.cl/paginas/publicaciones/otorrino/Cla
ses2006/FisiologiaOidoMPAA.doc> [consulta: 22 Julio 2010]
VI
(36) Federico Miyara. INTRODUCCIÓN A LA PSICOACÚSTICA [En línea]
<http://www.eie.fceia.unr.edu.ar/~acustica/audio/psicoacu.pdf> [consulta: 18 Junio 2010]
(37) Oído. Anatomía y fisiología auditiva. Oreja. Conducto auditivo interno. Onda sonora.
Transducción. Audiología. Patologías [En línea] Del Rincón del Vago España.
< http://html.rincondelvago.com/oido.html > [consulta: 27 Mayo2010]
(38) Sentido de la Audición. [En línea] Documento en PowerPoint.
<http://www.slideshare.net/anama.krpio/oido-presentation> [consulta: 11 mayo 2010]
(39) Oído. [En línea] Documento en PowerPoint <http://www.slideshare.net/odontofco/oido2524559> [consulta: 11 Mayo 2010]
(40) Oído Interno [En línea] Documento en PowerPoint
< http://www.slideshare.net/jcguaicha/oido-interno-2908475#> [consulta: 11 de mayo 2010]
(41) El Oído. Liceth Rivera. Universidad Abierta Interamericana en la carrera de medicina.
Cátedra de taller Informática I. [En línea] Documento en PowerPoint
<http://www.slideshare.net/liceth_16/el-oido-466559> [consulta: 11 Mayo 2010]
(42) Fisiología de la audición: la cóclea. Enrique Soto, Rosario Vega, Hortencia Chavez y
Aída Ortega [En línea] Instituto de fisiología de la Universidad Autónoma de Puebla.
< http://www.fisio.buap.mx/online/-COCLEA%202003%20Formateado%20b.htm#XI11 >
[consulta: 27 Julio 2010]
(43) FISIOLOGIA DEL OÍDO INTERNO: MECANICA COCLEAR. Dr. Jesús García Ruiz
[En línea] De la Página Web de Otorrinoweb. 9 Mayo 2010.
<http://www.otorrinoweb.com/oido/1778.html> [Consulta: 27 Julio 2010]
(44) Pérdida de la capacidad auditiva. [En línea] Pagina Web de Botanical (medicamentos
para tratamiento de la pérdida de la audición). < http://www.botanicalonline.com/medicinalsperdidadeaudicion.htm > [Consulta: 30 Julio 2010]
VII
(45) Causas de la pérdida auditiva. [En línea] Asociación Eunate, de familiares y amigos de
personas con deficiencias auditivas de Navarra, España. < http://www.eunate.org/causas.htm >
[Consulta: 30 Julio 2010]
(46) Hipoacusia. Jesús López-Torres Hidalgo, Ángeles López Verdejo, Clotilde Boix Gras y
José del Campo del Campo. [En línea] En la sección de guías clínicas. 28 Agosto 2003.
< http://www.fisterra.com/guias2/hipoacusia.asp > [Consulta: 30 Julio 2010]
(47) Pérdida Auditiva. [En línea] Página Web de la compañía de implantes cocleares Med-El,
en la sección, acerca de la audición.
< http://www.medel.at/spanish/01_About_Hearing/03_Hearing_Loss.php?navid=2#cond>
[Consulta: 30 Julio 2010]
(48) Los implantes de Cóclea. [En línea] De la página de Internet KidsHealth®.Septiembre de
2008 <hespanol/general/cochlear_esp.html#> [consulta: 30 Julio 2010]
(49) Consulta y exploraciones. [En línea] Centro de audición y equilibrio de Monterrey
< http://www.otologo.com.mx/consulta.html#> [Consulta: 30 Julio 2010]
(50) Ahuactzin Larios. Diccionario español/inglés para el aprendizaje de vocabulario
utilizando una interfaz de voz. [En línea] Tesis a nivel de Licenciatura en Ing. en sistemas
computacionales. Universidad de las Américas, Puebla. Diciembre 1999. p.9 del capítulo1 y
p.1 del capitulo2.
< http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/ahuactzin_l_a/capitulo1.pdf>
[Consulta: 17 agosto 2010]
(51) Paul Klaivadar. Sintetizar sonido [En línea] De la página Web Macworld. 1 Mayo de
1998. <http://www.idg.es/macworld/content.asp?idart=51773>[Consulta: 17 Agosto 2010]
VIII
(52) Tipos de síntesis. [En línea] 19 Septiembre 2007.
< http://musicalwars.blogspot.com/2007/09/tipos-de-sntesis.html >
[Consulta: 17 Agosto 2010]
(53) Emilia Gómez Gutiérrez. Síntesis aditiva. [En línea] Departamento de sonología de la
escuela superior de música de Catalunya, España, en el curso 2009-2010. 30 Septiembre 2009.
<http://www.dtic.upf.edu/~egomez/teaching/sintesi/SPS1/Tema5-Aditiva.pdf> [Consulta: 18
Agosto 2010]
(54) Sergi Jordá. Tecnología de audio y de la música. [En línea] Noviembre 2003.
<http://www.tecn.upf.es/~sjorda/ME2003/6-SintesisDigital/ME-6SintesisDigital.pdf>
[Consulta: 18 Agosto 2010]
(55) Prof. Dr. Jorge A. Schwartzman. HISTORIA DEL IMPLANTE COCLEAR
[En línea] Revista Integración núm. 22. Abril 2002.
<http://www.implantecoclear.org/documentos/implante/historia.pdf> [consulta: 10 marzo
2010]
(56) Blake S. Wilson, Michael F. Dorman. Cochlear implants: A remarkable past and a
brilliant future. [En línea] de la revista Hearing Research 242 (2008) 3–21. El 22 Junio de
2008.
<http://web.mit.edu/s_chin/MacData/afs.course/other/hst.723/OldFiles/www/ThemePapers/Im
plants/WilsonDormanReview2008.pdf> [consulta: 28 abril 2010]
(57) Implantes Cocleares [En línea] “Comisión de expertos Real Patronato de Prevención y
Atención a Personas con Minusvalía” Abril de 2005.
<http://www.biap.org/biapespagnol/Implantes%20cocleares.pdf> [consulta: 10 marzo 2010]
(58) Cochlear™ [En línea] <http://nucleus5.cochlear.com/es/hearing-nucleus-5> [consulta: 18
febrero 2010]
IX
(59) Cochlear Introduces the New Nucleus 5 System [En línea] Septiembre 2009
<http://www.hearinglossweb.com/res/ci/coch/n5.htm> [consulta: 24 febrero 2010]
(60) FDA approves Cochlear's Nucleus 5 System [En línea] “The medical news”9 Septiembre
2009 <http://www.news-medical.net/news/20090909/FDA-approves-Cochlears-Nucleus-5System.aspx> [consulta: 24 febrero 2010]
(61) Fernando Rodríguez Huertas. Jefe de servicio anestesia Hospital del sas de Jerez [En
línea] De la revista “actualizaciones en dolor”
<http://www.telefonica.net/web2/anestjerez/trabajos/cma.htm > [consulta: 23 febrero 2010]
(62) Esta información se obtuvo al hacer una llamada telefónica el 2 de marzo 2010 al número
telefónico: 001-800-672-6126, centre de servicio de Cochlear™ en México,
(63) MED-EL [En línea] <http://www.medel.com/spanish/index.php?navid=1> [consulta: 10
marzo 2010]
(64) Advanced Bionics [En línea] <http://www.advancedbionics.com> [consulta: 6 abril 2010]
(65) Advanced Bionics Europa [En línea] < http://www.bionicear-europe.com/es/choosinggetting/opciones.html> [consulta: 13 abril 2010]
(66) Mike Marzalek, Overview of Hearing Loss, Hearing Aids, & Cochlear Implants [En
línea] de la pagina de Internet “Welcome to the Cochlear Implant (CI) Theory Site” 14
Noviembre 2007 < http://www.citheory.com/images/Overview.htm> [consulta: 7 de Mayo
2010]
Bibliografía de las estrategias de procesamiento:
X
(67) Kalyan S. Kasturi. SIGNAL PROCESSING STRATEGIES FOR BETTER MELODY
RECOGNITION AND IMPROVED SPEECH UNDERSTANDING IN NOISEFOR
COCHLEAR IMPLANTS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL
ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2006. pp. 17-26. [En línea]
<http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010]
(68) Elena Fernández Pascual. Distribución y maduración de las estructuras nerviosas del oído
interno en pacientes con malformación coclear. Tesis (Doctoral). Universidad de Granada,
España. Septiembre 2009 pp. 69-70 del pdf. [En línea]
<http://hera.ugr.es/tesisugr/18323613.pdf> [consulta: 27 Mayo 2010]
(69) MED-EL [En línea]
<http://www.medel.com/spanish/15_Getting_a_Cochlear_Implant/03_Cochlear_Implant_Surg
ery.php> [consulta: 10 marzo 2010]
(70) Presentación en Power Point [En línea]
<www.sld.cu/galerias/ppt/sitios/otorrino/implante_coclear.ppt > [consulta: 10 marzo 2010]
(71) Los implantes de Cóclea [En línea] De la página de Internet KidsHealth®.Septiembre de
2008 <http://kidshealth.org/parent/en_espanol/general/cochlear_esp.html#> [consulta: 30 Julio
2010]
(72) Med-El USA. FineHearing
[En línea]<http://www.medel.com/US/img/download/20869_FineHearing.pdf> [consulta: 25
marzo 2010]
(73) IMPLANTES COCLEARES [En línea] Comisión de expertos Real Patronato de
Prevención y Atención a Personas con Minusvalía. Abril 2005
<http://www.biap.org/biapespagnol/Implantes%20cocleares.pdf> [consulta: 25 Mayo 2010]
(74) David Browarsky, Marcelo Martín. Implantes Cocleares: historia y estrategias, Monografía
vinculada a la conferencia del Dr. Hamlet Suárez [En línea] XIV Seminario de Ingeniería
Biomédica. 2005 <http://www.nib.fmed.edu.uy/Seminario2005/monografias2005/David.pdf>
[consulta: 28 Mayo 2010]
XI
(75) Kalyan S. Kasturi. SIGNAL PROCESSING STRATEGIES FOR BETTER MELODY
RECOGNITION AND IMPROVED SPEECH UNDERSTANDING IN NOISE
FOR COCHLEAR IMPLANTS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL
ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2006. p.14. [En línea]
<http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010]
(76) Elena Fernández Pascual. Distribución y maduración de las estructuras nerviosas del oído
interno en pacientes con malformación coclear. Tesis (Doctoral). Universidad de Granada,
España. Septiembre 2009 pp. 67-78 del pdf. [En línea]
<http://hera.ugr.es/tesisugr/18323613.pdf> [consulta: 27 Mayo 2010]
(77) Una misma cepa de Staphylococcus aureus puede generar dos tipos de biofilm [En línea]
Revista en Internet “Infecciones”. Junio 2009
<http://www.infeccions.com/noticies/?cat=1&paged=5> [consulta: 27 Mayo 2010]
(78) Ning Li. CONTRIBUTION OF ACOUSTIC LANDMARKS TO SPEECH
RECOGNITION IN NOISE BY COCHLEAR IMPLANT USERS. Tesis (DOCTOR OF
PHILOSOPHY IN ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA.
Diciembre 2009. p. 8. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19
mayo 2010]
(79) MED-EL [En línea]
<http://www.medel.com/spanish/30_Products/TEMPO/04_HD_Signal_Processing.php?navid
=16> [consulta: 11 marzo 2010]
(80) MED-EL [En línea]
<http://www.medel.com/spanish/40_Professionals/Complete_Cochlear_Coverage/Prospective
_Benefits.php> [consulta: 11 marzo 2010]
XII
(81) Traducción Carmen Coleto, Federación AICE: El pionero del Implante Coclear
trabajando en una versión HI-FI [En línea] The West Australian. Miércoles, 17 de diciembre
de 2008
<http://integracion.implantecoclear.org/index.php?option=com_content&view=article&id=93:
el-pionero-del-implante-coclear-trabajando-en-un-version-hi-fi&catid=1:latestnews&Itemid=18 > [Consulta: 18 febrero 2010]
(82) Nuevo Cochlear Nucleus 5 [En línea] Revista AVANCE coclear número 22. Año 2009
p.7.
<http://docs.google.com/viewer?a=v&q=cache:oLT2zzWOctUJ:www.gaes.it/doc/avance22.pd
f+cuanto+cuesta+el+implante+de+Cochlear+nucleus+5&hl=es&gl=mx&pid=bl&srcid=ADG
EEShhvFCHmuX2rXsDC9VTheJrnbi9KdGdQxR53olXy_69Rkzby_6IP2PbSv_zH5M18PzBd1xGZ5rcqaMyVjwnBoXvYWGoDe_ylW5W_WoizVGp
oFr-OTqJtOU7ac2eB7V3upZHVJu&sig=AHIEtbS4JrZ3QhIN3-nl0v9xzoLWH8vpDQ >
[Consulta: 3 marzo 2010]
(83) Hospitalario Materno Infantil colocan por primera vez en Europa el implante coclear
más pequeño del mundo [En línea] Detalle de noticias / TECNOLOGÍA. 13-11-2009
<http://www.maspalomasactualidad.com/noticia.php?id=453 > [Consulta: 3 marzo 2010]
(84) “Un cirujano español coloca por primera vez en Europa el implante coclear más pequeño
del mundo en un niño” [En línea] Noticias de salud. Lunes 2 de noviembre de 2009
< http://noticiadesalud.blogspot.com/2009/11/un-cirujano-espanol-coloca-por-primera.html>
[consulta: 24 febrero 2010]
(85) Advanced Bionics Europa [En línea] < http://www.bionicear-europe.com/es/visualisinghires-120/visualizacion-del-Hires-120.html> [consulta: 5 Mayo2010]
(86) Advanced Bionics [En línea] < http://www.advancedbionics.com/CMS/Your-Journey-toHearing/Harmony-vs-Nucleus.aspx > [consulta: 18 Mayo 2010]
XIII
(87) [En línea] Foro en ingles de personas con un Implante coclear. 31 Diciembre 2009
<http://www.alldeaf.com/hearing-aids-cochlear-implants/70695-wow-abs-harmony-vscochlears-nucleus-5-a.html> [consulta: 18 Mayo 2010]
(88) MED-EL [En línea]
<http://www.medel.com/spanish/30_Products/01_MAESTRO/Cochlear_Implants/FineHearin
g/042_Intelligent_Parallel_Stimulation.php> [consulta: 25 marzo 2010]
(89) Ginger S. Stickney, Philipos C. Loizou, Lakshmi N. Mishra, Peter F. Assmann,
Robert V. Shannon, Jane M. Opie. Effects of electrode design and configuration on channel
interactions [En línea] De la Revista Hearing Research 211 (2006) 33–45. 9 Diciembre 2005
<http://www.utd.edu/~loizou/cimplants/hearin_research_jan2006.pdf> [consulta: 19 mayo
2010]
(90) MED-EL [En línea]
<http://www.medel.com.ar/Shared/pdf/en/MEDEL_PULSAR%28ESP%29.pdf> [consulta: 24
Mayo 2010]
(91) Kalyan S. Kasturi. SIGNAL PROCESSING STRATEGIES FOR BETTER MELODY
RECOGNITION AND IMPROVED SPEECH UNDERSTANDING IN NOISE
FOR COCHLEAR IMPLANTS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL
ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2006. p.1, p.126. [En línea]
<http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010]
(92). ArunVijay Mani. DICHOTIC SPEECH RECOGNITION: ACOUSTIC AND
ELECTRIC HEARING. Tesis (MASTER OF SCIENCE IN ELECTRICAL ENGINEERING
MAJOR IN TELECOMMUNICATIONS). Universidad de Dallas Texas, EUA. Mayo 2004.
p.1. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010]
XIV
(93) Lakshmi Narayan Mishra. ANALYSIS OF SPEECH PROCESSING STRATEGIES FOR
THE CLARION IMPLANT PROCESSOR. Tesis (MASTER OF SCIENCE IN
ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2000.
pp.14-15 [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010]
(94) Philipos C. Loizou. MIMICKING THE HUMAN EAR [En línea] Artículo Tutorial sobre
los implantes cocleares que apareció en la revista IEEE Signal Processing. pp. 101-130.
Septiembre 1998. <http://www.utdallas.edu/~loizou/cimplants/tutorial/introci.pdf> [consulta:
1 Junio 2010]
(95) Blake S. Wilson, Michael F. Dorman. Cochlear implants: A remarkable past and a
brilliant future. [En línea] de la revista Hearing Research 242 (2008) 3–21. El 22 Junio de
2008.
<http://web.mit.edu/s_chin/MacData/afs.course/other/hst.723/OldFiles/www/ThemePapers/Im
plants/WilsonDormanReview2008.pdf> [consulta: 28 abril 2010]
(96) Dr. Antoni Figuerola Roig. Potenciales Evocados [En línea] Unidad de Neurología
Hospital Son Llàtzer. Palma de Mallorca. 19 de abril de 2005.
<http://www.saludalia.com/Saludalia/servlets/contenido/jsp/parserurl.jsp?url=web_saludalia/p
ruebas_diagnosticas/doc/doc_potenciales.xml> [consulta: 2 de Junio 2010]
XV
ANEXOS
Anexo 1
Bió-ni-ca
(1) Etimología: de bios (“vida”) y ónica, como en electrónica; el estudio de sistemas
mecánicos que funcionan como organismos vivos o como partes de ellos.
En la revista de National Geographic se encontró el artículo por Josh Fischman, el cual habla
sobre casos particulares de personas que utilizan prótesis biónicas:
El caso de Amanda Kitts
Al entrar al salón en el centro de aprendizaje Kiddie Kottage, cerca de Knoxville, Tennessee,
Amanda Kitts se ve de pronto rodeada por niños de cuatro y cinco años. “Hola niños, ¿cómo
están hoy mis bebés?”. Esbelta y energética, Amanda ha dirigido esta y otras dos guarderías
durante casi 20 años. Pone las manos sobre las rodillas y se inclina para hablar con una niña
pequeña.
“¡El brazo robot!”, gritan varios niños.
“¿Ah, lo recuerdan?”, dice Kitts, extendiendo su brazo izquierdo. Pone la palma de su mano
hacia arriba. Hay un leve zumbido. Si uno no prestara mucha atención, no lo oiría. Dobla su
codo y lo acompañan más zumbidos.
“¡Haz que haga algo chistoso!”, dice una niña.
“¿Chistoso? ¿Recuerdas cómo puedo estrechar tu mano?”, pregunta Amanda Kitts,
extendiendo su brazo y rotando la muñeca. Un niño acerca la mano para tocarle los dedos. Lo
que roza son unos dedos de plástico color piel, doblados ligeramente hacia adentro. Debajo
hay tres motores, un armazón de metal y una sofisticada red electrónica. Hasta arriba de este
montaje hay un recipiente blanco de plástico, a la mitad del bíceps de Kitts, rodeando el
muñón, casi todo lo que queda del brazo que perdió en un accidente automovilístico en 2006.
Casi, pero no todo porque, en su cerebro, de manera inconsciente, vive una imagen intacta de
ese brazo, un fantasma. Cuando Kitts piensa que flexiona el codo, el fantasma se mueve. Los
impulsos que van de su cerebro hacia abajo a gran velocidad son recogidos por sensores de
XVI
electrodos localizados en el recipiente blanco, donde se convierten en señales que mueven los
motores y el codo artificial se dobla.
Kitts es una prueba viviente de que aún cuando la carne y el hueso hayan sido dañados o
destruidos, los nervios y las partes del cerebro que los controlaban siguen vivos. Usando
electrodos microscópicos y magia quirúrgica, los doctores han empezado a conectar estas
partes a dispositivos como cámaras, micrófonos y motores.
Las máquinas que usan se llaman prótesis neurales o biónicas, término popularizado por la
ciencia ficción al que los científicos se han acostumbrado.
Otros casos
Eric Schremp, quien quedó tetrapléjico cuando se destrozó el cuello al tirarse un clavado en
una alberca en 1992, ahora tiene un dispositivo electrónico debajo de la piel que le permite
mover los dedos para tomar un tenedor.
Tammy Kenny puede hablarle a su hijo de 18 meses, Aiden, y él puede contestarle, porque el
niño, quien nació sordo, tiene 22 electrodos dentro de su oído que transforman los sonidos
recogidos por un micrófono en señales que su nervio auditivo puede entender. Ahora el bebé sí
logra escuchar el golpe de las cacerolas. En febrero de 2009, cirujanos del Hospital Johns
Hopkins le implantaron sinuosas líneas con 22 electrodos en cada cóclea, parte del oído
interno que suele detectar las vibraciones sonoras. En Aiden, un micrófono recoge sonidos y
manda señales a los electrodos, que las transmiten directamente a los nervios.
“El día que pusieron a funcionar el implante, un mes después de la cirugía, notamos que
respondió al sonido –dice Tammy Kenny–. Volteó con el sonido de mi voz. Fue asombroso”.
Hoy dice; con la ayuda de terapia intensiva, empieza a comprender el lenguaje y va
alcanzando rápidamente a otros bebés que sí pueden oír.
XVII
Figura A1.1 Tenemos Aiden Kenny, que tiene dos implantes cocleares cuando tenía diez
meses de edad. Los implantes, visibles en una radiografía, transportan las señales
electrónicas a sus nervios auditivos (2).
Bibliografía Anexo 1
(1) Escrito por Staff. “Biónica” [En línea] La revista National Geographic en Español. El 05
de Enero de 2010 <http://ngenespanol.com/2010/01/05/bionica-articulos/> [consulta: 3 febrero
2010]
(2) Bi-on-ics [En línea] The magazine national geographic channel photo gallery. Enero 2010.
<http://ngm.nationalgeographic.com/2010/01/bionics/thiessen-photography> [consulta: 3
febrero 2010]
XVIII
Anexo 2
Elegir una marca
Escoja una marca que sea la mejor para usted
Este siguiente artículo se tomo de un blog en Internet que fue creado por Tina con el titulo
Choosing a brand, el cual compara minuciosamente a los tres fabricantes más importantes en
implantes coleares.
(1) ¿Qué es un implante coclear? Imagina que te has comprado una computadora nueva. El
hardware es la parte implantada del implante coclear (De AB el HiRes 90k, de Med-El el
Pulsar y Sonata y de Cochlear el Freedom), el procesador de la computadora es el procesador
de lenguaje externo (AB el Harmony, Med-El el Opus y Cochlear el Nucleus 5), y el software
es el programa que se ajusta a través de una serie de asignaciones con el audiólogo (HiRes
Fidelity 120 de AB, FineHearing de Med-El y el SmartSound de Cochlear).
¿Cuál es el mejor? Cada marca tiene aspectos positivos y negativos, en la electrónica del
implante, el conjunto de electrodos en sí, el hardware del procesador de lenguaje y el software
DSP (procesamiento digital de señales). La parte electrónica del implante es lo que usted
posee, y cualquier capacidad para el hardware del procesador y mejoras del software en el
exterior para una mejor estimulación, dependen de lo que los circuitos internos pueden
decodificar con precisión rápidamente. Básicamente, se reduce a esto: el procesador externo es
algo que sustituye de 3-5 años cada vez, y se necesita vivir con él hasta que la siguiente
actualización salga al mercado. La electrónica implantada es algo con lo que vas a vivir los
próximos 20 años (o más).
Por un buen margen, AB y Med-El tienen la mejor electrónica en los implantes con fuentes de
corriente independientes para cada contacto de estimulación del electrodo. AB puede generar
90k pulsos por segundo en sus 16 contactos de estimulación del electrodo simultáneamente
con ambas cargas + y -; Med-El puede generar 56k pulsos por segundo (pero con una carga a
la vez ya sea – o +) en sus 12 contactos; mientras que Cochlear con 22 contactos sólo puede
generar 30k pulso por segundo, y sólo un pulso a la vez. Esto significa que AB tiene 120
electrodos virtuales, Med-El tiene alrededor de 90 y Cochlear sólo tiene la capacidad de 43
virtuales.
XIX
Ahora bien, si se desea la preservación de la audición residual tomando en cuenta la guía de
electrodos física, Med-El está en la cima, Cochlear es también bastante bueno, pero AB esta
en último lugar.
Dicho esto:
•
La preservación de la audición residual depende en gran medida de la habilidad del
cirujano, con una media global de alrededor del 65-70%. El mejor cirujano de
implantes cocleares en el mundo es Rick Case de la Universidad Washington en St
Louis (WUSTL) quien tiene una tasa de éxito del 98%, y John Niparko de la
Universidad Johns Hopkins en Baltimore (JHU) con el mismo éxito.
•
Esta preservación de la audición residual también está sujeta a una tercera variable
además del fabricante y el cirujano; por lo que depende también de la colocación del
electrodo en la cóclea ya sea de forma “perimodiolar” o “flotante”.
La colocación perimodiolar (envuelto en una espiral alrededor de la cóclea) de los
electrodos provoca que se quede más cerca de los nervios auditivos. Esto ocasiona una
mejor estimulación y mayor concentración con un menor consumo de corriente,
permitiendo también una colocación más profunda en la cóclea, pero de igual manera
implica un mayor riesgo para la pérdida de la audición residual.
Continuando con la comparación:
La composición del procesador externo es importante, ya que implica: la capacidad del
número de chips necesarios para el procesamiento del habla, la reducción del ruido digital y el
encapsulado físico del mismo:
•
Sobre la capacidad del procesador, las tres son adecuados para los estímulos de sus
respectivos implantes en la actualidad. Dicho esto, el sistema electrónico del implante
para Cochlear ya esta al máximo de su capacidad, mientras que las estimaciones del
Ing. Dan Schwartz dicen que Med-El tiene aun de 5-7 años y AB al menos una década.
XX
•
El encapsulado físico del nuevo Nucleus 5 es bastante bueno, con tecnología de
impermeabilización tomada de RION (compañía de audífonos) del modelo de la serie
HB-54. Este es casi tan pequeño como el Opus2 de Med-El. Con el 50% de los
implantes cocleares que van para los niños (al menos en los EE.UU.), Advanced
Bionics tiene relativamente un procesador demasiado grande para ellos, por lo que ha
provocado que muchos padres y centros de implante coclear para lactantes y niños
pequeños, escojan otras opciones.
•
El software DSP que se ejecuta en el procesador, también es importante; y hay 2
puntos al respecto: la manipulación del sonido entrante en todo el espectro de
frecuencias para la reducción del ruido y la conversión del sonido procesado en una de
las varias estrategias de estimulación (CIS, n-of-m (ACE), Hi-Res Parallel, Hi-Res
Sequential, etc.), que es en última instancia, limitada por la cantidad de memoria y
potencia de procesamiento de la electrónica en el propio implante.
En otras instancias tenemos el testimonio de la audióloga Jo-Ann, quién ha programado a los
pacientes de las 3 marcas. Su mayor deseo es que los receptores sepan que cada cerebro es
diferente. El receptor no puede predecir cómo va a reaccionar, así que tener una opción
adecuada de procesamiento o de estrategia de codificación es la clave (esta estrategia puede
variar entre los receptores). Al igual que con los audífonos, algunas personas prefieren el
sonido de la marca Phonak o de Oticon, etc. Con AB, tienes la mayor variedad de estrategias
como: MPS, CIS, HiRes-S, HiRes-P, HiRes-P con120, y HiRes-S con 120.
Un ejemplo: con AB algunos cerebros de las personas prefieren el sonido de HiRes-S en ves
del HiRes-P, porque simulan de manera diferente. Pero con Cochlear solo se tiene una opción
para los receptores, ya que no pueden probar otras estrategias porque solo manejan una fuente.
Entonces, la diversidad de estrategias proporciona flexibilidad a los audiólogos a la hora de
programar el implante en los receptores; y aunque Cochlear tenga un software reciente, esta
limitada a una sola fuente.
La audióloga Jo-Ann explica esto haciendo la siguiente comparación, si construyes una casa
con 22 cuartos, y si solo pones un switch para las luces, existen 2 opciones, prender todas a la
XXI
ves o apagarlas. Se necesitan varios interruptores para poder prender o apagar la luz
individualmente en cada cuarto.
Ella principalmente a tratado con receptores de la marca Med-EL, el 30% con Cochlear y
apenas 1 de la marca AB. Pero ella recalca que el implante mismo es sólo una parte de la
solución. La mayor parte del trabajo de un receptor comienza cuando el procesador se
enciende, y el éxito depende de una actitud mental positiva, junto con una gran cantidad de
práctica al escuchar por el implante. Cuanto más se practique se puede llegar a ser mejor. Para
algunos la claridad llega enseguida, para otros toma tiempo, así que no hay una respuesta fácil.
Una buena idea para buscar la mejor opción para el futuro receptor podría ser la siguiente,
contactar a cada compañía y hablar con alguno de sus audiólogos para adquirir la mayor
información posible. También sería bueno acudir a un centro de implantes, para comparar la
información obtenida y se pueda obtener una opinión más objetiva. Las empresas de
audiólogos serán las que darán el soporte al audiólogo que te programe, y ayudaran al centro
de implantes que te este dando apoyo después de la cirugía. Realmente los cirujanos solo te
verán una vez al año y no saben mucho de la programación. Además, no poseen el
conocimiento acerca de los beneficios externos o averías del implante que se te haya puesto.
Otra prueba más que se le puede hacer a los fabricantes de implantes cocleares, es llamar a su
línea de servicio al cliente y ver lo rápido que te conecten a una persona real.
Comparación técnica de los implantes cocleares, de Marzo de 2007. Esto esta al día, solo el
aspecto externo a cambiado con Cochlear con el Nucleus 5.
Advanced Bionics.
AB es la líder y por mucho en el implante electrónico, con una dirección de corriente completa
para 120 electrodos virtuales de sus 16 contactos de estimulación del electrodo. Su implante
posee la mejor velocidad de transferencia a 90 mil actualizaciones por segundo, que es ideal
para escuchar música y para el entendimiento del habla en un medio ruidoso.
Tiene la tecnología “ClearVoice noise reduction” (reducción de ruido para una voz clara),
ahora permitida en el Reino Unido (marzo de 2010) y Canadá (febrero de 2010), pero en
XXII
espera de la aprobación de la FDA (Administración de Alimentos y Fármacos, por sus siglas
en inglés) para ser permitida en los Estados Unidos.
La desventaja de AB se encuentra en alrededor del 5% de las cirugías de implante debido a que
sólo tienen dos tipos de electrodos disponibles (El electrodo “Helix” y el semicurvo y más
largo “1J”), y no funcionan para todos.
Las ofertas de AB son bastantes buenas, pero les falla en un área crítica: los 2 tipos de
electrodos que manejan y que solo funcionan para 2 tipos de casos, cócleas parcialmente
formadas u osificadas.
Por hora no hay mucho que se pueda hacer al respecto de este problema debido a que el
ingeniero y jefe de electrodos de esta compañía, Janusz Kuska, fue despedido por el director
Jeff Greiner, provocando entonces que AB se quede años atrás de Med-El y Cochlear, en
materia de oferta de electrodos para la cóclea.
Lo que podría ser rescatable de esta problemática para la marca, aunque se tenga una mala
oferta en los tipos de electrodos, la preservación de la audición residual no es bastante mala,
ya que la conservación de ella depende también de una buena colocación de los electrodos.
Y por último, otro no tan buen aspecto de AB es el tamaño de su procesador de lenguaje
externo, es el más grande de los 3 fabricantes.
Med-El.
Med-El esta como 7 años atrás de AB en su implante electrónico. Éste puede operar a 55 mil
actualizaciones por segundo, tienen un solo flujo de corriente parcial con su tecnología
FineHearing y un estimado de 90 electrodos virtuales con su forma de onda triangular. Con el
implante Sonata usted podrá tener de 5-10 años para cambiarlo.
Con respecto al tamaño del procesador externo, el Opus2 de Med-El es el más pequeño de los
3 fabricantes con una longitud de 49.2 mm. Pero puede llegar a existir la excepción cuando el
Nucleus 5 de Cochlear, estuviera equipado con las pilas recargables compactas al alcanzar una
longitud total de 42 mm, ya que con el de pilas estándar tiene una longitud de 51 mm.
XXIII
Su mayor ventaja sobre los demás, es la selección variada de electrodos para casi todo tipo de
cócleas imaginables, y la construcción personalizada de electrodos cosa que nadie más puede
hacer.
Aún con los mejores electrodos, tienen una pequeña parte negativa. La cuestión está en la
colocación quirúrgica del electrodo en la cóclea en sí, cuando se trata de poner en su lugar a un
electrodo de posicionamiento perimodiolar. Lo que se necesita, especialmente para la difícil
colocación perimodiolar al tratar de preservar la audición residual, es un cirujano con mucha
experiencia con esta marca de implante coclear (para evitar ese problema).
Entonces, se puede concluir que los procesadores e implantes de Med-El son tan buenos como
los de AB, y su variedad de conjunto de electrodos es tan buena, o talvez mejor que los de
Cochlear.
Cochlear.
Ellos están irremediablemente sumidas por sus competidores AB y Med-El en materia del
implante electrónico. Debido a esto, a pesar de tener un nuevo y excelente mando a distancia
con pantalla LCD el Nucleus 5 sigue estando limitado. Esto es porque su implante tiene la
misma operación de 30 mil actualizaciones por segundo como lo estaban hace más de una
década. Y, a pesar de tener 22 contactos de estimulación en el electrodo, lo mejor que pueden
lograr son 43 electrodos virtuales, y al parecer todavía no se han dado cuenta.
El Nucleus 5 es casi lo mismo que Med-El a partir de 2006. Cochlear no tiene casi nada
nuevo. La verdad es que ellos tienen un gran presupuesto de marketing por lo que tenga
cuidado, no todo lo que brilla es oro...
Hay una parte donde el Nucleus 5 es bueno por bastante con respecto a los demás, el cuidado
con los niños; a pesar de que la electrónica de su implante este obsoleta. El control remoto en
su pantalla de LCD puede funcionar como un indicador del estatus del implante y el
procesador, indicando si funciona correctamente (al igual que lo hace el LED integrado en el
procesador). Esto es útil para los padres o los maestros, ya que con un simple acercamiento al
XXIV
niño, con el control remoto ellos podrán tener una retroalimentación inmediata del
funcionamiento.
En Resumen
Mejor rendimiento auditivo - Sólo recientemente los estudios comparativos independientes
que se han publicado, AB ocupó el primer lugar en todos ellos.
Alta fiabilidad - Todos los fabricantes afirman 99% de fiabilidad para el implante, pero sólo
AB incluye el procesador externo en el cálculo. AB no hace una gran mención con respecto a la
resistencia contra el agua, pero su garantía cubre los desperfectos ocasionados por el agua.
Cochclear hace afirmaciones sobre la resistencia al agua, pero su garantía no cubre daños
hechos por el agua.
Mejor capacidad de actualización- El líder es AB porque con su implante HiRes 90K usa
apenas el 25% de su capacidad, Med-El se queda a la mitad y Cochlear completamente fuera
por el rezago de su implante. El implante es la parte que uno debe planear quedarse por un
largo tiempo.
Usted puede revisar las patentes de cada compañía en la pagina de US Patent and Trademark
Office search engine, asegúrese de poner en el cuadro de búsqueda por nombre de la
compañía. Asegúrese de seleccionar “Nombre del beneficiario” para el campo. Los resultados:
Advanced Bionics, con 261 patentes.
Cochlear, con 111 patentes.
Med-El, con 42 patentes.
Las cifras son aún más reveladoras de lo que puede parecer a simple vista. Cochlear es una
empresa más grande y ha estado en el mercado por más tiempo que AB, así que si usted cuenta
patentes por ingeniero o patentes por año, AB domina.
El T-Mic – Med-El y Cochlear tienen sus micrófonos en la parte superior de la oreja, como lo
tienen los audífonos de BTE. Pero AB tiene el micrófono en la punta del gancho para la oreja,
que está justo a la entrada del canal auditivo. Esto quiere decir que su oído forma el sonido
XXV
normalmente, por lo que podrá usar los teléfonos y auriculares al igual que una persona
normal.
La miniaturización de los procesadores - AB fue adquirida por Sonovus un grupo muy grande,
donde se encuentra también Phonak, en enero de 2010. Esto significa que AB es la única
empresa con acceso a la súper tecnología de miniaturización y años de experiencia de una
empresa de audífonos. Y Phonak es uno de los mejores. Mientras que el procesador de AB no
es actualmente el más pequeño, buscara las características excelentes en el futuro.
Agradecimientos a los cirujanos: el Profesor Saeed y el Dr. Jeremy Lavy; a la terapeuta de
lenguaje Liz Stott; a la audióloga Eilene Dyason; a Dan Schwartz, un ingeniero eléctrico
sordo que trabajo antes en el negocio de la salud auditiva; la audióloga Jo-Ann y Joanna
Farquhar; a Howard Samuels Mentor de BEA; y a Advance Bionics, Med-El y Cochlear.
Nota importante: Esta es una traducción y síntesis del artículo original en ingles “Choosing
a brand” realizada por el autor de esta tesis.
Bibliografía Anexo 2
(1) La autora se hace llamar solo “Tina” con el titulo del Artículo “Choosing a brand” [en
línea] obtenido de un blog en Internet “viviendo con la pérdida de la audición en Londres
(UK)”. Marzo 2010. <http://funnyoldlife.wordpress.com/cochlear-implants/choosing-a-brand/
> [consulta: 29 abril 2010]
Glosario
Ahora bien, ¿qué es La audición residual? Y ¿Qué es Perimodiolar?
Audición residual: Son los restos auditivos que se pueden medir y que están existentes dentro
de la cóclea. Este término se utiliza en sujetos que presentan deficiencias auditivas.
Perimodiolar: “Peri” es un prefijo que quiere decir alrededor y “modiolo” esta en el eje central
de la cóclea (cortesía del Doctor Carlos Chacón Arcila).
XXVI
Anexo 3
Anatomía de la Faringe
Figura A3.1 La faringe. Se divide en Nasofaringe, Orofaringe y Laringofaringe (1)
(2) La faringe es un conducto o tubo situado en el cuello, este mide aproximadamente unos 13
cm. el cual está en contacto con la laringe (perteneciente al aparato respiratorio) y que por
medio de una válvula, la epiglotis, cierra la entrada del bolo alimenticio a las vías
respiratorias. La faringe se comunica con las fosas nasales, los oídos y el esófago.
La faringe esta formada por tres partes
•
Nasofaringe, faringe superior o rinofaringe: El techo de la faringe situado en la
nasofaringe, donde se encuentran las amígdalas faríngeas o adenoides. La nasofaringe
está limitada por delante por las coanas de las fosas nasales y por abajo por el velo del
XXVII
paladar. A ambos lados presenta el orificio que pone en contacto el oído medio con la
pared lateral de la faringe a través de la Trompa de Eustaquio. Detrás de este orificio se
encuentra un receso faríngeo llamado fosita de Rosenmüller. En la pared posterior de
la nasofaringe se aprecia el relieve del arco anterior del atlas o primera vértebra
cervical.
•
Orofaringe, faringe media o bucofaringe: Se denomina así porque por delante se abre
la boca o cavidad bucal a través del istmo de las fauces. Por arriba está limitada por el
velo del paladar y por abajo por la epiglotis. En la orofaringe se encuentran las
amígdalas palatinas o anginas, entre los pilares palatinos anteriores o glosopalatino y
posterior faringopalatino.
•
Laringofaringe, hipofaringe o faringe inferior: Comprende las estructuras que rodean la
laringe por debajo de la epiglotis, como los senos piriformes y el canal retrocricoideo,
hasta el límite con el esófago. En medio de los senos piriformes o canales
faringolaríngeos se encuentra la entrada de la laringe delimitada por los pliegues
aritenoepiglóticos.
Funciones de la faringe
•
La deglución: Es el paso de los alimentos desde la boca hacia la faringe.
•
La respiración: Por respiración generalmente se entiende al proceso fisiológico
indispensable para la vida de los organismos.
•
La fonación: La fonación es el trabajo muscular realizado para emitir sonidos
inteligibles, es decir, para poder hablar.
XXVIII
Anatomía de la Laringe
Figura A3.2 La Laringe (3)
Figura A3.4 Glotis
Figura A3.3 Las partes que forman a la Laringe (4).
La laringe (Está entre la faringe y la tráquea) es el órgano básico para la emisión de
sonidos; se encuentra localizado entre los aparatos respiratorio y digestivo, siendo
necesaria para el mantenimiento de ambas funciones.
La laringe Tiene forma de pirámide invertida y anatómicamente se divide en tres zonas:
•
•
•
Supraglotis: desde la faringe hasta las cuerdas vocales.
Glotis: cuerdas vocales (figura A3.3)
Subglotis: desde las cuerdas vocales hasta el inicio de la tráquea
XXIX
Bibliografía Anexo 3
(1) Faringe [en línea] De la página de Internet GreenFacts, Hechos sobre la salud y el medio
ambiente. 5 Octubre 2009. < http://www.greenfacts.org/es/glosario/def/faringe.htm >
[consulta: 30 Junio 2010]
(2) Faringe. Carlos [en línea] Publicado en Salud, Anatomía. 5 Mayo 2008
< http://www.xenciclopedia.com/post/Anatomia/Faringe.html > [consulta: 30 Junio 2010]
(3) Instrucciones para una correcta traqueotomía de emergencia. [En línea] Del Foro en
Internet “]V[orlock
Liberitas ¿Libertad de expresión o libertinaje expresivo?”. 24 Agosto
2006. <http://liberitas.com/2005/08/24/instrucciones-para-una-correcta-traqueotomia-deemergencia/ > [consulta: 30 Junio 2010]
(4) Cáncer de Laringe [en línea] De la página Web: Sociedad Española de Oncología Médica,
Información sobre tipos de cáncer .4 Mayo 2010 <http://www.seom.org/es/infopublico/infotipos-cancer/tumores-orl/orl/1138-cancer-de-laringe?showall=1> [consulta: 30 Junio 2010]
XXX
Anexo 4
Análisis a fondo sobre “los formantes”
Resonancia y formantes
(1) Las ondas sonoras complejas presentes en los sonidos del habla son el resultado de:
•
Vibración de los repliegues vocales.
•
Efecto de filtrado que se produce en las cavidades supraglóticas (consultar Anexo 3),
que actúan como cavidades resonadoras.
Las ondas sonoras, tal y como se producen en la glotis por la vibración de los repliegues
vocales, se asemejan a cualquiera de los ejemplos de ondas sonoras complejas periódicas que
tienen una frecuencia fundamental y armónicos.
En el siguiente ejemplo:
Figura A4.1 Una onda periódica compleja. Es una onda sintética creada artificialmente
(1).
• Con una frecuencia fundamental de 150 Hz.
• Primer armónico: 150 Hz
• Segundo armónico: 300 Hz
• Tercer armónico: 450 Hz
En el caso de los sonidos del habla, los armónicos que componen una onda sonora generada en
la glotis no presentan todos las mismas amplitudes (a diferencia de la onda compleja
periódica, de la figura A4.1 anterior)
La amplitud de los armónicos va descendiendo a medida que aumenta la frecuencia.
XXXI
Figura A4.2 El espectro de una onda cuando se habla (1).
Por otra parte, si se analiza la misma onda sonora tras su paso por las cavidades supraglóticas,
se podrá notar que se han producido más modificaciones en las amplitudes de los armónicos.
Esto es debido al fenómeno de la resonancia que se produce en las cavidades supraglóticas.
Figura A4.3 Espectro de una onda tras su paso por las cavidades supraglóticas (1).
XXXII
En el siguiente gráfico, se observa como esta constituida una onda tras el paso de las
cavidades supraglóticas.
Onda laríngea
Onda a su paso por las
cavidades supraglóticas
Onda sonora Resultante
Figura A4.4 Descomposición de una onda Supraglótica (2).
(A) La amplitud de los armónicos disminuye progresivamente a medida que aumenta la
frecuencia. Es lo que sucede en las ondas sonoras generadas por la vibración de los
repliegues vocales.
(B) La amplitud de los armónicos es modificada en función de la disposición que
adoptan los articuladores en las cavidades supraglóticas.
(C) Onda sonora resultante.
Resonancia en las cavidades supraglóticas.
Fenómeno físico que ocurre en las cavidades supraglóticas. Consiste en la modificación de la
amplitud de los armónicos de un sonido complejo en función de la cavidad en la que dicho
sonido vibra.
En el caso de los sonidos del habla, son las cavidades supraglóticas las responsables de la
resonancia:
•
Cavidad faríngea
•
Cavidad nasal
•
Cavidad oral
Para que se produzca la resonancia, tiene que existir lo siguiente:
•
Un cuerpo resonador,
•
Se ponga en movimiento (vibre),
•
A causa de las vibraciones de otro cuerpo.
XXXIII
Frecuencia natural y resonancia.
Todos los cuerpos tienen una frecuencia o gama de frecuencias de vibración que son propias
de acuerdo con sus características físicas, se le conoce como frecuencia natural. Si a un cuerpo
le alcanza una onda que coincide con esta frecuencia natural, se pondrá a vibrar, provocando
entonces una vibración por resonancia, dando lugar una serie de alteraciones en la onda sonora
que incide sobre el cuerpo resonador.
En síntesis: El resonador enfatizará o amplificará una cierta gama de frecuencias (las que
coinciden con la frecuencia natural) de dicha onda sonora, y por el contrario desestimará o
filtrará otras frecuencias (las que no coinciden con su frecuencia natural).
Resonador.
Los cuerpos resonadores son como cajas que tienen la capacidad de reforzar (dar más
amplitud) los componentes de una onda sonora (armónicos) que coinciden con su frecuencia
natural.
Es lo que sucede, por ejemplo en los instrumentos de cuerda (guitarra, violín, violonchelo,
contrabajo...), donde la caja de madera tiene la función de amplificar determinadas frecuencias
de las ondas sonoras que producen las cuerdas.
La mayor o menor frecuencia de un sonido en su producción depende de una serie de factores:
•
Masa o grosor. Los cuerpos grandes y pesados generan ondas sonoras de una
frecuencia menor (sonido más grave) que los pequeños y livianos, porque éstos pueden
moverse más rápidamente.
•
Longitud o volumen. A mayor longitud o volumen en igualdad de circunstancias, se
obtiene un sonido con menor frecuencia.
•
Tensión. A mayor tensión, mayor frecuencia (sonido más agudo).
Los músicos controlan estas variables para obtener sonidos con determinadas frecuencias de
los instrumentos que tocan. Por ejemplo, una guitarra tiene seis cuerdas, cada una con un
XXXIV
grosor, una tensión y una longitud diferentes, de ahí los distintos sonidos que puede producir
cada una de ellas.
Resonancia en el habla.
¿Cómo se produce la resonancia en el habla?
En el caso del ser humano, las cavidades supraglóticas se comportan como cajas resonadoras
que actúan sobre la onda laríngea (onda generada en la glotis) como filtros. Estas cavidades
amplifican determinadas frecuencias y no otras, y según las diferentes configuraciones que
adoptan los órganos durante la articulación, dan como resultado los distintos sonidos del
habla.
¿Por qué se produce la resonancia?
La onda sonora generada en la laringe por la vibración de los repliegues vocales puede tener
tan poca intensidad que, si no estuviese reforzada por el efecto resonador de las cavidades
supraglóticas, apenas se podría percibir. Entonces para que se produzca la resonancia en el
tracto vocal es preciso que la frecuencia natural de vibración de la cavidad resonadora se
asemeje a la de la fuente de sonido (onda laríngea o glotal).
Las distintas cavidades supraglóticas (faríngea, nasal y oral) funcionan como resonadores con
diferentes frecuencias naturales de vibración, que refuerzan diferentes frecuencias de la onda
glotal.
Los valores de las frecuencias naturales de las cavidades supraglóticas dependen de la forma
que adopten éstas. En consecuencia, cada modificación de las cavidades supraglóticas por la
articulación implica un cambio de sus frecuencias naturales de vibración y el reforzamiento de
diferentes componentes frecuenciales del tono laríngeo en cada caso.
Formantes.
El grupo de frecuencias o armónicos reforzados no es otra cosa que una concentración de
energía acústica en torno a la frecuencia o frecuencias naturales de la cavidad resonadora. Este
conjunto de frecuencias o zonas de resonancia se denomina formante o formantes.
XXXV
Características de los formantes:
•
Son característicos de las ondas sonoras complejas periódicas.
•
Los formantes de un sonido con frecuencias amplificadas por la resonancia dependerán
de la configuración que adopten las cavidades supraglóticas para pronunciarlo.
•
Caracterizan a los sonidos del habla.
•
Los formantes permiten diferenciar sonidos acústicamente como el caso de las vocales,
que se diferencian por las frecuencias de sus formantes.
Ejemplo de formantes:
Las vocales [a] e [i] son pronunciadas por la misma persona:
•
Misma frecuencia fundamental: el tono laríngeo del que se parte en ambos casos será
idéntico.
•
Para cada uno de estos sonidos, se reforzarán distintos armónicos en función de la
forma que presente el tracto vocal.
•
Para producir el sonido [a] se van a reforzar los componentes de la onda sonora
situados en torno a:
o los 700-720 Hz
o los 1200 Hz
o los 2520 Hz
•
Para producir el sonido [i], se refuerzan los componentes de la onda sonora con
frecuencias en torno a:
o los 300-360 Hz
o los 2000-2280 Hz
o os 2800-3000 Hz
XXXVI
Figura A4.5 El espectro de frecuencias al pronunciar las vocales [a] e [i] por la misma
persona (3).
Se puede observar como se modifica el tracto vocal y el espectro de frecuencias al
pronunciar las 2 vocales.
Formantes y no obstruyentes.
Los formantes son característicos de todos los sonidos del habla que se producen con
resonancia (no obstruyentes), donde hay vibración de los repliegues vocales:
•
Vocales: [a], [e], [i], [o], [u]
•
Nasales: [m], [n]
•
Aproximantes centrales: [j], [w]
•
Aproximantes laterales: [l]
Resonancia y sonidos aperiódicos (sonidos oclusivos y fricativos sordos).
No todos los sonidos del habla son periódicos, es decir, que se produzcan mediante la
vibración de los repliegues vocales. Cuando éstos no vibran, los sonidos obtenidos no son
periódicos y, por tanto, no presentan armónicos en su espectro, se les conoce como sonidos
sordos.
XXXVII
La glotis está abierta y permite el paso del aire, que se verá interrumpido en el tracto vocal. En
la producción de los sonidos aperiódicos, pese a la ausencia de armónicos, el tamaño y
volumen de las cavidades supraglóticas también afecta a los sonidos, este es el lugar en donde
se produce la constricción u obstáculo (punto o zona de articulación).
Aunque estos sonidos no presentan formantes, es posible determinar su punto de articulación,
donde están las transiciones que se aprecian en los formantes del sonido siguiente.
Para entender lo descrito anteriormente se tiene el siguiente gráfico:
Figura A4.6 Espectrograma de la sílaba [pi] de la palabra pícara (1).
Explicación de la gráfica:
• Oclusión de la [p]: espacio en blanco.
• Barra de explosión de la [p]: barra vertical de energía.
• Formantes de la vocal [i]: concentraciones de energía en determinadas
bandas de frecuencias.
• Transiciones de los formantes de la vocal [i]: el movimiento de los formantes
vocálicos indica el punto de articulación de la consonante previa.
La resonancia también se puede manifestar en los sonidos aperiódicos en forma de
concentraciones de energía o formantes.
La configuración que adopte el tracto vocal a ambos lados del obstáculo o constricción
interpuesto a la salida del flujo de aire, determina la gama de frecuencias de dichos formantes.
Otro ejemplo:
La [c] es un sonido que se pronuncia con la lengua entre los incisivos:
XXXVIII
•
El resonador oral tiene una longitud considerable: abarca desde los dientes hasta la
faringe (resonador posterior).
•
Se refuerzan las frecuencias situadas en torno a los 5000 Hz.
La [j] es un sonido que se produce con un obstáculo en el velo del paladar:
•
El resonador oral tiene una longitud menor.
•
La cavidad más amplia se sitúa en la parte anterior de la cavidad resonadora.
•
Se refuerzan las frecuencias más bajas, en torno a los 3500 Hz.
Figura A4.7 Espectrograma de la palabra [ceja] (1)
Bibliografía anexo 4
(1) Resonancia y Formantes. [En línea] Universidad de León.
<http://www3.unileon.es/dp/dfh/Milka/FyF/36.pdf> [consulta: 25 Junio 2010]
(2) MARTÍNEZ CELDRÁN, E. El sonido en la comunicación humana. Introducción a la
fonética. Barcelona: Octaedro, 1996. 86p.
(3) Martínez Celdrán, E. La teoría fonética de F. Orchell. Folia Phonetica. 1984. 87p.
Descargar