SECRETARIA DE EDUCACIÓN PÚBLICA DIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR TECNOLÓGICA INSTITUTO TECNOLÓGICO DE MÉRIDA “SECUENCIA PARAMÉTRICA DEL TIMBRE DE VOZ” OPCIÓN I “TESIS PROFESIONAL” PARA OPTAR AL TITULO DE: INGENIERO ELECTRÓNICO PRESENTA: MAURICIO CHACÓN GONZÁLEZ MÉRIDA YUCATÁN, MÉXICO 2010 i Agradecimiento al pueblo de México que con sus impuestos mantiene la educación pública, gratuita, laica y libre; a Carlos y Josefina mis padres; a Ileana por brindarme su apoyo; a mi asesora de tesis la Ing. Margarita Álvarez Cervera. También a Rafael mi abuelo que con sus comentarios me impulsaron a realizar este trabajo de investigación. ii ÍNDICE DE CONTENIDO AGRADECIMIENTOS…………………………………………………………………………i INTRODUCCIÓN...................................................................................................................xii Objetivos de Investigación………………………………………………………………...xiv Objetivo General……………………………………………………………………...xiv Objetivos Específicos…………………….……………………………………...……xiv Hipótesis…………………………………………………………………………………...xiv Delimitaciones y limitaciones……………………………………………………………..xiv Justificación………………………………………………………………………………...xv Impacto Social, tecnológico, económico y ambiental……………………………………...xv CAPÍTULO I La voz Humana, el oído y el análisis frecuencial……………………………1 1.1 Conceptos generales del sonido…………………………………………………………….1 1.1.1 Características y cualidades del sonido (Timbre, frecuencia, amplitud de onda, etc.)………………………………………………….……………………………………….1 1.1.2 Las formas de onda……...…………………………………………………………...19 1.1.3 Los armónicos………………………………...……………………………………...21 1.1.4 Los formantes………………………...………………………………………………26 1.1.5 La transformada, el teorema y la transformada rápida de Fourier…………………...30 1.1.6 El espectro de sonido………………………………………………………………...36 1.2 Bases y fundamentos de algunos de los softwares que se pueden utilizar para el análisis de la voz humana…………………………………………………………………………………39 1.2.1 Algunos de los métodos de análisis acústico del habla………………………………39 1.2.2 NCH Software y sus aplicaciones (WavePad, Tone Generator)……………………..41 1.2.3 Praat…………………………………………………………………………………..44 1.2.4 SFSWin………………………………………………………………………………49 1.3 El oído……………………………………………………………………………………..52 1.3.1 Funcionamiento del oído (oído externo, medio e interno)…………………………...52 1.3.2 Funcionamiento de la cóclea…………………………………………………………61 1.3.3 Aspirantes para las prótesis auditivas (según el nivel del problema auditivo)……….68 1.4 Tipos de síntesis…………………………………………………………………………...75 1.4.1 Síntesis de sonido…………………………………………………………………….75 iii CAPÍTULO II La problemática de las prótesis auditivas para sordos profundos………79 2.1 Trayectoria de las prótesis auditivas………………………………………………………79 2.1.1 Las primeras prótesis…………………………………………………………………79 2.1.2 Tecnología de punta y lo más avanzado en Australia, Austria y Estados Unidos…...83 2.1.2.1 Australia……………………………………………………………………….83 2.1.2.2 Austria…………………………………………………………………………94 2.1.2.3 Estados Unidos……………………………………………………………….110 2.1.2.4 Conclusiones sobre los 3 fabricantes de Implantes Cocleares……………….131 2.2 Algunas de las estrategias de procesamiento convencionales usadas en los implantes cocleares (no son las más actuales)………………………………………………………….133 2.2.1 Introducción……………………………………………………………..………….133 2.2.2 Estrategias…………………………………………………………………………..135 2.3 Funcionamiento de una prótesis auditiva actual…………………………………………138 2.3.1 Cirugía de implante coclear………………………………………………………....138 2.3.2 Primeros sonidos - Programación inicial…………………………………………...140 2.3.3 El funcionamiento de una prótesis auditiva actual para sordos profundos…………142 2.3.4 Procesamiento de la señal digital de alta definición………………………………..151 2.3.5 Cobertura coclear completa…………………………………………………………153 2.3.6 El futuro de los implantes en menos de 5 años……………………………………..157 2.4 Problemas anteriores y actuales de las prótesis auditivas………………………………..160 2.4.1 Efectividad de los implantes cocleares……………………………………………...160 2.4.2 La problemática actual de los implantes modernos………………………………...164 2.5 Análisis del habla en un implante coclear………………………………………………..168 2.5.1 Problemas que afectan el reconocimiento del habla en un implante coclear……….168 2.5.2 Descripción de una técnica de procesamiento convencional “CIS” (no es una técnica de última generación)……………………………………………………………………..169 2.5.3 Un ejemplo del análisis del habla con un implante Coclear………………………..173 CAPÍTULO III Análisis paramétrico……………………………………………………..174 3.1 El experimento con la vocal “a”…………………………………………………...……174 3.1.1 Análisis paramétrico y síntesis paramétrica de la vocal “a”………………………..174 3.1.1.1 Descripción general…………………………………………………………..174 3.1.1.2 Realización del análisis paramétrico…………………………………………175 iv 3.1.1.3 Realización de la síntesis aditiva paramétrica………………………………..180 3.2 El experimento con la palabra “campana”…………………………….………..………..199 3.2.1 Análisis paramétrico y síntesis paramétrica de la palabra “campana”……………...199 3.2.1.1 Descripción general…………………………………………………………..199 3.2.1.2 Realización del análisis paramétrico…………………………………………200 3.2.1.3 Realización de la síntesis aditiva paramétrica………………………………..204 3.3 Otros experimentos………………………………………………………………………220 3.3.1 Muestreos paramétricos de otras palabras…………………………………………..220 3.3.2 Los experimentos con SFS………………………………………………………….225 CAPÍTULO IV Planteamiento de otros experimentos…………………………………..227 RESULTADOS…………………………………………………………………….……….228 CONCLUSIONES…………………………………………………………………………..229 RECOMENDACIONES………………………………………………...………………….230 RESUMEN…………………………………………………………………………………..231 REFERENCIAS BIBLIOGRÁFICAS……………………………………………………….I ANEXOS…………………………………………………………………………………….XV v ÍNDICE DE FIGURAS Figura 1.1 Ejemplo de una fuente de sonido……………………………………………………1 Figura 1.2 Un timbre eléctrico con una bomba de vacío……………………………………….2 Figura 1.3 Describe lo que se ha descrito anteriormente……………………………………….3 Figura 1.4 La intensidad de una onda sonora…………………………………………………..5 Figura 1.5 Ejemplo de un ciclo completo de una partícula …………………………………...9 Figura 1.6 Dos partículas que realizan ciclos completos, con igual frecuencia pero con diferente amplitud……………………………………………………………………………..10 Figura 1.7 Demostración de la relación entre tono y frecuencia…………………...................12 Figura 1.8 La diferencia en el timbre………………………………………………………….13 Figura 1.9 Un resorte o un péndulo oscilando………………………………………………...14 Figura 1.10 Gráfica de un seno………………………………………………………………..14 Figura 1.11 Pulsaciones producidas por la superposición de dos ondas de frecuencias muy cercanas………………………………………………………………………………………..16 Figura 1.12 Tono enmascarador de 1200 Hz………………………………………………….17 Figura 1.13 Distintos tipos de formas de onda………………………………………………..20 Figura 1.14 Teclas de un piano que muestran una escala musical…………………………….23 Figura 1.15 Analogía del timbre………………………………………………………………25 Figura 1.16. El tracto Vocal…………………………………………………………………...27 Figura 1.17 Formante………………………………………………………………………….30 Figura 1.18 Señal sinusoidal ideal representada en el tiempo con su correspondiente representación en el espacio de frecuencias…………………………………………………...31 Figura 1.19 Construcción de una onda Cuadrada a partir de ondas senoidales……………….32 Figura 1.20 Representaciones espectrales de un sonido indeterminado………………………38 Figura 1.21 Oscilograma de una oración en castellano……………………………………….39 Figura 1.22 El Análisis Espectral de la vocal A en un tiempo dado con 2 herramientas diferentes………………………………………………………………………………………40 Figura 1.23 Espectrograma de una oración en castellano…………………………………….41 Figura 1.24 Ejemplo de las aplicaciones con el wavepad al archivo “campana.wav”, en el tiempo de 600ms………………………………………………………………………………43 Figura 1.25 Ejemplo de un tono generado con 3 ondas sinusoidales con el tone generator…..43 vi Figura 1.26 Muestra cómo seleccionar el archivo de audio que se desea analizar…………...45 Figura 1.27 Muestra como se ve el menú de formant settings………………………………...46 Figura 1.28 Un ejemplo de la ventana de edición (oscilograma, espectrograma y formantes), del archivo “Campana.wav”…………………………………………………………………..47 Figura 1.29 La obtención de formantes mediante una selección determinada del oscilograma................................................................................................................................48 Figura 1.30 Obtención de la lista de los formantes……………………………………………48 Figura 1.31 La ventana de cross-section generada por SFS para el análisis del archivo “Campana.wav”……………………………………………………………………………….51 Figura 1.32 Corte transversal del oído derecho……………………………………………….53 Figura 1.33 Como está constituido el Oído Externo…………………………………………..54 Figura 1.34 Como está constituido el oído medio…………………………………………….56 Figura 1.35 El laberinto óseo y membranoso…………………………………………………58 Figura 1.36 Corte transversal del conducto coclear en escala 25:1…………………………...60 Figura 1.37 La cóclea…………………………………………………………………………60 Figura 1.38 El órgano de corti………………………………………………………………...61 Figura 1.39 La distribución de las frecuencias en la cóclea…………………………………..62 Figura 1.40 Dos vistas de la cóclea hipotéticamente rectificada……………………………..63 Figura 1.41 Arriba, onda viajera en la membrana basilar en un instante dado. Abajo, posición de la onda en tres instantes de tiempo t1, t2 y t3…………………………….64 Figura 1.42 Envolvente espacial de las ondas viajeras sobre la membrana basilar para cuatro frecuencias diferentes………………………………………………………………………….65 Figura 1.43 Ubicación de la resonancia a lo largo de la membrana basilar en función de la frecuencia……………………………………………………………………………………...65 Figura 1.44 A la izquierda, una célula ciliada entre la membrana basilar y tectoria en estado de reposo………………………………………………………………………………………….66 Figura 1.45 Un audiograma…………………………………………………………………...74 Figura 2.1 Historia temprana de los implantes cocleares……………………………………..82 Figura 2.2 Se puede observar cómo está implantado el dispositivo completo en el cráneo humano………………………………………………………………………………………...83 Figura 2.3 Partes del procesador de sonido CP810…………………………………………...85 vii Figura 2.4 Este es el electrodo, la parte del implante que va dentro de la cóclea…………….87 Figura 2.5 Los electrodos de Cochlear vienen con 22 contactos de estimulación……………89 Figura 2.6 Se observa el tamaño diminuto del implante de la serie CI500…………………..90 Figura 2.7 El diseño del circuito del implante………………………………………………..91 Figura 2.8 Forma física del implante quirúrgico……………………………………………..91 Figura 2.9 El mando a distancia Nucleus……………………………………………………..92 Figura 2.10 En esta figura se puede observar a los procesadores OPUS 1 Y OPUS 2 respectivamente………………………………………………………………………………..96 Figura 2.11 Batería recargable y sistema de carga DaCapo…………………………………..97 Figura 2.12 Una señal sonora se puede dividir en dos componentes: la envolvente y la estructura fina………………………………………………………………………………….97 Figura 2.13 Una fotografía del Big Ben de Londres demuestra los beneficios que proporciona la estructura fina……………………………………………………………………………….98 Figura 2.14 Las opciones de portabaterías que maneja el OPUS 2…………………………102 Figura 2.15 Control Fine Tuner……………………………………………………………..103 Figura 2.16 Guía de electrodos……………………………………………………………...107 Figura 2.17 Implante Coclear PULSARCI100……………………………………………...108 Figura 2.18 Implante Coclear SONATATI100……………………………………………...109 Figura 2.19 Partes del sistema Harmony……………………………………………………112 Figura 2.20 El procesador Harmony………………………………………………………..113 Figura 2.21 Las diferentes combinaciones de colores………………………………………114 Figura 2.22 Se pueden conectar diferentes auriculares al procesador……………………….114 Figura 2.23 Diferentes tipos de Ganchos Auriculares……………………………………….115 Figura 2.24 Imágenes respectivas a las diferentes opciones de pilas (desechables y recargables) y cargadores…………………………………………………………………….117 Figura 2.25 Algunos accesorios del sistema Harmony……………………………………..118 Figura 2.26 El Procesador de sonido Platinum Series™……………………………………121 Figura 2.27 Algunos Accesorios del procesador PSP…………………………………….....122 Figura 2.28 El implante HiRes 90K Harmony………………………………………………124 Figura 2.29 Ejemplo que ayuda a entender cómo funciona la distribución activa de la corriente…………………………………………………...…………………………………129 viii Figura 2.30 Evolución de los diferentes tipos de estrategias de procesamiento del sonido...137 Figura 2.31 En esta figura se observan los principales pasos que se siguen en la cirugía…...139 Figura 2.32 Componentes de un sistema de Implante Coclear………………………………145 Figura 2.33 Funcionamiento de un implante coclear………………………………………...146 Figura 2.34 Esquema de la membrana basilar que muestra la base y el ápice……………..150 Figura 2.35 La estimulación de los Electrodos dentro de la cóclea…………………………150 Figura 2.36 Distribución de los canales……………………………………………………...155 Figura 2.37 Gráfica que muestra los resultados del porcentaje de monosílabos entendidos correctamente, según el tipo de estimulación de los canales………………………………...155 Figura 2.38 Se puede observar como la frecuencia de 350 Hz es percibida de forma correcta en la cóclea que tiene la inserción completa del electrodo……………………………………...156 Figura 2.39 Se observa cómo queda el electrodo en la cóclea al ser introducido profundamente………………………………………………………………….....................157 Figura 2.40 En este análisis temporal de frecuencia se muestra una pequeña canción donde se entona la letra “A” a diferentes tonos por una mujer………………………………………...161 Figura 2.41 Muestra la estimulación simultánea……………………………………………164 Figura 2.42 Se observa la diferencia de la salida de los pulsos……………………………...167 Figura 2.43 Los tipos de pulsos……………………………………………………………...167 Figura 2.44 Una representación de la forma de onda de un muestreo secuencial continuo de una implante de 4 canales……………………………………………………………………169 Figura 2.45 Diagrama a bloques de la estrategia CIS en un implante coclear………………172 Figura 2.46 Diagrama que muestra en la parte de arriba la operación de un implante coclear de 4 canales…………………………………………………………………………………..173 Figura 3.1 El oscilograma del wavepad con el archivo de sonido “a de jorge.wav” a 100ms………………………………………………………………………………………...178 Figura 3.2 Análisis espectral con la aplicación FFT del wavepad a 100 ms………………...179 Figura 3.3 El primer grupo de 16 del muestrea de 100 ms…………………………………..182 Figura 3.4 Los 16 archivos tipo tono, generados por el tone generator……………………...183 Figura 3.5 Explicación de la nomenclatura numérica para los archivos de tipo Tone y wave………………………………………………………………………………………….183 Figura 3.6 Copia del archivo 1_16 a 100ms.wave en Untitled 1…………………………….186 ix Figura 3.7 Apreciación del efecto Paste Mix con 64 armónicos…………………………....187 Figura 3.8 Describe la aplicación de mezcla (superposición) al utilizar el Paste Mix………188 Figura 3.9 Los archivos que son el resultado de la mezcla…………………………………..188 Figura 3.10 Copia del archivo 3_mezcla 64 a 1 00.wave……………………………………190 Figura 3.11 Se copia el archivo 5_mezcla 64 a 200.wave…………………………………...190 Figura 3.12 La correcta posición del cursor naranja del wavepad…………………………...191 Figura 3.13 El resultado de la combinación de los archivos 3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave……………………………………………………………………..192 Figura 3.14 Los 16 tonos generados por el tone generator en formato wave, abiertos con el wavepad……………………………………………………………………………………...193 Figura 3.15 El archivo que es resultado de la combinación entre los archivos 3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave………………………………………………………….194 Figura 3.16 Algunas herramientas de edición de audio del wavepad………………………..195 Figura 3.17 Los archivos enditados y el resultado final de la síntesis de la letra “a”………..196 Figura 3.18 Los indicadores de tiempo del wavepad, según la posición o selección del cursor naranja………………………………………………………………………………………..198 Figura 3.19 El archivo de audio “a de jorge.wav”…………………………………………...198 Figura 3.20 Configuración de la tabla 3.2……………………………………………………203 Figura 3.21 Algunos archivos tipo tono, generados por el tone generator………………….207 Figura 3.22 Algunos archivos tipo wave, generados por el tone generator…………………208 Figura 3.23 El análisis espectral del archivo 9_16 a 270ms.wave a 1 ms…………………..210 Figura 3.24 El análisis espectral del archivo 10_17 a 29 a 270ms.wave a 1 ms……………211 Figura 3.25 El análisis espectral del archivo 5_mezcla 1 a 29 a 270.wave…………………211 Figura 3.26 Estos son algunos de los 68 archivos generados con la aplicación de Paste Mix…………………………………………………………………………………………...212 Figura 3.27 Resultados de las combinaciones del primer grupo de muestreos de 230 a 870 ms…….....................................................................................................................................213 Figura 3.28 Resultado de las combinaciones del segundo grupo de muestreos de 200 a 220 ms…………………………………………………………………………………………….214 x Figura 3.29 Los archivos editados y el resultado final de la síntesis de la palabra “Campana”…………………………………………………………………………………...215 Figura 3.30 El análisis espectrográfico del archivo original “campana.wave”……………..217 Figura 3.31 El análisis espectral del archivo de síntesis de “campana” antes de aplicar el filtro pasa bajos…………………………………………………………………………………….218 Figura 3.32 El análisis espectral y espectrográfico realizado al archivo resultante de la síntesis de “campana”………………………………………………………………………………...218 Figura 3.33 Las cinco palabras con su análisis espectrográfico……………………………..222 Figura 3.34 Las palabras “campana” y “pelele”…………………………………………….223 Figura 3.35 Las palabra “coloso”……………………………………………………………224 xi ÍNDICE DE TABLAS Tabla 1.1 Algunos niveles de intensidad en dB………………………………………………...8 Tabla 1.2 Los armónicos principales, de la escala armónica………………………………….24 Tabla 1.3 Formantes que aparecen en el muestreo de 549 ms………………………………..51 Tabla 1.4 Harmónicos (en total son 88 muestras), del muestreo de 549 ms…………………..51 Tabla 2.1 Estrategias de Actualización………………………………………………………124 Tabla 2.2 Comparación entre el Harmony y el Nucleus 5…………………………………...163 Tabla 3.1 El análisis paramétrico de la vocal “a”……………………………………………177 Tabla 3.2 sección 1 Muestreo extenso de campana………………………………………….201 Tabla 3.2 sección 2 Muestreo extenso de campana………………………………………….202 xii INTRODUCCIÓN Padecer de la vista o del oído podía ser un problema, pero actualmente para la mayoría de los casos existe una solución. Por ejemplo: si tienes cataratas o usas lentes te puedes operar con rayo láser, si no puedes escuchar bien existen aparatos que permiten que lo hagas como si no tuvieras “problema”. Para ello la medicina pasó por muchos retos que venció, pero no lo hizo sola; porque necesitó de la intervención de otras ramas de la ciencia como: la física, mecánica y electrónica. Actualmente, gracias a la investigación científica un sordo profundo tiene grandes posibilidades de “oír”. Cada padecimiento aspira a alguna solución en particular. Por ejemplo: las personas que tienen déficit de audición, dependiendo de la pérdida de la sensibilidad auditiva podrían necesitar desde un simple amplificador en el oído, hasta un implante quirúrgico de una prótesis para el caso de los sordos profundos. Todos estos avances se han logrado con la constante experimentación e investigación de diferentes grupos científicos en todo el mundo. Para el caso de la ayuda a los sordos, son varios los países que se han destacado como: Australia, Austria, Francia y Estados Unidos. Históricamente el primer implante auditivo se realizó el 25 febrero de 1957 por Andre Djourno en Francia a una paciente sorda. Sin embargo, el sonido posee diferentes características que lo hacen complejo y que han provocado que con el paso de los años, se tengan que superar diferentes barreras para lograr que los sordos profundos escuchen. Hablando del sonido: El sonido de la voz humana posee una característica muy peculiar, el timbre; es el que nos permite distinguir a dos personas que hablan o a la misma nota producida por 2 instrumentos musicales diferentes. A través del timbre somos capaces de diferenciar, dos sonidos de diferentes fuentes de la misma intensidad y del mismo tono (o frecuencia fundamental). Los sonidos de la voz están compuestos por múltiples ondas simultáneas y que el oído percibe como una sola suma. El timbre depende de la cantidad de armónicos que tenga un sonido y de la intensidad de cada uno de ellos. Un Do emitido por una flauta es distinto al Do que emite una trompeta, ya que aunque estén tocando la misma nota, tienen distintos armónicos. Estos armónicos generan variaciones en la onda sinusoidal fundamental. xiii Los tonos puros son ondas con un modelo matemático sinusoidal de una frecuencia, fase e intensidad constante, asociado a un movimiento armónico simple. En la naturaleza de la voz, no existe este sonido puro, libre de armónicos. El Teorema de Fourier (en 1822) establece que cualquier forma de onda periódica puede descomponerse en una serie de ondas (armónicos), que tiene una frecuencia que es múltiplo de la frecuencia de la onda original (frecuencia fundamental). Así, las señales armónicas son tonos puros con diferentes intensidades, este análisis nos genera un conjunto paramétrico capaz de reproducir las señales. Para señales aperiódicas o casi periódicas como la voz humana en el caso particular de las vocales castellanas, se pueden analizar a través de la transformada rápida de Fourier. Debido a la descripción anterior se podrá notar que el sonido es complejo, entonces diseñar aparatos que permitan escuchar no ha sido fácil. Si nos enfocamos en la voz humana aquella es difícilmente legible por sus características como el timbre: que seria como la huella digital de la voz. Por ejemplo; si hacemos que 3 personas diferentes del mismo sexo, edad y complexión digan la vocal “a” a una persona que oye de forma normal, diferenciar la “a” de las 3 diferentes personas no será ningún problema. Ahora una persona que use una prótesis auditiva es difícil que puede tener el mismo resultado, ya que actualmente personas que podían escuchar antes y por alguna razón han perdido esa facultad, informan que oír a través de una prótesis no es lo mismo que tener una audición normal (1). Además, las personas que posean estas prótesis deberán aprender a interpretar los sonidos que perciban (2). Entonces que una persona sorda pueda escuchar mediante la ayuda de una prótesis auditiva, es un gran avance científico, pero actualmente no existe la perfección en la simulación de la audición humana. Este trabajo queda estructurado de la siguiente manera: en el primer Capítulo se describen los aspectos generales de la voz humana, el oído y el análisis frecuencial para un mejor entendimiento del tema. El segundo Capítulo, plantea la problemática de las prótesis auditivas. El tercer Capítulo describe todo el trabajo experimental desde el análisis paramétrico hasta la síntesis. El cuarto Capítulo hace referencia a los resultados obtenidos que ayudarán a la fabricación de mejores prótesis. xiv Objetivos de Investigación Objetivo General Realizar una investigación que optimice el reconocimiento del timbre de voz, con un proceso secuencial paramétrico, que ayude a la construcción de instrumentos y prótesis de mayor fidelidad para los sordos profundos. Objetivos Específicos 1. Describir los conocimientos generales y necesarios para el entendimiento de este trabajo. 2. Investigar sobre la tecnología de punta en prótesis auditivas alrededor del mundo. 3. Hacer un análisis y una síntesis paramétrica de al menos una vocal castellana emitida por una persona. 4. Realizar un análisis y una síntesis paramétrica de al menos una palabra castellana emitida por una persona. Hipótesis Este trabajo sigue una idea que es fundamental en la parte experimental de esta investigación, donde se cree que “dado un análisis paramétrico, la síntesis paramétrica de una señal de una vocal en castellano mantiene el timbre de la persona emisora”. Delimitaciones y limitaciones Debido a las limitaciones del software utilizado para el análisis y síntesis paramétrico del timbre de voz y al tiempo que se dispone para realizar este trabajo, obtener las síntesis de más de una vocal emitida por una persona, es probable que no se pueda llevar a cabo. xv Justificación Faltan pasos que dar en la ciencia para algún día alcanzar una alta reproducción de la audición humana. Este trabajo de investigación busca la obtención de un código paramétrico confiable que ayude a diseñar mejores prótesis auditivas, que puedan tener la capacidad de identificar y procesar correctamente una de las características más peculiares de la voz humana, su timbre. Debido a ello, la interpretación de los diferentes timbres de voz en un entorno ruidoso es un problema fundamental a resolver en las prótesis auditivas, y por consiguiente el enfoque de este trabajo. Impacto Social, tecnológico, económico y ambiental Esta investigación puede tener un impacto en la sociedad, ya que contribuye con herramientas teóricas que ayudarán a la construcción de prótesis auditivas para sordos profundos, de mayor calidad y menor costo. Puede motivar en un futuro a que se realicen más investigaciones sobre el tema del timbre de voz, en la problemática de un mejor entendimiento para el caso de los sordos profundos que posean una prótesis. 1 CAPÍTULO I La Voz Humana, El Oído y El Análisis Frecuencial 1.1 Conceptos generales del sonido 1.1.1 Características y cualidades del sonido (Timbre, frecuencia, amplitud de onda, etc.) Definición del sonido. (1) Cuando se produce una perturbación periódica en el aire, se originan ondas sonoras longitudinales donde el movimiento de partículas se desplaza en la misma dirección que la onda. Por ejemplo, si se golpea un diapasón con un martillo, las ramas vibratorias emiten ondas longitudinales. El oído, que actúa como receptor de estas ondas periódicas, las interpreta como sonido. El término sonido se usa de dos formas distintas. Los fisiólogos definen el sonido en término de las sensaciones auditivas producidas por perturbaciones longitudinales en el aire. En física, por otra parte, nos referimos a las perturbaciones por sí mismas y no a las sensaciones que producen. El Sonido es una onda mecánica longitudinal que se propaga a través de un medio elástico. (El concepto de sonido se describirá en su significado físico). Figura 1.1 Ejemplo de una fuente de sonido. Al provocar las vibraciones del diapasón el oído las percibe como sonidos (1). 2 La producción de una onda sonora. Deben haber dos factores para que exista el sonido. Es necesaria una fuente de vibración mecánica y también un medio elástico a través del cual se propague la perturbación. La fuente puede ser un diapasón, una cuerda que vibre o una columna de aire vibrando en un tubo de órgano, la vibración de las cuerdas vocales, etc. Los sonidos se producen por una materia que vibra. La necesidad de la existencia de un medio elástico se puede demostrar colocando un timbre eléctrico dentro de un frasco conectado a una bomba de vacío. Cuando el timbre se conecta a una batería para que suene continuamente, se extrae aire del frasco lentamente. A medida que va saliendo el aire del frasco, el sonido del timbre se vuelve cada vez más débil hasta que finalmente ya no se escucha. Cuando se permite que el aire penetre de nuevo al frasco, el timbre vuelve a sonar. Por lo tanto, el aire es necesario para transmitir el sonido. La bomba de vacío Figura 1.2 Un timbre eléctrico con una bomba de vacío. Un timbre que se acciona en el vacío no puede escucharse. Es necesario un medio material para que se produzca el sonido (1). Ahora describiendo más detalladamente las ondas sonoras longitudinales en el aire que proceden de una fuente que producen vibraciones. Una tira metálica delgada se sujeta fuertemente en su base, se tira de uno de sus lados y luego se suelta. Al oscilar el extremo libre de un lado a otro con movimiento armónico simple, se propagan a través del aire una serie de ondas sonoras longitudinales periódicas que se alejan de la fuente. Las moléculas de aire que colindan con la lámina metálica se comprimen y se expanden alternativamente, transmitiendo 3 una onda. Las regiones densas en las que gran número de moléculas se agrupan acercándose mucho entre sí se llaman compresiones. Son exactamente análogas a las condensaciones estudiadas para el caso de ondas longitudinales en un resorte en espiral. Las regiones que tienen relativamente pocas moléculas se conocen como rarefacciones. Las compresiones y rarefacciones se alternan a través del medio, en la misma forma que las partículas de aire individuales oscilan de un lado a otro en la dirección de la propagación de la onda. Puesto que una compresión corresponde a una región de alta presión y una rarefacción corresponde a una región de baja presión, una onda sonora también puede representarse trazando en una gráfica el cambio de presión P, así como una función de la distancia x. La distancia entre dos compresiones o rarefacciones sucesivas es la longitud de onda. Compresión A. Rarefacción B. Figura 1.3 Describe lo que se ha descrito anteriormente. λ. es la longitud de onda. A. Compresiones y rarefacciones de una onda sonora en el aire en un instante determinado. B. Variación sinusoidal de la presión como función del desplazamiento (1). Velocidad del sonido. La velocidad del sonido se puede medir directamente determinando el tiempo que tardan las ondas en moverse a través de una distancia conocida. En el aire, a 0ºC, el sonido viaja a una velocidad de 331 m/s. La velocidad de una onda depende de la elasticidad del medio y de la inercia de sus partículas. 4 Por ejemplo; la velocidad del sonido en un medio en estado sólido como el aluminio es mayor que en el aire, a 6400 m/s. Ondas sonoras. Se ha definido al sonido como una onda mecánica longitudinal que se propaga a través de un medio elástico. Ésta es una definición amplia que no impone restricciones a ninguna frecuencia del sonido. Los fisiólogos se interesan principalmente en las ondas sonoras que son capaces de afectar el sentido del oído. Por lo tanto, es conveniente dividir el espectro del sonido de acuerdo con las siguientes definiciones: • Sonido audible es el que corresponde a las ondas sonoras en un intervalo de frecuencias de 20 a 20,000 Hz. • Las ondas sonoras que tienen frecuencias por debajo del intervalo audible se denominan infrasónicas. • Las ondas sonoras que tienen frecuencias por encima del intervalo audible se llaman ultrasónicas. Cuando se estudian los sonidos audibles, los fisiólogos usan los términos: fuerza, tono y calidad (timbre) para describir las sensaciones producidas. Por desgracia, estos términos representan magnitudes sensoriales y por lo tanto subjetivas. Lo que es volumen fuerte para una persona es moderado para otra. Lo que alguien percibe como calidad, otro lo considera inferior. Como siempre, los físicos deben trabajar con definiciones explícitas que se puedan medir. Por lo tanto, el físico intenta correlacionar los efectos sensoriales con las propiedades físicas de las ondas. Estas correlaciones se resumen en la siguiente forma: Efectos sensoriales (cualidades del sonido) y (características del sonido) propiedad física. Intensidad acústica (volumen)/ amplitud. Tono /frecuencia. Timbre (calidad) / forma de la onda. 5 El significado de los términos de la izquierda puede variar considerablemente de uno a otro individuo. Los términos de la derecha son medibles y objetivos. Estos términos se describirán a continuación. Cualidades y características del sonido. Intensidad Las ondas sonoras constituyen un flujo de energía a través de la materia. La intensidad de una onda sonora específica, es una medida de la razón a la cual la energía se propaga a través de un cierto volumen espacial. Un método conveniente para especificar la intensidad sonora es en términos de la rapidez con que la energía se transfiere, a través de la unidad de área normal a la dirección de la propagación de la onda. Puesto que la rapidez a la cual fluye la energía es la potencia de una onda, la intensidad puede relacionarse con la potencia por unidad de área que pasa por un punto dado. Figura 1.4 La intensidad de una onda sonora. Es una medida de la potencia transmitida por unidad de área perpendicular a la dirección de propagación de onda. Su fórmula es la siguiente I= P/A. Las unidades para la intensidad resultan de la relación de una unidad de potencia entre una unidad de área. 6 En unidades del SI, la intensidad se expresa en la unidad de Watt/m2, sin embargo, la rapidez de flujo de energía en ondas sonoras es pequeña por lo que se usa W/cm2. El factor de conversión es: 1 W/cm2 = 1 x 10-2 W/m2 La intensidad I0 del sonido audible apenas perceptible es el orden de 10-12 W/m2. Esta intensidad, que se conoce como umbral de audición, ha sido adoptada por expertos en acústica como la intensidad mínima para que un sonido sea audible (se toma como una referencia fija). El umbral de audición representa el patrón de la intensidad mínima para que un sonido sea audible. Su valor a una frecuencia de 1000 Hz es: I0 = 1 x 10-12 W/m2 = 1 x 10-14 W/cm2 El intervalo de intensidades por arriba del cual el oído humano es sensible es enorme. Abarca desde el umbral de audición I0 hasta una intensidad de 10-12 veces mayor. EL extremo superior representa el punto en el que la intensidad es intolerable para el oído humano. La sensación se vuelve dolorosa y no sólo auditiva. El umbral del dolor representa la intensidad máxima que el oído promedio puede registrar sin sentir dolor. Su valor es: 1p = 1 W/m2 = 100 W/cm2 En vista de la amplitud del intervalo de intensidades al que es sensible el oído, es más conveniente establecer una escala logarítmica para las mediciones de intensidades sonoras. Se utiliza una escala logarítmica porque la sensibilidad que presenta el oído humano a las variaciones de intensidad sonora sigue una escala aproximadamente logarítmica, no lineal. Dicha escala se establece a partir de la siguiente regla. Cuando la intensidad I, de un sonido es 10 veces mayor que la intensidad I2 de otro, se dice que la relación de intensidades es de 1 bel (B). O sea que, cuando se compara la intensidad de dos sonidos, nos referimos a la diferencia entre niveles de intensidad dada por: B= log I1 / I2 beles (B) Donde I1, es la unidad de un sonido e I2 es la intensidad del otro. 7 En la práctica, la unidad de 1 B es demasiado grande. Para obtener una unidad más útil, se define el decibel (dB) como un décimo del bel. Usando la intensidad I0 como patrón de comparación para todas las intensidades, es posible establecer una escala general para valorar cualquier sonido. El nivel de intensidad en decibeles de cualquier sonido de intensidad I puede calcularse a partir de la relación general. B= 10 log I/ I0 decibles (dB) Donde I0 es la intensidad del umbral de audición (1 x 10-12 W/m2). El nivel de intensidad para I0 es de cero decibeles. Entonces se tiene que en virtud de la notación logarítmica de los decibeles, existe un amplio intervalo de intensidades y se reduce a un espectro de 0 a 120 dB (pero hay sonidos de mayor intensidad, por encima del umbral del dolor). Sin embargo hay que recalcar, que la escala no es lineal sino logarítmica. Un sonido de 40 dB es mucho más que el doble de intensidad de un sonido de 20 dB. Un sonido es 100 veces más intenso que otro es tan sólo 20 dB mayor. En la siguiente tabla 1.1 aparecen varios ejemplos de los niveles de intensidad de sonidos comunes. 8 Nivel de intensidad de algunos sonidos comunes ( dB) Umb r a lde ( dB) 0 Tr á f i c ope s a do 70 10 Fá b r i c a 80 Rumordeh oj a s 20 Ca mi ónpe s a do 90 Mur mul l oa5m 30 Tr e ns ub ur b a n o 100 Bi bl i ot e c a 40 Of i c i nat r a n qui l a 50 Con c i e r t oder oc k 120( umb r a ldedol or ) 60 Ma r t i l l one umá t i c o 130 a udi c i ón Re s pi r a c i ón n or ma l Con ve r s a c i ón n or ma l Rui dode c on s t r uc c i ón 110 Tabla 1.1 Algunos niveles de intensidad en dB (2). Ampl i t ud( r e l a c i on a doc onl ai n t e n s i da d) Laa mpl i t uddeun aon dades oni do,e se lgr a dodemovi mi e n t odel a smol é c ul a sdea i r ee nl a on da ,quec or r e s p on deal ai n t e ns i da ddel ar a r e f a c c i ónyc ompr e s i ónquel aa c ompaa n . Cua n t oma y ore sl aa mpl i t uddel aon da ,má si n t e n s oe se lgol pel a smol é c ul a sa lt í mpa n ode l oí doymá sf ue r t ee se ls oni dope r c i bi do.Laa mpl i t uddeun aon dades oni dopue dee x pr e s a r s e e nuni da de sa b s ol ut a smi di e n dol adi s t a n c i adede s pl a z a mi e n t odel a smol é c ul a sde la i r e ,ol a di f e r e n c i adepr e s i on e se n t r el ac ompr e s i ónyl ar a r e f a c c i ón ,ol ae n e r gí at r a n s por t a da( 10) . 9 Fr e c ue n c i a ( 3)Laf r e c ue n c i adeos c i l a c i óndeun apa r t í c ul a ,( odec ua l qui e rma gni t ud,c omopore j e mpl o e lv ol t a j edeun as ea le l é c t r i c a )e sl ac a n t i da ddec i c l osc ompl e t ose nunt i e mpoda do.La f r e c ue n c i as emi dee nh e r t z i os( Hz . ) ,ei n di c ae ln úme r odec i c l osc ompl e t ose nuns e gun do. Unc i c l oe se lr e c or r i doc ompl e t oquee f e c t úaunapa r t í c ul ade s des upos i c i ónc e n t r a l ,h a s t a ot r av e ze s ami s mapos i c i ón ,pa s a n dopors up os i c i óndede s pl a z a mi e n t omá xi moymí ni mo. Figura 1.5 Ejemplo de un ciclo completo de una partícula (3). Loss oni dosdeun aúni c af r e c ue n c i a ,s el l a ma nt on ospur os .Unt on opur os ee s c uc h ac omoun " pi t i do" ,e lt i mbr ede pe n de r ádel af r e c ue n c i aquel oge n e r e .Els oni doques ee s c uc h ae ne l t e l é f on oa n t e sdema r c a r ,pore j e mpl o,c or r e s p on deaunt on opu r odef r e c ue n c i ac e r c a n aa400 Hz . Lapos i c i óndeun apa r t í c ul ae nuni ns t a n t edet i e mpoc on c r e t o,de pe n de r ádet r e sf a c t or e s : f r e c ue n c i a ,módul oyf a s e .Laf r e c ue n c i ay as ehade f i ni do.Elmódul oi n di c al aa mpl i t uddel a os c i l a c i ón ,s is et r a t adepa r t í c ul a sques emue ve n ,e lmódul oe s t a r áde f i ni doe nme t r os( m) ,s i s et r a t adeun as ea le l é c t r i c a ,e lmódul oe s t a r áde f i ni doe nv ol t i os( V) .Enl as i gui e n t efigura 1.6 s et i e n e ndospa r t í c ul a squer e a l i z a nc i c l osc ompl e t os( h a c e nunc i c l oypa r a n ) .La sdos os c i l a nc oni gua lf r e c ue n c i a ,pe r ov a r í al aa mpl i t ud,y aquee lmódul odel apa r t í c ul aI Ie s ma y orquee lmódul odel apa r t í c ul aI . 10 Figura 1.6 Dos partículas que realizan ciclos completos, con igual frecuencia pero con diferente amplitud (3). Laf a s ei ndi c al apos i c i óndel apa r t í c ul aqueos c i l ae ne lmome n t odee mpe z a rac on t a re l t i e mpo,e sde c i re nT=0s .Laf a s es emi dee nr a di a n e s( r a d)oe ngr a dos() .360 =2πr a d.Si c a l c ul a mose lc os e n odel af a s e ,n osdaunv a l ore n t r e1y1.Vi e n dol a spa r t í c ul a sIyI I ,1 s i gni f i c a r í aquel apa r t í c ul ae s t a b aal ade r e c h ade lt od o,1al ai z qui e r dade lt od o. Seh a bl adef a s er e l a t i v ac ua n do l o quei n t e r e s ae sl adi f e r e n c i aquee xi s t ee n t r ed os movi mi e n t osde l a mi s ma f r e c ue nc i a .Sidospa r t í c ul a su on da ss e mue ve nc on i gua l f r e c ue n c i a ,pe r oc ua n doun apa s aporc e r o,l aot r an ol oh a c eol oh a c ee ndi r e c c i ónc on t r a r i a , t e n dr á nun af a s er e l a t i v adi s t i n t adec e r o.Sipa s aun apa r t í c ul ae x a c t a me n t eporc e r o,yl aot r a l oh a c ee ndi r e c c i ónc on t r a r i a ,t e n dr á nunaf a s er e l a t i v ade180 ( gr a dos )odeπr a di a n e s .En e s t ec a s o,s il a sdoson da st i e n e ni gua lmódul o,s ec a nc e l a r á nunaal aot r a ,s i e n doe lr e s ul t a do t ot a lc e r o.Sidosma n ost r a t a ndemov e rc oni gua lf ue r z aun ah oj adepa pe l ,c a daun ade s deun l a do,c onf a s er e l a t i v ac e r o,e lde s pl a z a mi e n t odel ah oj as e r ámá xi mo.Esde c i r ,c ua n doun a e mpuj al aot r ar e c oge( l a sdospa s a nporc e r oe ne lmi s momome n t oymi s madi r e c c i ón ) .Sil o h a c e nc onf a s er e l a t i va180,e lde s pl a z a mi e n t os e r án ul o. Al af r e c ue n c i adeos c i l a c i óndeunapa r t í c ul as el epue deme di re lt i e mpoquet a r dae n c ompl e t a r s el osc i c l os .Es t ame di das el ec on oc ec omoElpe r i odo( T) ,quee se li nve r s odel a f r e c ue n c i a( T=1/ f ) .Elpe r i odo s emi dee ns e gun dos( s ) .Cua l qui e rs oni do ( v oz ,mús i c a , r ui do. . . )e s t ác ompue s t op ormúl t i pl e sf r e c ue nc i a s .Sepue dede s c ompon e re ls oni do e n 11 múl t i pl e st on ospu r os .Siuns oni doc a mbi ac one lt i e mpo,l aa mpl i t udyf a s edec a dat on opur o of r e c ue nc i ae nques ede s c omponee s es oni do,t a mbi é nva r i a r í ac one lt i e mpo. Elt on ooa l t ur a( un ar e l a c i ónc onl af r e c ue n c i a ) ( 1)Ele f e c t odel ai n t e n s i da de ne loí doh uma n os ema ni f i e s t ae ns ími s moc omov ol ume n .En ge n e r a l ,l a son da ss on or a sques onmá si n t e ns a ss ont a mbi é ndema y orv ol ume n ,pe r oe loí do n oe si gua l me n t es e n s i bl eas oni dosdet oda sl a sf r e c ue n c i a s .Porl ot a n t o,uns oni dodea l t a f r e c ue n c i apue den opa r e c e rt a na l t o,c omoun odeme n orf r e c ue n c i aquet e n gal ami s ma i n t e n s i da d.Pore j e mpl ol as e n s a c i óndev ol ume nquepr oduc euns oni dode100dBn oe sl a mi s mas ie ls oni doe sde50Hzques ie sde2000Hz( 2) . Laf r e c ue nc i adeuns oni dode t e r mi nal oquee loí doj uz ga ,c omoe lt on ode ls oni do.Los mús i c osde s i gn a ne lt on oporl a sl e t r a squec or r e s pon de nal a sn ot a sdel a st e c l a sde lpi a n o. Pore j e mpl o,l a sn ot a sd o,r eyf as er e f i e r e nat on ose s pe c í f i c os ,of r e c ue nc i a s . Elt on o,e sl ac a r a c t e r í s t i c aquen ospe r mi t edi f e r e n c i a runs oni doa gudodeun ogr a v e .Vi e ne pr oduc i dopore ln úme r odevi b r a c i on e spors e gun do( f r e c ue nc i a ) ,a s íama y orn úme r ode vi br a c i on e spors e gun domá sa gudoe se ls oni do,yame n orn úme r odevi br a c i on e smá sgr a ve e se ls oni do.( 4 ) Une j e mpl odel apr oduc c i óndedi f e r e n t e st on os :undi s c odes i r e n a ,c omoe lques emue s t r a e nl as i gui e n t efigura 1.7,pue deu t i l i z a r s epa r ade mos t r a rc ómoe lt on oque dade t e r mi na dopor l af r e c ue n c i adeuns oni do.Un ac or r i e n t edea i r es ee nví as ob r eunahi l e r adea guj e r os i gua l me n t ee s pa c i a dos .Alv a r i a rl av e l oc i da dder ot a c i ónde ldi s c o( os e al af r e c ue n c i ade r ot a c i ón ) ,e lt on ode ls oni dor e s ul t a n t es ei n c r e me nt aode c r e c e . 12 Figura 1.7 Demostración de la relación entre tono y frecuencia (1). For madeon da ( 1)Doss oni dosde lmi s mot on os epue de ndi s t i n gui rf á c i l me n t e .Pore j e mpl o,s is ue n al an ot a do( 250Hz )s uc e s i va me n t ee nunpi a n o,un af l a ut a ,un at r ompe t ayunvi ol í n.Aúnc ua n do c a das oni dot i e n ee lmi s mot on o,h a yun ama r c a dadi f e r e nc i ae ne lt i mb r e .Sedi c equee s t a di f e r e n c i ar e s ul t aun av a r i a c i óne nl ac a l i da doe lt i mb r ede ls oni do.En t on c e sl af or made on dae sl ac a r a c t e r í s t i c aquen ospe r mi t i r ádi s t i n gui run an ot adel ami s maf r e c ue n c i ae i n t e n s i da dpr oduc i dapori n s t r ume n t osdi f e r e n t e s .Laf or madeon davi e n ede t e r mi na daporl os a r móni c os( l ae x pl i c a c i óndel osa r móni c oss ede s c r i b emá sa de l a n t e ) .( 4) Enl osi ns t r ume n t osmus i c a l e s ,i nde pe n di e n t e me n t edel af ue n t edevi br a c i ón ,ge n e r a l me n t es e e x c i t a ne nf or mas i mul t á n e adi ve r s osmodosdeos c i l a c i ón .Porc on s i gui e n t e ,e ls oni do pr oduc i doc on s i s t en os ól oe nl af un da me n t a l ,s i not a mbi é ne nva r i oss ob r e t on os .Lac a l i da d deuns oni dos ede t e r mi napore ln úme r o yl a si n t e n s i da de sr e l a t i v a sdel oss ob r e t on os pr e s e n t e s .Ladi f e r e n c i ae nl ac a l i da dot i mb r ee nt r ed oss oni dospue deobs e r va r s ee nf or ma obj e t i v aa n a l i z a n dol a sc ompl e j a sf or ma sdeon daquer e s ul t a ndec a das oni do. Ti mbr e( r e l a c i on a doc onl af or madeon da ) Es t apa r t ee smuyi mpor t a n t e ! ,por quee ne s t et r a b a j odet e s i se ne lCa pí t ul oI I Is eh a c e n di f e r e n t e sa n á l i s i sys í n t e s i sc ons ea l e sdev oz ,don deun odel os f a c t or e spr i n c i pa l e sde e s t udi oe se lt i mbr e . 13 ( 5)Elt i mb r ee sl ac ua l i da ddel as e n s a c i óns on or aquepe r mi t ee s t a bl e c e rl apr ov e ni e n c i ade l osdi f e r e n t e ss oni dosyr ui dos .Loss oni dospr oduc i dosporunmi s moi ns t r ume n t ot i e n e n t od osunt i mbr ei gua los i mi l a r ,c ua l qui e r as e as ut on oei n t e ns i da d;porot r apa r t e ,d oss oni dos dei gua lt on oei n t e ns i da de j e c ut a dospori ns t r ume n t osdi s t i n t oss e r á ni nc onf un di bl e s ,pue ss u t i mb r es e r ádi f e r e n t e . Dosmovi mi e n t osvi b r a t or i osdei gua lf r e c ue n c i aya mpl i t udpr oduc i r á ns oni dosde lmi s mo t on oei n t e n s i da d;s ie s t oss oni dosdi f i e r e ne ns ut i mbr e ,e se vi de n t equeh a b r áun at e r c e r a c a r a c t e r í s t i c ade lmovi mi e n t ovi b r a t or i oques e r ál aquepr oduc i r ádi c h adi f e r e n c i a .Es t a c a r a c t e r í s t i c ade lmovi mi e n t ovi b r a t or i oe sl al e ys e gúnl ac ua lv a r í al ae l on ga c i ón( di s t a n c i a , del apa r t í c ul aquevi b r a ,r e s pe c t odes up os i c i óndee qui l i b r i oe nc ua l qui e ri n s t a n t e . )e nf un c i ón de lt i e mpoe ne li n t e r v a l odeunpe r í odo. Lar e pr e s e n t a c i óngr á f i c adel av a r i a c i óndel ae l on ga c i óne nf un c i ónde lt i e mpo,or i gi n al a s di s t i n t a sc ur v a s que c a r a c t e r i z a ne lt i mb r e de c a da s oni do.Pore s t ar a z ón ,s e di c e f r e c ue n t e me n t equee lt i mb r ede pe n dedel af or maodel ac ompl e j i da ddel aon das on or a . Piano Do Clarinete Do Figura 1.8 La diferencia en el timbre. Muestra la forma de onda, de dos notas de igual frecuencia fundamental pero de instrumentos diferentes (6). Ha yr e c or da rquel a sc ur v a sc or r e s pon di e n t e sal a son da ss on or a squeé s t a sor i gi na n ,n o i ndi c a ne lmovi mi e n t or e a ldel a spa r t í c ul a sde lc ue r pos on or oode lme di oe ne lc ua ls e pr opa gal aon das i n oquer e pr e s e n t a nl a sv a r i a c i on e se nf un c i ónde lt i e mpodel ae l on ga c i ón dedi c h a spa r t í c ul a s ,mi e n t r a squel osmovi mi e n t oss er e a l i z a ns ob r epe queí s i ma st r a y e c t or i a s r e c t i l í ne a s . 14 Pa r aa c l a r a re s t o,r e c ur r a mosal as i nus oi de ;s es a b equeé s t ar e pr e s e n t ae lmovi mi e n t odeun pun t oques emue v ec onmovi mi e n t oa r móni c os i mpl e ,y as e aé s t ee lpun t oma t e r i a ldeun pé n dul oqueos c i l al a t e r a l me n t es ob r euna r c odec i r c unf e r e n c i aol ape s adeunr e s or t e os c i l a n dos ob r eun al í ne av e r t i c a l .Ese vi de n t equel ac ur v ar e pr e s e n t as ol a me n t el av a r i a c i ón del ae l on ga c i óne nf un c i ónde lt i e mpo,pue sdeot r omodo,e lmovi mi e n t odel ape s aye l movi mi e n t oc ur vi l í ne ode lpun t oma t e r i a ldel ape s ade bi e r a nr e pr e s e n t a r s edema n e r adi s t i n t a . Figura 1.9 Un resorte o un péndulo oscilando. Una partícula describe un movimiento vibratorio u oscilatorio cuando se desplaza sucesivamente a un lado y a otro de su posición de equilibrio, repitiendo a intervalos regulares sus variables cinemáticas (7). 0 Figura 1.10 Gráfica de un seno. Un resorte o un péndulo oscilando son ejemplos de un movimiento armónico simple, el cual es el más simple de los movimientos vibratorios. Se llaman así porque se expresan mediante funciones armónicas de seno y coseno. La proyección del movimiento sobre un eje “0”, genera la gráfica que se muestra en la figura (7). 15 Sin osr e f e r i mosa lt i mbr ede s deun ape r c e pc i óne ne loí do,e s t es e gúnl al e ydeOhm ( G.S. Ohm,f ueunf í s i c oa l e má ne npr opon e rl a ss e ns a c i on e sde lt i mbr ee ne loí do)a n a l i z al a son da s c ompl e j a s que s ob r eé li nc i de n ,de s c omponi é n dol a se ns us c ompon e n t e ss i nus oi da l e s , c ompor t á n dos ec omos ie s t uvi e r ac ons t i t ui doporu n amul t i t udder e s on a dor e s ,c a daun odel os c ua l e sr e s ue n apa r auns oni dos i mpl ede t e r mi na do;s ee n t i e n depors oni dos i mpl ee lpr oduc i do porun as ol aon das i nus oi da l . Los s oni dos s i mpl e s que c ompon e ne ls oni do c ompl e j os el e sl l a ma na r móni c os . Sel l a ma na r móni c osa ur a l e sl oss oni dosge n e r a dosp orl adi s t or s i óni n t r oduc i dapore loí do. Esf á c i lde mos t r a rs ue xi s t e n c i a ,c r e a n do pul s a c i on e sc on s oni dospur osde f r e c ue nc i a pr óxi ma . Ale s t udi a re lt i mbr edes oni dospr oduc i dosporpe r c us i óne sne c e s a r i ot oma re nc ue n t al a e xi s t e n c i adepa r c i a l e st r a n s i t or i osof uga c e s ,quea pa r e c e ni nme di a t a me n t ede s pué sdel a pe r c us i ónydur a nf r a c c i on e spe quea sdes e gun do,modi f i c a n dogr a n de me n t es i ne mba r go,e l t i mb r ede ls oni do. He r ma nnv onHe l mh ol t ze ns ul i br o" Se ns a c i on e ss on or a s " ,publ i c a doe n1862,r e s umi ól os r e s ul t a dosde8aosdee x pe r i e n c i a sr e a l i z a da spa r ac onf i r ma rl al e ydeOhm di c i e n do:" l a s di f e r e n c i a sdet i mb r edel osdi s t i n t oss oni dos ,pr ovi e n e núni c a me n t edel apr e s e n c i ade a r móni c osydes ui n t e n s i da dr e l a t i v a " .He l mhol t zyOhm s os t e ní a nquel af a s edel os di f e r e n t e sa r móni c osn oi nf l uy ee ne lt i mbr ede lc ompl e j o,pe r oe s t ea s pe c t odes ut e or í aha s i dor e f ut a dop orob s e r v a dor e smá sr e c i e n t e s . Ens ua s pe c t of i s i ol ógi c o,l a st e or í a sdeHe l mhol t zyOhm s upon e nquel a sf i br a sdel a me mbr a n ab a s i l a ryl osór ga n osdeCor t ide s e mpea ne lpa pe lder e s on a dor e spa r al oss oni dos s i mpl e s .Lat e or í adeHe l mh ol t z ,muyc onv e ni e n t eba j oc i e r t osa s pe c t os ,n oe x pl i c ac ont od o v a r i osf e n óme n osc omol a spul s a c i on e sye le nma s c a r a mi e n t o,r a z ónporl ac ua lhac a í doe n de s us o. Es t os2úl t i mosf e n óme n oss oni mpor t a n t e sys ede s c r i b e nac on t i n ua c i ón : 16 Fe n óme n odeb a t i doopul s a c i on e s : ( 8)Las upe r pos i c i óndeon da sdef r e c ue n c i a sƒ1 y ƒ2 muy cercanas entre sí produce un fenómeno particular denominado pulsación (o batido). En esos casos nuestro sistema auditivo (porque excitan prácticamente la misma zona de la membrana basilar, sumándose sus efectos.) no es capaz de percibir separadamente las dos frecuencias presentes, sino que se percibe una frecuencia promedio (ƒ1 + ƒ2) / 2, pero que cambia en amplitud a una frecuencia de ƒ2 - ƒ1. Es decir, si se superponen dos ondas senoidales (tonos puros) de 300 Hz y 304 Hz, nuestro sistema auditivo percibirá un solo sonido cuya altura corresponde a una onda de 302 Hz y cuya amplitud varía con una frecuencia de 4 Hz (es decir, cuatro veces por segundo). Figura 1.11 Pulsaciones producidas por la superposición de dos ondas de frecuencias muy cercanas (8). Fenómeno de enmascaramiento: (9) Es la anulación de un sonido por la mayor intensidad sonora de otro. Un ejemplo: Un tono enmascarador de 1200 Hz que está a 20, 40, 60 y 80 dB por encima de su umbral de audición. A 20 dB únicamente los tonos de frecuencia parecida quedan un poco enmascarados. Basta con elevar a 15 dB el tono enmascarado para percibirlo. Las frecuencias tanto altas como bajas se oirán con cualquier intensidad sonora. Si aumenta la sonoridad del tono enmascarador la cosa cambia. A 60 dB se empiezan a enmascarar un poco las altas frecuencias. Al subir a 80 17 dB el tono enmascarador, se puede observar como los tonos de frecuencia alta quedan muy enmascarados mientras que los graves apenas se enmascaran. Se puede resumir el fenómeno con las siguientes palabras: • El efecto es máximo para sonidos con frecuencias próximas a las del sonido enmascarador. • El efecto es mínimo para sonidos de baja frecuencia. • Con intensidad sonora elevada se enmascaran más las frecuencias altas, al igual que las frecuencias con un nivel de presión sonora baja del sonido enmascarador. La siguiente figura 1.12 muestra las curvas de puntos del sonido enmascarado, y muestra cuantos dB se tiene que elevar este tono enmascarado por encima de su umbral de audición para que se pueda percibir. Figura 1.12 Tono enmascarador de 1200 Hz (9). Continuando con la descripción del timbre: El profesor Fritz Volbach, en su interesante libro "La orquesta moderna", sostiene que hay sólo dos formas básicas en las ondas sonoras: una forma sinuosa y una forma dentada, con todos los posibles tipos de transición, correspondiendo las formas sinuosas a los sonidos de la flauta y la trompa y las formas dentadas al oboe y la trompeta; los armónicos se agregan a estas ondas formando ondas de superposición, pero sin alterar su carácter básico; sostiene además, que los armónicos de un sonido poseen ya el timbre de éste. Según Volbach, no podrá 18 nunca sintetizarse el timbre de la trompeta a partir de parciales de la flauta, por ejemplo, aunque se varíen sus intensidades y se quiten o añadan parciales. Haciendo estudios sobre los instrumentos de viento, deduce que el modo de provocar la vibración del aire influye decisivamente sobre el timbre: si las compresiones y dilataciones se producen suavemente, la forma básica de la onda será sinuosa, evolucionando hacia la forma dentada cuanto más violenta es la producción de las ondas. El estudio de las ondas producidas por explosiones, parece confirmar esta teoría. Una de las contribuciones modernas que más interesa al estudio del timbre, es la teoría del formante (se describirá detalladamente más adelante). Según la teoría clásica de Helmholtz, el timbre de los sonidos, dependía de la relación entre las frecuencias de los distintos armónicos y la frecuencia de la fundamental, cualquiera sea esta última. La teoría del formante sostiene por el contrario que para cada timbre existe una banda estrecha de frecuencias, de altura absoluta fija, que está siempre presente, cualquiera sea la frecuencia de la fundamental. En el caso del violín, las frecuencias formantes que caracterizan su timbre estarían siempre comprendidas entre 3500 y 5000 ciclos. Las sensaciones de timbre no son mensurables como las de altura y de intensidad, pues la mayor o menor complejidad de un movimiento vibratorio no constituye una magnitud para la cual pueda establecerse una unidad de medida, ni escalas. No existen por lo tanto umbral ni cima para las sensaciones de timbre. Para ordenar los sonidos según su complejidad, se establece una relación entre la energía total y la energía de todos los parciales menos la fundamental; un sonido con 3 % de distorsión será uno en que la fundamental posee el 97 % de la energía total. El estudio del timbre se puede realizar por dos vías opuestas y complementarias: por análisis y por síntesis. El primero en analizar sonidos fue Helmholtz que efectuó sus análisis mediante los resonadores por él inventados. El uso de resonadores permite determinar cuales son los armónicos presentes pero no su intensidad; para esto se recurre actualmente a los analizadores armónicos, que muestran simultáneamente las intensidades de los armónicos componentes mediante diversos circuitos eléctricos. Los resultados de estos análisis son expuestos en lo que 19 se llama espectros armónicos. Los espectros armónicos de los distintos instrumentos: las ordenadas son proporcionales a las intensidades (medida en decibeles) y las abscisas a las frecuencias de los armónicos (como el caso de uno de los programas utilizados para el análisis de una señal sonora “wavepad”, que se describirá más adelante). La síntesis de sonidos es también de gran utilidad, pues permite confirmar los resultados del análisis. Helmholtz y Koenig construyeron un aparato formado por diez diapasones y sus correspondientes resonadores mediante el cual sintetizaron con bastante éxito algunos sonidos. Actualmente se utiliza un aparato llamado "synthephone" que permite sintetizar la mayoría de los sonidos conocidos y crear timbres nuevos. 1.1.2 Las Formas de Onda Una Forma de Onda es una representación gráfica de las variaciones de alguna señal continua con respecto al tiempo. La forma de onda de un sonido representa los cambios en la presión del aire (amplitud) que son causadas por la excitación del aire, por ejemplo, por un instrumento musical. Debe comprenderse que esta no es la única forma en que un sonido puede ser definido. Una forma de onda representa a la señal en su desarrollo temporal, es una representación en el "dominio del tiempo". El sonido puede ser también representado en el "dominio de la frecuencia"; esto se conoce como espectro (se describirá más adelante), y ofrece una imagen del timbre sonoro. Una considerable cantidad de sofisticadas técnicas de análisis han sido desarrolladas para poder convertir ("transformar") la representación de una señal del dominio temporal al dominio de las frecuencias, y viceversa ("transformación inversa"). Muchas de ellas están basadas en el uso de computadoras. En la realización del Capítulo III en el análisis y síntesis de sonidos se tienen ambas representaciones (11). (12) Formas comunes de onda. 20 Figura 1.13 Distintos tipos de formas de onda (12). La definición (nombre) hace referencia a la forma o característica que tiene cada una de ellas: 1. Onda senoidal. 2. Onda en diente de sierra. 3. Onda cuadrada. 4. Pulso. 5. Onda senoidal amortiguada. 6. Onda triangular. 7. Escalón. 8. Forma de onda compleja. Algunos ejemplos que generarían estas formas de onda: • Onda senoidal, es la tensión de la red eléctrica de uso doméstico, con una tensión de 120 V y una frecuencia de 60 Hz. • Una onda cuadrada, es la que proporciona por ejemplo un generador de efecto Hall. • El escalón, se produce cuando se detecta el paso de un estado eléctrico a otro; por ejemplo la puesta en marcha de un elemento. • El pulso, se produce cuando se detecta la activación momentánea de un elemento, por ejemplo el destello intermitente de una lámpara. • Las formas de onda compleja, son las que pueden ser una combinación de varias (cuadrada, senoidal amortiguada etc.). Por ejemplo las del encendido de un electrodoméstico (otro ejemplo podría ser la voz humana). 21 Pero específicamente en este Capítulo se habla del sonido, entonces se manejará un enfoque con las formas de onda generadas por los sonidos. (13) Según se elija una forma de onda u otra se consigue un tipo de sonido u otro (generando diferentes timbres de uno a otro). Estas cuatro son las cuatro formas de onda típicas, las clásicas: • Sinusoide: es un tipo de forma de onda que sirve para sonidos muy artificiales, ya que en la naturaleza es raro encontrar un sonido sinusoidal (por ejemplo el silvido). • Cuadrada: esta forma de onda es parecida a la sinusoide, pero en este caso se consigue un sonido más rico. Es ideal para combinarla con la triangular, y conseguir así buenos sonidos de bajo. • Triangular: en este caso, esta forma de onda es buena para hacer sonidos tipo clarinete y también para sonidos arpegiados. • Diente de sierra: esta forma de onda es la que más se suele emplear en la música dance. Con ella se pueden hacer sonidos de todo tipo, siempre muy ricos en armónicos, y con gran cuerpo. Sonidos como tipo trompeta. 1.1.3 Los armónicos Los armónicos. (14) Son los componentes de un sonido que se definen como las frecuencias secundarias que acompañan a una frecuencia fundamental (o primer armónico) o generadora. Los armónicos contribuyen a la percepción auditiva de la calidad de sonido o timbre. Los sonidos armónicos son producidos por la naturaleza, al recibir cuerpos capaces de vibrar las ondas sonoras que emite un sonido fundamental al espacio y se han utilizado como base de los sistemas de temperamento justo. 22 El armónico de una onda es un componente sinusoidal de una señal. Su frecuencia es un múltiplo de la fundamental. La amplitud de los armónicos más altos es mucho menor que la amplitud de la onda fundamental y tiende a cero; por este motivo los armónicos por encima del quinto o sexto generalmente son inaudibles. Los armónicos son a su vez, los que generan el timbre característico de una fuente de sonido (ya sea una voz humana, un instrumento musical, etc.). Son los que permiten diferenciar un tipo de instrumento de otro, o reconocer el timbre de la voz de una persona. Los armónicos más altos son inaudibles, y lo que da diferentes timbres a diferentes instrumentos es la amplitud y la ubicación de los primeros armónicos y los parciales (los armónicos cuyas frecuencias no son múltiplos enteros se denominan parciales). Cuando se ejecuta una nota en un instrumento musical se genera una onda de presión de aire. Esta onda sonora está acompañada por una serie de armónicos y cada armónico de esta serie tiene una amplitud (volumen o fuerza del sonido) diferente. Por ejemplo en el clarinete son más fuertes los armónicos impares (el 3º, el 5º, el 7º, etc.). A partir del quinto armónico, todos los siguientes armónicos impares suenan ligeramente desafinados con respecto al temperamento igual. (15) El temperamento igual (que no debe confundirse con el sistema justo de afinación) es el sistema de afinación más utilizado actualmente en la música occidental, y que usa intervalos iguales entre los 12 semitonos que dividen la octava, lo que se conoce como escala cromática. Una octava es la repetición de un sonido armonioso cuya frecuencia es doble del primero. 23 Figura 1.14 Teclas de un piano que muestran una escala musical. La octava es lo que correspondería a un salto de ocho teclas blancas del piano. De la tecla Sol hasta la otra tecla sol la frecuencia se duplica (15). Serie armónica. Sucesión de los sonidos cuyas frecuencias son múltiplos enteros positivos de la de una nota base (puede ser la nota Do), llamada fundamental. Para estudiar la serie armónica se numera cada sonido con un índice, comenzando por el número uno para el sonido fundamental. Es una importante propiedad de la serie el hecho de que las proporciones (las razones o cocientes) entre los índices respectivos de dos sonidos cualquiera sean también la proporción entre las frecuencias vibratorias de dichos sonidos; esta proporción caracteriza al mismo intervalo entre dos notas cualesquiera, cuando sus frecuencias se encuentran en la misma proporción. Puede estar constituida por 16 sonidos diferentes partiendo de la fundamental como base. Por ejemplo (la escala armónica de los 5 primeros armónicos y más importantes): El primer sonido de la serie, o sonido fundamental, tiene una frecuencia que coincide con la de la nota cuya altura se percibe. El resto de los sonidos se añaden a éste sin alterar su altura aparente, pues el oído funde o integra todos los armónicos en una sola sensación. El segundo sonido de la serie tiene una frecuencia doble de la del primero. Su altura es una octava por encima de aquél. El tercer sonido tiene una frecuencia triple de la del primero, y está en una proporción de 3 a 2 con la del segundo; su altura es una quinta justa por encima de éste, y una doceava (intervalo compuesto por una octava más una quinta) por encima del primero. 24 El cuarto sonido tiene una frecuencia doble de la del segundo; su altura será una octava por encima de éste, y por tanto serán dos octavas por encima del fundamental. Cada vez que el número de orden (o índice) de un armónico es doble, su altura estará siempre una octava por encima. El sonido número cinco se encuentra una tercera mayor por encima del sonido número cuatro. Hasta llegar al índice 16… Nº de Armónico Frecuencia Nota Intervalo 1º armónico 264 Hz do1 tono fundamental (el primer do a la izquierda del piano) 2º armónico 528 Hz do2 octava 3º armónico 792 Hz sol2 quinta 4º armónico 1056 Hz do3 octava 5º armónico 1320 Hz mi3 tercera mayor Tabla 1.2 Los armónicos principales, de la escala armónica (14). La serie armónica y el timbre. En una teoría simplificada del timbre musical, cada uno de los sonidos de la serie armónica es un componente del timbre o color del sonido representado por una nota cuya frecuencia es la del sonido fundamental. A los sonidos de la serie armónica, componentes del timbre, se les llama sonidos armónicos o simplemente armónicos. También se han denominado a veces sonidos parciales, alícuotas, acompañantes o concomitantes. Los sonidos de la serie armónica representan los elementos de la serie de Fourier que resulta al aplicar el análisis de Fourier a una forma de onda periódica. Puesto que las formas de onda de los sonidos del mundo real nunca son estrictamente periódicas, el timbre que se analiza por este método (análisis de Fourier) se corresponde con el concepto de timbre estático. A la lista de los armónicos (y sus intensidades relativas) que constituyen un sonido y que determinan el timbre estático de éste, se le llama "receta" del timbre. Se puede asimilar la "receta" de 25 armónicos de un timbre musical con la lista de ingredientes de un plato de comida. Cualquier modificación en esta lista o en las proporciones de cada ingrediente, altera el "sabor", "color" o timbre del sonido. El timbre de un sonido musical representado esquemáticamente por su receta de armónicos, es una versión muy simplificada del espectro de dicho sonido. (16) Pero es importante recalcar que el timbre no es estático es dinámico. Cuando nos limitamos a decir que una determinada forma de onda corresponde a un timbre, nos estamos limitando al concepto estático del mismo. De igual modo en una foto, es la representación de una persona en el momento que se tomó la fotografía y no es la persona en sí. Figura 1.15 Analogía del timbre (16) De esta persona solo podemos obtener diferentes ángulos de su rostro al moverse en un lapso de tiempo tomándole diferentes fotos. Lo mismo sucede con el timbre, como este no es estático solo podemos obtener pequeñas muestras de éste, si se hace referencia del timbre estático. Entonces para obtener un mejor resultado hay que analizar los espectros de los sonidos con mayor profundidad, ya que sus espectros (y su contenido en armónicos) varían continuamente en el tiempo. Es decir: no es igual al comienzo que al final, y tampoco en su parte media. Por lo que en conclusión el timbre tiene un carácter dinámico Entonces el timbre es algo que esta en constante evolución, ya que la forma de onda no es igual entre cada instante y el siguiente, por lo que se hablará del timbre como una propiedad dinámica del sonido, caracterizada, no por un solo factor, sino por un conjunto de ellos: • Forma de onda básica. • Transitorios de ataque (armónicos que aparecen al principio y que pueden desaparecer en el transcurso de la ejecución, como cuando se golpea un diapasón). 26 • Envolvente de intensidad. • Ruido. El timbre de un instrumento no está descrito de forma completa si se ignora el ruido. Cualquier sonido, por lo general no es perfectamente periódico (su onda no se repite siempre de forma idéntica) y por tanto existe una componente “caótica” (el ruido) que bajo el prisma del análisis de Fourier no corresponde a ningún armónico. Sin embargo, esta componente caótica puede tener una importancia relativamente grande respecto de la parte armónica, tanto; que caracteriza al sonido como proveniente de un determinado instrumento, de forma muy clara. En ocasiones, la parte no periódica es prácticamente la única que existe, y entonces no es posible encontrar un patrón de repetición que corresponda a la frecuencia del sonido. 1.1.4 Los formantes (17) El sonido generado en la laringe que origina la voz por sí solo, no sirve para la comunicación oral; por lo que debe sufrir una serie de transformaciones en las cavidades supralaríngeas (arriba de la laringe) y llegue a ser un sonido inteligible el que salga por los labios. Si consideramos la laringe como fuente sonora, las estructuras referidas por encima de ella se denominan tracto vocal. El tracto vocal está constituido por la laringe supraglótica, la faringe, la boca y las fosas nasales. El tracto vocal, durante el habla, está modificando continuamente su anatomía en la forma de distintos gestos articulatorios de tal manera que se intensifican o atenúan diferentes sonidos. 27 Tracto Vocal (Sección Sagital) Tracto Nasal Paladar Figura 1.16. El tracto Vocal. Orificios Alvéolos Dientes Labios Velo del paladar Lengua Epiglotis Laringe Vibración Cuerdas Vocales Faringe Tráquea Flujo de Aire Cuerdas Vocales (Inspiración y Fonación) La voz humana es producida por el paso del aire procedente de los pulmones, que al llegar a la laringe, produce la vibración de los dos pares de cuerdas vocales. Las cavidades de la cabeza, relacionadas con el sistema respiratorio y nasofaríngeo, actúan como resonadores, mientras que los dientes, labios y paladar, como articuladores. La combinación de éstos, permiten generar distintos sonidos (vocales y consonantes). En el caso de las vocales, el paso del aire no se ve interrumpido en el tracto vocal, diferenciándose únicamente por su forma (configuración boca lengua, paladar). Esto es lo que produce la amplificación o atenuación de las frecuencias generadas previamente (18). Las zonas donde se intensifican determinados sonidos se llaman resonancias, por lo que cada forma que adquiere el tracto vocal tiene una determinada curva de resonancia. La mecánica del habla necesita el cambio continuo de curvas de resonancia y de las fuentes sonoras acopladas a ella para producir los diferentes fonemas del habla. Si desea emitir una vocal determinada se impone al tracto vocal a una cierta conformación que lo convierte en un resonador complejo a través del cual se propaga el sonido laríngeo. De igual manera, en los espectros sonoros de las vocales existen grupos de armónicos de diferentes rangos de frecuencia (ancho de banda), que 28 presentan máximos relativos de intensidad, y corresponden a los formantes, distinguiéndose hasta un quinto formante de acuerdo con los valores crecientes de sus frecuencias medias. Estas frecuencias medias para cada vocal no son valores rígidos, pueden variar de locutor en locutor y aún dentro de cada uno de ellos, de todas formas el rango de variación de las frecuencias donde aparecen los formantes tiene unos límites, al sobrepasarlos la inteligibilidad del habla corre el riesgo de deteriorarse. Según Sundberg hay formas de modificar el tracto vocal y por lo tanto la frecuencia de los formantes; por ejemplo, si se desciende la laringe o se produce un entubamiento de los labios se puede alargar el tracto vocal consiguiéndose un descenso del primer formante, que dará como resultado una voz más oscura. La maniobra opuesta produce una elevación del primer formante. Las características de los formantes son la base en la comparación e identificación de diferentes voces, y especialmente las frecuencias altas del espectro aportan al receptor información acústica obre el timbre personal del sonido de la voz. Por ejemplo el tercer y cuarto formantes son puntos muy significativos en la identificación de las personas ya que los formantes más altos son producto del timbre individual de cada locutor. Estos picos o frecuencias formánticas son debido, no necesariamente a un armónico, sino a un grupo de armónicos de frecuencias próximas a la de resonancia. Un formante se define como un máximo en la función de transferencia del tracto vocal. Cada vocal se caracteriza por unos formantes determinados que distinguen unas de otras, así las vocales castellanas se pueden clasificar en función de su estructura armónica o timbre en vocales agudas (e, i), vocales graves (o, u), y neutras(a). Mediante un análisis LPC (Lineal Predictive C o d i n g) del que disponen la mayoría de los programas informáticos analizadores de voz, se pueden identificar los valores en frecuencia de los distintos formantes, su energía o intensidad y su definición o grado de aplanamiento mediante el valor ancho de banda (bandwidth). En síntesis y más concretamente se definirán a los formantes respondiendo las siguientes preguntas: 29 ¿Qué es una Formante? (19) Es el pico de intensidad en el espectro de un sonido, se trata de concentración de energía (amplitud de onda) que se da en una determinada frecuencia. En el habla se determinan por el proceso de filtrado por resonancia que se produce en el tracto vocal por la configuración de los articuladores. Técnicamente los formantes son bandas de frecuencia donde se concentra la mayor parte de la energía sonora de un sonido. ¿Para qué sirven? Los formantes permiten distinguir los sonidos del habla humana, sobre todo las vocales y otros sonidos sonoros. También sirven para los sistemas de reconocimiento de voz. Esto es posible porque cada sonido del habla humana tiene una signatura características de formantes, es decir, hace un reparto diferente de la energía sonora entre los diferentes formantes, lo cual permite clasificarlos o categorizarlos. El oído humano puede hacer ese análisis de formantes de manera inconsciente, y es por eso que se pueden distinguir los sonidos de la lengua materna. Por ejemplo en muchas lenguas los dos formantes principales permiten distinguir la mayoría de sonidos vocálicos del habla. ¿Cómo se producen? La mayoría de los formantes de los sonidos del habla se producen por la resonancia del tracto vocal. La vibración de las cuerdas vocales produce ondas sonoras con un espectro de frecuencia bastante distribuido, estas son filtradas por el tracto vocal y algunas frecuencias son reforzadas y otras atenuadas. Las frecuencias fuertemente reforzadas son precisamente los formantes principales de la emisión sonora. 30 Figura 1.17 Formante. Es el pico de intensidad en el espectro de un sonido, que se da en una determinada frecuencia (19). Para un mayor entendimiento y una descripción más detallada sobre los “Formantes”, consultar el “Anexo 4” 1.1.5 La Transformada, El teorema y la Transformada Rápida de Fourier La Transformada de Fourier. (20) Es una herramienta matemática que tiene un uso muy amplio en lo referente al tratamiento digital de señales, hoy en día se encuentra implementada por ejemplo: en dispositivos electrónicos de reconocimiento de voz e imagen. Esta puede ser aplicada en varios campos como: el análisis espectral, ecuaciones diferenciales, resolución de problemas elásticos estacionarios y dinámicos, etc. El desarrollo matemático de la transformada de Fourier fue explicado por Jean Baptiste Joseph Fourier (1768-1830), en su libro la Teoría Analítica del Calor, publicado en 1822. 31 (21) El consiguió establecer una relación de las vibraciones en el espacio de tiempos y el espacio de frecuencias. (22) Describió que Toda señal periódica, sin importar cuan complicada parezca, puede ser reconstruida a partir de sinusoides cuyas frecuencias son múltiplos enteros de una frecuencia fundamental, eligiendo las amplitudes y fases adecuadas. Figura 1.18 Señal sinusoidal ideal representada en el tiempo con su correspondiente representación en el espacio de frecuencias (21) Teorema de Fourier. (21) Este teorema se refiere a los movimientos vibratorios periódicos complejos M.V.P.C. La periodicidad de las señales es lo que hace que las percibamos con una altura de tono definida. Nuestro cerebro percibe una altura de tono definida si al tímpano llega una secuencia periódica de pulsos o presiones y depresiones. Hace falta una periodicidad en la señal para tener una altura de tono definida. El teorema dice que si se tiene un M.V.P.C. de frecuencia f siempre es posible descomponerlo en una suma de movimiento vibratorio armónico simple de frecuencias f, 2f, 3f, 4f, 5f, 6f, etc. y de amplitudes variables de forma que sumados todos nos den el M.V.P.C. nuevamente. Un ejemplo sería; un sonido musical producido por un instrumento que viene acompañado por una serie de sonidos (armónicos). Estos sonidos son las diferentes formas naturales de vibrar de ese instrumento o fuente (cuerdas) y en muchos casos, afortunadamente, se asemejan a lo que denominamos serie armónica natural. Para cada frecuencia fundamental f existen todos sus múltiplos o unos cuantos de ellos cuya suma nos da una función en el tiempo de forma 32 compleja y periódica de frecuencia f. Por este motivo es más fácil comprender y analizar la señal si utilizamos la representación en el espacio de frecuencias. Gracias al análisis de Fourier pueden aparecen desglosados todos los armónicos de los que se compone la señal o sonido complejo (es como si los sonidos pasarán por un prisma que los descompone en sus diferentes partes). (23) Un ejemplo al aplicar el teorema de Fourier: Se puede construir una onda cuadrada a apartar de ondas senoidales. Se tienen 5 ondas senoidales de frecuencias de: 1000 Hz, 3000 Hz, 5000 Hz, 7000 Hz y 9000 Hz y de las siguientes amplitudes: 1, 0.33, 0.20, 0.14 y 0.11 respectivamente. Al mezclarlas en un programa se obtiene como resultado una onda casi cuadrada, como se muestra en la siguiente: figura 1.19: Figura 1.19 Construcción de una onda Cuadrada a partir de ondas senoidales (23). Para construir la onda cuadrada sólo se necesitan los armónicos que son múltiplos impares de F0 (frecuencia fundamental), es decir, 3F0, 5F0, 7F0,..., etc. (24) El teorema de Fourier permite no sólo analizar curvas periódicas sino también curvas no periódicas, en este caso la curva se extiende desde -infinito a +infinito y se puede suponer que este intervalo cubre un periodo (Los sonidos que son producidos por la voz humana como el de la “s” podría ser un ejemplo). La Transformada Rápida de Fourier. (25, 26) La transformada discreta de Fourier (DFT) es la transformada de Fourier para secuencias de longitud finita, es decir, la transformada se calcula sobre el intervalo temporal 33 0 < n < N-1, siendo N la longitud de una secuencia de duración finita. Esta requiere del cálculo de N funciones exponenciales para obtener F(n). Cuando N es grande, el número de operaciones implicadas en la transformada es enormemente grande (es un esfuerzo de cálculo). De ahí que la computación debe simplificarse para hacer práctica la técnica de la transformación. Por lo que se han desarrollado ciertos métodos (algoritmos) que permiten ahorrar cálculos y evaluar de manera rápida la DFT. Esto fue posible desde que surgió el Algoritmo que se denomina FFT (Fast Fourier Transform) y fue propuesto por primera vez en 1965, por Cooley y Tukey. El principio fundamental del algoritmo FFT se basa en la descomposición del cálculo de la DFT de una secuencia de longitud N en DFT's cada vez más pequeñas. Como ejemplo, se describe el siguiente problema de búsqueda: Una persona vive en un rascacielos de N plantas. Se quiere averiguar en qué planta está su apartamento. Las preguntas sólo serán contestadas con " sí " o " no”. ¿Cuántas preguntas se deben de formular para averiguar dónde vive? La aproximación más sencilla y más directa consiste en preguntar: " ¿Vives en la planta N?". En el mejor de los casos, esta sospecha inicial resulta cierta, pero es más probable estar equivocados, de tal manera que habrá que repetir la misma pregunta con otras plantas. En el peor de los casos, se harán exactamente N-1 preguntas. Con cada pregunta sólo se puede excluir una de las N posibilidades. Sin embargo, con la pregunta " ¿Vive en la mitad superior del edificio? ", al hacer esta pregunta se puede excluir la mitad de las posibilidades de una sola vez. Tras la respuesta, se puede saber si él vive en la mitad superior o inferior del edificio, y se pueden seguir haciendo las preguntas de la misma manera, mediante la partición de las restantes posibilidades en dos mitades (método de la búsqueda dicotómica o binaria). Con esta estrategia, se necesita un menor número de preguntas. Si el número de plantas es una potencia de dos, es decir del tipo 2p, se necesitan exactamente p preguntas. Así, para N plantas, se necesitan log2 N preguntas. 34 Una medida de la complejidad operacional de un problema con N componentes es la potencia más grande de N que aparece en el cálculo de operaciones necesarias para resolverlo. Esta aproximación es útil, ya que la potencia más grande en N domina el número de operaciones necesarias para un valor de N grande. La FFT constituye uno de los mayores desarrollos en la tecnología del tratamiento en general, de cualquier tipo de señal. Las diversas aplicaciones de la FFT surgen de sus raíces: la transformada discreta de Fourier y de ahí, la transformada de Fourier. La evolución de la informática, particularmente la del ordenador personal, ha hecho de la FFT una herramienta de análisis manejable y potente. Breve descripción matemática. (27) Teorema de Fourier: se deduce que cualquier vibración x (t) que esté definida en un período de tiempo de T seg. (y de la cual dispongamos de N muestras), puede reconstruirse exactamente mediante la suma de ondas armónicas. Siempre y cuando su media (x) = 0, y que se satisfaga la relación de Nyquist. El requisito de que la media de la amplitud de la vibración sea 0 no es ninguna limitación en la práctica (ni conceptual), puesto que siempre se puede hacer un cambio de variable de la forma: Por lo que (x`) = 0. La frecuencia de cada vibración armónica se da por: 35 Siendo N, el número de muestras que se tiene de la vibración. En la práctica, el análisis de Fourier consiste en determinar las dos series de amplitudes {ak} y {bk} de N/2 elementos cada una que corresponda a una vibración dada. Así pues, se puede considerar que cualquier vibración está compuesta por la interacción o interferencia (suma) de un conjunto de ondas armónicas simples, de frecuencia fk, cada una en la magnitud (o proporción) dada por sus amplitudes ak y bk respectivas. (22) Transformada de Fourier. • t: Tiempo. • f: Frecuencia en Hz. • x (t): Señal de prueba. • e−j2πft: Fasor de Sondeo. • X (f): Espectro en función de la frecuencia f. x (t) ↔ X (f), es decir para una función x (t) existe un equivalente X (f). X (f), el espectro, revela la fuerza (energía) de varias componentes de frecuencia, ordenadas por frecuencia. La transformada de Fourier actúa como un detector de energía infrecuencia dependiente. Transformada Discreta de Fourier (DFT). Cuando la función está dada por una lista de N valores se dice que está discretizada o muestreada, entonces la integral que define la transformada de Fourier se convierte en la sumatoria: • N: Numero de Samplers en x[n] 36 • x[n]: Señal de prueba discreta (con índice n) • X[k]: Espectro en función de la frecuencia discreta (con índice k) • e−jkwn/N: Fasor de sondeo discreto (en otras ecuaciones se pone como Wn) El equivalente en tiempo y frecuencia discreta es la transformada discreta de Fourier. (25) La Transformada Rápida de Fourier (FFT). La eficiencia de dicho algoritmo se basa en las propiedades de simetría y periodicidad del fasor Wn evitando operaciones redundantes de la DFT. Por el contrario el algoritmo esta limitado a que la longitud de la secuencia N a de ser potencia de 2, es decir se ha de cumplir: N= 2m y en el caso de que no sea así se deberán añadir ceros a la secuencia hasta conseguir un número potencia de 2, lo que se conoce como zero-padding. Los diferentes algoritmos de la FFT se pueden clasificar según si el cómputo se realiza en tiempo (FFT Decimation-In-Time, Decimación en tiempo) o en frecuencia (FFT Decimación – In-Frecuency, Decimación en frecuencia). En el primer caso se realiza una reordenación previa de las muestras temporales y el resultado queda ordenado correctamente. En el segundo caso, o computo en frecuencia, se realizan los cálculos según llegan las muestras y al final del proceso se debe realizar una reordenación del las muestras de salida. Nota importante: al describir a la transformada de Fourier en este Capítulo de tesis, hay muchos temas que se han omitido (por ejemplo: la transformada inversa, teorema de convolución…), debido a que solo se describe al Teorema de Fourier de una forma muy general para que se pueda tener un mejor entendimiento en este trabajo. 1.1.6 El espectro de Sonido (28) Espectro del sonido es un diagrama que muestra las amplitudes relativas de las diferentes frecuencias componentes de un sonido. 37 (29) El espectro es importante debido a varias razones: Primero porque permite una descripción de las ondas sonoras que está íntimamente vinculada con el efecto de diferentes dispositivos y modificadores físicos del sonido. En otras palabras, si se conoce el espectro de un sonido dado, es posible determinar cómo este se podría ver afectado por algún cuerpo o algún fenómeno. En segundo lugar, porque la percepción auditiva del sonido es de naturaleza predominantemente espectral. En efecto, antes de llevar a cabo ningún otro procesamiento de la señal acústica, el oído descompone el sonido recibido en sus componentes frecuenciales, es decir en las ondas senoidales que, según el teorema de Fourier, conforman ese sonido. ¿Cómo se obtiene? (3) Aunque el proceso de cálculo es bastante tedioso, la electrónica e informática actuales, con hardware o software que trabajan con procesos como la FFT (Transformada Rápida de Fourier), simplifican enormemente el trabajo de cálculo. Porque hace escasos 10 años, para calcular el nivel espectral de una señal de audio de escasa duración se requerían varios minutos o incluso horas y potentes ordenadores. Actualmente todos estos cálculos se implementan en procesadores y plugins capaces de mostrar los resultados en tiempo real. A la hora de calcularse el espectro, este no se calcula en nivel espectral para cada frecuencia (cerca de 20 KHz) sino que éstas se agrupan en bandas, dando lugar a la representación en bandas de frecuencia. Este se obtiene al calcular la energía que aporta cada frecuencia al sonido total. Normalmente la representación no se hace en términos de energía directamente, sino que se calcula el nivel (10Log) respecto a la energía de referencia. Con esto se obtiene el Nivel espectral expresado en dB. La siguiente figura 1.20 muestra representaciones espectrales de un sonido indeterminado (en un instante concreto). 38 • • • • • Figura 1.20 Representaciones espectrales de un sonido indeterminado (3) La figura central muestra el espectro representado en bandas de media octava y la figura de arriba en bandas de una octava. Los números representan las frecuencias centrales expresadas en Hz. Para los tres casos el espectro está representado de 20 a 20 K Hz. La relación que existe entre frecuencias centrales es la siguiente: en bandas de octava: f2 = 2 · f1. En bandas de media octava: f2 = 21/2 · f1. En bandas de tercio de octava: f2 = 21/3 · f1. Siendo f1 la frecuencia central de una banda y f2 la frecuencia central de la banda superior contigua. Las representaciones en octavas suelen contar con 10 bandas y las de media octava con 20. También se utilizan las de tercio de octava (30 o 31 bandas). Las representaciones se hacen sobre ejes de frecuencia logarítmicos, esto hace que en la representación se vea la misma distancia entre las frecuencias 100 Hz y 200 Hz que entre 1 KHz y 2 Khz. En conclusión. La representación espectral (o el espectro) puede resultar muy útil si se sabe interpretar. Básicamente aporta información sobre cuanto contribuye cada frecuencia o cada banda de frecuencia al sonido total. Dicho de otra forma, el espectro permite "ver" el sonido que le llega al oído. 39 1.2 Bases y fundamentos de algunos de los softwares que se pueden utilizar para el análisis de la voz humana 1.2.1 Algunos de los métodos de análisis acústico del habla Análisis oscilográfico. (30) Este método de análisis utiliza un Oscilograma, que es la representación de las variaciones de amplitud en el habla (eje vertical) a lo largo del tiempo (eje horizontal). Figura 1.21 Oscilograma de una oración en castellano (30). Aplicaciones: cuando se hace un análisis de la sonoridad (La sensación subjetiva de la intensidad se define como sonoridad y depende de la frecuencia, ancho de banda y duración del sonido(31).), de amplitud (intensidad), la duración, las pausas, el acento, la velocidad de elocución y el ritmo. Análisis espectral. Método que puede utilizar 2 herramientas: • Transformada Rápida de Fourier (FFT). Representación de la frecuencia (eje horizontal) y la amplitud (eje vertical) de los armónicos en un instante de la señal sonora del habla. Por ejemplo, si se tomo como referencia a la figura 1.21 y se le hace el análisis a los 3 ms, aplicando la FFT, aparecerá un diagrama donde se verán los armónicos. • Codificación por predicción lineal (LPC, Linear Predictive Coding). Representación de la frecuencia (eje horizontal) y la amplitud (eje vertical) de los picos espectrales que 40 representan las resonancias del tracto vocal (formantes) en un instante de la señal sonora del habla. A. Análisis espectral con FFT B. Análisis espectral con LPC Figura 1.22 El Análisis Espectral de la vocal A en un tiempo dado con 2 herramientas diferentes (30) . Aplicaciones de las 2 herramientas: A. Análisis de la sonoridad y de la estructura formántica (timbre). B. Análisis de la estructura formántica (timbre). Análisis espectrográfico. Método que utiliza un espectrograma, que es la representación de las variaciones de la frecuencia (eje vertical) y la amplitud (se representa en niveles de escala de grises) de la señal sonora a lo largo del tiempo (eje horizontal). 41 Figura 1.23 Espectrograma de una oración en castellano (30). Aplicaciones: Análisis de la sonoridad, la duración, la estructura formántica (timbre), la amplitud (intensidad), las pausas, el acento, la velocidad de elocución y el ritmo 1.2.2 NCH Software y sus aplicaciones (WavePad, Tone Generator) (32) Wavepad es un software australiano profesional para la edición de audio y es uno de los muchos componentes de la gama de software de audio de NCH Swift Sound. Características: • Es un potente editor de música y audio para los sistemas operativos de Windows y Mac. • Permite grabar y editar música, voces y otro tipo de grabaciones de audio. • Al editar archivos de audio se puede cortar, copiar y pegar partes de grabaciones y luego añadir efectos como eco, amplificación y reducción de ruido. Funciona como un editor para wav, mp3 y otros formatos. • Las herramientas incluyen análisis espectral, (FFT), síntesis del habla (conversión texto a voz) y convertidor de voz. • Admite velocidades de muestreo desde 6 a 196kHz, estéreo o mono, 8, 16, 24 o 32 bits. 42 • Al explorar las otras funcionalidades, hay herramientas muy potentes especializadas como el tone generator. Esta aplicación es un generador de onda (puede ser sinusoidal, cuadrada, de triángulo y diente de sierra), generador de frecuencia y generador de señales que permite crear tonos de prueba de audio, barridos o formas de onda de ruido (blanco y rosa) al utilizar la computadora. Simultáneamente se pueden manejar hasta 16 diferentes tonos a la vez en el modo monocanal y hasta 32 en modo stereo (16 por cada canal). Se puede cambiar la frecuencia, la amplitud y el tiempo de duración. Una vez creado el tono se puede guardar como archivo de audio .wav, que posteriormente puede ser analizado con el programa wavepad. Ejemplos de algunas aplicaciones (descritas en la figura 1.24 y 1.25): • Aplicaciones que se le hicieron al archivo de audio “campana.wav” (mismo archivo que se usara en el análisis paramétrico en el Capítulo III) grabado a 16 bits monocanal a 44.1 KHz. • En la primera gráfica de la siguiente figura 1.24 está el espectrograma. Se obtiene al ejecutar la aplicación de Análisis Temporal de Frecuencia (TFFT), aplicación que se encuentra en el tools. Al mover el cursor del mouse se va cambiando la frecuencia y la amplitud. • En la segunda gráfica, esta el Análisis Espectral. Se obtiene al ejecutar la aplicación de Análisis de Frecuencia (FFT), aplicación que se encuentra en el Tools. Al mover el cursor del Mouse se va cambiando la frecuencia y la amplitud al señalar cualquiera de los picos (armónicos) del espectro. En el espectro con el cursor de Mouse esta señalado el pico de mayor energía a 753 Hz con -23 dB (Marcado con una flecha negra). • En la tercera gráfica esta el oscilograma del archivo completo. Sale automáticamente al abrir el archivo de audio campana.wav. • En la figura 1.25 se describe como se genera un tono senoidal, compuesto por 3 diferentes tonos con el tono generator. 43 Figura 1.24 Ejemplo de las aplicaciones con el wavepad al archivo “campana.wav”, en el tiempo de 600ms (el tiempo esta indicado con la flecha negra). Figura 1.25 Ejemplo de un tono generado con 3 ondas sinusoidales con el tone generator (se cambió la frecuencia, la amplitud y el tiempo de duración). 44 1.2.3 Praat (33) Un software libre de multiplataforma para el estudio fonético del habla. Permite el análisis, manipulación y síntesis de voz. Es desarrollada por Paul Boersma y David Weenink en el Instituto de Ciencias Fonéticas de la Universidad de Ámsterdam. Ejemplos de algunas aplicaciones: permite obtener la frecuencia fundamental (la curva melódica azul llamada Pitch que aparece en el espectrograma), los formantes (puntos rojos que se pueden observar en el espectrograma), el análisis espectral con FFT y muchas más como la curva de intensidad (en el espectrograma aparece como una curva de color amarillo). Se describe a continuación como sacar los formantes: Hay dos maneras. Una es observar los formantes en la ventana de edición en la que se puede obtener datos numéricos precisos. La otra manera es crear un objeto formant con el fin de obtener datos de manera automática (únicamente se describirá la primera forma). Formantes en la ventana de edición de praat. • Primero hay que seleccionar el archivo de sonido para el análisis. La selección del archivo de sonido que se desea analizar se realiza a partir del menú read, seleccionando la opción read from file. • Una vez seleccionado el archivo (de la ventana de objects) que contiene la señal sonora que se desea analizar, se elige, en el menú de la derecha, la opción edit. 45 Figura 1.26 Muestra como seleccionar el archivo de audio que se desea analizar. El archivo seleccionado es el mismo que se uso en el ejemplo de wavepad (mismo que se usara en el capitulo 3). Para empezar el análisis de formantes por este método se selecciona la opción Edit (marcada con la flecha negra). Después se abre una ventana de análisis y de edición en la que se muestra el oscilograma en la parte superior y el espectrograma en la parte posterior. En el menú superior del programa hay diferentes opciones selecciónables, cada una con diferentes aplicaciones. En una de ellas, praat despliega una ventana que tiene la opción formants en el menú superior. Si se activa la opción show formants, aparecen en rojo los formantes identificados por el programa. Con la opción formant settings, se despliega un formulario en el que se especifican varios parámetros. Para una voz femenina, hay que usar 5500 para el campo maximun formant. (Hz) y fijar en 5 el campo number of formants. Para voz masculina hay que cambiar el valor de maximun formant (Hz) a 5000. Esto implica que el programa encontrará solo 5 formantes entre los 0 Hz y los 5500 Hz, o 5000 Hz (Esos 5000 o 5500 Hz son el ancho de banda máximo del espectrograma). 46 Con la opción dot size (mm) puedes cambiar el tamaño del trazo. Con 0.5 será bastante fino y con 2 será más grueso (los puntos rojos aumentan de tamaño). Ajustando estos parámetros se puede inspeccionar visualmente los valores de los formantes de una señal en la ventana de edición. Al situar el cursor en un punto del espectrograma, por ejemplo, sobre un punto de formante, al lado izquierdo de la ventana aparecería el valor en Hz correspondiente a ese punto. Figura 1.27 Muestra como se ve el menú de formant settings. En la parte de maximun formant (Hz), esta en 5000.0 porque el archivo de sonido corresponde a una voz masculina. En dot size esta en 1.0 ya que de ser mayor se verían muy grandes los puntos rojos de los formantes. En el menú formant hay una serie de posibilidades bajo la sección query para la obtención de valores de los formantes y de los anchos de bandas respectivos. La primera de esas opciones, formant listing, da la lista de los valores de los centros de frecuencia de los formantes si se tiene el cursor en un punto de la señal o en una selección, al tener un fragmento marcado. La lista de valores se puede copiar en un programa para hacer los cálculos. Las demás opciones se refieren al centro de frecuencia o al ancho de banda (bandwidth) de cada formante. Las siguientes figuras 1.28, 1.29 y 1.30 describen la obtención de los formantes en la ventana de edición: 47 5 2 3 4 1 Figura 1.28 Un ejemplo de la ventana de edición (oscilograma, espectrograma y formantes), del archivo “Campana.wav”. Al contar las líneas formadas por los puntos rojos superpuestos en el espectrograma, se observa que el máximo número de formantes es 5. Por ejemplo, en la zona marcada con (1), corresponde a la línea del grupo del 3 formante. El valor que se muestra en el lado izquierdo (2) corresponde al centro de la frecuencia del formante que está en el punto del cursor (3), donde el eje de la “y” es la frecuencia y el eje de la “x” es el tiempo (5). Algunas veces, se producen resonancias que no corresponden estrictamente a los formantes que interesan para la descripción fonética, sino que son resonancias propias de una emisión de una persona. El análisis de los formantes debe seguir una cierta lógica que gráficamente se manifiesta en la continuidad de la dirección del trazo. Aquellos puntos que se salen de esa dirección son valores espurios que no deben ser considerados en el análisis. En la zona marcada con (4) ocurre este fenómeno: aparecen unos puntos que no se deben tomar en cuenta en el análisis. En otras palabras, al estudiar los formantes de una vocal se debe tomar la medición en una zona de la señal en la que los valores sean claros y consistentes. 48 Figura 1.29 La obtención de formantes mediante una selección determinada del oscilograma. Se selecciono con el cursor del tiempo de 558 ms a 611 ms (es la “a” tónica de la frase “campana”). Figura 1.30 Obtención de la lista de los formantes (esta luego puede ser manipulada por cualquier programa como word, excel y otros más). Al desplegar el menú de Formant, se selecciona Formant listing para que se forme la lista con los formantes. Esta lista corresponde al intervalo de tiempo seleccionado en el oscilograma. 49 Nota importante: las demás aplicaciones del programa no son descritas debido a que solo se pretende en este capítulo, describir de forma general el programa con una de sus aplicaciones más significativas. 1.2.4 SFSWin (34) SFS (Speech Filing System) es un software cuya propiedad actual es de Marcos Huckvale de la University College London (UCL). Esta en distribución libre siempre y cuando se respeten los derechos del autor y no se modifique el programa. Actualmente se usa en el departamento de fonética y lingüística en la UCL desde 1987. Se utiliza para el trabajo de investigación de la voz, en la percepción del habla y el oído, en el discurso de síntesis y reconocimiento de voz. También se usa en el laboratorio de enseñanza en cursos tales como: "Acústica del habla y la audición", en la "Introducción a la ciencia del habla y la audición", y en el "Procesamiento del habla por computadora". Este software nace de un proyecto llamado SPAR (que concluye en 1987) con la colaboración de diferentes institutos como: University College London, Imperial College London y GEC Hirst Research Centre. Este proyecto fue diseñado para apoyar una investigación cooperativa a través de múltiples instituciones. Gracias a él, se estandarizó el formato de formas de onda, la frecuencia fundamental, los datos de control a la hora de sintetizar y los espectrogramas. Descripción de como sacar los formantes con SFS. Hay varias formas de hacerlo. Descripción de la primera (la más fácil): Se carga una señal de audio, se selecciona la opción Tools|Speech|Display|Cross-section, y a continuación ya se pueden hacer las mediciones de los formantes de forma interactiva. Una vez que se abre la ventana generada por el programa como la de la siguiente figura 1.31; se puede entonces a partir de estos resultados generados hacer un conjunto de estadísticas y comparaciones con independencia para obtener los resultados deseados. Las posibilidades de este programa son similares a la de los programas anteriores, ya que se pueden generar diferentes gráficas como: el oscilograma, el espectrograma, las gráficas de 50 análisis espectral por FFT y LPC, la autocorrelación y otras más. Para que aparezcan las diferentes gráficas previamente mencionadas, solo hay que entrar a la opción view de la ventana del programa que se desplegó al seleccionar la opción de crosssection, y seleccionar la gráfica que se desee visualizar. Para visualizar los formantes sólo hay que posicionar el cursor en un tiempo determinado en el oscilograma, luego ir a la opción de view y seleccionar la opción de formants table. Aparecerá una tabla como la tabla 1.3, que despliega los formantes con su frecuencia y banda respectiva en Hz. Tiene también la opción de ver los armónicas que aparecen al seleccionar harmonics table en la misma opción de view. Aparecerá igual una tabla como la tabla 1.4, que despliega los armónicos con su frecuencia en Hz y su amplitud en dB respectivos. La siguiente figura 1.31 y las tablas 1.3 y 1.4 muestran lo previamente descrito. Nota importante: las demás aplicaciones del programa no son descritas debido a que solo se pretende en este capítulo, describir de forma general algunas de ellas. 51 1 2 Figura 1.31 La ventana de cross-section generada por SFS para el análisis del archivo “Campana.wav”. El muestreo es a 549 ms (1). En la parte de arriba se ve el oscilograma, luego en la parte media el espectrograma y de último, las diferentes gráficas que aparecen al ser seleccionadas en la opción view. Tabla 1.3 Formantes que aparecen en el muestreo de 549 ms. Tabla 1.4 Harmónicos (en total son 88 muestras), del muestreo de 549 ms. 52 1.3 El oído 1.3.1 Funcionamiento del oído (oído externo, medio e interno) (10) En esta sección se describe como funciona el órgano receptor del sonido, es decir; el oído. La generación de sensaciones auditivas en el ser humano es un proceso extraordinariamente complejo, el cual se desarrolla en tres etapas básicas: • Captación y procesamiento mecánico de las ondas sonoras. • Conversión de la señal acústica (mecánica) en impulsos nerviosos, y transmisión de dichos impulsos hasta los centros sensoriales del cerebro. • Procesamiento neural de la información codificada en forma de impulsos nerviosos. La captación, procesamiento y transducción de los estímulos sonoros se llevan a cabo en el oído propiamente dicho, mientras que la etapa de procesamiento neural, en la cual se producen las diversas sensaciones auditivas, se encuentra ubicada en el cerebro. Así pues, se pueden distinguir dos regiones o partes del sistema auditivo: • Región periférica, en la cual los estímulos sonoros conservan su carácter original de ondas mecánicas hasta el momento de su conversión en señales electroquímicas. (35) Está constituida por: el oído externo, medio e interno y el nervio auditivo con sus divisiones cocleares y vestibular. • Región central, en la cual se transforman dichas señales en sensaciones. (35) Está constituida por: las vías nerviosas centrales auditivas, centros auditivos corticales y subcorticales y el mecanismo central del equilibrio. Región periférica. El oído o región periférica se divide usualmente en tres zonas llamadas; oído externo, oído medio y oído interno, de acuerdo a su ubicación en el cráneo, como puede verse en la figura 1.32: 53 Figura 1.32 Corte transversal del oído derecho. Se muestran las partes anatómicas más representativas del aparato auditivo (36). Oído externo. (36 y 37) Consta del pabellón u oreja, y el canal auditivo externo. El pabellón recoge las ondas sonoras y las conduce hacia el canal auditivo mediante reflexiones y difracciones (básicamente esa es la función principal de oído externo). Si bien es direccional, debido a sus irregularidades es menos direccional que la oreja de otros animales, como el gato o el perro, que además poseen control muscular voluntario de su orientación. El canal auditivo conduce el sonido al tímpano. La parte más externa está recubierta por pilosidad y por glándulas sebáceas que segregan cerumen. Ejercen una acción higiénica, al fijar y arrastrar lentamente hacia el exterior las partículas de polvo que de otra forma se depositarían en el tímpano. Una segunda función es proteger al oído de ruidos muy intensos y prolongados, ya que la secreción aumenta en presencia de tales ruidos, cerrando parcialmente el conducto. Debido a la forma y las dimensiones físicas el oído externo posee una resonancia cuya frecuencia está en las proximidades de los 3000 Hz. Descripción de las funciones de las partes que los constituyen: 54 • El cartílago de la oreja: Es la parte del oído que se proyecta al exterior. Está constituida por una lámina fibrocartilaginosa cubierta de piel que forma numerosos repliegues donde son reflejadas las ondas sonoras hasta que entran en el conducto auditivo externo (hélice, pliegue antihelical y la antihélice). • El lóbulo de la oreja: El lóbulo de la oreja es una parte del oído externo que se encuentra en la parte inferior de la oreja debajo del trago. Está compuesto por tejido adiposo y areolar bastante resistente. Es la pequeña parte de la oreja que no está compuesta de cartílago. • El conducto auditivo externo: Se encuentra en la parte externa y visible del oído. Es una cavidad llena de aire que mide unos 2,5 cm. y que finaliza en la membrana timpánica. En su parte más externa tiene unas formaciones pilosas que protegen al oído de la entrada de objetos extraños. Figura 1.33 Como esta constituido el Oído Externo (38). Oído medio. (36 y 37) Está ubicado en la caja timpánica, y lo integran: el tímpano, los huesecillos u osículos, y la trompa de Eustaquio. Su función es la de llevar los sonidos al oído interno y la de controlar los cambios de presión que puedan aparecer en el oído (como cuando se cambia de altura). 55 El tímpano es una membrana elástica, semitransparente y algo cónica, que comunica el canal auditivo externo con la caja timpánica. Éste recibe las vibraciones del aire y las comunica a los huesecillos. Los huesecillos son una cadena de tres pequeños huesos: el martillo, el yunque y el estribo que comunican al oído interno las vibraciones sonoras que capta el tímpano. Están sostenidos en su lugar por una serie de pequeños ligamentos y músculos. La finalidad de esta cadena es convertir vibraciones de gran amplitud y poca presión, como las hay en el tímpano, en vibraciones de pequeña amplitud y mayor presión, requeridas en el líquido que llena el oído interno. Los músculos, además de la función de sostén de la cadena osicular, sirven de protección del oído interno frente a sonidos intensos. Cuando penetra en el oído un ruido muy intenso, se produce la contracción refleja de estos músculos haciendo rígida la cadena, que pierde entonces su eficiencia mecánica y la energía es disipada antes de alcanzar el oído interno. Esta protección sólo es efectiva para sonidos mayores a 500 ms de duración. Descripción de las funciones de las partes que los constituyen: • La membrana timpánica: Sirve de separación entre el conducto auditivo externo y la cavidad timpánica o caja del tímpano (lugar donde se encuentra la cadena de huesecillos). Su misión es transmitir las vibraciones sonoras que llegan a través del aire al interior del oído medio, transformándolas en ondas mecánicas. • El martillo, yunque y el estribo: Están conectados entre si formando una cadena articulada. Se encargan de transmitir al oído interno las vibraciones sonoras que llegan por el aire. Actúan también como niveladores mecánicos de las mismas, transformando las ondas sonoras en vibraciones mecánicas. Las ondas sonoras hacen que el tímpano vibre, y estas vibraciones mueven el martillo, que también desplaza al yunque y al estribo, que está conectado a la membrana oval y que por lo tanto recibe estás vibraciones aumentadas en 5 decibelios. • El lenticular: Muchos autores lo consideran como una prolongación articulada del yunque y lo denominan proceso lenticular. Otros lo consideran como uno más de los huesos del oído medio. El caso es que forma la articulación entre el yunque y el estribo 56 formando parte de la cadena articulada que se encarga de transmitir al oído interno las vibraciones sonoras que llegan por el aire. • La trompa de Eustaquio: Es un conducto osteofibromembranoso de unos 4 cm. de longitud revestido por mucosa, que establece comunicación entre la caja timpánica y la parte superior de la faringe. Su misión es ajustar la presión del aire de la cavidad timpánica con la del exterior. Ligamento superior del martillo Martillo Yunque Ligamento posterior del yunque Estribo en la ventana oval Nervio facial Ligamento lateral del martillo Ventana redonda Ligamento anterior del martillo (contacto) Membrana del tímpano Oído medio Conducto auditivo externo Músculo estapedio Músculo tensor del tímpano Trompa de Eustaquio Figura 1.34 Como esta constituido el oído medio (39). Oído interno. (36, 37, 38, 39 y 40) El oído interno representa el final de la cadena de procesamiento mecánico del sonido, y en él se llevan a cabo tres funciones primordiales: filtraje de la señal sonora, transducción y generación de impulsos nerviosos. ¿Cómo esta constituido el oído interno? Está situado en el espesor de la porción petrosa del hueso temporal, medialmente a la cavidad timpánica. 57 Contiene el órgano vestibulococlear relacionado con la recepción del sonido y el mantenimiento del equilibrio. Está constituido por el laberinto, cavidad ósea externa que envuelve a un laberinto membranoso interno. El óseo contiene la perilinfa, el membranoso contiene la endolinfa. El espacio que separa el laberinto membranoso del laberinto óseo se llama espacio perilinfático. El laberinto óseo, es una cavidad ovoidea alargada de adelante hacia atrás y esta dividida en 3 partes: vestíbulo, cóclea y conductos o canales semicirculares (óseos). En la cóclea o caracol (es un conducto enrollado alrededor de un eje cónico, el modiolo) hay 3 cámaras: escala vestibular (la membrana de Reissner la separa de la escala media), escala media (la membrana basilar la separa de la escala timpánica) y la escala timpánica. Laberinto membranoso, consiste en una serie de sacos y conductos comunicados suspendidos en el laberinto óseo. Tiene 3 partes: utrículo y sáculo, conductos semicirculares o canales semicirculares (membranosos) y ampollas, conducto coclear. La siguiente figura 1.35 se muestran algunas de las partes del oído interno previamente descritas: 58 Figura 1.35 El laberinto óseo y membranoso (39) Funcionamiento de las partes que lo constituyen: Los canales semicirculares Son el órgano sensor del sistema de equilibrio. Son 3 pequeños conductos curvados en semicírculo, con ejes aproximadamente en cuadratura que se abren en el vestíbulo por sus 2 extremidades. Se dividen según su orientación: anterior, posterior y lateral. Interiormente están recubiertos por terminaciones nerviosas y contienen líquido endolinfático. Al rotar la cabeza en alguna dirección, por inercia el líquido tiende a permanecer inmóvil. Se crea un movimiento relativo entre el líquido y los conductos que es detectado y comunicado al cerebro por las células nerviosas, lo cual permite desencadenar los mecanismos de control de 59 la estabilidad. Al haber tres canales en cuadratura se detectan movimientos rotatorios en cualquier dirección. El vestíbulo Es una cavidad ovoidea aplanada transversalmente y alargada verticalmente, contiene el utrículo, el sáculo y contiene el conducto endolinfático. Presenta la ventana vestibular en su pared lateral, ocupada por la base del estribo, y se continúa hacia adelante con la cóclea ósea y hacia atrás con los conductos semicirculares. Entonces básicamente el vestíbulo comunica los canales semicirculares con el caracol, y al mismo tiempo comunica el caracol con la caja timpánica a través de dos orificios denominados ventana oval y ventana redonda (también llamada tímpano secundario), cubiertos por membranas de unos 3 mm y 2 mm respectivamente. La cóclea o caracol El caracol contiene el órgano principal de la audición: la cóclea, que es un conducto en espiral que se desprende de la parte anterior e inferior del vestíbulo y se enrolla alrededor del modiolo, da 2 vueltas y media de espiral y termina en una extremidad cerrada llamada cúpula. Está dividida en tres secciones. La sección inferior, denominada rampa timpánica y la superior, conocida como rampa vestibular, contienen un líquido perilinfático, rico en sodio (Na) y se conectan a través de un pequeño orificio, el helicotrema, ubicado hacia el vértice (ápex) del caracol. La cavidad central (tercera sección) es la partición coclear o rampa coclear y contiene líquido endolinfático, rico en potasio (K). La rampa vestibular se comunica con el oído medio a través de la ventana oval, y la rampa timpánica lo hace a través de la ventana redonda. La partición coclear contiene la membrana basilar, una membrana elástica sobre la que se encuentra el órgano de corti, una estructura que contiene las células ciliadas o pilosas. Las células ciliadas se comportan como diminutos micrófonos, generando pulsos eléctricos (denominados potenciales de acción) de unos 90 mV. como respuesta a la vibración. Estos pulsos son enviados al cerebro a través de una serie de células nerviosas (neuronas) reunidas en el nervio auditivo. Las siguientes figuras 1.36, 1.37 y 1.38 ayudaran a entender lo previamente descrito: 60 Figura 1.36 Corte transversal del conducto coclear en escala 25:1 (36). Figura 1.37 La cóclea (41). 61 Membrana tectoria Espacio subtectorial Células ciliadas internas Células del borde Cilios que están en contacto con la membrana tectoria Células ciliadas externas Células de Hesen Surco esperial interno Fibra nerviosa Membrana basilar Figura 1.38 El órgano de corti (10). Haciendo un zoom a la figura 1.36 en la parte de la membrana tectoria se localiza el órgano de corti 1.3.2 Funcionamiento de la cóclea (36) Como ya se había descrito la cóclea forma parte del oído interno y es el órgano principal de la audición. Esta constituida principalmente por 3 partes donde en una de ellas esta la membrana basilar (en la membrana tectoria, donde esta el líquido endolinfático). Sobre de ella esta el órgano de corti donde se encuentran las células ciliadas. ¿Qué ocurre dentro de la cóclea? (10, 36 y 43) Las ondas sonoras son transmitidas por la platina del estribo que se desplaza hacia adentro y hacia afuera en la ventana oval. Estos movimientos de pistón provocan oscilaciones en el fluido de la escala vestibular (perilinfa). La membrana de Reissner (figura 1.36), la cual separa los fluidos de la escala vestibular y la escala central o media (rampa coclear), es sumamente delgada y, en consecuencia, los líquidos en ambas escalas pueden tratarse como uno solo desde el punto de vista de la dinámica de los fluidos. Así, las 62 oscilaciones en la perilinfa de la escala vestibular se transmiten a la endolinfa y de ésta a la membrana basilar; la membrana basilar, a su vez, provoca oscilaciones en el fluido de la escala timpánica (las oscilaciones residuales salen por la venta redonda, desembocando en la caja timpánica). En conclusión, el sonido propagado a través del oído externo y medio llega hasta la cóclea, donde las oscilaciones en los fluidos hacen vibrar a la membrana basilar y a todas las estructuras que ésta soporta. La membrana basilar mide alrededor de 35 mm de longitud y su anchura aumenta progresivamente de la base hasta el ápex de la cóclea pasando de 0.04 a 0.5 mm (pero de forma contraria se adelgaza en espesor desde la base de la cóclea hasta el ápex), por tanto, la membrana basilar tiene una rigidez y una masa diferentes en cada punto a lo largo de ella. Este cambio de grosor implica modificaciones importantes en su rigidez ya que ésta disminuye en una relación de 1 a 100, de la extremidad basal al ápex, oscilando o resonando a una frecuencia diferente en cada punto según las características del mismo. En la figura 1.39, muestra la distribución de las frecuencias desde la base hasta el ápex de la cóclea (las frecuencias más bajas están en el ápex). Esto se conoce como la tonotopia de la cóclea: Figura 1.39 La distribución de las frecuencias en la cóclea. Como si la cóclea fuese un filtro pasa banda a lo largo de la membrana basilar (43). 63 En la figura 1.40 se muestran dos vistas de la membrana basilar con la cóclea hipotéticamente estirada desde su forma helicoidal hasta una forma rectilínea. Figura 1.40 Dos vistas de la cóclea hipotéticamente rectificada (36). Arriba, vista superior. Abajo, vista lateral. ¿Qué provocan las perturbaciones dentro de la cóclea? Cuando llega una perturbación a la ventana oval, el líquido de la sección superior se encuentra inicialmente a mayor presión que el de la sección inferior, lo cual provoca una deformación de la membrana basilar que se propaga en forma de onda (denominada onda viajera) desde la región basal hasta la región apical, tendiendo a aumentar la amplitud conforme la rigidez de la membrana va disminuyendo. Cuando la perturbación es periódica, tal como sucede con una vibración sonora, la membrana comienza a vibrar con una envolvente (figura 1.41) cuyo máximo se produce en cierta posición que depende de la frecuencia del sonido, como se muestra en la figura 1.42. Resulta, así, que existe una localización del pico de resonancia de la membrana basilar en función de la frecuencia, que se ha representado gráficamente en la figura 1.43. Esto confiere al oído interno una cualidad analítica que es de fundamental 64 importancia en la discriminación tonal del sonido, especialmente para los sonidos de frecuencias superiores a los 1000 Hz. El movimiento de la membrana basilar ocasiona que las células ciliadas emitan un pulso eléctrico (que va hacia las terminales nerviosas del nervio auditivo). El mecanismo para ello se ilustra en la figura 1.44. Debido a que la membrana basilar y tectoria tienen ejes diferentes, el movimiento relativo provoca un pandeo de los cilios que fuerza la apertura de unas diminutas compuertas iónicas. El intercambio iónico genera una diferencia de potencial electroquímico que se manifiesta como un pulso de unos 90 mV de amplitud o potencial de acción. Figura 1.41 Arriba, onda viajera en la membrana basilar en un instante dado. Abajo, posición de la onda en tres instantes de tiempo t1, t2 y t3 (36). 65 Figura 1.42 Envolvente espacial de las ondas viajeras sobre la membrana basilar para cuatro frecuencias diferentes (36). Figura 1.43 Ubicación de la resonancia a lo largo de la membrana basilar en función de la frecuencia (36). 66 Figura 1.44 A la izquierda, una célula ciliada entre la membrana basilar y tectoria en estado de reposo. A la derecha, cuando se produce un movimiento de la membrana basilar a causa de una onda viajera, los cilios (pelos) de la célula ciliada experimentan un pandeo (36). El potencial de acción generado por cada célula ciliada debe ser comunicado al cerebro. Ello se realiza a través de las neuronas, complejos sistemas con varias entradas y varias salidas, capaces de realizar operaciones de ponderación, de comparación y de generación de nuevos potenciales de acción. En la función coclear se distinguen en resumen 3 procesos: • Primer período en el que lo fundamental es la mecánica coclear originada por los movimientos de los líquidos y las membranas. • Segundo período de micromecánica coclear en el que ocurren desplazamientos del órgano de corti con respecto a la membrana tectoria (movimiento de las células ciliadas). • Tercer período en el que se produce la transducción o transformación de la energía mecánica en energía bioeléctrica. Células ciliadas, el mecanismo de transducción de la cóclea. (37) Sobre la membrana basilar y en el interior de la escala media se encuentra el órgano de corti, el cual se extiende desde el ápex hasta la base de la cóclea y contiene las células ciliadas que actúan como transductores de señales sonoras a impulsos nerviosos. Sobre las células 67 ciliadas se ubica la membrana tectoria, dentro de la cual se alojan las prolongaciones o cilios de las células ciliadas externas. La membrana tectoria actúa únicamente como una masa, produciendo una fuerza de desplazamiento horizontal sobre los cilios (42). Dependiendo de su ubicación en el órgano de corti, se pueden distinguir dos tipos de células ciliadas: internas y externas. Existen alrededor de 3500 células ciliadas internas y unas 12500 células externas. Ambos tipos de células presentan conexiones o sinapsis con las fibras nerviosas aferentes (que transportan impulsos hacia el cerebro) y eferentes (que transportan impulsos provenientes del cerebro), las cuales conforman el nervio auditivo. El propósito de ambos tipos de células y de la distribución de las conexiones nerviosas, es el "mecanismo de transducción". Internas Externas Figura 1.44 Células ciliadas internas y externas. Al observar la figura 1.38, en la membrana basilar están las células ciliadas (38). 68 1.3.3 Aspirantes para las prótesis auditivas (según el nivel del problema auditivo) La pérdida de la audición. (44 a la 49) Es la disminución de la capacidad auditiva que determina que los sonidos se escuchan con menor intensidad. Esta perdida puede ser temporal, debido a una serie de causas que interfieren en la entrada de las ondas hacia el oído interno (cerumen, quistes, inflamaciones del oído, etc.) o permanente, en cuyo caso se produce una degeneración nerviosa que impide la transmisión de los sonidos que llegan al oído hasta el cerebro. Los síntomas Sordera, incapacidad de oír bien, pérdida de la audición, imposibilidad de oír las conversaciones, problemas con los sonidos de frecuencias altas, etc. Causas Perdida de audición temporal, es aquella que surge de momento y desaparece cuando la causa momentánea que lo produce es eliminada. Entre las causas principales están las siguientes: • Tapones en los oídos. La acumulación de cera en el oído es una de las causas más frecuentes. • La presencia de algún cuerpo extraño en el interior del oído como pelos o pelusa, agua después de un baño o una inmersión bajo el agua, etc. Estos cuerpos extraños pueden frenar el paso de las ondas sonoras hacia el interior del oído. • Golpes en los oídos. Pueden frenar de igual manera el paso de las ondas sonoras hacia el interior del oído. • Cambios de presión. Los cambios bruscos de presión a los que se puede someter el oído al subir o bajar montañas, al viajar en avión, etc. • Infecciones en el oído. La presencia de microorganismos produce inflamaciones (otitis) que impiden el paso de las ondas sonoras hacia el oído o la vibración de los huesecillos. 69 Perdida de audición permanente, es aquella que aparece por lesión del nervio auditivo, del órgano de corti o de las partes del cerebro encargadas de la audición. Entre las causas principales están las siguientes: • Edad. La perdida de audición se hace mayor a medida que las personas envejecen (presbiacusia). Afecta a un 25 % de personas mayores de 65 años y a un 75 % de personas mayores de 75 años. No se sabe exactamente cuales son las causas, aunque existe una predisposición genética a padecerla. En este tipo de patología se muestra principalmente una dificultad mayor en oír los sonidos de alta frecuencia. En la conversación se produce la incapacidad de oír las vocales de una conversación que son los sonidos más altos. • Otosclerosis. Es la esclerosis o endurecimiento de los tejidos del oído interno. Esta enfermedad impide una vibración normal de los huesecillos del oído (como el estribo) y produce sordera. • Enfermedad de meniere. Se caracteriza por la alteración del equilibrio y de la audición, causada por el aumento de líquido (endolinfático) en el laberinto o una inflamación del mismo. Es un tipo de enfermedad que puede aparecer repentinamente y luego, tras varias horas, desaparecer y no presentarse en un periodo de tiempo muy prolongado. A veces puede ocurrir diariamente. Con el tiempo, produce un deterioro de la audición. Habitualmente aparece en un solo oído, pero puede aparecer en los dos. • Algunas enfermedades del cuerpo humano que pueden desencadenar la pérdida de la audición son: el colesterol, la hipertensión, la esclerosis múltiple, diabetes, enfermedades renales, artritis reumatoide, etc. • Tumores en los oídos. • Tímpano perforado. Como consecuencia de introducir algún objeto punzante en el oído, o después de alguna explosión cercana muy fuerte, así como de un golpe, etc. • Consumo de drogas. El consumo de tóxicos, como alcohol, tabaco o ciertos medicamentos como los antibióticos, la aspirina, los hipotensores, los cardíacos, pueden ser la causa de pérdida de audición. • Causas ambientales. Son factores que actúan sobre la persona y tienen como resultado la aparición de la pérdida auditiva; estos factores pueden aparecer antes, durante o 70 después del nacimiento. Un ejemplo sería la exposición demasiado prolongada a sonidos de muchos decibelios. • Causas genéticas. Estas causas son de carácter hereditario, y suponen la aparición de la sordera desde el mismo momento del nacimiento o bien el desarrollo de la misma de forma progresiva. Ahora bien, siempre se debe de considerar que de un 20 a un 30 % de las pérdidas auditivas tienen un origen desconocido. En términos clínicos la pérdida de la audición es conocida como hipoacusia. La hipoacusia es la disminución del nivel de audición por debajo de lo normal, lo cual constituye un motivo habitual de consulta médica y es especialmente frecuente en la población anciana (Aunque, puede aparecer en cualquier etapa de la vida desde el nacimiento). Con frecuencia, da lugar a situaciones de minusvalía con importantes repercusiones físicas y psicológicas. Según su intensidad, la hipoacusia se clasifica en: • Leve (pérdida menor de 35 dB). • Moderada (pérdida entre 35 y 60 dB). • Profunda (pérdida entre 60 y 90 dB). • Total o cofosis (pérdida superior a 90 dB). Dependiendo de la parte del oído que esta afectada, se pueden distinguir los siguientes tipos de pérdida auditiva: • Pérdida auditiva conductiva. Cualquier problema que aparezca en el oído medio o externo y que dificulte la conducción del sonido en el oído de forma apropiada es conocido como pérdida auditiva conductiva. Las pérdidas conductivas suelen ser ligeras o moderadas causando sorderas de no más de 60 o 70 decibelios. En algunos casos estas sorderas pueden ser temporales. En muchos de ellos la medicación o la cirugía pueden ayudar dependiendo de la causa específica del problema. Frecuentemente, la sordera de tipo conductivo se puede resolver con ayuda de audífonos que, básicamente, amplifican el nivel de sonido recibido. 71 • Pérdida auditiva neurosensorial. Un problema en la cóclea (oído interno) puede causar una pérdida auditiva nerurosensorial. Dicha pérdida auditiva puede ser el resultado de la pérdida o deterioro de las células sensoriales (células ciliadas) en la cóclea y, la mayoría de las veces, es permanente. La sordera neurosensorial, también conocida como "sordera del nervio", puede ser ligera, moderada, severa o profunda. Los procedimientos quirúrgicos no pueden curar la pérdida auditiva neurosensorial. Las opciones de tratamiento tradicional para la pérdida auditiva nerurosensorial de moderada a severa son las prótesis auditivas como los audífonos. Si la sordera es severa o profunda puede ser de ayuda el uso de implantes cocleares. • Pérdida auditiva retrococlear. Cualquier problema cuyo resultado sea la ausencia o deterioro del nervio auditivo, puede causar una pérdida auditiva retrococlear. La pérdida auditiva retrococlear es una sordera profunda de tipo permanente. Los audífonos y los implantes cocleares no son de ayuda porque el nervio auditivo no es capaz de transmitir suficiente información al cerebro. En estos casos, una opción de tratamiento podría ser el implante de tronco cerebral. • Pérdida auditiva mixta. Este tipo de pérdida auditiva es la forma más común y representa la combinación de una pérdida auditiva conductiva y neurosensorial. Debido a esta combinación resulta dificultoso encontrar una modalidad de tratamiento apropiada. Por lo tanto la evaluación y valoración de cada paciente es de gran importancia para poder encontrar la mejor solución al problema. ¿Cómo se realiza la prueba de la audición? Existen varios métodos para examinar la audición, que varían según el hospital y las condiciones del paciente: • Los exámenes auditivos basados en comportamiento comprenden la observación cuidadosa de la conducta del paciente (niños) al responder a sonidos como un discurso calibrado y tonos puros de diferente agudeza (frecuencia). Algunas veces, otras señales calibradas se utilizan para obtener información sobre frecuencia. • Las pruebas psicológicas no son pruebas de audición pero son medidas que pueden estimar parcialmente la función auditiva. Estas pruebas son utilizadas en los niños que no pueden ser examinados con pruebas basadas en comportamiento debido a su corta 72 edad, retrasos en el desarrollo u otras condiciones médicas, y en algunas condiciones pueden ayudar a establecer el estado de funcionamiento de un sistema auditivo con problemas. • Respuesta Automática al Estímulo Auditivo Cerebral (Auditory Brainstem Response, ABR). La prueba consiste en insertar pequeños audífonos en el canal auditivo. Generalmente sonidos tipo "clic" son emitidos a través de los audífonos mientras que electrodos colocados en posición miden la repuesta de los nervios auditivos al sonido. Una computadora calcula la media de estas respuestas auditivas y emite resultados representados como ondas en la pantalla. • Prueba del Estado de Respuesta Auditiva Estable (ASSR). Este es un nuevo examen que actualmente debe hacerse en conjunto con el examen ABR para evaluar el nivel de audición. El sonido es transmitido a través de los canales auditivos, y una computadora recoge la respuesta cerebral al sonido y automáticamente establece un nivel de audición. • Prueba de Emisión Otoacústica (Otoacoustic Emissions Test, OAE). Durante esta prueba breve, un instrumento pequeño se coloca dentro del canal de audición. Numerosos pulsos de sonido son emitidos y una respuesta tipo "eco" proveniente de las células pilosas externas del oído interno es grabada. Estas grabaciones son analizadas por una computadora que establece un promedio. Una grabación normal se asocia con una función de célula pilosa normal y esto típicamente refleja una audición normal. • Timpanometría. No es una prueba de la audición sino un procedimiento que puede demostrar cuán bien se mueve el tímpano cuando un sonido suave se emite que introduce presión por medio de aire en el canal del oído. Esto ayuda a identificar problemas en el oído medio, como lo son el fluido que puede almacenarse detrás del tímpano. Un tímpanograma es una representación gráfica de una timpanometría. Una línea "plana" en un tímpanograma puede indicar que el tímpano no tiene movimiento, mientras que un patrón con "elevaciones" generalmente indica una función normal. Un examen visual del oído debe ser realizado conjuntamente con una timpanometría. • Examen de audiometría. El fundamento de toda evaluación audiológica es la audiometría de tonos puros. Este estudio pone de manifiesto la mínima intensidad (umbral) a la cual el paciente es capaz de identificar un estímulo sonoro. El 73 complemento de la audiometría tonal es la audiometría vocal o verbal. Su objetivo es evaluar la capacidad de comprensión de la palabra, es decir la capacidad de percibir el lenguaje hablado. El paciente ingresa a una cabina insonorizada en donde queda aislado del ruido. Se coloca unos audífonos a través de los cuales se le hará un estímulo auditivo hasta encontrar el punto donde el paciente no refiere percepción. Se ejecuta un oído a la vez y con tonos altos y bajos. Esta prueba puede ser efectuada en niños desde la edad de 6 años. • Exploración de Oído. Se usa para identificar la presencia de cerumen o cuerpos extraños que puedan interferir con la audición normal y en algunos casos puede desarrollar vértigo. Asimismo, este estudio es muy útil para detectar la presencia de lesiones bacterianas y micóticas que impliquen infecciones frecuentes o recurrentes del oído. Para esta prueba se utiliza un instrumento con un haz de luz llamado otoscopio, el cual se introduce en el oído para observar detenidamente la condición del canal auditivo, el tímpano y cada una de las estructuras internas. Las pruebas ABR o OAE generalmente son utilizadas en hospitales para chequear a los recién nacidos. La siguiente figura 1.45 es un audiograma, un gráfico que ilustra la audición de las personas en cada uno de los oídos, indicando el grado y tipo de pérdida auditiva (Se usa en la audiometría). 74 Figura 1.45 Un audiograma (47). Muestra el tono (frecuencia) de los sonidos, desde baja a alta frecuencia. La intensidad del sonido, también llamado nivel auditivo, se mide en decibelios (dB). El audiograma muestra el umbral auditivo para distintas frecuencias. El umbral auditivo se mide y se define como la intensidad más baja a la que el oyente puede identificar la presencia de la señal al menos el 50% de las veces. Se define como nivel auditivo la desviación en dB entre el umbral auditivo de un individuo y el nivel cero de referencia. El nivel cero de referencia es el umbral auditivo de la media normal de una persona joven. La audición normal no está solo en la línea cero, si no también el rango comprendido hasta 20 dB. 75 1.4 Tipos de síntesis Diferencia importante Es importante diferenciar lo que se hace en este trabajo de tesis y lo que se refiere a síntesis de voz. (50) Hay varias tecnologías del lenguaje que permiten el acceso y transferencia de información a través del habla. Estas interfaces basadas en voz involucran principalmente dos tecnologías: reconocimiento y síntesis de voz. • El reconocimiento de voz: es el proceso de transformar una señal de voz a texto. • La síntesis de voz o Tts (Text to speech): es el proceso de transformar el texto a una secuencia de sonidos (que en conjunto simulan la voz). En el Capítulo III de esta tesis, se hacen síntesis de sonidos. La diferencia es que esta tesis trabaja con parámetros (armónicos) que no provienen de un texto (como lo hace la síntesis de voz), pero que al final obtienen sonidos sintetizados que simulan la voz. Dentro de uno de los tipos de síntesis de voz hay una que se llama síntesis por formantes o paramétrica, la cual se asemeja un poco a este trabajo de tesis. En este tipo de síntesis se genera la voz variando parámetros que aplican señales armónicas. Al modificar los parámetros (pueden ser las formantes) involucrados en el modelo, se producen sonidos semejantes a los del habla. 1.4.1 Síntesis de sonido (51 y 52) La síntesis de sonido consiste en la obtención de sonidos a partir de diferentes medios no acústicos; variaciones de voltaje en el caso de la síntesis analógica, o por medio de programas computarizados en el caso de la síntesis digital. Desde que comenzó la síntesis de sonido, se han desarrollado diversos métodos que permitieron el acercamiento hacia los sonidos deseados. Las diferentes técnicas dieron lugar a diferentes tímbricas. Algunos tipos de síntesis son: 76 • Síntesis substractiva: método de sintetización de sonido donde una señal rica en armónicos es generada por uno o varios osciladores que poseen diferentes tipos de forma de onda en referencia a su forma. Esta señal es después filtrada para substraer las frecuencias que no se desean en la señal final con el fin de buscar la sonoridad deseada. La forma de filtrar estas frecuencias es usando Filtros Controlados por Tensión (VCF). • Síntesis aditiva: consiste en la combinación de varios osciladores para conseguir un nuevo sonido o timbre. En este tipo de síntesis es muy importante la utilización de diferentes envolventes (de ataque, caída, parte sostenida y extinción) para cada oscilador que le dan dinámica y expresividad al sonido resultante. Es la más utilizada para emular sonidos de instrumentos reales. • Síntesis granular: es una técnica de producción de sonidos que se basa en una concepción del sonido al nivel de partículas o cuantos, de tal forma que cambios en la señal relacionados con el tiempo alteran el timbre de un sonido y viceversa. De ahí se obtienen altas densidades de cuantos acústicos, que se pueden llamar granos. Un grano sonoro es un fragmento de muy corta duración (entre 5 y 100 ms) a los cuales se les aplica envolventes. Al repetir varios granos en una sucesión a una tasa mayor a 20 Hz, los granos se funden produciendo un sonido continuo. • Síntesis mediante tabla de ondas o wavetable: es una técnica de síntesis de sonido utilizando sistemas de muestreo digital almacenando sonido de alta calidad y reproduciéndolo cuando se solicite. Dado que las tablas de onda pueden ser sintéticas, pero también pueden proceder de sonidos reales, la síntesis por tabla de ondas se utiliza frecuentemente para emular instrumentos reales. • Síntesis mediante modulación de frecuencias (FM): consiste en variar la frecuencia de una señal portadora con respecto a una segunda (denominada moduladora), generando finalmente una onda modulada. La FM puede generar salidas de señal complejas que contengan múltiples frecuencias con sólo dos osciladores. • Síntesis por modulación de amplitud (AM): de igual manera que la síntesis mediante modulación de frecuencias (FM), la señal portadora es, ahora, modificada en amplitud por la moduladora. 77 • Síntesis por modulación en anillo (RM): aunque también es una modulación en amplitud, lo que realmente se hace es multiplicar la portadora por la moduladora, generando así sonidos más agudos. • Síntesis mediante modelado físico: destinada a la emulación de instrumentos existentes y se basa en las propiedades físicas de cada instrumento a emular. • Síntesis mediante distorsión de fase: basándose en osciladores digitales, trata de reproducir aleatoriamente una forma de onda previamente almacenada, consiguiendo así saltos de fase y, por tanto, adición o eliminación de armónicos a la señal de salida. De los tipos de síntesis descritos anteriormente la que se utiliza en el Capítulo III de esta tesis es la de tipo aditiva, la cual se describe a continuación de forma teórica. La síntesis aditiva. (53 y 54) La síntesis aditiva fue uno de los primeros métodos utilizados para hacer síntesis. Decayó con la aparición de los sintetizadores analógicos, para resurgir con nueva fuerza con la aparición de las computadoras. El motivo de este retorno se debe a que ahora es posible ejercer un control automatizado, basado en el análisis de Fourier, sobre un gran número de parámetros (frecuencia, amplitud, fase de las ondas, etc.). Como ya se había descrito anteriormente según el teorema de Fourier, cualquier forma de onda puede expresarse como una suma de señales sinusoidales a diferentes frecuencias. Si dicha forma de onda es periódica, entonces las frecuencias de las sinusoides son múltiplos de la frecuencia fundamental. Estas dos afirmaciones son la base de la síntesis aditiva. Este tipo de síntesis utiliza una técnica de control automatizado denominada a veces como de análisis y resíntesis, que permite sintetizar sonidos, tan similares como se desee a otros ya existentes, a partir de un minucioso análisis de Fourier. El proceso es aproximadamente el siguiente: • Mediante un análisis de Fourier, se estudia la evolución del espectro de cualquier sonido en el tiempo (es decir, la amplitud de cada armónico en varios instantes de tiempo). 78 • Con esta información temporal se obtiene la envolvente (evolución de la amplitud en el tiempo) de cada uno de estos armónicos. • A partir de la información contenida en este espectro dinámico, se sintetiza un nuevo sonido, sumando en cada instante todos los armónicos con sus respectivas amplitudes. El resultado es un sonido prácticamente idéntico al original, circunstancia que puede parecer que no presenta ninguna utilidad. Ahora bien, alterando cualquiera de estos parámetros se pueden obtener infinitas variaciones del sonido original. • Realizar minuciosamente este proceso de forma manual resulta difícil. Hoy en día, este proceso se puede automatizar y modificar con la ayuda de programas computarizados. Aunque la síntesis aditiva se puede usar para crear sonidos diferentes en la música, esta fue utilizada para trabajar en el timbre de la voz y para comprobar la hipótesis de esta tesis. El método que se utiliza en la síntesis aditiva no es exactamente el mismo porque existen algunas diferencias, una de ellas es que se usa un método manual y no automatizado, pero se basa en el principio fundamental de la síntesis aditiva el teorema de Fourier. 79 CAPÍTULO II La problemática de las prótesis auditivas para sordos profundos 2.1 Trayectoria de las prótesis auditivas 2.1.1 Las primeras prótesis Historia del Implante Coclear. (55) Luigi Galvani en Italia, trabajando en la disección de la pata de una rana, accidentalmente fue tocado en su bisturí por una chispa eléctrica generada por una maquina eléctrica que tenia a su costado y para su gran asombro, observo como la pata se contraía y lo atribuyó a un fluido eléctrico transportado por el nervio ciático de la rana. Publicó esta experiencia en 1791, en su tratado: De viribus electricitatis in motu musculari. Alessandro Volta (1745-1827) inventa la primera pila eléctrica, llamada pila de Volta y hace pruebas para estimular con ella los ojos, la lengua y los oídos. En su propio oído, en el canal auditivo externo, coloca 2 electrodos con puntas redondeadas y hace pasar entre ellos una corriente de 50 voltios, teniendo como consecuencia sensaciones auditivas. En 1800 comunica en una carta al presidente de la Royal Society: “En el momento que cerré el circuito comencé a sentir un sonido, mejor dicho un ruido y lo seguí sintiendo incesantemente mientras pasaba la corriente, ceso inmediatamente que interrumpí el paso de la corriente”. Andreev, Gersuni y Volkov, en 1932 comunican su trabajo: “Excitabilidad eléctrica del oído humano. Efecto de las corrientes alternas sobre el aparato auditivo afectado”. Sale publicado en el Jour Physiol Rusia en 1935. Andre Djourno en Francia en 1953 inicia sus trabajos estimulando con electricidad diversos nervios, insertando electrodos en los mismos. En 1957 es consultado por un otorrinolaringólogo francés, Eyries, sobre la posibilidad de implantar una paciente que había quedado sorda y con parálisis facial como consecuencia de una cirugía previa para extirpar un colesteatoma del oído medio. La paciente es implantada el 25 de Febrero de 1957 colocándosele un electrodo en el nervio sacular de su oído. La paciente vuelve a escuchar sonidos y a comprender algunas palabras, pero con el tiempo deja de funcionar. Eyries la 80 vuelve a implantar con éxito por un tiempo, pero al dejar de funcionar nuevamente, no insisten y no implantan más pacientes. Djourno creía que sus trabajos eran para el beneficio de la humanidad y que por ende no podía lucrar con los mismos, así que no registra su invención y se niega a vender derechos a firmas comerciales, es posiblemente por esto, que al quedarse sin fondos para su investigación, no pudo continuar implantando. En 1958, Maspetiol, otro medico francés, implanta una paciente de origen vietnamita con resultados similares a los de Djourno. Luego de esto, dejan de implantar en Francia. Sin embargo, Djourno continua estimulando el oído en lo que seria hoy día el Test de Estimulación del Promontorio (tiene como finalidad la estimulación de la cóclea, para ver si las terminales nerviosas del nervio aditivo son funcionales), que se utiliza para saber si el implante tiene posibilidades de éxito, al seleccionar los casos. Blair Simmons, de la Stanford University, en San Francisco, en 1964, implanta un paciente con electrodos múltiple pero sus electrodos no son muy alentadores y por ello abandona su proyecto. Michelson, en 1968, inserta electrodos dentro de la cóclea de animales y demuestra contra lo que se creía que los mismos pueden mantenerse durante mucho tiempo en la misma sin que se produjera daño a sus células. Hacia fines de la década del 60, William F. House, de Los Ángeles, USA, implanta varios electrodos en el interior de la cóclea de un profesor que queda sordo como consecuencia de una infección. En aquel entonces los cables salían a través de la piel y se conectaban a computadoras y generadores de estimulo eléctricos que ocupaban todo un escritorio. House trabajaba también con Jack Urban, un ex ingeniero de la NASA quien aplicaba todos sus conocimientos adquiridos en la Agencia Aeroespacial para mejorar la cirugía del oído. Con el tiempo y mucho esfuerzo de todo el equipo y del paciente, se logra en 1973 el primer implante portátil, que el paciente podía llevar en si mismo todo el tiempo. En ese entonces los cables de los electrodos llegaban a una especie de enchufe de baquelita que estaba atornillado al hueso detrás de la oreja, salía a través de la piel. Como es lógico, eran frecuentes las infecciones de la piel alrededor de este enchufe. 81 El Dr. House crea entonces varios centros de investigadores dentro de USA y también en el extranjero, como en el hospital británico de Buenos Aires de Argentina. (56) Otros grupos en San Francisco (Schindler, Merzenich y Michaelson), Francia (Chouard), Alemania (Banfai) y Austria (Burian), iniciaron protocolos clínicos con implantes cocleares en la década de los 70. En 1979 se realiza el primer implante de Latinoamérica, en el hospital británico de Buenos Aires. Todo este proyecto de investigación era estrictamente supervisado por la FDA de USA. El implante que se utilizo para ese entonces era de un solo canal y solo permitía discriminar ruidos y ayudar mucho a la labiolectura. En 1978 y 1989 el Prof. Graeme Clark, de la Universidad de Melbourne, Australia, implanta sus primeros dos pacientes con implantes multicanal y con una moderna tecnología de estimulación y estrategia de codificación, logra que estos pacientes comprendan las palabras sin necesidad de la labiolectura. En 1981 ya esta disponible el primer implante coclear Nucleus 22 desarrollado por Clark en colaboración con la firma Australiana Nucleus. En 1985 es aprobado por la FDA para ser utilizado en pacientes en USA y en Argentina en Marzo de 1987 se implantaron los primeros 3 casos de Latinoamérica con éxito total, dos casos eran postlocutivos y uno era prelocutivo. En Junio de 1998 la FDA autoriza la implantación en niños mayores de 2 años, en 1999 se autoriza para menores de 2 años y en 2000 se autoriza la implantación no solo para sorderas profundas sino también para las sorderas severas. Hoy en día, ya se ha iniciado la implantación de ambos oídos de los pacientes. Existen en la actualidad varias fabricantes de implantes cocleares, como Nucleus (Australia), Clarion (USA), MedEL (Austria) y Digisonic (Francia), todos ellos excelentes y que ofrecen la posibilidad de elegir entre todos ellos, de gran confiabilidad y excelentes resultados (actualmente están descontinuados). 82 (56) La historia temprana de las entidades de importancia se ilustra en la siguiente figura 2.1, que muestra los principales eventos y los principales desarrolladores de los sistemas de implantes cocleares. Figura 2.1 Historia temprana de los implantes cocleares. Los investigadores y los lugares del origen se demuestran, junto con un calendario para los diferentes descubrimientos. Las etapas iniciales del desarrollo se representan con las líneas delgadas, y los usos clínicos de dispositivos se representan con las líneas gruesas. La mayor parte de estos dispositivos están descontinuados, y muchos de los esfuerzos de desarrollo se han continuado (56). (57) Actualmente, después de una experiencia que supera los 70.000 implantes cocleares en el mundo, se puede considerar esta técnica como no experimental, habiendo quedado demostrada su eficacia en el tratamiento de la hipoacusia profunda. 83 2.1.2 Tecnología de punta y lo más avanzado en Australia, Austria y Estados Unidos. 2.1.2.1 Australia. (58) En Australia se encuentra “Cochlear TM”, empresa que desarrolla los implantes cocleares más avanzados del mundo. Tiene sus inicios en los años 80, gracias a las investigaciones del Dr. Graeme Clark. En las ultimas 2 décadas, esta empresa ha logrado muchas innovaciones tecnológicas en las prótesis auditivas, con más de 170,000 implantes con éxito. El implante más moderno de esta compañía es el siguiente: Nucleus® 5 Proporciona sonido imitando la audición natural y está diseñado para ofrecer los mejores resultados de rendimiento auditivo a las personas con hipoacusia de severa a profunda. Figura 2.2 Se puede observar como esta implantado el dispositivo completo en el cráneo humano (58). 84 El sistema Cochlear Nucleus 5 incluye: 1. El procesador de sonido Capta las ondas sonoras y las convierte en un código digital. 2. La bobina Transmite el sonido codificado digitalmente desde el procesador de sonido hasta el implante. 3. El implante Convierte el sonido codificado digitalmente en señales eléctricas y las envía a lo largo del haz de electrodos que se ha colocado en la cóclea (oído interno). 4. Fibras del nervio auditivo Los electrodos del implante estimulan las fibras naturales del nervio auditivo de la cóclea, que a su vez envían las señales al cerebro, donde se interpretan como sonido. 5. El mando a distancia Para controlar la audición mediante el mando a distancia. Características del Nucleus 5 El procesador de sonido CP810. Es el procesador de sonido más pequeño de la compañía. Proporciona un rendimiento auditivo líder en la industria en una unidad atractiva y sofisticada con numerosas funciones; resistente, adaptable y diseñado de forma ergonómica para adaptarse a orejas de cualquier tamaño 85 1. Bobina. 2. Imán de la bobina. 3. Cable de la bobina. 4. Tecla inferior. 5. Micrófonos. 6. Tecla Superior. 7. Indicador Luminoso. 8. Codo. 9. Unidad de procesamiento. 10. Compartimiento de pilas. 11. Tapa de la entrada de accesorios. Figura 2.3 Partes del procesador de sonido CP810 (58). Se puede gestionar la audición del paciente adaptando el procesador a su entorno mediante el software SmartSound™ 2, que incluye cuatro entornos auditivos adecuados para diferentes situaciones. Se puede controlar mediante el procesador de sonido o con el mando a distancia. SmartSound 2 incluye: • Cotidiano Diseñado para mejorar la audición en situaciones cotidianas como la vida familiar o en el lugar de trabajo. • Ruido Diseñado para reducir, pero sin bloquear por completo, el ruido de fondo procedente de todas las direcciones, como en un partido de fútbol o cuando se cruza una calle muy transitada. 86 • Focalizado Diseñado para facilitar el entendimiento de una persona que se pueda tener enfrente incluso cuando hay un ruido de fondo considerable, como en una fiesta o en un restaurante. • Música Diseñado para mejorar la percepción musical para los siguientes casos: si se toca algún instrumento, se escucha la radio o se asista a un espectáculo en directo. El audiólogo tendrá acceso a Custom Sound™ Suite 3.0, un software específico desarrollado por Cochlear para posibilitar el uso de SmartSound 2 y otras funciones. Aquel simplifica la programación a través de un flujo de trabajo más eficiente y mejora la interfaz de usuario para dejar más tiempo a la consulta de los pacientes. Con menos pasos este programa permite la configuración de un solo mapa con las cuatro configuraciones de ambiente (cotidiano, ruido, etc.) de SmartSound 2 y con la escritura de programas al procesador con un clic en vez de 13 (59). El procesador tiene incluso la opción de conectarse a otros dispositivos como: reproductores de MP3, la televisión y sistemas FM de forma inalámbrica o alámbrica. También funciona cuando se habla por teléfono: al descolgarlo y acercarlo a la oreja, el procesador de sonido reconoce la señal y enciende la telebobina para optimizar la audición al hablar por teléfono. Este procesador además protege la calidad del sonido: ya que al diseñarlo se pensó en hacerlo duradero porque protege los diminutos y sofisticados micrófonos del sudor, la suciedad y la mugre propios de un estilo de vida normal y activo. Para ello utilizan los protectores de micrófono de GORE® Protective Vents. Además este procesador es el más resistente al agua (60) y esta adecuado al deporte. Puede usar pilas: Recargables 87 • Se recargan de dos a cuatro horas. • Recargables estándar: hasta 31 horas de duración de las pilas. • Recargables compactas: hasta 18 horas de duración de las pilas. Desechables • Hasta 60 horas de audición • Pilas desechables de cinc-aire. La bobina. La bobina es un pequeño disco redondo que se coloca encima del implante. Transfiere las señales electromagnéticas desde la unidad de procesamiento hasta el implante. La bobina está acoplada a un cable de bobina extraíble, que se enchufa en la unidad de procesamiento. El implante de la serie CI500. Parte del implante se coloca dentro de la cóclea, esta parte se denomina electrodo. Su diseño y su ajuste son cruciales para obtener un buen rendimiento auditivo. Éste se ha diseñado para trabajar en sinergia con la cóclea del paciente. Figura 2.4 Este es el electrodo, la parte del implante que va dentro de la cóclea (58). 88 Las características del implante serie (de forma general): • Un implante físico diferente ya que tiene las siguientes características: Ø Curvado para adaptarse a la forma de la cóclea. Tiene electrodos finos que se curvan alrededor de la cóclea para adaptarse a la forma natural de ésta. Ø La longitud adecuada. Su diseño con la longitud apropiada se ajusta de acuerdo al perfil de hipoacusia y a la posición natural del nervio auditivo. Debido a lo anterior, se podrá tener acceso a todos los sonidos importantes del mundo real. Incluso se pretende evitar los potenciales daños a la cóclea causados por una inserción demasiado profunda del electrodo. Ø Diseño flexible: Softip™. El Softip en el extremo del electrodo favorece una inserción suave, concebida para minimizar el riesgo de dañar las delicadas estructuras de la cóclea. • Tiene el AutoNRT™ AutoNRT (Telemetría de Respuesta Neural Automática) permite que el especialista confirme la ubicación precisa de los contactos de estimulación al medir la respuesta del nervio auditivo. Esta combinación de diseños permite al cirujano posicionar al electrodo más cerca del nervio auditivo para una estimulación más focalizada y precisa, provocando de igual manera que se presione menos la cóclea. 89 • Alto número de puntos de estimulación Los electrodos de Cochlear vienen con 22 contactos de estimulación de platino auténtico, diseñados para ofrecer una cobertura completa de la “zona de audición”, proporcionando al nervio auditivo un sonido de gran precisión. Figura 2.5 Los electrodos de Cochlear vienen con 22 contactos de estimulación (58). • 161 tonos sonoros diferentes El microchip en combinación con su estrategia de codificación de sonido, puede percibir hasta 161 tonos diferentes provocando que el sonido se perciba de forma más natural. Debido a ello, el audiólogo tendrá la posibilidad de programar el sonido según la preferencia del paciente. • De una contracción de alta resistencia 90 La serie CI500 es 2½ veces más resistente que la generación anterior de implantes: Nucleus Freedom™, y cumple ya las normas que probablemente serán vigentes en el futuro. • 40% más delgado Como en todos los implantes Nucleus anteriores esta nueva serie CI500 se ha desarrollado en colaboración con cirujanos de todo el mundo, para que así se pueda simplificar aún más el procedimiento quirúrgico. Figura 2.6 Se observa el tamaño diminuto del implante de la serie CI500 (58). El resultado es el siguiente: Ø El implante coclear más delgado del mundo. Ø Un único micro-dispositivo robusto y con tan solo 3.9 mm de grosor. Ø Mejor adaptación a la forma de la cabeza. Ø Un implante coclear ideal para personas de cualquier edad. • Adecuado para la Resonancia magnética por imágenes (RMI) Con un implante Nucleus se puede someter el paciente de forma segura a: Ø una RMI de potencia media hasta 1,5 teslas con el imán colocado Ø una RMI de alta potencia hasta 3 teslas con el imán retirado mediante una sencilla intervención ambulatoria Se denomina cirugía ambulatoria a intervenciones quirúrgicas de menor grado, en las cuales el paciente puede ser dado de alta después del procedimiento, se usa anestesia local y no es necesario pernoctar en el Hospital (61). 91 • Diseñado para hoy en día y para el futuro Figura 2.7 El diseño del circuito del implante (58). El microchip de la serie CI500 tiene mayor capacidad. Ello significa que podrá sacar el máximo partido de las actualizaciones que se realicen en las próximas décadas, será tan fácil como actualizar su procesador de sonido. Diseño fino y perfectamente liso con materiales blandos 1. titanio pulido 2. con una silicona más resistente Figura 2.8 Forma física del implante quirúrgico (58). 92 El mando a distancia Nucleus CR110 El mando a distancia Cochlear Nucleus CR110 le podrá proporcionar al usuario el control total sobre la audición: desde el control inalámbrico de las funciones del procesador de sonido, hasta la visualización de la información principal en caso de que se quiera saber si todo funciona correctamente. Figura 2.9 El mando a distancia Nucleus CR110 (58) Funciones del control: 1. Comprobación con una sola tecla Al pulsar la tecla “Cochlear”, el dispositivo comprueba el estado de la unidad de procesamiento, el compartimento de la pila, la bobina y el cable de la bobina. 2. Interfaz simple de usuario Se puede cambiar el volumen, la sensibilidad y los programas para adaptarlos a diferentes situaciones de escucha, además viene con una serie de funciones adicionales que mejoran el rendimiento del dispositivo. 3. Pantalla LCD a color Se puede confirmar en la pantalla LCD que el procesador de sonido ha realizado el cambio deseado. El usuario recibirá alertas en la pantalla Cuando las pilas tengan poca carga, la bobina no esté conectada, el procesador no 93 funcione correctamente y otros. Se restablecerá fácilmente. Al pulsar “Reset” se vuelve a los ajustes originales. Larga duración de las pilas Las pilas recargables duran aproximadamente una semana, y se recargan rápidamente de dos a cuatro horas. 4. Dos implantes, un mando a distancia. Con sólo pulsar una tecla se puede controlar o modificar los ajustes de 2 procesadores (izquierdo y derecho) simultáneamente. Actualmente el producto está disponible en Australia, Canadá, EUA y próximamente lo estará de manera comercial en Latinoamérica y Europa (62). 94 2.1.2.2 Austria. (63) En Austria se encuentra “MED-EL”, compañía que desarrolla al igual que “Cochlear TM”, prótesis auditivas de la mejor tecnología porque mediante su investigación, establece los estándares de referencia en dispositivos auditivos implantables a escala global. Nace de la idea de los Profesores Ingeborg Hochmair y Erwin Hochmair en Viena a mediados de 1970, motivados por la pasión de superar las barreras de la pérdida auditiva A mediados de 1970, estos profesores inician sus proyectos de investigación sobre la estimulación de los nervios auditivos y las tecnologías de procesamiento de sonido en la Universidad Técnica de Viena, Austria. En 1977, desarrollaron el primer implante coclear micro-electrónico multi-canal del mundo. Y así, el 16 de Diciembre de 1977 fue implantado el primer paciente a escala mundial por el cirujano Prof. Kurt Burian. En los años posteriores, se lograron numerosas innovaciones tecnológicas en una rápida sucesión y en 1989 se fundó “MED-EL” en Innsbruck. Los implantes disponibles de MED-EL Esta empresa maneja una amplia gama de productos que se ajuntas a las necesidades de los pacientes para el caso de los sordos profundos y son los siguientes: • MAESTRO: Un sistema con varias opciones que se describe más adelante, que tiene una restricción puede estar sujeto a la disponibilidad del mercado de cada país. • TEMPO+: Está compuesto por una unidad de control del procesador de palabra, una bobina, un cable de bobina y cuatro portabaterías diferentes. La unidad de control del procesador de palabra tan sólo mide 0.8 cm de ancho x 2.5 cm de largo x 1.5 cm de alto, incluyendo los botones de volumen, sensibilidad y programas. Tiene un peso extremadamente reducido, pesando tan sólo 11g incluyendo las baterías. • COMBI40+: Se utiliza a escala mundial en más de 80 países. Está diseñado para una cobertura coclear completa (aprox. 31.5 mm), busca la estimulación máxima de fibras nerviosas en toda la extensión de la cóclea. Maneja encapsulado cerámico, un electrodo suave que esta disponible en diferentes variantes como: el estándar, mediano, comprimido, FLEXEAS, etc., según la necesidad del paciente. 95 Se profundizara sobre el primero debido a que es lo último en tecnología que maneja la empresa. El sistema MAESTRO Está compuesto por dos procesadores de palabra: OPUS1 y OPUS2, varios portabaterías para las distintas opciones de uso, la bobina, dos diseños de implante: PULSARCI100 y SONATATI100 y una amplia variedad de guías de electrodos. Los procesadores de palabra OPUS de MED-EL ofrecen a los usuarios un mayor detalle y claridad de sonido, para una mejor apreciación musical y comprensión del habla. Son compactos y de poco peso. Se pueden programar para diferentes situaciones incluyendo las específicas para niños, asegurando que el procesador de palabra se adapte a las necesidades de cada individuo, estilo de vida y actividades. Estos procesadores también están protegidos en contra de la humedad, ya que la placa base de los circuitos utilizada en los procesadores de palabra están recubiertas por materiales especiales para proteger con eficacia los componentes electrónicos. Se emplean conectores tratados con lubricantes específicamente desarrollados para repeler el agua. El encapsulado del dispositivo está diseñado para actuar como barrera contra los fluidos y el vapor de agua, pero no está cerrado herméticamente; esto previene la corrosión mucho más efectivamente, ya que permite que la existencia de humedad interna se seque mucho más eficientemente que aquella que quedaría encerrada dentro si el sistema fuese totalmente hermético. EL OPUS 1 presenta conmutadores fáciles de manejar para seleccionar los programas y realizar ajustes, OPUS 2 presenta un diseño sin interruptores al funcionar con FineTuner, una unidad de control remoto. 96 Figura 2.10 En esta figura se puede observar a los procesadores OPUS 1 Y OPUS 2 respectivamente. El segundo funciona con Fine Tuner el control remoto (63). Manejan la Nueva Batería Recargable y sistema de carga DaCapo. El Sistema DaCapo consta de DaCapo PowerPacks (baterías recargables), el cargador DaCapo y la estructura DaCapo. • Ha sido desarrollado para los procesadores de palabra TEMPO+, OPUS 1 y OPUS 2. • Da una gran eficiencia energética sin comprometer el funcionamiento. • Reduce aún más el peso de los procesadores de voz. • Respeta el Medioambiente. • Completamente compatible con los sistemas FM y otros dispositivos externos. • Intercambiable por las distintas opciones de unidad de baterías. • Tiempo de carga: menos de 4 horas • Duración de carga 10-12 horas El cargador DaCapo tiene 2 alojamientos independientes de carga con luces indicadoras de carga por separado y alimentación compatible con los estándares internacionales (desde 100240 V AC, 50-60 Hz) con varias tomas de alimentación. También dispone de un cable adaptador opcional para el encendedor del coche (7-15V DC) 97 Figura 2.11 Batería recargable y sistema de carga DaCapo (63). Utilizan la tecnología FineHearing™ Hasta el momento, los implantes cocleares tan sólo habían estado preparados para procesar la información de la envolvente de las señales sonoras. Los procesadores de palabra OPUS tienen una electrónica que soporta el “FineHearing™”, que busca proporcionar a los usuarios la información del sonido más clara y detallada para experimentar una audición excepcional en cualquier situación. FineHearing™: está diseñada para superar las limitaciones de las tecnologías convencionales basadas en la envolvente, permite a los usuarios experimentar la detallada estructura fina de los sonidos complejos. La información de la estructura fina contiene pistas y características temporales que son muy importantes a la hora de escuchar música o cuando se tiene una conversación en entornos ruidosos. Figura 2.12 Una señal sonora se puede dividir en dos componentes: la envolvente y la estructura fina (63). 98 En una señal sonora: la envolvente es el perfil general de una señal acústica que refleja los cambios de la sonoridad en el tiempo (intensidad). La estructura fina contiene información más detallada y refleja los pequeños detalles del timbre (frecuencia) que se modifican rápidamente en el tiempo. Para entender lo que es la estructura fina, un ejemplo: Envolvente Estructura Fina Envolvente y la Estructura Fina Figura 2.13 Una fotografía del Big Ben de Londres demuestra los beneficios que proporciona la estructura fina (63). En la envolvente se muestra la silueta del Big Ben; sin embargo, se pierden algunos detalles. Esto es comparable con la envolvente de una señal sonora. En la estructura fina, se muestran los detalles ornamentales del reloj; que se comparan con los detalles y la finura que pueden llegar a tener de igual manera una señal sonara. La integración de ambas fotografías proporciona los detalles, profundidad y dimensión del Big Ben. Lo mismo pasa en el sonido al integrar la información de la envolvente y de la estructura fina. 99 Características de los procesadores de palabra OPUS: • Procesamiento del Sonido: Los procesadores de palabra soportan una amplia variedad de estrategias de procesamiento de sonido para asegurar el mejor rendimiento posible. • Gestión Automática del Sonido: Permite que los sonidos, tanto de baja como de alta intensidad, sean escuchados de forma clara y cómoda en todas las situaciones. Asegura que todos los ajustes se realicen automáticamente sin que el usuario tenga que realizar acción alguna. • Ventana de Adaptación de Sonido: En la audición natural, el rango entre el sonido más débil y el sonido más intenso que una persona pueda escuchar cómodamente, es conocido como Rango Dinámico y es de alrededor de 120dB. Para los usuarios de implante coclear, este rango es conocido como Rango Dinámico de Entrada (IDR). Los procesadores de palabra proporcionan un IDR de 75 dB. Esta Ventana asegura que este rango se adapte automáticamente a los sonidos recibidos, dependiendo de su intensidad. • Control Automático de Ganancia de Doble Lazo (AGC): Los procesadores de palabra OPUS están provistos de Dual-Loop AGC (AGC= Control Automático de Ganancia) que ajusta los sonidos muy débiles y muy intensos para que sean escuchados clara y cómodamente por el usuario del implante. • Identificación de implante IRIS™: IRIS™ significa Reconocimiento Individual del Sistema de Implante, aquel evita que se produzca la estimulación si el procesador utilizado no es el correcto. Esto es especialmente importante para los niños implantados bilateralmente, en situaciones de grupo y en colegios con varios niños utilizando implantes. • Luz de Estado: Es un pequeño LED integrado en los procesadores que proporciona a los usuarios, una indicación visual del normal funcionamiento. En caso de falla el patrón de parpadeo le indica el tipo de atención requerida. • Bloqueo de Seguridad: Todas las configuraciones de OPUS pueden ser bloqueadas para asegurar que ningún componente del procesador de palabra pueda quitarse o manipularse. 100 • SoundGuard: Monitoriza continuamente sus mapas de programación en busca de inconsistencias de datos, tales como aquellos resultantes de la ESD o electricidad estática. Si se detecta algún problema, SoundGuard detiene la estimulación y activa el parpadeo de la luz de Estado. En la mayoría de los casos, todos los datos de programación se reestablecen simplemente apagando y encendiendo el sistema, de esta manera no será necesaria la visita a su audiólogo o profesional de la audición. Con respecto a los procesadores de palabra OPUS 1 y OPUS 2, se describirá específicamente solo al segundo debido a que el enfoque de este capítulo es con respecto a las tecnologías de punta. Procesador de palabra OPUS 2 OPUS 2 de MED-EL es el procesador de palabra más pequeño, fino y con menor peso disponible de la compañía. Está diseñado sin conmutadores para realizar los ajustes, ya que los ajustes se hacen mediante una unidad de control remoto el FineTuner. Tiene una nueva electrónica que soporta las nuevas estrategias de codificación de sonido, con un diseño modular donde hay distintas opciones de uso para todas las edades y necesidades, con 4 programas y un volumen ajustable. Maneja la compatibilidad con los implantes cocleares MED-EL de ahora y en el futuro (SONATATI100, PULSARCI100, C40+, este último más adelante con una futura versión de software). Presenta un telecoil integrado y un jack de entrada de audio estándar para conectar, por ejemplo: teléfonos, TV, sistemas Hi-Fi, reproductores MP3, sistemas FM sin cables, Bluetooth, videoconsolas de juegos y muchos más dispositivos. El telecoil es un receptor en miniatura que se puede utilizar con una amplia variedad de teléfonos, sistemas de sonido públicos y sistemas de lazo inductivo. Cines, colegios, museos y muchos otros lugares, ofrecen sistemas de lazo inductivo y sistemas de infrarrojos que hacen más fácil la audición minimizando el ruido de fondo. 101 Usa una selección de portabaterías diferentes: • Unidad de Baterías Estándar: Diseñado para ajustarse perfectamente detrás del pabellón auditivo. Tiene 12 gramos de peso aprox., incluyendo las baterías, esta opción es para el uso diario. • Sistema de Batería Recargable DaCapo: el cual se describió anteriormente. • BabyBTE: Para la implantación en niños. Todo el procesador se fija en la ropa del bebé sin tener que colocar ningún dispositivo en la oreja. Cuenta con un sistema de bloqueo de seguridad que impide su manipulación y está provisto de una Luz de Estado, que permite comprobar el correcto funcionamiento. • ActiveWear: En deportes, fitness u otras actividades de alto impacto, este permite fijar el procesador a la ropa para que permanezca seguro en su lugar. Esta configuración es mucho menos susceptible a la humedad de la transpiración cutánea. En aquellos deportes en los se requiera el uso del casco, no interferirá con la audición ya que el micrófono no estará cubierto. • Portapilas Pediátrico: El procesador de 2gramos esta a la altura del oído y el portabaterías esta sujeto a la ropa. En cuanto a seguridad: si la unidad de control se cae del pabellón auditivo mientras el niño juega, el portapilas, al estar sujeto a la ropa evitará que el procesador caiga al suelo. • Pack de Baterías Remoto: Permite utilizar una única batería AA, tanto recargable como desechable. Se incluyen tres baterías recargables y un cargador. Aproximadamente la carga dura de 2–3 días de uso. Otra característica de este pack remoto, es que cuenta con un conector jack de entrada de señal como los utilizados en los audífonos. Esto le facilita el acceso a teléfonos móviles, reproductores MP3, televisores, etc. También se pueden conectar a este jack dispositivos de ayuda auditiva de conexión directa (ALD) como los sistemas FM y Bluetooth proporcionando conexión sin cables wireless. 102 Unidad de Baterías Estándar y Sistema DaCapo Baby BTE y ActiveWear Portabaterías Pediátrico Pack de Baterías Remoto Figura 2.14 Las opciones de portabaterías que maneja el OPUS 2 (63). Presenta un diseño sin botones ni interruptores al funcionar con FineTuner, una unidad de control remoto. Esto quiere decir que los cambios en los ajustes se hacen sobre la marcha en la ausencia de conmutadores, sin tener que quitarse el procesador del pabellón auditivo y sin interrumpir la audición. No es necesario utilizar el sintonizador FineTuner diariamente, ya que OPUS 2 activa automáticamente el mismo programa, volumen y sensibilidad que utilizó por última vez. La mayor parte de los pacientes raramente necesitan modificar los ajustes del procesador. Los pacientes con un implante bilateral MED-EL, tienen la posibilidad de utilizar el mismo sintonizador para los dos procesadores de palabra. Además, los botones de FineTuner pueden bloquearse totalmente o sólo habilitarse para determinadas funciones, para el caso del uso de los niños. 103 Figura 2.15 Control Fine Tuner. Los grandes botones facilitan su uso, especialmente para aquellas personas con dificultades de visión o con problemas para utilizar pequeños botones (63). Maneja las siguientes estrategias de Codificación de Sonido: • Fine Structure Processing (FSP). • High Definition CIS (HD-CIS). • Continuous Interleaved Sampling (CIS+). Después de describir al procesador OPUS 2, es momento de hacer referencia de los implantes que forman parte del sistema MAESTRO de MED-EL. Implantes Cocleares PULSARCI100 y SONATATI100 descritos de forma general Características: • Utilizan la plataforma electrónica avanzada I100 de MED-EL Ø Proporciona acceso a sofisticadas estrategias de codificación del sonido disponibles ahora y el futuro. Ø Esta diseñada para conseguir una eficiencia de alto rendimiento. Esto se traduce en una excepcional duración de las baterías sin comprometer el funcionamiento del implante. Ø Los componentes electrónicos que poseen forman parte de un microchip hecho a medida llamado ASIC (Circuito Integrado de Aplicación Específica). 104 Ø Emula el proceso natural de audición (comportamiento estocástico) mediante el empleo de tasas de estimulación que se ajusten a las propiedades del nervio auditivo del receptor. Ø Soporta FineHearing™ (descrito anteriormente) y Estimulación Paralela Inteligente (IPS™), tecnologías diseñadas para proporcionar un mayor detalle y claridad de sonido en todas las situaciones auditivas. IPS estará disponible en las próximas actualizaciones de software. • Tecnología a Futuro Ø Podría utilizar la tecnología de estimulación Paralela Inteligente (IPS™) Es aquella que utiliza sofisticados algoritmos matemáticos, incluyendo la Compensación de la Interacción entre Canales, la Estimulación Paralela con Correlación de Fase y Polaridad y los Pulsos Trifásicos, para controlar automáticamente la interacción entre canales (disponible en futuras versiones). Ø Estimulación Paralela con Correlación de Fase y Polaridad (SCS) Esta estimulación está diseñada para sincronizar el inicio de todos los pulsos paralelos para que sucedan exactamente al mismo tiempo en canales múltiples iniciándose con la misma polaridad, lo que reduce al mínimo la diferencia de potencial entre canales y, por lo tanto, la interacción entre los mismos. Ø Pulsos Trifásicos Tradicionalmente, los sistemas de Implante Coclear han proporcionado la estimulación eléctrica mediante el empleo de pulsos eléctricos bifásicos, generando un reducido campo eléctrico residual en la cóclea al final de cada pulso. Pero los implantes de MED-EL soportan pulsos trifásicos que minimizan estos campos eléctricos residuales. (En la sección 2.4 de este capítulo se explica el significado de interacción entre canales.) • Amplio rango de telemetría y funciones de evaluación con el Kit de Diagnóstico Exhaustivo (CDT) El CDT es un conjunto de herramientas de diagnóstico avanzado para ser utilizado por los profesionales del implante coclear: 105 Ø Emplea técnicas innovadoras: como los pulsos trifásicos de precisión y modulación adaptativa Sigma-Delta. Ø Impedancia y Telemetría de Campo (IFT): Proporciona información referente al implante y a la integridad de los electrodos. Ø Telemetría de Estado*: Posibilita el chequeo de la información del implante, por ejemplo, chequeo de Identidad, voltaje, etc. Ø IFT de Precisión*: Medidas extensivas de impedancia y telemetría de campo. Ø Telemetría de Respuesta del Nervio Auditivo (ART™): Suministra información precisa de la respuesta fisiológica del nervio auditivo a la estimulación producida por el implante coclear; también conocida como ECAP (Potencial de Acción compuesto Evocado Eléctricamente). ART emplea la tecnología de modulación Sigma-Delta patentada por MED-EL que actúa a 1.2 megamuestras por segundo. (*Características que estarán disponibles en futuras versiones de software.) • RMN (Resonancia Magnética Nuclear) Segura Los implantes cocleares MED-EL ofrecen seguridad en RMN (a 0.2, 1.0 y 1.5 Tesla) sin necesidad de intervención quirúrgica para la retirada del imán interno. • Variedad en el Diseño de los Electrodos Cada una de ellas está diseñada para ajustarse a los requerimientos clínicos específicos de cada paciente. La gran variedad de guías de electrodos proporciona a los cirujanos la posibilidad de seleccionar la solución óptima para cada tipo de oído incluyendo opciones para individuos que presentan osificación coclear o audición residual. PULSARCI100 y SONATATI100 están disponibles con las siguientes opciones de guía de electrodos, dependiendo de la disponibilidad en el mercado: Ø Guía de Electrodos Estándar: Ofrece la inserción más profunda (aproximadamente 31mm) y la mayor distancia entre canales (2.4mm). Presenta 12 pares de contactos 106 (se entiende como 24 canales de estimulación) y está diseñado para proporcionar la estimulación del rango de frecuencia completo de la cóclea. Ø Guía de Electrodos Mediana: Presenta 12 pares de electrodos con una distancia entre canales moderada (1.9mm), idónea para aquellos casos en los que no se desea una inserción profunda o no es posible debido a restricciones anatómicas. Ø Guía de Electrodos Comprimida: Diseñada específicamente para casos de osificación parcial o malformación de la cóclea. Presenta 12 pares de contactos equidistantes a una distancia más corta (1.1mm) para maximizar el número de canales disponibles y optimizar el rendimiento. Ø Guía de Electrodos Bifurcada: Para casos de osificación severa de la cóclea, se compone de dos ramas de electrodos separadas, una con cinco pares y otra con siete pares de contactos. Las guías están diseñadas para la inserción en áreas diferentes de la cóclea para maximizar el número de canales disponibles y optimizar el rendimiento. Ø Guía de Electrodos FLEXsofá: Presenta la misma disposición que la Guía de Electrodos Estándar y permite la inserción profunda dentro de la región apical de la cóclea. La alta flexibilidad mecánica de la sección distal de la guía de electrodos reduce la fuerza de inserción necesaria. Ø Guía de Electrodos FLEXEAS: Está diseñada para inserción reducida dentro de la espira basal de la cóclea. La alta flexibilidad mecánica de la sección distal de la guía de electrodos reduce la fuerza de inserción necesaria. Ø Implante de Tronco Cerebral (ABI): Diseñado para individuos con nervios auditivos no funcionales, normalmente debido a Neurofibromatosis Tipo II (NF2). La guía de electrodos presenta 12 contactos dispuestos en una paleta suave de silicona preformada. 107 Guía de Electrodos Estándar Guía de Electrodos Mediana Guía de Electrodos Comprimida Guía de Electrodos Bifurcada Guía de Electrodos FLEX sofá Implante de Tronco Cerebral (ABI) Figura 2.16 Guía de electrodos (63). Guía de Electrodos FLEX EAS 108 Implante Coclear PULSARCI100 Caracterizan de este implante auditivo: • Es el implante coclear más pequeño con un grosor de: 4 mm, disponible de la compañía. • El encapsulado cerámico proporciona un diseño extremadamente compacto que contiene, de forma segura, la bobina receptora que recibe las señales enviadas por el procesador de palabra. • La cerámica utilizada en el implante está compuesta por un material biocompatible especial; los materiales del implante cerámico tiene una larga trayectoria en varias aplicaciones clínicas y son especialmente resistentes al clima y al tiempo. • Tiene una historia en fiabilidad a largo plazo sin precedentes. • Ideal para los niños. Figura 2.17 Implante Coclear PULSARCI100 (63). 109 Implante Coclear SONATATI100 Caracterizan de este implante auditivo: • El implante de titanio más ligero con un peso de: 8.6 gr. disponible de la compañía. • Está encapsulado en una cápsula compacta y ligera, combinando titanio de doble capa y silicona flexible. • Su excepcional pequeño tamaño y espesor, lo hacen ideal para niños, bebés y al mismo tiempo para adultos. • Diseñado para permitir técnicas quirúrgicas mínima mente invasivas que hacen posibles una recuperación más rápida. • La flexibilidad le permite ajustarse al perfil del cráneo. • Como características de seguridad incluye: la identificación de implante IRIS (Ya ha sido descrita en las características del OPUS 2), chequeo de integridad del implante y condensadores de salida acoplados. Figura 2.18 Implante Coclear SONATATI100 (63). 110 2.1.2.3 Estados Unidos. Introducción (64) Advanced Bionics Corporation es uno de los líderes internacionales en Implantes cocleares. Evolucionó a partir de dos compañías que desarrollaron y comercializaron dispositivos médicos, una de marcapasos y otra de sistemas de microinfusión (bombas miniatura para la administración de fármacos que se utilizaban en el tratamiento de la diabetes). Se fundó en 1993 para fabricar y distribuir el implante coclear Clarion® para tratar la sordera. Alfred E. Mann fundó Advanced Bionics en 1993 y pidió a Jeff Greiner que dirigiera la organización formada por siete ingenieros y científicos. Al Mann y Jeff Greiner han estado trabajando juntos desde entonces y la organización ha crecido hasta más de 700 empleados en todo el mundo. Fue adquirida por Boston Scientific en el año 2004. El implante más moderno de esta compañía es el siguiente: (65) El nuevo sistema Harmony HiResolution® Bionic Ear: Es el nombre de la última gama de productos de esta compañía, con el implante HiRes 90K®, el procesador HiRes® Harmony y dos formas de procesamiento de sonido HiResolution®: HiRes® e HiRes® Fidelity 120™. El Harmony es un sistema modular que proporciona la flexibilidad necesaria para adaptarse a las diferentes edades, estilos de vida y situaciones. Contiene: un módulo procesador, un auricular con cable, una variedad de baterías y diversas patillas fáciles de conectar, para opciones alternativas de entrada. Es compatible con los sistemas de circuito cerrado de inducción e incluye elementos diagnósticos para indicar el funcionamiento correcto. Algunas de sus características principales son las siguientes: • Con en el micrófono T-Mic®, la calidad del sonido comienza con el micrófono en el lugar correcto, a la entrada del oído. • Tiene un gran Rango Dinámico de Entrada de 20 dB–80 dB programable (60 dB predeterminado), con un Control de Ganancia Automático de doble acción y un 111 potente procesador de sonido de 16 bits; que mejoran la inteligibilidad en ambientes ruidosos y de nivel variable de sonidos, desde los más bajos hasta los más fuertes. • Como en los procesadores previos, es robusto, resistente al sudor y la humedad, y está reforzado por la tecnología PowerCel™ recargable. • Tiene un modo Power Economy (ahorro energético) que alarga la duración de la pila un 50% más comparado con la generación anterior de BTE, por lo que los usuarios pueden disfrutar cómodamente de un día entero de funcionamiento con una sola carga. • Tiene garantía para la exposición al agua. • Posee la característica de seguridad Intellilink™ que asocia el procesador con un implante específico, para proteger contra la estimulación si los procesadores son accidentalmente cambiados de oído o entre los usuarios. • Maneja opciones de ganchos auriculares intercambiables para utilizar naturalmente el teléfono, conectar entradas de audio periféricas, monitorizar el estado de los dispositivos de los niños y más. • Viene con cubiertas y tapas Accent Color intercambiables. • Tiene el procesamiento del sonido HiResolution. 112 1 1. 2. 3. 4. 5. Mandos de procesador. Gancho auricular. Modulo de procesador. PowerCel Recargable. Cubiertas y caperuzas auriculares de colores Accent. 6. Auricular. 6 5 4 3 2 Figura 2.19 Partes del sistema Harmony (64). 113 A continuación, se describen algunas de las características, funciones, opciones de configuración, sistemas de baterías, accesorios y modalidades (Procesador de sonido Platinum Series) del sistema Harmony. El procesador HarmonyTM Figura 2.20 El procesador Harmony 1. Conmutador de programas con tres posiciones para retroalimentación táctil y visual. 2. Dial de volumen para retroalimentación táctil y visual. 3. T-Coil Interna, es una telebobina incorporada para acceso inalámbrico a teléfonos compatibles con audífonos y circuitos cerrados de inducción. 4. Indicador visual multicolor que proporciona el estado del procesador y la vida restante de la batería. Colores: rojo cuando no se está comunicando con el implante, naranja cuando la carga de la pila está baja o es necesario cambiar pronto la pila, verde cuando el procesador está transmitiendo correctamente la información del sonido hasta el implante (64). Se ofrece en tres colores básicos, con un auricular discreto, ligero y de perfil bajo. Ofrece 20 opciones de cubiertas de color proporcionan más de 60 combinaciones de colores, de modo que el procesador se puede individualizar para adaptarlo a la personalidad y estilo del usuario. 114 Figura 2.21 Las diferentes combinaciones de colores (64). Al igual que los demás sistemas de las otras compañías, el harmony permite la conexión a otros dispositivos acústicos; ya que el gancho auricular es una herramienta de escucha: Figura 2.22 Se pueden conectar diferentes auriculares al procesador. Los ganchos auriculares se suministran en tres colores básicos para adaptarlos al color del módulo del procesador. Están disponibles además en tamaño normal y pequeño, para adultos y niños (64). 115 Tipos de Ganchos: • Gancho auricular estándar: Sirve para sujetar el procesador en el oído y utiliza el micrófono integrado del módulo del procesador. • Micrófono T-Mic™: Es un micrófono personalizado que se coloca en el oído para uso en aplicaciones diarias, desde escuchar música en ambiente ruidoso hasta acceso fácil a teléfonos móviles, aparatos de audio y sistemas de audición asistida. • Adaptador iConnect™: Proporciona acceso sin cables a los modernos receptores de FM miniaturizados más comunes. Compatible con Phonak MicroLink MLxS, el receptor FM miniaturizado que normalmente se utiliza en las escuelas. Con una fuente de alimentación separada, proporciona recepción de FM fiable sin perjuicio de un suministro de energía constante. • Direct Connect: Permite acceder a diversos aparatos de audio de funcionamiento de pilas (como sistemas de MP3 y CD) a través de un cable desmontable con un conector estéreo de 3,5 mm. También se puede usar como gancho auricular autónomo; basta con desconectar el cable. T-Coil externo: un accesorio que se conecta al Direct Connect, puede utilizarse en lugar de la opción T-Coil integrada de Harmony si se precisa un ajuste fino manual de la recepción de la señal de bucle inductivo. 1 5 2 3 4 1. Gancho auricular estándar. 2. Micrófono T-Mic™. 3. Adaptador iConnect™, con Phonak MicroLink MLxS, el receptor FM miniaturizado. 4. Direct Connect. 5. T-Coil externo, conectado al gancho Direct Connect. Figura 2.23 Diferentes tipos de Ganchos Auriculares (64). 116 Las opciones de energía para el procesador del sistema Harmony: • Utilizan la tecnología de pilas recargables de ion-litio PowerCels de quinta generación y están diseñadas de acuerdo con normas de seguridad más estrictas que las pilas recargables normales, para conseguir un sonido de alta resolución. • No dañan el medioambiente ya que se ahorra en pilas desechables y pueden recargarse cientos de veces, proporcionando años de uso. • Las pilas PowerCel se instalan y desinstalan fácilmente. • Con una sola carga, puede disfrutar de un día completo de servicio y se puede recargar mientras el usuario este durmiendo. • Maneja diferentes modos y opciones de carga de las baterías. • Esta en desarrollo y depende de la disponibilidad del país, las opciones de alimentación fuera del oído, con pilas tanto desechables (AAA LR3) como recargables. Estas opciones proporcionan desde un día completo hasta varios días de duración de las pilas. La porción del Harmony usada sobre el oído es significativamente más pequeña y ligera cuando se utilizan esas opciones. Ø Ideal para oídos pequeños. Ø Práctico para implantes bilaterales, ya que los 2 procesadores harmony pueden ser conectados a una misma opción de alimentación. Ø Da tranquilidad durante los viajes cuando no se tiene la opción de recarga. • Se puede elegir entre las pilas PowerCel Slim y PowerCel Plus y se suministran en 3 colores básicos para adaptarlos al color del módulo del procesador. Ø La pila recargable PowerCel Slim es delgada y discreta y proporciona un promedio de 14 horas de funcionamiento sin necesidad de recarga. Ø La pila PowerCel Plus ofrece aproximadamente 24 horas de tiempo de funcionamiento, proporcionado la conveniencia de más de un día completo de operación, si necesidad de una recarga. 117 Se coloca y se quita Las pilas PowerCel se con mucha facilidad suministran en tres colores básicos para adaptarlas al color del módulo del procesador Cargador PowerCel Alimentador de carga Carga de forma PowerCel simultánea cuatro pilas Conecta el cargador a recargables. una toma de corriente. Hace que el módulo del procesador sea más liviano. Lleva pilas desechables AA y esta disponible en América. PowerCel Slim Adaptadores de alimentador de carga PowerCel Permite la adaptación a especificaciones de alimentación internacionales (incluye 3 adaptadores). PowerCel Plus Adaptador de cargador de pilas para automóvil Permite conectar el cargador al mechero del automóvil. Adaptador Powerpak y Adaptador Power Cel respectivamente. El primero usa pilas AAA y el segundo una recargable. Esta disponible en Europa. Figura 2.24 Imágenes respectivas a las diferentes opciones de pilas (desechables y recargables) y cargadores (64). 118 Algunos accesorios: El cable Direct Connect Proporciona la interfaz entre el Direct Connect y los dispositivos de escucha asistida, junto con el uso del cable de la interfaz de audio (la siguiente figura). El cable es negro, viene con una pinza resistente con adaptador estéreo a mono, y está disponible en tres largos diferentes. Se conecta el gancho auricular al conector hembra de entrada. El cable de la interfaz de audio Se utiliza con Direct Connect y con el cable de Direct Connect y permite conectar el procesador con dispositivos portátiles, alimentados con pilas, tales como MP3, CD, y reproductores DVD y otras tecnologías de escucha asistida. Caja de transporte Diseñada para guardar el dispositivo HiRes Harmony y sus accesorios. Tiene compartimentos para Harmony, pilas PowerCel y otros accesorios. Además, contiene un sistema de secado para reducir la humedad. Cartera para objetos pequeños Esta hecha para una, dos o más pilas PowerCel y para opciones de gancho auricular como Harmony TCoil, Direct Connect y cables. Figura 2.25 Algunos accesorios del sistema Harmony (64). 119 Procesador de sonido Platinum Series™ (PSP), una configuración diferente Este procesador se usa sobre el cuerpo dejando libre al oído. Posee algunas de las características que proporciona el procesador harmony, como: • El amplio rango dinámico de entrada de 20 dB–80 dB programable (60 dB predeterminado). • Un potente control de ganancia automático de doble acción. • Una cómoda interfaz para poder acceder a los teléfonos compatibles con audífonos y sistemas de FM. • El sistema de seguridad Intellilink™ asocia el procesador con un implante específico, para proteger contra la estimulación si los procesadores son intercambiados accidentalmente entre oídos o entre receptores. • Está disponible con tapas y pegatinas intercambiables, de manera que los receptores pueden personalizar sus cabezales para ajustarse a su personalidad y estilo. • Puede alimentarse exclusivamente con baterías de iones de litio recargables (dura de 10-12 horas) o con pilas AA. • Utiliza el sistema HiResolution Sound. Hay algunas cualidades que son únicas en este tipo de procesador: Tiene Ventajas para los niños • Auricular y micrófono integrados, por lo que no se lleva nada sobre el oído. • Carcasa de aluminio, ligera y resistente, para mayor protección. • Viene con alarmas acústicas programables e indicador visual incorporado (Un LED), para que se pueda vigilar con facilidad la comunicación y el estado de las baterías. • Bloqueo programable de los controles para eliminar los cambios de volumen accidentales. • Conexión simple con los sistemas de FM y las telebobinas (útil cuando el niño esta atendiendo en una clase en la escuela). 120 • Comprobador del micrófono incorporado para los padres y los maestros. • También se dispone de un arnés blando y ligero, para sujetar con seguridad el PSP en su posición. Ventajas para los adultos Ofrece ventajas exclusivas para algunos adultos. En particular, los usuarios ancianos, con problemas visuales o con poca destreza manual se pueden beneficiar con los grandes controles táctiles del PSP. Además, algunos adultos se sienten incómodos por los audífonos (y por un procesador de implante coclear a nivel del oído) y desean llevar lo menos posible sobre el oído. 121 1. 2. 3. 4. 5. Procesador. Switch de Programación. Control de Volumen. Control de Sensibilidad. El Cable Conector del Auricular. 6. El LED que da la luz de estado. 7. Puerto Auxliar de Conexión. 8. Batería Recargable. 9. Auricular y Cubierta de Color. 10. Micrófono. 5 4 3 2 6 1 7 9 8 10 Figura 2.26 El Procesador de sonido Platinum Series™ (PSP) (64). 122 Algunos accesorios del PSP: 1 3 2 4 5 6 1. Fonocaptor de telebobina. Se usa con teléfonos compatibles para audífonos u otros sistemas de telebobina. 2. Adaptador telefónico. Conecta el teléfono directamente al procesador de sonido para escuchar sin interferencias. 3. El auricular del procesador Platinum. Se suministra con 6 caperuzas de colores intercambiables, herramienta de desmontaje y una pinza de sujeción al cabello para utilizar en caso de necesidad. 4. Los auriculares para probar el micrófono. Permiten oír la entrada de audio procedente del micrófono y se utilizan para supervisar y solucionar problemas de la entrada de audio del procesador, del auricular y del cable. 5. Compartimiento para pilas AA. Permite usar tres pilas AA para alimentar el procesador. 6. Micrófono auxiliar. Se coloca en la ropa o en otros lugares y es útil para oír en ambientes ruidosos. Figura 2.27 Algunos Accesorios del procesador PSP (64). 123 También cuenta con: el cargador de carro y el que va a una toma de corriente, 5 sujetadores que van a la ropa para fijar el cable del auricular, y la posibilidad de seleccionar 2 colores distintos de cable para el auricular que va a la cabeza. Viene también, con diferentes tipos de funda para el procesador según las necesidades del usuario. El implante HiRes 90K Harmony Con 16 fuentes de alimentación independientes 5.5 mm Diámetro 20 mm Figura 2.28 El implante HiRes 90K Harmony El sistema Harmony acepta las estrategias de procesamiento del sonido más avanzadas disponibles hoy día y está preparado para las innovaciones futuras (64). 124 Desde su introducción en 2001, esta plataforma electrónica ha soportado ya dos estrategias y actualizaciones del procesador de sonidos: • El nuevo software y los procesadores externos seguirán mejorando la audición de los receptores (pacientes) a lo largo del tiempo, sin la necesidad de la cirugía de un nuevo implante. • Miles de receptores de implantes cocleares de Advanced Bionics se han actualizado del procesamiento convencional del sonido al sonido HiResolution y posteriormente al HiRes Fidelity 120 sin un nuevo implante, esto se debe a que el ordenador interno del implante tiene más capacidad (aun no se llena y le queda espacio para futuras tecnologías). 2000 2002 2006 Modo Sonido Hires ESTRATEGIA estándar HiResolution 120 Frecuencia temporal (pps) 6500 83000 83000 Sitios de estimulación 8 16 120 dB) 84 84 96 Duración de la pila (Horas) 6 9 14 IDR (Rango dinámico de entrada en Tabla 2.1 Estrategias de Actualización (64). Características del HiRes 90K: • El dispositivo interno HiRes 90K tiene una gran fiabilidad, porque tiene una garantía de 10 años. • El alojamiento superior de silicona es elástica, suave, flexible y se adapta bien a la forma de la cabeza. 125 • El implante está alojado en una carcasa herméticamente sellada de titanio, que protege los componentes electrónicos internos frente al impacto y el traumatismo. • Se fabrico con una bobina de oro de alta precisión para la transmisión de datos de banda ancha con un total de hasta 120 bandas de información espectral. La bobina transmisora y receptora está hecha de cable de oro triple con protección de hélice de platino. • Imán extraíble. El imán utilizado para atraer el implante al cabezal externo puede extraerse quirúrgicamente y luego colocarse de nuevo para permitir un examen de RM de hasta 0,3 y 1,5 Teslas. • Tiene el electrodo HiFocus® para un objetivo neuronal. El electrodo patentado ofrece 16 contactos de platino-iridio que centran la estimulación en las fibras del nervio auditivo. Los contactos de precisión están diseñados para la generación de señales consistentes y la entrega de información precisa. • El HiRes 90K acepta 90000 actualizaciones de información procedentes del procesador de sonidos por segundo, de aquí su nombre y suministra información a una velocidad de 83000 estimulaciones por segundo. • Tiene el NRI (Imágenes de Respuesta Neural), que está diseñado para optimizar el proceso de ajuste del implante y ayudar en la programación para niños. En si es una característica habilitada por medio de la plataforma de los componentes electrónicos del implante que mide el potencial de acción compuesto provocado eléctricamente (ECAP) de los nervios auditivos. • Característica de seguridad IntelliLink. Cada implante tiene una identidad única de manera que una vez vinculado y asociado con el procesador de sonido programado para ese oído, Intellilink protege contra la estimulación si se intercambian accidentalmente los procesadores entre los oídos o entre receptores. • Su plataforma electrónica ofrece a los pacientes acceso a estimulación simultánea, parcialmente simultánea y no simultánea. • Flexibilidad de programación al ofrecer la capacidad de seleccionar entre varias estrategias, para programar el Harmony HiResolution Bionic Ear System. Dentro de la estrategia seleccionada, la gestión automatizada de los parámetros de ancho de pulsos, frecuencia y cumplimiento optimiza y estandariza los programas. Las características 126 programables tales como el IDR, el rango de volumen, la sensibilidad, y la ganancia ofrecen más satisfacción y mejores resultados al receptor, tales como escuchar música o poder oír en ambientes ruidosos. • Memoria interna. • Telemetría bidireccional. Los sistemas de procesamiento HiResolution y HiRes Fidelity 120 que utiliza AB El sonido HiResolution. Produce una representación precisa del medio acústico diseñado para oír en el mundo real. • Oír desde susurros hasta gritos. • Escuchar música. • Utilizar el teléfono. • Oír en restaurantes. • Reconocer voces. Es un sistema avanzado que permite oír no sólo palabras y frases, sino también el significado transmitido con las emociones y las inflexiones de la voz. Se adapta de manera automática y reflexiva a su ambiente, sin tener que pulsar un botón o cambiar un interruptor. Se siguen 4 pasos, para lograr el éxito de una buena simulación de la audición en los implantes cocleares de AB: • Captura del medio ambiente sonoro. Las personas con audición normal pueden percibir una amplia gama de niveles sonoros dentro de una variada gama de frecuencias. El sistema HiResolution captura una gama completa de sonidos, y el control automático de ganancia permite al usuario del implante coclear oír a oradores que hablan con diferentes niveles a distancias variables. Todo esto se hace con una necesidad mínima de ajuste en los controles del procesador de sonidos. 127 Ejemplo: Es capaz de capturas un rango dinámico amplio, y puede percibir a tres oradores que hablan con intensidades variables entre 20 dB y 100 dB. • Composición del espectro completo. El medio ambiente natural está constituido por muchos sonidos complejos. Algunos sistemas de implante coclear representan esos sonidos sólo parcialmente, mediante selección de determinados componentes. El sistema HiResolution está diseñado para conservar el espectro amplio de sonidos, mejorar la capacidad de escucha en situaciones difíciles y potenciar la apreciación de la música. • Detalle del sonido. Muchas características importantes de las voces y los instrumentos musicales están contenidos en el detalle temporal fino. Con los métodos de baja resolución convencionales se desechan los detalles temporales finos. Un método de baja resolución puede ser suficiente para percibir el habla en ambiente silencioso, pero resulta insuficiente para las situaciones de escucha más difíciles. Por ejemplo, en el restaurante o al hablar por teléfono. El sistema HiResolution ofrece 10 a 20 veces mayor detalle del sonido que los sistemas de baja resolución, con el fin de conservar el detalle fino de los sonidos complejos, y permite el suministro de una representación más exacta del medio ambiente acústico. • Suministro del sonido al nervio auditivo. La rapidez y la exactitud del suministro de información al nervio auditivo son tan importantes como la resolución del procesamiento del sonido. La estimulación rápida y exacta es clave para reproducir los patrones neurales de la audición normal, y transferir el detalle de los sonidos complejos (ofrece las frecuencias de estimulación hasta 83000 pulsos por segundo). El sistema HiRes Fidelity 120 el sistema más nuevo. 128 Es una nueva característica del sonido HiResolution, diseñada para disfrutar la riqueza de los sonidos complejos, como la música, y si se requiere de más detalles del sonido que para sólo comprender las palabras, como la identidad del orador, el tono y la emoción de la voz y otros indicios, que son transmitidos por los cambios del tono o de la frecuencia. En la cóclea sana, el tono es codificado mediante localización exacta de la información temporal fina a lo largo de la cóclea, que responde a las diferentes frecuencias. Hasta ahora, los sistemas de implante coclear han estado limitados en cuanto a la resolución espacial por el número y la separación de los contactos de los electrodos. El sistema HiRes 120 elimina esta limitación, utiliza la capacidad del implante HiRes 90K para distribuir activamente la corriente entre los electrodos, un proceso que se describe a continuación. Distribución activa de la corriente en el sistema Hires 120 La técnica de distribución de la corriente es similar a la función “balance” de un sistema estéreo de alta fidelidad, que desvía la imagen acústica desde la izquierda hacia la derecha al mismo que varía el volumen entre los dos altavoces. La distribución activa de la corriente se hace posible con el implante HiRes 90K debido a que cada electrodo tiene su propia fuente de alimentación independiente, lo que permite suministrar corriente a dos parejas de electrodos simultáneamente. En teoría, con control fino de la proporción de corriente suministrada a cada electrodo de la pareja, el lugar de estimulación es “distribuido” entre los dos electrodos. Así se crean bandas discretas adicionales de estimulación. Históricamente, el número de electrodos en un sistema ha definido la cantidad de bandas espectrales de estimulación. Por tanto, el número de bandas espectrales de resolución se limitó al número máximo de electrodos porque hay sólo una fuente de alimentación para todos los electrodos. El HiResolution Sound, tiene una fuente de alimentación para cada electrodo, ofreciendo la capacidad de crear más bandas espectrales que número de electrodos. 129 El HiRes 120 genera 8 sitios de estimulación entre cada pareja de electrodos. Por tanto, cuando los 16 electrodos están activados, pueden ofrecerse 120 bandas espectrales, esto es 15 pares de electrodos multiplicados por 8 bandas espectrales equivalen a 120. La siguiente figura 2.29, ilustra el modo en que tres distribuciones diferentes de corriente en dos electrodos crean patrones de estimulación distintos. Cuando la corriente es suministrada sólo al electrodo izquierdo, las neuronas próximas a él tienden a ser estimuladas. Cuando se suministra la mitad de la corriente a cada electrodo, el lugar del campo eléctrico está a mitad de camino entre los electrodos y tienden a ser estimuladas las neuronas de esa zona. Conforme la proporción de corriente se desvía al electrodo de la derecha, también cambia la zona de neuronas que tienden a ser excitadas. Figura 2.29 Ejemplo que ayuda a entender como funciona la distribución activa de la corriente (65). (66) Hasta hace poco, solo un electrodo era estimulado a la vez, pero eso ha cambiado. Si estimulas dos electrodos adyacentes al mismo tiempo, el campo eléctrico, se maximiza entre los dos contactos de estimulación y proporcionar un tono intermedio entre los dos. Y dependiendo de la proporción de las corrientes en los dos contactos, se puede conseguir muchos tonos intermedios; por lo que además de tener los electrodos físicos, ahora se tienen electrodos virtuales. Esta técnica se denomina haz de dirección. 130 El software utilizado de AB Desarrollado con la colaboración de audiólogos de todo el mundo, la nueva plataforma de programación automatiza y acelera muchos pasos de la programación, para reducir en forma significativa el tiempo requerido para programar el implante. Se llama “Suite Profesional SoundWave” utilizado exclusivamente por profesionales de implantación coclear para la programación y el ajuste auditivo con el Harmony HiResolution Bionic Ear System. En las opciones de programación de ajuste están disponibles seis opciones de estrategia distintas para seleccionar las que mejor se ajustan a las necesidades de audición individuales. La flexibilidad y las elecciones permiten que los receptores puedan comparar y evaluar el desarrollo auditivo con diferentes variaciones en los parámetros y opciones de programación. Elecciones en los programas de procesamiento del sonido de alta resolución • HiRes-P (emparejado) • HiRes-P con fidelidad 120 • HiRes-S (secuencial) • HiRes-S con fidelidad 120 Elecciones adicionales para el procesamiento del sonido convencional • CIS • MPS Precio actual en el mercado del implante de AB Puede venir con paquetes de equipamiento distintos en versiones para niños o para adultos, los equipamientos de tipo estándar tienen el siguiente precio aproximado en dólares en EUA.: • Harmony kit para adultos: $7,800. • Harmony kit pediátrico: $7,800. • PSP kit para adultos: $7,800. • PSP kit pediátrico: $7,800. 131 2.1.2.4 Conclusiones sobre los 3 fabricantes de Implantes Cocleares Los 3 fabricantes son buenos, y decir cual es el mejor puede llegar a ser un poco subjetivo, debido a que esa respuesta la tiene el futuro aspirante a ser implantado. La mejor opción, es una repuesta que tiene que considerar varios aspectos: los recursos monetarios disponibles, las disponibilidades del mercado según el país donde reside el aspirante, los diferentes factores biológicos y fisiológicos como: la edad, las características de la sordera y la compatibilidad con el implante del fabricante. También se debe de considerar la garantía, el soporte técnico y las diferentes especificaciones técnicas que varían según el fabricante, para ver si se adaptan a lo que se requiera o se necesite. Además, el éxito de un implantado radica en una buena rehabilitación. Esta va de acuerdo a una adecuada gestión y programación del audiólogo y del apoyo de los familiares y amigos, en un proceso que dura varios meses y que se puede prologar en años. Cada uno de ellos posee características únicas como por ejemplo: el Nucleus5 de Cochlear TM tiene un mando a distancia con una pantalla LCD, MED-El proporciona una amplia variedad de electrodos para la cóclea que se adaptan a diferentes necesidades clínicas y AB da la opción de su procesador PSP que permite que no se lleve nada en el oído. Y si se les compara mutuamente, todos tienen ventajas y desventajas. 132 Aclaraciones En esta pequeña investigación de cada uno de los 3 fabricantes de implantes cocleares, la información que fue previamente descrita en este capítulo es proporcional a la que está publicada, en las páginas respectivas de cada uno de ellos en Internet. Si en algún momento parece que se describió más a uno que a los demás, fue porque el fabricante proporciona más información en sus páginas de enlace en la Internet. Cuando se describieron las diferentes tecnologías usadas por los fabricantes, se puede notar que existe un carecimiento científico en la información debido a dos razones: las tecnologías que fueron descritas anteriormente, están patentadas provocando que la mayoría de la información este restringida y porque está información fue sacada de páginas que están enfocadas en el marketing. Aunque se cumple con las expectativas ya que el objetivo del inciso de este capítulo, fue proporcionar la información de la tecnología de punta en materia de prótesis auditivas. En el “Anexo 2” de esta tesis hay una comparación minuciosa entre las 3 marcas. 133 2.2 Algunas de las estrategias de procesamiento convencionales usadas en los Implantes Cocleares (no son las más actuales) 2.2.1 Introducción (67) El procesamiento de señal para los implantes cocleares multicanales se lleva a cabo principalmente a lo largo de dos líneas de enfoque. El primer enfoque es la representación de la onda donde la señal pasa por filtros pasa banda y la forma de onda correspondiente filtrada es usada para hacer la estimulación eléctrica en los diferentes electrodos. El segundo enfoque es la extracción de importantes características del habla como la frecuencia fundamental y la formación de formantes presentada. En mayoría de las estrategias de procesamiento hay 3 diferentes parámetros que provocan diferentes procesos que se hacen antes de que se manden las señales acústicas a los electrodos. El primer parámetro es el número de electrodos usados en la estimulación (que va de 12 a 22). El número de electrodos usados en la estimulación determina la resolución de la frecuencia proporcionada por el implante. El segundo parámetro es la configuración de los electrodos. La corriente cuando se manda al haz de electrodos esta tiende ha esparcirse simétricamente, donde diferentes configuraciones de electrodos son utilizadas para controlar el esparcimiento de la corriente. Hay dos configuraciones de electrodos: mono polar y bipolar. La primera comparte un electrodo de referencia que funciona como tierra para todos los electrodos. En la segunda cada electrodo individual tiene su propia tierra o dicho de otra forma su electrodo de referencia. El tercer parámetro es la amplitud eléctrica de la corriente, que es usualmente generada al usar un cierto tipo de detector de la envolvente en el filtrado de forma de onda, la amplitud de la corriente eléctrica es usada para controlar en nivel de fuerza del estímulo percibido. Un valor mayor de la amplitud de la corriente eléctrica causa una mayor población de fibras nerviosas en las proximidades del electrodo al ser estimulado y la intensidad de la estimulación percibida será mayor. Por el otro lado un valor pequeño de la amplitud de la corriente provoca la percepción de una estimulación suave. 134 La amplitud de la corriente eléctrica proporciona información espectral de dos diferentes maneras. Las amplitudes de la corriente eléctrica pede proporcionar información espectral en los canales, por el tiempo que varían los niveles de amplitud de corriente en cada electrodo. La amplitud de la corriente también puede proporcionar información espectral a través de los canales al variar los niveles de corriente en diversos electrodos estimulados en el mismo ciclo de tiempo. Otro parámetro importante es la tabla de compresión usada para comprimir la amplitud de la señal acústica al generar las amplitudes de corriente. En una conversación cotidiana, la amplitud acústica puede variar en un rango de 30-50 dB. Para el caso de la estimulación eléctrica del nervio auditivo provocado por los electrodos en la cóclea, el rango dinámico entre él estímulo apenas perceptible y el incómodo ruidoso puede ser cerca de 15-25 dB. Pero de todas maneras ciertos implantes cocleares pueden tener rangos dinámicos más pequeños como de 5 dB. Por lo tanto las amplitudes de la señal acústica son generalmente comprimidas para que encajen en el rango dinámico eléctrico de los usuarios particulares de implante coclear, mediante diversas medidas psicofísicas. En los dispositivos de implante coclear dos tipos de tablas de compresión son usadas para comprimir la amplitud de la señal acústica, para luego generar las amplitudes de corriente eléctrica. Un tipo de compresión utiliza una función logarítmica y otro tipo de compresión una función de ley de potencia (power-law function), ambos tipos con un mismo fin, obtener la amplitud de la corriente eléctrica. Otros parámetros involucrados en el procesamiento de señales, específicamente en la estimulación pulsátil (porque hay algunas estrategias que usan señales analógicas), son la frecuencia del pulso y el ancho de pulso. En la estimulación pulsátil la frecuencia (rango del pulso) controla el número de pulsos por segundo generados en la estimulación de los electrodos. El ancho del pulso es la duración de solo un instante del tiempo de estimulación usualmente especificado en microsegundos. La anchura del pulso y la frecuencia del pulso son cantidades interconectadas y de dimensiones opuestas. Una anchura grande de pulso tiene como resultado una pequeña frecuencia de pulso y una pequeña anchura de pulso tiene como 135 resultado una frecuencia de pulso grande. La frecuencia del pulso es determinada en parte, por las diferentes estrategias utilizadas para el tratamiento de la señal y por la psicofísica de cada paciente. La forma del pulso en general, puede ser de dos tipos, la forma de pulsos monofásicos y la forma de pulso bifásico. La mayoría de las estrategias de procesamiento de señales de corriente usan pulsos bifásicos para equilibrar la distribución de carga. 2.2.2 Estrategias (67) Estrategia F0/F1/F2. Es una estrategia características de extracción que se desarrolla para proporcionar información sobre las características del habla, con la frecuencia fundamental (F0), primer formante (F1) y el segundo formante (F2) que son importantes para el reconocimiento de voz. Esta es una estrategia pulsátil que utiliza dos pulsos en cada ciclo de tiempo, para transmitir información acerca del primer y segundo formante a dos electrodos implantados correspondientes respectivamente. La frecuencia fundamental se utiliza para determinar el rango del pulso de estimulación para una porción de la señal del habla expresada (la parte del espectro de frecuencia donde esta la voz). La frecuencia Fundamental F0, F1 y F2, son determinadas por filtros pasa bajo y pasa banda seguidos por detectores de cruce por cero. El filtro pasa bajo para F0 tiene una frecuencia de corte de 270 Hz, la de F1 tiene un filtro pasa banda con los límites de frecuencia de 300-1000 Hz, y el de F2 tiene otro filtro pasa banda con los límites de frecuencia de 1000-3000 Hz. Las amplitudes correspondientes del primer (A1) y segundo formante (A2) se obtienen por la realización de la detección de la envolvente de la salida filtrada correspondiente. Esta estrategia fue empleada en el procesador portátil de palabras Nucleus (WSP) en 1985. Estrategia MPEAK. Es una extensión de la estrategia de F0/F1/F2 que incluye información de alta frecuencia además de la información del primer y segundo formante. La estrategia de MPEAK utiliza tres filtros adicionales pasa banda para proporcionar información de alta frecuencia que es importante para el reconocimiento de las consonantes. 136 Esta estrategia realiza la extracción de la frecuencia fundamental (F0) y el primer (F1, A1) y segundo formante (F2, A2) de la misma manera que la estrategia F0/F1/F2, usando detectores de la envolvente y detectores de cruce por cero. Los tres canales adicionales de altas frecuencias usan filtros pasa banda con los rangos de frecuencia que van de: 2000-2800 Hz, 2800-4000 Hz y 4000-6000 Hz. Las amplitudes para estos canales de alta frecuencia son generadas realizando la detección de la envolvente en la salida correspondiente de los filtros pasa banda. Las salidas de alta frecuencia del canal fueron mandadas siempre a tres electrodos fijos. Esta estrategia fue utilizada en el procesador del habla Nucleus miniatura (MSP). Para la parte de voz de la señal del primer y segundo formante y los dos canales de alta frecuencia (excluyendo el canal de 4-6 kHz.) son usados para mandar la estimulación apropiadamente en los 4 electrodos de estimulación usando un rango de pulso correspondiente a la frecuencia fundamental. Para la señal que no forme parte de la voz (unvoiced signal) la frecuencia de los 3 canales de alta frecuencia y el canal del segundo formante, son usados para mandar la estimulación a los 4 electrodos correspondientes a un rango de pulso nominal de 250 pulsos por segundo. (68)Estrategia “Spectral-Peak” (SPEAK). Se basa en la extracción de los rasgos principales de la palabra persiguiendo conseguir una perfecta transmisión de los formantes seleccionados que representen más fidedignamente el mensaje hablado. Los pulsos se liberan en una secuencia no simultánea sobre los electrodos seleccionados. Estrategia “analógica-comprimida” (CA). Envía las señales de forma simultánea por lo que se pueden producir interacciones entre los canales generando la suma de los campos eléctricos de cada electrodo. Así la respuesta neural quedará distorsionada. Estrategia “basada en el muestreo secuencial continuo” (CIS). 137 Los pulsos llegan a los electrodos de forma no simultánea, estimulando un solo electrodo en cada momento. La velocidad en que se estimulan los electrodos ejerce un papel importante en el reconocimiento del habla. A mayor velocidad, mejores resultados. Estrategia “analógica simultánea” (SAS). Puede usarse con ondas pulsátiles o analógicas, ocurriendo en todos los canales al mismo tiempo. La tasa de estimulación ocurre a velocidades muy altas (91.000 muestras/s), por lo que estas estrategias son ricas en información temporal detallada. Estrategia “advanced combination encoders” (ACE). Combina elementos de las estrategias SPEAK y CIS. Esta estrategia permite elegir qué electrodos estimular, de qué manera estimular los canales y la tasa de estimulación, pudiendo adaptar la programación a cada paciente de una forma más individualizada y personal. La siguiente figura 2.30, muestra la evolución cronológica de algunas de las estrategias previamente descritas: Figura 2.30 Evolución de los diferentes tipos de estrategias de procesamiento del sonido (68). 138 2.3 Funcionamiento de una prótesis auditiva actual Antes de describir el funcionamiento, es importante abordar otros temas que son importantes para entender todo lo referente a los implantes cocleares que existe actualmente. Son 2 temas, uno hace referencia a lo que pasa en la cirugía del implante y el otro describe lo que debe suceder después de la misma. 2.3.1 Cirugía de Implante Coclear (69) El procedimiento quirúrgico normalmente dura entre 1 y 3 horas. Los riesgos que implica una cirugía de implante coclear son pequeños y comparables con los de otras cirugías de oído. 139 A B C D (70) figura 2.31 En esta figura se observan los principales pasos que se siguen en la cirugía: A. El abordaje, donde se hace la incisión. B. Se hacen los: Colgajos, Lecho óseo y la Mastoidectomía. C. Cocleostomía. D. Introducción de los electrodos, hay diferentes técnicas. Procedimiento quirúrgico. 1. Se aplica anestesia general. 2. Se afeita el pelo en la zona donde se va a realizar la incisión. 3. Se realiza la incisión. 4. Se hace un "lecho" en el hueso mastoideo detrás del oído, para ellos se utiliza un microscopio y un taladro. El implante se situará en este lecho. 5. Se inserta la guía de electrodos dentro de la cóclea. 6. Se fijan en su sitio tanto la guía de electrodos como el implante. 7. Se evalúa el funcionamiento de los electrodos antes de cerrar la incisión. 140 8. A veces aparece una ligera incomodidad cuando el paciente se despierta. Puede ser administrada medicación para el dolor si es necesario. 9. Los pacientes suelen estar repuestos al día siguiente. El tiempo de estancia en el hospital varía de uno a varios días dependiendo de las prácticas locales. 2.3.2 Primeros Sonidos - Programación inicial (57) Este procedimiento puede variar según la marca del implante debido a las diferencias que existen de unos modelos a otros. El procesador debe de ser programado o activado según las características propias de cada paciente. En dicho proceso se habrá de contar con personal especializado y con el equipo material apropiado al implante elegido. Se usan técnicas telemétricas que informan sobre las respuestas neurales obtenidas a partir de la estimulación de los electrodos implantados, y es de gran utilidad para determinar el mapa auditivo durante la programación del implante coclear. La programación del implante coclear deberá ser revisada periódicamente, pues a lo largo de la evolución se irán produciendo cambios que precisarán nuevos ajustes en la forma de estimulación de los electrodos del implante. Estos controles también permitirán detectar y diagnosticar fallos en el equipo, facilitando así su pronta reparación. A continuación se describe el procedimiento de programación de la marca MED-EL, que se describe en su página de Internet: El programa del procesador de palabra, también conocido como mapa, contiene ajustes de tono y volumen. Los programas se adaptan según las necesidades particulares de cada paciente durante las "sesiones de ajuste o programaciones" por el ingeniero clínico o por el audiólogo. El ajuste del procesador de palabra se realiza entre 3 y 6 semanas posteriores a la cirugía. Este proceso se hace de forma individualizada para cada paciente. Pasos de la programación. • Se conecta el procesador al ordenador/computadora del ingeniero clínico o audiólogo. • El usuario se coloca el procesador. • El ordenador/computadora genera señales a unos niveles controlados cuidadosamente. 141 • El usuario indica cuál es la señal más débil que ha oído (umbral) y la señal oída con el volumen más intenso sin que produzca molestia (MCL, nivel máximo confortable). • Estos dos niveles son medidos en todos los electrodos situados en la cóclea. • Utilizando esta información, se crea un programa que permite oír todos los sonidos entre esos dos niveles y asegura que el sonido sea lo suficientemente alto para ser oído pero no tanto como para producir molestia, emulando así la audición normal tanto como sea posible. • El programa se ajusta durante las siguientes sesiones clínicas siguiendo la programación inicial. Seguimiento. Para obtener el máximo beneficio del implante, se debe de seguir un programa postoperatorio. Los programas de seguimiento varían de acuerdo a las prácticas locales, pero normalmente incluyen: • Ayuda, asesoramiento y soporte. La ayuda debería estar disponible para preguntas generales, cuestiones técnicas e información de grupos de apoyo para usuarios de implantes cocleares y sus familias. • Chequeos médicos con regularidad. La zona del implante debe ser revisada con regularidad por un médico. • Reprogramaciones con regularidad del procesador de palabra. Los usuarios de un IC deben visitar su clínica con regularidad para la reprogramación del procesador de palabra. Esto permite al ingeniero clínico o audiólogo asegurarse de que el implante está funcionando correctamente. El ingeniero clínico o audiólogo puede también hacer pequeñas modificaciones o mejoras al programa para que el usuario siga obteniendo el máximo beneficio. • Logopedia. Se recomienda, especialmente en niños, terapia para el habla y el lenguaje. • Orientación educativa y soporte (para niños). Los niños que utilizan implantes cocleares normalmente tienen un contacto regular con 142 un especialista educativo calificado para trabajar con personas sordas o con pérdidas auditivas. 2.3.3 El Funcionamiento de una Prótesis auditiva actual para sordos profundos (71) Un implante coclear. Es una prótesis implantada quirúrgicamente que ayuda a superar algunos problemas de audición cuyo origen está en el oído interno, o cóclea. La cóclea, es un pequeño tubo enrollado en forma de caracol ubicado en la parte del oído conectada al nervio auditivo. Su función consiste en recoger las señales eléctricas procedentes de las vibraciones sonoras y transmitirlas al nervio auditivo, quien a su vez envía esas señales al cerebro, donde son interpretadas como sonidos reconocibles. Si partes importantes de la cóclea no funcionan correctamente y el nervio auditivo no puede recibir estimulación alguna, las señales eléctricas no pueden llegar al cerebro, por lo que resulta imposible oír. (Esto se denomina “sordera neurosensorial”.) Sustituyendo a la parte lesionada de la cóclea, el implante coclear utiliza sus propias señales eléctricas para estimular el nervio auditivo, permitiendo oír a la persona. Una persona normal donde el oído trabaja correctamente cuando reciben las ondas sonoras, estas pasan por diferentes partes del oído (proceso de la audición descrito en el capítulo 1.4) provocando ciertas vibraciones que cuando llegan al oído interno, hacen que se mueva el fluido que hay en el interior de la cóclea. El movimiento del fluido estimula a los cilios, que son miles de diminutos receptores auditivos que recubren el interior de la cóclea. Al inclinarse hacia delante y hacia atrás, los cilios envían señales eléctricas al nervio auditivo, que a su vez trasmite esas señales al cerebro, donde son interpretadas. Debido al envejecimiento, la herencia, determinadas enfermedades, las infecciones o la exposición repetida a ruidos fuertes, los cilios pueden lesionarse o destruirse completamente. Si los cilios no funcionan correctamente, el nervio auditivo no recibe estimulación y, por lo tanto, no puede enviar información al cerebro, por lo que la persona no puede oír. 143 Las pérdidas auditivas pueden ser leves, moderadas o graves; dependiendo de la cantidad de cilios lesionados, ausentes o destruidos. Las personas con pérdidas auditivas leves o moderadas pueden experimentar grandes mejorías utilizando audífonos (unos dispositivos que amplifican los sonidos). Pero las personas con sordera grave o profunda pueden tener dificultades incluso para oír sonidos fuertes. En estos casos, los audífonos no son útiles y los médicos pueden recomendar los implantes cocleares. Lo que hace un implante coclear. Estimula artificialmente el área del oído interno con señales eléctricas y envía esas señales al nervio auditivo, permitiendo oír al usuario. A pesar de que la calidad del sonido se describe a veces como “mecánica” y no completamente igual a la que experimentan las personas que oyen con normalidad, los implantes cocleares permiten a los usuarios oír sonidos que, sin ellos, no podrían oír. Un implante coclear consta de una parte interna, que se implanta en el interior del cráneo, y de una parte externa que contiene el procesador de sonido y habla. Los distintos componentes del implante coclear trabajan conjuntamente para captar el sonido, transferirlo al nervio auditivo y enviarlo al cerebro. La parte interna de un implante coclear consta de: • Un receptor-estimulador que contiene todos los circuitos electrónicos que controlan el flujo de impulsos eléctricos que se envían al oído. • Una antena (Bobina) que recibe las señales del mundo exterior y del procesador de sonido y habla. • Un imán que ayuda a mantener el procesador de sonido y habla en su sitio. • Un cable que contiene electrodos que se insertan en la cóclea (la cantidad de electrodos varía en función del modelo de implante utilizado). Los electrodos funcionan de una forma muy similar a los cilios y emiten impulsos eléctricos para estimular al nervio auditivo. 144 El procesador de sonido y habla es un miniordenador que procesa el sonido y lo digitaliza es decir, lo transforma en información digital y luego envía esa información a la parte interna del implante en forma de señales eléctricas. El procesador de sonido y habla, se lleva en el exterior y suele tener el aspecto de un audífono normal y corriente. No obstante, dependiendo del tipo de procesador de sonido y habla utilizado, se puede llevar detrás de la oreja como si se tratara de un audífono o unos auriculares o bien en otra parte del cuerpo, por ejemplo en el cinturón o un bolsillo. La parte externa del implante coclear consta de: • El procesador de sonido y del habla (que puede ser un modelo que se acopla a la ropa como una radio portátil o un modelo que se engancha a la oreja). • Un micrófono. • Un transmisor (Bobina) que envía las señales a la parte interna del implante. El transmisor también incluye un imán que ayuda al usuario a alinear el procesador con la parte interna. Para que el implante coclear funcione correctamente, la parte interna y el procesador de sonido y habla deben estar alineados, esa es la función de los imanes. Alineando los dos imanes, ambas partes del implante quedan bien sujetas y pueden funcionar como si se tratara de una sola. 145 Transmisor Externo (Bobina) El implante Receptor- Estimulador Electrodo de Referencia Micrófono, compartimiento de baterías y procesador del habla Electrodo Intracoclear Figura 2.32 Componentes de un sistema de Implante Coclear (56) Funcionamiento de un Implante Coclear. • El micrófono recoge el sonido. • El sonido es enviado al procesador de sonido y del habla. • El procesador de sonido analiza el sonido y lo transforma en una señal eléctrica. (La señal eléctrica contiene información que determina cuánta corriente eléctrica se enviará a los electrodos.) • El transmisor (bobina) envía la señal a la parte interna del implante, donde es decodificada. 146 • La parte interna del implante determina cuánta corriente eléctrica debe transmitirse a los electrodos y envía la señal. La cantidad de corriente eléctrica determinará el volumen del sonido, y la posición de los electrodos, el tono del mismo. • Las terminaciones nerviosas que hay en el interior de la cóclea (el área donde se encuentran los cilios) son estimuladas y envían información al cerebro a través del nervio auditivo. • El cerebro interpreta el sonido y la persona oye. Componente Externo Componente Interno Transmisión al Implante Sonido Micrófono Amplificador Codificación del sonido Estimulación Eléctrica Figura 2.33 Funcionamiento de un implante coclear (72). (73)Clasificación de los Implantes Cocleares. Estos pueden clasificarse atendiendo a tres criterios: ubicación de los electrodos (intracocleares o extracocleares), número de canales (mono o multicanales) y forma de tratar la señal sonora (extracción o no de los distintos formantes del sonido). También los implantes cocleares pueden ser clasificados de acuerdo al tipo de electrodos (monopolares, bipolares), método de estimulación (pulsátil, analógica) o forma de transmisión de las señales a nivel de la piel (conexiones percutáneas o transcutáneas). (74) Por el número de canales están: los implantes Monocanales, que proporcionan estimulación en un sólo punto, utilizando un sólo electrodo (más el GND). Los Multicanales 147 proporcionan estímulos en varios nervios aferentes (aquellos que transportan señales al cerebro). (75) Por tipo de acoplamiento: si el acoplamiento de la transmisión entre el procesador de señales y el electrodo es una conexión eléctrica directa, se llama un acoplamiento percutáneo. Si el acoplamiento de la transmisión es de radiofrecuencia entonces se llama acoplamiento transcutáneo. (76) Parte de esa clasificación ha quedado en el pasado, ya que las clasificaciones de implantes cocleares basadas en la ubicación de los electrodos (intracocleares o extracocleares) y el número de canales de estimulación (monocanales o multicanales), han quedado en desuso al ser todos los implantes cocleares, multicanales e intracocleares. De este modo, hoy día existen diferencias menores entre los distintos implantes cocleares, que pueden clasificarse según: • Carcasa del dispositivo implantable: Ø Existen modelos de implantes con carcasas de cerámica, más resistentes a la formación de biofilms y menos resistentes a traumatismos mecánicos. Ø Carcasas de titanio-silicona, más resistentes a traumatismos mecánicos aunque más sensibles a la formación de biofilms. Un biofilm (77) es un conjunto de bacterias que crece adherido a distintas superficies de forma natural y que, por sus particularidades, es extremadamente difícil de erradicar, al ser más resistente al tratamiento antibiótico y la acción del sistema inmune. El biofilm de la bacteria Staphylococcus aureus, una de las que más frecuentemente causa infecciones asociadas al uso de catéteres, válvulas, prótesis y otros tipos de implantes médicos. • Tipos de estimulación eléctrica: 148 Para la estimulación de la corriente en los electrodos se necesitan 2 electrodos, un electrodo activo y otro de referencia. Dependiendo de cómo se agrupen estos 2 electrodos pueden ser: Ø Monopolar: los electrodos estimulan compartiendo un electrodo de referencia extracoclear y distal al lugar de estimulación, disminuyendo la cantidad de corriente necesaria para estimular. Este modo es incompatible con una estimulación simultánea (analógica), ya que produciría un fenómeno de suma de campos. Tiene la ventaja de requerir niveles de estimulación más bajos que la bipolar y consta (69) de tantos electrodos como de bandas frecuenciales tenga el sistema. Ø Bipolar: los electrodos se estimulan en parejas (ambos son intracocleares), estando la pareja compuesta por electrodos muy próximos, siendo uno el electrodo estimulante y el otro el de referencia. Esta estrategia de estimulación provoca una menor interacción entre los electrodos, pero requiere de niveles de estimulación muy altos, es compatible con la estimulación simultánea y consta (69) de dos electrodos por cada banda frecuencial. • Estrategias de procesamiento del sonido (codificación): Determinan el conjunto de operaciones que se realizan con la señal de audio para generar los estímulos en los distintos electrodos del implante. Actualmente, existen 2 grupos de estrategias y ambas comparten el hecho de separar la señal de audio en varias bandas de frecuencia mediante un banco de filtros: Ø Analógica: ondas continúas que preservan el origen sinusoidal de la señal de entrada al procesador. Las estrategias analógicas, con el fin de obtener ondas de estimulación continuas, deben activar los electrodos de forma simultánea, para ellos se presenta en cada electrodo una corriente que varía de forma ininterrumpida, acorde a la señal de salida del filtro correspondiente. Ø Pulsátil: ondas bifásicas discretas convertidas desde la señal acústica analógica de entrada. La estimulación se realiza de forma que en cada momento hay un solo canal activo para evitar las interferencias entre canales. Para este caso, se presentan pulsos breves que pueden estimular a los electrodos de forma secuencial, de modo que en cada momento solo hay un electrodo activo. 149 Los distintos fabricantes de implantes cocleares aportan diferentes estrategias de procesamiento del sonido, siendo éstas el resultado de los avances en la tecnología de los implantes y en el mejor conocimiento de la estimulación eléctrica del oído. Nota importante: aún siendo multicanales todos los implantes cocleares disponibles, presentan diferencias en cuanto al número de canales de estimulación. No es quizás un hecho diferencial pues no se han encontrado diferencias importantes respecto a este hecho, siendo precisos como mínimo entre 4 y 6 canales para la discriminación del lenguaje. A más canales útiles, mayor colorido y mejor discriminación, siendo el factor limitante la interacción eléctrica entre canales, limitando así el número máximo de ellos. Los dispositivos actuales usan desde 12 hasta 22 canales de estimulación, como máximo, dependiendo del requerimiento. Algunos Parámetros y algunas características de los Implantes Cocleares. El implante coclear produce una estimulación eléctrica del nervio auditivo a través de unos electrodos que se insertan en el interior de la cóclea. Los implantes cocleares dividen el sonido en canales o bandas de frecuencia, correspondiendo cada banda a uno o varios electrodos intracocleares, de forma que los canales de frecuencias más graves estimulan los electrodos de las zonas más apicales, mientras que los de frecuencias más agudas hacen lo propio con los electrodos de las zonas más basales. Todo ello basándose en la teoría tonotópica, según la cual la sensación de tono se percibe a través del lugar a lo largo de la cóclea en el que se produce la estimulación. 150 Figura 2.34 Esquema de la membrana basilar que muestra la base y el ápice (Apex en ingles). La posición de desplazamiento máximo en respuesta a las sinusoides de distinta frecuencia (en Hz) se indica. La estimulación de los electrodos en la cóclea sigue la teoría tonotópica, donde las frecuencias más bajas están en el Apex y las más altas en la Base y la cesación del tono depende del lugar de estimulación (78). Figura 2.35 La estimulación de los Electrodos dentro de la cóclea (56). 151 Esta estimulación de los electrodos en la cóclea puede variar si tomamos en cuenta otro principio, la hora de la estimulación llamada codificación temporal, según la cual, las variaciones temporales de las características del sonido se perciben a través del patrón temporal de actividad en las fibras del nervio auditivo. Por ello, la estimulación generada por cada electrodo varía en el tiempo de acuerdo con la energía que hay en cada instante de tiempo en la correspondiente banda de frecuencia, y permite la percepción de la evolución temporal de las características del sonido. La calidad de sonido que va a percibir el paciente implantado va a depender de la resolución espectral, temporal y en intensidad. • Resolución espectral: es la capacidad para distinguir la frecuencia de los sonidos, y en principio será mayor cuanto mayor sea el número de canales. La falta de resolución espectral no afecta de forma importante a la inteligibilidad de la voz, pero sí afecta a la percepción de la voz en condiciones de ruido. • Resolución temporal: es la capacidad de percibir cambios temporales en las propiedades de la señal de audio. Se modifica en función de la tasa de estimulación. La tasa de estimulación es el número de pulsos por segundo que se suministra a cada electrodo • Resolución en intensidad: determina la capacidad de percibir diferencias de intensidad (tonos) de dos sonidos y depende fundamentalmente del estado de las terminaciones nerviosas; siendo mejor para un mayor porcentaje de terminaciones supervivientes. Las prótesis actuales en sus procesadores de palabra, usan técnicas de procesamiento digital que son muy diferentes a las que se usaban hace 10 años, como describe el siguiente ejemplo: 2.3.4 Procesamiento de la Señal Digital de Alta Definición CIS+. (79) Una estrategia de codificación del sonido es un método de conversión de ondas sonoras en patrones de pulsos eléctricos. El implante genera estos pulsos eléctricos para estimular el nervio auditivo mediante la guía de electrodos en la cóclea. El procesador de palabra TEMPO+ de la marca MED-EL, utiliza "Continuous Interleaved Sampling" (CIS) y la Transformada de Hilbert para proporcionar un Procesamiento de Señal Digital de Alta Definición, también conocido como CIS+. 152 CIS+, es la implementación óptima de la estrategia CIS. Proporciona un rango frecuencial amplio y unos parámetros de estimulación altamente flexibles. Estos parámetros se pueden ajustar a medida para adaptarse a las necesidades de cada persona, incluyendo factores tales como: • Umbral y máximo nivel de confort • Duración de Pulso • Rango de Frecuencia • Bandas de Frecuencia • Asignación de pasos de banda • Número de canales • Tasa de Estimulación • Orden de Estimulación • Mapa de compresión/función de compresión • Modo Volumen • Rango de Volumen La Transformada de Hilbert. Es un sofisticado algoritmo matemático que analiza los sonidos entrantes con más rigor que otros métodos. Como consecuencia, permite una representación más precisa de la dinámica temporal (aspectos temporales) de la señal sonora. La aplicación de la Transformada de Hilbert tiene como resultado un patrón de estimulación que representa muy estrechamente la envolvente (forma acústica) del sonido original. Mientras que otros sistemas de implante coclear utilizan otras técnicas, las llamadas "rectificación de onda", "Filtración de paso bajo" o "Transformada rápida de Fourier" para representar el sonido, la Transformada de Hilbert esta preparada para hacer esto mismo con un grado de precisión mucho más elevado. También hoy en día se busca que los implantes tengan una mejor estimulación de la cóclea, para que las personas implantadas puedan experimentar una audición más natural. 153 2.3.5 Cobertura Coclear Completa Es mejor una inserción más profunda. (80) La cobertura coclear completa se define como la estimulación mediante la guía de electrodos del implante de toda la extensión de la cóclea, desde el extremo apical hasta el extremo de la región basal. Esto se puede conseguir únicamente mediante la inserción profunda de una guía de electrodos atraumática especialmente larga con un espaciado óptimo de las áreas de contacto del electrodo. Los datos demuestran con firmeza que tanto en los test crónicos como en los agudos, la extensión de la cobertura coclear tiene un gran impacto en la inteligibilidad del habla. Cuando la distancia entre el electrodo más apical y el más basal se restringe a tan sólo 21 mm aproximadamente, el rendimiento sufre, independientemente de si esta cobertura restringida está estimulando la región del extremo apical, la región media o la región basal de la cóclea. Cuando la distancia entre la estimulación más apical y la estimulación más basal se incrementa hasta 31 mm., el rendimiento mejora considerablemente, desde un 10 a un 30%, dependiendo de la medida utilizada. La inserción poco profunda de guías de electrodos cortas no puede utilizar las neuronas de la región apical. Además, los estudios muestran que se produce una disminución del rendimiento en los individuos con una guía de electrodos corta insertada profundamente. La estimulación de la extensión total de la cóclea mediante una guía de electrodos larga insertada profundamente, proporciona al usuario del implante los mejores resultados en las medidas de inteligibilidad del habla y en la calidad del sonido. Resultados de un estudio que justifican la inserción más profunda. A continuación, se describe un estudio que demuestra lo que pasa al intentar hacer una estimulación más completa de la cóclea, mediante una inserción más profunda de los electrodos. 154 Los resultados de un estudio llevado a cabo en 10 usuarios de implantes cocleares MED-EL con una guía de electrodos estándar insertada totalmente (31 mm), indican ventajas en una configuración de electrodo que proporcione una amplia distribución de los canales a lo largo de toda la extensión de la cóclea. Los sujetos fueron analizados en 4 condiciones: solo con los 8 canales más basales activados (basal 8), con una distribución irregular de 8 canales en la extensión completa de la cóclea (spread 8a y 8b), y con todos los 12 canales activados. Los sujetos eran adultos post-locutivos (sordera que aparece después de adquirir habilidades de lenguaje y lectura), evaluados con tests de palabras monosilábicas y de frases, utilizados para determinar el umbral de recepción verbal. En la condición spread 8, en la que se proporcionó estimulación en toda la extensión de la cóclea, se produjo de media un aumento del 24% en la puntuación obtenida en el test de palabras monosilábicas, comparadas con la condición basal 8. El umbral de recepción verbal disminuyó significativamente en condición spread 8 comparado con la condición basal 8, donde solo se estimuló una región restringida de la cóclea. Descubrimientos similares se demostraron en un estudio con 8 usuarios de implantes MEDEL. Los investigadores evaluaron los efectos de la inserción profunda de la guía de electrodos y la distancia entre contactos en la discriminación del habla. Los resultados mostraron que, con 6 canales activos, la percepción verbal fue significativamente mayor con los canales distribuidos en casi toda la extensión de la cóclea (spread 6) que con los canales concentrados cerca del extremo basal de la guía (partial 6). 155 Figura 2.36 Distribución de los canales (80). Figura 2.37 Gráfica que muestra los resultados del porcentaje de monosílabos entendidos correctamente, según el tipo de estimulación de los canales (80). Existen dos posibles razones por las cuales la inteligibilidad del habla mejora y los umbrales verbales son menores cuando se estimula toda la cóclea: • La Cobertura Coclear Completa permite que la distribución de frecuencias del implante coclear sea más natural, lo cual quiere decir que la localización física de los contactos de los electrodos se aproxima más a la tonotopicidad natural de la cóclea. • Una segunda posibilidad es que una guía de electrodos más larga permite un espaciado entre contactos más amplio y, de esta manera, se produce una reducción de la interacción entre canales. 156 Con estos estudios y otros se comprobó que la estimulación coclear completa tiene claras ventajas en la inteligibilidad del habla de los usuarios de implante coclear. La siguiente figura 2.38 muestra las ventajas de un electrodo insertado de forma profunda en la cóclea: Inserción completa Filtro de salida de baja frecuencia Excelente marca tonotópica Simulación de Frecuencia de 350 Hz Inserción poco profunda Perdida tonotópica Figura 2.38 Se puede observar como la frecuencia de 350 Hz es percibida de forma correcta en la cóclea que tiene la inserción completa del electrodo (80). 157 Un esquema que muestra a un electrodo insertado de forma profunda en la cóclea: Ángulo de inserción en grados. Largo del electrodo en mm. Frecuencia en Hz. Figura 2.39 Se observa cómo queda el electrodo en la cóclea al ser introducido profundamente (80). Como último punto acerca de las prótesis actuales, se describirá a continuación sobre el futuro cercano y la meta tecnológica a alcanzar en materia de las prótesis auditivas. 2.3.6 El futuro de los implantes en menos de 5 años Un proyecto a futuro del pionero de los implantes G. Clark. 158 (81) El científico australiano Profesor Graeme Clark, fue pionero en el desarrollo de los implantes cocleares hace 30 años, ya que en 1978 desarrollo el primer implante coclear que proporciono comprensión del habla a los sordos profundos. Durante los últimos 20 años, más de 120,000 implantes se han colocado en 100 países el 70% utilizando el aparato desarrollado por el Sr. Clark en Australia. En la actualidad un implante coclear trabaja estimulando el oído interno que no funciona de una persona sorda, mediante el envió de impulsos eléctricos en patrones interpretados por el cerebro como sonido directamente a los nervios auditivos. Hay entre 10,000 y 20,000 de estos nervios y mejorar la tecnología actual significa encontrar nuevas maneras de estimularlos independientemente en porciones más pequeñas. Razón por la cual G. Clark está ahora trabajando en una versión hi-fi (alta fidelidad) de implantes, que estarán disponibles aproximadamente en unos cinco años. Esta nueva versión hi-fi formara parte de una nueva generación de implantes cocleares, ya que no sólo permitiría a las personas sordas escuchar el ruido y reconocer el habla; sino que introduciría matices al sonido, el tono con todos sus detalles y mejorara la claridad. Él desde el 2008 esta trabajando en este proyecto. Un artículo que salio publicado a finales del 2008 en el periódico Australiano The West Australian, hace una referencia al respecto. En la publicación del artículo, el científico justifica el porque hay que hacer una mejora a los implantes cocleares en el futuro. Ya que hace una mención de sus defectos actuales, porque dice que al escuchar el habla por un implante coclear, es como si alguien escuchara una voz ronca y áspera; y también indica que al escuchar música se tiene un sonido muy pobre. Igual explica que la inteligibilidad del habla se ve perjudicada en ambientes ruidosos y de mala acústica. Señala también que los nanotubos de carbono en miniatura tendrán un papel importante para mejorar la tecnología en los implantes cocleares. 159 A donde se quiere llegar. (82 y 83) El doctor Ángel Ramos, jefe del Servicio de Otorrinolaringología del Complejo Hospitalario Universitario Insular Materno Infantil, y Presidente de la Academia Europea de Otología y Neurotología; lleva 30 años implantando implantes cocleares en España desde 1981. Este doctor opina sobre el futuro de los implantes coleares, donde menciona los siguientes posibles objetivos a largo plazo de la medicina: Se pretende que en un futuro el implante coclear sea un sistema totalmente implantable. Para ello todavía hay que mejorar la tecnología del micrófono y las baterías. Aunque en realidad no existe un plan de ruta bien definido por los fabricantes, y la tecnología del futuro. Otro posible camino en el futuro para regenerar la perdida de la audición en vez los implantes, es mediante la regeneración del oído interno. Quizás las técnicas ya no pasen por cirujanos sino por ingenieros genetistas que, a través de la aplicación de nuevas tecnologías, consigan regenerar ese oído dañado o malformado. Esta información salió publicada en la revista AVANCE Coclear #22 de la organización GAES (Se dedica a proporcionar soluciones auditivas a las personas con problemas de audición, en Barcelona), en el 2009. 160 2.4 Problemas anteriores y actuales de las prótesis auditivas 2.4.1 Efectividad de los implantes cocleares (84) Las personas que pueden recuperar su audición gracias a un implante, son aquellas que padecen sordera de severa a profunda en ambos oídos y que han obtenido un escaso o nulo beneficio con los audífonos. No todas las personas que reciben un IC recuperan su capacidad auditiva en el mismo grado, ya que intervienen múltiples factores como el estado del nervio acústico, cuando se ha producido la pérdida auditiva, la edad de implantación, el nivel de lenguaje oral, así como la motivación y el compromiso del paciente para seguir el proceso de rehabilitación. Las estadísticas realizadas, reflejan que los mejores resultados se obtienen cuando el paciente es un niño nacido con una pérdida de audición severa. En adultos, la efectividad ronda un 85% si el paciente ya había adquirido el lenguaje antes de que se produjera el trastorno auditivo. En este sentido, los beneficios serán mayores cuanto antes se realice el implante después de que aparezca la pérdida auditiva, ya que el proceso de recuperación será más exitoso porqué la persona aún conserva la memoria auditiva. (85) Ejemplo que muestra lo que pasa cuando se oye a través de un implante coclear de última generación, este es de la marca Advanced Bionics con la tecnología HiRes Fidelity 120: 161 Tiempo HiRes 120 Frecuencia Procesamiento convencional Frecuencia Frecuencia Sonido Original Tiempo Tiempo Figura 2.40 En este análisis temporal de frecuencia se muestra una pequeña canción donde se entona la letra “A” a diferentes tonos por una mujer (65). Al observar la imagen anterior, se puede notar que actualmente ni con una de las tecnologías más avanzadas de procesamiento en los implantes cocleares, el sonido obtenido es muy parecido pero todavía no es igual al original. Para lograr ese resultado, el implante HiRes90K de AB trabaja con un electrodo que tiene 16 puntos de estimulación dentro de la cóclea (en la figura anterior en el tercer análisis temporal se ven los 16 puntos). Es una realidad que los fabricantes de implantes cocleares a veces, con tal de acaparar la atención de los futuros receptores, tratan de exagerar un poco las características de sus dispositivos, al ocultar las deficiencias reales que siguen existiendo actualmente en los implantes cocleares. Por ejemplo: 162 A continuación, se describe un análisis a algunas de las características de los implantes Harmony de AB y Nucleus 5 de Cochlear (86). Característica Resolución temporal (Tasa de estimulación, los pulsos por segundo o pps) Sistema Sistema Harmony de Nucleus 5 de AB Cochlear Mientras más rápida sea la tasa Hasta 83.000 Hasta 31,500 de estimulación, más precisa pps pps será la percepción del sonido en la cóclea. Hasta 120 Resolución espectral virtuales (16 (Bandas de frecuencia) reales) Rango dinámico de entrada (IDR) Lo que significa Hasta 80 dB Cuanto mayor sea la resolución, Hasta 22 se escuchara un sonido más detallado. Hasta 45 dB Cuanto más ancha, son más los sonidos que se podrán oír. Mientras mayor sea la percepción Percepciones potenciales del tono 460 161 del tono, se tendrá una mejor oportunidad para diferenciar los sonidos. Tabla 2.2 Comparación entre el Harmony y el Nucleus 5 (86). 163 La realidad de algunas características. (87) Los números tan elevados de la Resolución Temporal en realidad no son tan importantes, porque ya se ha demostrado que la mayoría de los usuarios de implantes cocleares no son capaces de discriminar diferencias de tono para los rangos por encima de 300 pulsos por segundo por canal. Los números de Resolución Espectral también son demasiado exagerados. Incluso para los sistemas con pares de electrodos con 22 canales de estimulación, la mayoría de los usuarios son incapaces de utilizar más de 4 a 8 canales para reconocimiento de voz. Sí, en teoría, más canales permiten la percepción del tono de mejor manera, pero en la práctica esto sólo es relevante para tonos puros y no se traducen en sonidos complejos debido a las interacciones de la corriente entre los canales (esta se describe más adelante). Un amplio Rango dinámico de entrada es útil para situaciones en silencio, pero en el ruido sólo significa que el receptor escuchará más ruido, por lo que un amplio IDR podría ser positivo o negativo dependiendo de la situación en la que se encuentre el receptor. Los estudios actuales sugieren que un rango dinámico de entrada de 40 dB es mejor que uno de 30, pero no hay una evidencia que sugiera que un IDR mayor de 45 dB ofrezca algún beneficio adicional. Percepciones potenciales del tono. El énfasis (cuando se habla con tristeza, felicidad, etc.) está en gran medida en el potencial del tono, o sea en otras palabras, este esta presente y puede cambiar según la forma en la que se digan las palabras al hablar. Las investigaciones de la percepción del tono sugieren que los usuarios de implantes cocleares son incapaces de clasificar de forma fiable la dirección de un cambio de tono, por un par de notas de 1 / 4 de una octava de diferencia. Las estrategias actuales de procesamiento del habla son pobres en el suministro de información del tono, ya que deben trabajar dentro de las limitaciones de la estimulación eléctrica en un entorno lleno de líquido dentro de la cóclea. 164 Es importante recalcar que con las descripciones anteriores, no se pretendió poner en entre dicho a los fabricantes de implantes, ya que este tema solo pretende recalcar algunas de las limitaciones que tienen los implantes cocleares actualmente. Para terminar, se describe algo sobre la interacción entre canales. 2.4.2 La problemática actual de los implantes modernos (88) En la audición normal, el sonido entrante estimula varias zonas de la cóclea al mismo tiempo. Este tipo de estimulación se conoce como estimulación simultánea o estimulación en paralelo. Hasta el momento, los implantes cocleares no han sido capaces de emular eficazmente este tipo de estimulación debido a la interacción entre canales. ¿Qué es la interacción entre canales? Cuando se estimula la cóclea con un implante coclear se crean varios campos eléctricos simultáneamente. Cuando esos campos se solapan, la señal sonora se distorsiona y se pierde claridad de sonido. A la superposición de las señales de sonido se le llama interacción entre canales. Interacción entre Canales Guía de Electrodos Estimulación Simultánea sin Implante coclear Guía de Electrodos Estimulación Simultánea con Implante coclear Figura 2.41 Muestra la estimulación simultánea (90). 165 Debido a esto actualmente, la interacción entre canales, es uno de los defectos a superar en los implantes cocleares modernos. Para sustentar lo anterior, se describe un resumen de un estudio realizado en el 2005 por la universidad de Dallas Texas, al implante coclear Clarion de la marca AB (productor que actualmente ya esta descontinuado). (89) Prueba del Implante Clarion de la marca AB. La Prueba: Las interacciones del campo eléctrico puede interrumpir el estimulo del pulso (generado por el electrodo) antes de la activación neuronal. Para probar si la inteligibilidad del habla se puede degradar por esta interacción, el reconocimiento del habla y la interacción fueron examinados para un conjunto de tres electrodos de “Clarion”: el electrodo bipolar pre-curvado, el electrodo bipolar realzado con un posicionador del electrodo, y el electrodo Hi-Focus con un posicionador. La interacción de canales fue medida al comparar los límenes de la detección del estímulo de una señal en presencia de una señal de perturbación por debajo de los límites, en función de la separación entre los dos electrodos simultáneamente estimulados. La identificación correcta de vocales, de consonantes, y de palabras en oraciones fue medida con dos estrategias del habla: una que utilizó el estímulo simultáneo (SAS) y otra el estímulo secuencial (CIS). Los datos del reconocimiento del habla fueron correlacionados con la interacción del campo eléctrico medido para la estrategia que utilizó el estímulo simultáneo pero no para la estrategia de estimulo secuencial. Un mayor nivel en el reconocimiento del habla con la estrategia simultánea es asociado generalmente a los niveles inferiores de la interacción del campo eléctrico. La interacción del campo eléctrico representó hasta un 70% de la varianza en las puntuaciones del reconocimiento de voz, sugiriendo que esta interacción es un contribuyente importante en la variabilidad encontrada en pacientes que usan estrategias simultáneas. El resultado: Después de realizar el estudio a ocho sordos postlocutivos usuarios de implantes cocleares (20 a 69 años de edad), los resultados sugieren que existe una relación entre las interacciones del campo eléctrico y el funcionamiento psicofísicos del reconocimiento de habla. Las interacciones del campo eléctrico pueden ser uno de los factores que limitan el éxito de las 166 estrategias simultáneas del procesamiento del habla. Consecuentemente, la gama de estrategias del procesamiento del habla disponibles para cada paciente puede ser limitada y las ventajas potenciales de estrategias simultáneas o sus híbridas no pueden ser realizadas completamente, hasta que los efectos de las interacciones del campo eléctrico se reduzcan. Lo rescatable a este problema es que los fabricantes están buscando las soluciones. Una posible solución de Med-El a la interacción ente canales. (90) Med-El por ejemplo, esta buscando diferentes formas que ayuden a reducir los efectos de la interacción entre canales. Actualmente trabaja con la tecnología de Estimulación Paralela InteligenteTM (IPS), que en conjunto utiliza las siguientes estrategias: Channel Interaction CompensationTM (CIC) Una tecnología patentada, para calcular matemáticamente la dispersión de la corriente eléctrica en tiempo real y reducir automáticamente la posible interacción entre canales. Con base en las primeras investigaciones, se cree que la estimulación simultánea con interacción limitada entre canales puede proporcionar un sonido más rico y más detallado y un mejor desempeño en situaciones en las que es difícil oír. Sign Correlated Stimulation TM (SCS) En el pasado, los impulsos eléctricos producidos durante la estimulación simultánea no se podían controlar para que ocurrieran al mismo tiempo. Este desfase entre el comienzo y el fin de cada impulso puede causar un “desgarro de corriente” o impedir el control de la interacción entre canales. Esta tecnología patentada esta diseñada para controlar el inicio de cada impulso eléctrico para que ocurra exactamente al mismo tiempo en varios canales. 167 Estimulación Secuencial SCS Figura 2.42 Se observa la diferencia de la salida de los pulsos (90). Impulsos trifásicos Los sistemas de implante coclear tradicionalmente han dado estimulación eléctrica mediante impulsos eléctricos bifásicos que causan una pequeñísima cantidad de electricidad residual en la cóclea después de cada impulso de estimulación. Esto contribuye a la interacción de canales, por lo que este fabricante esta estudiando el uso de impulsos triásicos, para reducir los campos eléctricos residuales y así reducir al mínimo la interacción. Bifásico Trifásico simétrico Trifásico de precisión Figura 2.43 Los tipos de pulsos (90). Pero la tecnología IPS de Med-EL todavía no se encuentra disponible en el mercado. 168 2.5 Análisis del habla en un implante coclear 2.5.1 Problemas que afectan el reconocimiento del habla en un implante coclear (91) Muchos de los estudios de la investigación conducidos en el campo de implantes cocleares se han centrado hasta ahora, sobre todo en cómo mejorar la percepción del habla con implantes cocleares. Esto es debido a que la percepción del habla en condiciones de ruido todavía genera problemas en este campo. Para solucionar este problema se usan diferentes estrategias, algoritmos y mecanismos para reducir el ruido al el momento que la señal es procesada por el procesador del implante. Ejemplos: • Un algoritmo. El método de la reducción del nivel de ruido de “la ponderación del coeficiente SNR” (Signal Noise Ratio weighting) que es una algoritmo basado en el aumento exponencial que utiliza las estimaciones de SNR para realizar la reducción del nivel de ruido para los procesadores implantes cocleares. • Un mecanismo. Hay resultados que muestran que los implantes bilaterales mejoran el reconocimiento del habla en un entrono ruidoso, en comparación con los implantes unilaterales (92). Este problema que ha impulsado a otras investigaciones es uno de los motivos para la realización de esta tesis, ya que se busca algo que pueda mejor la percepción del habla en los procesadores de los implantes. Aunque específicamente en este trabajo se realizan investigaciones sobre el timbre de voz, que son descritos en el capítulo 3 y 4. Hay que recalcar que debido a las condiciones con las que se cuentan, no se podrá probar por el momento que las técnicas utilizadas en el reconocimiento del timbre de voz de esta tesis, pueden mejorar el reconocimiento del habla en entornos ruidosos al utilizar este tipo de prótesis auditivas. 169 2.5.2 Descripción de una técnica de procesamiento convencional “CIS” (no es una técnica de última generación) Descripción de la estrategia CIS. (93) A fin de evitar la distorsión del habla causada debido a la interacción de canales por la suma de los potenciales eléctricos, los investigadores de Research Triangle Institute (RTI) desarrollaron la estrategia basada en el muestreo secuencial continuo “CIS” (continuous interleaved sampling). La estrategia CIS utiliza los pulsos bifásicos de estimulación secuencial en los electrodos (esto significa que sólo un electrodo es estimulado a la vez), evitando así la sobreposición de los potenciales eléctricos en los electrodos. Esta sobreposición genera distorsiones en la Amplitud Amplitud Amplitud Amplitud percepción del habla (94). Tiempo Figura 2.44 Una representación de la forma de onda de un muestreo secuencial continuo de una implante de 4 canales (93). 170 Funcionamiento de la estrategia CIS. (95) La estrategia CIS filtra el habla y la entrada de otras señales de otros sonidos en bandas de frecuencia mediante un banco de filtros pasa banda. Las variaciones de la envolvente en las diferentes bandas están representadas en los electrodos correspondientes en la cóclea mediante la modulación de trenes de pulsos eléctricos bifásicos. La señales envolventes extraídas por los filtros pasa banda son comprimidas por una función de mapeo no lineal (por ejemplo una logarítmica) antes de la modulación, para poder establecer el rango dinámico del sonido en el ambiente hasta aproximadamente 100 dB en correlación con el estrecho rango dinámico del potencial evocado de la audición, aproximadamente 10 dB o algo mayor. El mapeo puede ser más restringido, por ejemplo de aproximadamente el rango de 30 dB para los sonidos del habla en el ambiente por un rango de 10 dB para el rango del potencial evocado de la audición. Para tal asignación restringida algún tipo de ganancia automática o control de volumen después de la entrada del micrófono es esencial, para cambiar el rango de de las señales de ambiente del sonido en el rango dinámico del procesamiento para el banco de filtros y los detectores de la envolvente. El corte de frecuencia del filtro pasa bajos en cada detector de envolvente normalmente se establece en 200 Hz o más, de modo que las frecuencias fundamentales (F0s) de los sonidos del habla están representadas en la modulación de ondas. El rango de pulsos en los procesadores CIS suelen aproximarse o superar los 1000 pulsos por segundo en cada electrodo, para garantizar un adecuado muestreo de las frecuencias más altas en la modulación de ondas Luego al final del proceso de esta estrategia, en la salida de cada canal del los filtros se van directamente a cada electrodo intracoclear, desde los electrodos menos profundos hasta los más profundos, al ser asignados respectivamente de acuerdo a su posición en la cóclea ya sea en la base o en el ápex. El nombre de la estrategia CIS viene de un muestreo continuo de una señal envolvente comprimida rápidamente por pulsos que se intercalan a través de electrodos. El tren de pulsos de los diferentes canales y sus electrodos correspondientes son intercalados en el tiempo, de 171 manera que los pulsos a través de los canales y los electrodos no sean simultáneos (Esto elimina la principal causa de interacción de los electrodos). Hasta la fecha entre 4 y 22 canales (y los sitios correspondientes estímulo) se han utilizado en las implementaciones de CIS Algunas aclaraciones. Los Potenciales evocados registran las respuestas cerebrales provocadas por estímulos auditivos (mediante técnicas neurofisiológicas), al estudiar la respuesta del nervio colear... (96) En la etapa de compresión de la envolvente en el procesador CIS, se podría utilizar por ejemplo una función no lineal logarítmica. ¿Para qué sirve la compresión? La compresión es necesaria porque el rango de amplitudes en la señales acústicas (del sonido y del habla en el ambiente) son mayores que el rango dinámico del potencial eléctrico del implante del paciente. El rango dinámico del potencial eléctrico esta definido desde el nivel de umbral mínimo audible y el nivel del umbral de no confortabilidad (94). Ha sido demostrado, que la fuerza de un estimulo eléctrico (en los pacientes implantados) en micro amperes es análoga a la fuerza de estimulo acústico en dB (94). 172 La siguiente figura 2.45 describe la estrategia CIS: Filtro Banda Envolvente Compresión Modulación Figura 2.45 Diagrama a bloques de la estrategia CIS en un implante coclear (95). Resumen de la estrategia CIS. En la figura 2.45, la entrada está indicada por el círculo negro en la parte izquierda del diagrama. Esta entrada puede ser un micrófono o una fuente alternativa. Después de la entrada esta el filtro de Pre-énfasis (Pre-emp), que es utilizado para atenuar componentes fuertes debajo de 1.2 KHz. Este filtro es seguido por múltiples canales de procesamiento. Cada canal tiene su filtro pasa banda (BPF), detector de envolvente, compresión y modulación. El detector de la envolvente usa un rectificador de media onda o de onda completa (Rect.) seguido de un filtro pasa bajo (LPF.). La salida de la envolvente es comprimida (NonlinearMap) para encajar en el rango dinámico del paciente y luego es modulada por pulsos bifásicos. Las formas de ondas de dos de los moduladores se muestran seguidas por los bloques multiplicadores (círculos con la “x”). La salida de los multiplicadores va directamente a los electrodos intracocleares (El-1 a El-n). 173 2.5.3 Un ejemplo del análisis del habla con un implante Coclear Micrófono Volumen Procesador del Habla Filtros Pasa Banda Haz de Electrodos Piel Transmisor Detectores de Envolvente Contactos de los Electrodos Receptor Generación de pulsos Electrodos Micrófono Figura 2.46 Diagrama que muestra en la parte de arriba la operación de un implante coclear de 4 canales. La parte de abajo muestra una implementación sencilla de la estrategia de señales CIS usando la sílaba “sa” como señal de entrada (94) En la figura anterior, en la operación de un implante coclear, el sonido es recogido por un micrófono y mandado a un procesador. El sonido es luego procesado y los estímulos eléctricos son mandados a los electrodos por un enlace de radiofrecuencia (implante transcutáneo). En el análisis de la sílaba “sa”, la señal se dirige primero a un banco de 4 filtros pasa banda que dividen la forma de onda acústica en cuatro canales. Las envolventes de las formas de ondas de la pasa banda son luego detectadas por los rectificadores y los filtros pasa bajos. Los pulsos bifásicos tienen generalmente, amplitudes proporcionales a la envolvente de cada canal y son trasmitidos a los cuatro electrodos a través de un link de radiofrecuencia. 174 CAPÍTULO III Análisis paramétrico 3.1 El experimento con la vocal “a” En el Capítulo I, fueron descritas las bases teóricas para el entendimiento de esta tesis, así como la descripción del software que se usa para estudiar la voz. En el Capítulo II, se describieron las principales marcas de implantes cocleares que existen en el mercado global, sus deficiencias actuales y los posibles avances, en relación a las prótesis auditivas para sordos profundos. En esta sección se describe la parte experimental de la tesis con diferentes análisis, y síntesis de tipo aditiva realizados a diferentes señales de voz; la señal de la vocal “a” y la señal de la palabra “campana”. 3.1.1 Análisis paramétrico y síntesis paramétrica de la vocal “a” 3.1.1.1 Descripción general. En el primer experimento se realizó un análisis paramétrico y una síntesis aditiva paramétrica a una señal de voz que tiene grabada la vocal “a”, emitida por una persona de sexo masculino en la edad adulta. Descripción del procedimiento de forma general: • Se grabó la señal de voz con el programa wavepad (software que esta descrito en el Capítulo I sección 1.2.2). El archivo se encuentra en el disco de esta tesis en la carpeta Archivos de sonido, con el nombre de “a de jorge.wav”. Fue grabado en el formato PCM uncompressed, con las siguientes características; a 44.1 kHz, 16 bits, monocanal. El archivo tiene una duración de 404 ms. • Después se realizó el análisis paramétrico. • Luego esos datos fueron sintetizados con el tone generator (software que esta descrito en el Capítulo I sección 1.2.2). 175 • Al final con el wavepad, una vez obtenidos los archivos sintetizados que son fracciones del resultado final, se hicieron algunos ajustes (como la reducción del ruido) con el fin de que el archivo final resultante sea parecido al original. El archivo final de sonido, que es el resultado exitoso del experimento, se encuentra en el disco de tesis. Para tener acceso al archivo hay que abrir la carpeta síntesis con el tone generator, luego en esta sección se encuentran dos carpetas donde una de ellas tiene el nombre de la vocal a, al abrirla aparecen varias carpetas y una tiene el nombre de edición y resultados, donde se encuentra el archivo con el nombre de “7_resultado final.wav”. 3.1.1.2 Realización del análisis paramétrico. En esta parte se describe como se obtuvieron los datos que fueron usados para la síntesis aditiva. Mediante la aplicación FFT del programa wavepad, se analizo la evolución del espectro de sonido en el tiempo a diferentes muestreos, donde se tomó en cuenta la amplitud en decibeles y la frecuencia en hertz de cada uno de los armónicos sucesivos más significativos (los de mayor energía). En cada muestreo se manejo un total de 64 armónicos. El análisis espectral con FFT se hizo en 4 diferentes muestreos al archivo de sonido “a de jorge.wav”, consecutivamente cada 100 ms. Como resultado se obtuvo la siguiente tabla 3.1. La tabla se encuentra en el disco de esta tesis en la carpeta de tablas con el nombre de “A de Jorge”. 176 Estudio de la "a" de Jorge a diferentes muestreos en Hz y dB Muestreo a 100 ms Muestreo a 200 ms Muestreo a 300 ms Muestreo a 400 ms 1 129 -23 118 -26 107 -25 21 -47 2 258 -25 247 -25 226 -30 75 -53 3 387 -30 366 -28 322 -40 107 -55 4 516 -26 495 -29 430 -39 172 -56 5 635 -20 613 -22 581 -38 258 -58 6 764 -12 742 -16 689 -30 312 -64 7 893 -19 861 -14 807 -25 516 -60 8 1022 -21 979 -21 915 -30 635 -60 9 1141 -22 1098 -28 1022 -31 764 -56 10 1281 -16 1227 -26 1130 -35 850 -49 11 1399 -17 1345 -20 1238 -33 1055 -57 12 1539 -31 1464 -35 1388 -32 1227 -62 13 1668 -37 1593 -38 1464 -36 1335 -60 14 1787 -40 1722 -41 1571 -42 1431 -59 15 1927 -43 1830 -47 1614 -44 1475 -62 16 2056 -41 1970 -52 1798 -49 1550 -65 17 2164 -37 2088 -46 1905 -50 1625 -69 18 2304 -40 2196 -41 2045 -54 1679 -66 19 2433 -35 2336 -42 2131 -51 1733 -64 20 2562 -30 2444 -35 2260 -49 1916 -72 21 2691 -38 2562 -39 2368 -48 2228 -79 22 2820 -42 2702 -47 2487 -45 2454 -77 23 2950 -46 2810 -48 2551 -45 2627 -70 24 3038 -46 2928 -53 2605 -45 2691 -69 25 3208 -45 3079 -52 2734 -51 2723 -66 26 3326 -43 3176 -53 2820 -54 2896 -70 27 3466 -37 3283 -49 2960 -57 2993 -71 28 3585 -37 3434 -46 3176 -58 3154 -69 29 3703 -44 3531 -42 3294 -58 3509 -75 30 3854 -44 3660 -42 3520 -55 3639 -74 31 3940 -58 3789 -53 3639 -55 3682 -73 32 4102 -62 4249 -52 3822 -54 3811 -75 33 4198 -66 4435 -55 3983 -60 3951 -79 34 4360 -57 4554 -61 4048 -64 4123 -81 177 35 4457 -62 4640 -65 4242 -68 4220 -81 36 4618 -59 4737 -65 4565 -65 4328 -81 37 4758 -65 4888 -65 4758 -61 4478 -83 38 4877 -60 4984 -70 4877 -61 4543 -84 39 5006 -65 5017 -69 4931 -60 4597 -83 40 5146 -67 5103 -72 4994 -56 4844 -82 41 5275 -65 5307 -69 5038 -61 4952 -83 42 5404 -67 5469 -68 5124 -61 5049 -82 43 5604 -74 5512 -73 5243 -61 5103 -78 44 5770 -68 5695 -71 5307 -58 5211 -75 45 5846 -72 5792 -73 5415 -64 5275 -72 46 5910 -65 5835 -76 5501 -67 5404 -80 47 6040 -65 5953 -73 5641 -70 5512 -78 48 6169 -69 6072 -69 5803 -75 5641 -77 49 6223 -74 6180 -72 6018 -75 5781 -78 50 6352 -78 6330 -81 6126 -75 5900 -82 51 6481 -82 6438 -80 6233 -77 5964 -81 52 6556 -80 6556 -83 6363 -79 6061 -79 53 6664 -77 6675 -82 6696 -81 6115 -82 54 6793 -72 6804 -73 6922 -79 6158 -83 55 6847 -75 6965 -76 7062 -80 6255 -79 56 6987 -71 7052 -78 7278 -80 6492 -87 57 7052 -69 7116 -77 7396 -82 6589 -90 58 7181 -69 7170 -77 7536 -89 6653 -88 59 7288 -73 7364 -84 7988 -90 6729 -91 60 7461 -80 7536 -89 8279 -88 6912 -90 61 7579 -84 7676 -90 8925 -86 6965 -91 62 7708 -84 7859 -91 9259 -77 7385 -91 63 7870 -85 7999 -89 9603 -72 8042 -91 64 7999 -83 8171 -88 9711 -70 8322 -94 Tabla 3.1 El análisis paramétrico de la vocal “a”. Las siguientes figuras 3.1 y 3.2, muestran como se obtuvieron los armónicos: 178 Figura 3.1 El oscilograma del wavepad con el archivo de sonido “a de jorge.wav” a 100ms (indicado por las flechas negras). 179 1 2 * 64 Figura 3.2 Análisis espectral con la aplicación FFT del wavepad a 100 ms. Para poder conocer la magnitud en Hz y dB de cada uno de los 64 armónicos, solo se tiene que correr el cursor del mouse a través de la gráfica desplegada del programa sobre cada uno de los picos azules que representan los armónicos. El valor aparece en la esquina superior derecha del programa (*) y va cambiando al mover el cursor. Ejemplos de algunos valores que coinciden con los de la tabla 3.1: • (1) 129 Hz, -23 dB. • (2) 258 Hz, -25 dB. • (64) 7999 Hz, -83 dB. Nota importante: como ya se había descrito antes en el Capítulo I en la sección 1.1.3 el sonido en la naturaleza, por lo general no es perfectamente periódico (su onda no se repite siempre de forma idéntica) y por tanto existe un componente “caótico” (el ruido) que bajo el prisma del análisis de Fourier no corresponde a ningún armónico. Por lo que al hacer el análisis paramétrico de los 64 picos, no todos son armónicos pero son necesarios para el estudio del timbre de la voz. 180 3.1.1.3 Realización de la síntesis aditiva paramétrica. En esta sección se describe como se obtuvo el archivo “7_resultado final.wav”, después de realizar una síntesis aditiva (En el Capítulo I sección 1.4 están los fundamentos teóricos de síntesis). A partir de la información obtenida de la tabla 3.1, se sintetizó un sonido (7_resultado final.wav), al sumar en cada muestreo todos los armónicos con sus respectivas amplitudes. Para lograr lo anterior se utilizó el tone generator y el wavepad, donde cada programa tuvo una función diferente en un proceso que tuvo dos etapas; la generación de los tonos con el tone generator y la de síntesis con el wavepad. El resultado fue un sonido muy parecido al original, lo que demostró que la hipótesis de esta tesis es correcta para el caso de una vocal. La generación de los tonos con el tone generator: El tone generator como ya se había descrito antes (en el Capítulo I en la sección 1.2.2), es un generador de onda que permite generar hasta 16 tonos simultáneos. También permite la manipulación de las amplitudes y los periodos de duración de los tonos generados. Al generar los tonos, el programa permite guardarlos en dos formatos diferentes como tono o archivo wave (.wav). Se puede acceder a cualquiera de estas opciones al seleccionar File/Save As Wav o en File/Save As Tone, en el programa. Cuando se guarda como archivo de tipo tono, permite que se pueda volver a abrir para cualquier posible modificación. Pero cuando se guarda como archivo de tipo wave, es para que se pueda abrir con el wavepad o cualquier programa de edición o reproducción de audio. El programa posee también una opción que permite que se pueda editar con el wavepad el tono de forma directa sin que se tenga que guardar, para ello sólo hay que seleccionar con el cursor del mouse el icono Edit de la primera barra de iconos del programa. La tabla 3.1 tiene 4 muestreos diferentes a 100, 200, 300 y 400 ms, donde cada uno de ellos tiene 64 armónicos. Entonces si solamente se pueden generar hasta 16 tonos con el tone 181 generator, fue necesario generar por cada muestreo 4 grupos de 16 tonos para igualar los 64 armónicos. En total se generaron 16 grupos de tonos (cada unos con sus 16 tonos respectivos). A continuación se describe como se hizo el primer grupo del muestreo de 100 ms con el tone generator: • Primero, es importante seleccionar en el menú del programa Tone/Number of Tones/16, para poder tener 16 tonos diferentes. • Para el control del tiempo de duración de los tonos es necesario seleccionar Tone/Constant (Specified Duration). • Se manejan tonos de un solo canal por lo que hay que especificarlo, entonces se tiene que seleccionar Tone/Mono. • Como son tonos con una amplitud variable hay que activar la opción al seleccionar Tone/Variable Amplitude. • Ya que el tone generator es un programa que maneja varias formas de onda, se selecciona el tipo de onda senoidal de las 7 opciones disponibles del programa; para ello hay que seleccionar Tone/Sine. • Una vez hecho lo anterior el programa generó 16 tonos con frecuencias, amplitudes y un tiempo de duración por defecto, que se cambiaron por el primer grupo de 16 tonos del muestreo de 100 ms de la tabla 3.1, como se muestra en la siguiente figura 3.3: 182 Figura 3.3 El primer grupo de 16 del muestrea de 100 ms (se puso 200ms en Sine Duration, más adelante se explica la razón) El proceso que se ha descrito se siguió para generar los 15 grupos de tonos restantes. Los 16 grupos de tonos fueron grabados en los dos formatos disponibles del programa y se encuentran en el disco de esta tesis. Los archivos de tipo tono y wave están respectivamente en las siguientes carpetas del disco de esta tesis: Síntesis con ToneGenerator\la vocal a\tonos generados, y en Síntesis con ToneGenerator\la vocal a\sonidos generados\de los tonos. Los archivos tienen una numeración del 1 al 16. La siguiente figura 3.4, muestra los 16 archivos de tipo tono y wave, generados por el tone generator: 183 Figura 3.4 Los 16 archivos tipo tono, generados por el tone generator Los 16 archivos tipo wave, generados por el tone generator La figura muestra que el conjunto de archivos tiene una nomenclatura de numeración que es la misma para ambos. La siguiente figura 3.5 explica la nomenclatura: 1 3 2 Figura 3.5 Explicación de la nomenclatura numérica para los archivos de tipo Tone y wave. 1. Indica el orden cronológico de los archivo y va del 1 a 16. 2. Representa la cantidad de armónicos correspondientes a la tabla 3.1. Cada muestreo de la tabla tiene 64 armónicos, su equivalente para cada uno con el tone generator es: 16 + 17 a 32 + 33 a 48 + 49 a 64 = 64. Cada grupo tiene un total de 16 armónicos, porque esa cantidad es el máximo de generación de tonos del tone generator. 3. Al muestreo que corresponde cada grupo de armónicos. Son un total de 4 grupos de 4 archivos cada uno, que en conjunto igualan a la tabla 3.1. Síntesis con el wavepad: Después de que se generaron los 16 grupos de tonos con el tone generator al utilizar los datos de la tabla 3.1, en formato de tipo wave; se procedió a realizar la síntesis aditiva al utilizar el wavepad. Éste permitió que se puedan sumar los grupos de armónicos con el objetivo de crear 184 el archivo de sonido sintetizado “7_resultado final.wav” que es casi igual al original “a de jorge.wav”. Este procedimiento se divide en dos etapas, una de mezcla y otra de edición de audio. Etapa de mezcla. Como ya se había descrito antes son en total 4 muestreos de 100 a 400 ms en la tabla 3.1. Para poder igual los 64 armónicos de cada uno de ellos; se generaron los 16 archivos que se muestran en la figura 3.4. Pero los 64 armónicos que se generaron con el tone generator para cada muestreo están separados por grupos de 16, entonces la finalidad es obtener archivos que tengan en conjunto los 64 armónicos a la vez. Entonces en esta etapa del proceso de síntesis aditiva paramétrica consistió en la mezcla y combinación de los 16 grupos de tonos (previamente generados por el tone generator), mediante el uso de dos aplicaciones que tiene el wavepad: • La primera aplicación permite la mezcla (superposición) de 2 o más archivos de audio (cada archivo de audio tiene diferentes armónicos). • La segunda, permite pegar (combinación) dos o más archivos de audio pero sin el efecto anterior de mezcla ya que al pegar los archivos de audio, se conserva la forma original de cada uno de ellos y se incrementa el tiempo de duración del archivo resultante. Descripción de la aplicación mezcla (superposición): Para poder ejecutar la aplicación mezcla (superposición) con el wavepad, hay varias formas de hacerlo una de ellas se describe a continuación. Este ejemplo describirá como se hizo la mezcla para el primer grupo de 4 archivos que corresponden al muestreo de 100ms. Procedimiento: • Es necesario abrir los archivos, que se desean mezclar. Para este caso se abrieron los cuatro archivos: 1_16 a 100ms.wave al 4_49 a 64 a 100ms.wave. 185 • Luego hay que generar un archivo en blanco. Sólo se tiene que seleccionar en el menú del wavepad: File /New File. Al hacerlo aparecen diferentes opciones del formato del archivo de audio que se desea, se selecciona en Sample Rate: 44100 y en Channels: Mono (single). • A continuación se selecciona con el cursor del mouse el primer archivo 1_16 a 100ms.wave, luego al presionar el clic derecho de mouse se despliega un menú, donde se selecciona Copy. • Nuevamente hay que dirigirse al archivo en blanco que por default tiene el nombre de Untitled 1, y se despliega el menú al presionar con el clic derecho del mouse sobre el archivo y se selecciona Paste. • Después se repite el proceso de copiado del siguiente archivo consecutivo: 2_17 a 32 a 100ms.wave. • Una vez copiado el archivo, se procede a pegarlo nuevamente en el archivo Untitled 1. Pero esta vez, en vez de seleccionar en el menú desplegado al presionar el clic derecho del mouse Paste, se selecciona Paste Mix. Al hacerlo aparece un menú, donde hay que seleccionar en Mix Volume (%): 100 y en la parte de abajo Increase Selection. Nota importante: para lograr un correcto efecto de superposición, antes de hacer el pegado Paste Mix, hay que hacer que el archivo este seleccionado al 100%, para ello solo hay que presionar el clic derecho del mouse y seleccionar Select All. Una vez hecho lo anterior se puede hacer el Paste Mix. • Este proceso se puede seguir indefinidamente de 2 a n cantidad de archivos que se deseen mezclar. Por ejemplo si el muestreo de 100ms tiene 4 archivos de 16 tonos, solo hay que hacer 4 Paste Mix, para igualar el muestreo de 64 de la tabla 3.1. Esto sigue una matemática básica: 16+16+16+16 tonos es igual a 64 tonos (armónicos). Para evitar que la aplicación se vuelva confusa se pueden guardar los archivos resultantes cada 2 Paste Mix, o a la cantidad que el usuario quiera para evitar la confusión. • Para este caso se hicieron los Paste Mix por separado. Primero se mezclaron los archivos: 1_16 a 100ms.wave - 2_17 a 32 a 100ms.wave y luego los archivos: 3_33 a 48 a 100ms.wave - 4_49 a 64 a 100ms.wave, para luego hacer un Paste Mix entre los 2 186 archivo resultantes. Es un proceso de matemática simple (16+16=32) + (16+16=32) = 64. Las siguientes figuras 3.6 a 3.8, muestran la aplicación del efecto Paste Mix del programa wavepad, para obtener el archivo resultante de 64 armónicos que representan al muestreo de 100ms. Las 3 figuras tienen un análisis espectral (con la aplicación FFT) en el mismo intervalo de tiempo, a 91 ms (indicados por las flechas negras). El efecto Paste Mix es evidente al observar como se va incrementando la cantidad de armónicos en el espectro, de 16 hasta los 64. La primera figura 3.6 solo muestra que pasa cuando se copia y pega un archivo de audio en Untitled 1 (copia del archivo 1_16 a 100ms.wav), y las siguientes 2 muestran el efecto del incremento de armónicos: 16 ** * **** **** *** Figura 3.6 Copia del archivo 1_16 a 100ms.wave en Untitled 1. * El color azul aparece en el programa cuando se tiene seleccionado al archivo por completo. ** Así se ve cuando no se tiene ninguna selección. *** Se indican los nombres del conjunto de archivos con los que se esta trabajando. **** Se puede notar que casi no se ve energía en el oscilograma debido a que los archivos tienen muy poca energía, pero si poseen información armónica que es apreciable al aplicar la FFT. 187 32 Figura 3.7 Apreciación del efecto Paste Mix con 32 armónicos. Se mezclaron en el archivo Untitled 1 los archivos: 1_16 a 100ms.wave - 2_17 a 32 a 100ms.wave (16+16=32). 64 Figura 3.7 Apreciación del efecto Paste Mix con 64 armónicos. Se mezclaron en el archivo Untitled 1 los 4 archivos: 1_16 a 100ms.wave - 4_49 a 64 a 100ms.wave (16+16+16+16=64). 188 El mismo proceso se siguió para los otros 3 grupos de archivos. La siguiente figura 3.8, es un esquema que describe la aplicación de mezcla (superposición): Mezcla Mezcla 100 ms Mezcla 200 ms Mezcla 300 ms 400 ms Figura 3.8 Describe la aplicación de mezcla (superposición) al utilizar el Paste Mix. Los archivos resultantes que estan en la parte inferior del esquema (3, 5, 6 y 7) son los resultados. Ahora cada uno de ellos reprentan a los muestreos de la tabla 3.1. Los archivos que son el resultado de la aplicación anterior, están disponibles en el disco de esta tesis en la siguiente carpeta: Síntesis con ToneGenerator\la vocal a\sonidos generados\mezclas y combinaciones. La siguiente figura 3.9 muestra a los archivos resultantes: * ** *** ***** Figura 3.9 Los archivos que son el resultado de la mezcla. Se puede notar que sólo para los 2 primeros muestreos (100 y 200ms) se hicieron las mezclas paso a paso. Las últimas (de 300 y 400ms) se hicieron directas. Los resultados finales son los archivos 3, 5, 6 y 7 (los mismos de la figura 3.8). Nomenclatura de la numeración: * Representa el orden cronológico del archivo. ** Indica que son los archivos de la aplicación del wavepad de tipo mezcla. *** La cantidad de armónicos que poseen. **** Al muestreo que pertenecen ya sea de: 100, 200, 300 y 400ms. 189 Descripción de la aplicación pegar (combinación): El archivo original grabado de la “a de jorge.wav” tiene 404 ms, los archivos resultantes sintetizados 3, 5, 6 y 7 (los de la figura 3.8), son su equivalente aproximado de una forma fraccionada; por lo que se tienen que volver un solo archivo para que se parezca al original. Para ello se utiliza la aplicación pegar (combinación) del wavepad, que es una aplicación cuyo procedimiento es muy similar al anterior. Descripción de un ejemplo: • Es necesario abrir los archivos, que se desean combinar. Se abren los archivos: 3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave. • Luego hay que generar un archivo en blanco. • A continuación se selecciona con el cursor del mouse el primer archivo 3_mezcla 64 a 1 00.wave, luego al presionar el clic derecho de mouse se despliega un menú, donde se selecciona Copy. • Nuevamente hay que dirigirse al archivo en blanco que por default tiene el nombre de Untitled 1, y se despliega el menú al presionar con el clic derecho del mouse sobre el archivo y se selecciona Paste. • Después se repite el proceso de copiado del siguiente archivo consecutivo: 5_mezcla 64 a 200.wave. Nota importante: para lograr un correcto efecto de combinación, antes de pegar el segundo archivo en Untitled 1, hay que hacer que la línea naranja del programa wavepad este al final del oscilograma (como se muestra en la figura 3.12). • Este proceso se puede seguir indefinidamente de 2 a n cantidad de archivos que se deseen combinar. Por ejemplo para el caso de los archivos resultantes sintetizados 3, 5, 6 y 7, son 3 las combinaciones que se tendrían que hacer para lograr el archivo final sin fracciones equivalente a “a de jorge.wav”. Esta aplicación sigue también un proceso de matemática sencillo: 100 ms + 100 ms + 100 ms + 100 ms= 400 ms. Pero de esta forma sería de una forma ideal y no real, ya que hace falta una etapa de edición de audio para poder tener un resultado final correcto. 190 Las siguientes figuras 3.10 a 3.13, muestran la aplicación del efecto de combinación del programa wavepad: Figura 3.10 Copia del archivo 3_mezcla 64 a 1 00.wave. El archivo se copio y se pego en el archivo untitled 1 y esta indicado por la flecha negra. Figura 3.11 Se copia el archivo 5_mezcla 64 a 200.wave. El archivo se copio y esta indicado por la flecha negra, pero no se ha pegado en untitled 1. Esto es debido a que el cursor naranja del programa que esta indicado por la flecha negra no esta al final como debería de estar en el oscilograma, para un correcto efecto de combinación. 191 Figura 3.12 La correcta posición del cursor naranja del wavepad. La flecha negra indica la correcta posición del cursor naranja antes de pegar el otro archivo. Figura 3.13 El resultado de la combinación de los archivos 3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave. La flecha negra inferior muestra como se incremento el tiempo de duración a 400 ms. Esto se debe a que se combinaron archivos que tienen cada uno de ellos de 200 ms de duración (200+200= 400). La otra flecha negra indica el punto en el tiempo en el que se combinaron los 2 archivos para formar uno solo. 192 Una aclaración: A la hora de combinar los 2 archivos: 3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave, se están combinando archivos que tienen cada uno de ellos 200 ms de duración, por lo que el resultado al combinarlos será un archivo de 400 ms. ¿Por qué los 2 archivos anteriores no tienen 100 ms cada uno de ellos? Esto es debido a que en la etapa de generación de tonos con el tone generator, para los tonos que representan los 100 y 200 ms en la parte de sine duration, no se puso 100 ms como debería de ser y se puso 200 ms. Para el caso de los tonos generados que representan los 300 y 400 ms, si se pusieron los 100 ms de duración. ¿Que ocurre al hacer el cambio? Al incrementar el tiempo de duración de los tonos generados correspondientes a los 100 y 200 ms, lo único que se hace es que el tono dure por más tiempo; por lo que la cantidad de información armónica generada (las frecuencias y las amplitudes de los tonos) no cambia. Entonces los tonos de 100 y de 200 ms que tienen 200 ms de duración serían equivalentes a los tonos de 100 y 200 ms que tengan un menor o mayor tiempo de duración, porque la cantidad armónica es la misma. Al haber incrementado el tiempo en sine duration en el tone generator en los tonos generados de 100 y 200 ms, sólo se incremento el tiempo de duración y no se hizo ningún cambio significativo. ¿Cuál fue la razón del cambio? Para poder obtener un resultado provisional y conocer si estaba funcionando de manera adecuada el experimento, sin tener que hacer ninguna modificación. Lo que pasa es que cuando se generaron los 16 tonos equivalentes a los 4 muestreos de la tabla 3.1, la mayor cantidad de energía se encuentra en los 2 primero muestreos de 100 y 200 ms, como se puede observar en la siguiente figura 3.14: 193 Figura 3.14 Los 16 tonos generados por el tone generator en formato wave, abiertos con el wavepad. Los archivos 1, 5, 9 que están marcados con las flechas negras y con la selección azul del cursor del mouse en el programa, son los que tienen la mayor cantidad de energía en el oscilograma. Los demás si tienen energía pero es muy pequeña y por eso no se ve nada (La información armónica es visible para estos casos al aplicar la FFT). Debido a esto no se puede trabajar con los archivos generados por los muestreos de 300 y 400 ms sin antes pasar por una etapa de edición. Entonces al alargar el tiempo de duración de los 2 primeros muestreos es como si se sustituyera la parte que hace falta de los 2 últimos (sin que exista la edición). Por lo que únicamente se cambio el tiempo de duración, para generar un archivo de combinación provisional y obtener un resultado de forma rápida. En la parte de edición de audio se corrige el tiempo de duración y se dejan los tiempos de duración de 100 ms para los muestreos de 100 y 200 ms. 194 El archivo que es resultado de la aplicación anterior, esta disponible en el disco de esta tesis en la siguiente carpeta: Síntesis con ToneGenerator\la vocal a\sonidos generados\mezclas y combinaciones. La siguiente figura 3.15 muestra el archivo resultante: * ** *** Figura 3.15 El archivo que es resultado de la combinación entre los archivos 3_mezcla 64 a 1 00.wave y 5_mezcla 64 a 200.wave. * El orden cronológico. ** Indica que es un archivo de la aplicación de tipo combinación del wavepad. *** Que combinan los muestreos de 100 y 200 ms. Las demás combinaciones se hicieron en la etapa de edición de audio, debido a que no había caso de hacerlas ya que los archivos resultantes (6 y 7 de la figura 3.8), tienen poca energía y necesitan ser editados, para que pueda haber un buen resultado a la hora de hacer las combinaciones. Edición de audio. Esta etapa es necesaria debido a que no se pueden obtener resultados sin antes editar y corregir algunas deficiencias que fueron generadas en los archivos de audio, en el proceso de la realización del análisis paramétrico y síntesis aditiva paramétrica. Los errores aparecen porque normalmente en un experimento como este, las variables resultantes se ven afectadas por diferentes condiciones, que en este caso pueden ser: el ruido, pérdidas de energía de los armónicos generados por el tone generator al ser manipulados por el wavepad, las limitaciones del programa wavepad, entre otras. El wavepad, tiene un conjunto de herramientas que sirven para editar los archivos de audio y se describen a continuación algunas de ellas. La siguiente figura 3.16 muestra la barra de herramientas de edición del programa wavepad: 195 1 3 2 5 4 7 6 8 Figura 3.16 Algunas herramientas de edición de audio del wavepad. 1. Insert Silence at Current Position. Inserta el silencio que se desee en la posición donde este el cursor del programa (la línea naranja) sobre el archivo de audio, y se puede controlar el tiempo de duración del silencio (en ms). 2. Amplify. Aumenta la intensidad o volumen de la región seleccionada a un porcentaje que alcanza hasta el cuádruple (400%), con respecto a la referencia. 3. Normalize. Permite ajustar el volumen para que el pico más alto sea equivalente al máximo de la señal que pueda ser usado en el audio digital (permite que el sonido incremente su volumen sin distorsión). 4. Equalizer. Un ecualizador que permite cambiar la respuesta en frecuencia de una señal para que pueda tener cualidades de tono diferentes. Puede usar varios tipos de filtros como: pasa bajos, pasa altos, pasa bandas y otros más. Se puede manipular ya sea mediante una gráfica o con valores numéricos. 5. Fade In. Permite desvanecer energía de forma tenue sobre la región seleccionada. 6. Fade Out. Se usa para desvanecer energía de forma más abrupta que la anterior Fade in. Por ejemplo, se puede usar cuando se quiere desvanecer la parte final de un archivo de audio, o cuando se quiere desvanecer en alguna parte determinada del archivo. 7. CrossFade. Permite mezclar la voz y la música en una variedad de maneras diferentes. 8. Noise Reduction. Puede ser automático o manual y se utiliza para reducir el ruido. En la forma automática el programa determina donde hay ruido y en la forma manual, uno selecciona la parte que tenga ruido para hacer la aplicación. Este conjunto de aplicaciones también están disponibles en el menú Effects del wavepad. No todas las aplicaciones fueron utilizadas para el caso de de la edición de la síntesis de la vocal “a”, pero para el caso de la síntesis de la palabra que se describe en la sección 3.2 de este Capítulo, se usaron la gran la mayoría. La técnica que se siguió para hacer esta edición, fue mediante la comparación del archivo original “a de jorge.wav” con respecto a los resultados obtenidos en la etapa de mezcla y combinación. 196 Se analizaron las gráficas y se copiaron los patrones que se observaron en el oscilograma del archivo de audio original, mediante la utilización de las herramientas de edición descritas en la figura 3.16 del wavepad; con el fin de lograr un resultado sintetizado casi idéntico. En la siguiente figura 3.17, se observan los archivos de audio editados y el resultado final obtenido en esta etapa del proceso de síntesis: Figura 3.17 Los archivos enditados y el resultado final de la síntesis de la letra “a” Cada archivo que se muestra en la figura 3.17 tuvo un procedimiento de edición que se describe a continuación. Las ediciones se hicieron a los archivos de audio que se generaron en la etapa de mezcla y combinación. Cuando se aplicaron las herramientas de edición, se hicieron en intervalos específicos con un patrón de inicio de tiempo (en el programa aparece como Start) y otro de terminación (aparece como End). Las selecciones se controlan con el cursor naranja del programa wavepad. Por ejemplo si se aplico un Fade Out al inicio del archivo de 0 a 30 ms, esto quiere decir que el intervalo de tiempo corresponde a la selección con el cursor naranja del programa que va de 0 a 30 ms. Descripciones de las ediciones: 1. editado a 300.wave. Este archivo es producto de la edición de 6_mezcla 64 a 300.wave. Sólo se aplico la herramienta de Normalize a un nivel del 75% al inicio del archivo de 0 a 47 ms. 2. editado a 400.wave. Se obtiene después de editar el archivo 7_mezcla 64 a 400. wave. Se le inserto un silencio de 24 ms al inicio y se le aplico un solo Fade Out a todo el archivo. Se le puso un silencio inicial para evitar el efecto de doble sonido de “a” que se generaba al combinar los muestreos de 300 y 400 ms. 197 3. editado de 100 y 200.wave. Es la edición del archivo 8_combinación de 100 y 200.wave Se amplifico todo con una ganancia del 350%, se eliminaron algunas partes del archivo: al principio de 0 a 63 y al final de 275 a 336 ms, dando como resultado un archivo de 275 ms de duración. Para compensar en el tiempo parte de esa eliminación, se insertaron dos silencios de 60 ms de duración, uno al principio y otro al final. Al principio del archivo se hicieron 2 Fade In, primero uno de 67 a 81 ms y otro de 59 a 68 ms. Por último se hizo un Fade Out al final de 323 a 335ms. Este archivo es el que tiene 100 ms más de duración en cada uno de sus muestreos (son 400ms) y por eso se hicieron las eliminaciones. 4. mejor editado de 100 y 200.wave. Es el mismo archivo anterior (numero 3) pero con algunas modificaciones. Se elimino parte del silencio inicial ya que se redujo de 60 a 4 ms y después, y luego se elimino más información al final, desde 202 a 340 ms. 5. editado a 300 y 400.wave. Primero se hizo la combinación entre los 2 primeros archivos (editado a 300.wave y editado a 400.wave). Después se eliminaron 24 ms del final (de 199 a 223 ms), luego se hicieron 2 Fade Out al final de 124 a 199 ms. Y por último se hizo una amplificación del 200 % en el inicio de 0 a 14 ms. 6. combinación de todos.wave. Es el archivo resultante al combinar los 2 archivos que engloban el total de los 4 muestreos. La combinación se efectuó entre los 2 archivos anteriores mejor editado de 100 y 200.wave y editado a 300 y 400.wave. 7. resultado final.wave. El archivo resultante de la edición donde al inicio se agrego un silencio de 18 ms, y al final se eliminaron 19ms de 401 ms a 420. No se utilizo el Noise Reduction, porque ya es un resultado aceptable (pero si se puede aplicar). El camino previamente descrito no es el único para llegar a obtener un buen resultado sintetizado, por ejemplo se puede manjar una amplificación mayor o menor o usar la opción de Normalize en ves de la de amplificación, entre otras. En este experimento a la ahora de hacer la edición, los desvanecimientos (con Fade In o Fade Out) se hicieron porque al combinar los archivos de los 4 muestreos sin ninguna edición, se escuchaban diferentes tonos parecidos a la vocal “a”. También se hicieron las eliminaciones de información, para compensar los 100 ms de más que tenían los 2 primero muestreos, ya que a la hora de hacer las síntesis hay que tratar de obtener un archivo que tenga aproximadamente 198 400 ms de duración como tiene el original “a de jorge.wav”. Los motivos de estas ediciones serán descritos en el Capítulo IV. Las siguientes figuras 3.18 y 3.19, muestran algunos puntos que se deben de tomar en cuenta a la hora de trabajar y hacer cualquier edición de un archivo de audio en el wavepad. 1 2 3 4 Figura 3.18 Los indicadores de tiempo del wavepad, según la posición o selección del cursor naranja. 1. Start. Donde empieza la selección del cursor. 2. End. Donde termina la selección de cursor. 3. Sel Lenght. Indica el tiempo de la longitud de la selección del cursor. 4. File Lenght. El tiempo total de duración del archivo que este abierto. 2 4 3 1 Figura 3.19 El archivo de audio “a de jorge.wav”. En la edición se copiaron diferentes patrones que se pueden observar en el oscilograma, algunos de ellos son los siguientes: 1. Los silencios donde no hay energía. 2. La amplitud de la onda. 3. El número de picos de los ciclos aperiódicos. 4. Los diferentes patrones de elongación. Los archivos que son el resultado de la edición, se encuentran en el disco de tesis en la siguiente carpeta: Síntesis con ToneGenerator\la vocal a\edición y resultados. 199 3.2 El experimento con la palabra “campana” 3.2.1 Análisis paramétrico y síntesis paramétrica de la palabra “campana” Este experimento siguió los mismos lineamientos del experimento anterior, con algunas diferencias: • Es de mayor escala debido a que se analizo uno palabra en ves de una letra. • Con un mayor número de muestreos cada 10 ms en ves de solo cuatro muestreos. • Se redujo la cantidad de número de armónicos de 64 a 30 porque se manejaron más muestreos. En esta sección del Capítulo III, hay cosas que no se describen de forma detallada debido a que se siguieron los mismos lineamientos del experimento anterior y únicamente, se entrara en detalle en las cosas que sean diferentes. 3.2.1.1 Descripción general. • Se grabó la señal de voz con el programa wavepad. El archivo se encuentra en el disco de esta tesis en la carpeta Archivos de sonido, con el nombre de “campana.wav”. Fue grabado en el formato PCM uncompressed, con las siguientes características; a 44.1 kHz, 16 bits, monocanal. El archivo tiene una duración de 1239 ms. En esta misma carpeta Archivos de sonido hay un archivo con el nombre de “original de palabras de mauricio.wave”, este archivo tiene 5 palabras grabadas de la misma persona emisora y una de ellas es “campana”. Entonces lo que se hizo fue primero grabar este archivo y luego hacer un recorte en la sección de campana, para luego guardarlo como un nuevo archivo de audio “campana.wav”, al cual se le hizo todo el análisis que se describe a continuación. • Después se realizó el análisis paramétrico. • Luego esos datos fueron sintetizados con el tone generator. • Al final con el wavepad, una vez obtenidos los archivos sintetizados que son fracciones del resultado final, se hicieron algunos ajustes con el fin de que el archivo final resultante sea parecido al original. El archivo final de sonido, que es el resultado 200 exitoso del experimento, se encuentra en el disco de tesis. Para tener acceso al archivo hay que abrir la carpeta síntesis con el tone generator, luego en esta sección se encuentran dos carpetas donde una de ellas tiene el nombre de campana, al abrirla aparecen varias carpetas y una tiene el nombre de edición y resultados, donde se encuentra el archivo con el nombre de “9_filtro pasa basabajas a 2100.wave”. 3.2.1.2 Realización del análisis paramétrico. En esta parte se describe como se obtuvieron los datos que fueron usados para la síntesis aditiva. Mediante la aplicación FFT del programa wavepad, se analizo la evolución del espectro de sonido en el tiempo a diferentes muestreos, donde se tomó en cuenta la amplitud en decibeles y la frecuencia en hertz de cada uno de los armónicos sucesivos más significativos. En cada muestreo se manejo un máximo de 30 armónicos. El análisis espectral con FFT se hizo en 68 diferentes muestreos al archivo de sonido “campana.wav”, consecutivamente cada 10 ms. Como resultado se obtuvo la siguiente tabla 3.2, que se muestra por secciones en forma de imágenes debido a que es una tabla muy extensa. La tabla se encuentra en el disco de esta tesis en la carpeta de tablas con el nombre de “Muestreo Extenso de Campana”. Los armónicos se obtuvieron de la misma forma que en el experimento anterior y el método se describió en las figuras 3.1 y 3.2. 201 Tabla 3.2 sección 1 Muestreo extenso de campana 202 Tabla 3.2 sección 2 Muestreo extenso de campana La siguiente figura 3.20 describe la configuración de la tabla 3.2: 203 1 2 3 5 4 1. 2. 3. 4. 5. Figura 3.20 Configuración de la tabla 3.2. La primera columna tiene el orden cronológico de los muestreos de (1-68). Las letras correspondientes. Son los 68 muestreos hechos a la palabra “campana” cada 10ms. Cada casilla de cada armónico tiene su frecuencia en Hz y su Amplitud en dB. El orden de los armónicos de 1 a 30. Algunas aclaraciones sobre la tabla 3.2: • Las letras de la columna 2 de la tabla 3.2, representan las letras que le corresponden según el muestreo dado pero no de manera exacta; ya que realmente la palabra “Campana” si se toma de ejemplo a la letra C, a la hora de pronunciarla es un pequeño tiempo que dura unos pocos ms y no dura los 120 ms que se muestran en la tabla. Esto se hizo porque se mezclaron los sonidos puros de las letras y las partes de transición. Por ejemplo en este caso los muestreos del 1 al 12 tienen realmente en un principio a la letra C y luego la parte de transición CA. Esta configuración se siguió porque es muy difícil lograr separar de manera pura los intervalos de tiempo de cada una de las letras. • Al principio de la tabla 3.2 en la sección 1, los 3 primeros muestreos de 200, 210 y 220 ms (marcados con un color verde oscuro) no se hicieron en un principio. Se agregaron después de hacer el primer intento de síntesis paramétrica ya que en un principio al 204 escuchar la palabra sintetizada “campana”, solo se escuchaba “ampana” y faltaba información de la consonante C; por lo que para solucionar el problema se realizó una extensión del los muestreos (antes la tabla empezaba en 230 ms). • En la sección 2 de la tabla 3.2, en los primero 3 muestreos de (1 a 3) que corresponden a la letra C y que van de los intervalos de tiempo de 00 a 220 ms, se pude observar que los últimos 3 armónicos (28-30), están marcados de color rozado. Esto se debe a que estos armónicos no corresponden al orden consecutivo de los primeros 30 como los demás. La letra C, es una consonante que tiene armónicos con una cantidad significativa de energía que está más allá de los 30 armónicos iniciales, razón por la cual se hizo el cambio en la tabla. Hay que tener en cuenta que no se podía incrementar el número de armónicos a más de 30 en la tabla 3.2, porque se siguió un mismo formato que se le aplicó a toda la tabla. El orden correspondiente de los armónicos del primer muestreo que tienen una frecuencia de: 1259, 1636 y 2045 Hz, es de los siguientes números: 37, 46 y 55; en vez de 28, 29 y 30 como el de los demás. Para el caso del segundo muestreo es el siguiente orden: 39, 53 y 64; y para el tercero: 34, 39 y 51. • La tabla 3.2 en la sección 2, se pueden observar que hay celdas en blanco en los muestreos del 4 al 19 en los valores de los últimos armónicos (del 26 al 30). Esto se debe a que eran armónicos con muy poca energía. A partir del muestreo de 20 en adelante no se dejaron celdas en blanco porque se tomaron en cuenta a todos. 3.2.1.3 Realización de la síntesis aditiva paramétrica. En esta sección se describe como se obtuvo el archivo “9_filtro pasa basabajas a 2100.wave”, después de realizar una síntesis aditiva. A partir de la información obtenida de la tabla 3.2, se sintetizó un sonido (9_filtro pasa basabajas a 2100.wave), al sumar en cada muestreo todos los armónicos con sus respectivas 205 amplitudes. Para lograr lo anterior se utilizó el tone generator y el wavepad, donde cada programa tuvo una función diferente en un proceso que tuvo dos etapas; la generación de los tonos con el tone generator y la de síntesis con el wavepad. El resultado fue un sonido muy parecido al original que en un principio sonaba como ampana y que luego al extender el muestreo de la tabla 3.2, se logro tener un mejor resultado al escuchar la palabra “campana”. Los destalles se describen en la sección de las aclaraciones del la tabla 3.2 La generación de los tonos con el tone generator: La tabla 3.2 tiene 68 muestreos diferentes cada 10 ms donde cada uno de ellos tiene hasta como máximo 30 armónicos diferentes (30 tonos), y si ya se sabe que solamente se pueden generar hasta 16 tonos con el tone generator; fue necesario generar por cada uno de los muestreos 2 grupos de tonos (el primero de 16 tonos y el segundo podía tener hasta 14 tonos como máximo) para igualar los 30 armónicos. En total se generaron 136 tonos. La relación del número de tonos sigue una matemática sencilla: sin son en total 68 muestreos diferentes y cada uno de ellos tiene 2 grupos para igualar los 30 armónicos, tenemos que 68 al multiplicarlo por 2 es igual a un total de 136 tonos. Los detalles de cómo generar los tonos y los archivos wave con el tone generator están descritos en el experimento anterior en la sección 3.1 de este Capítulo. Una diferencia significativa al procedimiento anterior es que, a la hora de generar cada uno de los tonos en la opción de Sine duration del tone generator se utilizaron 10 ms para cada uno de los tonos generados. Los 136 grupos de tonos fueron grabados en los dos formatos disponibles del programa y se encuentran en el disco de esta tesis. 206 Los archivos de tipo tono y wave están respectivamente en las siguientes carpetas del disco de esta tesis: Síntesis con ToneGenerator\campana\tonos generados, y en Síntesis con ToneGenerator\campana\sonidos generados\de los tonos. A la hora de abrir las dos carpetas anteriores; tonos generados y de los tonos, hay en ambas además de los archivos de tipo tono y wave una carpeta más que tiene en nombre de Extra de 200-220. Su existencia esta justificada y es la siguiente: Como ya se había descrito antes, en un principio se había hecho un conjunto de 65 muestreos que empezaban en 230 ms y no en 200 ms debido a que se había omitido en un principio información de la consonante C. Entonces los archivos de tipo tono y tipo wave que se encuentran en las carpetas tonos generados y de los tonos, corresponden al conjunto de muestreos inicial que originalmente se había hecho de 230 ms hasta los 870 ms. Para el caso de los archivos de tipo tono y wave que corresponden a los muestreos extras que se hicieron después y que van de 200 a 220 ms, su ubicación esta en esas carpetas con los nombres de Extra de 200-220 (caso de los tonos) y Extra de 200-220 (caso de los waves). Las dos carpetas tienen el mismo nombre, pero tienen un conjunto diferente de archivos y una ubicación diferente que se encuentran en el disco de tesis respectivamente en: Síntesis con ToneGenerator\campana\tonos generados\Extra de 200-220 (archivos de tipo tono), y Síntesis con ToneGenerator\campana\sonidos generados\de los tonos\Extra de 200-220 (archivos de tipo wave). Los archivos tienen un orden cronológico que se estructura de la siguiente manera: • Caso de los archivos de tipo tono. En la carpeta tonos generados hay un total de 130 archivos que corresponden a los muestreos de 230 a 870 ms, que suman un total de 65 muestreos. Ahora bien, si esos 65 se multiplican por los 2 grupos de tonos (son en conjunto los 30 armónicos) que se generaron en cada uno de los muestreos, se obtiene los 130 archivos. Para el caso de la carpeta Extra de 200-220, se tienen 6 archivos que corresponden a los muestreos que van de 200 a 230ms; entonces ya que se tiene un 207 total de 3 muestreos que se multiplican por los 2 grupos de tonos generados, dan como resultado los 6 archivos. • Los archivos de tipo wave. Es la misma explicación pero en ves de ser archivos de tipo tono, son archivos de tipo wave. • Entonces si se suman los 130 archivos que se hicieron en un principio, más los 6 que se hicieron después, se obtienen un total de 136 archivos de tipo tono y wave que en conjunto equivalen a la tabla 3.2. La siguiente figuras 3.21 y 3.22, muestran algunos de los archivos de tipo tono y wave, generados por el tone generator para el primer grupo de muestreos de 230 a 870ms: Figura 3.21 Algunos archivos tipo tono, generados por el tone generator 208 Figura 3.22 Algunos archivos tipo wave, generados por el tone generator Ambas figuras muestran que el conjunto de archivos tienen una nomenclatura de numeración que es la misma para ambos. El formato de la nomenclatura es el mismo que se utilizó en el experimento anterior y esta descrito en la figura 3.5. Síntesis con el wavepad: Después de que se generaron los 136 grupos de tonos con el tone generator al utilizar los datos de la tabla 3.2, en formato de tipo wave; se procedió a realizar la síntesis aditiva al utilizar el wavepad. Éste permitió que se puedan sumar los grupos de armónicos con el objetivo de crear el archivo de sonido sintetizado “9_filtro pasa basabajas a 2100.wave” que es casi igual al original “campana.wav”. Este procedimiento se divide en dos etapas, una de mezcla y otra de edición de audio. 209 Etapa de mezcla. Como ya se había descrito antes son en total 68 muestreos de 200 a 870 ms en la tabla 3.2. Para poder igualar los 30 armónicos (algunos muestreos tienen menos de 30) de cada uno de ellos, se generaron los 136 archivos de tipo wave en la etapa previa (la de generación de tonos). Pero los 30 armónicos que se generaron con el tone generator para cada muestreo están separados por 2 grupos, entonces la finalidad es obtener archivos que tengan en conjunto los 30 armónicos a la vez, para que cada archivo de audio ahora si pueda representar a cada uno de los muestreos con todos sus armónicos. Entonces, en esta etapa del proceso de síntesis consistió en la mezcla y combinación de los 136 grupos de tonos para cada uno de los 68 muestreos, mediante el uso de dos aplicaciones que tiene el wavepad: • La primera aplicación permite la mezcla (superposición) de 2 o más archivos de audio. • La segunda, permite pegar (combinación) dos o más archivos de audio pero sin el efecto anterior de mezcla Descripción de la aplicación mezcla (superposición): El procedimiento de cómo utilizar esta aplicación está descrito en el experimento anterior de la síntesis de la vocal. Las siguientes figuras 3.23 a 3.25, muestran la aplicación del efecto Paste Mix del programa wavepad, para obtener el archivo resultante de 29 armónicos que representa al muestreo de 270 ms que en la tabla 3.2 tiene el número 8. Las 3 figuras tienen un análisis espectral (con la aplicación FFT) en el mismo intervalo de tiempo, a 1 ms (indicados por las flechas negras). El efecto Paste Mix es evidente al observar como se va incrementando la cantidad de armónicos en el espectro de una figura a otra. De forma ideal a la hora de hacer el Paste Mix deberían de poder observarse 29 armónicos en el análisis espectral, ya que si se suman los 2 grupos del muestreo de 270 ms que tienen 210 respectivamente 16 y 13 dan como resultado 29 armónicos; pero en la figura 3.25 sólo se pueden observar 13 armónicos bien definidos. Esto se debe a que las amplitudes (en dB) de estos 2 grupos del muestreo numero 8 tienen muy poca energía, problema que es resuelto en la etapa de edición al usar amplificaciones. 4 1 2 3 5 Figura 3.23 El análisis espectral del archivo 9_16 a 270ms.wave a 1 ms. El tiempo esta marcado con la flecha negra (es el mismo caso para las 2 figuras siguientes). 1. En el espectro se ven los primeros 6 armónicos del primer grupo. 2. El archivo 9_16 a 270ms.wave es al que se le aplicó el análisis espectral, por lo que los 6 armónicos que se ven en el espectro corresponden a este muestreo. Este es el primer archivo del muestre número 8 de la tabla 3.2. 3. Este archivo 10_17 a 29 a 270ms.wave es el segundo archivo que tiene el otro grupo de armónicos del muestreo número 8 de la tabla 3.2. 4. Es el resultado del efecto Paste Mix al mezclar los 2 archivos anteriores. 5. Los oscilogramas tienen poca energía por eso casi no se ve (pero al aplicar la FFT se puede observar la información armónica). 211 * Figura 3.24 El análisis espectral del archivo 10_17 a 29 a 270ms.wave a 1 ms. * En el espectro se ven los 7 armónicos. * Figura 3.25 El análisis espectral del archivo 5_mezcla 1 a 29 a 270.wave. * Se ven los 13 (6+7) armónicos resultantes al combinar los 2 archivos: 9_16 a 270ms.wave y 10_17 a 29 a 270ms.wave, mediante el efecto Paste Mix del wavepad. La descripción detallada de cómo aplicar el Paste Mix se describió en las figuras 3.6 y 3.7. 212 Los archivos que son el resultado de la aplicación anterior, están disponibles en el disco de esta tesis en la siguiente carpeta: Síntesis con ToneGenerator\campana\sonidos generados\mezclas y combinaciones\mezclas. Esta carpeta tiene los resultados del efecto Paste Mix de los primeros muestreos que se hicieron de 230 a 870 ms y son un total de 65 archivos. Para el caso del segundo muestreo que se hizo de 200 a 220 ms, los archivo resultantes están en la siguiente carpeta de tesis: Síntesis con ToneGenerator\campana\sonidos generados\mezclas y combinaciones\mezclas\Extra de 200-220, esta tiene 3 archivos. Ambas carpetas suman en conjunto un total de 68 archivos (65+3), y la explicación del número de archivos sigue la siguiente matemática: si en la etapa de generación de tonos se generaron 136 archivos de sonidos que equivalen a los 68 muestreos de la tabla 3.2, hay que recordar que los 136 representan en conjunto a los 2 grupos que se generaron para sumar los 30 armónicos de la tabla; entonces si la aplicación Paste Mix se utilizo para volver esos 2 grupos de archivos (que suman 136 archivos de audio) en un solo grupo, al dividir 136 entre 2 es igual a 68. Entonces los 68 archivos resultantes representan ahora a los 68 muestreos de la tabla 3.2. La siguiente figura 3.26 muestra algunos de los archivos generados en esta etapa de mezcla (superposición): Figura 3.26 Estos son algunos de los 68 archivos generados con la aplicación de Paste Mix. La nomenclatura numérica es la misma del experimento anterior y se describió en la figura 3.9 213 Descripción de la aplicación pegar (combinación): El archivo original grabado de “campana.wav” tiene 1239 ms, los 68 archivos resultantes sintetizados (algunos están en la figura 3.26), son su equivalente aproximado de una forma fraccionada; por lo que se tienen que volver un solo archivo para que se parezca al original. Para ello se utiliza la aplicación pegar (combinación) del wavepad. Los detalles de cómo aplicar la herramienta de combinación ya se describieron en el experimento anterior en las figuras 3.10 a 3.13. Los resultados se muestran en las siguientes figuras 3.27 y 3.28: 1 2 3 Figura 3.27 Resultados de las combinaciones del primer grupo de muestreos de 230 a 870 ms. La forma de combinar los archivos puede variar, ya que esta aplicación permite combinar desde 2 archivos hasta n cantidad de ellos. Para evitar confusiones se fueron combinando por grupos de menor tamaño. Por ejemplo: Para el caso de la letra C si se observa la tabla 3.2, el conjunto de muestreos abarca parcialmente de 230 a 310 ms (faltan la parte de 200 a 230 ms, está en la siguiente figura 3.28). Primero se combinaron los muestreos de 230 a 270 ms (archivo 1) y luego del 280 a 310 ms (archivo 2), para luego combinarlos y obtener una combinación que va de 230 a 310, que representan casi por completo a la letra C de la tabla 3.2. Nomenclatura: 1. El Orden cronológico del archivo. El resultado es 22 y representa a todos los muestreos de primer grupo (de 230 a 870). 2. Al Conjunto de muestreos que representan de la tabla 3.2. 3. La equivalencia de la letra que le corresponde. La palabra campana tiene 3 vocales “a”, por lo que se les asignaron números del 1 al 3 para diferenciarlas. 214 El archivo resultante para el segundo grupo de muestreos de 200 a 220 ms es: Figura 3.28 Resultado de las combinaciones del segundo grupo de muestreos de 200 a 220 ms. Se siguió la misma nomenclatura de la figura anterior 3.27. Los archivos que son los resultados de la aplicación de combinación, están disponible en el disco de esta tesis en las siguientes carpetas: • Síntesis con ToneGenerator\campana\sonidos generados\mezclas y combinaciones\combinaciones. Para el conjunto de muestreos de 230 a 870 ms. • Síntesis con ToneGenerator\campana\sonidos generados\mezclas y combinaciones\combinaciones\Extra de 200-220. Para el conjunto de muestreos de 200 a 220 ms. Edición de audio. En esta etapa se corrigieron los errores que aparecieron en el proceso de la realización del análisis paramétrico, y síntesis aditiva paramétrica. Estos errores fueron corregidos mediante la aplicación de algunas de las herramientas de edición de audio del wavepad. La forma de como utilizar estas herramientas se describieron en el experimento anterior de síntesis en la figura 3.16. La técnica que se siguió para hacer esta edición, fue mediante la comparación del archivo original “campana.wav” con respecto a los resultados obtenidos en la etapa combinación. En la siguiente figura 3.29, se observan los archivos de audio editados y el resultado final obtenido en esta etapa del proceso: 215 Figura 3.29 Los archivos editados y el resultado final de la síntesis de la palabra “Campana” Cada archivo que se muestra en la figura 3.29, tuvo un procedimiento de edición que se describe a continuación. Los siguientes dos archivos: 22_230_870_CAMPANA.wave y 00_200 a 220_C.wave, son los resultados finales del proceso de combinación y estos 2 archivos fueron los que se utilizaron para empezar la edición. Descripciones de las ediciones: 1. 200 a 220_C_Amplificado_400%.wave. Es producto de la amplificación con una ganancia del 400% aplicada al archivo: 00_200 a 220_C.wave. Debido a la poca cantidad de energía que se observó en el espectro al aplicar la FFT. 2. comb_200 a 870_CAMPANA.wave. Se obtuvo al combinar el archivo anterior: 200 a 220_C_Amplificado_400%.wave, con el archivo: 22_230_870_CAMPANA.wave. La combinación anterior, se hizo para obtener un archivo que sea equivalente y represente en su totalidad a todos los muestreos de 200 a 870 ms de la tabla 3.2. 3. silencios.wave. Es el resultado de haber insertado dos silencios uno al principio y otro al final al archivo anterior, con intervalos diferentes de tiempo, de 200 ms al principio y de 358 ms al final. De esta manera ahora el archivo consta de 1238 ms de duración, que es casi lo mismo si se compara con el archivo original campana.wave que tiene 1239 ms. 4. amplificación_200%.wave. Producto de una amplificación general del archivo anterior a una ganancia del 200%. De esta manera ya se tiene un archivo que se parece más al original. 216 5. 0 a 380_amplificación_200%.wave. Se obtuvo al hacer una amplificación en la parte inicial del archivo anterior con una ganancia del 200%, y el intervalo de tiempo que se amplifico fue de 0 a 380 ms. De esta forma se le proporcionó más energía a la parte del archivo donde se encuentra la C. 6. 1fade out_0 a 285.wave. Es producto de la aplicación de un solo Fade Out al archivo anterior en el intervalo de tiempo de 0 a 285 ms. Más adelante en la figura 3.30 se explica el porque de la aplicación de este Fade out. 7. 1fade out_395 a 470.wave. Es resultado de una aplicación de un único Fade Out al archivo anterior en el intervalo de tiempo de 395 a 470 ms. Antes de que se aplicara este Fade out en ese intervalo de tiempo, se escuchaba “amgana” y no “campana”; y después de esta aplicación el sonido de la consonante G cambio a P. En la siguiente figura 3.30 se explica la razón del porque paso este fenómeno. 8. normalize a 40_200-283.wave. Se obtuvo al aplicar un Normalize al archivo anterior a un nivel del 40%, en el intervalo de tiempo de 200 a 283 ms. Se hizo para que la consonante C pueda sonar todavía mejor que en los casos anteriores. 9. filtro pasa basabajas a 2100.wave. Es el resultado final de la síntesis aditiva paramétrica, y se obtuvo después de aplicar un filtro pasa bajos (se encuentra en la herramienta de edición llamada Equalizer) a una frecuencia de corte de 2100 Hz a todo el archivo anterior. El motivo se explica más adelante en las figuras 3.31 a 3.32. Las siguientes figuras 3.30 a 3.32 muestran el motivo de algunas de las ediciones anteriores: 217 4 1 2 5 3 Figura 3.30 El análisis espectrográfico del archivo original “campana.wave”. En esta gráfica los puntos más blancos significan que tienen más energía y mientras más oscuros es lo contrario. Los detalles sobre el entendimiento de este tipo de gráfica se describieron en el Capítulo I en la sección 1.2.1. Interpretación de los puntos que se señalan: 1. En esta sección esta la consonante C. 2. La parte oscura significa la transición de la C a la primera A. 3. Donde empieza la letra P. 4. Esta parte oscura significa la transición de la P a la segunda A. 5. Es el fragmento con la mayor cantidad de energía y corresponde a la segunda A al formar parte de la silaba tónica; razón por la cual hay más energía. Cuando hay una transición de la C a la primera A hay como una pausa, y lo mismo ocurre en la P cuando se hace la transición a la segunda A. Estas partes oscuras que tienen casi nada de energía en la parte de la edición de la síntesis de campana, mediante la utilización del Fade Out que se aplicó en la parte de la C y de la P, es la forma en la que se copiaron estos patrones de la gráfica para que se pueda escuchar en el archivo resultante de la síntesis, las letras C y P. Otra interpretación que pueden tener estas partes oscuras en el espectrograma (señaladas por 2 y 4), es la poca energía que se obtuvo al capturar los valores en algunas secciones de los muestreos de la tabla 3.2. Los muestreos que corresponden a estas secciones van aproximadamente de 240 a 260 ms para la C y de 387 a 440 ms para la P. 218 * Figura 3.31 El análisis espectral del archivo de síntesis de “campana” antes de aplicar el filtro pasa bajos. La tabla 3.2 tiene como máximo 30 armónicos, pero en la parte de edición de audio al amplificar los archivos que fueron resultados de la síntesis de la palabra “campana”, se amplificaron armónicos que eran puro ruido (*); por lo que necesitaban ser removidos, ya que eran información falsa que no pertenecía a ninguno de los muestreos obtenidos en la table 3.2. ** * Figura 3.32 El análisis espectral y espectrográfico realizado al archivo resultante de la síntesis de “campana”. Este resultado se obtuvo al aplicar un filtro pasa bajos a una frecuencia de corte de 2100 Hz. * Todo el ruido era un conjunto de armónicos falsos que quedaron fuera del espectro. ** La frecuencia más alta que se puede registrar en el espectrograma es de 2153 Hz. 219 Los archivos resultantes de la etapa de edición de audio de la síntesis aditiva paramétrica de la palabra “campana”, están en el disco de esta tesis en la siguiente carpeta: Síntesis con ToneGenerator\campana\edición y resultados. 220 3.3 Otros experimentos 3.3.1 Muestreos paramétricos de otras palabras Al inicio de la descripción del experimento de síntesis de la palabra “campana”, se menciona que se había grabado un archivo de audio con el nombre de: “original de palabras de mauricio.wave”, el cual tiene 5 palabras grabadas de la misma persona emisora. Las palabras grabadas son: “campana”, “pelele”, “lilí”, “coloso” y “lulú”. Las palabras que se grabaron tienen las 5 vocales castellanas y algunas consonantes como la: “C”, “P” y la “S”, que son importantes para ser estudiadas (por ejemplo la “S”, que en el análisis espectral tiene mucho ruido). El archivo “original de palabras de mauricio.wave”, fue grabado con la siguiente configuración a: 44.1 kHz, 16 bits, monocanal; y luego se fraccionó en 5 archivos para facilitar el estudio de las palabras. Los siguientes archivos de audio están en la siguiente carpeta de tesis: Archivos de sonido. A estos archivo de audio se les hicieron diferentes análisis paramétricos, a tres diferentes muestreos; y se manejaron como máximo hasta 100 armónicos en cada uno de ellos. Los muestreos se hicieron con el fin de obtener diferentes análisis paramétricos de las vocales átonas y tónicas de las 5 palabras grabadas. El procedimiento de análisis paramétrico fue el mismo que se utilizó en los 2 experimentos anteriores. Los grupos de muestreos están divididos según su enfoque, ya sea en vocales tónicas o átonas. Por ejemplo; para el caso de la palabra “pelele”, tiene 2 vocales átonas y una tónica, entonces; a esta palabra se le hicieron 3 tablas, una para cada vocal correspondiente, ya sea la primera átona, la segunda átona o la vocal tónica. Los muestreos se agruparon en 2 archivos de Excel y se dividieron en tablas según la vocal que representen. Los dos archivos están en la siguiente carpeta de tesis: Tablas. Los archivos se llaman “Atonas de Mauricio” y “Tónicas de Mauricio”. El primer archivo se enfocó en el estudio de las 221 vocales átonas de las palabras y el segundo en las vocales tónicas; y cada uno de ellos tiene 5 hojas de cálculo. El conjunto de muestreos de las vocales tónicas si se completo, en cambio en el caso de las átonas no se realizaron los muestreos de “coloso” y “lulú.” Esta etapa se quedó en el proceso de análisis paramétrico ya que no se efectuó ningún tipo de síntesis a los muestreos obtenidos. Pero este experimento de muestreos de las vocales tónicas y átonas queda abierto para continuarse en un futuro en otros proyectos de investigación. Las siguientes figuras 3.33 a 3.35, describen algunas observaciones que se notaron al hacer este experimento: 222 1 1. 2. 3. 4. 5. 2 3 4 5 Figura 3.33 Las cinco palabras con su análisis espectrográfico. “campana”. Tiene un silencio de energía que corresponde a la P. “pelele”. Dos silencio uno de la P y otro de la L. “lilí”. El silencio de la L. “coloso”. El comportamiento extraño de la S. “lulú”. La palabra aparentemente más sencilla de analizar. 223 2 1 Figura 3.34 Las palabras “campana” y “pelele”. 1. La consonante P de “campana” en el oscilograma. 2. La consonante P de “pelele” en el oscilograma. En el oscilograma se señala un patrón claro que se puede usar en los archivos de audio para identificar la consonante P. 224 2 1 Figura 3.35 Las palabra “coloso”. 1. La consonante S de “coloso”, es señalada en el oscilograma. 2. La aplicación de FFT a un muestreo de 688 ms donde esta la consonante S, tiene armónicos muy caóticos que aparecen como ruido. Lo que se señaló en el oscilograma es un patrón claro que se puede usar en los archivos de audio para identificar la consonante S. 225 3.3.2 Los experimentos con SFS Las cuatro primeras palabras: “campana”, “pelele”, “lilí” y “coloso”; de las cinco que se grabaron, fueron analizadas de nuevo pero por otro software llamado “SFS”. Los detalles del programa se describieron en el Capítulo I en la sección 1.2.4. A estas palabras se les aplicó de nuevo un análisis paramétrico con el programa SFS, porque este programa permite generar las tablas de armónicos y de formantes de manera automática; a diferencia de cómo se obtuvieron en los experimentos previos de la vocal A y de la palabra campana. Esto se logró al aplicar la herramienta “cross-section” del programa SFS que igual ya se describió en el Capítulo I. Este método que se utilizó se llama “Estrategia de análisis de Formantes”, porque en vez de capturar los armónicos del espectro se tomaron a las formantes. Los cuatro muestreos de las palabras están en archivos de texto en el formato siguiente: dividido en columnas (las columnas permiten mostrar más datos en menos espacio) a diferentes muestreos de tiempo especificados en cada uno de los archivos, y se encuentran en la siguiente carpeta del disco de esta tesis: Otros experimentos. Pero este método tiene un defecto, a la hora de cerrar el programa y tratar de volver a los tiempos previamente capturados de los diferentes muestreos, no vuelven a ser los mismos pero si muy parecidos. Por ejemplo si se trabajo con el muestreo de 3500 ms y después cuando se cierra el programa y se vuelve a abrir de nuevo, el tiempo cambia a 3494 ms (o cualquier otro valor cercano), por lo que los cuadros generados de las tablas de armónicos y formantes tampoco se repiten. Este defecto impide que el experimento sea repetible de la misma manera, porque cada vez que se realice de nuevo cambiaran los muestreos y los datos a analizar (formantes y armónicos), del mismo archivo de audio. Algunas conclusiones de este experimento. 226 Después de haber aplicado la “Estrategia de análisis de Formantes” se observo, que la cantidad de los datos en los formantes aumentaba considerablemente en las consonantes y disminuía en gran medida en las vocales. Este experimento se quedó en la etapa de análisis paramétrico ya que no se efectuó ningún tipo de síntesis a los muestreos obtenidos, pero queda abierto para continuarse en un futuro en otros proyectos de investigación. 227 CAPÍTULO IV Planteamiento de otros experimentos Este proyecto de investigación de análisis paramétrico y síntesis aditiva paramétrica del timbre de voz, es un trabajo que podría llegar a tener un gran impacto científico; porque es posible que ayude a implementar a futuro mejoras en las prótesis auditivas actuales, o inclusive en otros campos de investigación que trabajen con la voz. Se pueden plantear otras tesis de investigación como por ejemplo: “a mayor resolución espectral de información que se maneje en un análisis paramétrico de una vocal o una palabra, mejor será el resultado obtenido en la síntesis aditiva paramétrica; y se deberá obtener una mejora en el reconocimiento del timbre de voz de la persona emisora”. En otras palabras esto quiere decir que: a mayor cantidad de muestreos y de armónicos que se manejen en las tablas de análisis paramétricos, mejor será el resultado de la síntesis paramétrica, y deberán de disminuir los pasos en el proceso de edición de audio. Para probar esta hipótesis habría que realizar por ejemplo los siguientes experimentos: Hacer las síntesis paramétricas, de los diferentes análisis paramétricos obtenidos en los experimentos con el programa SFS al aplicar la “Estrategia de análisis de Formantes”. El único inconveniente es que los datos obtenidos en esos muestreos, están en ganancias (dB) negativas, y el tone generator trabajo sólo con ganancias positivas. Por lo que habría que sacar una pequeña relación matemática para convertir esas ganancias positivas en negativas. También, se podría investigar lo que ocurre al trabajar con personas emisoras del sexo femenino, analizando lo que pasaría al hacer una síntesis paramétrica y ver si se mantiene su timbre de voz. 228 RESULTADOS Cada uno de los objetivos generales, específicos y la hipótesis de este trabajo de tesis se cumplieron. Los archivos sintetizados de audio de la vocal “A” y la palabra “campana”, con los nombres: “7_resultado final.wav” y “9_filtro pasa basabajas a 2100.wave”, son la prueba de que se realizó un trabajo de investigación exitoso. Uno de los detalles de esta investigación es que: No se logro plasmar por ahora algo que pueda mejorar la fabricación en un futuro de las prótesis auditivas para sordos profundos, por que faltan varios experimentos y pasos en la investigación para lograr esos resultados. Este experimento queda abierto a futuras investigaciones que trabajen en la búsqueda, de alguna herramienta que optimice el reconocimiento del timbre de voz; ya sea para implementar alguna mejora en las prótesis auditivas actuales o en otro campo de investigación que trabajen con la voz. 229 CONCLUSIONES Después de haber realizado una investigación minuciosa sobre las prótesis auditivas actuales, se confirmó que actualmente ninguna de ellas tiene un buen reconocimiento en el timbre de voz; ya que las técnicas actuales de procesamiento que utilizan sus procesadores son suficientes para el entendimiento de las palabras, pero no para captar de forma eficiente sus detalles (el timbre de voz). Es claro que, después de haber realizado los experimentos de síntesis, es necesario manejar una mayor cantidad de datos (armónicos y muestreos más próximos) para poder obtener una síntesis de mayor calidad; y para que el timbre de voz se pueda reconocer con mayor facilidad. 230 RECOMENDACIONES Aplicar herramientas de análisis estadísticos a todas las tablas obtenidas de los análisis paramétricos, para poder obtener mejores resultados a la hora de analizar y sacar conclusiones sobre las tablas obtenidas. Tal vez el MAT-LAB ayude en el análisis de estas tablas. Buscar cualquier herramienta o software que pueda mejorar el proceso de análisis paramétrico, por ejemplo: un software que maneje más de 16 tonos simultáneos y que pueda manejar de forma indistinta ganancias (dB) positivas o negativas. Esto es debido a que el tone generator solo permite utilizar como máximo 16 tonos y trabaja únicamente con ganancias negativas. Crear una herramienta que permita hacer una síntesis aditiva paramétrica de forma automática. 231 RESUMEN Se describieron los diferentes aspectos que justificaron la realización de este proyecto de investigación. Este trabajo de tesis relata la problemática actual que existe en las prótesis auditivas, describe los conceptos necesarios para entender lo que es el timbre de voz, y mediante diferentes experimentos; busca alguna herramienta que pueda implantar el reconocimiento del timbre de voz. I REFERENCIAS BIBLIOGRÁFICAS (1) Leopoldo de la Fuente Silva. El sonido. [En línea] Documento de monografías.com. Agosto 2007. <http://www.monografias.com/trabajos5/elso/elso.shtml> [consulta: 9 Junio 2010] (2) Nivel de intensidad del sonido [En línea] < http://web.educastur.princast.es/proyectos/jimena/pj_franciscga/intenson.htm> [consulta: 15 junio 2010] (3) CURSO DE TECNICO DE SONIDO Y PRODUCCION MUSICAL [En línea] Puesto En línea por el usuario Yusuf Laarbi en el foro Scribd. Publicado el 19 Agosto 2008. <http://www.scribd.com/doc/4884482/CURSO-DE-TECNICO-DE-SONIDO-YPRODUCCION-MUSICAL> [consulta: 31 mayo 2010] (4) Definición de sonido [En línea] Del foro Scribd .Publicado el 15 de Agosto de 2007 < http://www.scribd.com/doc/245590/Definicion-de-sonido > [consulta: 15 de Junio 2010] (5) Carlos Alberto Rivas Mosquera, Harol Alexis García Sánchez, Juan David Morillo Caicedo, Erika Tatiana trejos Moncada. SONIDO Y ACUSTICA [En línea] Proyecto de Física curso 11-1. Puesto En línea por el usuario Harol Alexis (uno de los autores del documento) en el foro Scribd. Publicado el 6 Mayo 2008. < http://www.scribd.com/doc/2896037/Proyectode-Fisica-SONIDO-Y-ACUSTICA> [consulta: 16 Junio 2010] (6) Sonido y Acústica [En línea] < http://www.sapiensman.com/docs/sonido_y_acustica.htm> [consulta: 16 Junio 2010] (7) Vibraciones. Movimiento Armónico Simple. [En línea] <http://iesalcalde.serveftp.org/fisicayquimica/departamentos/fisicayquimica/documentos/MAS .DOC> [Consulta: 16 Junio 2010] II (8) Profesor Daniel Maggiolo. Apuntes de acústica musical. [En línea] Abril 2003 < http://www.eumus.edu.uy/docentes/maggiolo/acuapu/pls.html> [consulta: 18 Junio 2010] (9) ACÚSTICA DE LA MÚSICA. [En línea]Es un pdf de la ESCUELA DE LUTHERIA. Conservatorio de Bilbao. Curso Acústica de la Música 1º. <http://www.conservatoriobilbao.com/ftp/unai_igartua/capitulos1a8.pdf> [consulta: 18 Junio 2010] (10) Francisco Javier García Castillo. PROCESAMIENTO DIGITAL DEL SONIDO E IMPLEMENTACIÓN DE ECUALIZADOR GRAFICO EN EL EZ-KIT SHARC ADSP21061. Tesis (el título de Licenciado en Ingeniería Eléctrica Electrónica). UNIVERSIDAD TECNOLOGICA DE PANAMA. Año 2000 p. 164, 170-177. [En línea] <http://www.ieesa.com/universidades/tesis01/capt4b.pdf> [consulta: 15 d Junio 2010] (11) Forma de Onda [En línea] Del sitio Eras: Electro Acustic Resource Site, en la sección de la disciplina de estudio “la Acústica” <http://www.ears.dmu.ac.uk/spip.php?page=rubriqueLang&lang=es&id_rubrique=103> [consulta: 22 Junio 2010] (12) Definición de formas de Onda [En línea] ElectriAuto 2010 < http://www.electriauto.com/electricidad/calculos-basicos/definicion-de-formas-de-onda/> [consulta: 23 Junio 2010] (13) Mario Raja. Las formas de onda del Oscilador. [En línea] La música es Bella, sitio Web donde todos los temas de la música tienen cabida. 4 Julio 2009. < http://musica-bella.blogspot.com/2009/07/las-formas-de-onda-del-oscilador.html> [consulta: 23 Junio 2010] (14) Lia Perez. Los armónicos [En línea] Del sitio en Internet de monografías.com < http://www.monografias.com/trabajos59/los-armonicos/los-armonicos.shtml > [consulta: 23 de Junio 2010] III (15) Las escalas musicales [En línea] del sitio Web Acústica Musical <http://www.lpi.tel.uva.es/~nacho/docencia/ing_ond_1/trabajos_05_06/io2/public_html/escala s.html> [consulta: 24 Junio 2010] (16) Publicado por María Quintanilla. Título de los artículos: “Ruido y Timbre”, “Transitorios de Ataque”, “Timbre estático y timbre dinámico” y “Timbre de un instrumento y de un sonido”. [En línea] Del sito Web Acústica Musical. Noviembre 2009 < http://cpmsacusticamusical.blogspot.com/2009_11_01_archive.html > [consulta: 25 Junio 2010] (17) M. ROSIQUE, J. L. RAMÓN, M. CANTERAS, L. ROSIQUE. ANÁLISIS DISCRIMINANTE APLICADO A LOS FORMANTES DE LAS VOCALES CASTELLANAS EN LA FONACIÓN CON PRÓTESIS Y ERIGMOFONÍA TRAS LARINGUECTOMÍA TOTAL.[En línea] SERVICIO DE OTORRINOLARINGOLOGÍA. HOSPITAL UNIVERSITARIO VIRGEN ARRIXACA. MURCIA. 25 FEBRERO 2003 <http://acta.otorrinolaringol.esp.medynet.com/textocompleto/actaotorrino23/361.pdf> [consulta: 25 Junio 2010] (18) Sabrina Castro López. El genero de las voces [En línea] <http://www.df.uba.ar/users/gsolovey/fisica2/tp_especiales/El%20g%C3%A9nero%20de%20l as%20voces.pdf> [consulta: 25 Junio 2010] (19) Tartamudez. Pro. [En línea] Formante 15 Mayo 2009 < http://www.tartamudez.pro/2009/05/formante.html> [consulta: 29 Junio 2010] (20) Mauricio García y Gabriel Pazmiño.LA TRANSFORMADA DE FOURIER Y SU APLICACIÓN EN EL PROCESAMIENTO DE IMÁGENES [En línea] Universidad Tecnológica Equinoccial de Quito. Diciembre 2008. <http://tramites.ute.edu.ec/adjuntosSICYT/2009/01/26/1513/LA%20TRANSFORMADA%20 DE%20FOURIER%20%20informe.docx> [consulta: 8 Julio 2010] IV (21) ACÚSTICA DE LA MÚSICA. [En línea] Es un PDF de la ESCUELA DE LUTHERIA. Conservatorio de Bilbao. El tema es “Acústica de la Música 1º” <http://www.conservatoriobilbao.com/ftp/unai_igartua/capitulos1a8.pdf> [consulta: 18 Junio 2010] (22) Juan Pablo Cáceres. Transformada de Fourier [En línea] Stanford University. Agosto 2007 <https://ccrma.stanford.edu/workshops/cm2007/topics/clases/PDFs/05fourier_handout.pdf > [consulta: 8 Julio 2010] (23) Teorema de Fourier [En línea] De la página Web Música y sistemas acústicos < http://www.gradomultimedia.com/29-musica/1-teorema-de-fourier.html > [Consulta: 8 Julio 2010] (24) El sonido y las Ondas [En línea] <http://www.sociedadelainformacion.com/departfqtobarra/ondas/SONIDO/SONIDO.HTM> [Consulta: 8 Julio 2010] (25) Pedro Luís Castro García. Desarrollo de un modulo digital para el análisis espectral de señales de audio. [En línea] Universidad Politécnica de Catalunya. 5 de septiembre de 2005 < http://upcommons.upc.edu/pfc/bitstream/2099.1/3538/2/40392-2.pdf > [Consulta: 9 Julio 2010] (26) TRANSFORMADA RÁPIDA DE FOURIER (FFT) [En línea] del PDF transformada de Fourier (3). <http://www.diac.upm.es/acceso_profesores/asignaturas/tdi/tdi/transformadas/pdf/fourier3.pdf > [Consulta: 9 Julio 2010] (27) E. Barrull. ANÁLISIS DEL COMPORTAMIENTO VERBAL ARTICULATORIO EN CONVERSACIONES GRUPALES ESPONTÁNEAS. Tesis doctoral desarrollada en el Departamento de Psicología Social de la Facultad de Psicología. Universidad de Barcelona. V 1992 [En línea] < http://www.biopsychology.org/tesis_esteve/confund/confund.htm> [consulta: 8 Julio 2010] (28) Juana Gil Fernández, (1988) Los sonidos del lenguaje. Madrid: Síntesis (Textos de apoyo, Lingüística 3), 1993. p. 148 (29) Roberto E. Espectro del Sonido [En línea] En la sección de Acústica. <http://www.angelfire.com/empire/seigfrid/Espectro.html> [consulta: 14 Julio 2010] (30) Joaquim Llisterri (Lingüista Español). Métodos de análisis acústico del habla [En línea] Universidad Autónoma de Barcelona. 28 Febrero 2010. <http://liceu.uab.es/~joaquim/phonetics/fon_anal_acus/met_anal_acust.html##FFT> [consulta: 14 Julio 2010] (31) Física del sonido [En línea] En la sección de Timbre y frecuencia armónica. <http://tecnicaaudiovisual.kinoki.org/sonido/fisica.htm> [Consulta: 15 Julio2010] (32) WavePad editor de sonido [En línea] Pagina Web de la compañía NCH. < http://www.nch.com.au/wavepad/esp/ > [consulta: 15 Julio 2010] (33) Página oficial de Internet del Software Praat. [En línea] < http://www.fon.hum.uva.nl/praat/ > [consulta: 16 Julio 2010] (34) Historia del SFS. [En línea] Página oficial de Internet del Software SFS. < http://www.phon.ucl.ac.uk/resource/sfs/help/index.html> [Consulta: 21 Julio 2010] (35) Anatomía y Fisiología del Oído. DRA. MARCELA PAZ ARREDONDO AMIGO, DR. RODRIGO IÑIGUEZ SASSO, DR. JORGE CARO LETELIER. [En línea] PONTIFICIA UNIVERSIDAD CATÓLICA DE CHILE ESCUELA DE MEDICINA, del departamento de OTORRINOLARINGOLOGÍA.<http://escuela.med.puc.cl/paginas/publicaciones/otorrino/Cla ses2006/FisiologiaOidoMPAA.doc> [consulta: 22 Julio 2010] VI (36) Federico Miyara. INTRODUCCIÓN A LA PSICOACÚSTICA [En línea] <http://www.eie.fceia.unr.edu.ar/~acustica/audio/psicoacu.pdf> [consulta: 18 Junio 2010] (37) Oído. Anatomía y fisiología auditiva. Oreja. Conducto auditivo interno. Onda sonora. Transducción. Audiología. Patologías [En línea] Del Rincón del Vago España. < http://html.rincondelvago.com/oido.html > [consulta: 27 Mayo2010] (38) Sentido de la Audición. [En línea] Documento en PowerPoint. <http://www.slideshare.net/anama.krpio/oido-presentation> [consulta: 11 mayo 2010] (39) Oído. [En línea] Documento en PowerPoint <http://www.slideshare.net/odontofco/oido2524559> [consulta: 11 Mayo 2010] (40) Oído Interno [En línea] Documento en PowerPoint < http://www.slideshare.net/jcguaicha/oido-interno-2908475#> [consulta: 11 de mayo 2010] (41) El Oído. Liceth Rivera. Universidad Abierta Interamericana en la carrera de medicina. Cátedra de taller Informática I. [En línea] Documento en PowerPoint <http://www.slideshare.net/liceth_16/el-oido-466559> [consulta: 11 Mayo 2010] (42) Fisiología de la audición: la cóclea. Enrique Soto, Rosario Vega, Hortencia Chavez y Aída Ortega [En línea] Instituto de fisiología de la Universidad Autónoma de Puebla. < http://www.fisio.buap.mx/online/-COCLEA%202003%20Formateado%20b.htm#XI11 > [consulta: 27 Julio 2010] (43) FISIOLOGIA DEL OÍDO INTERNO: MECANICA COCLEAR. Dr. Jesús García Ruiz [En línea] De la Página Web de Otorrinoweb. 9 Mayo 2010. <http://www.otorrinoweb.com/oido/1778.html> [Consulta: 27 Julio 2010] (44) Pérdida de la capacidad auditiva. [En línea] Pagina Web de Botanical (medicamentos para tratamiento de la pérdida de la audición). < http://www.botanicalonline.com/medicinalsperdidadeaudicion.htm > [Consulta: 30 Julio 2010] VII (45) Causas de la pérdida auditiva. [En línea] Asociación Eunate, de familiares y amigos de personas con deficiencias auditivas de Navarra, España. < http://www.eunate.org/causas.htm > [Consulta: 30 Julio 2010] (46) Hipoacusia. Jesús López-Torres Hidalgo, Ángeles López Verdejo, Clotilde Boix Gras y José del Campo del Campo. [En línea] En la sección de guías clínicas. 28 Agosto 2003. < http://www.fisterra.com/guias2/hipoacusia.asp > [Consulta: 30 Julio 2010] (47) Pérdida Auditiva. [En línea] Página Web de la compañía de implantes cocleares Med-El, en la sección, acerca de la audición. < http://www.medel.at/spanish/01_About_Hearing/03_Hearing_Loss.php?navid=2#cond> [Consulta: 30 Julio 2010] (48) Los implantes de Cóclea. [En línea] De la página de Internet KidsHealth®.Septiembre de 2008 <hespanol/general/cochlear_esp.html#> [consulta: 30 Julio 2010] (49) Consulta y exploraciones. [En línea] Centro de audición y equilibrio de Monterrey < http://www.otologo.com.mx/consulta.html#> [Consulta: 30 Julio 2010] (50) Ahuactzin Larios. Diccionario español/inglés para el aprendizaje de vocabulario utilizando una interfaz de voz. [En línea] Tesis a nivel de Licenciatura en Ing. en sistemas computacionales. Universidad de las Américas, Puebla. Diciembre 1999. p.9 del capítulo1 y p.1 del capitulo2. < http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/ahuactzin_l_a/capitulo1.pdf> [Consulta: 17 agosto 2010] (51) Paul Klaivadar. Sintetizar sonido [En línea] De la página Web Macworld. 1 Mayo de 1998. <http://www.idg.es/macworld/content.asp?idart=51773>[Consulta: 17 Agosto 2010] VIII (52) Tipos de síntesis. [En línea] 19 Septiembre 2007. < http://musicalwars.blogspot.com/2007/09/tipos-de-sntesis.html > [Consulta: 17 Agosto 2010] (53) Emilia Gómez Gutiérrez. Síntesis aditiva. [En línea] Departamento de sonología de la escuela superior de música de Catalunya, España, en el curso 2009-2010. 30 Septiembre 2009. <http://www.dtic.upf.edu/~egomez/teaching/sintesi/SPS1/Tema5-Aditiva.pdf> [Consulta: 18 Agosto 2010] (54) Sergi Jordá. Tecnología de audio y de la música. [En línea] Noviembre 2003. <http://www.tecn.upf.es/~sjorda/ME2003/6-SintesisDigital/ME-6SintesisDigital.pdf> [Consulta: 18 Agosto 2010] (55) Prof. Dr. Jorge A. Schwartzman. HISTORIA DEL IMPLANTE COCLEAR [En línea] Revista Integración núm. 22. Abril 2002. <http://www.implantecoclear.org/documentos/implante/historia.pdf> [consulta: 10 marzo 2010] (56) Blake S. Wilson, Michael F. Dorman. Cochlear implants: A remarkable past and a brilliant future. [En línea] de la revista Hearing Research 242 (2008) 3–21. El 22 Junio de 2008. <http://web.mit.edu/s_chin/MacData/afs.course/other/hst.723/OldFiles/www/ThemePapers/Im plants/WilsonDormanReview2008.pdf> [consulta: 28 abril 2010] (57) Implantes Cocleares [En línea] “Comisión de expertos Real Patronato de Prevención y Atención a Personas con Minusvalía” Abril de 2005. <http://www.biap.org/biapespagnol/Implantes%20cocleares.pdf> [consulta: 10 marzo 2010] (58) Cochlear™ [En línea] <http://nucleus5.cochlear.com/es/hearing-nucleus-5> [consulta: 18 febrero 2010] IX (59) Cochlear Introduces the New Nucleus 5 System [En línea] Septiembre 2009 <http://www.hearinglossweb.com/res/ci/coch/n5.htm> [consulta: 24 febrero 2010] (60) FDA approves Cochlear's Nucleus 5 System [En línea] “The medical news”9 Septiembre 2009 <http://www.news-medical.net/news/20090909/FDA-approves-Cochlears-Nucleus-5System.aspx> [consulta: 24 febrero 2010] (61) Fernando Rodríguez Huertas. Jefe de servicio anestesia Hospital del sas de Jerez [En línea] De la revista “actualizaciones en dolor” <http://www.telefonica.net/web2/anestjerez/trabajos/cma.htm > [consulta: 23 febrero 2010] (62) Esta información se obtuvo al hacer una llamada telefónica el 2 de marzo 2010 al número telefónico: 001-800-672-6126, centre de servicio de Cochlear™ en México, (63) MED-EL [En línea] <http://www.medel.com/spanish/index.php?navid=1> [consulta: 10 marzo 2010] (64) Advanced Bionics [En línea] <http://www.advancedbionics.com> [consulta: 6 abril 2010] (65) Advanced Bionics Europa [En línea] < http://www.bionicear-europe.com/es/choosinggetting/opciones.html> [consulta: 13 abril 2010] (66) Mike Marzalek, Overview of Hearing Loss, Hearing Aids, & Cochlear Implants [En línea] de la pagina de Internet “Welcome to the Cochlear Implant (CI) Theory Site” 14 Noviembre 2007 < http://www.citheory.com/images/Overview.htm> [consulta: 7 de Mayo 2010] Bibliografía de las estrategias de procesamiento: X (67) Kalyan S. Kasturi. SIGNAL PROCESSING STRATEGIES FOR BETTER MELODY RECOGNITION AND IMPROVED SPEECH UNDERSTANDING IN NOISEFOR COCHLEAR IMPLANTS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2006. pp. 17-26. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010] (68) Elena Fernández Pascual. Distribución y maduración de las estructuras nerviosas del oído interno en pacientes con malformación coclear. Tesis (Doctoral). Universidad de Granada, España. Septiembre 2009 pp. 69-70 del pdf. [En línea] <http://hera.ugr.es/tesisugr/18323613.pdf> [consulta: 27 Mayo 2010] (69) MED-EL [En línea] <http://www.medel.com/spanish/15_Getting_a_Cochlear_Implant/03_Cochlear_Implant_Surg ery.php> [consulta: 10 marzo 2010] (70) Presentación en Power Point [En línea] <www.sld.cu/galerias/ppt/sitios/otorrino/implante_coclear.ppt > [consulta: 10 marzo 2010] (71) Los implantes de Cóclea [En línea] De la página de Internet KidsHealth®.Septiembre de 2008 <http://kidshealth.org/parent/en_espanol/general/cochlear_esp.html#> [consulta: 30 Julio 2010] (72) Med-El USA. FineHearing [En línea]<http://www.medel.com/US/img/download/20869_FineHearing.pdf> [consulta: 25 marzo 2010] (73) IMPLANTES COCLEARES [En línea] Comisión de expertos Real Patronato de Prevención y Atención a Personas con Minusvalía. Abril 2005 <http://www.biap.org/biapespagnol/Implantes%20cocleares.pdf> [consulta: 25 Mayo 2010] (74) David Browarsky, Marcelo Martín. Implantes Cocleares: historia y estrategias, Monografía vinculada a la conferencia del Dr. Hamlet Suárez [En línea] XIV Seminario de Ingeniería Biomédica. 2005 <http://www.nib.fmed.edu.uy/Seminario2005/monografias2005/David.pdf> [consulta: 28 Mayo 2010] XI (75) Kalyan S. Kasturi. SIGNAL PROCESSING STRATEGIES FOR BETTER MELODY RECOGNITION AND IMPROVED SPEECH UNDERSTANDING IN NOISE FOR COCHLEAR IMPLANTS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2006. p.14. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010] (76) Elena Fernández Pascual. Distribución y maduración de las estructuras nerviosas del oído interno en pacientes con malformación coclear. Tesis (Doctoral). Universidad de Granada, España. Septiembre 2009 pp. 67-78 del pdf. [En línea] <http://hera.ugr.es/tesisugr/18323613.pdf> [consulta: 27 Mayo 2010] (77) Una misma cepa de Staphylococcus aureus puede generar dos tipos de biofilm [En línea] Revista en Internet “Infecciones”. Junio 2009 <http://www.infeccions.com/noticies/?cat=1&paged=5> [consulta: 27 Mayo 2010] (78) Ning Li. CONTRIBUTION OF ACOUSTIC LANDMARKS TO SPEECH RECOGNITION IN NOISE BY COCHLEAR IMPLANT USERS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2009. p. 8. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010] (79) MED-EL [En línea] <http://www.medel.com/spanish/30_Products/TEMPO/04_HD_Signal_Processing.php?navid =16> [consulta: 11 marzo 2010] (80) MED-EL [En línea] <http://www.medel.com/spanish/40_Professionals/Complete_Cochlear_Coverage/Prospective _Benefits.php> [consulta: 11 marzo 2010] XII (81) Traducción Carmen Coleto, Federación AICE: El pionero del Implante Coclear trabajando en una versión HI-FI [En línea] The West Australian. Miércoles, 17 de diciembre de 2008 <http://integracion.implantecoclear.org/index.php?option=com_content&view=article&id=93: el-pionero-del-implante-coclear-trabajando-en-un-version-hi-fi&catid=1:latestnews&Itemid=18 > [Consulta: 18 febrero 2010] (82) Nuevo Cochlear Nucleus 5 [En línea] Revista AVANCE coclear número 22. Año 2009 p.7. <http://docs.google.com/viewer?a=v&q=cache:oLT2zzWOctUJ:www.gaes.it/doc/avance22.pd f+cuanto+cuesta+el+implante+de+Cochlear+nucleus+5&hl=es&gl=mx&pid=bl&srcid=ADG EEShhvFCHmuX2rXsDC9VTheJrnbi9KdGdQxR53olXy_69Rkzby_6IP2PbSv_zH5M18PzBd1xGZ5rcqaMyVjwnBoXvYWGoDe_ylW5W_WoizVGp oFr-OTqJtOU7ac2eB7V3upZHVJu&sig=AHIEtbS4JrZ3QhIN3-nl0v9xzoLWH8vpDQ > [Consulta: 3 marzo 2010] (83) Hospitalario Materno Infantil colocan por primera vez en Europa el implante coclear más pequeño del mundo [En línea] Detalle de noticias / TECNOLOGÍA. 13-11-2009 <http://www.maspalomasactualidad.com/noticia.php?id=453 > [Consulta: 3 marzo 2010] (84) “Un cirujano español coloca por primera vez en Europa el implante coclear más pequeño del mundo en un niño” [En línea] Noticias de salud. Lunes 2 de noviembre de 2009 < http://noticiadesalud.blogspot.com/2009/11/un-cirujano-espanol-coloca-por-primera.html> [consulta: 24 febrero 2010] (85) Advanced Bionics Europa [En línea] < http://www.bionicear-europe.com/es/visualisinghires-120/visualizacion-del-Hires-120.html> [consulta: 5 Mayo2010] (86) Advanced Bionics [En línea] < http://www.advancedbionics.com/CMS/Your-Journey-toHearing/Harmony-vs-Nucleus.aspx > [consulta: 18 Mayo 2010] XIII (87) [En línea] Foro en ingles de personas con un Implante coclear. 31 Diciembre 2009 <http://www.alldeaf.com/hearing-aids-cochlear-implants/70695-wow-abs-harmony-vscochlears-nucleus-5-a.html> [consulta: 18 Mayo 2010] (88) MED-EL [En línea] <http://www.medel.com/spanish/30_Products/01_MAESTRO/Cochlear_Implants/FineHearin g/042_Intelligent_Parallel_Stimulation.php> [consulta: 25 marzo 2010] (89) Ginger S. Stickney, Philipos C. Loizou, Lakshmi N. Mishra, Peter F. Assmann, Robert V. Shannon, Jane M. Opie. Effects of electrode design and configuration on channel interactions [En línea] De la Revista Hearing Research 211 (2006) 33–45. 9 Diciembre 2005 <http://www.utd.edu/~loizou/cimplants/hearin_research_jan2006.pdf> [consulta: 19 mayo 2010] (90) MED-EL [En línea] <http://www.medel.com.ar/Shared/pdf/en/MEDEL_PULSAR%28ESP%29.pdf> [consulta: 24 Mayo 2010] (91) Kalyan S. Kasturi. SIGNAL PROCESSING STRATEGIES FOR BETTER MELODY RECOGNITION AND IMPROVED SPEECH UNDERSTANDING IN NOISE FOR COCHLEAR IMPLANTS. Tesis (DOCTOR OF PHILOSOPHY IN ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2006. p.1, p.126. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010] (92). ArunVijay Mani. DICHOTIC SPEECH RECOGNITION: ACOUSTIC AND ELECTRIC HEARING. Tesis (MASTER OF SCIENCE IN ELECTRICAL ENGINEERING MAJOR IN TELECOMMUNICATIONS). Universidad de Dallas Texas, EUA. Mayo 2004. p.1. [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010] XIV (93) Lakshmi Narayan Mishra. ANALYSIS OF SPEECH PROCESSING STRATEGIES FOR THE CLARION IMPLANT PROCESSOR. Tesis (MASTER OF SCIENCE IN ELECTRICAL ENGINEERING). Universidad de Dallas Texas, EUA. Diciembre 2000. pp.14-15 [En línea] <http://www.utdallas.edu/~loizou/theses.htm > [consulta: 19 mayo 2010] (94) Philipos C. Loizou. MIMICKING THE HUMAN EAR [En línea] Artículo Tutorial sobre los implantes cocleares que apareció en la revista IEEE Signal Processing. pp. 101-130. Septiembre 1998. <http://www.utdallas.edu/~loizou/cimplants/tutorial/introci.pdf> [consulta: 1 Junio 2010] (95) Blake S. Wilson, Michael F. Dorman. Cochlear implants: A remarkable past and a brilliant future. [En línea] de la revista Hearing Research 242 (2008) 3–21. El 22 Junio de 2008. <http://web.mit.edu/s_chin/MacData/afs.course/other/hst.723/OldFiles/www/ThemePapers/Im plants/WilsonDormanReview2008.pdf> [consulta: 28 abril 2010] (96) Dr. Antoni Figuerola Roig. Potenciales Evocados [En línea] Unidad de Neurología Hospital Son Llàtzer. Palma de Mallorca. 19 de abril de 2005. <http://www.saludalia.com/Saludalia/servlets/contenido/jsp/parserurl.jsp?url=web_saludalia/p ruebas_diagnosticas/doc/doc_potenciales.xml> [consulta: 2 de Junio 2010] XV ANEXOS Anexo 1 Bió-ni-ca (1) Etimología: de bios (“vida”) y ónica, como en electrónica; el estudio de sistemas mecánicos que funcionan como organismos vivos o como partes de ellos. En la revista de National Geographic se encontró el artículo por Josh Fischman, el cual habla sobre casos particulares de personas que utilizan prótesis biónicas: El caso de Amanda Kitts Al entrar al salón en el centro de aprendizaje Kiddie Kottage, cerca de Knoxville, Tennessee, Amanda Kitts se ve de pronto rodeada por niños de cuatro y cinco años. “Hola niños, ¿cómo están hoy mis bebés?”. Esbelta y energética, Amanda ha dirigido esta y otras dos guarderías durante casi 20 años. Pone las manos sobre las rodillas y se inclina para hablar con una niña pequeña. “¡El brazo robot!”, gritan varios niños. “¿Ah, lo recuerdan?”, dice Kitts, extendiendo su brazo izquierdo. Pone la palma de su mano hacia arriba. Hay un leve zumbido. Si uno no prestara mucha atención, no lo oiría. Dobla su codo y lo acompañan más zumbidos. “¡Haz que haga algo chistoso!”, dice una niña. “¿Chistoso? ¿Recuerdas cómo puedo estrechar tu mano?”, pregunta Amanda Kitts, extendiendo su brazo y rotando la muñeca. Un niño acerca la mano para tocarle los dedos. Lo que roza son unos dedos de plástico color piel, doblados ligeramente hacia adentro. Debajo hay tres motores, un armazón de metal y una sofisticada red electrónica. Hasta arriba de este montaje hay un recipiente blanco de plástico, a la mitad del bíceps de Kitts, rodeando el muñón, casi todo lo que queda del brazo que perdió en un accidente automovilístico en 2006. Casi, pero no todo porque, en su cerebro, de manera inconsciente, vive una imagen intacta de ese brazo, un fantasma. Cuando Kitts piensa que flexiona el codo, el fantasma se mueve. Los impulsos que van de su cerebro hacia abajo a gran velocidad son recogidos por sensores de XVI electrodos localizados en el recipiente blanco, donde se convierten en señales que mueven los motores y el codo artificial se dobla. Kitts es una prueba viviente de que aún cuando la carne y el hueso hayan sido dañados o destruidos, los nervios y las partes del cerebro que los controlaban siguen vivos. Usando electrodos microscópicos y magia quirúrgica, los doctores han empezado a conectar estas partes a dispositivos como cámaras, micrófonos y motores. Las máquinas que usan se llaman prótesis neurales o biónicas, término popularizado por la ciencia ficción al que los científicos se han acostumbrado. Otros casos Eric Schremp, quien quedó tetrapléjico cuando se destrozó el cuello al tirarse un clavado en una alberca en 1992, ahora tiene un dispositivo electrónico debajo de la piel que le permite mover los dedos para tomar un tenedor. Tammy Kenny puede hablarle a su hijo de 18 meses, Aiden, y él puede contestarle, porque el niño, quien nació sordo, tiene 22 electrodos dentro de su oído que transforman los sonidos recogidos por un micrófono en señales que su nervio auditivo puede entender. Ahora el bebé sí logra escuchar el golpe de las cacerolas. En febrero de 2009, cirujanos del Hospital Johns Hopkins le implantaron sinuosas líneas con 22 electrodos en cada cóclea, parte del oído interno que suele detectar las vibraciones sonoras. En Aiden, un micrófono recoge sonidos y manda señales a los electrodos, que las transmiten directamente a los nervios. “El día que pusieron a funcionar el implante, un mes después de la cirugía, notamos que respondió al sonido –dice Tammy Kenny–. Volteó con el sonido de mi voz. Fue asombroso”. Hoy dice; con la ayuda de terapia intensiva, empieza a comprender el lenguaje y va alcanzando rápidamente a otros bebés que sí pueden oír. XVII Figura A1.1 Tenemos Aiden Kenny, que tiene dos implantes cocleares cuando tenía diez meses de edad. Los implantes, visibles en una radiografía, transportan las señales electrónicas a sus nervios auditivos (2). Bibliografía Anexo 1 (1) Escrito por Staff. “Biónica” [En línea] La revista National Geographic en Español. El 05 de Enero de 2010 <http://ngenespanol.com/2010/01/05/bionica-articulos/> [consulta: 3 febrero 2010] (2) Bi-on-ics [En línea] The magazine national geographic channel photo gallery. Enero 2010. <http://ngm.nationalgeographic.com/2010/01/bionics/thiessen-photography> [consulta: 3 febrero 2010] XVIII Anexo 2 Elegir una marca Escoja una marca que sea la mejor para usted Este siguiente artículo se tomo de un blog en Internet que fue creado por Tina con el titulo Choosing a brand, el cual compara minuciosamente a los tres fabricantes más importantes en implantes coleares. (1) ¿Qué es un implante coclear? Imagina que te has comprado una computadora nueva. El hardware es la parte implantada del implante coclear (De AB el HiRes 90k, de Med-El el Pulsar y Sonata y de Cochlear el Freedom), el procesador de la computadora es el procesador de lenguaje externo (AB el Harmony, Med-El el Opus y Cochlear el Nucleus 5), y el software es el programa que se ajusta a través de una serie de asignaciones con el audiólogo (HiRes Fidelity 120 de AB, FineHearing de Med-El y el SmartSound de Cochlear). ¿Cuál es el mejor? Cada marca tiene aspectos positivos y negativos, en la electrónica del implante, el conjunto de electrodos en sí, el hardware del procesador de lenguaje y el software DSP (procesamiento digital de señales). La parte electrónica del implante es lo que usted posee, y cualquier capacidad para el hardware del procesador y mejoras del software en el exterior para una mejor estimulación, dependen de lo que los circuitos internos pueden decodificar con precisión rápidamente. Básicamente, se reduce a esto: el procesador externo es algo que sustituye de 3-5 años cada vez, y se necesita vivir con él hasta que la siguiente actualización salga al mercado. La electrónica implantada es algo con lo que vas a vivir los próximos 20 años (o más). Por un buen margen, AB y Med-El tienen la mejor electrónica en los implantes con fuentes de corriente independientes para cada contacto de estimulación del electrodo. AB puede generar 90k pulsos por segundo en sus 16 contactos de estimulación del electrodo simultáneamente con ambas cargas + y -; Med-El puede generar 56k pulsos por segundo (pero con una carga a la vez ya sea – o +) en sus 12 contactos; mientras que Cochlear con 22 contactos sólo puede generar 30k pulso por segundo, y sólo un pulso a la vez. Esto significa que AB tiene 120 electrodos virtuales, Med-El tiene alrededor de 90 y Cochlear sólo tiene la capacidad de 43 virtuales. XIX Ahora bien, si se desea la preservación de la audición residual tomando en cuenta la guía de electrodos física, Med-El está en la cima, Cochlear es también bastante bueno, pero AB esta en último lugar. Dicho esto: • La preservación de la audición residual depende en gran medida de la habilidad del cirujano, con una media global de alrededor del 65-70%. El mejor cirujano de implantes cocleares en el mundo es Rick Case de la Universidad Washington en St Louis (WUSTL) quien tiene una tasa de éxito del 98%, y John Niparko de la Universidad Johns Hopkins en Baltimore (JHU) con el mismo éxito. • Esta preservación de la audición residual también está sujeta a una tercera variable además del fabricante y el cirujano; por lo que depende también de la colocación del electrodo en la cóclea ya sea de forma “perimodiolar” o “flotante”. La colocación perimodiolar (envuelto en una espiral alrededor de la cóclea) de los electrodos provoca que se quede más cerca de los nervios auditivos. Esto ocasiona una mejor estimulación y mayor concentración con un menor consumo de corriente, permitiendo también una colocación más profunda en la cóclea, pero de igual manera implica un mayor riesgo para la pérdida de la audición residual. Continuando con la comparación: La composición del procesador externo es importante, ya que implica: la capacidad del número de chips necesarios para el procesamiento del habla, la reducción del ruido digital y el encapsulado físico del mismo: • Sobre la capacidad del procesador, las tres son adecuados para los estímulos de sus respectivos implantes en la actualidad. Dicho esto, el sistema electrónico del implante para Cochlear ya esta al máximo de su capacidad, mientras que las estimaciones del Ing. Dan Schwartz dicen que Med-El tiene aun de 5-7 años y AB al menos una década. XX • El encapsulado físico del nuevo Nucleus 5 es bastante bueno, con tecnología de impermeabilización tomada de RION (compañía de audífonos) del modelo de la serie HB-54. Este es casi tan pequeño como el Opus2 de Med-El. Con el 50% de los implantes cocleares que van para los niños (al menos en los EE.UU.), Advanced Bionics tiene relativamente un procesador demasiado grande para ellos, por lo que ha provocado que muchos padres y centros de implante coclear para lactantes y niños pequeños, escojan otras opciones. • El software DSP que se ejecuta en el procesador, también es importante; y hay 2 puntos al respecto: la manipulación del sonido entrante en todo el espectro de frecuencias para la reducción del ruido y la conversión del sonido procesado en una de las varias estrategias de estimulación (CIS, n-of-m (ACE), Hi-Res Parallel, Hi-Res Sequential, etc.), que es en última instancia, limitada por la cantidad de memoria y potencia de procesamiento de la electrónica en el propio implante. En otras instancias tenemos el testimonio de la audióloga Jo-Ann, quién ha programado a los pacientes de las 3 marcas. Su mayor deseo es que los receptores sepan que cada cerebro es diferente. El receptor no puede predecir cómo va a reaccionar, así que tener una opción adecuada de procesamiento o de estrategia de codificación es la clave (esta estrategia puede variar entre los receptores). Al igual que con los audífonos, algunas personas prefieren el sonido de la marca Phonak o de Oticon, etc. Con AB, tienes la mayor variedad de estrategias como: MPS, CIS, HiRes-S, HiRes-P, HiRes-P con120, y HiRes-S con 120. Un ejemplo: con AB algunos cerebros de las personas prefieren el sonido de HiRes-S en ves del HiRes-P, porque simulan de manera diferente. Pero con Cochlear solo se tiene una opción para los receptores, ya que no pueden probar otras estrategias porque solo manejan una fuente. Entonces, la diversidad de estrategias proporciona flexibilidad a los audiólogos a la hora de programar el implante en los receptores; y aunque Cochlear tenga un software reciente, esta limitada a una sola fuente. La audióloga Jo-Ann explica esto haciendo la siguiente comparación, si construyes una casa con 22 cuartos, y si solo pones un switch para las luces, existen 2 opciones, prender todas a la XXI ves o apagarlas. Se necesitan varios interruptores para poder prender o apagar la luz individualmente en cada cuarto. Ella principalmente a tratado con receptores de la marca Med-EL, el 30% con Cochlear y apenas 1 de la marca AB. Pero ella recalca que el implante mismo es sólo una parte de la solución. La mayor parte del trabajo de un receptor comienza cuando el procesador se enciende, y el éxito depende de una actitud mental positiva, junto con una gran cantidad de práctica al escuchar por el implante. Cuanto más se practique se puede llegar a ser mejor. Para algunos la claridad llega enseguida, para otros toma tiempo, así que no hay una respuesta fácil. Una buena idea para buscar la mejor opción para el futuro receptor podría ser la siguiente, contactar a cada compañía y hablar con alguno de sus audiólogos para adquirir la mayor información posible. También sería bueno acudir a un centro de implantes, para comparar la información obtenida y se pueda obtener una opinión más objetiva. Las empresas de audiólogos serán las que darán el soporte al audiólogo que te programe, y ayudaran al centro de implantes que te este dando apoyo después de la cirugía. Realmente los cirujanos solo te verán una vez al año y no saben mucho de la programación. Además, no poseen el conocimiento acerca de los beneficios externos o averías del implante que se te haya puesto. Otra prueba más que se le puede hacer a los fabricantes de implantes cocleares, es llamar a su línea de servicio al cliente y ver lo rápido que te conecten a una persona real. Comparación técnica de los implantes cocleares, de Marzo de 2007. Esto esta al día, solo el aspecto externo a cambiado con Cochlear con el Nucleus 5. Advanced Bionics. AB es la líder y por mucho en el implante electrónico, con una dirección de corriente completa para 120 electrodos virtuales de sus 16 contactos de estimulación del electrodo. Su implante posee la mejor velocidad de transferencia a 90 mil actualizaciones por segundo, que es ideal para escuchar música y para el entendimiento del habla en un medio ruidoso. Tiene la tecnología “ClearVoice noise reduction” (reducción de ruido para una voz clara), ahora permitida en el Reino Unido (marzo de 2010) y Canadá (febrero de 2010), pero en XXII espera de la aprobación de la FDA (Administración de Alimentos y Fármacos, por sus siglas en inglés) para ser permitida en los Estados Unidos. La desventaja de AB se encuentra en alrededor del 5% de las cirugías de implante debido a que sólo tienen dos tipos de electrodos disponibles (El electrodo “Helix” y el semicurvo y más largo “1J”), y no funcionan para todos. Las ofertas de AB son bastantes buenas, pero les falla en un área crítica: los 2 tipos de electrodos que manejan y que solo funcionan para 2 tipos de casos, cócleas parcialmente formadas u osificadas. Por hora no hay mucho que se pueda hacer al respecto de este problema debido a que el ingeniero y jefe de electrodos de esta compañía, Janusz Kuska, fue despedido por el director Jeff Greiner, provocando entonces que AB se quede años atrás de Med-El y Cochlear, en materia de oferta de electrodos para la cóclea. Lo que podría ser rescatable de esta problemática para la marca, aunque se tenga una mala oferta en los tipos de electrodos, la preservación de la audición residual no es bastante mala, ya que la conservación de ella depende también de una buena colocación de los electrodos. Y por último, otro no tan buen aspecto de AB es el tamaño de su procesador de lenguaje externo, es el más grande de los 3 fabricantes. Med-El. Med-El esta como 7 años atrás de AB en su implante electrónico. Éste puede operar a 55 mil actualizaciones por segundo, tienen un solo flujo de corriente parcial con su tecnología FineHearing y un estimado de 90 electrodos virtuales con su forma de onda triangular. Con el implante Sonata usted podrá tener de 5-10 años para cambiarlo. Con respecto al tamaño del procesador externo, el Opus2 de Med-El es el más pequeño de los 3 fabricantes con una longitud de 49.2 mm. Pero puede llegar a existir la excepción cuando el Nucleus 5 de Cochlear, estuviera equipado con las pilas recargables compactas al alcanzar una longitud total de 42 mm, ya que con el de pilas estándar tiene una longitud de 51 mm. XXIII Su mayor ventaja sobre los demás, es la selección variada de electrodos para casi todo tipo de cócleas imaginables, y la construcción personalizada de electrodos cosa que nadie más puede hacer. Aún con los mejores electrodos, tienen una pequeña parte negativa. La cuestión está en la colocación quirúrgica del electrodo en la cóclea en sí, cuando se trata de poner en su lugar a un electrodo de posicionamiento perimodiolar. Lo que se necesita, especialmente para la difícil colocación perimodiolar al tratar de preservar la audición residual, es un cirujano con mucha experiencia con esta marca de implante coclear (para evitar ese problema). Entonces, se puede concluir que los procesadores e implantes de Med-El son tan buenos como los de AB, y su variedad de conjunto de electrodos es tan buena, o talvez mejor que los de Cochlear. Cochlear. Ellos están irremediablemente sumidas por sus competidores AB y Med-El en materia del implante electrónico. Debido a esto, a pesar de tener un nuevo y excelente mando a distancia con pantalla LCD el Nucleus 5 sigue estando limitado. Esto es porque su implante tiene la misma operación de 30 mil actualizaciones por segundo como lo estaban hace más de una década. Y, a pesar de tener 22 contactos de estimulación en el electrodo, lo mejor que pueden lograr son 43 electrodos virtuales, y al parecer todavía no se han dado cuenta. El Nucleus 5 es casi lo mismo que Med-El a partir de 2006. Cochlear no tiene casi nada nuevo. La verdad es que ellos tienen un gran presupuesto de marketing por lo que tenga cuidado, no todo lo que brilla es oro... Hay una parte donde el Nucleus 5 es bueno por bastante con respecto a los demás, el cuidado con los niños; a pesar de que la electrónica de su implante este obsoleta. El control remoto en su pantalla de LCD puede funcionar como un indicador del estatus del implante y el procesador, indicando si funciona correctamente (al igual que lo hace el LED integrado en el procesador). Esto es útil para los padres o los maestros, ya que con un simple acercamiento al XXIV niño, con el control remoto ellos podrán tener una retroalimentación inmediata del funcionamiento. En Resumen Mejor rendimiento auditivo - Sólo recientemente los estudios comparativos independientes que se han publicado, AB ocupó el primer lugar en todos ellos. Alta fiabilidad - Todos los fabricantes afirman 99% de fiabilidad para el implante, pero sólo AB incluye el procesador externo en el cálculo. AB no hace una gran mención con respecto a la resistencia contra el agua, pero su garantía cubre los desperfectos ocasionados por el agua. Cochclear hace afirmaciones sobre la resistencia al agua, pero su garantía no cubre daños hechos por el agua. Mejor capacidad de actualización- El líder es AB porque con su implante HiRes 90K usa apenas el 25% de su capacidad, Med-El se queda a la mitad y Cochlear completamente fuera por el rezago de su implante. El implante es la parte que uno debe planear quedarse por un largo tiempo. Usted puede revisar las patentes de cada compañía en la pagina de US Patent and Trademark Office search engine, asegúrese de poner en el cuadro de búsqueda por nombre de la compañía. Asegúrese de seleccionar “Nombre del beneficiario” para el campo. Los resultados: Advanced Bionics, con 261 patentes. Cochlear, con 111 patentes. Med-El, con 42 patentes. Las cifras son aún más reveladoras de lo que puede parecer a simple vista. Cochlear es una empresa más grande y ha estado en el mercado por más tiempo que AB, así que si usted cuenta patentes por ingeniero o patentes por año, AB domina. El T-Mic – Med-El y Cochlear tienen sus micrófonos en la parte superior de la oreja, como lo tienen los audífonos de BTE. Pero AB tiene el micrófono en la punta del gancho para la oreja, que está justo a la entrada del canal auditivo. Esto quiere decir que su oído forma el sonido XXV normalmente, por lo que podrá usar los teléfonos y auriculares al igual que una persona normal. La miniaturización de los procesadores - AB fue adquirida por Sonovus un grupo muy grande, donde se encuentra también Phonak, en enero de 2010. Esto significa que AB es la única empresa con acceso a la súper tecnología de miniaturización y años de experiencia de una empresa de audífonos. Y Phonak es uno de los mejores. Mientras que el procesador de AB no es actualmente el más pequeño, buscara las características excelentes en el futuro. Agradecimientos a los cirujanos: el Profesor Saeed y el Dr. Jeremy Lavy; a la terapeuta de lenguaje Liz Stott; a la audióloga Eilene Dyason; a Dan Schwartz, un ingeniero eléctrico sordo que trabajo antes en el negocio de la salud auditiva; la audióloga Jo-Ann y Joanna Farquhar; a Howard Samuels Mentor de BEA; y a Advance Bionics, Med-El y Cochlear. Nota importante: Esta es una traducción y síntesis del artículo original en ingles “Choosing a brand” realizada por el autor de esta tesis. Bibliografía Anexo 2 (1) La autora se hace llamar solo “Tina” con el titulo del Artículo “Choosing a brand” [en línea] obtenido de un blog en Internet “viviendo con la pérdida de la audición en Londres (UK)”. Marzo 2010. <http://funnyoldlife.wordpress.com/cochlear-implants/choosing-a-brand/ > [consulta: 29 abril 2010] Glosario Ahora bien, ¿qué es La audición residual? Y ¿Qué es Perimodiolar? Audición residual: Son los restos auditivos que se pueden medir y que están existentes dentro de la cóclea. Este término se utiliza en sujetos que presentan deficiencias auditivas. Perimodiolar: “Peri” es un prefijo que quiere decir alrededor y “modiolo” esta en el eje central de la cóclea (cortesía del Doctor Carlos Chacón Arcila). XXVI Anexo 3 Anatomía de la Faringe Figura A3.1 La faringe. Se divide en Nasofaringe, Orofaringe y Laringofaringe (1) (2) La faringe es un conducto o tubo situado en el cuello, este mide aproximadamente unos 13 cm. el cual está en contacto con la laringe (perteneciente al aparato respiratorio) y que por medio de una válvula, la epiglotis, cierra la entrada del bolo alimenticio a las vías respiratorias. La faringe se comunica con las fosas nasales, los oídos y el esófago. La faringe esta formada por tres partes • Nasofaringe, faringe superior o rinofaringe: El techo de la faringe situado en la nasofaringe, donde se encuentran las amígdalas faríngeas o adenoides. La nasofaringe está limitada por delante por las coanas de las fosas nasales y por abajo por el velo del XXVII paladar. A ambos lados presenta el orificio que pone en contacto el oído medio con la pared lateral de la faringe a través de la Trompa de Eustaquio. Detrás de este orificio se encuentra un receso faríngeo llamado fosita de Rosenmüller. En la pared posterior de la nasofaringe se aprecia el relieve del arco anterior del atlas o primera vértebra cervical. • Orofaringe, faringe media o bucofaringe: Se denomina así porque por delante se abre la boca o cavidad bucal a través del istmo de las fauces. Por arriba está limitada por el velo del paladar y por abajo por la epiglotis. En la orofaringe se encuentran las amígdalas palatinas o anginas, entre los pilares palatinos anteriores o glosopalatino y posterior faringopalatino. • Laringofaringe, hipofaringe o faringe inferior: Comprende las estructuras que rodean la laringe por debajo de la epiglotis, como los senos piriformes y el canal retrocricoideo, hasta el límite con el esófago. En medio de los senos piriformes o canales faringolaríngeos se encuentra la entrada de la laringe delimitada por los pliegues aritenoepiglóticos. Funciones de la faringe • La deglución: Es el paso de los alimentos desde la boca hacia la faringe. • La respiración: Por respiración generalmente se entiende al proceso fisiológico indispensable para la vida de los organismos. • La fonación: La fonación es el trabajo muscular realizado para emitir sonidos inteligibles, es decir, para poder hablar. XXVIII Anatomía de la Laringe Figura A3.2 La Laringe (3) Figura A3.4 Glotis Figura A3.3 Las partes que forman a la Laringe (4). La laringe (Está entre la faringe y la tráquea) es el órgano básico para la emisión de sonidos; se encuentra localizado entre los aparatos respiratorio y digestivo, siendo necesaria para el mantenimiento de ambas funciones. La laringe Tiene forma de pirámide invertida y anatómicamente se divide en tres zonas: • • • Supraglotis: desde la faringe hasta las cuerdas vocales. Glotis: cuerdas vocales (figura A3.3) Subglotis: desde las cuerdas vocales hasta el inicio de la tráquea XXIX Bibliografía Anexo 3 (1) Faringe [en línea] De la página de Internet GreenFacts, Hechos sobre la salud y el medio ambiente. 5 Octubre 2009. < http://www.greenfacts.org/es/glosario/def/faringe.htm > [consulta: 30 Junio 2010] (2) Faringe. Carlos [en línea] Publicado en Salud, Anatomía. 5 Mayo 2008 < http://www.xenciclopedia.com/post/Anatomia/Faringe.html > [consulta: 30 Junio 2010] (3) Instrucciones para una correcta traqueotomía de emergencia. [En línea] Del Foro en Internet “]V[orlock Liberitas ¿Libertad de expresión o libertinaje expresivo?”. 24 Agosto 2006. <http://liberitas.com/2005/08/24/instrucciones-para-una-correcta-traqueotomia-deemergencia/ > [consulta: 30 Junio 2010] (4) Cáncer de Laringe [en línea] De la página Web: Sociedad Española de Oncología Médica, Información sobre tipos de cáncer .4 Mayo 2010 <http://www.seom.org/es/infopublico/infotipos-cancer/tumores-orl/orl/1138-cancer-de-laringe?showall=1> [consulta: 30 Junio 2010] XXX Anexo 4 Análisis a fondo sobre “los formantes” Resonancia y formantes (1) Las ondas sonoras complejas presentes en los sonidos del habla son el resultado de: • Vibración de los repliegues vocales. • Efecto de filtrado que se produce en las cavidades supraglóticas (consultar Anexo 3), que actúan como cavidades resonadoras. Las ondas sonoras, tal y como se producen en la glotis por la vibración de los repliegues vocales, se asemejan a cualquiera de los ejemplos de ondas sonoras complejas periódicas que tienen una frecuencia fundamental y armónicos. En el siguiente ejemplo: Figura A4.1 Una onda periódica compleja. Es una onda sintética creada artificialmente (1). • Con una frecuencia fundamental de 150 Hz. • Primer armónico: 150 Hz • Segundo armónico: 300 Hz • Tercer armónico: 450 Hz En el caso de los sonidos del habla, los armónicos que componen una onda sonora generada en la glotis no presentan todos las mismas amplitudes (a diferencia de la onda compleja periódica, de la figura A4.1 anterior) La amplitud de los armónicos va descendiendo a medida que aumenta la frecuencia. XXXI Figura A4.2 El espectro de una onda cuando se habla (1). Por otra parte, si se analiza la misma onda sonora tras su paso por las cavidades supraglóticas, se podrá notar que se han producido más modificaciones en las amplitudes de los armónicos. Esto es debido al fenómeno de la resonancia que se produce en las cavidades supraglóticas. Figura A4.3 Espectro de una onda tras su paso por las cavidades supraglóticas (1). XXXII En el siguiente gráfico, se observa como esta constituida una onda tras el paso de las cavidades supraglóticas. Onda laríngea Onda a su paso por las cavidades supraglóticas Onda sonora Resultante Figura A4.4 Descomposición de una onda Supraglótica (2). (A) La amplitud de los armónicos disminuye progresivamente a medida que aumenta la frecuencia. Es lo que sucede en las ondas sonoras generadas por la vibración de los repliegues vocales. (B) La amplitud de los armónicos es modificada en función de la disposición que adoptan los articuladores en las cavidades supraglóticas. (C) Onda sonora resultante. Resonancia en las cavidades supraglóticas. Fenómeno físico que ocurre en las cavidades supraglóticas. Consiste en la modificación de la amplitud de los armónicos de un sonido complejo en función de la cavidad en la que dicho sonido vibra. En el caso de los sonidos del habla, son las cavidades supraglóticas las responsables de la resonancia: • Cavidad faríngea • Cavidad nasal • Cavidad oral Para que se produzca la resonancia, tiene que existir lo siguiente: • Un cuerpo resonador, • Se ponga en movimiento (vibre), • A causa de las vibraciones de otro cuerpo. XXXIII Frecuencia natural y resonancia. Todos los cuerpos tienen una frecuencia o gama de frecuencias de vibración que son propias de acuerdo con sus características físicas, se le conoce como frecuencia natural. Si a un cuerpo le alcanza una onda que coincide con esta frecuencia natural, se pondrá a vibrar, provocando entonces una vibración por resonancia, dando lugar una serie de alteraciones en la onda sonora que incide sobre el cuerpo resonador. En síntesis: El resonador enfatizará o amplificará una cierta gama de frecuencias (las que coinciden con la frecuencia natural) de dicha onda sonora, y por el contrario desestimará o filtrará otras frecuencias (las que no coinciden con su frecuencia natural). Resonador. Los cuerpos resonadores son como cajas que tienen la capacidad de reforzar (dar más amplitud) los componentes de una onda sonora (armónicos) que coinciden con su frecuencia natural. Es lo que sucede, por ejemplo en los instrumentos de cuerda (guitarra, violín, violonchelo, contrabajo...), donde la caja de madera tiene la función de amplificar determinadas frecuencias de las ondas sonoras que producen las cuerdas. La mayor o menor frecuencia de un sonido en su producción depende de una serie de factores: • Masa o grosor. Los cuerpos grandes y pesados generan ondas sonoras de una frecuencia menor (sonido más grave) que los pequeños y livianos, porque éstos pueden moverse más rápidamente. • Longitud o volumen. A mayor longitud o volumen en igualdad de circunstancias, se obtiene un sonido con menor frecuencia. • Tensión. A mayor tensión, mayor frecuencia (sonido más agudo). Los músicos controlan estas variables para obtener sonidos con determinadas frecuencias de los instrumentos que tocan. Por ejemplo, una guitarra tiene seis cuerdas, cada una con un XXXIV grosor, una tensión y una longitud diferentes, de ahí los distintos sonidos que puede producir cada una de ellas. Resonancia en el habla. ¿Cómo se produce la resonancia en el habla? En el caso del ser humano, las cavidades supraglóticas se comportan como cajas resonadoras que actúan sobre la onda laríngea (onda generada en la glotis) como filtros. Estas cavidades amplifican determinadas frecuencias y no otras, y según las diferentes configuraciones que adoptan los órganos durante la articulación, dan como resultado los distintos sonidos del habla. ¿Por qué se produce la resonancia? La onda sonora generada en la laringe por la vibración de los repliegues vocales puede tener tan poca intensidad que, si no estuviese reforzada por el efecto resonador de las cavidades supraglóticas, apenas se podría percibir. Entonces para que se produzca la resonancia en el tracto vocal es preciso que la frecuencia natural de vibración de la cavidad resonadora se asemeje a la de la fuente de sonido (onda laríngea o glotal). Las distintas cavidades supraglóticas (faríngea, nasal y oral) funcionan como resonadores con diferentes frecuencias naturales de vibración, que refuerzan diferentes frecuencias de la onda glotal. Los valores de las frecuencias naturales de las cavidades supraglóticas dependen de la forma que adopten éstas. En consecuencia, cada modificación de las cavidades supraglóticas por la articulación implica un cambio de sus frecuencias naturales de vibración y el reforzamiento de diferentes componentes frecuenciales del tono laríngeo en cada caso. Formantes. El grupo de frecuencias o armónicos reforzados no es otra cosa que una concentración de energía acústica en torno a la frecuencia o frecuencias naturales de la cavidad resonadora. Este conjunto de frecuencias o zonas de resonancia se denomina formante o formantes. XXXV Características de los formantes: • Son característicos de las ondas sonoras complejas periódicas. • Los formantes de un sonido con frecuencias amplificadas por la resonancia dependerán de la configuración que adopten las cavidades supraglóticas para pronunciarlo. • Caracterizan a los sonidos del habla. • Los formantes permiten diferenciar sonidos acústicamente como el caso de las vocales, que se diferencian por las frecuencias de sus formantes. Ejemplo de formantes: Las vocales [a] e [i] son pronunciadas por la misma persona: • Misma frecuencia fundamental: el tono laríngeo del que se parte en ambos casos será idéntico. • Para cada uno de estos sonidos, se reforzarán distintos armónicos en función de la forma que presente el tracto vocal. • Para producir el sonido [a] se van a reforzar los componentes de la onda sonora situados en torno a: o los 700-720 Hz o los 1200 Hz o los 2520 Hz • Para producir el sonido [i], se refuerzan los componentes de la onda sonora con frecuencias en torno a: o los 300-360 Hz o los 2000-2280 Hz o os 2800-3000 Hz XXXVI Figura A4.5 El espectro de frecuencias al pronunciar las vocales [a] e [i] por la misma persona (3). Se puede observar como se modifica el tracto vocal y el espectro de frecuencias al pronunciar las 2 vocales. Formantes y no obstruyentes. Los formantes son característicos de todos los sonidos del habla que se producen con resonancia (no obstruyentes), donde hay vibración de los repliegues vocales: • Vocales: [a], [e], [i], [o], [u] • Nasales: [m], [n] • Aproximantes centrales: [j], [w] • Aproximantes laterales: [l] Resonancia y sonidos aperiódicos (sonidos oclusivos y fricativos sordos). No todos los sonidos del habla son periódicos, es decir, que se produzcan mediante la vibración de los repliegues vocales. Cuando éstos no vibran, los sonidos obtenidos no son periódicos y, por tanto, no presentan armónicos en su espectro, se les conoce como sonidos sordos. XXXVII La glotis está abierta y permite el paso del aire, que se verá interrumpido en el tracto vocal. En la producción de los sonidos aperiódicos, pese a la ausencia de armónicos, el tamaño y volumen de las cavidades supraglóticas también afecta a los sonidos, este es el lugar en donde se produce la constricción u obstáculo (punto o zona de articulación). Aunque estos sonidos no presentan formantes, es posible determinar su punto de articulación, donde están las transiciones que se aprecian en los formantes del sonido siguiente. Para entender lo descrito anteriormente se tiene el siguiente gráfico: Figura A4.6 Espectrograma de la sílaba [pi] de la palabra pícara (1). Explicación de la gráfica: • Oclusión de la [p]: espacio en blanco. • Barra de explosión de la [p]: barra vertical de energía. • Formantes de la vocal [i]: concentraciones de energía en determinadas bandas de frecuencias. • Transiciones de los formantes de la vocal [i]: el movimiento de los formantes vocálicos indica el punto de articulación de la consonante previa. La resonancia también se puede manifestar en los sonidos aperiódicos en forma de concentraciones de energía o formantes. La configuración que adopte el tracto vocal a ambos lados del obstáculo o constricción interpuesto a la salida del flujo de aire, determina la gama de frecuencias de dichos formantes. Otro ejemplo: La [c] es un sonido que se pronuncia con la lengua entre los incisivos: XXXVIII • El resonador oral tiene una longitud considerable: abarca desde los dientes hasta la faringe (resonador posterior). • Se refuerzan las frecuencias situadas en torno a los 5000 Hz. La [j] es un sonido que se produce con un obstáculo en el velo del paladar: • El resonador oral tiene una longitud menor. • La cavidad más amplia se sitúa en la parte anterior de la cavidad resonadora. • Se refuerzan las frecuencias más bajas, en torno a los 3500 Hz. Figura A4.7 Espectrograma de la palabra [ceja] (1) Bibliografía anexo 4 (1) Resonancia y Formantes. [En línea] Universidad de León. <http://www3.unileon.es/dp/dfh/Milka/FyF/36.pdf> [consulta: 25 Junio 2010] (2) MARTÍNEZ CELDRÁN, E. El sonido en la comunicación humana. Introducción a la fonética. Barcelona: Octaedro, 1996. 86p. (3) Martínez Celdrán, E. La teoría fonética de F. Orchell. Folia Phonetica. 1984. 87p.