Memorias II Congreso Latinoamericano de Ingeniería Biomédica, Habana 2001, Mayo 23 al 25, 2001, La Habana, Cuba SISTEMA INTEGRAL PARA EL TRATAMIENTO LOGOPÉDICO: VISUAL VOZ 2.0 J. A. García , G. Mesa, C. García, O. Cruz Instituto de Investigaciones de los Derivados de la Caña de Azúcar Via Blanca No. 804 y Carretera Central, San Miguel del Padrón, C. Habana, Cuba Email: [email protected] RESUMEN En el presente trabajo se plantean las premisas que motivaron la creación del Visual Voz 2.0 que no es más que un sistema integral que permite rehabilitar a personas con diferentes trastornos del lenguaje. Se expone además la descripción técnica de dicho equipo y el algoritmo empleado para la captación de las señales sonoras. Finalmente se analizan sus ventajas sobre otros analizadores visuales del lenguaje utilizados en nuestro país 1. INTRODUCCIÓN La aplicación de nuevas tecnologías a la corrección y/o compensación de las deficiencias, con el propósito de que estas puedan desarrollar una vida más independiente, menos aislada y más participativa en la sociedad, significa hacer efectivo el principio de igualdad de oportunidades para ellos. Una falla importante en la instauración y desarrollo del lenguaje puede comprometer entonces el desarrollo psicológico, afectar las relaciones sociales, la adaptación escolar, el aprendizaje y la armónica formación de la personalidad. Todo esto nos conduce a reflexionar sobre la importancia que tiene la ayuda a tiempo que se le preste a esos niños y adolescentes con trastornos en el lenguaje, así como la labor preventiva a desarrollar para evitar estas anomalías. En la mayoría de los países Latinoamericanos el empleo de nuevas tecnologías que viabilicen la necesaria corrección y/o compensación de las deficiencias sensoriales, físicomotoras o psicológicas de los sujetos con algún grado de discapacidad es insuficiente debido a la ausencia de una política científica para la creación de una correcta infraestructura tecnológica y a la carencia de fondos para adquirirla y/o desarrollarla. En el mercado existen numerosos sistemas para la rehabilitación logopédica, que se pueden dividir en 3 grupos: - Sistemas para el estudio de la señal de voz. [4,7] - Sistemas de rehabilitación. [1,2,4,8]. - Sistemas para evaluación de las pérdidas de audición. [3]. En Cuba a finales de la década de los 80 como resultado parcial de una investigación del Instituto de Cibernética Matemática y Física, surgió el Video Voz. Este brinda la posibilidad de graficar en pantalla la información de la voz obtenida mediante curvas que no son más que el comportamiento en función del tiempo de parámetros extraídos de la señal [8,10]. El Video Voz a diferencia de otros analizadores visuales de voz, constituye un equipo independiente, lo que le impide utilizar las potencialidades de los ordenadores como lo hacen otros de su clase (Speech y PCVOX) [1,2]. El Speech es un sistema, procedente de Canadá, destinado para el tratamiento logopédico, similar a los anteriores en cuanto a funciones a realizar y objetivos a lograr. El PCVOX y el Speech están formados por una tarjeta interfaz que se acopla a la computadora y el software correspondiente. Todos ellos permiten comparar la curva que genera la voz del logopeda con la emitida por la persona en tratamiento, pues solo permiten realizar tratamientos individuales. En el caso de los sistemas de representación visual de la voz logran hacer perceptibles determinados elementos, que como resultado del daño auditivo o del trastorno en el lenguaje en general son prácticamente imperceptibles o se perciben con mucha dificultad por parte del afectado. Con este trabajo se pretende crear un sistema integral para la rehabilitación del lenguaje que herede los aspectos favorables de sus antecesores e incluya nuevas características que contribuyan a una mayor efectividad y eficiencia en el tratamiento. Técnicas empleadas Para poder desarrollar este proyecto se emplean una serie de técnicas tales como: API de Windows, Dinamic Link Library (DLL), transferencia de datos por acceso directo a memoria (DMA), uso de técnicas de animación, aplicación de lenguajes de programación Borland C 4.0 16 bits y Visual Basic 4.0 16 bits, Transformada Rápida de Fourier (FFT) para el procesamiento de los datos de las señales sonoras en el dominio de la frecuencia, métodos estándares para el trabajo logopédico y softwares para el diseño e implementación de tarjetas interfaces. 2. DESARROLLO Descripción del Visual Voz 2.0 950-7132-57-5 (c) 2001, Sociedad Cubana de Bioingeniería, artículo 00200 La estación de trabajo: Visual Voz 2.0 está concebida para dar tratamiento logopédico colectivo a dos discapacitados al mismo tiempo. Presenta 3 puestos de trabajo, uno para el logopeda y dos para los que reciben el tratamiento. Visual Voz 2.0 está formado por una mesa de madera diseñada para tres puestos de trabajo logopédico (figura 1). En este diseño se tuvo en cuenta el tamaño del monitor a emplear, pues la visualización constituye la esencia de este equipo. A partir de pruebas preliminares se ha considerado que con un monitor de 20 pulgadas se disponen de las condiciones mínimas necesarias para trabajar adecuadamente en el mismo. Fig 1. Estación Logopédica Visual Voz 2.0 Sobre dicha mesa hay 3 consolas de operación que posibilitarán una manipulación práctica del equipo durante la sesión y la comunicación entre los puestos. La Interfaz RIGEL_AUD-I fue diseñada para posibilitar la adquisición y reproducción de sonidos estando acoplada a un ordenador que constará de un software con múltiples opciones encaminadas a la terapia del lenguaje, cuya principal función es la representación visual del habla de cada deficiente logopédico, permitiendo la comparación con la curva patrón creada por el logopeda. Esta intefaz está diseñada con el formato de máxima longitud de las tarjetas para computadoras tipo IBMAT, que se insertan en los “Slots” interiores de esas máquinas. La misma tiene 3 entradas y una salida analógica, 24 líneas de entrada/salida digital y tres contadores programables (figura 2). La frecuencia de muestreo es programable por software (siendo la máxima de 40 kHz por canal para entrada o salida). La transferencia de datos es de 8 bits por DMA y se puede realizar utilizando los canales de DMA: 0, 1, 5 ó 6, que pueden ser seleccionados por hardware. La forma de transferencia de los datos de la tarjeta hacia la memoria de la máquina es por demanda y desde la memoria hacia la tarjeta es por transferencia simple. Fig.2. Tarjeta Interfaz Rigel_Aud-I La consola del especialista consta de una serie de aditamentos (figura 3). La opción "Aviso de los puestos" está formada por 2 lámparas rojas que se iluminan cuando desde alguno de los puestos de tratamiento es oprimido el botón de "Listo". Justo debajo de cada lámpara hay un interruptor para la opción, “Comunicación con los puestos”, la cual permite al terapeuta escuchar y hablar con el puesto deseado. Fig.3.Consola de operación del logopeda. En el centro se encuentran 3 botones con doble función: realizar la evaluación del ejercicio logopédico ("Bien", "Regular" y "Mal") y para comenzar a grabar la voz del especialista, del discapacitado, e iniciar un nuevo ejercicio respectivamente. Para el caso de que se quiera utilizar un dispositivo externo, por ejemplo, una grabadora, bien para almacenar en el ordenador algún material audible, para ser utilizado posteriormente o para realizar una sesión logopédica previamente grabada en dicho dispositivo externo, se debe conectar la salida de la grabadora a la entrada identificada como “periférico”. Las entradas “micrófono” y “audífono”, permiten al especialista la conexión de los aditamentos de entrada y salida de audio. El logopeda tiene la posibilidad de comunicarse con uno o con los dos puestos simultáneamente, grabar su voz en el ordenador y mezclar su voz al sonido que se esté generando desde la computadora, el periférico o alguno de los puestos de tratamiento. Debajo de la opción “comunicación con los puestos”, hay un interruptor con dos etiquetas una arriba que dice “computadora” y otra debajo, “periférico”. Cuando el interruptor esté en “computadora”, cualquier señal de audio que envíe el ordenador será escuchada por todos los puestos que sean seleccionados en “salida del periférico”.En la otra posición ocurrirá exactamente lo mismo, pero con la señal sonora enviada por un dispositivo externo conectado en la entrada: “periférico”. Fig. 4. Consola de los discapacitados El botón de encendido es el encargado de energizar y desenergizar la alimentación eléctrica de las tres consolas. El puesto de los que reciben tratamiento es algo más sencillo (figura 4), presenta tres lámparas (verdebien, amarillo-regular y rojo-mal) que una vez que el logopeda hace la evaluación de un ejercicio, de acuerdo al resultado será la lámpara que se iluminará. Tiene además una cuarta lámpara que va a indicar, cuando esté iluminado, que puede hablar o repetir el ejercicio. Esta función se identificará como “salida activada”. El botón de “listo” se utilizará para pedir la palabra al especialista. El software Visual Voz 2.0 es una aplicación desarrollada en el lenguaje de programación Visual Basic 4.0 (16 bits) que utiliza para su comunicación con la tarjeta RIGEL-AUD-I una dll (“pds.dll”), implementada en Borland C++ versión 4.52 para Windows. Adicionalmente al software se dispondrá de varias bases de datos que almacenan información e imágenes que serán utilizadas en algunas de sus opciones, que se explicarán más adelante. Adicionalmente proporciona una serie de ficheros de sonidos que incluyen a más de 300 palabras comunes, además de 3 narraciones de cuentos con representación visual y sonora. Esta aplicación está desarrollada para correr en ordenadores rápidos con velocidades superiores a 133 MHz, con sistema operativo Windows, 32 Mbytes de memoria RAM y un espacio mínimo en el disco duro de 20 Mbytes. Se presenta en formato de disco compacto adjunto a su instalador. Entre las herramientas logopédicas fundamentales de esta aplicación encontramos: Historias Evolutivas; permite registrar todos los datos acerca de la evolución del discapacitado. Logopedia Asistida es la herramienta principal para realizar las sesiones de rehabilitación del lenguaje. Narrador de Historias, Editor de Pronunciación y Video Juegos controlados por Voz son herramientas de apoyo y sistematización de los ejercicios realizados en la opción de Logopedia Asistida. La Exploración Logopédica Diagnóstica permite realizar un diagnóstico preliminar de la persona a rehabilitar con técnicas estandarizadas. Algoritmo de captación de la señal de voz En esta sección se esboza el algoritmo asociado a la captación y manipulación de las señales de voz. La DLL o manipulador de la interfaz RIGEL_AUDI se declara: PRELOAD, FIXED y NONDISCARDABLE, es decir, la DLL se carga en memoria del ordenador al iniciarse la aplicación y no se va a mover ni descargar por el sistema operativo Windows. 1- Se determina el tamaño del buffer de DMA que no debe exceder de 64 kb para los canales de DMA de 8 bits y 128 kb para los de 16 bits. 2- Solicitud del buffer de DMA utlizando el servicio virtual de DMA. 3- Programación del 8255 para el control de los dispositivos digitales ubicados en los puestos de la estación logopédica Visual Voz. El puerto A se va a utilizar como entrada dando dos tipos de informaciones: • Si ha sido presionado alguno de los 2 botones de listo en los puestos para las personas que reciben la rehabilitación. • La evaluación de bien, regular y mal que viene de los 3 botones en el puesto del logopeda. El puerto B se va a utilizar de salida, teniendo dos funciones: • Activar o desactivar las 2 lámparas de listo en los 2 puestos de tratamiento. • Activar o desactivar los circuitos de entrada y/o salida de audio. El puerto C se utiliza como salida para activar o desactivar la lámpara adecuada (bien, regular y mal) en los puestos de tratamiento, en cada intervalo de tiempo. 4- Programación del 8253. Aquí se programa la frecuencia de muestreo de la señal de voz. 5- Programación del 8237 con autoinicialización del canal programado. 6- Se habilita el convertidor. Si se va a reproducir una señal almacenada, antes de habilitar el convertidor, el buffer de DMA se llena con los primeros N datos, de acuerdo al tamaño predeterminado del mismo. Tanto para grabar como para reproducir una vez que se habilita el convertidor, comienza la función timer de la aplicación a chequear el contador en el registro de conteo para realizar las transferencias manteniendo la continuidad en el recibo o suministro de los datos, según sea la operación del DMA. 3. DISCUSIÓN Al diseñar e implementar la estación de tratamiento logopédico Visual Voz 2.0, se ha pretendido hacer un pequeño aporte en aras de mejorar la calidad de vida de personas con discapacidad en el lenguaje incluyendo a los sordos e hipoacúsicos. Con este sistema se puede tratar cualquier tipo de trastorno logopédico. El Video Voz, al que ya nos hemos referido, ha sido muy utilizado y aceptado en los tratamientos del lenguaje en nuestro país y fuera de este también. Numerosos han sido los ejercicios y terapias diseñadas por los logopedas, presentados año tras año en eventos nacionales e internacionales. La superioridad del Visual Voz 2.0 respecto a sus similares empleados en Cuba se extracta en unas pocas palabras: optimización del tiempo a emplear por individuo tratado, calidad y variedad del servicio rehabilitador. Este por cada sesión de tratamiento atiende 2 deficientes logopédicos mientras que los otros atienden a 1. La gran cantidad de recursos con que cuenta Visual Voz 2.0 para enfrentar cualquier trastorno logopédico (control de la persona bajo tratamiento a través de la historia evolutiva, narrador y editor de cuentos, explorador diagnóstico del lenguaje, logopedia asistida y los videojuegos) contra la única opción que presenta el Video Voz, que no llega al nivel de la opción equivalente “Logopedia Asistida”, deja clara esta superioridad. Mientras, el Speech, incluyendo además de la representación visual de la voz, varios videojuegos, evidentemente no llega a la mitad de las opciones que se puede hacer con Visual Voz. Ahora después de toda la potencialidad que se ha implementado en el Visual Voz 2.0 y constatando el éxito que tuvo el Video Voz no es difícil hacer un buen vaticinio sobre la utilidad y éxito del primero. En pruebas preliminares en algunos niños con problemas logopédicos, es significativo el nivel de estimulación que se logra, demandando un mayor esfuerzo por parte del niño y con gran motivación. Sin esta u otra herramienta de este tipo, resulta monótono y aburrido el tratamiento. Todo esto se refleja en la calidad y menor tiempo de rehabilitación de esas personas. El potencial humano para este equipo en nuestro país asciende a varios miles de personas que hoy en día asisten a centros de rehabilitación, escuelas especiales y hospitales en general. Pero su representación más importante la encontramos en los niños y adolescentes. En Latinoamérica, Visual Voz 2.0 podría encontrar gran aceptación debido a la carencia de medios técnicos adecuados para enfrentar la educación especial. Pero de todas las virtudes de las que tiene Visual Voz, la más importante es la cobertura a la imaginación y a la creatividad que le brinda al especialista. Por ejemplo: "el narrador de cuentos" está diseñado para contar cuentos que el especialista puede crear según los intereses lingüísticos que quiera explotar, pero también se puede usar como laminario y enriquecerlo de acuerdo a los objetivos y estilos de trabajo. En “Logopedia Asistida” se pueden generar centenares de tipos de ejercicios según el criterio de cada especialista con su aporte personal y creativo. Visual Voz ha comenzado su etapa más decisiva, al integrarse como herramienta logopédica en la escuela especial para trastornos del lenguaje "Miguel Basilio", ubicada en el municipio del Cerro, C. Habana. 4. CONCLUSIONES A pesar del poco tiempo de creado, en el pequeño círculo de logopedas que lo ha utilizado en calidad de prueba, se han emitido opiniones alentadoras acerca del mismo. El camino ha sido muy difícil, nuestro mejor aliado fue la perseverancia ante las numerosas contingencias que en estos dos años enfrentamos. Pero finalmente Cuba cuenta con un equipo integral para el tratamiento de personas con patologías logopédicas, competente por su calidad con los pocos existentes en el orbe y superior a los existentes en nuestro país lo que cumplimentan nuestros objetivos iniciales. REFERENCIAS 1. Aguilera, S.; Borrajo, a.; Pardo, J. M.; “Obtenciónvisualización de algunos parámetros del habla”, Revista “Mundo Electrónico”, No. 144, 1984. 2. Aguilera, S. N.; "Análisis y parametrización de la voz como ayuda a la logopedia"; Jornada sobre Nuevas tecnologías Aplicadas a la Discapacidad"; Nov.; 1994. 3. Aguilera, S.; Godino, F.; Novillo, R. A.; “Improvement of spanish speech processing system”; “Advancement of Assistive Technology”; Anogianakis, G. (Ed); IOS Press; 1997. 4. Berrojo, M. A.; Corrales, J.; Aguilera, S.; “A PC graphic tool for speech research based an a DSP board”, 5th International Conference on Spoken language processing (ICSLP); Sidney, Australia, 1998. 5. Calleja, R.; “La informática, al servicio de los deficientes auditivos”, publicación periódica: “Comunidad Escolar”; 1 de marzo de 1995. 6. Catálogo de Componente: “Analog Devices”,1995 7. Carlberger, A.; Carlberge, J.; Hunnicutt, M. S.; otros; “Profet, A new generation of word prediction: An evaluation study; The 5th International Conference on Spoken language processing (ICSLP-98), Sidney, Australia, Noviembre 1998. 8. Colectivo de Autores del ICIMAF; Manual de Usuario del Video Voz; 1991. 9. Crenshaw, J. W.; "All about Fourier Analysis"; "Embedded Systems Programming"; April, 1995. 10. García, S.; "Una modalidad del turismo de salud"; Revista : "Contactos"; No. 9; pag. 34; 1995. 11. Intel Corporation; “Intel Component Data Catalog”, 1978. 12. Martín Pérez, Miguel; Prado Alfonso, Rosa; Méndez Monti, Isis; "Los métodos para el tratamiento logopédico", Editorial Pueblo y Educación, 1987. 13. Microsoft Corporation; "Virtual DMA Service (VDS)"; ID Number : 41-q93469; 1995. 14. Oppenhein, A. V.; “Digital Desing Processing”, 1995. 15. Palazuelos, S.; Aguilera, S.; Rodrigo, J.; Godino, J.; “Gramatical and statistical word prediction system for spanish integrated in an AID for people with disabilities”; The 5th International Conference on Spoken Language processing (ICSLP); Sidney, Australia, 1998. 16. Rosental, M.; Judín P.; Diccionario Filosófico Abreviado, Ediciones Pueblos Unidos, Montevideo, 1960, p. 279. 17. Sipe, S.; "Calling 16 bits DLLs from Windows 95"; "Dr. Dobb´s Journal"; April, 1996. SISTEMA INTEGRAL PARA EL TRATAMIENTO LOGOPÉDICO: VISUAL VOZ 2.0 ABSTRACT In this paper, the premises that motivated the creation of the Visual Voz 2.0 are exposed. It is an integral system designed to rehabilitate people with different problems of the language. The technical description of this equipment and the algorithm used to record and play the sound signals is exposed. Finally, the advantages of the Visual Voz over the equipments that have been used in Cuba are discussed