Adaptación a Jclic para alumnos con deficiencia motriz, mediante comandos por voz. M. Lucrecia Moralejo III LIDI, Facultad de Informática. Universidad de La Plata, La Plata, Buenos Aires, Argentina. [email protected] Stefania Ostermann Facultad de Informática. Universidad de La Plata, La Plata, Buenos Aires, Argentina. [email protected] Cecilia V. Sanz III LIDI, Facultad de Informática. Universidad de La Plata, La Plata, Buenos Aires, Argentina. [email protected] Además, Resumen se estudiaron diferentes motores de reconocimiento de voz En el presente trabajo se propone la (RV), y sus fundamentos teóricos. Se adaptación de un software educativo profundizó el análisis del motor de RV mediante comandos por voz, para Sphinx-4. alumnos con deficiencia motriz y que Antes de realizar el prototipo de no se han visto afectados en el habla. adaptación, se hizo un estudio de la Forma parte de un trabajo de fin de arquitectura de diseño y desarrollo de carrera realizado en la Facultad de la herramienta educativa elegida, JClic. Informática de la UNLP. Finalmente, se obtuvo el desarrollo de Durante este proceso se analizaron un algunos programa JClic, con la integración de programas educativos software adaptativos. y Además se prototipo Sphinx-4 para de adaptación proveer RV, del en realizaron pruebas de integración de particular, para las actividades de varios software adaptativos estudiados asociación simple. Se presenta aquí con JClic, para analizar la ayuda que parte de este trabajo realizado y los pueden ofrecer a los alumnos con resultados y conclusiones obtenidas, algún tipo de deficiencia motriz en la luego de la evaluación del prototipo. resolución de actividades. Palabras claves: educativo, TIC, software deficiencia reconocimiento por voz, atención, el estímulo visual, la sensación de motriz, disminución de la ayudas aislamiento, el entretenimiento, técnicas. el control del ambiente, entre otras [1]. Una de las razones de la escasa implantación Introducción de las TIC en la educación especial es la diversidad y la Actualmente, existe una gran cantidad especificidad de las necesidades. Su de software orientado a la educación utilización como herramientas, en este en sus distintos niveles. Muchos de campo, ellos han sido adaptados o creados complejos teniendo en cuenta la diversidad de personalizados, que además van a ser alumnos, utilizados pero herramientas otros son estándares sólo que no requiere y por desarrollos variados, muy algunos colectivos poco numerosos. brindan adaptación alguna, por lo que La situación actual presenta grandes están conjunto retos a superar para que una persona restringido de alumnos. Las personas con disminución pueda estar en una que están afectadas de algún tipo de posición de igualdad de condiciones, disminución motriz, suelen influenciar respecto de las demás personas. Por lo alguna de las habilidades básicas, tanto, se debe adaptar adecuadamente relacionadas con la percepción (visual, el entorno y utilizar ayudas técnicas, auditiva y táctil), la comunicación, el que permitan eliminar al máximo de desplazamiento y/o la manipulación. En barreras, que dificultan consecuencia, persona con discapacidad destinados a se un encuentran con que una pueda numerosos obstáculos y barreras que interaccionar en él. Y sin embargo, éste les desarrollo de ha sido el punto principal de conflicto: ejecución de las personas con disminución motriz no las disponen con frecuencia de las ayudas personas y el entorno, etc. Para las técnicas y adaptaciones necesarias personas con necesidades especiales, para interaccionar en un entorno hostil. la mera utilización de las TIC puede Las personas con gran compromiso representar un motriz tienen poca autonomía para la elevado grado de autonomía en su vida realización de tareas, necesitando de personal. una forma constante, la llamada ayuda Algunos de los aspectos que se de terceros, para cambiar de tareas, pueden abordar utilizando programas acceder a información, desplazarse, de computación son: el enfoque de la etc. En la computadora este problema impiden el habilidades, actividades, la la la relación consecución con de también se manifiesta, pues suele ser sin dificultades. Además, requeriría un el ayuda menor esfuerzo si la persona pudiera constantemente a la persona a realizar usar la voz para manipular el ordenador las y se evitarían las lesiones producidas profesional tareas. Un autonomía quien mayor los nivel haría de sentir por “esfuerzo repetitivo”. independientes, podría aumentar su autoestima y su autosuficiencia, y en consecuencia, hacerlos sentir útiles y capaces. También considerablemente comportamiento, influirá en facilitando que puedan realizar actividades nuevas por Por lo tanto, estas razones motivan el adaptaciones a un software muy utilizado en el ámbito educativo como es JClic, para facilitar su uso por parte de alumnos con dificultades motoras, y así incentivar su Si bien se conoce la relación entre la discapacidad motora y la dificultad en el desarrollo del lenguaje, esto no se da en todos los casos. Este trabajo está a problemas las motores, personas con pero sin consecuencias o con consecuencias leves en el desarrollo el lenguaje. Se pensó en este subconjunto de personas, ya que existen más variedad de ayudas técnicas para personas con discapacidad como herramienta a adaptar Existen en el mercado, una gran cantidad de softwares con fines educativos. variado de los programas disponibles, se analizaron algunos de ellos, los cuales ofrecen diferentes funcionalidades y además se podrían utilizar en diversos niveles educativos. Entre ellos, se encuentran JClic, Textoys, Hot Potatoes, Markin, Lim, y desarrollo intelectual. destinado Jclic Con el objetivo de tener un panorama iniciativa propia. de de su puedan ser emprendedores y que desarrollo Elección motriz mediante la utilización de diferentes partes del cuerpo y se considera que sería una buena alternativa, el uso de la voz, si la persona afectada se expresa oralmente Wink, etc. De estos programas analizados, se optó por adaptar la herramienta JClic, que es un entorno para la creación, realización y evaluación de actividades educativas multimedia. Algunas de las características que llevaron a la elección de este software, fueron que está desarrollado bajo licencia GPL, lo que provee la oportunidad de contar con el código fuente del programa para poder estudiarlo y analizarlo. De esta manera, se puede llevar a cabo la integración propuesta. También es uno de los software más utilizados para realizar actividades educativas (ya lleva años asociaciones, de uso en el ámbito), de manera que se palabras creyó que sería interesante comenzar actividades, por lo general, no se el desarrollo de un prototipo para presentan solas, sino empaquetadas ampliar la diversidad de usuarios de en dichas actividades. formado por un conjunto de actividades Otro punto fuerte en esta elección, es y una o más secuencias, que indican el que es posible utilizar JClic en distintos orden en que se han de mostrar. sistemas operativos, tales ejercicios cruzadas, proyectos. de etc. Un texto, [2]. proyecto Las está como Windows, Linux, Solaris y Mac OS X. Pruebas de integración de JClic Esta cualidad viene dada porque JClic con diferentes ayudas técnicas se encuentra enteramente desarrollado con tecnología Java, la cual es multiplataforma. Características de JClic Con el objetivo de obtener un mayor conocimiento de presentadas a las un posibilidades alumno con deficiencia motriz para resolver una actividad de JClic, se realizaron Como se mencionó anteriormente JClic algunas pruebas del uso de diferentes es softwares de autoayuda en conjunto un entorno para la creación, realización y evaluación de actividades con JClic. educativas multimedia. El cual está Los programas de autoayudas se compuesto definen como un grupo de aplicaciones por fundamentales, tres componentes que o utilidades que se cargan en la permite crear, editar y publicar las memoria de la computadora antes que actividades de una manera sencilla, el programa principal. Su propósito es visual e intuitiva, JClicPlayer para la facilitar resolución de las mismas (el cual informáticas de tipo general a los puede presentarse como applet o como usuarios con discapacidad que, de otra una aplicación JClic) y JClicReports forma, se verían obligados a usar sólo que programas específicamente diseñados es el JClicAuthor módulo encargado de el uso de aplicaciones recopilar los datos (tiempo empleado para ellos [3]. en cada actividad, intentos, aciertos, Algunos ejemplos de este tipo de etc.), autoayudas son: Mouse Por Barrido, y presentarlos después en informes estadísticos de diversos tipos. Esta aplicación sirve para realizar diversos educativas: tipos de actividades rompecabezas, Emuclic, Kanghooru y Ratón Facial. Para estas pruebas se utilizaron sólo (o pulsador) estándar. Trabaja en modo Emuclic, Mouse por barrido y ratón residente, sin interferir con la ejecución facial. de otros programas, y está destinado a Emuclic convierte la acción de un funcionar switch (conmutador) estándar, o el aplicaciones. Una vez que se ejecuta sonido captado por un micrófono, en queda funcionando en modo residente. en conjunto con otras una o varias combinaciones de teclas o clics del mouse [4]. Ratón Facial es un programa que, El objetivo del programa es emular unido a una webcam USB estándar, diversas funciones del teclado o del permite mouse, de manera que cada vez que ordenador sin las manos, mediante se accione el switch o se genere ligeros sonido, la computadora interprete que alguna zona del cuerpo previamente se ha presionado una determinada configurada [5]. Se puede utilizar como tecla, realizado un clic con el mouse, sustituto o complemento del ratón etc. De esta forma, cualquier programa convencional. que espere la presión de esa tecla diseñado reaccionará a la acción del conmutador discapacidades motrices en manos o o el sonido. brazos. Este software le proporciona al controlar y suaves Está para totalmente el movimientos de especialmente personas con usuario una solución efectiva y fiable Mouse Por Barrido (MPB) es un para la interacción con el ordenador. software de distribución gratuita, que corre bajo Windows. La versión 3.0 de Pruebas realizadas este programa fue liberada por Antonio Sacco1. Está pensado especialmente Para llevar a cabo estas pruebas de para personas que por problemas integración, se generó una actividad motrices no pueden utilizar un mouse JClic de prueba, la cual consta de una convencional con precisión. El objetivo asociación simple donde se presentan del programa es permitir al usuario el dos grillas: una con sumas y otra con manejo total del puntero del mouse los resultados. El usuario deberá unir mediante la sola presión de un switch adiciones a su respectivo resultado. La forma de resolver esta actividad es la 1 Antonio Sacco - Graduado en Ingeniería en Sistemas de Información, en la Universidad Tecnológica Nacional. Especialista en Informática Aplicada en la Educación. Ha realizado varios aportes en el área de tecnología aplicada a la educación nivel internacional. Algunos de ellos son: Emuclic, MPB (Mouse Por Barrido), entre otros. En http://www.antoniosacco.com.ar/ puede encontrarse más información. siguiente: el usuario hace clic en una celda, mueve el mouse hacia una celda de la otra grilla y hace clic, si la unión que eligió es correcta (la suma que se muestra en la celda de una de las grillas da como resultado el número intentar posicionar el cursor con otro que se muestra en una celda de la otra movimiento. grilla), JClic marca esas celdas para El tiempo que se necesita para resolver que no se puedan volver a elegir y la actividad es bastante mayor al que otorga un punto de acierto al usuario. llevaría Se debe repetir esta serie de pasos adaptación. resolverla sin ninguna hasta que todas las celdas se unan quedando resuelta la actividad. Integración con ratón facial Se describen aquí sólo dos de las Fue posible realizar actividades con pruebas de integración realizadas: JClic a través del uso de ratón facial, ya que este software provee el manejo del Integración de Mouse por barrido mouse, a través de una cámara web que lo reemplaza, pudiéndose realizar Fue posible realizar actividad dichas actividades sin problemas. Las utilizando MBP, ya que este software pruebas se realizaron configurando el provee el manejo completo de la uso de clic por espera, es decir, que se funcionalidad de un mouse a través de debe mantener el mouse sin moverse un switch. Permite seleccionar las por cierta cantidad de tiempo para que celdas necesarias, a través de las el ratón ejecute el clic. pulsaciones del switch, para resolver la En principio se notó que la precisión del actividad. programa ratón depende de la cámara web residente muestra la imagen de la utilizada y de la calidad del video, por lo funcionalidad que se necesita (por que ejemplo, clic con el botón izquierdo) se utilización. debe pulsar el switch. En particular, para MBP y Ratón Facial, La desventaja o dificultad que se de ser necesaria la utilización del experimentó mientras se resolvía la teclado, para realizar actividades como actividad de prueba, fue que resultó las de texto es necesario utilizar un tediosa la espera de la imagen que se teclado virtual para complementar la quería ejecutar. Además, si por ejemplo funcionalidad. Cuando la el a veces puede dificultar su se detenía el mouse a muy poca distancia de la celda que se quería Si bien es posible utilizar algunos de presionar, mínima estos softwares junto con JClic, se vio distancia resultaba complicado, y era al reconocimiento de voz como una más sencillo alejarse de ella y volver a alternativa viable, la cual apunta al uso avanzar esa del habla cuando sea posible para el usuario, siempre y cuando éste se lectoescritura, o el desarrollo desenvuelva oralmente sin dificultades actividades de autocuidado [6]. de o con dificultades leves. Se considera importante destacar, que es necesario A introducirse problema en cuanto a la intervención en el área de nivel educativo, reconocimiento de voz para facilitar el centrada uso aprendizaje de la computadora para las en sus se plantea posibilidades y el de potencialidades personas con problemas motrices, ya educativas, y no en el déficit que que con el uso de la voz se evita el presenta el alumno. esfuerzo físico que se genera al Desde intentar usar ayudas técnicas como el discapacidad física, el ordenador, a switch. modo de prótesis, abre posibilidades el hasta punto ahora de vista poco de la imaginables. Particularidades de las personas Personas con un pequeño resto de con dificultades motrices control motriz pueden llegar a comunicarse con los demás, ocupar su La discapacidad motriz podría definirse tiempo de ocio de forma gratificante, como la pérdida o restricción de la realizar capacidad movimiento, integrarse laboralmente. El ordenador, desplazamiento y equilibrio de todo o ha ayudado a cambiar la idea de que de una parte del cuerpo. Se entiende muchas personas con discapacidades como físicas graves deberían estar recluidas la de alteración o deficiencia cursos de formación e orgánica del aparato motor o de su [3]. funcionamiento, que afecta al sistema Hoy óseo, articulatorio, nervioso y muscular. fundamentos Según la causa de la discapacidad, y el capacidad de las ayudas técnicas e grado de ésta, pueden existir además informáticas restricciones para el desarrollo del formatos de la actividad escolar e lenguaje, o de la manipulación de incidir positivamente en el proceso de objetos, siendo oportuno señalar que enseñanza y aprendizaje de los niños y este tipo de restricciones no tiene por jóvenes con necesidades educativas qué afectar a los procesos cognitivos o especiales, sin embargo, al descender de aprendizaje, aunque en ocasiones, a la práctica, se ve que no es sencillo puede presentarse un enlentecimiento encontrar las TIC adecuadas a cada en algunas actividades y habilidades, necesidad [7]. Para disminuir la brecha como existente la comunicación, la en día, existen teóricos para entre muchos sobre adaptarse a las personas la los con necesidades especiales y la tecnología, se utilizan lo que se conoce como Ayuda ayudas técnicas. Estas ayudas, facilitan Reconocimiento de voz el acceso al ordenador, adaptaciones que se técnica seleccionada: mediante usan como El avance tecnológico ha aportado al complemento para utilizar el teclado o ser el existen posibilidades de desarrollar un modo dispositivos que se pueden utilizar para de vida más completo, pero al mismo sustituir a algunos de los comúnmente tiempo exige continuamente nuevos y usados. específicos mouse, además Es decir, se existen ayudas humano nuevas y mayores conocimientos y técnicas para acceder a las interfaces habilidades en el individuo para poder estándar (varilla bucal, sujeta teclas, hacer uso de las posibilidades que le licornio, etc.), y otras para sustituirlas ofrecen. En las personas con algún tipo (Joystick, Switch, teclado virtual, etc). de Además otras complejidad del medio social puede “ayudas tener, sin embargo el efecto contrario al de tecnologías estas, existen consideradas discapacidad, la progresiva técnicas”, tal como es el caso del buscado por el progreso social [8]. reconocimiento de voz. Así se encuentra en el reconocimiento Con el uso de esta tecnología, se de podría comunicación utilizar cualquier programa, voz una alternativa con la para la computadora, dándole las órdenes a la computadora permitiendo que las personas con verbalmente mediante letras, palabras, discapacidades o frases. La interacción resulta más pueden acceder al teclado estándar y eficaz que si utiliza, por ejemplo, el al mouse puedan, con el habla, realizar lento proceso de comunicarse a través acciones que sin esta tecnología no le de un conmutador siguiendo la técnica serían posibles, en otras palabras, el de barrido. objetivo es convertir el habla humana Si bien se ha mencionado la relación en entre la discapacidad motora y la computadora. acciones motoras interpretables que por no la dificultad en el desarrollo del lenguaje, esto no se da en todos los casos. Este Esta tecnología, es una parte de la trabajo, como ya se mencionó, está Inteligencia Artificial, que tiene como destinado problemas a las motores, personas con objetivo permitir pero sin hablada entre la seres comunicación humanos y consecuencias o con consecuencias computadoras electrónicas, es decir, es leves en el desarrollo el lenguaje. el proceso de conversión de un mensaje hablado a texto, que permite al usuario una comunicación con la computadora. El problema que se vocabularios plantea en un sistema de RV es el de tener cientos de miles o más. La hacer cooperar informaciones diversas un que fuentes muy grandes pueden conjunto de gramática se define a partir de las provienen de palabras de conocimiento que debe aceptar la aplicación, y puede estar dada a través (acústica, fonética, fonológica, léxica, de un estilo similar a BNF. sintáctica, semántica y pragmática), en El modelo de lenguaje puede ser presencia abordado de ambigüedades, a través de modelos (Statistical Model incertidumbres y errores inevitables estadísticos para llegar a obtener una interpretación Language aceptable gramáticas de estado finito (Finite del recibido [9]. mensaje o utilizando Grammar State - FGS) [10]. Un modelo una estadístico captura la probabilidad de herramienta computacional capaz de las palabras y de las secuencias de procesar la señal de voz emitida por el palabras. ser humano, y reconocer la información decodificador para limitar la búsqueda, contenida en ésta, convirtiéndola en y generalmente, hace una contribución texto o emitiendo órdenes que actúan significativa sobre un proceso. En su desarrollo reconocimiento. Un buen modelo es intervienen diversas disciplinas, tales aquel que modela con precisión la como: la fisiología, la acústica, el entrada esperada. Se caracteriza por procesamiento la su orden, en términos de “n-gram”, inteligencia artificial y la ciencia de la donde “n” indica el tamaño de la computación. ventana sobre la cual se computan las Existen algunos componentes de gran estadísticas. En general cuanto más importancia para los sistemas de RV, grande sea “n” más preciso será el que son: el diccionario, la gramática, el modelo. También, a mayor “n” se modelo necesitan más datos para asegurar que de voz de acústico lenguaje. sistema SLM) de reconocimiento Un acústico - Donde es señales, y el el modelo de diccionario las Es a utilizado la estadísticas en exactitud se el del estiman representa el conjunto de palabras o sólidamente. Una gramática de estados sonidos a reconocer. A diferencia de un finitos define las posibles palabras, así diccionario normal, cada entrada no como también el posible orden de tiene por qué ser una única palabra. dichas palabras. Estas pueden ser tan largas como una Un modelo acústico se crea a partir de oración grabaciones, o dos. Los vocabularios sus respectivas pequeños pueden tener una o dos transcripciones, y el uso de software sonidos a reconocer, mientras que los para crear representaciones estadísticas de componen cada performance producida los que voz, y en consecuencia, se encuentra La en constante desarrollo y actualización. reconocimiento Por las características de su licencia, palabra del por sonidos el [11]. modelo acústico es posible utilizarlo libremente en puede mejorarse aún más, mediante un cualquier desarrollo e investigación. modelo de lenguaje, el cual contribuye Además, también se puede obtener su a código fuente, en caso de que sea evitar ambigüedad entre varias palabras similares producidas por el necesaria modelo acústico. estudiar su funcionamiento a bajo nivel. Para la elección de la herramienta a Está completamente desarrollado con utilizar, distintos tecnología Java, al igual que JClic. De softwares de reconocimiento de voz, manera que servía al propósito de entre integrar se analizaron ellos Loquendo, Xvoice, alguna ambos modificación componentes sin NicoTollkit, Sphinx y Dragon Naturally dificultades Speaking. sus incompatibilidad de lenguajes. Además, características, ha sido diseñado con un alto grado de Se estudiaron principales provocadas o por funcionalidades y requisitos. flexibilidad y modularidad, donde cada De los analizados, se optó por Sphinx, elemento particularmente la versión 4. Es un fácilmente reemplazado o modificado. sistema desarrollado en la Universidad A través del Configuration Manager, es de Este que el framework brinda la posibilidad framework es un sistema basado en los de cargar y configurar los distintos Modelos Ocultos de Markov (HMM, módulos dinámicamente, en tiempo de Hidden Markov Model), por lo que, para ejecución. su debe componentes van a ser usados y la (o configuración particular de cada uno de de ellos. En particular, es posible indicar el unidades de sonido, y luego utilizar lo diccionario y la gramática que se que ha aprendido de estas unidades utilizaran durante el reconocimiento. A para continuación, se presenta la propuesta Carnegie Mellon funcionamiento aprender las parámetros) de encontrar (CMU). primero características un la conjunto secuencia de unidades de sonido más probable para del sistema puede Determinando así, ser que particular para este trabajo. una señal de voz dada. Se optó por esta herramienta, ampliamente ya utilizada que es Propuesta de adaptación por investigadores y desarrolladores que se La adaptación propuesta ha abordado dedican al área del reconocimiento de la modificación de las actividades de JClic de manera que se puedan resolver a través de la utilización de Este pide que se indique si se desea comandos por voz. Para ello se tomó, utilizar reconocimiento de voz. inicialmente, Otra cuestión de suma importancia, ha la actividad del tipo asociación simple. sido decidir qué mecanismo proveer En este caso de actividad, que JClic para identificar cada elemento de la permite crear, el usuario tiene que pantalla que presente interactividad, descubrir existentes con el fin de resolver la actividad. Para las relaciones entre dos conjuntos de información. Es esto se analizaron decir, se presentan dos grupos de posibilidades. Esta identificación que datos que tienen el mismo número de utiliza el usuario para nombrar un elementos, donde a cada elemento del elemento se la denominará etiqueta, de origen le corresponde un elemento del aquí en más. destino. Es por ello que se la denomina En primer instancia, se pensó en simple, a diferencia de la asociación utilizar las letras del alfabeto como compleja, donde a cada elemento del etiquetas, pero al momento de llevarlo origen puede corresponderle 0, 1, o a la práctica, se encontró la dificultad más elementos del destino. de que ciertas letras, tales como la “b” Como primera medida para llevar a y la “d”, eran muy similares en su cabo esta integración se debieron pronunciación, por lo que la tasa de tomar algunas decisiones, las cuales se aciertos detallan a continuación. considerablemente. del diferentes reconocedor disminuía Por otro lado, si se ampliaba el número Etapa 1: Análisis de casilleros a utilizar, resultaba más natural usar combinaciones de dígitos Una de las decisiones que se consideró (por ejemplo 10) que utilizar letras (por fue, cómo tomar conocimiento de que ejemplo se desea realizar la actividad utilizando utilizar letras alternadas, quitando del comandos por voz. diccionario Se consideró que en esta situación, el causaban usuario deba contar con la asistencia mencionados o aquellas que resultaban del docente, ya que es éste quien toma muy la decisión para cada alumno en pronunciación (por ejemplo, el caso de particular, si es adecuado o no utilizar la letra ‘r’). Considerado esto, se RV en la resolución. El programa, para decidió ello, muestra un mensaje en pantalla al números para la creación de las momento de comenzar la actividad. etiquetas. ab). También, del RV, conflictos complejas la en debían aquellas como de solución que los cuanto posibilidad Esta se a ya su utilizar presenta ciertas ventajas, respecto a la planteada anteriormente. Además, que representa al casillero con la adaptaciones necesarias para evitar información. Cabe mencionar, que se dificultades de pronunciación de ciertos generan cuando se ejecuta JClicPlayer, números. Para esto, se tuvieron en sólo si se indica que se desea realizar cuenta otras palabras alternativas a la la actividad con comandos por voz. correcta, por ejemplo, se admite que el Esto implicó una decisión, ya que había usuario diga “tes” en lugar de “tres”, que mantener la presentación de la “tinco” en lugar de “cinco”, “acetar” en información de los dos conjuntos en lugar de “aceptar”, entre otras. forma aleatoria, de manera que no bien decidió se inserte la etiqueta en el componente las Si se agregar el código necesario para que esta decisión realizar implica un apareciera la actividad resuelta, a diccionario de mayor tamaño, presenta causa de las etiquetas. consecuencias positivas en cuanto al Finalmente, aumento de usuarios que podrían necesario de manera que la aplicación utilizar el prototipo. Así, se intentó muestre lograr un equilibrio entre performance confirmación de lo dicho por el usuario. de la aplicación Así, cuando éste nombra los casilleros y usabilidad del se un agregó el mensaje código pidiendo producto. que desea unir, el programa presenta El segundo tema a resolver fue el de un mensaje mostrando las palabras conocer cuándo el usuario termina de reconocidas. Para dar confirmación nombrar los dos elementos a unir. Para positiva al mensaje, se debe decir ello, se pensó en utilizar palabras “aceptar”, “nexo”. Por ejemplo, “uno con tres “cancelar”. A continuación, se presenta aceptar”; lo que se interpreta de esta la segunda etapa de trabajo, que ha sentencia es lo siguiente: el primer sido decidir número representa un casillero del cuestiones vinculadas al motor de RV. y en caso contrario, (y llevar a la práctica) primer conjunto de información, la palabra “con” (nexo) indica que se va a nombrar el casillero del Etapa 2: Configuración de Sphinx-4 segundo conjunto, representado por el segundo En primer lugar, para utilizar Sphinx, se número palabra debe descargar la aplicación desde el “aceptar” indica que el usuario quiere sitio oficial [12]. Allí está disponible el realizar la unión de los casilleros código nombrados. aunque si no se desea modificar código También, con respecto a las etiquetas, (como en nuestro caso), alcanza con de la frase. La se debió pensar en qué momento fuente de la herramienta, incluir el archivo .jar en la aplicación donde las aulas se comparten entre donde se va a integrar. varios alumnos. Por otro lado, si se Actualmente, modelos que utilizando Sphinx-4 han dispone de deseaba extender el diccionario y creados utilizar palabras con la letra “ñ”, no (herramienta existían fonemas en el idioma inglés sido SphinxTrain que provee para el entrenamiento), y que lo represente. puede descargarse desde el sitio de A partir de estas conclusiones, se cmusphinx.org. decidió utilizar un modelo basado en el En un principio, se pensó como una idioma español. Luego de investigar alternativa válida crear el diccionario sobre utilizando alternativas viables. Por un lado, se el modelo el tema, podía z_6800Hz que viene incluido con la utilizando la herramienta SphinxTrain, y distribución de Sphinx-4 y, si bien está por otro, utilizar modelos ya entrenados entrenado para el idioma en inglés, y testeados. En el presente desarrollo reemplazando puede se optó por utilizar un modelo ya reconocer español. Existen trabajos entrenado, pero se hicieron además revisados del área de RV, que realizan algunas pruebas con el entrenador, de este tipo de solución2. manera tal, de entender y estudiar su Si bien los fonemas pertenecen al funcionamiento. idioma inglés, en un primer momento, Para esto se utilizó un modelo ya fueron el entrenado, disponible en la web para diccionario para la integración con su libre utilización. El proyecto se llama JClic. Diálogos Inteligentes Multimodales en Esta solución fue parcialmente válida, Español (DIME), dentro del cual hay ya que el reconocedor funcionaba con más de un modelo acústico. El modelo un alto porcentaje de acierto. Pero, a elegido para este trabajo recibe el pesar de esto, se encontraron dos nombre de DIMEx30-T22 [13]. falencias. Por un lado, había errores en A partir de esta lista de unidades la en fonéticas se creó el diccionario a utilizar ambientes ruidosos. Esto sería un en la integración con JClic. Podría problema en los casos en que la haberse utilizado el diccionario, tal cual adaptación fuera utilizada en escuelas, lo utilizados precisión del fonemas para generar reconocedor presenta el dos WSJ_8gau_13dCep_16k_40mel_130H los entrenar surgieron DIMEx30, reconocedor, pero había palabras que no se encontraban en él, 2 Entre ellos, se consultó el proyecto Mouse Advanced GNU Speech (Magnus): http://magnusproject.wordpress.com/ por lo que se optó por redefinirlo, respetando las unidades fonéticas presentadas. Respecto del modelo de modelo “reconocimiento” dentro del paquete acústico y su arquitectura, se respetó el “src” de JClic. Luego, esta clase, es proporcionado por DIMEx30. utilizada en el método constructor de la Para incorporar estos archivos a la clase Player, si el usuario eligió trabajar aplicación JClic, se debió crear en con reconocimiento de voz. Allí se crea primer lugar un archivo .jar que, por el reconocedor y se puede comenzar a convención, utilizarlo. lenguaje, la definición estructura debía de del respetar directorios de la los También, se hizo que la clase que modelos provistos por Sphinx-4. representa al reconocedor heredara de Luego de armado el archivo .jar, se SwingWorker aunque no utilice Swing, incluyó en el classpath de la aplicación. de manera que JClic y el reconocedor También, se debió configurar Sphinx-4 se para incorporar los nuevos archivos del interactuando modelo acústico, el diccionario, la paralelizar tareas. De esta manera, gramática y el modelo de lenguaje. ambos Esto se realizó a través del archivo de ejecutarse sin problemas. configuración (Configuration Manager). Para llevar a cabo la tarea de resolver En la siguiente sección, se detallan una activad de tipo Asociación Simple, cuestiones referidas al desarrollo del lo que se implementó fue, que al prototipo. crearse, el reconocedor ejecute un ejecuten en hilos entre separados, ellos, componentes, para pueden método llamado getCommand() en la Etapa 3: Desarrollo del prototipo clase que representa dicha actividad. Este método es el encargado de En esta sección se describirán procesar la entrada de voz del usuario aspectos del prototipo que incluyen a y ambos componentes utilizados para la correspondientes. integración. Una de ellas, es cómo se Al recibir la entrada de voz “aceptar”, el realizó la incorporación del framework sistema muestra un cartel con los de reconocimiento de voz a JClic. Para valores que se van a procesar, el ello, se creó una clase en JClic que usuario deberá confirmar estos valores representa al reconocedor, llamada para que la acción se lleve a cabo. VoiceRecognizer, donde se encuentran Para la confirmación es necesario sus principales métodos, tales como el pronunciar método que se utilizó para crearlo, así “aceptar”. Luego de confirmado, se como también, el método que se invoca a un método que se encarga de encarga de realizar el reconocimiento. ejecutar la acción que el usuario desea Se realizar. En este método se buscan los generó un paquete llamado tomar las nuevamente decisiones la palabra casilleros nombrados, si existen y no Sin embargo, como parte de este fueron se trabajo, se ha hecho una propuesta de verifica dentro de la estructura interna cuál sería la estrategia para extender el del una prototipo al resto de las actividades y correspondencia correcta, es decir, si se abordará esto en trabajos futuros. A las celdas seleccionadas son parte de continuación se presenta la evaluación la solución. Si es así, se eliminan de los realizada posibles elementos a elegir y se integración planteadas al momento. elegidos elemento, continúa con antes. si Luego, forman la de las estrategias de próxima correspondencia, hasta llegar a la Evaluación última. Cuándo se llega a ésta, se da por terminada la actividad. Se JClic provee un módulo capaz de presentado contabilizar el tiempo empleado en (vinculados a las distintas áreas que cada actividad, intentos, aciertos, etc. se involucran en este trabajo) para que Si bien el tiempo puede variar si se ellos utiliza reconocimiento de voz, se pensó respecto de este trabajo. en mantener igualdad en el contador de Se consideró más apropiado realizar intentos y aciertos para que el docente primero este tipo de prueba, y analizar pueda evaluar al alumno que está los resultados para tomarlos como resolviendo la actividad. Es por esta líneas razón, que se decidió agregar un cartel investigación. Después de esta etapa donde el usuario vea y confirme que es será posible testear el prototipo con los lo que desea unir, ya que existe, en la usuarios finales, los cuales serían, mayoría de los reconocedores, cierta docentes y alumnos. Esto se creyó tasa de error, con lo cual, podría darse importante, para no someter a los la situación en que se procese una alumnos a situaciones de posibles entrada errónea y JClic lo contara fracasos propios del testeo del software como intento fallido, perjudicando la y de la estrategia en sí misma. evaluación los Además, esta metodología tiene como agregados mencionados, el docente ventaja la calidad de la respuesta y el que creó la actividad podrá usar el nivel de profundización por parte del contador de errores que provee, por experto. defecto, JClic. reflexiones acerca del objeto a evaluar. El prototipo desarrollado al momento Mediante el juicio de expertos, se abarca, como se dijo, la resolución de pretende las actividades de asociación simple. razonablemente buenas, las mejores del alumno. Con decidió someter a prueba expresaran futuras Este prototipo de expertos sus de puede tener el opiniones trabajo ofrecer e sus estimaciones conjeturas, en situaciones donde no se rescatando también lo manifestado por pueden o no es conveniente obtener los encuestados. cuantificaciones Sin Finalmente, se analizó la estrategia embargo, estas estimaciones pueden y planteada de solución, y los expertos deben ser confirmadas o modificadas a manifestaron su acuerdo con la misma lo largo del tiempo, según se vaya y presentaron algunas alternativas a recopilando información sobre el objeto tener en cuenta en trabajos futuros. de estudio. En la siguiente sección se detallan Como instrumento de evaluación se algunos de estos aspectos. exactas [14]. eligió una encuesta con preguntas abiertas y cerradas, de manera tal de Conclusiones y líneas de trabajo poder recoger la información que se futuras cree necesaria para someter a juicio el prototipo. En este artículo se ha realizado una Como conclusión de las encuestas presentación realizadas a expertos, se considera que generales se ha realizado una buena elección del adaptación del software JClic, mediante software educativo a adaptar, como así el uso de reconocimiento por voz. también, la utilización de comandos por Como voz algunos como ayuda técnica. Como de de primer disponibles, opción adaptaciones. usarse de forma un lineamientos prototipo paso, se programas mencionó uno de los expertos, esta puede los junto revisaron educativos con Posteriormente y no necesariamente es mejor o peor seleccionó que otra adaptación, sino que es una implementación alternativa diferente, la cual abre un También, camino de nuevas posibilidades. Si ayudas técnicas, y se pusieron a bien prueba algunas de ellas junto con JClic, expertos se herramientas, al estudio pocos las sus complementaria con otras herramientas unos de de JClic se de para la estudiaron se la adaptación. diferentes manifestaron acerca de la elección del para analizar su funcionamiento. motor voz, Paralelamente, se abordó el tema de la coincidieron en que la misma es discapacidad motriz, y lo que ella acertada. El aspecto fundamental a representa para las personas que la resaltar es su disponibilidad y sus poseen, tanto a nivel cognitivo como posibilidades social. de reconocimiento en de cuanto a funcionalidad. En el marco de este Se pensó en el reconocimiento de voz trabajo, se considera que, la utilización como de implementar la adaptación deseada de sphinx-4 resultó conveniente, una buena alternativa para JClic. Se continuó entonces, con el estudio y análisis de diferentes Realizar pruebas con alumnos y docentes del área. sistemas reconocedores. Se realizaron Permitir la configuración de las consultas también a diferentes usuarios etiquetas (el docente podría de estos sistemas para tomar contacto elegir con como lo crea más conveniente) sus bondades y dificultades. Luego, se profundizó en los aspectos rotular cada casillero Extender la implementación a referidos al reconocimiento de voz, de todas manera de poder contar con los disponibles en JClic, acorde a la conocimientos necesarios para lograr estrategia planteada. las actividades introducir esta tecnología, y llevar a cabo el desarrollo del prototipo. Referencias Obtenida la base teórica, se pusieron en práctica estos conocimientos a [1] través del uso y estudio de diferentes http://www.niee.ufrgs.br/eventos/CIIEE/2003/blo motores que2/comunicaciones/La%20utilizacion%20de% de RV. Se eligió y se profundizó el estudio de Sphinx 4. En Consultado en 2010. 20Software%20de%20uso%20general%20y%20 Aplicaciones%20esp.doc. particular, se tuvo que tomar conocimiento acerca de la estructura [2] Sitio de Jclic. http://clic.xtec.cat/es/jclic/index.htm del motor, su forma de trabajo, y los [3] Sánchez Montoya. “Ordenador y modelos disponibles para el español. Discapacidad. Guía práctica a las Así como también, aspectos vinculados personas con necesidades educativas a su configuración. especiales”. Madrid, 2002 Como último paso, se implementó el [4] EmuClic –Consultado en 2010. prototipo y se realizaron encuestas a http://www.antoniosacco.com.ar/emuclic.htm expertos para que expresen su opinión [5] Ratón Facial – Consultado en 2010 - sobre la estrategia de solución del http://www.crea-si.com/esp/rfacial.php producto desarrollado. [6] Guía de Apoyo a Personas con Si bien se ha obtenido un amplio Discapacidad – Consultado en 2010 - conocimiento http://www.urjc.es/comunidad_universitaria/univ de diferentes herramientas, tanto educativas como relacionadas con RV, quedan ciertas modificaciones, mejoras y extensiones a desarrollar en la adaptación presentada. Como líneas de trabajo futuras, se plantean ersidad_saludable/programa_discapacidad.html [7] Tecnologías Adaptadas – Consultado en 2010. http://tecnoadaptada.blogspot.com/ [8] Nuevas tecnologías y educación de personas con dificultades- Consultado en 2010 http://www.tecnoneet.org/docs/2002/2-82002.pdf [9] Bernal Bermúdez, Sancho, Gómez Bobadilla – Vilda “Reconocimiento de voz y fonética acústica”. México, Alfaomega grupo Editor, 2000. [10] Modelo del lenguaje. Sitio de Sphinx – Consultado en 2010 http://sphinx.subwiki.com/sphinx/index.php/Lang uage_model [11] Rocha Luis. reconocimiento de “Sistemas voz”. de Revista telegráfica electrónica. Agosto 1986. Pp. 1172-1180. [12] Proyecto Sphinx – Consultado en 2010-http://cmusphinx.sourceforge.net/sphinx4/ [13] Modelo en español – Consultado en 2010http://leibniz.iimas.unam.mx/~luis/DIME/recursos .html [14] Arquer “Fiabilidad humana: métodos de cuantificación, juicio de expertos”. Consultado en 2010. http://www.insht.es/InshtWeb/Contenidos/Docu mentacion/FichasTecnicas/NTP/Ficheros/401a5 00/ntp_401.pdf