Adaptación a Jclic para alumnos con deficiencia - Reposital

Anuncio
Adaptación a Jclic para alumnos con deficiencia motriz, mediante comandos por
voz.
M. Lucrecia Moralejo
III LIDI, Facultad de Informática. Universidad de La Plata, La Plata, Buenos Aires,
Argentina.
[email protected]
Stefania Ostermann
Facultad de Informática. Universidad de La Plata, La Plata, Buenos Aires, Argentina.
[email protected]
Cecilia V. Sanz
III LIDI, Facultad de Informática. Universidad de La Plata, La Plata, Buenos Aires,
Argentina.
[email protected]
Además,
Resumen
se
estudiaron
diferentes
motores de reconocimiento de voz
En el presente trabajo se propone la
(RV), y sus fundamentos teóricos. Se
adaptación de un software educativo
profundizó el análisis del motor de RV
mediante comandos por voz, para
Sphinx-4.
alumnos con deficiencia motriz y que
Antes de realizar el prototipo de
no se han visto afectados en el habla.
adaptación, se hizo un estudio de la
Forma parte de un trabajo de fin de
arquitectura de diseño y desarrollo de
carrera realizado en la Facultad de
la herramienta educativa elegida, JClic.
Informática de la UNLP.
Finalmente, se obtuvo el desarrollo de
Durante este proceso se analizaron
un
algunos
programa JClic, con la integración de
programas
educativos
software adaptativos.
y
Además se
prototipo
Sphinx-4
para
de
adaptación
proveer
RV,
del
en
realizaron pruebas de integración de
particular, para las actividades de
varios software adaptativos estudiados
asociación simple. Se presenta aquí
con JClic, para analizar la ayuda que
parte de este trabajo realizado y los
pueden ofrecer a los alumnos con
resultados y conclusiones obtenidas,
algún tipo de deficiencia motriz en la
luego de la evaluación del prototipo.
resolución de actividades.
Palabras
claves:
educativo,
TIC,
software
deficiencia
reconocimiento
por
voz,
atención,
el
estímulo
visual,
la
sensación
de
motriz,
disminución
de
la
ayudas
aislamiento,
el
entretenimiento,
técnicas.
el
control del ambiente, entre otras [1].
Una de las razones de la escasa
implantación
Introducción
de
las
TIC
en
la
educación especial es la diversidad y la
Actualmente, existe una gran cantidad
especificidad de las necesidades. Su
de software orientado a la educación
utilización como herramientas, en este
en sus distintos niveles. Muchos de
campo,
ellos han sido adaptados o creados
complejos
teniendo en cuenta la diversidad de
personalizados, que además van a ser
alumnos,
utilizados
pero
herramientas
otros
son
estándares
sólo
que
no
requiere
y
por
desarrollos
variados,
muy
algunos
colectivos
poco
numerosos.
brindan adaptación alguna, por lo que
La situación actual presenta grandes
están
conjunto
retos a superar para que una persona
restringido de alumnos. Las personas
con disminución pueda estar en una
que están afectadas de algún tipo de
posición de igualdad de condiciones,
disminución motriz, suelen influenciar
respecto de las demás personas. Por lo
alguna de las habilidades básicas,
tanto, se debe adaptar adecuadamente
relacionadas con la percepción (visual,
el entorno y utilizar ayudas técnicas,
auditiva y táctil), la comunicación, el
que permitan eliminar al máximo de
desplazamiento y/o la manipulación. En
barreras,
que
dificultan
consecuencia,
persona
con
discapacidad
destinados
a
se
un
encuentran
con
que
una
pueda
numerosos obstáculos y barreras que
interaccionar en él. Y sin embargo, éste
les
desarrollo
de
ha sido el punto principal de conflicto:
ejecución
de
las personas con disminución motriz no
las
disponen con frecuencia de las ayudas
personas y el entorno, etc. Para las
técnicas y adaptaciones necesarias
personas con necesidades especiales,
para interaccionar en un entorno hostil.
la mera utilización de las TIC puede
Las personas con gran compromiso
representar
un
motriz tienen poca autonomía para la
elevado grado de autonomía en su vida
realización de tareas, necesitando de
personal.
una forma constante, la llamada ayuda
Algunos de los aspectos que se
de terceros, para cambiar de tareas,
pueden abordar utilizando programas
acceder a información, desplazarse,
de computación son: el enfoque de la
etc. En la computadora este problema
impiden
el
habilidades,
actividades,
la
la
la
relación
consecución
con
de
también se manifiesta, pues suele ser
sin dificultades. Además, requeriría un
el
ayuda
menor esfuerzo si la persona pudiera
constantemente a la persona a realizar
usar la voz para manipular el ordenador
las
y se evitarían las lesiones producidas
profesional
tareas.
Un
autonomía
quien
mayor
los
nivel
haría
de
sentir
por “esfuerzo repetitivo”.
independientes, podría aumentar su
autoestima y su autosuficiencia, y en
consecuencia, hacerlos sentir útiles y
capaces.
También
considerablemente
comportamiento,
influirá
en
facilitando
que
puedan realizar actividades nuevas por
Por lo tanto, estas razones motivan el
adaptaciones
a
un
software muy utilizado en el ámbito
educativo como es JClic, para facilitar
su uso por parte de alumnos con
dificultades motoras, y así incentivar su
Si bien se conoce la relación entre la
discapacidad motora y la dificultad en
el desarrollo del lenguaje, esto no se da
en todos los casos. Este trabajo está
a
problemas
las
motores,
personas
con
pero
sin
consecuencias o con consecuencias
leves en el desarrollo el lenguaje. Se
pensó
en
este
subconjunto
de
personas, ya que existen más variedad
de ayudas técnicas para personas con
discapacidad
como
herramienta a adaptar
Existen en el mercado, una gran
cantidad
de
softwares
con
fines
educativos.
variado de los programas disponibles,
se analizaron algunos de ellos, los
cuales
ofrecen
diferentes
funcionalidades y además se podrían
utilizar en diversos niveles educativos.
Entre
ellos,
se
encuentran
JClic,
Textoys, Hot Potatoes, Markin, Lim, y
desarrollo intelectual.
destinado
Jclic
Con el objetivo de tener un panorama
iniciativa propia.
de
de
su
puedan ser emprendedores y que
desarrollo
Elección
motriz
mediante
la
utilización de diferentes partes del
cuerpo y se considera que sería una
buena alternativa, el uso de la voz, si la
persona afectada se expresa oralmente
Wink, etc.
De estos programas analizados, se
optó por adaptar la herramienta JClic,
que es un entorno para la creación,
realización y evaluación de actividades
educativas multimedia.
Algunas de las características que
llevaron a la elección de este software,
fueron que está desarrollado bajo
licencia
GPL,
lo
que
provee
la
oportunidad de contar con el código
fuente
del
programa
para
poder
estudiarlo y analizarlo. De esta manera,
se puede llevar a cabo la integración
propuesta. También es uno de los
software más utilizados para realizar
actividades educativas (ya lleva años
asociaciones,
de uso en el ámbito), de manera que se
palabras
creyó que sería interesante comenzar
actividades, por lo general, no se
el desarrollo de un prototipo para
presentan solas, sino empaquetadas
ampliar la diversidad de usuarios de
en
dichas actividades.
formado por un conjunto de actividades
Otro punto fuerte en esta elección, es
y una o más secuencias, que indican el
que es posible utilizar JClic en distintos
orden en que se han de mostrar.
sistemas
operativos,
tales
ejercicios
cruzadas,
proyectos.
de
etc.
Un
texto,
[2].
proyecto
Las
está
como
Windows, Linux, Solaris y Mac OS X.
Pruebas de integración de JClic
Esta cualidad viene dada porque JClic
con diferentes ayudas técnicas
se encuentra enteramente desarrollado
con
tecnología
Java,
la
cual
es
multiplataforma.
Características de JClic
Con el objetivo de obtener un mayor
conocimiento
de
presentadas
a
las
un
posibilidades
alumno
con
deficiencia motriz para resolver una
actividad de JClic,
se realizaron
Como se mencionó anteriormente JClic
algunas pruebas del uso de diferentes
es
softwares de autoayuda en conjunto
un
entorno
para
la
creación,
realización y evaluación de actividades
con JClic.
educativas multimedia. El cual está
Los programas de autoayudas se
compuesto
definen como un grupo de aplicaciones
por
fundamentales,
tres
componentes
que
o utilidades que se cargan en la
permite crear, editar y publicar las
memoria de la computadora antes que
actividades de una manera sencilla,
el programa principal. Su propósito es
visual e intuitiva, JClicPlayer para la
facilitar
resolución de las mismas (el cual
informáticas de tipo general a los
puede presentarse como applet o como
usuarios con discapacidad que, de otra
una aplicación JClic) y JClicReports
forma, se verían obligados a usar sólo
que
programas específicamente diseñados
es
el
JClicAuthor
módulo
encargado
de
el
uso
de
aplicaciones
recopilar los datos (tiempo empleado
para ellos [3].
en cada actividad, intentos, aciertos,
Algunos ejemplos de este tipo de
etc.),
autoayudas son: Mouse Por Barrido,
y
presentarlos
después
en
informes estadísticos de diversos tipos.
Esta aplicación sirve para realizar
diversos
educativas:
tipos
de
actividades
rompecabezas,
Emuclic, Kanghooru y Ratón Facial.
Para estas pruebas se utilizaron sólo
(o pulsador) estándar. Trabaja en modo
Emuclic, Mouse por barrido y ratón
residente, sin interferir con la ejecución
facial.
de otros programas, y está destinado a
Emuclic convierte la acción de un
funcionar
switch (conmutador) estándar, o el
aplicaciones. Una vez que se ejecuta
sonido captado por un micrófono, en
queda funcionando en modo residente.
en
conjunto
con
otras
una o varias combinaciones de teclas o
clics del mouse [4].
Ratón Facial es un programa que,
El objetivo del programa es emular
unido a una webcam USB estándar,
diversas funciones del teclado o del
permite
mouse, de manera que cada vez que
ordenador sin las manos, mediante
se accione el switch o se genere
ligeros
sonido, la computadora interprete que
alguna zona del cuerpo previamente
se ha presionado una determinada
configurada [5]. Se puede utilizar como
tecla, realizado un clic con el mouse,
sustituto o complemento del ratón
etc. De esta forma, cualquier programa
convencional.
que espere la presión de esa tecla
diseñado
reaccionará a la acción del conmutador
discapacidades motrices en manos o
o el sonido.
brazos. Este software le proporciona al
controlar
y
suaves
Está
para
totalmente
el
movimientos
de
especialmente
personas
con
usuario una solución efectiva y fiable
Mouse Por Barrido (MPB) es un
para la interacción con el ordenador.
software de distribución gratuita, que
corre bajo Windows. La versión 3.0 de
Pruebas realizadas
este programa fue liberada por Antonio
Sacco1. Está pensado especialmente
Para llevar a cabo estas pruebas de
para personas que por problemas
integración, se generó una actividad
motrices no pueden utilizar un mouse
JClic de prueba, la cual consta de una
convencional con precisión. El objetivo
asociación simple donde se presentan
del programa es permitir al usuario el
dos grillas: una con sumas y otra con
manejo total del puntero del mouse
los resultados. El usuario deberá unir
mediante la sola presión de un switch
adiciones a su respectivo resultado. La
forma de resolver esta actividad es la
1 Antonio Sacco - Graduado en Ingeniería en
Sistemas de Información, en la Universidad
Tecnológica Nacional. Especialista en Informática
Aplicada en la Educación. Ha realizado varios aportes
en el área de tecnología aplicada a la educación nivel
internacional. Algunos de ellos son: Emuclic, MPB
(Mouse
Por
Barrido),
entre
otros.
En
http://www.antoniosacco.com.ar/ puede encontrarse
más información.
siguiente: el usuario hace clic en una
celda, mueve el mouse hacia una celda
de la otra grilla y hace clic, si la unión
que eligió es correcta (la suma que se
muestra en la celda de una de las
grillas da como resultado el número
intentar posicionar el cursor con otro
que se muestra en una celda de la otra
movimiento.
grilla), JClic marca esas celdas para
El tiempo que se necesita para resolver
que no se puedan volver a elegir y
la actividad es bastante mayor al que
otorga un punto de acierto al usuario.
llevaría
Se debe repetir esta serie de pasos
adaptación.
resolverla
sin
ninguna
hasta que todas las celdas se unan
quedando resuelta la actividad.
Integración con ratón facial
Se describen aquí sólo dos de las
Fue posible realizar actividades con
pruebas de integración realizadas:
JClic a través del uso de ratón facial, ya
que este software provee el manejo del
Integración de Mouse por barrido
mouse, a través de una cámara web
que lo reemplaza, pudiéndose realizar
Fue
posible
realizar
actividad
dichas actividades sin problemas. Las
utilizando MBP, ya que este software
pruebas se realizaron configurando el
provee el manejo completo de la
uso de clic por espera, es decir, que se
funcionalidad de un mouse a través de
debe mantener el mouse sin moverse
un switch. Permite seleccionar las
por cierta cantidad de tiempo para que
celdas necesarias, a través de las
el ratón ejecute el clic.
pulsaciones del switch, para resolver la
En principio se notó que la precisión del
actividad.
programa
ratón depende de la cámara web
residente muestra la imagen de la
utilizada y de la calidad del video, por lo
funcionalidad que se necesita (por
que
ejemplo, clic con el botón izquierdo) se
utilización.
debe pulsar el switch.
En particular, para MBP y Ratón Facial,
La desventaja o dificultad que se
de ser necesaria la utilización del
experimentó mientras se resolvía la
teclado, para realizar actividades como
actividad de prueba, fue que resultó
las de texto es necesario utilizar un
tediosa la espera de la imagen que se
teclado virtual para complementar la
quería ejecutar. Además, si por ejemplo
funcionalidad.
Cuando
la
el
a
veces
puede
dificultar
su
se detenía el mouse a muy poca
distancia de la celda que se quería
Si bien es posible utilizar algunos de
presionar,
mínima
estos softwares junto con JClic, se vio
distancia resultaba complicado, y era
al reconocimiento de voz como una
más sencillo alejarse de ella y volver a
alternativa viable, la cual apunta al uso
avanzar
esa
del habla cuando sea posible para el
usuario, siempre y cuando éste se
lectoescritura,
o
el
desarrollo
desenvuelva oralmente sin dificultades
actividades de autocuidado [6].
de
o con dificultades leves. Se considera
importante destacar, que es necesario
A
introducirse
problema en cuanto a la intervención
en
el
área
de
nivel
educativo,
reconocimiento de voz para facilitar el
centrada
uso
aprendizaje
de
la
computadora
para
las
en
sus
se
plantea
posibilidades
y
el
de
potencialidades
personas con problemas motrices, ya
educativas, y no en el déficit que
que con el uso de la voz se evita el
presenta el alumno.
esfuerzo físico que se genera al
Desde
intentar usar ayudas técnicas como el
discapacidad física, el ordenador, a
switch.
modo de prótesis, abre posibilidades
el
hasta
punto
ahora
de
vista
poco
de
la
imaginables.
Particularidades de las personas
Personas con un pequeño resto de
con dificultades motrices
control
motriz
pueden
llegar
a
comunicarse con los demás, ocupar su
La discapacidad motriz podría definirse
tiempo de ocio de forma gratificante,
como la pérdida o restricción de la
realizar
capacidad
movimiento,
integrarse laboralmente. El ordenador,
desplazamiento y equilibrio de todo o
ha ayudado a cambiar la idea de que
de una parte del cuerpo. Se entiende
muchas personas con discapacidades
como
físicas graves deberían estar recluidas
la
de
alteración
o
deficiencia
cursos
de
formación
e
orgánica del aparato motor o de su
[3].
funcionamiento, que afecta al sistema
Hoy
óseo, articulatorio, nervioso y muscular.
fundamentos
Según la causa de la discapacidad, y el
capacidad de las ayudas técnicas e
grado de ésta, pueden existir además
informáticas
restricciones para el desarrollo del
formatos de la actividad escolar e
lenguaje, o de la manipulación de
incidir positivamente en el proceso de
objetos, siendo oportuno señalar que
enseñanza y aprendizaje de los niños y
este tipo de restricciones no tiene por
jóvenes con necesidades educativas
qué afectar a los procesos cognitivos o
especiales, sin embargo, al descender
de aprendizaje, aunque en ocasiones,
a la práctica, se ve que no es sencillo
puede presentarse un enlentecimiento
encontrar las TIC adecuadas a cada
en algunas actividades y habilidades,
necesidad [7]. Para disminuir la brecha
como
existente
la
comunicación,
la
en
día,
existen
teóricos
para
entre
muchos
sobre
adaptarse a
las
personas
la
los
con
necesidades especiales y la tecnología,
se utilizan lo que se conoce como
Ayuda
ayudas técnicas. Estas ayudas, facilitan
Reconocimiento de voz
el
acceso
al
ordenador,
adaptaciones
que
se
técnica
seleccionada:
mediante
usan
como
El avance tecnológico ha aportado al
complemento para utilizar el teclado o
ser
el
existen
posibilidades de desarrollar un modo
dispositivos que se pueden utilizar para
de vida más completo, pero al mismo
sustituir a algunos de los comúnmente
tiempo exige continuamente nuevos y
usados.
específicos
mouse,
además
Es
decir,
se
existen
ayudas
humano
nuevas
y
mayores
conocimientos
y
técnicas para acceder a las interfaces
habilidades en el individuo para poder
estándar (varilla bucal, sujeta teclas,
hacer uso de las posibilidades que le
licornio, etc.), y otras para sustituirlas
ofrecen. En las personas con algún tipo
(Joystick, Switch, teclado virtual, etc).
de
Además
otras
complejidad del medio social puede
“ayudas
tener, sin embargo el efecto contrario al
de
tecnologías
estas,
existen
consideradas
discapacidad,
la
progresiva
técnicas”, tal como es el caso del
buscado por el progreso social [8].
reconocimiento de voz.
Así se encuentra en el reconocimiento
Con el uso de esta tecnología, se
de
podría
comunicación
utilizar
cualquier
programa,
voz
una
alternativa
con
la
para
la
computadora,
dándole las órdenes a la computadora
permitiendo que las personas con
verbalmente mediante letras, palabras,
discapacidades
o frases. La interacción resulta más
pueden acceder al teclado estándar y
eficaz que si utiliza, por ejemplo, el
al mouse puedan, con el habla, realizar
lento proceso de comunicarse a través
acciones que sin esta tecnología no le
de un conmutador siguiendo la técnica
serían posibles, en otras palabras, el
de barrido.
objetivo es convertir el habla humana
Si bien se ha mencionado la relación
en
entre la discapacidad motora y la
computadora.
acciones
motoras
interpretables
que
por
no
la
dificultad en el desarrollo del lenguaje,
esto no se da en todos los casos. Este
Esta tecnología, es una parte de la
trabajo, como ya se mencionó, está
Inteligencia Artificial, que tiene como
destinado
problemas
a
las
motores,
personas
con
objetivo
permitir
pero
sin
hablada
entre
la
seres
comunicación
humanos
y
consecuencias o con consecuencias
computadoras electrónicas, es decir, es
leves en el desarrollo el lenguaje.
el
proceso
de
conversión
de
un
mensaje hablado a texto, que permite
al usuario una comunicación con la
computadora. El problema que se
vocabularios
plantea en un sistema de RV es el de
tener cientos de miles o más. La
hacer
cooperar
informaciones
diversas
un
que
fuentes
muy
grandes
pueden
conjunto
de
gramática se define a partir de las
provienen
de
palabras
de
conocimiento
que
debe
aceptar
la
aplicación, y puede estar dada a través
(acústica, fonética, fonológica, léxica,
de un estilo similar a BNF.
sintáctica, semántica y pragmática), en
El modelo de lenguaje puede ser
presencia
abordado
de
ambigüedades,
a
través
de
modelos
(Statistical
Model
incertidumbres y errores inevitables
estadísticos
para llegar a obtener una interpretación
Language
aceptable
gramáticas de estado finito (Finite
del
recibido
[9].
mensaje
o
utilizando
Grammar State - FGS) [10]. Un modelo
una
estadístico captura la probabilidad de
herramienta computacional capaz de
las palabras y de las secuencias de
procesar la señal de voz emitida por el
palabras.
ser humano, y reconocer la información
decodificador para limitar la búsqueda,
contenida en ésta, convirtiéndola en
y generalmente, hace una contribución
texto o emitiendo órdenes que actúan
significativa
sobre un proceso. En su desarrollo
reconocimiento. Un buen modelo es
intervienen diversas disciplinas, tales
aquel que modela con precisión la
como: la fisiología, la acústica, el
entrada esperada. Se caracteriza por
procesamiento
la
su orden, en términos de “n-gram”,
inteligencia artificial y la ciencia de la
donde “n” indica el tamaño de la
computación.
ventana sobre la cual se computan las
Existen algunos componentes de gran
estadísticas. En general cuanto más
importancia para los sistemas de RV,
grande sea “n” más preciso será el
que son: el diccionario, la gramática, el
modelo. También, a mayor “n” se
modelo
necesitan más datos para asegurar que
de
voz
de
acústico
lenguaje.
sistema
SLM)
de
reconocimiento
Un
acústico
-
Donde
es
señales,
y el
el
modelo
de
diccionario
las
Es
a
utilizado
la
estadísticas
en
exactitud
se
el
del
estiman
representa el conjunto de palabras o
sólidamente. Una gramática de estados
sonidos a reconocer. A diferencia de un
finitos define las posibles palabras, así
diccionario normal, cada entrada no
como también el posible orden de
tiene por qué ser una única palabra.
dichas palabras.
Estas pueden ser tan largas como una
Un modelo acústico se crea a partir de
oración
grabaciones,
o
dos.
Los
vocabularios
sus
respectivas
pequeños pueden tener una o dos
transcripciones, y el uso de software
sonidos a reconocer, mientras que los
para
crear
representaciones
estadísticas
de
componen
cada
performance
producida
los
que
voz, y en consecuencia, se encuentra
La
en constante desarrollo y actualización.
reconocimiento
Por las características de su licencia,
palabra
del
por
sonidos
el
[11].
modelo
acústico
es
posible
utilizarlo
libremente en
puede mejorarse aún más, mediante un
cualquier desarrollo e investigación.
modelo de lenguaje, el cual contribuye
Además, también se puede obtener su
a
código fuente, en caso de que sea
evitar
ambigüedad
entre
varias
palabras similares producidas por el
necesaria
modelo acústico.
estudiar su funcionamiento a bajo nivel.
Para la elección de la herramienta a
Está completamente desarrollado con
utilizar,
distintos
tecnología Java, al igual que JClic. De
softwares de reconocimiento de voz,
manera que servía al propósito de
entre
integrar
se
analizaron
ellos
Loquendo,
Xvoice,
alguna
ambos
modificación
componentes
sin
NicoTollkit, Sphinx y Dragon Naturally
dificultades
Speaking.
sus
incompatibilidad de lenguajes. Además,
características,
ha sido diseñado con un alto grado de
Se
estudiaron
principales
provocadas
o
por
funcionalidades y requisitos.
flexibilidad y modularidad, donde cada
De los analizados, se optó por Sphinx,
elemento
particularmente la versión 4. Es un
fácilmente reemplazado o modificado.
sistema desarrollado en la Universidad
A través del Configuration Manager, es
de
Este
que el framework brinda la posibilidad
framework es un sistema basado en los
de cargar y configurar los distintos
Modelos Ocultos de Markov (HMM,
módulos dinámicamente, en tiempo de
Hidden Markov Model), por lo que, para
ejecución.
su
debe
componentes van a ser usados y la
(o
configuración particular de cada uno de
de
ellos. En particular, es posible indicar el
unidades de sonido, y luego utilizar lo
diccionario y la gramática que se
que ha aprendido de estas unidades
utilizaran durante el reconocimiento. A
para
continuación, se presenta la propuesta
Carnegie
Mellon
funcionamiento
aprender
las
parámetros)
de
encontrar
(CMU).
primero
características
un
la
conjunto
secuencia
de
unidades de sonido más probable para
del
sistema
puede
Determinando
así,
ser
que
particular para este trabajo.
una señal de voz dada. Se optó por
esta
herramienta,
ampliamente
ya
utilizada
que
es
Propuesta de adaptación
por
investigadores y desarrolladores que se
La adaptación propuesta ha abordado
dedican al área del reconocimiento de
la modificación de las actividades de
JClic de manera que se puedan
resolver a través de la utilización de
Este pide que se indique si se desea
comandos por voz. Para ello se tomó,
utilizar reconocimiento de voz.
inicialmente,
Otra cuestión de suma importancia, ha
la
actividad
del
tipo
asociación simple.
sido decidir qué mecanismo proveer
En este caso de actividad, que JClic
para identificar cada elemento de la
permite crear, el usuario
tiene que
pantalla que presente interactividad,
descubrir
existentes
con el fin de resolver la actividad. Para
las
relaciones
entre dos conjuntos de información. Es
esto
se
analizaron
decir, se presentan dos grupos de
posibilidades. Esta identificación que
datos que tienen el mismo número de
utiliza el usuario para nombrar un
elementos, donde a cada elemento del
elemento se la denominará etiqueta, de
origen le corresponde un elemento del
aquí en más.
destino. Es por ello que se la denomina
En primer instancia, se pensó en
simple, a diferencia de la asociación
utilizar las letras del alfabeto como
compleja, donde a cada elemento del
etiquetas, pero al momento de llevarlo
origen puede corresponderle 0, 1, o
a la práctica, se encontró la dificultad
más elementos del destino.
de que ciertas letras, tales como la “b”
Como primera medida para llevar a
y la “d”, eran muy similares en su
cabo esta integración se debieron
pronunciación, por lo que la tasa de
tomar algunas decisiones, las cuales se
aciertos
detallan a continuación.
considerablemente.
del
diferentes
reconocedor
disminuía
Por otro lado, si se ampliaba el número
Etapa 1: Análisis
de casilleros a utilizar, resultaba más
natural usar combinaciones de dígitos
Una de las decisiones que se consideró
(por ejemplo 10) que utilizar letras (por
fue, cómo tomar conocimiento de que
ejemplo
se desea realizar la actividad utilizando
utilizar letras alternadas, quitando del
comandos por voz.
diccionario
Se consideró que en esta situación, el
causaban
usuario deba contar con la asistencia
mencionados o aquellas que resultaban
del docente, ya que es éste quien toma
muy
la decisión para cada alumno en
pronunciación (por ejemplo, el caso de
particular, si es adecuado o no utilizar
la letra ‘r’). Considerado esto, se
RV en la resolución. El programa, para
decidió
ello, muestra un mensaje en pantalla al
números para la creación de las
momento de comenzar la actividad.
etiquetas.
ab).
También,
del
RV,
conflictos
complejas
la
en
debían
aquellas
como
de
solución
que
los
cuanto
posibilidad
Esta
se
a
ya
su
utilizar
presenta
ciertas
ventajas,
respecto
a
la
planteada anteriormente.
Además,
que representa al casillero con la
adaptaciones necesarias para evitar
información. Cabe mencionar, que se
dificultades de pronunciación de ciertos
generan cuando se ejecuta JClicPlayer,
números. Para esto, se tuvieron en
sólo si se indica que se desea realizar
cuenta otras palabras alternativas a la
la actividad con comandos por voz.
correcta, por ejemplo, se admite que el
Esto implicó una decisión, ya que había
usuario diga “tes” en lugar de “tres”,
que mantener la presentación de la
“tinco” en lugar de “cinco”, “acetar” en
información de los dos conjuntos en
lugar de “aceptar”, entre otras.
forma aleatoria, de manera que no
bien
decidió
se inserte la etiqueta en el componente
las
Si
se
agregar el código necesario para que
esta
decisión
realizar
implica
un
apareciera la actividad resuelta, a
diccionario de mayor tamaño, presenta
causa de las etiquetas.
consecuencias positivas en cuanto al
Finalmente,
aumento de usuarios que podrían
necesario de manera que la aplicación
utilizar el prototipo. Así, se intentó
muestre
lograr un equilibrio entre performance
confirmación de lo dicho por el usuario.
de la aplicación
Así, cuando éste nombra los casilleros
y usabilidad del
se
un
agregó
el
mensaje
código
pidiendo
producto.
que desea unir, el programa presenta
El segundo tema a resolver fue el de
un mensaje mostrando las palabras
conocer cuándo el usuario termina de
reconocidas. Para dar confirmación
nombrar los dos elementos a unir. Para
positiva al mensaje, se debe decir
ello, se pensó en utilizar palabras
“aceptar”,
“nexo”. Por ejemplo, “uno con tres
“cancelar”. A continuación, se presenta
aceptar”; lo que se interpreta de esta
la segunda etapa de trabajo, que ha
sentencia es lo siguiente: el primer
sido decidir
número representa un casillero del
cuestiones vinculadas al motor de RV.
y
en
caso
contrario,
(y llevar a la práctica)
primer conjunto de información, la
palabra “con” (nexo) indica que se va a
nombrar
el
casillero
del
Etapa 2: Configuración de Sphinx-4
segundo
conjunto, representado por el segundo
En primer lugar, para utilizar Sphinx, se
número
palabra
debe descargar la aplicación desde el
“aceptar” indica que el usuario quiere
sitio oficial [12]. Allí está disponible el
realizar la unión de los casilleros
código
nombrados.
aunque si no se desea modificar código
También, con respecto a las etiquetas,
(como en nuestro caso), alcanza con
de
la
frase.
La
se debió pensar en qué momento
fuente
de
la
herramienta,
incluir el archivo .jar en la aplicación
donde las aulas se comparten entre
donde se va a integrar.
varios alumnos. Por otro lado, si se
Actualmente,
modelos
que
utilizando
Sphinx-4
han
dispone
de
deseaba extender el diccionario y
creados
utilizar palabras con la letra “ñ”, no
(herramienta
existían fonemas en el idioma inglés
sido
SphinxTrain
que provee para el entrenamiento), y
que lo represente.
puede descargarse desde el sitio de
A partir de estas conclusiones, se
cmusphinx.org.
decidió utilizar un modelo basado en el
En un principio, se pensó como una
idioma español. Luego de investigar
alternativa válida crear el diccionario
sobre
utilizando
alternativas viables. Por un lado, se
el
modelo
el
tema,
podía
z_6800Hz que viene incluido con la
utilizando la herramienta SphinxTrain, y
distribución de Sphinx-4 y, si bien está
por otro, utilizar modelos ya entrenados
entrenado para el idioma en inglés,
y testeados. En el presente desarrollo
reemplazando
puede
se optó por utilizar un modelo ya
reconocer español. Existen trabajos
entrenado, pero se hicieron además
revisados del área de RV, que realizan
algunas pruebas con el entrenador, de
este tipo de solución2.
manera tal, de entender y estudiar su
Si bien los fonemas pertenecen al
funcionamiento.
idioma inglés, en un primer momento,
Para esto se utilizó un modelo ya
fueron
el
entrenado, disponible en la web para
diccionario para la integración con
su libre utilización. El proyecto se llama
JClic.
Diálogos Inteligentes Multimodales en
Esta solución fue parcialmente válida,
Español (DIME), dentro del cual hay
ya que el reconocedor funcionaba con
más de un modelo acústico. El modelo
un alto porcentaje de acierto. Pero, a
elegido para este trabajo recibe el
pesar de esto, se encontraron dos
nombre de DIMEx30-T22 [13].
falencias. Por un lado, había errores en
A partir de esta lista de unidades
la
en
fonéticas se creó el diccionario a utilizar
ambientes ruidosos. Esto sería un
en la integración con JClic. Podría
problema en los casos en que la
haberse utilizado el diccionario, tal cual
adaptación fuera utilizada en escuelas,
lo
utilizados
precisión
del
fonemas
para
generar
reconocedor
presenta
el
dos
WSJ_8gau_13dCep_16k_40mel_130H
los
entrenar
surgieron
DIMEx30,
reconocedor,
pero
había
palabras que no se encontraban en él,
2
Entre ellos, se consultó el proyecto Mouse
Advanced
GNU
Speech
(Magnus):
http://magnusproject.wordpress.com/
por lo que se optó por redefinirlo,
respetando
las
unidades
fonéticas
presentadas. Respecto del modelo de
modelo
“reconocimiento” dentro del paquete
acústico y su arquitectura, se respetó el
“src” de JClic. Luego, esta clase, es
proporcionado por DIMEx30.
utilizada en el método constructor de la
Para incorporar estos archivos a la
clase Player, si el usuario eligió trabajar
aplicación JClic, se debió crear en
con reconocimiento de voz. Allí se crea
primer lugar un archivo .jar que, por
el reconocedor y se puede comenzar a
convención,
utilizarlo.
lenguaje,
la definición
estructura
debía
de
del
respetar
directorios
de
la
los
También, se hizo que la clase que
modelos provistos por Sphinx-4.
representa al reconocedor heredara de
Luego de armado el archivo .jar, se
SwingWorker aunque no utilice Swing,
incluyó en el classpath de la aplicación.
de manera que JClic y el reconocedor
También, se debió configurar Sphinx-4
se
para incorporar los nuevos archivos del
interactuando
modelo acústico, el diccionario, la
paralelizar tareas. De esta manera,
gramática y el modelo de lenguaje.
ambos
Esto se realizó a través del archivo de
ejecutarse sin problemas.
configuración (Configuration Manager).
Para llevar a cabo la tarea de resolver
En la siguiente sección, se detallan
una activad de tipo Asociación Simple,
cuestiones referidas al desarrollo del
lo que se implementó fue, que al
prototipo.
crearse, el reconocedor ejecute un
ejecuten
en
hilos
entre
separados,
ellos,
componentes,
para
pueden
método llamado getCommand() en la
Etapa 3: Desarrollo del prototipo
clase que representa dicha actividad.
Este método es el encargado de
En
esta
sección
se
describirán
procesar la entrada de voz del usuario
aspectos del prototipo que incluyen a
y
ambos componentes utilizados para la
correspondientes.
integración. Una de ellas, es cómo se
Al recibir la entrada de voz “aceptar”, el
realizó la incorporación del framework
sistema muestra un cartel con los
de reconocimiento de voz a JClic. Para
valores que se van a procesar, el
ello, se creó una clase en JClic que
usuario deberá confirmar estos valores
representa al reconocedor, llamada
para que la acción se lleve a cabo.
VoiceRecognizer, donde se encuentran
Para la confirmación es necesario
sus principales métodos, tales como el
pronunciar
método que se utilizó para crearlo, así
“aceptar”. Luego de confirmado, se
como también, el método que se
invoca a un método que se encarga de
encarga de realizar el reconocimiento.
ejecutar la acción que el usuario desea
Se
realizar. En este método se buscan los
generó
un
paquete
llamado
tomar
las
nuevamente
decisiones
la
palabra
casilleros nombrados, si existen y no
Sin embargo, como parte de este
fueron
se
trabajo, se ha hecho una propuesta de
verifica dentro de la estructura interna
cuál sería la estrategia para extender el
del
una
prototipo al resto de las actividades y
correspondencia correcta, es decir, si
se abordará esto en trabajos futuros. A
las celdas seleccionadas son parte de
continuación se presenta la evaluación
la solución. Si es así, se eliminan de los
realizada
posibles elementos a elegir y se
integración planteadas al momento.
elegidos
elemento,
continúa
con
antes.
si
Luego,
forman
la
de
las
estrategias
de
próxima
correspondencia, hasta llegar a la
Evaluación
última. Cuándo se llega a ésta, se da
por terminada la actividad.
Se
JClic provee un módulo capaz de
presentado
contabilizar el tiempo empleado en
(vinculados a las distintas áreas que
cada actividad, intentos, aciertos, etc.
se involucran en este trabajo) para que
Si bien el tiempo puede variar si se
ellos
utiliza reconocimiento de voz, se pensó
respecto de este trabajo.
en mantener igualdad en el contador de
Se consideró más apropiado realizar
intentos y aciertos para que el docente
primero este tipo de prueba, y analizar
pueda evaluar al alumno que está
los resultados para tomarlos como
resolviendo la actividad. Es por esta
líneas
razón, que se decidió agregar un cartel
investigación. Después de esta etapa
donde el usuario vea y confirme que es
será posible testear el prototipo con los
lo que desea unir, ya que existe, en la
usuarios finales, los cuales serían,
mayoría de los reconocedores, cierta
docentes y alumnos. Esto se creyó
tasa de error, con lo cual, podría darse
importante, para no someter a los
la situación en que se procese una
alumnos a situaciones de posibles
entrada errónea y JClic lo contara
fracasos propios del testeo del software
como intento fallido, perjudicando la
y de la estrategia en sí misma.
evaluación
los
Además, esta metodología tiene como
agregados mencionados, el docente
ventaja la calidad de la respuesta y el
que creó la actividad podrá usar el
nivel de profundización por parte del
contador de errores que provee, por
experto.
defecto, JClic.
reflexiones acerca del objeto a evaluar.
El prototipo desarrollado al momento
Mediante el juicio de expertos, se
abarca, como se dijo, la resolución de
pretende
las actividades de asociación simple.
razonablemente buenas, las mejores
del
alumno.
Con
decidió
someter
a
prueba
expresaran
futuras
Este
prototipo
de
expertos
sus
de
puede
tener
el
opiniones
trabajo
ofrecer
e
sus
estimaciones
conjeturas, en situaciones donde no se
rescatando también lo manifestado por
pueden o no es conveniente obtener
los encuestados.
cuantificaciones
Sin
Finalmente, se analizó la estrategia
embargo, estas estimaciones pueden y
planteada de solución, y los expertos
deben ser confirmadas o modificadas a
manifestaron su acuerdo con la misma
lo largo del tiempo, según se vaya
y presentaron algunas alternativas a
recopilando información sobre el objeto
tener en cuenta en trabajos futuros.
de estudio.
En la siguiente sección se detallan
Como instrumento de evaluación se
algunos de estos aspectos.
exactas
[14].
eligió una encuesta con preguntas
abiertas y cerradas, de manera tal de
Conclusiones y líneas de trabajo
poder recoger la información que se
futuras
cree necesaria para someter a juicio el
prototipo.
En este artículo se ha realizado una
Como conclusión de las encuestas
presentación
realizadas a expertos, se considera que
generales
se ha realizado una buena elección del
adaptación del software JClic, mediante
software educativo a adaptar, como así
el uso de reconocimiento por voz.
también, la utilización de comandos por
Como
voz
algunos
como
ayuda
técnica.
Como
de
de
primer
disponibles,
opción
adaptaciones.
usarse
de
forma
un
lineamientos
prototipo
paso,
se
programas
mencionó uno de los expertos, esta
puede
los
junto
revisaron
educativos
con
Posteriormente
y no necesariamente es mejor o peor
seleccionó
que otra adaptación, sino que es una
implementación
alternativa diferente, la cual abre un
También,
camino de nuevas posibilidades. Si
ayudas técnicas, y se pusieron a
bien
prueba algunas de ellas junto con JClic,
expertos
se
herramientas,
al
estudio
pocos
las
sus
complementaria con otras herramientas
unos
de
de
JClic
se
de
para
la
estudiaron
se
la
adaptación.
diferentes
manifestaron acerca de la elección del
para analizar su funcionamiento.
motor
voz,
Paralelamente, se abordó el tema de la
coincidieron en que la misma es
discapacidad motriz, y lo que ella
acertada. El aspecto fundamental a
representa para las personas que la
resaltar es su disponibilidad y sus
poseen, tanto a nivel cognitivo como
posibilidades
social.
de
reconocimiento
en
de
cuanto
a
funcionalidad. En el marco de este
Se pensó en el reconocimiento de voz
trabajo, se considera que, la utilización
como
de
implementar la adaptación deseada de
sphinx-4
resultó
conveniente,
una
buena
alternativa
para

JClic. Se continuó entonces, con el
estudio
y
análisis
de
diferentes
Realizar pruebas con alumnos y
docentes del área.

sistemas reconocedores. Se realizaron
Permitir la configuración de las
consultas también a diferentes usuarios
etiquetas (el docente podría
de estos sistemas para tomar contacto
elegir
con
como lo crea más conveniente)
sus
bondades
y
dificultades.

Luego, se profundizó en los aspectos
rotular
cada
casillero
Extender la implementación a
referidos al reconocimiento de voz, de
todas
manera de poder contar con los
disponibles en JClic, acorde a la
conocimientos necesarios para lograr
estrategia planteada.
las
actividades
introducir esta tecnología, y llevar a
cabo el desarrollo del prototipo.
Referencias
Obtenida la base teórica, se pusieron
en práctica estos conocimientos a
[1]
través del uso y estudio de diferentes
http://www.niee.ufrgs.br/eventos/CIIEE/2003/blo
motores
que2/comunicaciones/La%20utilizacion%20de%
de
RV.
Se
eligió
y
se
profundizó el estudio de Sphinx 4. En
Consultado
en
2010.
20Software%20de%20uso%20general%20y%20
Aplicaciones%20esp.doc.
particular,
se
tuvo
que
tomar
conocimiento acerca de la estructura
[2] Sitio de Jclic.
http://clic.xtec.cat/es/jclic/index.htm
del motor, su forma de trabajo, y los
[3] Sánchez Montoya. “Ordenador y
modelos disponibles para el español.
Discapacidad. Guía práctica a las
Así como también, aspectos vinculados
personas con necesidades educativas
a su configuración.
especiales”. Madrid, 2002
Como último paso, se implementó el
[4] EmuClic –Consultado en 2010.
prototipo y se realizaron encuestas a
http://www.antoniosacco.com.ar/emuclic.htm
expertos para que expresen su opinión
[5] Ratón Facial – Consultado en 2010 -
sobre la estrategia de solución del
http://www.crea-si.com/esp/rfacial.php
producto desarrollado.
[6] Guía de Apoyo a Personas con
Si bien se ha obtenido un amplio
Discapacidad – Consultado en 2010 -
conocimiento
http://www.urjc.es/comunidad_universitaria/univ
de
diferentes
herramientas, tanto educativas como
relacionadas con RV, quedan ciertas
modificaciones, mejoras y extensiones
a
desarrollar
en
la
adaptación
presentada.
Como líneas de trabajo futuras, se
plantean
ersidad_saludable/programa_discapacidad.html
[7]
Tecnologías
Adaptadas
–
Consultado en 2010.
http://tecnoadaptada.blogspot.com/
[8] Nuevas tecnologías y educación de
personas con dificultades- Consultado
en 2010
http://www.tecnoneet.org/docs/2002/2-82002.pdf
[9]
Bernal
Bermúdez,
Sancho,
Gómez
Bobadilla
–
Vilda
“Reconocimiento de voz y fonética
acústica”. México, Alfaomega grupo
Editor, 2000.
[10] Modelo del lenguaje. Sitio de
Sphinx – Consultado en 2010 http://sphinx.subwiki.com/sphinx/index.php/Lang
uage_model
[11]
Rocha
Luis.
reconocimiento
de
“Sistemas
voz”.
de
Revista
telegráfica electrónica. Agosto 1986.
Pp. 1172-1180.
[12] Proyecto Sphinx – Consultado en
2010-http://cmusphinx.sourceforge.net/sphinx4/
[13] Modelo en español – Consultado
en 2010http://leibniz.iimas.unam.mx/~luis/DIME/recursos
.html
[14]
Arquer
“Fiabilidad
humana:
métodos de cuantificación, juicio de
expertos”.
Consultado
en
2010.
http://www.insht.es/InshtWeb/Contenidos/Docu
mentacion/FichasTecnicas/NTP/Ficheros/401a5
00/ntp_401.pdf
Descargar