Evaluación comparativa de dos sistemas comerciales de

Anuncio
Evaluación comparativa de dos sistemas comerciales de reconocimiento de voz
Lluís de Yzaguirre i Maura
Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra
[email protected]
Esta comunicación va a presentar el caso real de una
evaluación comparativa de dos sistemas comerciales de
reconocimiento de voz para la que fue requerida la Unitat de
recerca en Enginyeria Lingüística del IULA-UPF. Dicho grupo
ha iniciado recientemente una línea de trabajo en el campo de
lo oral, protagonizada por un proyecto de supervisión
ortológica en cooperación con Catalunya Ràdio e integrada
también por otros proyectos.
Por obligación contraída con la persona jurídica solicitante de
la evaluación, se evitarán referencias concretas a los
programas comerciales evaluados; creemos que, a pesar de
ello, merece la pena presentar los aspectos metodológicos de
dicha evaluación.
1.
Metodología
Para poder comparar el rendimiento de los programas de reconocimiento de voz, nuestra
primera preocupación fue la de garantizar que ambos eran sometidos al mismo estímulo.
Ello requería utilizar una grabación, la misma con ambos programas, que implicaba la
eliminación de todas aquellas palabras clave o comandos de voz que fueran distintos entre
ambos programas.
Se preparó un programa verbalizador de puntuación que resolviera esta cuestión, unificando
bajo una misma solución aquellos signos de puntuación que fueron tratados de manera distinta
por ambos programas. Véase una muestra de texto tratado con el verbalizador de puntuaciones:
El presente Real Decreto se justifica por la necesidad de desarrollar el artículo 5 de
la Ley 7 BARRA 1998 COMA de 13 de abril COMA sobre Condiciones Generales
de la Contratación COMA en su apartado 3 que dice textualmente DOS PUNTOS
COMILLAS en los casos de contratación telefónica o electrónica será necesario que
conste en los términos que reglamentariamente se establezcan la aceptación de
todas y cada una de las cláusulas del contrato COMA sin necesidad de firma
convencional PUNTO En este supuesto COMA se enviará inmediatamente al
consumidor justificación escrita de la contratación efectuada COMA donde
constarán todos los términos de la misma PUNTO COMILLAS NUEVO PÁRRAFO
Al llevar a cabo dicho desarrollo han de ponderarse diversos factores PUNTO En
primer lugar COMA las normas de derecho interno ya en vigor que regulan para
diversos supuestos los efectos jurídicos de la contratación a distancia y la
comunicación telemática ABRIR PARÉNTESIS como es el Real Decreto GUIÓN
ley 14 BARRA 1999 COMA de 17 de septiembre COMA sobre firma electrónica
CERRAR PARÉNTESIS COMA así como la jurisprudencia relativa a esta
problemática PUNTO También y ya en el ámbito comunitario habrán de tenerse en
cuenta las Directivas relacionadas con esta materia ABRIR PARÉNTESIS
Directiva 97 BARRA 7 BARRA CE COMA del Parlamento Europeo y del Consejo
COMA de 20 de mayo COMA sobre contratos a distancia CERRAR PARÉNTESIS
así como la existencia de otros proyectos normativos en este campo ABRIR
PARÉNTESIS proposición de Directiva en relación con la firma electrónica
CERRAR PARÉNTESIS y la iniciativa europea sobre comercio electrónico PUNTO
Por ello COMA una norma de desarrollo como la proyectada ha de procurar ser
consecuente en relación con los distintos aspectos de la materia ya regulados o en
proceso de serlo PUNTO NUEVO PÁRRAFO
Como puede verse, la puntuación aparece destacada de la misma manera que es habitual en el
procedimiento de adiestramiento o entrenamiento de algunos programas de reconocimiento de voz; con
ello se facilita que el locutor que graba el texto de prueba consiga ser sistemático en la verbalización de
los signos de puntuación.
El texto que se escogió fue el de un decreto-ley relacionado con las telecomunicaciones que incluía
nombres propios, terminología especializada, referencias complejas y profusión de signos de puntuación.
Su duración resultó superior a los 24 minutos de dictado.
Se procedió al entrenamiento mínimo de ambos sistemas de reconocimiento con la misma voz con la que
se grabó el texto de prueba y a continuación se probó cada uno de los sistemas ajustando la posición del
micrófono de reconocimiento respecto al altavoz del equipo de reproducción.
Se realizó una operación de reconocimiento con cada uno de los sistemas para la totalidad del texto. En
ambos casos los programas sugirieron la incorporación de palabras al diccionario de usuario,
sugerencias que fueron acatadas por el usuario.
Después de una primera prueba, se procedió a completar el entrenamiento hasta llegar a un mínimo de
una hora en cada programa y se repitió la operación de reconocimiento con ambas aplicaciones.
Para comparar los textos resultantes del reconocimiento, se preparó un programa de confrontación que
leía tres ficheros, conteniendo respectivamente el texto original y los dos resultados de reconocimiento.
Los ficheros resultantes fueron editados para incluir códigos que indicaran las discrepancias respecto al
original agrupadas en dos categorías: errores propiamente dichos y alternativas formales aceptables.
Veremos a continuación algunos ejemplos de cómo se modificó la interpretación respecto al texto
esperado (donde hay una llave se codifica una alternativa, con el texto esperado en primer lugar y el texto
observado en segundo lugar). Si no hay texto observado, indica que la palabra fue omitida. Si sólo hay
una palabra o variante, indica que no se considera un error sino una alternativa aceptable, como por
ejemplo "setiembre" por "septiembre".
{existencia(asistencia}
{Derecho(De hecho} de resolución.
Título {competencial.(con tendencia a.}
compilación de derecho civil foral o {Fuero(fueron} nuevo de Navarra.
{de(}
{setiembre}
véase un ejemplo de texto continuo con la codificación usada:
{Al(} {llevar(Allanaran} {a(} cabo dicho desarrollo han de ponderarse diversos factores. En
primer lugar, las normas de derecho interno ya en vigor que regulan para diversos supuestos
los efectos jurídicos de la contratación a distancia y la comunicación telemática (como es el
Real {decreto - Ley} 14/1999, de 17 de {setiembre}, sobre firma electrónica), así como la
jurisprudencia relativa a esta problemática. También y ya en el ámbito comunitario habrán
de tenerse en cuenta las directivas relacionadas con esta materia (Directiva 97/7/CE, del
Parlamento europeo y {del(el} Consejo, de {20(Ley} de mayo, sobre contratos a distancia) así
como la existencia de {otros(los} proyectos normativos en este campo (proposición de
Directiva en relación con la firma electrónica) y la iniciativa europea sobre comercio
electrónico. Por ello, una norma de desarrollo como la {proyectada(orientada} {ha(a} de
procurar ser consecuente en relación con los distintos aspectos de la materia ya reguladas
o en proceso de serlo.
El programa de confrontación genera un listado como el siguiente que confronta el original y los dos
reconocimientos y además acumula número de errores y número de variantes admisibles:
123
124
125
126
127
128
129
130
131
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
2
2
2
2
2
2
2
2
2
3
3
4
5
5
5
5
5
5
la
la
la
proyectada
proyectada
{proyectadaCorientada}
ha
ha
{haCa}
de
de
de
procurar
procurar
procurar
ser
ser
ser
consecuente {consecuenteCconsecuentes}
consecuente
en
en
en
relación
relación
relación
Finalmente, se procedió a una confrontación de resultados de la primera prueba con los de la segunda
prueba y de la primera aplicación con la segunda aplicación.
2.
Resultados
Nuestras pruebas nos permitieron evaluar por separado el rendimiento de cada programa antes y
después de la ampliación del entrenamiento y confrontarlos entre sí en cada una de las dos pruebas.
Sin dar otros detalles, podemos señalar que el programa que dio mejores resultados con el entrenamiento
mínimo requerido para empezara a trabajar fue el que relativamente mejoró menos en la segunda prueba.
Además de la valoración numérica, nuestro procedimiento nos aportó una base de datos de errores que
facilitó enormemente el trabajo contrastivo.
Dada la premura de tiempo con que se nos solicitó el dictamen, no hubo oportunidad de profundizar en
el tratamiento de los errores detectados pero aportaremos algunas sugerencias en el párrafo siguiente.
3.
Mejoras necesarias
Desde nuestro punto de vista, son dos los aspectos que habría que añadir a los que nosotros hicimos
para hacer más satisfactoria la evaluación de este tipo de herramientas.
En primer lugar, sería interesante poder obtener un coeficiente global a partir de haber asignado a cada
error o variante un valor de ponderación; lo difícil en este caso es objetivar el valor relativo de cada error;
creemos que podría hacerse con una encuesta pasada a un colectivo de correctores profesionales o
examinadores de lengua, haciéndoles puntuar cada error como si se tratara de una prueba de
selectividad, por ejemplo. Para minimizar las consecuencias de cambios progresivos de criterio, los
errores se presentarían en una secuencia aleatoria, mezclando los de ambos procesos.
En segundo lugar, sería útil realizar un estudio con varios grupos de usuarios (administrativos, docentes,
cuadros medios, directivos...) del tiempo necesitado por cada uno de ellos para ajustar el texto obtenido
con el reconocimiento al texto ideal; habría que medir también la cantidad y calidad de las "reparaciones"
necesarias omitidas, para detectar aquellos errores cuya gravedad no es intrínseca sino derivada de la
facilidad que tengan en pasar desapercibidos.
4.
Conclusión
Nos parece evidente que los usuarios de cualquier clase de programa necesitan bancos de prueba que
les ayuden a decidir que programa compran según su valoración de calidad/precio. Dichos bancos de
prueba deben modificarse para cada nueva generación de un producto para evitar perversiones del
proceso de mejora generacional.
La metodología que hemos propuesto aquí tiene un interés limitado a casos en que se disponga de poco
tiempo y de pocos recursos humanos y se nos ha hecho evidente que una evaluación a fondo necesita un
planteamiento más ambicioso.
En concreto, se nos ha hecho evidente la conveniencia de acumular información sobre cómo adaptan los
usuarios dichos programas a sus necesidades. Considerando que estos programas permiten exportar
el perfil de usuario, sería bueno que algún centro de investigación no vinculado a las empresas que
desarrollan dichos programas realice una colecta de perfiles de usuario y de registros de entrenamiento.
También sería interesante negociar con las empresas productoras de dichos programas de una fórmula
estándar de alimentar el funcionamiento del programa mediante ficheros de voz, en cuyo caso se podría
pedir a los donantes de voz que facilitaran también su propio fichero de voz con el texto del banco de
pruebas grabado en el mismo equipo y con el mismo micrófono con el que realizaron el entrenamiento.
Finalmente, creemos que, en interés de los usuarios, habría que proponer un estándar de verbalización
de los signos de puntuación que simplificara la migración por parte del usuario de un sistema a otro,
especialmente cuando lleve mucho tiempo habituado a una determinada pauta de dictado.
Descargar