validación semántica y estimación de competencia de

Anuncio
VALIDACIÓN SEMÁNTICA Y ESTIMACIÓN DE COMPETENCIA
DE SISTEMAS BASADOS EN CONOCIMIENTO
Rizzi, F., Britos, P., Rossi, B. y García Martínez, R.
Centro de Ingeniería de Software e Ingeniería del Conocimiento (CAPIS). ITBA.
[email protected]
1. Introducción
Cuando se evalúan los sistemas basados en el conocimiento (KBSs) es a menudo difícil encontrar
métricas útiles para evaluar el funcionamiento global de un sistema. La mayoría de la literatura trata sobre
validación, verificación y prueba en las cuales la preocupación primaria se centra en la corrección y
consistencia de las bases de datos y las bases de reglas. Otros sistemas tratan la modificabilidad, facilidad
de empleo, y el costo. Sin embargo, estas características pueden no ser suficientes para determinar cuan
bien realiza su tarea un sistema. Un KBS completo y consistente no necesariamente puede crear
soluciones de alta calidad.
Sería útil tener un método para estimar la competencia total de KBS's. La competencia se utiliza en este
contexto para significar la capacidad del sistema de funcionar de una manera que agregue valor dentro de
su entorno de resolución de problemas.
En el presente trabajo se presentan, a modo de contraste, primero un método de validación semántica del
conocimiento subyacente de un KBS, y luego un método de estimación de la competencia de tales
sistemas. Se tratará la aplicación de dicha competencia en términos del nivel de la experiencia y de la
calidad de la solución.
2. Validación de la consistencia semántica
Aún cuando el conocimiento experto se haya codificado correctamente en una base de conocimiento, el KB
producirá probablemente errores si el conocimiento experto subyacente es incorrecto. Por lo tanto, es
importante validar el conocimiento experto detrás de la base de conocimiento. Esto es particularmente
importante porque hay varias maneras en las cuales los errores pueden arrastrarse en el conocimiento
sobre el cual se construye un sistema experto. Algunos de estos errores son:
•
•
•
•
El experto está equivocado o sus conocimientos son anticuados; de hecho, todos los expertos son
probablemente incorrectos o anticuados en algunos tópicos.
La base de conocimiento estaba correcta cuando fue escrita, pero el conocimiento ha cambiado.
El ingeniero del conocimiento entendió mal al experto.
Los errores fueron introducidos en mantenimiento.
Cuándo un hecho dado se ha codificado en la base de conocimiento, cómo puede validarse que éste
representa un correcto conocimiento? Una manera es hacer un experimento de modo que:
•
•
•
Se obtiene un tipo de resultado si el hecho representa conocimiento actualmente aceptado.
Otro resultado se espera si el hecho no representa conocimiento actualmente aceptado.
Hay una prueba estadística que discrimina a un nivel aceptable de confidencia entre estos dos
casos.
La especialidad llamada Consenso Cultural dentro de la antropología proporciona técnicas para validar
conocimiento de una manera estadísticamente rigurosa. Estas técnicas se pueden aplicar para validación
del conocimiento en las bases de conocimiento. El método básico para validar un ítem de conocimiento es:
•
•
•
Preguntar a un panel de expertos cuando es verdadero o falso.
Indicar las respuestas TRUE/FALSE.
Analizar los resultados estadísticos.
2.1 Crear una prueba de TRUE/FALSE
Durante la encuesta a los expertos para que indiquen si el ítem del conocimiento es verdadero o falso, es
importante no predisponerlos dejando al experto saber qué respuesta conviene con la asunción actual en la
base de conocimiento. Se debe presentar los ítems para la validación en un contexto en el cual VERDAD y
FALSO sean igualmente probables a priori. Independientemente de la verdad del ítem(s) que es probado,
seguir el siguiente procedimiento:
1. Comenzar con una colección de preguntas de TRUE/FALSE donde la mitad sea verdad y la mitad sea
falso, y que estén sobre el dominio de la base de conocimiento. Es importante que el experto no pueda
distinguir aquellas que prueban realmente conocimiento del KB.
2. Dispersar las preguntas de TRUE/FALSE que prueban realmente ítems del KB uniformemente en la lista
de preguntas.
3. Ajustar la prueba en caso de necesidad de modo que VERDAD y FALSO tenga probabilidades
aproximadamente iguales.
2.2 Ejecutar la prueba
En la aplicación del método del consenso cultural a la validación de la base de conocimiento, hay algunos
elementos que se deben manejar cuidadosamente para conseguir información máxima de la prueba.
Primero, el ingeniero del conocimiento debe entender y explicar a los expertos que no son ellos sino la
base de conocimiento que se está probando. Los ítems en la prueba representan las aserciones en las
cuales se basa la base de conocimiento, y éstos están siendo validados por los expertos. La razón de usar
a expertos múltiples no es una carencia de confianza en ellos, sino un deseo de validar las asunciones
hechas en la base de conocimiento a un nivel de confianza estadísticamente significativo. Es importante
explicar esto a todos los expertos utilizados en la validación de la base de conocimiento para asegurarse de
que no se genere ninguna hostilidad hacia el ingeniero del conocimiento o el proyecto. Tal hostilidad
privaría al proyecto de contribuciones valiosas por parte de los expertos a la base de conocimiento.
En segundo lugar, los expertos utilizados para la validación deben ser instruidos cuidadosamente en
asignar un ítem como falso si no es siempre verdad. Esto es para proteger contra la posibilidad real de que
algunas de las reglas en la base de conocimiento tengan condiciones de entrada que sean demasiado
amplias. La prueba se puede incluso dar en una forma donde hay tres respuestas a cada pregunta,
VERDAD, FALSO y A VECES VERDAD. A VECES VERDAD y FALSO puede ser combinado como FALSO,
es decir, el ítem no es considerado verdad, cuando se cuantifica la prueba.
2.3 Formular el experimento
Una vez que se han obtenido los resultados de la prueba del conocimiento, se debe construir un
experimento utilizando los mismos para validar los ítems. Para hacer esto, la prueba se debe dar a un
grupo de expertos de modo de evaluar y registrar los resultados.
Se debe realizar la prueba con bastantes expertos de modo que la corrección de cada ítem del
conocimiento resultante de la misma pueda ser distinguida de resultados de pruebas ocasionales.
A continuación se muestra un método estadístico simple para validar ítems de la base de conocimiento.
2.4 Análisis de los resultados de la prueba
Un ítem de la base de conocimiento es validado estadísticamente si:
•
•
La mayoría de los expertos contesta que el ítem del KB es verdad
Los expertos que no piensan que el ítem del KB es verdad, son en número, menos que un cierto
umbral pre-asignado, tradicionalmente 5 por ciento o 1 por ciento.
La tabla 1 muestra la chance de encontrar el acuerdo unánime, de modo que los resultados experimentales
son debido a dicha chance más que a la creencia en la veracidad del ítem del KB.
Número de Expertos Nivel de Confianza
1
50%
2
75%
3
87,5%
4
94,75%
5
96,88%
6
98,48%
7
99,22%
N
1-1/2**N
Tabla 1: Nivel De ConfianzaEsto significa que es probablemente una buena idea pedir que por lo menos
cuatro expertos verifiquen cada asunción importante que sostiene la base de conocimiento. Cuando cuatro
o más expertos convienen unánimemente, la asunción es razonablemente validada. El acuerdo de seis a
siete expertos proporciona un alto nivel de la confianza en la asunción.
La tabla 2 muestra los resultados de los niveles de confianza cuando un experto discrepa con el resto del
grupo:
Número de Expertos
Nivel de Confianza
1
0%
2
5%
3
50%
4
68,75%
5
81,25%
6
89,06%
7
93,75%
8
96,48%
9
98,05%
10
98,93%
11
99,41%
12
99,68%
Tabla 2: Niveles de confianza con un experto discrepandoEsto significa que cuando discrepa un
experto en un grupo de ocho, el ítem del KB está validado a un nivel razonable y validado a un alto nivel
cuando discrepa un experto en un grupo de diez. En general, si hay N expertos de quienes M discrepan, el
nivel de la confianza alcanzado por este acuerdo está:
1 - (1 / 2**N) * SUM(m = 0 a M)combinaciones(M, N)
donde el número combinaciones(M, N) es el número de combinaciones de los M objetos elegidos de N.
Esto se computa como:
combinaciones(M, N) = M!*(N-M)!/N!
donde K! es el factorial de K.
2.5 Acuerdo Total Entre Expertos
El método de validación explicado basado en consenso cultural se apoya sobre una asunción de que los
expertos comparten el mismo conocimiento básico, es decir, las mismas ideas sobre cómo solucionar los
problemas cubiertos en la base de conocimiento. A veces, sin embargo, los expertos no coinciden en su
conocimiento básico y en la forma de encarar una clase de problemas. Para detectar si todos los expertos
llevan el mismo procedimiento básico para solucionar problemas, se debe realizar lo siguiente:
1. Agrupar los expertos: Representar cada experto como un vector de respuestas en la prueba de
TRUE/FALSE. Encontrar luego un agrupamiento de los expertos basados en estos vectores.
2.Chequear semejanzas: Verificar si todos los expertos pertenecen al mismo grupo.
2a. Grupo común: Si todos los expertos pertenecen al mismo grupo, entonces el cómputo de la confianza
del ítem sigue siendo válido.
2b. Más de un grupo: Si hay más de un grupo entre los expertos, se debe realizar el análisis de las
diferencias entre expertos, según se verá a continuación. Entonces la consistencia cultural de los ítems
individuales del KB debe ser reexaminada.
2.6 Estudio del desacuerdo entre expertos
Cuando los expertos no coinciden, según lo evidenciado por la existencia de más de un grupo de expertos,
las aproximaciones siguientes son útiles:
1. Desechar: Si puede ser determinado, entrevistándose con otros expertos, que un experto, que no es
parte de un grupo grande de expertos, representa una escuela pequeña de pensamiento dentro de su
especialidad, y si el grupo grande de expertos soluciona con éxito los problemas para los cuales se piensa
el sistema experto, eliminar al experto de la muestra de validación.
2. Elegir un subconjunto válido de expertos: Si dos grupos de expertos trabajan a partir de asunciones
totalmente diversas, escoger un grupo que alcance resultados óptimos y utilícelos ambos como la fuente
del conocimiento y como expertos para la validación. No intente incluir dos escuelas que están en conflicto
de conocimientos en la misma base.
3. Utilizar diferentes aproximaciones como subsistemas: Si las aproximaciones representadas por los
distintos grupos de expertos solucionan óptimamente problemas de diversos subconjuntos del dominio,
puede ser posible construir un sistema donde las aproximaciones diferenciadas residen en subsistemas
expertos separados. Estos subsistemas podrían ser evaluados conjuntamente para determinar una
conclusión total. Puesto que este método conduce a un sistema más complejo, más costoso, debe ser
utilizado solamente cuando las aproximaciones no son adecuadas por sí mismas.
4. Analizar los desacuerdos: la existencia de dos o más grupos de expertos puede ser un síntoma de
controversias sin resolver dentro de la especialidad profesional que provee la experiencia al sistema
experto. En este caso, el equipo del desarrollo del sistema experto necesita decidir si hay suficiente
acuerdo entre expertos para construir un sistema que dé soluciones confiables en el dominio para el cual
se piensa.
3. Método de estimación de la competencia de un KBS
Se presenta en este apartado el “QUality and Experience Method”; lo abreviamos QUEM. Sucintamente, es
un método para evaluar el nivel de la experiencia de un sistema basado en el conocimiento y de la calidad
de sus soluciones. Se utilizan a jueces expertos para evaluar la calidad de las soluciones generadas por los
expertos humanos y KBSs.
Entonces se construye una " función de la habilidad" (Skill function) para los expertos humanos, la cual
relaciona experiencia y calidad de la solución. Se utiliza la función de la habilidad y el ranking de la calidad
de KBS's para estimar el nivel de la experiencia de KBS's.
QUEM proporciona una manera cuantitativa de estimación del nivel de la experiencia de un KBS, de
comparación de dos KBSs, o de comparación del nivel de experiencia de un KBS con el de sus usuarios.
Esta última comparación es de particular importancia si un KBS va a ser utilizado como ayuda a los
usuarios humanos. La comprensión del nivel de habilidad del KBS es importante en la determinación de
cómo el sistema debe ser utilizado y en predecir si los usuarios lo validarán. Es a menudo necesario que el
nivel de habilidad del KBS sea igual o exceda el de sus usuarios. Si el KBS produce soluciones de una
sofisticación y de una calidad más bajas que el usuario, éste puede considerar el sistema como un
obstáculo.
Además, la valoración de un nivel de la experiencia de KBS's también permite que los desarrolladores
midan cuan bien han capturado la experiencia en el dominio.
3.1 Los desafíos de desarrollar una métrica de calidad
La calidad es en general difícil de medir debido a la dificultad de cuantificar. Aún si podemos generar una
función para describir calidad, puede ser igualmente difícil cuantificar los componentes. En QUEM
inicialmente se procuró construir tal función de la calidad integrada por factores que los expertos creyeron
eran importantes: coste, viabilidad, y confiabilidad del plan. Sin embargo, pronto se encontró que era
inadecuado. Después de muchos ajustes de la función de la calidad se encontró que sus resultados no se
asemejaban con los de los expertos. Además, se concluyó que era imposible lograr una función de la
calidad mas acertada por la razón que muchos de los factores componentes, tales como confiabilidad, eran
muy difíciles de cuantificar exactamente.
Predecir la confiabilidad requiere conocimiento de una variedad amplia de situaciones, que son difíciles de
capturar sin un cuerpo grande de datos empíricos. Debido a éstos factores difíciles de cuantificar, la tarea
de construir una métrica de calidad es muy dificultosa.
Sin embargo, se encontró que los expertos podían hacer aseveraciones de la calidad, y que ellos tienden a
convenir entre sí en dichas aseveraciones. Una razón de que los expertos puedan tener éxito en evaluar la
calidad allí donde una función de la calidad falla, es que los expertos pueden estimar factores de calidad
difíciles de cuantificar, tales como confiabilidad, porque tienen un amplio rango de experiencia empírica.
Los expertos humanos varían en sus aseveraciones, pero esa variabilidad puede ser medida (por ejemplo,
teniendo varios expertos que clasifiquen independientemente la misma solución) y considerada.
Una ventaja en esta aproximación es que los expertos puede todavía medir calidad sin explícitamente
saber la función de calidad.
Las medidas descritas aquí son adecuadas para medir la calidad en cualquier dominio en el cual se puede
demostrar una fuerte correlación entre la experiencia y la calidad de la solución.
Después, se necesita idear un sistema de puntaje en el cual los jueces humanos puedan indicar sus juicios
sobre la calidad. El sistema de puntaje debe permitir que los juicios de calidad de diversos jueces puedan
ser comparados. Se utilizó un puntaje desde peor a mejor solución. Esto facilita la homologación de los
puntajes asignados por los distintos jueces.
3.2 El método QUEM el procedimiento de QUEM requiere unos o más sistemas basados en el
conocimiento para la comparación, un conjunto de problemas, varias personas con diferentes niveles de
experiencia, y dos o más jueces expertos. Los jueces expertos deben tener experiencia igual o mayor que
todas las personas seleccionadas. Además, la experiencia en el dominio tanto del KBS, jueces, y las
personas, debe ser muy similar.
3.2.1 Procedimiento detallado
el procedimiento QUEM para determinar el nivel de experiencia del KBS es:
1) Solucionar: Todas las personas expertas y todos los KBSs deben solucionar el conjunto de problemas
planteados.
2) Ordenar: Para cada problema, agrupar todas las soluciones. Si hay tres problemas, habrá tres grupos
de soluciones.
3) Asignar puntaje: Todos los jueces deben independientemente asignar un puntaje a todas las soluciones
en cada grupo de la mejor calidad a la peor calidad. Etiquetar la solución peor de cada grupo con el
número 1. Sucesivamente numerar cada solución, asignando el número más alto a la mejor solución.
4) Ajustar puntajes: Si un juez clasifica varias soluciones como iguales en calidad, los puntajes deben ser
normalizados para poderlos comparar con los de otros jueces. Por ejemplo, supongamos que el juez A
tiene 6 soluciones que clasifica de 1 a 6, mientras que el juez B clasifica las mismas 6 soluciones pero
clasifica 2 soluciones como peores, 3 como intermedio, y 1 como la mejor, produciendo el ranking 1, 1,
2, 2, 2, y 3. El puntaje del juez B debe ser ajustado si se va a comparar con el juez A. Para ello se
hace lo siguiente: Se dividen en tres grupos: (1, 1) (2, 2, 2) (3). Todos los puntos deben ser
renumerados secuencialmente comenzando por el menor y agrupándolos según el paso anterior: (1, 2)
(3, 4, 5) (6). Después, renumerar nuevamente asignando el promedio de cada grupo a cada uno. Así, el
puntaje ajustado del juez B sería: 1.5, 1.5, 4, 4, 4, y 6.
5) Calcular el promedio de las personas: Calcular el puntaje de calidad promedio para cada persona
experta y para cada KBS. Para todos los problemas utilizando el puntaje ajustado.
6) Graficar los Promedios para las Personas: Graficar los años de experiencia de cada experto humano
en el eje de las ordenadas y su ranking promedio de calidad en las abscisas.
7) Encontrar la “Función de habilidad” para los datos: Trazar una línea o curva para dichos datos
(utilizando regresión lineal u otros métodos apropiados). Llamar a esto la “función de habilidad”. Por
ejemplo, si tenemos n expertos humanos y datos de la forma (xi, yi), para i = 1, ..., n, siendo xi el
ranking de calidad promedio del sujeto iésimo e yi los correspondientes años de experiencia. Podemos
modelar una relación lineal entre x e y utilizando regresión lineal simple dando por resultado la función
de la habilidad
y = b0 + b1x
donde
8) Construir las bandas de confianza: Construir las bandas de confianza de 95 por ciento a partir de esta
función. Estas bandas muestran la variación de performances individuales que uno puede esperar
encontrar en cualquier nivel dado de calidad. Las bandas de confianza son cruciales para análisis
puesto que una estimación puntual de la experiencia no es útil sin una cierta idea de cuan exacta es la
estimación. Denotemos xm el ranking de calidad medio de un KBS. Utilizando el modelo de la regresión
lineal descrito arriba, nuestra estimación de experiencia del KBS es ym = b0 + b1xm. Un intervalo de la
confianza de 95 por ciento para esta estimación se da por
en donde T(n-2,0.025) es el coeficiente de 95 por ciento de confianza basado en la distribución t y Se^2 es
una estimación de la cantidad de ruido en la relación entre el ranking de calidad medio y nivel de
experiencia. Todas estas cantidades son resultados estándares de salida de paquetes de estadística.
Observe que el ancho del intervalo de la confianza es dependiente del tamaño de la muestra, ruido en el
sistema y la distancia entre xm del promedio del ranking medio de los expertos humanos.
9) Construir una estimación de la experiencia y el intervalo: Para cada KBS en el estudio,
a)
Insertar el ranking medio de calidad del KBS en la “función de habilidad” de modo de obtener la
estimación de experiencia para el KBS.
b)
Nuevamente tomar el ranking medio de calidad del KBS e insertarlo en la ecuación para la
banda de confianza superior. Repetir para la banda inferior de confianza. Los 2 números
producidos representan el intervalo de experiencia para el KBS.
Los resultados de este proceso son:
•
•
•
•
una estimación de la experiencia para el KBS. Este valor indicar el valor más probable del nivel de
experiencia del KBS
Un intervalo de experiencia mostrando el rango de niveles de experiencia humana que podría
alcanzarse con el KBS con una confianza del 95 %.
Una función de habilidad para humanos relacionando años de experiencia con calidad de solución.
Bandas de confianza que muestran el rango esperado de habilidad en usuarios teniendo una cierta
cantidad de experiencia.
3.3 Las aplicaciones de QUEM
QUEM se pueden utilizar en una variedad de maneras. Puede ser utilizada:
1) Para estimar el nivel de experiencia de un KBS.
2) Identificar un cambio en el nivel de experiencia entre dos versiones de un mismo KBS.
3) Comparar dos o más KBSs en el mismo dominio.
4) Comparar 2 KBSs sin relación que funcionen en diversos dominios. Para comparar dos KBSs sin
relación, se deben realizar dos pruebas separadas de QUEM y comparar luego los niveles de
experiencia que resulten. Un grupo separado de jueces y de personas expertas con conocimiento
apropiado del dominio debe ser seleccionado para cada prueba.
5) Estimar cuantitativamente la ayuda que brinda a un usuario en su nivel de habilidad. Ejecutando dos
ensayos de resolución de problemas: uno sin la ayuda del KBS y uno con el KBS.
3.4 Las limitaciones
QUEM puede proporcionar información útil para un dominio solamente cuando los usuarios muestran
mejora en la habilidad (medida con la calidad de la solución) a través del tiempo. Pero la experiencia puede
no aportar habilidad en todos los dominios. La existencia de tal relación puede ser determinada aplicando
QUEM; si se encuentra fácilmente una función de habilidad representativa entonces existe tal relación. El
caso inverso es mas difícil de demostrar. Si no se encuentra fácilmente una función, no implica que la
relación no exista. Podría también significar que no eligieron bien a las personas o a los jueces, el rango de
los niveles de la experiencia era demasiado estrecho, etc.
4. Ejemplo: Evaluación de un KBS de manufactura.
Se realizo un experimento con un sistema experto diseñado parar generar automáticamente un plan de
manufactura aplicable a equipos de mecanizado a control numérico, CNC, dada una descripción de la pieza
a mecanizar.
Para crear el plan se debe seleccionar y secuenciar las operaciones de manufactura, elegir las diferentes
herramientas, posición de las piezas, etc. La habilidad consiste en crear planes de alta calidad incluyendo
la capacidad de seleccionar las operaciones apropiadas, detectar interacciones, y optimizar el plan
globalmente.
Se examinaron dos versiones del sistema KBS llamados maquinista 1 y maquinista 2 con 2 años y medio y
5 años y medio de desarrollo respectivamente.
Se seleccionaron 7 personas expertas con diferentes años de experiencia (2,2,5,5,7,8 y 10) y dos jueces
con 15 y 18 años de experiencia.
Se prepararon 3 problemas a resolver por los KBS y las personas.
Como resultado de aplicar QUEM siguiendo el procedimiento se obtuvieron los siguientes resultados:
Rankings de calidad asignados por los jueces a las soluciones
Juez 1
P2 P3
P1
Juez 2
P2 P3
Solver
Experiencia
P1
Persona 1
2
2
2
8
1
1
1
Ranking
2.50
Persona 2
2
1
1
5
2
5
5
3.17
Persona 3
5
3
−
4
7
−
2
4.00
Persona 4
5
5
3
7
4
4
4
4.50
Persona 5
7
4
5
6
3
3
3
4.50
Persona 6
8
8
8
1
8
8
7
6.67
Persona 7
10
−
7
9
−
6
−
7.33
Maquinista 1
*
6
6
3
5
2
6
4.67
Maquinista 2
*
7
4
2
6
7
8
5.67
A continuación se muestra el gráfico de la ecuación de regresión lineal llamada función de habilidad.
Ranking Medio de Calidad y Función de
Habilidad
Años de Experiencia
12,00
10,00
y = -1,98 +1,62x
8,00
6,00
4,00
2,00
1
2
3
4
5
6
7
Calidad de Solución Promedio
Luego se grafican las bandas de confianza para dicha función de habilidad.
x (m) = KBS Máquina de solución de calidad media
y (m) = KBS Máquina estimando el nivel exponencial
10
8
6
Intervalo de
Experiencia
Años de Experiencia (y)
12
4
2
x (m)
2
4
6
8
Solución de Calidad Media (x)
5. Discusión
5.1 Los cambios en el índice de la mejora de la habilidad del KBS
El lado positivo es que el nivel de habilidad del KBS en todas las etapas es mayor que el número de
personas/año requeridos para desarrollar el sistema. El lado negativo, después de 3 años adicionales de
desarrollo intensivo en el maquinista 1, el nivel de la experiencia del sistema fue mejorado solamente por
otro año. Una interpretación es que este estudio estima solamente el impacto del incremento de
experiencia en la calidad de la solución. Sin embargo, no refleja todos los adelantos en la capacidad total
del sistema. El rango de problemas es también una parte importante de la competencia. El maquinista 2
puede solucionar un rango mucho más amplio de problemas que el maquinista 1.
5.2 Ventajas
El método de QUEM para medir el nivel de la experiencia de un KBS tienen varias ventajas. Permite que
las medidas sean adquiridas sobre un sistema parcialmente desarrollado sin requerir que el KBS esté
completamente terminado, correcto, o que sea amplio en la cobertura de problemas. Tales medidas son
importantes para permitir que los desarrolladores del sistema KBS prueben la validez básica de su
aproximación antes de realizar un esfuerzo adicional que significa hacer el sistema más completo y
robusto. Además, puede ser utilizado en los dominios en los cuales una función de calidad es difícil de
cuantificar exactamente.
6. Conclusiones
El objetivo del presente trabajo ha sido contrastar dos maneras de evaluar un sistema experto de modo de
intentar contestar la siguiente pregunta: "cuan experto es mi sistema experto?"
El método del consenso cultural proporciona una manera cualitativa de evaluar la validez semántica de un
sistema experto pero no nos brinda una medida cuantitativa. Tiene gran utilidad para comparar sistemas
entre sí y fundamentalmente para validar el sistema experto en un dominio reducido del conocimiento
donde existen pocas escuelas de pensamiento, o bien, existen varias escuelas pero es posible dividir el
dominio en subdominios sobre los que se ocupará un subsistema diferente del sistema experto en cuestión.
Los métodos de verificación, validación y prueba, sobre los que hay muchos trabajos, se utilizan para
evaluar un funcionamiento del KBS mediante comparaciones cualitativas. Por ejemplo, el " sistema x se
desempeña mejor que el sistema y, " que no es lo mismo decir que ambos sistemas se desempeñan bien.
Aquí es cuando el procedimiento QUEM permite que un desarrollador mida cuantitativamente el nivel de
experiencia de un KBS. Esta medida permite que los mismos contesten a las preguntas por ejemplo,
"cuánto mejor es el sistema x que el sistema y? " o " cuántos años de experiencia representa los datos
introducidos en el KBS? " Algunas otras ventajas de QUEM son que puede ser utilizada en cualquier
dominio en el cual aumentar experiencia conduce a la calidad de solución creciente medible. Además,
puede ser utilizada en un sistema que esté en desarrollo y que puede no estar enteramente completo o
correcto en todos los aspectos, mientras puede construir soluciones. Puede ser utilizada para medir el nivel
de la experiencia de un KBS individual, comparar varios KBSs que funcionen en el mismo o en dominios sin
relación, o estima la cantidad por la cual un KBS ayuda a elevar el nivel de habilidad del usuario.
Referencias
Turner-Fairbank Highway Research Center. 1993. Verification, Validation, and Evaluation of Expert Systems
Handbook, Volume I, 1st. Edition (Ver. 1.2). U.S. Department of Transportation, Federal
Highway Administration, Research and Development
Caroline C. Hayes and Michal I. Parzen. 1997. QUEM: An achievement Test for Knowledge-Based
Systems, IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 6,
November/December 1997.
Descargar