Propuesta de representacion del conocimiento

Anuncio
1. Tabla de contenido
2.
Propuesta para la estructura del L-Brick ............................................................................... 1
I.
Líneas generales ................................................................................................................ 1
II.
Casos prácticos .................................................................................................................. 2
a)
Corpus de preguntas y sus correspondientes respuestas ............................................. 2
2. Propuesta para la estructura del L-Brick
I.


Líneas generales
Que haya un L-Brick para cada herramienta o recurso que lo describa exhaustivamente
y que sirva para comunicarse con el resto de herramientas/recursos/L-Bricks
o Con esto conseguiríamos facilitar el uso indistinto de herramientas o recursos
o Información que debería contener: entrada, salida, formatos, objetivos,
conjunto de etiquetas, autor, licencia, etc.
o Una de las operaciones del L-Brick podría ser un constructor del ladrillo a partir
de una herramienta/recurso etiquetada en formato NIF u otros formatos (RDF,
XML, etc)
Que haya una ontología “guía” que distinga entre los distintos niveles de análisis del
texto, y que sirva para integrar/comunicar las distintos herramientas/recursos/L-Bricks
o Las ontologías son a su vez recursos, por lo que quizás habría que estudiar la
posibilidad de que esta ontología “guía” se la considere también un L-Brick
o Por ejemplo, en una de las ramas de la ontología estaría el nivel léxico:
 Dicho nivel recogería información estándar: palabra, lema, posición,
etiqueta, información morfológica, información del sentido, etc.
 El L-Brick de una herramienta léxica se mapearía con la información de
ese nivel.
 Pero en el caso que dicha herramienta generase información
adicional a la ahí expuesta, en su L-Brick se añadirían nuevos
campos que se enlazarían/referenciarían en la ontología.
 El L-Brick de un recurso, por ejemplo un corpus, seguiría el mismo
proceso, enlazando el nuevo conjunto de etiquetas que utilice y la
nueva información que tenga etiquetada (p.ej. número de cláusula o
referencia anafórica).
 Los XL-Bricks se formarían a partir de los L-Bricks anteriores que
servirían para estandarizar el uso de herramientas/recursos
II.
Casos prácticos
a) Corpus de preguntas y sus correspondientes respuestas
Explicación de las siguientes figuras:



Cada recurso o herramienta ha de tener su L-Brick que detalle el formato de
entrada/salida:
o Los tipos de cada atributo se corresponderán con la ontología guía que
propongo en la última figura.
o Al añadir nuevos recursos/herramientas, dicha ontología se irá enriqueciendo
(los nodos que aparecen en color azul), estableciendo las herencias y
equivalencias correspondientes (por ejemplo entre conjunto de etiquetas de
diferentes POS-taggers, así estableciendo la equivalencia entre la etiqueta FIA
e INT).
De cada recurso/herramienta se generarán los L-Bricks correspondientes de cada caso
concreto:
o Cada L-Brick ha de tener un identificador único.
 Ese identificador se irá heredando conforme se creen nuevos L-Bricks.
Por ejemplo, tendríamos ID=1 de la pregunta del corpus. Los L-Bricks
de cada palabra una vez etiquetada por cualquier tagger (POS-Tagger
#1, #2), heredaría ese ID, añadiéndosele la información adicional
necesaria para identificar la información que se está etiquetando (en
este caso sería la posición de inicio y final de la palabra, puesto que
podría variar la segmentación en palabras de una herramienta a otra,
esto deberían ser punteros físicos).
 De este modo al tener disponibles los L-Bricks de las palabras de la
pregunta según diferentes POS-taggers, un clasificador automático
podría recogerlos como entrada, eligiendo la salida de uno de los POStaggers o bien estableciendo un algoritmo de voting.
Para realizar el enlace entre términos de la pregunta o de la respuesta con DBpedia o
cualquier otra ontología o taxonomía se realizaría de forma similar a la que propongo
con la equivalencia entre nodos de la ontología y los enlaces entre L-Bricks (por
ejemplo los del sintagma correspondiente con la URI de DBpedia).




ID: 1
Q: ¿Quién es el presidente de los
EE.UU.?
T: PERSONA
A: Barack Obama
ID_R: CP1
ID: integer
Q: pregunta
T: et_tipo_respuesta
A: string
POS-Tagger #2
POS-Tagger #1:
ID_H: PT#2
W: palabra
POS1: et_léxica
POS2: et_léxica
POS3: et_léxica
ID_H: PT#1
T: palabra
L: lema
POS: et_léxica
ID: 1 POS_I: 0 POS_F: 1 ID_H: PT#2
W: ¿
POS1: INT
ID_R: CP1
ID: 1
Q: ¿Quién es el presidente de los EE.UU.?
T: Persona
A: Barack Obama
ID: 1 POS_I: 0 POS_F: 1 ID_H: PT#1
T: ¿
L: ¿
POS: Fia
ID: 1 POS_I: 1 POS_F: 2 ID_H: PT#1
T: Quién
L: quien
POS: PT0CS
…
ID: 1 POS_I: 1 POS_F: 2 ID_H: PT#2
W: Quién
POS1: PRON_INTERROG
POS2: PRON_RELATIVO
…
ONTOLOGÍA GUÍA (color verde)
Lo añadido por los recursos y
herramientas en color azul
NLP
Análisis
Léxico
Texto
Frase
Clausula
POSTagger
Palabra
owl:equivalentClass
owl:equivalentClass
Pregunta
W
T
Análisis
Sintáctico
Segmentador
de frases
owl:equivalentProperty
Et_léxica
Lema
Palabra_
Texto
owl:equivalentClass
Q
Fia
INT
owl:equivalentClass
PT0CS
PRON_INTERROG
owl:equivalentClass
Descargar