LENGUAJES NATURALES TEMA. An´ alisis Sem´ antico

Anuncio
LENGUAJES NATURALES
TEMA. Análisis Semántico
FJRP. LN, 2005
11 de diciembre de 2006
1.
Introducción
Sigue al análisis sintáctico, intentando determinar el significado de las frases analizadas.
Aproximación más usual: Análisis semántico dirigido por la
sintaxis (syntax driven semantic analisys)
• Semántica compositiva: La representación semántica de
un objeto debe poder obtenerse a partir de la de sus
componentes (principio de composicionalidad de Frege)
representación signif. palabras individuales
(semántica léxica)
+
representación estructura de la frase
(gramática)








⇒ representación signif. de la frase







• Se ignora –por ahora– el contexto de la frase y el conocimiento del mundo.
• La representación resultante podrá ”dejar cosas”sin especificar
1
• Dos aproximaciones
◦ Interpret. semántica posterior al A. Sintáctico
◦ Interpret. semántica en paralelo con A. Sintáctico
Representación del significado
• Diferentes técnicas posibles (relacionadas con el problema de la represent. del conocimiento en IA)
◦
◦
◦
◦
Lógica de predicados de primer orden y extensiones
Redes semánticas
Grafos de dependencias conceptuales
Frames y derivados
• Ejemplo : ”I have a car ”
Caracterı́sticas deseables en formalismos de representación
del significado
Verificabilidad debe ser posible determinar la verdad/falsedad
de las representaciones (con respecto a la base de conocimiento que defina ”su”mundo)
Represent. no ambigua
Soporte del concepto de forma canónica posibilidad de
asociar a múltiples entradas con un mismo significado
un única representación
Mecanismos de inferencia + uso de variables capacidad
de extraer conclusiones válidas a partir de las representaciones de significados
Expresividad el sist. debe poseer suficiente capacidad expresiva para representar cualquier frase de interés para
la aplicación concreta
2.
Representaciones basadas en lógica de predicados
LPPO (lógica de predicados de primer orden)
• Mecanismo de representación del signif. muy usado
• Cubre muchos de los requisitos anteriores
• Existen bases teóricas y computacionales para darle soporte
Significado de los lenguajes naturales
• Existen formas de expresar significado comunes a distintos lenguajes humanos: orden de las palabras, uso
de conjunciones y cunatificadores, etc,...
• En general, la estructura semántica de los lenguajes se
puede interpretar en base a construciones predicadoargumento
◦ Los verbos suelen corresponderse con predicados
lógicos, siendo los componentes que los acompañan
(sujeto, complementos, etc) sus argumentos
◦ Otras categorı́as también tienen asociadas estructuras predicado-argumento: preposiciones, adverbios,
etc
Correspondencia LPPO y elementos del lenguaje
constantes se refieren a objetos especı́ficos (suelen corresponderse con nombres propios)
funciones se refieren también a objetos especı́ficos, permiten referirse a ellos sin tener que asignarles una constante.
Ej.: genitivo sajón en inglés (”my school location”→ LocationOf (M ySchool)),
sintagmas preposicionales, etc..
variables permiten manejar objetos e inferir sin tener que
referenciar un objeto en concreto.
Pueden referirse a un objeto anónimo o a un conjunto
de objetos.
predicados representan relaciones entre un número fijo de
objetos.
En el caso de presicados con un argumento, suelen representar propiedades de ese obejeto
Ej.: ”Juan lee un libro”(→ leer(Juan, Libro)), ”Juan
es un estudiante”(→ estudiante(Juan))
conectivas lógicas permiten representaciones compuestas
complejas, agrupando objetos y relaciones entre objetos
Conectivas: ∧, ∨, ¬, ⇒, ⇔
cuantifiadores Especifican el ámbito de las variables y su
interpretación
• un objeto anónimo (cuantif. existencial) ∃
• todos los objetos de un conjuntos (cuantif. universal) ∀
Cuantif. existencial: suelen asociarse con determinantes indefinidos
Un restaurante que sirva comida mexicana cerca de la universidad
∃x Restaurante(x) ∧ Servir(x, Comida M exicana) ∧ Cerca(situacion(x), situacion(U niversidad))
Cuantif. universal: suele estar asociado a determinantes definidos (artı́culos) y a expresiones como ”todos,
para todo, cualquier,...”
Todos los restaurantes vegetarianos sirven comida vegetariana
∀x Restaurante(x) ∧ T ipo(x, V egetariano) ⇒ Servir(x, Comida V egetariana)
Análisis dirigido por la sintaxis y LPPO
• IDEA BASE: Asociar a las reglas de la gramática
info. semántica que determine cómo construir las representaciones semánticas a partir de la semántica de
los componentes
(Aplicación directa del principio de composicionalidad)
• Notación LPPO no basta
◦ Necesidad de instanciar variables
◦ Uso del lambda cálculo y λ-reducciones
• Ejemplo:
◦ Cada palabra del lexicon tiene asociada una λ-expresión
con su semántica
◦ IDEM para las reglas
3.
Gramáticas semánticas
Combinación de sintaxis y semántica en un mismo formalismo (normalmente CFG)
Usadas en dominios restringidos
• Conjunto de terminales y no terminales especı́fico para
el dominio de aplicación concreto
• Los sı́mbolos de la gramática representan categorı́as
semánticas (conceptos, entidades, relaciones) especı́ficas de ese dominio
• Las reglas de producción de la gramática derivan del
dominio
Ejemplo: Dominio de reservas aereas
VENTAJAS: Generación de representaciones semánticas más
sencilla que con gramáticas generales
• Gramáticas generales:
◦ Orientadas a capturar generalizaciones sintácticas
y evitar sobregeneración, no a extraer semántica
◦ Los elementos con significado están “esparcidos”
por el árbol sintáctico, que contiene elementos sin
valor semántico
• Gramáticas semánticas:
◦ Las reglas y los constituyentes se corresponden directamente con elementos del dominio de aplicación
◦ Elementos semánticos relacionados aparecerán –en
general– dentro de la misma regla
◦ No se generaliza más de los que es necesario para
el contexto de uso
INCONVENIENTES:
• Número alto de reglas y mayor ambigüedad (no se generaliza)
• Poca generalidad y potencia expresiva restringida (limitada al dominio)
◦ Demasiada dependencia del dominio
◦ Difı́cil aplicarlo en entornos nuevos (requerirı́a reescribir en profundidad la gramática)
4.
Semántica léxica. WordNet
Relaciones Semánticas
Estudio del significado (sentido) de las palabras (lexemas)
y de las relaciones entre palabras y significados
Relaciones semanticas
Homonimia Palabras con la misma forma y significados
no relacionados (homófonos y homógrafos)
• Ejemplo: banco (asiento), banco (de $)
• Problemas: Degradan el rendimiento de: sist. de
corrección de errores, sist. reconocimiento del habla, sist. recuperación de información
Polisemia Una misma palabra con múltiples significados
relacionados”
• Ejemplo: banco (de sangre), banco (de $)
• Problemas: Difı́cil descubrir el significado correcto
de una palabra en un contexto dado.
WORD SENSE DISAMBIGUATION: Técnicas (estadı́sticas y/o basadas en reglas) para determinar el
significado de una palabra en un contexto concreto (suelen basarse en el uso de bases de datos de
conocimiento semántico)
Sinonimia Diferentes palabras con el mismo –o similar–
significado
CONCEPTO CLAVE: intercambiabilidad Dos palabras
son sinónimas (puras) si se pueden intercambiar en
cualquier contexto sin afectar al significado global
Hiponimia/Hiperonimia Relación entre palabras donde
una de ellas denota a una subclase de la otra más especı́fica (relación ”IS A”), estable una jerarquı́a (normalmente con herencia)
• Ejemplo: coche → vehı́culo, niño → hombre → ser
humano → mamı́fero ...
• Hiperónimo: concepto más general
• Hipónimo: concepto más especı́fico
Otras relaciones antonimia, meronimia/holonimia (relación ”PARTE DE”, jerarquı́a con herencia)
WORDNET (http://www.cogsi.princeton.edu/∼wn)
Base de datos de información léxica (el original es en inglés,
EUROWORDNET es una versión en varios idomas europeos).
Evolución de los diccionarios electrónicos (forma una red
semántica de conceptos)
Contine 3 bases de datos (nombres, verbos, adjetivos+adverbios)
que asignan a cada lexema individual el cojunto de de sentidos que puede tener asociados y establecen las relaciones
entre formas y sentidos
Entradas en WordNet → para cada palabra devuelve: conj.
de sinónimos+definición+ejemplos de uso
PRINCIPAL APORTACION: Soporte de un conjunto de
relaciones semánticas independientes del dominio
• Relaciones soportadas en la red semántica
◦ Para NOMBRES: Hyperonym, Hyponym, Has Member,
Member Of, Has Part, Part Of, Antonym
◦ Para VERBOS: Hyperonym, Troponym (≈ hiponimia, verbos que son formas particulares de otros
[caminar/pasear]), Entail (implicación, causa entre
verbos [roncar ⇒ dormir]), Antonym
◦ Para ADJ./ADV.: Antonym
CONCEPTO BÁSICO: SYMSETS (conjuntos de sinónimos)
• Encargados de soportar la relación de sinonimia entre
palabras.
Todas las demás relaciones semánticas se definen entre
pares symsets
• Cada symset representa un CONCEPTO que puede ser
lexicalizado en el lenguaje mediante diferentes palabras
(SYSSET ≡ CONCEPTO)
• WordNet repsesenta cada symset como la lista de entradas léxicas que pueden emplearse para expresar el
concepto que representa.
• Las relaciones que define WordNet se establecen entre
symsets, no entre los lexemas o sentidos individuales
• Ejemplo: Relación de Hiponimia
Cada SYMSET se relaciona con su SYMSET inmediatamente más general mediante la relación de HIPERONIMIA y con los los SYMSETS más especifı́cos mediante HIPONIMIA
Para la forma "bajo":
<sentido 1> (symset XXXXXX)
{bajo} ... (cantante con un tono de voz ....)
=> {cantante, vocalista}
=> {artista, ...}
=> {persona, individuo, ser humano, ...}
=> {ser, entidad, ...}
<sentido 2> (symset YYYYYY)
{bajo, guitarra baja} ... (instrumento musical ...)
=> {instrumento musical}
=> {instrumento, aparato, artefacto}
=> {entidad, objeto, ...}
Descargar