LENGUAJES NATURALES TEMA. Análisis Semántico FJRP. LN, 2005 11 de diciembre de 2006 1. Introducción Sigue al análisis sintáctico, intentando determinar el significado de las frases analizadas. Aproximación más usual: Análisis semántico dirigido por la sintaxis (syntax driven semantic analisys) • Semántica compositiva: La representación semántica de un objeto debe poder obtenerse a partir de la de sus componentes (principio de composicionalidad de Frege) representación signif. palabras individuales (semántica léxica) + representación estructura de la frase (gramática) ⇒ representación signif. de la frase • Se ignora –por ahora– el contexto de la frase y el conocimiento del mundo. • La representación resultante podrá ”dejar cosas”sin especificar 1 • Dos aproximaciones ◦ Interpret. semántica posterior al A. Sintáctico ◦ Interpret. semántica en paralelo con A. Sintáctico Representación del significado • Diferentes técnicas posibles (relacionadas con el problema de la represent. del conocimiento en IA) ◦ ◦ ◦ ◦ Lógica de predicados de primer orden y extensiones Redes semánticas Grafos de dependencias conceptuales Frames y derivados • Ejemplo : ”I have a car ” Caracterı́sticas deseables en formalismos de representación del significado Verificabilidad debe ser posible determinar la verdad/falsedad de las representaciones (con respecto a la base de conocimiento que defina ”su”mundo) Represent. no ambigua Soporte del concepto de forma canónica posibilidad de asociar a múltiples entradas con un mismo significado un única representación Mecanismos de inferencia + uso de variables capacidad de extraer conclusiones válidas a partir de las representaciones de significados Expresividad el sist. debe poseer suficiente capacidad expresiva para representar cualquier frase de interés para la aplicación concreta 2. Representaciones basadas en lógica de predicados LPPO (lógica de predicados de primer orden) • Mecanismo de representación del signif. muy usado • Cubre muchos de los requisitos anteriores • Existen bases teóricas y computacionales para darle soporte Significado de los lenguajes naturales • Existen formas de expresar significado comunes a distintos lenguajes humanos: orden de las palabras, uso de conjunciones y cunatificadores, etc,... • En general, la estructura semántica de los lenguajes se puede interpretar en base a construciones predicadoargumento ◦ Los verbos suelen corresponderse con predicados lógicos, siendo los componentes que los acompañan (sujeto, complementos, etc) sus argumentos ◦ Otras categorı́as también tienen asociadas estructuras predicado-argumento: preposiciones, adverbios, etc Correspondencia LPPO y elementos del lenguaje constantes se refieren a objetos especı́ficos (suelen corresponderse con nombres propios) funciones se refieren también a objetos especı́ficos, permiten referirse a ellos sin tener que asignarles una constante. Ej.: genitivo sajón en inglés (”my school location”→ LocationOf (M ySchool)), sintagmas preposicionales, etc.. variables permiten manejar objetos e inferir sin tener que referenciar un objeto en concreto. Pueden referirse a un objeto anónimo o a un conjunto de objetos. predicados representan relaciones entre un número fijo de objetos. En el caso de presicados con un argumento, suelen representar propiedades de ese obejeto Ej.: ”Juan lee un libro”(→ leer(Juan, Libro)), ”Juan es un estudiante”(→ estudiante(Juan)) conectivas lógicas permiten representaciones compuestas complejas, agrupando objetos y relaciones entre objetos Conectivas: ∧, ∨, ¬, ⇒, ⇔ cuantifiadores Especifican el ámbito de las variables y su interpretación • un objeto anónimo (cuantif. existencial) ∃ • todos los objetos de un conjuntos (cuantif. universal) ∀ Cuantif. existencial: suelen asociarse con determinantes indefinidos Un restaurante que sirva comida mexicana cerca de la universidad ∃x Restaurante(x) ∧ Servir(x, Comida M exicana) ∧ Cerca(situacion(x), situacion(U niversidad)) Cuantif. universal: suele estar asociado a determinantes definidos (artı́culos) y a expresiones como ”todos, para todo, cualquier,...” Todos los restaurantes vegetarianos sirven comida vegetariana ∀x Restaurante(x) ∧ T ipo(x, V egetariano) ⇒ Servir(x, Comida V egetariana) Análisis dirigido por la sintaxis y LPPO • IDEA BASE: Asociar a las reglas de la gramática info. semántica que determine cómo construir las representaciones semánticas a partir de la semántica de los componentes (Aplicación directa del principio de composicionalidad) • Notación LPPO no basta ◦ Necesidad de instanciar variables ◦ Uso del lambda cálculo y λ-reducciones • Ejemplo: ◦ Cada palabra del lexicon tiene asociada una λ-expresión con su semántica ◦ IDEM para las reglas 3. Gramáticas semánticas Combinación de sintaxis y semántica en un mismo formalismo (normalmente CFG) Usadas en dominios restringidos • Conjunto de terminales y no terminales especı́fico para el dominio de aplicación concreto • Los sı́mbolos de la gramática representan categorı́as semánticas (conceptos, entidades, relaciones) especı́ficas de ese dominio • Las reglas de producción de la gramática derivan del dominio Ejemplo: Dominio de reservas aereas VENTAJAS: Generación de representaciones semánticas más sencilla que con gramáticas generales • Gramáticas generales: ◦ Orientadas a capturar generalizaciones sintácticas y evitar sobregeneración, no a extraer semántica ◦ Los elementos con significado están “esparcidos” por el árbol sintáctico, que contiene elementos sin valor semántico • Gramáticas semánticas: ◦ Las reglas y los constituyentes se corresponden directamente con elementos del dominio de aplicación ◦ Elementos semánticos relacionados aparecerán –en general– dentro de la misma regla ◦ No se generaliza más de los que es necesario para el contexto de uso INCONVENIENTES: • Número alto de reglas y mayor ambigüedad (no se generaliza) • Poca generalidad y potencia expresiva restringida (limitada al dominio) ◦ Demasiada dependencia del dominio ◦ Difı́cil aplicarlo en entornos nuevos (requerirı́a reescribir en profundidad la gramática) 4. Semántica léxica. WordNet Relaciones Semánticas Estudio del significado (sentido) de las palabras (lexemas) y de las relaciones entre palabras y significados Relaciones semanticas Homonimia Palabras con la misma forma y significados no relacionados (homófonos y homógrafos) • Ejemplo: banco (asiento), banco (de $) • Problemas: Degradan el rendimiento de: sist. de corrección de errores, sist. reconocimiento del habla, sist. recuperación de información Polisemia Una misma palabra con múltiples significados relacionados” • Ejemplo: banco (de sangre), banco (de $) • Problemas: Difı́cil descubrir el significado correcto de una palabra en un contexto dado. WORD SENSE DISAMBIGUATION: Técnicas (estadı́sticas y/o basadas en reglas) para determinar el significado de una palabra en un contexto concreto (suelen basarse en el uso de bases de datos de conocimiento semántico) Sinonimia Diferentes palabras con el mismo –o similar– significado CONCEPTO CLAVE: intercambiabilidad Dos palabras son sinónimas (puras) si se pueden intercambiar en cualquier contexto sin afectar al significado global Hiponimia/Hiperonimia Relación entre palabras donde una de ellas denota a una subclase de la otra más especı́fica (relación ”IS A”), estable una jerarquı́a (normalmente con herencia) • Ejemplo: coche → vehı́culo, niño → hombre → ser humano → mamı́fero ... • Hiperónimo: concepto más general • Hipónimo: concepto más especı́fico Otras relaciones antonimia, meronimia/holonimia (relación ”PARTE DE”, jerarquı́a con herencia) WORDNET (http://www.cogsi.princeton.edu/∼wn) Base de datos de información léxica (el original es en inglés, EUROWORDNET es una versión en varios idomas europeos). Evolución de los diccionarios electrónicos (forma una red semántica de conceptos) Contine 3 bases de datos (nombres, verbos, adjetivos+adverbios) que asignan a cada lexema individual el cojunto de de sentidos que puede tener asociados y establecen las relaciones entre formas y sentidos Entradas en WordNet → para cada palabra devuelve: conj. de sinónimos+definición+ejemplos de uso PRINCIPAL APORTACION: Soporte de un conjunto de relaciones semánticas independientes del dominio • Relaciones soportadas en la red semántica ◦ Para NOMBRES: Hyperonym, Hyponym, Has Member, Member Of, Has Part, Part Of, Antonym ◦ Para VERBOS: Hyperonym, Troponym (≈ hiponimia, verbos que son formas particulares de otros [caminar/pasear]), Entail (implicación, causa entre verbos [roncar ⇒ dormir]), Antonym ◦ Para ADJ./ADV.: Antonym CONCEPTO BÁSICO: SYMSETS (conjuntos de sinónimos) • Encargados de soportar la relación de sinonimia entre palabras. Todas las demás relaciones semánticas se definen entre pares symsets • Cada symset representa un CONCEPTO que puede ser lexicalizado en el lenguaje mediante diferentes palabras (SYSSET ≡ CONCEPTO) • WordNet repsesenta cada symset como la lista de entradas léxicas que pueden emplearse para expresar el concepto que representa. • Las relaciones que define WordNet se establecen entre symsets, no entre los lexemas o sentidos individuales • Ejemplo: Relación de Hiponimia Cada SYMSET se relaciona con su SYMSET inmediatamente más general mediante la relación de HIPERONIMIA y con los los SYMSETS más especifı́cos mediante HIPONIMIA Para la forma "bajo": <sentido 1> (symset XXXXXX) {bajo} ... (cantante con un tono de voz ....) => {cantante, vocalista} => {artista, ...} => {persona, individuo, ser humano, ...} => {ser, entidad, ...} <sentido 2> (symset YYYYYY) {bajo, guitarra baja} ... (instrumento musical ...) => {instrumento musical} => {instrumento, aparato, artefacto} => {entidad, objeto, ...}