Sintaxis IMPORTANTE Seguramente al final de las diapositivas viene una tarea… por favor revise la última diapositiva Mejor revise todas.. puede encontrar otra tarea Sintaxis El análisis sintáctico es un paso intermedio para determinar las relaciones semánticas en las oraciones Cómo se agrupan las palabras Análisis sintáctico: esqueleto de las oraciones. ¿Para qué necesitamos la sintaxis? Con el análisis conocemos Unidades mínimas de la oración: palabras. Tipo de palabras: categoría gramatical. Cómo se combinan las palabras para formar oraciones y textos. ¿Porqué es necesaria? Sólo palabras: Paco quemaba corría la porque casa se a Orden de constituyentes: Paco corría a la casa porque se quemaba Relaciones entre sintagmas Mi hermano se comió la cena de mi perro Mi perro se comió la cena de mi hermano ¿Porqué es necesaria? Para establecer el sentido de una oración es necesario: Saber el sentido de cada palabra. Conocer la relación jerárquica que existe entre las palabras. Categorías de palabras Etiquetas POS tradicionales Sustantivo Nombres de cosas Novio, gato, verdad Verbo Acción o estado Volver, pegar Pronombre Utilizado como sustantivo Yo, tu, nosotros Adverbio Modifica V, Adj, Adv Tristemente, muy Adjetivo Modifica sustantivo Feliz, listo Conjunción Une cosas Y, pero, mientras Preposición Relación de N A, desde, en Sintaxis Entrada: Secuencia de pares (lema, tags) Salida: Estructura de la frase (árbol sintáctico) con nodos anotados (lema, tags, función) Estudia: La relación de lemas y categorías morfológicas con estructuras de frase Puede usar categorías sintácticas como sujeto, verbo, objeto, etc. (yo/PP1PS) ví/VP1PS un/DI perro/NCS ( (yo)FN ( (ví)V ((un)DET (perro)N)FN )FV )S Formalizando el lenguaje Ideas principales Constituyentes Un grupo de palabras que actúan como una unidad Relaciones gramaticales Formalización de la ideas de la gramática tradicional El gato escandaloso es mío o Ayer murió el gato escandaloso Sujeto; Objetos: El gato escandaloso durmió en el tejado Subcategorización y relaciones de dependencia El verbo querer puede ser seguido de verbos en indicativo El verbo encontrar no Pertenecen a distintas subcategorías Constituyentes Muchos tipos de constituyentes Frase nominal: ¿Cómo lo reconocemos, qué palabras lo forman? Antecede al verbo, describe un referente El constituyente puede colocarse como un todo en diferentes lugares en la oración, no sus palabras El gato come en el patio En le patio come el gato Come el gato en el patio *Come gato en el patio el Hay distintos tipos de frases. Constituyentes Determinar las relaciones semánticas se puede hacer desde distintas visiones del análisis sintáctico Generalmente se define una gramática. ¿Qué es una gramática? Una gramática enlista los principios bajo los cuales se agrupan las palabras, es el conjunto de reglas que describe qué es válido en un lenguaje Gramáticas clásicas: Pensadas para gente que conoce el lenguaje Definiciones y reglas soportadas sólo por ejemplos Gramáticas explícitas: Descripción formal Programables y validadas sobre datos Gramáticas Libres de Contexto Las gramáticas libres de contexto (CFG) son también llamadas Gramáticas de Estructura de frases. Una CFG consiste de un conjunto de reglas o producciones y un lexicón de palabras y símbolos. Cada regla expresa las formas en que los símbolos del lenguaje pueden ser agrupados y ordenados juntos Gramáticas Libres de Contexto Producciones: NP Det Nominal regla 1 NP Nombre propio regla 2 Nominal Sustantivo | Sustantivo Nominal regla 3 Una NP puede estar compuesta de un nombre propio o de un determinante Det + nominal Nominal: uno o más sustantivos. Gramáticas Libres de Contexto Las reglas de contexto libre están jerárquicamente embebidas, se combinan las reglas previas con otras. Como las siguientes: Det un regla 4 Det el regla 5 Sustantivo vuelo regla 6 Gramáticas libres de contexto Los símbolos que son utilizados en una CFG están divididos en 2 clases. Terminales: corresponden a palabras en el lenguaje. El lexicón es el conjunto de reglas que introducen los símbolos terminales. No terminales: expresan grupos o generalizaciones de estos. Gramáticas libres de contexto El elemento a la derecha de es una lista ordenada de uno o más terminales y no terminales. Lo que está a la izquierda de es un solo símbolo no terminal expresando alguna generalización. En el lexicón, el no terminal asociado con cada palabra es su categoría léxica o parte de la oración. Gramáticas libres de contexto Una CFG se puede usar como: Un dispositivo para generar sentencias Un dispositivo para asignar una estructura a una sentencia dada. Como un generador: “reescribe el símbolo de la izquierda con la cadena de símbolos en la derecha”. Gramáticas libres de contexto Iniciando desde el símbolo NP , se puede utilizar la regla 1 como Det Nominal Después la regla 3 Det Sustantivo Finalmente vía las reglas 4 y 6 como Un vuelo Gramáticas libres de contexto La cadena un vuelo puede ser derivada del no terminal NP. Una CFG puede ser utilizada para generar aleatoriamente una serie de cadenas. Secuencia de expansión de reglas: derivación de la cadena de palabras. Gramáticas libres de contexto Es común representar una derivación por un árbol sintáctico. NP Det Nom Sustantivo un vuelo 3 vistas de una regla Generación (producción): S NP VP Parsing (análisis): S NP VP Verificación: S = NP VP Gramáticas libres de contexto El lenguaje formal definido por una CFG es el conjunto de cadenas que son derivables del símbolo de inicio diseñado. Cada gramática debe tener un símbolo de inicio (S) Gramáticas libres de contexto Otra regla puede expresar el hecho de que una sentencia puede consistir de un sintagma nominal + frase verbal S NP VP Yo prefiero un vuelo nocturno Gramáticas libres de contexto Una frase verbal consiste de un verbo seguido por una variedad de otras cosas. Frase verbal: verbo + sintagma nominal VP Verb NP Prefiero un vuelo nocturno Gramáticas libres de contexto Frase verbal: verbo + sintagma nominal + frase preposicional. VP Verb NP PP dejar el coche en la mañana Ó el verbo + frase preposicional VP Verb PP viajar en autobús Gramáticas libres de contexto Una frase preposicional (PP): preposición + sintagma nominal. Un tipo muy común de PP en el corpus ATIS es utilizada para indicar ubicación o dirección: PP preposición NP de Los Ángeles Gramáticas libres de contexto El NP dentro una PP no necesita ser un lugar. Pueden ser fechas, tiempos y otros sustantivos Ejemplos: a Seattle en Guadalajara en martes en la noche en estos vuelos con una escala en Monterrey El lexicon para L0 Sustantivo vuelos | briza | viaje |mañana |… Verbo volar |… Adjetivo barato |sin-escala | primera | último |otro |directo|… Pronombre yo | tú | él |… Nombre Propio Alaska |Monterrey |Guadalajara | Puebla|… Determinante el | un | una | este |estos |eso |… Preposición desde |de | a | sobre | cerca |.. Conjunción y | o | pero estar | preferir | gustar | necesitar | querer | Gramáticas libres de contexto S NP VP NP Pronombre | Nombre propio | Det Nominal Nominal Noun Nominal | Noun VP Verbo |Verbo NP | Verbo NP PP | Verbo PP PP Preposición NP Yo + quiero un vuelo nocturno Yo Los Angeles un+vuelo vuelo+nocturno vuelos hacer quiero + un vuelo dejar + Boston + en la mañana viajar + en autobús desde + los Ángeles Gramáticas libres de contexto A menudo es conveniente representar un árbol sintáctico en una forma más compacta: notación en corchetes. [S[NP[Pro Yo]][VP[Vprefiero][NP[Det un][Nom[N vuelo[N nocturno]]]]] Gramáticas libres de contexto Una CFG como la de L0 define un lenguaje formal . Lenguaje formal = conjunto de cadenas. Sentencias (cadenas de palabras) que pueden ser derivadas por una gramática están definidas en el lenguaje formal por esa gramática Sentencias gramaticales. Gramáticas libres de contexto Las sentencias que no pueden ser derivadas por una gramática formal dada no están en el lenguaje definido por esa gramática En lingüística el uso de lenguajes formales para modelar lenguajes naturales es llamado gramática generativa. El lenguaje se define por el conjunto de posibles sentencias generadas por la gramática. Gramáticas libres de contexto Una gramática libre de contexto tiene 4 parámetros: Un conjunto de símbolos no terminales (o variables) N Un conjunto de símbolos terminales (disjunto de N) Un conjunto de producciones P, cada uno de la forma A , donde A es un no terminal y es una cadena de símbolos del conjunto infinito de cadenas ( N)* Un símbolo de inicio S designado Gramáticas libres de contexto Gramáticas libres de contexto Gramáticas libres de contexto Árbol sintáctico Ejercicios: En base a la tarea definir una gramática para cada tipo de sentencias y elaborar un árbol sintáctico como ejemplo. En parejas Tarea Proponer una gramática para preguntas. Exposiciones Parsing descendente (top-down) Parsing ascendente (bottom-up