Gramáticas Libres de Contexto

Anuncio
Sintaxis
IMPORTANTE
Seguramente al final de las
diapositivas viene una
tarea… por favor revise la
última diapositiva
Mejor revise todas.. puede
encontrar otra tarea
Sintaxis

El análisis sintáctico es un paso intermedio para
determinar las relaciones semánticas en las oraciones

Cómo se agrupan las palabras

Análisis sintáctico: esqueleto de las oraciones.
¿Para qué necesitamos la sintaxis?

Con el análisis conocemos

Unidades mínimas de la oración: palabras.

Tipo de palabras: categoría gramatical.

Cómo se combinan las palabras para formar oraciones y
textos.
¿Porqué es necesaria?

Sólo palabras: Paco quemaba corría la porque casa se a

Orden de constituyentes: Paco corría a la casa porque se
quemaba

Relaciones entre sintagmas

Mi hermano se comió la cena de mi perro

Mi perro se comió la cena de mi hermano
¿Porqué es necesaria?

Para establecer el sentido de una oración es
necesario:

Saber el sentido de cada palabra.

Conocer la relación jerárquica que existe entre las
palabras.
Categorías de palabras

Etiquetas POS tradicionales
Sustantivo
Nombres de cosas
Novio, gato, verdad
Verbo
Acción o estado
Volver, pegar
Pronombre
Utilizado como sustantivo Yo, tu, nosotros
Adverbio
Modifica V, Adj, Adv
Tristemente, muy
Adjetivo
Modifica sustantivo
Feliz, listo
Conjunción
Une cosas
Y, pero, mientras
Preposición
Relación de N
A, desde, en
Sintaxis

Entrada: Secuencia de pares (lema, tags)

Salida: Estructura de la frase (árbol sintáctico) con nodos
anotados (lema, tags, función)

Estudia:

La relación de lemas y categorías morfológicas con estructuras de frase

Puede usar categorías sintácticas como sujeto, verbo, objeto, etc.

(yo/PP1PS) ví/VP1PS un/DI perro/NCS

( (yo)FN ( (ví)V ((un)DET (perro)N)FN )FV )S
Formalizando el lenguaje
Ideas principales

Constituyentes

Un grupo de palabras que actúan como una unidad


Relaciones gramaticales

Formalización de la ideas de la gramática tradicional


El gato escandaloso es mío o Ayer murió el gato escandaloso
Sujeto; Objetos: El gato escandaloso durmió en el tejado
Subcategorización y relaciones de dependencia



El verbo querer puede ser seguido de verbos en indicativo
El verbo encontrar no
Pertenecen a distintas subcategorías
Constituyentes


Muchos tipos de constituyentes
Frase nominal: ¿Cómo lo reconocemos, qué palabras lo
forman?



Antecede al verbo, describe un referente
El constituyente puede colocarse como un todo en diferentes lugares en la
oración, no sus palabras
 El gato come en el patio
 En le patio come el gato
 Come el gato en el patio
 *Come gato en el patio el
Hay distintos tipos de frases.
Constituyentes

Determinar las relaciones semánticas se puede hacer
desde distintas visiones del análisis sintáctico

Generalmente se define una gramática.
¿Qué es una gramática?

Una gramática enlista los principios bajo los cuales se agrupan las palabras,
es el conjunto de reglas que describe qué es válido en un lenguaje


Gramáticas clásicas:

Pensadas para gente que conoce el lenguaje

Definiciones y reglas soportadas sólo por ejemplos
Gramáticas explícitas:

Descripción formal

Programables y validadas sobre datos
Gramáticas Libres de Contexto

Las gramáticas libres de contexto (CFG) son también
llamadas Gramáticas de Estructura de frases.

Una CFG consiste de un conjunto de reglas o
producciones y un lexicón de palabras y símbolos.

Cada regla expresa las formas en que los símbolos del lenguaje
pueden ser agrupados y ordenados juntos
Gramáticas Libres de Contexto


Producciones:

NP  Det Nominal
regla 1

NP  Nombre propio
regla 2

Nominal  Sustantivo | Sustantivo Nominal
regla 3
Una NP puede estar compuesta de un nombre propio o de un
determinante Det + nominal

Nominal: uno o más sustantivos.
Gramáticas Libres de Contexto

Las reglas de contexto libre están jerárquicamente
embebidas, se combinan las reglas previas con otras.

Como las siguientes:

Det  un
regla 4

Det  el
regla 5

Sustantivo  vuelo
regla 6
Gramáticas libres de contexto

Los símbolos que son utilizados en una CFG están
divididos en 2 clases.

Terminales: corresponden a palabras en el lenguaje.


El lexicón es el conjunto de reglas que introducen los símbolos terminales.
No terminales: expresan grupos o generalizaciones de estos.
Gramáticas libres de contexto

El elemento a la derecha de  es una lista ordenada de
uno o más terminales y no terminales.

Lo que está a la izquierda de  es un solo símbolo no
terminal expresando alguna generalización.

En el lexicón, el no terminal asociado con cada palabra es su
categoría léxica o parte de la oración.
Gramáticas libres de contexto


Una CFG se puede usar como:

Un dispositivo para generar sentencias

Un dispositivo para asignar una estructura a una sentencia dada.
Como un generador: “reescribe el símbolo de la
izquierda con la cadena de símbolos en la derecha”.
Gramáticas libres de contexto

Iniciando desde el símbolo NP , se puede utilizar la
regla 1 como Det Nominal

Después la regla 3 Det Sustantivo

Finalmente vía las reglas 4 y 6 como

Un vuelo
Gramáticas libres de contexto

La cadena un vuelo puede ser derivada del no
terminal NP.

Una CFG puede ser utilizada para generar
aleatoriamente una serie de cadenas.

Secuencia de expansión de reglas: derivación de la
cadena de palabras.
Gramáticas libres de contexto

Es común representar una derivación por un árbol
sintáctico.
NP
Det
Nom
Sustantivo
un
vuelo
3 vistas de una regla

Generación (producción):
S  NP VP

Parsing (análisis):
S  NP VP

Verificación:
S = NP VP
Gramáticas libres de contexto

El lenguaje formal definido por una CFG es el
conjunto de cadenas que son derivables del símbolo
de inicio diseñado.

Cada gramática debe tener un símbolo de inicio (S)
Gramáticas libres de contexto

Otra regla puede expresar el hecho de que una
sentencia puede consistir de un sintagma nominal +
frase verbal
S  NP VP Yo prefiero un vuelo nocturno
Gramáticas libres de contexto

Una frase verbal consiste de un verbo seguido por
una variedad de otras cosas.

Frase verbal: verbo + sintagma nominal
VP  Verb NP Prefiero un vuelo nocturno
Gramáticas libres de contexto

Frase verbal: verbo + sintagma nominal + frase
preposicional.


VP Verb NP PP dejar el coche en la mañana
Ó el verbo + frase preposicional

VP  Verb PP viajar en autobús
Gramáticas libres de contexto

Una frase preposicional (PP): preposición + sintagma
nominal.

Un tipo muy común de PP en el corpus ATIS es utilizada para
indicar ubicación o dirección:

PP  preposición NP de Los Ángeles
Gramáticas libres de contexto

El NP dentro una PP no necesita ser un lugar.

Pueden ser fechas, tiempos y otros sustantivos

Ejemplos:






a Seattle
en Guadalajara
en martes
en la noche
en estos vuelos
con una escala en Monterrey
El lexicon para L0

Sustantivo  vuelos | briza | viaje |mañana |…

Verbo
volar |…

Adjetivo  barato |sin-escala | primera | último |otro
|directo|…

Pronombre  yo | tú | él |…

Nombre Propio  Alaska |Monterrey |Guadalajara | Puebla|…

Determinante  el | un | una | este |estos |eso |…

Preposición  desde |de | a | sobre | cerca |..

Conjunción  y | o | pero
 estar | preferir | gustar | necesitar | querer |
Gramáticas libres de contexto
S  NP VP
NP  Pronombre
| Nombre propio
| Det Nominal
Nominal  Noun Nominal
| Noun
VP  Verbo
|Verbo NP
| Verbo NP PP
| Verbo PP
PP  Preposición NP
Yo + quiero un vuelo nocturno
Yo
Los Angeles
un+vuelo
vuelo+nocturno
vuelos
hacer
quiero + un vuelo
dejar + Boston + en la mañana
viajar + en autobús
desde + los Ángeles
Gramáticas libres de contexto

A menudo es conveniente representar un árbol
sintáctico en una forma más compacta: notación en
corchetes.

[S[NP[Pro Yo]][VP[Vprefiero][NP[Det un][Nom[N vuelo[N nocturno]]]]]
Gramáticas libres de contexto

Una CFG como la de L0 define un lenguaje formal .


Lenguaje formal = conjunto de cadenas.
Sentencias (cadenas de palabras) que pueden ser
derivadas por una gramática están definidas en el
lenguaje formal por esa gramática

Sentencias gramaticales.
Gramáticas libres de contexto

Las sentencias que no pueden ser derivadas por una gramática
formal dada no están en el lenguaje definido por esa gramática

En lingüística el uso de lenguajes formales para modelar
lenguajes naturales es llamado gramática generativa.

El lenguaje se define por el conjunto de posibles sentencias generadas por la
gramática.
Gramáticas libres de contexto

Una gramática libre de contexto tiene 4 parámetros:

Un conjunto de símbolos no terminales (o variables) N

Un conjunto de símbolos terminales  (disjunto de N)

Un conjunto de producciones P, cada uno de la forma A  ,
donde A es un no terminal y  es una cadena de símbolos del
conjunto infinito de cadenas (  N)*

Un símbolo de inicio S designado
Gramáticas libres de contexto
Gramáticas libres de contexto
Gramáticas libres de contexto

Árbol sintáctico
Ejercicios:

En base a la tarea definir una gramática para cada tipo
de sentencias y elaborar un árbol sintáctico como
ejemplo.

En parejas
Tarea
 Proponer
una gramática para
preguntas.
Exposiciones

Parsing descendente (top-down)

Parsing ascendente (bottom-up
Descargar