Apunte 1

Anuncio
Introducción al Procesamiento del Lenguaje Natural – 1/2003
Apunte 1
El nivel sintáctico se ocupa de especificar las posibilidades de combinación de determinadas
unidades. Según cuáles sean estas unidades, podemos distinguir dos subniveles:
sintáctico: la unidad es la palabra
morfológico: la unidad de combinación es una parte de
la palabras.
Para definir estas unidades básicas utilizaremos una serie de primitivas, una serie de funciones parciales
que llamamos rasgos (features). Los más importantes son:
V (verbal): +, N (nominal): +, BARRA: 0,1,2,afijo, raíz (el valor 0 indica que se trata de una palabra, 1 que es un tipo de frase, 2 que
es una frase, af: que es una unidad menor que una palabra (un afijo), ra: otra unidad menor
(o igual) que una palabra, una raíz.
Tenemos entonces:
verbo
nombre
preposición
adjetivo
adverbio
rasgos
[ V+, N-, BAR 0 ]
[ V-, N+, BAR 0 ]
[ V-, N-, BAR 0 ]
[ V+, N+, BAR 0 ]
[ V+, N+, Ad+,
BAR0]
abreviatura
v
n
p
a
adv
vrb
nou
Prp
Adj
adv
Estas son las principales CATEGORIAS SINTACTICAS correspondientes a las clases de palabras. Las
frases equivalentes únicamente se diferencian por poseer el valor 2 para el rasgo BARRA.
Así tendremos:
frase verbal
frase nominal
frase adjetiva
frase preposicional
frase adverbial
VP
NP
AP
PP
Adv
P
Otras categorías sintácticas menores son las siguientes:
artículos (el, un, etc)
det
conjunciones (y, o, pero) conj cjn
complementante (que)
comp com
Dentro de las clases de palabras debemos diferenciar dos tipos:
•
clases cerradas: preposiciones, artículos, conjunciones, pronombres, complementantes.
Tienen un número finito de miembros. No han variado históricamente (en gran medida) en las
lenguas.
•
clases abiertas: sustantivos, verbos, adjetivos
Tienen un gran número de miembros (casi infinito), ya que varían constantemente incorporando y
desechando términos.
2
Otros rasgos que utilizaremos:
Op: Wh, Rel, Q (Wh y Rel se puede combinar con n, adv, NP, AP, PP, AdvP e indica que es una palabra
o frase interrogativa o relativa respectivamente. Ej: Quién, quien, qué, cuándo, cómo.
Tense: +, - (para verbos conjugados, o infinitivos, respectivamente)
REGLAS DE COMBINACION O SINTACTICAS
Especifican las posibilidades de combinación de las unidades que hemos visto, para eso utilizaremos las
siguientes convenciones:
<
> indica opcionalidad
{
} indica diferentes posibilidades alternativas.
Las reglas tienen el siguiente formato (entre otros):
X ----> Y, Z
lo que indica que la categoría X domina a X y a Z (o está compuesta de), y que al mismo tiempo Y
precede linealmente a Z. Las reglas nos permiten analizar o generar las ESTRUCTURAS
SINTACTICAS de las expresiones del lenguaje, y para ello podemos utilizar diferentes formas de
representarlo:
árboles
X
/ \
Y
listas:
Z
[ X [ Y ],
[Z]]
Veamos entonces, algunas reglas para el español:
1) NP --> <det>, <AP>, n,
 < PP > 
 < AP > 
 < S' > 
Es decir que una frase nominal puede estar compuesta por un artículo (opcional), una frase adjetiva
(opcional), un sustantivo (nombre), y una de las siguientes categorías (todas opcionales): una frase
preposicional, una frase adjetiva o una oración (S').
Esta regla en realidad es una abreviatura para un conjunto de reglas:
NP --> n
NP --> det, n
NP --> det, AP, n
NP --> AP, n
NP --> det, n, PP
etc.
Por ejemplo la frase nominal "una buena cena con mariscos" tendría la siguiente representación:
3
NP
det
una
AP
N
PP
buena
cena
con mariscos
2) VP --> < AdvP>, <v aux>, V ,  < NP >  , < PP >
 < PP > 
 < S' > 
 < AP > 
 < AdvP> 
ó
2') VP--> < AdvP>, V, <XP>, < PP>
ejemplo:
VP
AdvP
V
lentamente leía
3) PP --> p,
NP
el discurso
 NP 
 AP 


 S' 
VPinf
4) AP --> <AdvP>, A
PP
AP
P
NP
con
facilidad
5) AdvP --> < AdvP>, Adv
AdvP
A
muy
buena
4
AdvP
AdvP
Adv
muy
rápidamente
Veamos ahora las reglas que corresponden a las oraciones
6) S -->  NP ,
 S' 
 VPinf 
VP
7) S' --> { comp }, S
{ XPwh }
(recordamos que el símbolo wh, corresponde a frases interrogativas)
S
NP
VP
el hombre
compró un libro grande
S'
comp
dijo
que
S
NP
VP
Juan
vino
8) XP --> XP, conj, XP
( todas las frases tienen que ser de la misma categoría ya que utilizamos una misma variable)
ejs: Juan y María;- caminaron y corrieron;- fácil y lindo; lenta y armoniosamente.
CONCORDANCIA (AGREEMENT)
Un fenómeno sintáctico bastante generalizado y que debemos considerar es el de la concordancia.
Determinadas palabras "concuerdan" en un conjunto de rasgos sintácticos. En el español este fenómeno
se da entre: verbo y sujeto, artículo y sustantivo, sustantivo (o frase sustantiva) y adjetivo.
Para dar cuenta de este fenómeno presentamos un nuevo tipo de rasgo sintáctico, un rasgo cuyo valor no
es atómico, sino un conjunto de rasgos. Así la concordancia verbal la representamos como:
CONC [ per: α , num: ß ]
5
ej: caminamos = v
CONC [ per 1, num pl ]
LA INFORMACION LEXICA O NIVEL LEXICO (DICCIONARIO)
En el diccionario o Lexicon los términos léxicos tienen que tener información de diferentes tipos:
fonológica (sonidos) y/o ortográfica
sintáctica, semántica (significado), pragmática (uso).
Veamos que tipo de información sintáctica es necesaria.
a) categoría (en términos de los rasgos que hemos visto o de sus abreviaturas).
b) subcategorización: especifica qué categoría sintáctica tienen los complementos del item léxico.
ejemplo: comer: SUBCAT= [NP,<NP>]
esto quiere decir que el verbo comer tiene como sujeto a una frase nominal y también como
complemento a una frase nominal que es opcional.
También se puede especificar determinadas propiedades sintácticas de los complementos
subcategorizados, por ejemplo, el uso de una preposición determinada, o determinado tipo de rasgos:
dar: SUBCAT(NP, NP, PP[a])
es decir que el segundo complemento de dar es una frase preposicional con 'a' y no otra preposición.
c) funciones de los argumentos subcategorizados
Las funciones son: SUJETO(_), OBJETO(OB), OBJETO INDIRECTO(OI)
Qué tipo de función tienen es importante para identificar su papel semántico.
ejemplos: comer: v
SUBCAT (NP_, <NP/OB>
poner: v
SUBCAT (NP_, NP/OB, PP/OB2).
EL COMPONENTE MORFOLOGICO
Hasta ahora hemos visto cómo se pueden combinar unidades del tipo de las palabra combinando frases.
Sin embargo las palabras no son unidades atómicas. Podemos descomponerlas en unidades menores
que llamamos "morfemas".
Podemos distinguir dos tipos fundamentales de morfemas:
raíces y afijos
La raíz es la parte de la palabra que tiene la información "más importante" del significado de la palabra.
ejemplos; cas- (raiz de 'casa' frente a 'casita', 'casona', etc).
Hay dos tipos de raíces: libres (no necesitan afijos),
ej: fácil.
6
ligadas (no pueden ocurrir libremente, necesitan un afijo).
Los afijos 'agregan información (sintáctica y/o semántica) a la raíz. Podemos clasificarlos,
a) según la posición respecto de la raíz:
prefijos (preceden).
sufijos(siguen).
infijos(dentro de la raíz)
b) según la relación que establecen con la raíz:
derivacionales (pueden modificar la categoría sintáctica. Ej: clar-idad Adj ---> N.
inflexionales (no modifican la categoría sintáctica sino
que discriminan una serie de rasgos.
Habíamos visto que el rasgo BARRA podía tener como valores af y ra (afijo y raíz respectivamente),
veamos entonces como caracterizamos a algunos morfemas.
com-:
-o:
a- :
CAT( V:+,N:-, BAR: ra)
CAT (V-,N+, BAR: af)
CAT(BAR: af)
Abreviatura = Vr
Abreviatura = Naf
Abreviatura = af
Reglas morfológicas
Tienen el mismo formato que las reglas sintácticas que hemos visto.
Afijación flexional
1) N ------ > Nr
af
[N+ Gen:α]
2) V-------> Vr
Vaf
Vaf
[conj: α] [tiempo:ß]
Afijación; derivacional
a) Sufijación
3)
Nr ---> {Nr} Naf
{Ar}
{Vr}
4) Ar ---> {Nr} Aaf
{Ar}
{Vr}
5) Adv ---> A Advaf
6) Vr ---> {Nr} Vaf
{Ar}
b) Prefijación
af
[N+ Pl:ß]
Vaf
[per:X]
[num:Y]
7
7) N----> af N
8) A ---> af A
9) V ---> af V
Compuestos Léxicos
10) N --> {N,A,V,P} N
11) N --> N A
12) N --> V V
13) N --> Adv V
14) N --> A A
15) A --> {N,A} A
16) A --> A N
17); V--> {P, Adv, V} V
Descargar