Introducción al Procesamiento del Lenguaje Natural – 1/2003 Apunte 1 El nivel sintáctico se ocupa de especificar las posibilidades de combinación de determinadas unidades. Según cuáles sean estas unidades, podemos distinguir dos subniveles: sintáctico: la unidad es la palabra morfológico: la unidad de combinación es una parte de la palabras. Para definir estas unidades básicas utilizaremos una serie de primitivas, una serie de funciones parciales que llamamos rasgos (features). Los más importantes son: V (verbal): +, N (nominal): +, BARRA: 0,1,2,afijo, raíz (el valor 0 indica que se trata de una palabra, 1 que es un tipo de frase, 2 que es una frase, af: que es una unidad menor que una palabra (un afijo), ra: otra unidad menor (o igual) que una palabra, una raíz. Tenemos entonces: verbo nombre preposición adjetivo adverbio rasgos [ V+, N-, BAR 0 ] [ V-, N+, BAR 0 ] [ V-, N-, BAR 0 ] [ V+, N+, BAR 0 ] [ V+, N+, Ad+, BAR0] abreviatura v n p a adv vrb nou Prp Adj adv Estas son las principales CATEGORIAS SINTACTICAS correspondientes a las clases de palabras. Las frases equivalentes únicamente se diferencian por poseer el valor 2 para el rasgo BARRA. Así tendremos: frase verbal frase nominal frase adjetiva frase preposicional frase adverbial VP NP AP PP Adv P Otras categorías sintácticas menores son las siguientes: artículos (el, un, etc) det conjunciones (y, o, pero) conj cjn complementante (que) comp com Dentro de las clases de palabras debemos diferenciar dos tipos: • clases cerradas: preposiciones, artículos, conjunciones, pronombres, complementantes. Tienen un número finito de miembros. No han variado históricamente (en gran medida) en las lenguas. • clases abiertas: sustantivos, verbos, adjetivos Tienen un gran número de miembros (casi infinito), ya que varían constantemente incorporando y desechando términos. 2 Otros rasgos que utilizaremos: Op: Wh, Rel, Q (Wh y Rel se puede combinar con n, adv, NP, AP, PP, AdvP e indica que es una palabra o frase interrogativa o relativa respectivamente. Ej: Quién, quien, qué, cuándo, cómo. Tense: +, - (para verbos conjugados, o infinitivos, respectivamente) REGLAS DE COMBINACION O SINTACTICAS Especifican las posibilidades de combinación de las unidades que hemos visto, para eso utilizaremos las siguientes convenciones: < > indica opcionalidad { } indica diferentes posibilidades alternativas. Las reglas tienen el siguiente formato (entre otros): X ----> Y, Z lo que indica que la categoría X domina a X y a Z (o está compuesta de), y que al mismo tiempo Y precede linealmente a Z. Las reglas nos permiten analizar o generar las ESTRUCTURAS SINTACTICAS de las expresiones del lenguaje, y para ello podemos utilizar diferentes formas de representarlo: árboles X / \ Y listas: Z [ X [ Y ], [Z]] Veamos entonces, algunas reglas para el español: 1) NP --> <det>, <AP>, n, < PP > < AP > < S' > Es decir que una frase nominal puede estar compuesta por un artículo (opcional), una frase adjetiva (opcional), un sustantivo (nombre), y una de las siguientes categorías (todas opcionales): una frase preposicional, una frase adjetiva o una oración (S'). Esta regla en realidad es una abreviatura para un conjunto de reglas: NP --> n NP --> det, n NP --> det, AP, n NP --> AP, n NP --> det, n, PP etc. Por ejemplo la frase nominal "una buena cena con mariscos" tendría la siguiente representación: 3 NP det una AP N PP buena cena con mariscos 2) VP --> < AdvP>, <v aux>, V , < NP > , < PP > < PP > < S' > < AP > < AdvP> ó 2') VP--> < AdvP>, V, <XP>, < PP> ejemplo: VP AdvP V lentamente leía 3) PP --> p, NP el discurso NP AP S' VPinf 4) AP --> <AdvP>, A PP AP P NP con facilidad 5) AdvP --> < AdvP>, Adv AdvP A muy buena 4 AdvP AdvP Adv muy rápidamente Veamos ahora las reglas que corresponden a las oraciones 6) S --> NP , S' VPinf VP 7) S' --> { comp }, S { XPwh } (recordamos que el símbolo wh, corresponde a frases interrogativas) S NP VP el hombre compró un libro grande S' comp dijo que S NP VP Juan vino 8) XP --> XP, conj, XP ( todas las frases tienen que ser de la misma categoría ya que utilizamos una misma variable) ejs: Juan y María;- caminaron y corrieron;- fácil y lindo; lenta y armoniosamente. CONCORDANCIA (AGREEMENT) Un fenómeno sintáctico bastante generalizado y que debemos considerar es el de la concordancia. Determinadas palabras "concuerdan" en un conjunto de rasgos sintácticos. En el español este fenómeno se da entre: verbo y sujeto, artículo y sustantivo, sustantivo (o frase sustantiva) y adjetivo. Para dar cuenta de este fenómeno presentamos un nuevo tipo de rasgo sintáctico, un rasgo cuyo valor no es atómico, sino un conjunto de rasgos. Así la concordancia verbal la representamos como: CONC [ per: α , num: ß ] 5 ej: caminamos = v CONC [ per 1, num pl ] LA INFORMACION LEXICA O NIVEL LEXICO (DICCIONARIO) En el diccionario o Lexicon los términos léxicos tienen que tener información de diferentes tipos: fonológica (sonidos) y/o ortográfica sintáctica, semántica (significado), pragmática (uso). Veamos que tipo de información sintáctica es necesaria. a) categoría (en términos de los rasgos que hemos visto o de sus abreviaturas). b) subcategorización: especifica qué categoría sintáctica tienen los complementos del item léxico. ejemplo: comer: SUBCAT= [NP,<NP>] esto quiere decir que el verbo comer tiene como sujeto a una frase nominal y también como complemento a una frase nominal que es opcional. También se puede especificar determinadas propiedades sintácticas de los complementos subcategorizados, por ejemplo, el uso de una preposición determinada, o determinado tipo de rasgos: dar: SUBCAT(NP, NP, PP[a]) es decir que el segundo complemento de dar es una frase preposicional con 'a' y no otra preposición. c) funciones de los argumentos subcategorizados Las funciones son: SUJETO(_), OBJETO(OB), OBJETO INDIRECTO(OI) Qué tipo de función tienen es importante para identificar su papel semántico. ejemplos: comer: v SUBCAT (NP_, <NP/OB> poner: v SUBCAT (NP_, NP/OB, PP/OB2). EL COMPONENTE MORFOLOGICO Hasta ahora hemos visto cómo se pueden combinar unidades del tipo de las palabra combinando frases. Sin embargo las palabras no son unidades atómicas. Podemos descomponerlas en unidades menores que llamamos "morfemas". Podemos distinguir dos tipos fundamentales de morfemas: raíces y afijos La raíz es la parte de la palabra que tiene la información "más importante" del significado de la palabra. ejemplos; cas- (raiz de 'casa' frente a 'casita', 'casona', etc). Hay dos tipos de raíces: libres (no necesitan afijos), ej: fácil. 6 ligadas (no pueden ocurrir libremente, necesitan un afijo). Los afijos 'agregan información (sintáctica y/o semántica) a la raíz. Podemos clasificarlos, a) según la posición respecto de la raíz: prefijos (preceden). sufijos(siguen). infijos(dentro de la raíz) b) según la relación que establecen con la raíz: derivacionales (pueden modificar la categoría sintáctica. Ej: clar-idad Adj ---> N. inflexionales (no modifican la categoría sintáctica sino que discriminan una serie de rasgos. Habíamos visto que el rasgo BARRA podía tener como valores af y ra (afijo y raíz respectivamente), veamos entonces como caracterizamos a algunos morfemas. com-: -o: a- : CAT( V:+,N:-, BAR: ra) CAT (V-,N+, BAR: af) CAT(BAR: af) Abreviatura = Vr Abreviatura = Naf Abreviatura = af Reglas morfológicas Tienen el mismo formato que las reglas sintácticas que hemos visto. Afijación flexional 1) N ------ > Nr af [N+ Gen:α] 2) V-------> Vr Vaf Vaf [conj: α] [tiempo:ß] Afijación; derivacional a) Sufijación 3) Nr ---> {Nr} Naf {Ar} {Vr} 4) Ar ---> {Nr} Aaf {Ar} {Vr} 5) Adv ---> A Advaf 6) Vr ---> {Nr} Vaf {Ar} b) Prefijación af [N+ Pl:ß] Vaf [per:X] [num:Y] 7 7) N----> af N 8) A ---> af A 9) V ---> af V Compuestos Léxicos 10) N --> {N,A,V,P} N 11) N --> N A 12) N --> V V 13) N --> Adv V 14) N --> A A 15) A --> {N,A} A 16) A --> A N 17); V--> {P, Adv, V} V