Málaga2016_de Mercè Lorente

Anuncio
Universidad de Málaga, 7 de Abril de 2016 Recursos y herramientas al amparo de las teorías lingüís6cas Mercè Lorente [email protected] 1 Universidad de Málaga, 7 de Abril de 2016 Guión 1. 
2. 
3. 
4. 
Introducción Recursos y herramientas De teorías, modelos y mecanismos El diseño de recursos y herramientas: adecuación y coherencia 5.  Ejemplos 2 Universidad de Málaga, 7 de Abril de 2016 De recursos y herramientas 3 Universidad de Málaga, 7 de Abril de 2016 Recursos lingüísJcos (1) •  Corpus textuales –  Orales –  Escritos –  MulJmedia •  Recursos léxicos –  Diccionarios –  Bancos de datos –  Jerarquías léxicas 4 Universidad de Málaga, 7 de Abril de 2016 Recursos lingüísJcos (2) •  Bancos de conocimiento –  Enciclopedias –  Ontologías –  Portales integrados (corpus, léxicos, ontologías) •  Otros 5 Universidad de Málaga, 7 de Abril de 2016 CaracterísJcas • 
• 
• 
• 
Datos ordenados sistemáJcamente Datos eJquetados (estándares) Comparables ReuJlizables 6 Universidad de Málaga, 7 de Abril de 2016 Herramientas lingüísJcas • 
• 
• 
• 
• 
De búsqueda y clasificación de documentos De estructuración (preproceso) De procesamiento del lenguaje natural (PLN) De extracción de datos lingüísJcos De recuperación de la información (RI) 7 Universidad de Málaga, 7 de Abril de 2016 Búsqueda y clasificación • 
• 
• 
• 
Buscadores y metabuscadores Indizadores de documentos Filtros lingüísJcos Clasificadores temáJcos de documentos 8 Universidad de Málaga, 7 de Abril de 2016 Estructuración y preproceso Metadatos de corpus y de documentos Segmentación de unidades (o tokenización) EJquetaje estructural IdenJficación de nombres propios IdenJficación y estandarización de fechas y canJdades •  IdenJficación de unidades fraseológicas •  IdenJficación de préstamos de otras lenguas • 
• 
• 
• 
• 
9 Universidad de Málaga, 7 de Abril de 2016 Procesamiento del lenguaje natural • 
• 
• 
• 
• 
• 
EJquetaje morfosintácJco Desambiguación lingüísJca Desambiguación estadísJca o estocásJca Análisis sintácJco EJquetaje semánJco EJquetaje pragmáJco-­‐discursivo 10 Universidad de Málaga, 7 de Abril de 2016 Extracción • 
• 
• 
• 
• 
Interfaces de consulta de corpus Frecuencias y concordancias Análisis lexicométrico Extracción automáJca de terminología Detección automáJca de neología –  Neología formal y filtros lexicográficos –  Neología semánJca y estrategias formales 11 Universidad de Málaga, 7 de Abril de 2016 Recuperación de información •  Expansión de consultas •  Sistemas de pregunta-­‐respuesta •  Sistemas de diálogo persona-­‐máquina 12 Universidad de Málaga, 7 de Abril de 2016 De teorías, modelos y mecanismos 13 Universidad de Málaga, 7 de Abril de 2016 Paradigmas cienbficos(1) •  El progreso cienbfico no es visto como la acumulación de observaciones, sino como "el repeJdo derrocamiento de teorías cienbficas y su reemplazo por otras mejores o más saJsfactorias“ (carácter permanentemente revolucionario de la ciencia). POPPER, Karl R. (1959) La lógica de la inves6gación cien<fica. México: Rei, 1996. p. 16 14 Universidad de Málaga, 7 de Abril de 2016 Paradigmas cienbficos (2) •  Los paradigmas son "realizaciones cien<ficas universalmente reconocidas que, durante mucho 6empo, proporcionan modelos de problemas y soluciones a una comunidad cien<fica“. KUHN, Thomas S. (1962) La estructura de las revoluciones cien<ficas. México: Fondo de Cultura Económica, 2001. p. 13. 15 Universidad de Málaga, 7 de Abril de 2016 ¿Qué es una teoría? Conjunto de principios y fundamentos básicos sobre un objeto cienbfico. Se refiere a •  la delimitación del objeto, •  los objeJvos cienbficos que se propone, •  y al método cienbfico uJlizado. Ejemplo: El generaJvismo, respecto de la lingüísJca anterior, es una teoría mentalista del lenguaje, que desarrolla subteorías como la teoría de la adquisición del lenguaje, la teoría de los universales del lenguaje y la teoría formal del lenguaje. 16 Universidad de Málaga, 7 de Abril de 2016 ¿Qué es un modelo? Modelo: Representación ideal de un objeto Modelo lingüísJco: Representación ideal de la gramáJca del hablante •  Se inscribe en una teoría (marco teórico) •  Puede ser un modelo completo, parcial o simplificado. •  Puede evolucionar. •  Para cada teoría, puede haber varios modelos. Ejemplo: Diferentes versiones de la gramáJca generaJva 17 Universidad de Málaga, 7 de Abril de 2016 ¿Qué son los mecanismos? Lenguajes formales o matemáJcos para el desarrollo de modelos gramaJcales. Símbolos, reglas, relaciones, etc. • Mecanismos descripJus o de representació • Mecanismos de processament i validació • Mecanismos de generalització Ejemplos: • Mecanismos de unificación, como los de LFG (Bresnan & Kaplan 1982) o HPSG (Pollard & Sag 1990) • Mecanismos de generalización 18 Universidad de Málaga, 7 de Abril de 2016 TEORÍAS MODELOS MECANISMOS OBJETOS DISEÑOS PROCEDIMIENTOS 19 Universidad de Málaga, 7 de Abril de 2016 Los paradigmas actuales de la lingüís6ca 20 Universidad de Málaga, 7 de Abril de 2016 La historia de la lingüísJca (1) •  Los estudios lingüísJcos antes de la lingüísJca –  Las aplicaciones: Orientación prescripJva. –  La reflexión: Los antecedentes de la filosora del lenguaje –  La historia de la lengua. La gramáJca histórica 21 Universidad de Málaga, 7 de Abril de 2016 La historia de la lingüísJca (2) •  La lingüísJca, como disciplina cienbfica –  El estructuralismo europeo –  El estructuralismo americano –  El generaJvismo –  El funcionalismo –  El cogniJvismo 22 Universidad de Málaga, 7 de Abril de 2016 El generaJvismo •  La teoría innaJsta y formal del lenguaje •  La gramáJca generaJva •  La evolución del modelo –  Principales hitos bibliográficos –  CaracterísJcas comunes de las diferentes versiones •  Los mecanismos –  De representación y de procesamiento 23 Universidad de Málaga, 7 de Abril de 2016 El generaJvismo, la teoría •  Teoría del lenguaje –  Cambio de paradigma –  Teoría de la adquisición del lenguaje –  Teoría formal del lenguaje •  InnaJsmo y teoría de la adquisición •  GramáJca universal •  GramaJca formal 24 Universidad de Málaga, 7 de Abril de 2016 Teoría del lenguaje •  Teoría formal del lenguaje •  Adecuación observacional, descripJva y explicaJva (noción de gramaJcalidad) •  Método hipotéJco-­‐deducJvo •  Competencia y actuación •  Generación infinita •  Simplicidad (no redundancia) 25 Universidad de Málaga, 7 de Abril de 2016 GramáJca formal • 
• 
• 
• 
Estructuras y categorías Reglas, principios, restricciones GramáJca como hipótesis Universalidad de capacidad (procesos), no de contenidos 26 Universidad de Málaga, 7 de Abril de 2016 La gramáJca generaJva, el modelo • 
• 
• 
• 
GramáJca de la competencia Modelo explicaJvo Procesamiento secuencial Modular •  Componentes de la gramáJca •  Módulos teóricos •  Orientación sintacJsta •  La metáfora del ordenador: input/output 27 Universidad de Málaga, 7 de Abril de 2016 Evolución del modelo –  Syntac6c Structures (1957) –  Aspects of the Theory of Syntax (1965) –  Remarks on nominaliza6ons (1970) –  Rules and Representa6ons (1980) –  Lectures on Government and Binding (1981) –  The Knowledge of Language (1986) –  Barriers (1986) –  A Minimalist program for linguis6c theory (1992) –  The Minimalist program (1995) 28 Universidad de Málaga, 7 de Abril de 2016 Syntac6c Structures (1957) Componente de base
Estructura profunda
Componente transformacional
Estructura superficial
29 Universidad de Málaga, 7 de Abril de 2016 Aspects of the Theory of Syntax (1965) Componente sintáctico
Comp Base
R.R
Rsubcat
Rlex
Componente semántico
R interp semántica
IS
EP
Comp Transf
Rtransf
ES
Componente fonológico
R. Interpretación fonol
IF
30 Universidad de Málaga, 7 de Abril de 2016 El programa minimalista (1995) •  Programa que reduce las representaciones del modelo de P&P hacia un modelo económico, simplificado, no redundante. •  A par6cular language L is an instan6a6on of the ini6al state of the cogni6ve system of the language faculty with op6ons specified. (Chomsky 1995: 219) •  El sistema cogniJvo del lenguaje está formado por un componente computacional (derivacional) y por el lexicón. •  Los únicos niveles de representación son las interfaces hacia la FF y la FL. •  Reducción de categorías funcionales (T, C, D) •  En síntesis, el PM refuerza la hipótesis de la autonomía del lenguaje y incorpora mecanismos formales (merge) parecidos a los planteados por los FU y por la fonología de la opJmidad. 31 Universidad de Málaga, 7 de Abril de 2016 EJEMPLOS DE APLICACIONES •  LingüísJca de corpus •  Análisis sintácJco •  GesJón de la terminología 32 Universidad de Málaga, 7 de Abril de 2016 Qué es un corpus? •  A corpus is a collec6on of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguis6c research. (Sinclair, 2005: 16) 33 Universidad de Málaga, 7 de Abril de 2016 No todos los corpus son corpus •  Archivo digital: Agrupación de textos en soporte informáJco sin relación. •  Biblioteca de textos electrónicos: Colección de textos en soporte informáJco , de formato estándar y guiados por normas de contenido, sin criterio de selección. •  Corpus informaJzado: Colección de textos seleccionados por criterios lingüísJcos (externos o internos), codificados de manera estándar y homogenea, para ser procesados informáJcamente y para reflejar el comportamiento de una o más lenguas. (Llisterri y Torruella, 1999: 50) 34 Universidad de Málaga, 7 de Abril de 2016 Uso de corpus •  La invesJgación en lingüísJca •  La edición de obras de referencia (diccionarios, gramáJcas, libros de esJlo, tesauros documentales...) •  La enseñanza de lenguas (manuales, materiales de aprendizaje, etc.) •  El desarrollo de herramientas 35 Universidad de Málaga, 7 de Abril de 2016 Contenidos •  Lengua oral: conferencies, mesas redondas, interacciones en áula, grabaciones TV o radio, cine y teatro, diálogos, entrevistas, llamadas (call centre), diarios de laboratorio, videoguía quirúrgica, etc. •  Lengua escrita: publicaciones, prensa, cartas, testamentos, leyes, pero también blogs, webs, publicidad, memorias de empresas y organismos, correo electrónico, Twiwer, mensajes, ... 36 Universidad de Málaga, 7 de Abril de 2016 37 Universidad de Málaga, 7 de Abril de 2016 La lingüísJca de corpus (LC) •  The study of language based on examples of ‘real life’ language use. (McEnery & Wilson 1996: 1) •  You know a word by the company it keeps. (Firth 1957) •  I’m interested in explaining what does occur, not what might occur. (Sinclair 1991) 38 Universidad de Málaga, 7 de Abril de 2016 Teorías y LingüísJca de Corpus • 
• 
• 
• 
Estructuralismo Funcionalismo LingüísJca textual Variación lingüísJca 39 Universidad de Málaga, 7 de Abril de 2016 40 Universidad de Málaga, 7 de Abril de 2016 FREELING hwp://nlp.lsi.upc.edu/freeling/demo/demo.php 41 Universidad de Málaga, 7 de Abril de 2016 Análisis sintácJco S SV SP SN SN SN El niño irá a+l colegio el próximo otoño (El niño) irá (al colegio) (el próximo otoño) ((El niño) (irá (a(l colegio)) (el próximo otoño))) 42 Universidad de Málaga, 7 de Abril de 2016 Sintaxis •  Chunking (idenJficación de consJtuyentes o sintagmas) •  Full parsing (análisis de consJtuyentes) •  Constraint grammar (análisis de dependencias) • HERRAMIENTAS: IULA, Freeling, MaltParser 43 Universidad de Málaga, 7 de Abril de 2016 44 
Descargar