Universidad de Málaga, 7 de Abril de 2016 Recursos y herramientas al amparo de las teorías lingüís6cas Mercè Lorente [email protected] 1 Universidad de Málaga, 7 de Abril de 2016 Guión 1. 2. 3. 4. Introducción Recursos y herramientas De teorías, modelos y mecanismos El diseño de recursos y herramientas: adecuación y coherencia 5. Ejemplos 2 Universidad de Málaga, 7 de Abril de 2016 De recursos y herramientas 3 Universidad de Málaga, 7 de Abril de 2016 Recursos lingüísJcos (1) • Corpus textuales – Orales – Escritos – MulJmedia • Recursos léxicos – Diccionarios – Bancos de datos – Jerarquías léxicas 4 Universidad de Málaga, 7 de Abril de 2016 Recursos lingüísJcos (2) • Bancos de conocimiento – Enciclopedias – Ontologías – Portales integrados (corpus, léxicos, ontologías) • Otros 5 Universidad de Málaga, 7 de Abril de 2016 CaracterísJcas • • • • Datos ordenados sistemáJcamente Datos eJquetados (estándares) Comparables ReuJlizables 6 Universidad de Málaga, 7 de Abril de 2016 Herramientas lingüísJcas • • • • • De búsqueda y clasificación de documentos De estructuración (preproceso) De procesamiento del lenguaje natural (PLN) De extracción de datos lingüísJcos De recuperación de la información (RI) 7 Universidad de Málaga, 7 de Abril de 2016 Búsqueda y clasificación • • • • Buscadores y metabuscadores Indizadores de documentos Filtros lingüísJcos Clasificadores temáJcos de documentos 8 Universidad de Málaga, 7 de Abril de 2016 Estructuración y preproceso Metadatos de corpus y de documentos Segmentación de unidades (o tokenización) EJquetaje estructural IdenJficación de nombres propios IdenJficación y estandarización de fechas y canJdades • IdenJficación de unidades fraseológicas • IdenJficación de préstamos de otras lenguas • • • • • 9 Universidad de Málaga, 7 de Abril de 2016 Procesamiento del lenguaje natural • • • • • • EJquetaje morfosintácJco Desambiguación lingüísJca Desambiguación estadísJca o estocásJca Análisis sintácJco EJquetaje semánJco EJquetaje pragmáJco-­‐discursivo 10 Universidad de Málaga, 7 de Abril de 2016 Extracción • • • • • Interfaces de consulta de corpus Frecuencias y concordancias Análisis lexicométrico Extracción automáJca de terminología Detección automáJca de neología – Neología formal y filtros lexicográficos – Neología semánJca y estrategias formales 11 Universidad de Málaga, 7 de Abril de 2016 Recuperación de información • Expansión de consultas • Sistemas de pregunta-­‐respuesta • Sistemas de diálogo persona-­‐máquina 12 Universidad de Málaga, 7 de Abril de 2016 De teorías, modelos y mecanismos 13 Universidad de Málaga, 7 de Abril de 2016 Paradigmas cienbficos(1) • El progreso cienbfico no es visto como la acumulación de observaciones, sino como "el repeJdo derrocamiento de teorías cienbficas y su reemplazo por otras mejores o más saJsfactorias“ (carácter permanentemente revolucionario de la ciencia). POPPER, Karl R. (1959) La lógica de la inves6gación cien<fica. México: Rei, 1996. p. 16 14 Universidad de Málaga, 7 de Abril de 2016 Paradigmas cienbficos (2) • Los paradigmas son "realizaciones cien<ficas universalmente reconocidas que, durante mucho 6empo, proporcionan modelos de problemas y soluciones a una comunidad cien<fica“. KUHN, Thomas S. (1962) La estructura de las revoluciones cien<ficas. México: Fondo de Cultura Económica, 2001. p. 13. 15 Universidad de Málaga, 7 de Abril de 2016 ¿Qué es una teoría? Conjunto de principios y fundamentos básicos sobre un objeto cienbfico. Se refiere a • la delimitación del objeto, • los objeJvos cienbficos que se propone, • y al método cienbfico uJlizado. Ejemplo: El generaJvismo, respecto de la lingüísJca anterior, es una teoría mentalista del lenguaje, que desarrolla subteorías como la teoría de la adquisición del lenguaje, la teoría de los universales del lenguaje y la teoría formal del lenguaje. 16 Universidad de Málaga, 7 de Abril de 2016 ¿Qué es un modelo? Modelo: Representación ideal de un objeto Modelo lingüísJco: Representación ideal de la gramáJca del hablante • Se inscribe en una teoría (marco teórico) • Puede ser un modelo completo, parcial o simplificado. • Puede evolucionar. • Para cada teoría, puede haber varios modelos. Ejemplo: Diferentes versiones de la gramáJca generaJva 17 Universidad de Málaga, 7 de Abril de 2016 ¿Qué son los mecanismos? Lenguajes formales o matemáJcos para el desarrollo de modelos gramaJcales. Símbolos, reglas, relaciones, etc. • Mecanismos descripJus o de representació • Mecanismos de processament i validació • Mecanismos de generalització Ejemplos: • Mecanismos de unificación, como los de LFG (Bresnan & Kaplan 1982) o HPSG (Pollard & Sag 1990) • Mecanismos de generalización 18 Universidad de Málaga, 7 de Abril de 2016 TEORÍAS MODELOS MECANISMOS OBJETOS DISEÑOS PROCEDIMIENTOS 19 Universidad de Málaga, 7 de Abril de 2016 Los paradigmas actuales de la lingüís6ca 20 Universidad de Málaga, 7 de Abril de 2016 La historia de la lingüísJca (1) • Los estudios lingüísJcos antes de la lingüísJca – Las aplicaciones: Orientación prescripJva. – La reflexión: Los antecedentes de la filosora del lenguaje – La historia de la lengua. La gramáJca histórica 21 Universidad de Málaga, 7 de Abril de 2016 La historia de la lingüísJca (2) • La lingüísJca, como disciplina cienbfica – El estructuralismo europeo – El estructuralismo americano – El generaJvismo – El funcionalismo – El cogniJvismo 22 Universidad de Málaga, 7 de Abril de 2016 El generaJvismo • La teoría innaJsta y formal del lenguaje • La gramáJca generaJva • La evolución del modelo – Principales hitos bibliográficos – CaracterísJcas comunes de las diferentes versiones • Los mecanismos – De representación y de procesamiento 23 Universidad de Málaga, 7 de Abril de 2016 El generaJvismo, la teoría • Teoría del lenguaje – Cambio de paradigma – Teoría de la adquisición del lenguaje – Teoría formal del lenguaje • InnaJsmo y teoría de la adquisición • GramáJca universal • GramaJca formal 24 Universidad de Málaga, 7 de Abril de 2016 Teoría del lenguaje • Teoría formal del lenguaje • Adecuación observacional, descripJva y explicaJva (noción de gramaJcalidad) • Método hipotéJco-­‐deducJvo • Competencia y actuación • Generación infinita • Simplicidad (no redundancia) 25 Universidad de Málaga, 7 de Abril de 2016 GramáJca formal • • • • Estructuras y categorías Reglas, principios, restricciones GramáJca como hipótesis Universalidad de capacidad (procesos), no de contenidos 26 Universidad de Málaga, 7 de Abril de 2016 La gramáJca generaJva, el modelo • • • • GramáJca de la competencia Modelo explicaJvo Procesamiento secuencial Modular • Componentes de la gramáJca • Módulos teóricos • Orientación sintacJsta • La metáfora del ordenador: input/output 27 Universidad de Málaga, 7 de Abril de 2016 Evolución del modelo – Syntac6c Structures (1957) – Aspects of the Theory of Syntax (1965) – Remarks on nominaliza6ons (1970) – Rules and Representa6ons (1980) – Lectures on Government and Binding (1981) – The Knowledge of Language (1986) – Barriers (1986) – A Minimalist program for linguis6c theory (1992) – The Minimalist program (1995) 28 Universidad de Málaga, 7 de Abril de 2016 Syntac6c Structures (1957) Componente de base Estructura profunda Componente transformacional Estructura superficial 29 Universidad de Málaga, 7 de Abril de 2016 Aspects of the Theory of Syntax (1965) Componente sintáctico Comp Base R.R Rsubcat Rlex Componente semántico R interp semántica IS EP Comp Transf Rtransf ES Componente fonológico R. Interpretación fonol IF 30 Universidad de Málaga, 7 de Abril de 2016 El programa minimalista (1995) • Programa que reduce las representaciones del modelo de P&P hacia un modelo económico, simplificado, no redundante. • A par6cular language L is an instan6a6on of the ini6al state of the cogni6ve system of the language faculty with op6ons specified. (Chomsky 1995: 219) • El sistema cogniJvo del lenguaje está formado por un componente computacional (derivacional) y por el lexicón. • Los únicos niveles de representación son las interfaces hacia la FF y la FL. • Reducción de categorías funcionales (T, C, D) • En síntesis, el PM refuerza la hipótesis de la autonomía del lenguaje y incorpora mecanismos formales (merge) parecidos a los planteados por los FU y por la fonología de la opJmidad. 31 Universidad de Málaga, 7 de Abril de 2016 EJEMPLOS DE APLICACIONES • LingüísJca de corpus • Análisis sintácJco • GesJón de la terminología 32 Universidad de Málaga, 7 de Abril de 2016 Qué es un corpus? • A corpus is a collec6on of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguis6c research. (Sinclair, 2005: 16) 33 Universidad de Málaga, 7 de Abril de 2016 No todos los corpus son corpus • Archivo digital: Agrupación de textos en soporte informáJco sin relación. • Biblioteca de textos electrónicos: Colección de textos en soporte informáJco , de formato estándar y guiados por normas de contenido, sin criterio de selección. • Corpus informaJzado: Colección de textos seleccionados por criterios lingüísJcos (externos o internos), codificados de manera estándar y homogenea, para ser procesados informáJcamente y para reflejar el comportamiento de una o más lenguas. (Llisterri y Torruella, 1999: 50) 34 Universidad de Málaga, 7 de Abril de 2016 Uso de corpus • La invesJgación en lingüísJca • La edición de obras de referencia (diccionarios, gramáJcas, libros de esJlo, tesauros documentales...) • La enseñanza de lenguas (manuales, materiales de aprendizaje, etc.) • El desarrollo de herramientas 35 Universidad de Málaga, 7 de Abril de 2016 Contenidos • Lengua oral: conferencies, mesas redondas, interacciones en áula, grabaciones TV o radio, cine y teatro, diálogos, entrevistas, llamadas (call centre), diarios de laboratorio, videoguía quirúrgica, etc. • Lengua escrita: publicaciones, prensa, cartas, testamentos, leyes, pero también blogs, webs, publicidad, memorias de empresas y organismos, correo electrónico, Twiwer, mensajes, ... 36 Universidad de Málaga, 7 de Abril de 2016 37 Universidad de Málaga, 7 de Abril de 2016 La lingüísJca de corpus (LC) • The study of language based on examples of ‘real life’ language use. (McEnery & Wilson 1996: 1) • You know a word by the company it keeps. (Firth 1957) • I’m interested in explaining what does occur, not what might occur. (Sinclair 1991) 38 Universidad de Málaga, 7 de Abril de 2016 Teorías y LingüísJca de Corpus • • • • Estructuralismo Funcionalismo LingüísJca textual Variación lingüísJca 39 Universidad de Málaga, 7 de Abril de 2016 40 Universidad de Málaga, 7 de Abril de 2016 FREELING hwp://nlp.lsi.upc.edu/freeling/demo/demo.php 41 Universidad de Málaga, 7 de Abril de 2016 Análisis sintácJco S SV SP SN SN SN El niño irá a+l colegio el próximo otoño (El niño) irá (al colegio) (el próximo otoño) ((El niño) (irá (a(l colegio)) (el próximo otoño))) 42 Universidad de Málaga, 7 de Abril de 2016 Sintaxis • Chunking (idenJficación de consJtuyentes o sintagmas) • Full parsing (análisis de consJtuyentes) • Constraint grammar (análisis de dependencias) • HERRAMIENTAS: IULA, Freeling, MaltParser 43 Universidad de Málaga, 7 de Abril de 2016 44