Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 1 1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL La vertiente aplicada de la LC tiene como objetivo desarrollar programas y/o sistemas encaminados a dar soluciones a problemas concretos relacionados con las lenguas y la tecnología que se plantean en la sociedad actual. Las aplicaciones más ambiciosas de la Lingüística Computacional, en el sentido de que tratan de reproducir la capacidad humana de procesar el lenguaje, son:  Traducción automática: su objetivo es lograr traducir de manera automática un texto, sea oral o escrito, de una lengua fuente a una o varias lenguas meta.  Interacción en lenguaje natural (interfaces y sistemas de diálogo): su meta es facilitar la comunicación entre personas y ordenadores mediante el uso de una lengua natural (en su modalidad oral o escrita) y no a través de un lenguaje artificial. Normalmente, ante las preguntas de un usuario, el sistema responde en la misma lengua natural en que ha sido formulada la pregunta. La comunicación suele producirse en el contexto de un dominio restringido –lo más habitual–, aunque también puede darse en uno que no presente restricciones.  Recuperación y extracción de información: Recuperación: a partir de la consulta de un usuario a un banco de datos textuales, el sistema se encarga de proporcionar los materiales que se ajustan a los criterios de búsqueda, no solo basándose en la detección de palabras clave sino también llevando a cabo una labor de comprensión lingüística de la consulta. En este ámbito de trabajo, ha sido habitual, hasta época reciente, el predominio de técnicas estadísticas frente a las lingüísticas o simbólicas. Además, también ha pasado de ser una aplicación reducida a determinados terrenos (derecho, medicina, economía) a ampliar su ámbito de trabajo, como consecuencia sobre todo de la generalización del uso de Internet y de la globalización, que han puesto de manifiesto nuevas necesidades en lo que a las demandas de información se refiere. Extracción: en este caso también se trata de acceder a información, pero con la finalidad de organizarla de acuerdo con algún tipo de formato preestablecido para su posterior tratamiento o recuperación. Se trata de buscar en un texto cualquiera determinados tipos de contenido. Es habitual distinguir entre la búsqueda de nombres propios y la búsqueda de eventos. P. ej. tareas propias de la extracción de información suelen ser la localización de todos los nombres de empresas que aparezcan en una serie de textos, o todos los asesinatos mencionados para posteriormente clasificar la información según los parámetros previamente fijados (p. ej. nombre de la empresa, nacionalidad, sector, etc.; asesino, víctima, lugar, tiempo, arma, etc.). Milka Villayandre Llamazares, Universidad de León [email protected] Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 2 Principales aplicaciones de la LC Traducción Automática Interfaces en lenguaje natural Recuperación y extracción de información 2. APLICACIONES BASADAS EN EL TRATAMIENTO DE INFORMACIÓN TEXTUAL A veces, atendiendo a la modalidad oral o escrita de la lengua, es frecuente distinguir el grupo de aplicaciones que se centra específicamente en el tratamiento de la vertiente escrita. Es la línea de trabajo que se conoce como Procesamiento del Lenguaje Natural o Tecnologías del Texto. Además de las aplicaciones anteriores (la traducción automática, la recuperación y extracción de información y la interacción en lenguaje natural), destacan las siguientes herramientas para el tratamiento de la lengua escrita:  Herramientas de ayuda a la escritura, integradas por lo general en los procesadores de texto. Incluyen: Correctores ortográficos: programas que revisan la ortografía de un escrito y la comparan con el conocimiento lingüístico previamente almacenado. Correctores sintácticos y de estilo: estos programas revisan la sintaxis y el estilo de un escrito, labor para la que se requiere una mayor cantidad de conocimientos lingüísticos, más difíciles de sistematizar, por otra parte, que los relacionados con la ortografía.  Creación automática de resúmenes de uno o varios textos a partir de la información más relevante que contienen estos (títulos, negritas, cursivas, apartados…).  Extracción de terminología de documentos científicos o técnicos. Trabajo fundamental para el análisis, comprensión, generación o traducción de documentos.  Indexación automática: íntimamente relacionado con la tarea anterior, consiste en clasificar un documento dentro de un dominio de acuerdo con las palabras (términos) que aparecen en él y que, además, son útiles para la posterior recuperación de la información. Milka Villayandre Llamazares, Universidad de León [email protected] Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 3  “Data mining” textual o descubrimiento de datos en textos. Consiste en analizar y descubrir patrones y tendencias en grandes conjuntos de datos textuales, generalmente con el objetivo de tomar decisiones. P. ej. en una investigación sobre la migraña, mediante esta aplicación, se extrajeron y analizaron datos de artículos que permitieron concluir a los investigadores que la migraña aparecía asociada con el estrés y con deficiencias de magnesio, lo que en ese momento era información desconocida. 3. TECNOLOGÍAS DEL HABLA Es la línea de trabajo en Lingüística Computacional que se centra específicamente en el tratamiento de la lengua oral. Comprende:  Síntesis del habla: o generación de habla artificial, sobre todo, conversión de textos escritos en su equivalente oral.  Reconocimiento del habla: de forma inversa a la síntesis, transforma un enunciado oral en su contrapartida escrita.  Sistemas de diálogo: combinan las dos tecnologías anteriores para facilitar la interacción oral entre personas y sistemas informáticos. Entre las aplicaciones de estas tecnologías destacan: el dictado automático la traducción automática del habla la recuperación de información a partir de documentos sonoros la identificación y verificación automáticas de la identidad del locutor la identificación automática de la lengua en contextos y/o servicios multilingües los servicios automáticos de atención telefónica los sistemas conversacionales o de diálogo oral entre personas y máquinas la atención a personas con discapacidades o con necesidades especiales la enseñanza de lenguas asistida por ordenador Milka Villayandre Llamazares, Universidad de León [email protected] Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada Aplicaciones de la LC Aplicaciones basadas en el texto Aplicaciones basadas en el habla Traducción automática Síntesis del habla Interfaces en lenguaje natural Reconocimiento del habla Recuperación y extracción de información Sistemas de diálogo Herrramientas de ayuda a la escritura Generación automática de resúmenes Extracción de terminología Indexación automática “Data mining” textual Milka Villayandre Llamazares, Universidad de León [email protected] 4 Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 5 4. APLICACIONES BASADAS EN EL DIÁLOGO Este grupo de aplicaciones reúne aquellas en que existe un intercambio comunicativo entre un usuario y un sistema informático, ya sea de forma oral o escrita. Incluye:  Sistemas de acceso a bases de datos o de pregunta/respuesta a bases de datos en los que se utiliza una lengua natural para interrogar a una base de datos.  Sistemas de acceso a otros dominios (sistemas expertos, sistemas operativos, etc.).  Sistemas de diálogo inteligente.  Servicios automáticos a través del teléfono.  Sistemas de enseñanza, en los que el ordenador interactúa con el estudiante.  Control de máquinas a través de la lengua hablada.  Sistemas generales para la resolución de problemas de forma cooperativa. Básicamente se trata en todos los casos de formular preguntas o dar instrucciones en lenguaje natural a un sistema que contiene información de algún tipo. El sistema traduce el lenguaje natural a un lenguaje formal y responde al usuario, bien mediante el uso del lenguaje bien realizando la acción que se le pide. Mientras más restringido es el dominio, más limitado es el lenguaje que se puede utilizar y, por lo tanto, menores los problemas lingüísticos. Pero a medida que los sistemas tratan de interactuar con el usuario de forma inteligente, es decir, utilizando las mismas estrategias conversacionales que usamos las personas, las dificultades aumentan al tener que dar cuenta de aspectos hasta el momento poco formalizados o de difícil formalización, como son todos los relacionados con el ámbito de la pragmática (deseos, creencias, intenciones, conocimiento del mundo en general). 5. OTRAS APLICACIONES  Herramientas informáticas útiles para el lingüista o el filólogo en diversas tareas relacionadas con el estudio del lenguaje (lingüística de corpus, lingüística estadística, estilometría, lingüística histórica computacional, informática aplicada a la sociolingüística, lexicografía asistida por ordenador, etc…): Herramientas de análisis textual: extracción y cómputo de frecuencias de aparición, concordancias, estadísticas. En general, se trata de tareas mecánicas y aburridas que los ordenadores realizan de forma más rápida y precisa que las personas. Herramientas para el manejo de corpus: etiquetadores categoriales, desambiguadores, analizadores sintácticos, etc. Bases de datos lexicográficas y terminológicas: de gran importancia para la elaboración y gestión de diccionarios. Milka Villayandre Llamazares, Universidad de León [email protected] 6 Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada  Enseñanza de lenguas asistida por ordenador. Destacan los programas para la enseñanza de lenguas extranjeras.  Aplicaciones multilingües, sobre todo en conexión con el uso de Internet: identificación de la lengua, alineamiento de recursos terminológicos bilingües y multilingües, recuperación de información en diferentes lenguas a partir de una consulta formulada en una determinada lengua y ayudas para la comprensión.  Aplicaciones multimedia y multimodales para la enseñanza, el entretenimiento, los negocios o el transporte: combinan el lenguaje con otros modos de comunicación (visual, táctil…). 6. RECURSOS LINGÜÍSTICOS Se trata de recursos básicos para el tratamiento computacional de cualquier lengua y, por consiguiente, para el desarrollo de las tecnologías del habla y del texto. Comprenden:  Corpus o conjuntos de muestras textuales que dan cuenta del uso real de una lengua.  Bases de datos léxicos monolingües o multilingües  Redes léxico-semánticas  Diccionarios en CD-ROM o en línea  Gramáticas computacionales Recursos lingüísticos Corpus Bases de datos Gramáticas comp. Milka Villayandre Llamazares, Universidad de León [email protected] Redes léxicosemánticas Diccionarios elctrónicos Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada 7 Referencias bibliográficas GÓMEZ GUINOVART, J. et al . (eds.) (1999): Panorama de la investigación en lingüística informática, Monografía de Revista Española de Lingüística Aplicada, Logroño. GRISHMAN, R. (1986): Computational linguistics, Cambridge: Cambridge University Press. LLISTERRI, J. (2007): “El español y las nuevas tecnologías”, en M. Lacorte (coord.), Lingüística aplicada del español, Madrid: Arco/Libros, págs. 483-520. MARTÍ ANTONÍN, M. A. y CASTELLÓN MASALLES, I. (2000): Lingüística computacional, Barcelona: Universitat de Barcelona. MITKOV, R. (ED.) (2003): The Oxford Handbook of Computational Linguistics, Oxford: Oxford University Press. MORENO BORONAT, L. et al. (1999): Introducción al procesamiento del Lenguaje Natural, Alicante: Universidad de Alicante. MORENO SANDOVAL, A. (1998): Lingüística computacional, Madrid: Síntesis. Milka Villayandre Llamazares, Universidad de León [email protected]