1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA

Anuncio
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
1
1. PRINCIPALES APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL
La vertiente aplicada de la LC tiene como objetivo desarrollar programas y/o
sistemas encaminados a dar soluciones a problemas concretos relacionados
con las lenguas y la tecnología que se plantean en la sociedad actual.
Las aplicaciones más ambiciosas de la Lingüística Computacional, en el
sentido de que tratan de reproducir la capacidad humana de procesar el
lenguaje, son:
 Traducción automática: su objetivo es lograr traducir de manera
automática un texto, sea oral o escrito, de una lengua fuente a una o
varias lenguas meta.
 Interacción en lenguaje natural (interfaces y sistemas de diálogo): su
meta es facilitar la comunicación entre personas y ordenadores mediante
el uso de una lengua natural (en su modalidad oral o escrita) y no a través
de un lenguaje artificial. Normalmente, ante las preguntas de un usuario,
el sistema responde en la misma lengua natural en que ha sido formulada
la pregunta. La comunicación suele producirse en el contexto de un
dominio restringido –lo más habitual–, aunque también puede darse en uno
que no presente restricciones.
 Recuperación y extracción de información:
ƒ
Recuperación: a partir de la consulta de un usuario a un banco de
datos textuales, el sistema se encarga de proporcionar los materiales
que se ajustan a los criterios de búsqueda, no solo basándose en la
detección de palabras clave sino también llevando a cabo una labor de
comprensión lingüística de la consulta. En este ámbito de trabajo, ha
sido habitual, hasta época reciente, el predominio de técnicas
estadísticas frente a las lingüísticas o simbólicas. Además, también ha
pasado de ser una aplicación reducida a determinados terrenos
(derecho, medicina, economía) a ampliar su ámbito de trabajo, como
consecuencia sobre todo de la generalización del uso de Internet y de
la globalización, que han puesto de manifiesto nuevas necesidades en
lo que a las demandas de información se refiere.
ƒ
Extracción: en este caso también se trata de acceder a información,
pero con la finalidad de organizarla de acuerdo con algún tipo de
formato preestablecido para su posterior tratamiento o recuperación.
Se trata de buscar en un texto cualquiera determinados tipos de
contenido. Es habitual distinguir entre la búsqueda de nombres propios
y la búsqueda de eventos. P. ej. tareas propias de la extracción de
información suelen ser la localización de todos los nombres de
empresas que aparezcan en una serie de textos, o todos los asesinatos
mencionados para posteriormente clasificar la información según los
parámetros previamente fijados (p. ej. nombre de la empresa,
nacionalidad, sector, etc.; asesino, víctima, lugar, tiempo, arma, etc.).
Milka Villayandre Llamazares, Universidad de León
[email protected]
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
2
Principales
aplicaciones de la LC
Traducción
Automática
Interfaces en
lenguaje natural
Recuperación y
extracción de
información
2. APLICACIONES BASADAS EN EL TRATAMIENTO DE INFORMACIÓN TEXTUAL
A veces, atendiendo a la modalidad oral o escrita de la lengua, es frecuente
distinguir el grupo de aplicaciones que se centra específicamente en el
tratamiento de la vertiente escrita. Es la línea de trabajo que se conoce como
Procesamiento del Lenguaje Natural o Tecnologías del Texto.
Además de las aplicaciones anteriores (la traducción automática, la
recuperación y extracción de información y la interacción en lenguaje
natural), destacan las siguientes herramientas para el tratamiento de la
lengua escrita:
 Herramientas de ayuda a la escritura, integradas por lo general en los
procesadores de texto. Incluyen:
ƒ
ƒ
Correctores ortográficos: programas que revisan la ortografía de un
escrito y la comparan con el conocimiento lingüístico previamente
almacenado.
Correctores sintácticos y de estilo: estos programas revisan la sintaxis
y el estilo de un escrito, labor para la que se requiere una mayor
cantidad de conocimientos lingüísticos, más difíciles de sistematizar,
por otra parte, que los relacionados con la ortografía.
 Creación automática de resúmenes de uno o varios textos a partir de la
información más relevante que contienen estos (títulos, negritas, cursivas,
apartados…).
 Extracción de terminología de documentos científicos o técnicos. Trabajo
fundamental para el análisis, comprensión, generación o traducción de
documentos.
 Indexación automática: íntimamente relacionado con la tarea anterior,
consiste en clasificar un documento dentro de un dominio de acuerdo con
las palabras (términos) que aparecen en él y que, además, son útiles para
la posterior recuperación de la información.
Milka Villayandre Llamazares, Universidad de León
[email protected]
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
3
 “Data mining” textual o descubrimiento de datos en textos. Consiste en
analizar y descubrir patrones y tendencias en grandes conjuntos de datos
textuales, generalmente con el objetivo de tomar decisiones. P. ej. en una
investigación sobre la migraña, mediante esta aplicación, se extrajeron y
analizaron datos de artículos que permitieron concluir a los investigadores
que la migraña aparecía asociada con el estrés y con deficiencias de
magnesio, lo que en ese momento era información desconocida.
3. TECNOLOGÍAS DEL HABLA
Es la línea de trabajo en Lingüística Computacional que se centra
específicamente en el tratamiento de la lengua oral. Comprende:
 Síntesis del habla: o generación de habla artificial, sobre todo, conversión
de textos escritos en su equivalente oral.
 Reconocimiento del habla: de forma inversa a la síntesis, transforma un
enunciado oral en su contrapartida escrita.
 Sistemas de diálogo: combinan las dos tecnologías anteriores para facilitar
la interacción oral entre personas y sistemas informáticos.
Entre las aplicaciones de estas tecnologías destacan:
ƒ
el dictado automático
ƒ
la traducción automática del habla
ƒ
la recuperación de información a partir de documentos sonoros
ƒ
la identificación y verificación automáticas de la identidad del locutor
ƒ
la identificación automática de la lengua en contextos y/o servicios
multilingües
ƒ
los servicios automáticos de atención telefónica
ƒ
los sistemas conversacionales o de diálogo oral entre personas y máquinas
ƒ
la atención a personas con discapacidades o con necesidades especiales
ƒ
la enseñanza de lenguas asistida por ordenador
Milka Villayandre Llamazares, Universidad de León
[email protected]
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
Aplicaciones de la LC
Aplicaciones basadas en el texto
Aplicaciones basadas en el habla
Traducción automática
Síntesis del habla
Interfaces en lenguaje
natural
Reconocimiento del habla
Recuperación y extracción
de información
Sistemas de diálogo
Herrramientas de ayuda a la
escritura
Generación automática de
resúmenes
Extracción de terminología
Indexación automática
“Data mining” textual
Milka Villayandre Llamazares, Universidad de León
[email protected]
4
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
5
4. APLICACIONES BASADAS EN EL DIÁLOGO
Este grupo de aplicaciones reúne aquellas en que existe un intercambio
comunicativo entre un usuario y un sistema informático, ya sea de forma oral
o escrita. Incluye:
 Sistemas de acceso a bases de datos o de pregunta/respuesta a bases de
datos en los que se utiliza una lengua natural para interrogar a una base
de datos.
 Sistemas de acceso a otros dominios (sistemas expertos, sistemas
operativos, etc.).
 Sistemas de diálogo inteligente.
 Servicios automáticos a través del teléfono.
 Sistemas de enseñanza, en los que el ordenador interactúa con el
estudiante.
 Control de máquinas a través de la lengua hablada.
 Sistemas generales para la resolución de problemas de forma cooperativa.
Básicamente se trata en todos los casos de formular preguntas o dar
instrucciones en lenguaje natural a un sistema que contiene información de
algún tipo. El sistema traduce el lenguaje natural a un lenguaje formal y
responde al usuario, bien mediante el uso del lenguaje bien realizando la
acción que se le pide. Mientras más restringido es el dominio, más limitado es
el lenguaje que se puede utilizar y, por lo tanto, menores los problemas
lingüísticos. Pero a medida que los sistemas tratan de interactuar con el
usuario de forma inteligente, es decir, utilizando las mismas estrategias
conversacionales que usamos las personas, las dificultades aumentan al tener
que dar cuenta de aspectos hasta el momento poco formalizados o de difícil
formalización, como son todos los relacionados con el ámbito de la
pragmática (deseos, creencias, intenciones, conocimiento del mundo en
general).
5. OTRAS APLICACIONES
 Herramientas informáticas útiles para el lingüista o el filólogo en
diversas tareas relacionadas con el estudio del lenguaje (lingüística de
corpus,
lingüística estadística, estilometría, lingüística histórica
computacional, informática aplicada a la sociolingüística, lexicografía
asistida por ordenador, etc…):
ƒ
ƒ
ƒ
Herramientas de análisis textual: extracción y cómputo de frecuencias
de aparición, concordancias, estadísticas. En general, se trata de
tareas mecánicas y aburridas que los ordenadores realizan de forma
más rápida y precisa que las personas.
Herramientas para el manejo de corpus: etiquetadores categoriales,
desambiguadores, analizadores sintácticos, etc.
Bases de datos lexicográficas y terminológicas: de gran importancia
para la elaboración y gestión de diccionarios.
Milka Villayandre Llamazares, Universidad de León
[email protected]
6
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
 Enseñanza de lenguas asistida por ordenador. Destacan los programas
para la enseñanza de lenguas extranjeras.
 Aplicaciones multilingües, sobre todo en conexión con el uso de Internet:
identificación de la lengua, alineamiento de recursos terminológicos
bilingües y multilingües, recuperación de información en diferentes
lenguas a partir de una consulta formulada en una determinada lengua y
ayudas para la comprensión.
 Aplicaciones multimedia y multimodales para la enseñanza, el
entretenimiento, los negocios o el transporte: combinan el lenguaje con
otros modos de comunicación (visual, táctil…).
6. RECURSOS LINGÜÍSTICOS
Se trata de recursos básicos para el tratamiento computacional de cualquier
lengua y, por consiguiente, para el desarrollo de las tecnologías del habla y
del texto. Comprenden:
 Corpus o conjuntos de muestras textuales que dan cuenta del uso real de
una lengua.
 Bases de datos léxicos monolingües o multilingües
 Redes léxico-semánticas
 Diccionarios en CD-ROM o en línea
 Gramáticas computacionales
Recursos lingüísticos
Corpus
Bases de datos
Gramáticas
comp.
Milka Villayandre Llamazares, Universidad de León
[email protected]
Redes léxicosemánticas
Diccionarios
elctrónicos
Lingüística Computacional II. Introducción a la Lingüística Computacional Aplicada
7
Referencias bibliográficas
GÓMEZ GUINOVART, J. et al . (eds.) (1999): Panorama de la investigación en
lingüística informática, Monografía de Revista Española de Lingüística
Aplicada, Logroño.
GRISHMAN, R. (1986): Computational linguistics, Cambridge: Cambridge
University Press.
LLISTERRI, J. (2007): “El español y las nuevas tecnologías”, en M. Lacorte
(coord.), Lingüística aplicada del español, Madrid: Arco/Libros, págs. 483-520.
MARTÍ ANTONÍN, M. A. y CASTELLÓN MASALLES, I. (2000): Lingüística
computacional, Barcelona: Universitat de Barcelona.
MITKOV, R. (ED.) (2003): The Oxford Handbook of Computational Linguistics,
Oxford: Oxford University Press.
MORENO BORONAT, L. et al. (1999): Introducción al procesamiento del
Lenguaje Natural, Alicante: Universidad de Alicante.
MORENO SANDOVAL, A. (1998): Lingüística computacional, Madrid: Síntesis.
Milka Villayandre Llamazares, Universidad de León
[email protected]
Descargar