Procesamiento del Lenguaje Natural

Anuncio
PROCESAMIENTO DEL
LENGUAJE NATURAL
M.C. CAROLINA ROCÍO SÁNCHEZ PÉREZ
PRIMAVERA 2012
Introducción
¿Qué es el lenguaje?

El lenguaje se configura como aquella forma que
tienen los seres humanos para comunicarse.

Se trata de un conjunto de signos, tanto orales como
escritos, que a través de su significado y su relación
permiten la expresión y la comunicación humana.
¿Qué es el lenguaje?


Y la Wiki dice que…
Se llama lenguaje a cualquier tipo de código semiótico estructurado, para
el que existe un contexto de uso y ciertos principios combinatorios formales.
Existen contextos tanto naturales como artificiales.



El lenguaje humano se basa en la capacidad de los seres humanos para
comunicarse por medio de signos. Principalmente lo hacemos utilizando el signo
lingüístico. El lenguaje humano puede estudiarse en cuanto a su desarrollo desde
dos puntos de vista complementarios: la ontogenia, que remite al proceso de
adquisición del lenguaje por el ser humano, y la filogenia.
El lenguaje animal se basa en el uso de señales sonoras, visuales, y olfativas, a
modo de signos, para señalar a un referente o un significado diferente de
dichas señales. Dentro del lenguaje animal están los gritos de alarma, el
lenguaje de las abejas, etc.
Los lenguajes formales son construcciones artificiales humanas, que se usan en
matemática y otras disciplinas formales, incluyendo lenguajes de programación.
Estas construcciones tienen estructuras internas que comparten con el lenguaje
humano natural, por lo que pueden ser en parte analizados con los mismos
conceptos que éste.
¿Qué es el lenguaje natural?

El lenguaje natural es la forma de comunicación que
el ser humano aprende de su ambiente y usa para
comunicarse con los demás.

Para expresar sus ideas, emociones y necesidades,
esperando cierta clase de respuesta por parte de
su interlocutor.
Órganos que participan en el lenguaje

El órgano principal para el aprendizaje del lenguaje es
el cerebro.

El cerebro recibe todos los impulsos que mandan otros
órganos que participan en el lenguaje:

Músculos de la laringe.

La lengua.

Cuerdas vocales.
Órganos que participan en el lenguaje

Las neurociencias son disciplinas que estudian el
sistema nervioso, su composición y funcionamiento.
 En
el lenguaje se interesa en precisar las partes
responsables de su manejo e interpretación.

Sabemos que el cerebro está dividido en
hemisferios cerebrales.
Órganos que participan en el lenguaje

El hemisferio izquierdo, es la parte motriz capaz de
reconocer grupos de letras formando palabras, y
grupos de palabras formando frases.
 En
lo se refiere al habla, la escritura, la numeración, las
matemáticas y la lógica, como a las facultades
necesarias para transformar un conjunto de
informaciones en palabras, gestos y pensamientos.
Órganos que participan en el lenguaje

El proceso de construcción de una frase está regido
por un cierto número de ideas relacionadas entre sí.

El hemisferio almacena conceptos que luego traduce
a palabras (amor, amour, amore, love, liebe).

El cerebro comprende las ideas , los conceptos y los
almacena en un lenguaje no verbal, que luego traduce a un
lenguaje o idioma aprendido por el individuo.
Órganos que participan en el lenguaje

La corteza cerebral se divide en 4 regiones


Lóbulo frontal, parietal, temporal y occipital.
El parietal es el encargado del habla y el lenguaje.

Se ocupa del reconocimiento de estímulos sensoriales
específicos, la capacidad de usar símbolos como un medio
de comunicación (el lenguaje) y la capacidad de
desarrollar las ideas y las respuestas motoras necesarias
para llevarlas a cabo.
Órganos que participan en el lenguaje

Estos órganos coordinan la producción del habla,
derivan sus impulsos nerviosos de distintos centros y
están gobernados por un centro común en el cerebro.


Los impulsos son llevados al cerebro mediante nervios.
El nervio hipogloso es el motor de los músculos
extrínsecos de la lengua y el vago es el motor de 2
músculos de la faringe y laringe.
Órganos que participan en el lenguaje

Mientras estudiaba el cerebro, F. J. Gall llegó a la
conclusión de que el lóbulo frontal estaba
especializado en el habla.

Un admirador de la obra de Gall ofreció 500 francos
a cualquiera que pudiera encontrar un paciente con
lesión en el lóbulo frontal y sin un trastorno en el habla.
Órganos que participan en el lenguaje

Este reto impulsó al neurocirujano Paul Broca a realizar
exámenes a pacientes con pérdida del habla.

Broca realizó exámenes en distintos casos, donde cada
uno de los trastornos en el habla iba acompañado de
una lesión en el lóbulo frontal izquierdo, por lo que esa
zona llegó a llamarse “zona de Broca”
Órganos que participan en el lenguaje

Poco después que Broca informará de sus
descubrimientos, Carl Wernicke identificó una segunda
zona del cerebro relacionada también con el lenguaje.

La zona de Wernicke está situada en el lóbulo
temporal, una parte del cerebro situada sobre la oreja.

Ambas zonas están relacionadas con distintos aspectos
del lenguaje.
Órganos que participan en el lenguaje

Una lesión en la zona de Broca producía un trastorno
del habla caracterizado por lentitud y dificultad al
hablar y una articulación deficiente lo cual hace difícil
la comprensión de las palabras.

En este trastorno (afasia) el lenguaje puede tener
sentido pero no se puede expresar como una oración
completa.
Órganos que participan en el lenguaje

Por ejemplo al preguntarle acerca de una cita con el dentista, un
paciente dijo “Si… lunes.. Papá y Jhon.. miércoles nueve en
punto.. Diez en punto… doctores… y … dientes”.

La información parece estar presente, pero es difícil
comprenderlo y las oraciones están incompletas.

Los pacientes tienen dificultad para expresarse, pero
no para comprender el lenguaje.
Órganos que participan en el lenguaje

Las lesiones en la zona de “Wernicke” producen un
tipo distinto de afasia.

Las oraciones pueden estar gramaticalmente
correctas y el habla puede ser normal, pero las
oraciones no tienen sentido.
Órganos que participan en el lenguaje

Se pidió a un paciente que describiera un grabado donde
había 2 niños robando galletas a espaldas de una mujer, el
paciente respondió:

“Mamá está aquí lejos trabajando su trabajo para hacer a ella
mejor, pero cuando ella está mirando los dos niños mirando en la
otra parte. Ella está trabajando otro tiempo”

El habla es normal y las palabras están unidas en algo que
parecen oraciones, pero carecen de sentido.
Órganos que participan en el lenguaje

Las lesiones en la zona de Wernicke además de
perturbar el lenguaje hablado también alteran la
comprensión del lenguaje.

Los pacientes con afasia fuerte de este tipo no
pueden comprender ni siquiera palabras solas.
Órganos que participan en el lenguaje

Las diferencias en las afasias llevaron a Wernicke
a formular un modelo de cómo el cerebro produce
el lenguaje.

Cuando se oye una palabra, la señal pasa a la
zona de “Wernicke” donde es comprendida como
un mensaje verbal.
Órganos que participan en el lenguaje

El lenguaje hablado se origina en la zona de Wernicke.


Donde se forman las oraciones con sentido.
Entonces la oración se transfiere a la zona de Broca.

La zona de Broca es responsable de la programación de
los músculos de la cara, la lengua y la laringe para que la
persona emita la oración formada en la zona de Wernicke.
Órganos que participan en el lenguaje

Una lesión en la zona de Broca afecta el habla y una
lesión en la zona de Wernicke deja el habla intacta,
pero perturba la comprensión del lenguaje y la
formación de oraciones con sentido.
EL PLN
El PLN

La ciencia ficción ha abordado el lenguaje como
una capacidad en las máquinas:
 HAL
de Odisea 2009
 Robots
 ¿Otros
ejemplos?
El PLN

En la vida real
El test de Turing
Suzzete
Watson en Jeopardy día 1
Watson en Jeopardy dia 3
¿Otros ejemplos?
¿Qué es el PLN?

Por Procesamiento de Lenguaje Natural(PLN) se
entiende la habilidad de la máquina para procesar
la información comunicada, no simplemente las
letras o los sonidos del lenguaje.
¿Qué es el PLN?

Conjunto de métodos y técnicas eficientes desde un punto
de vista computacional para la comprensión y generación
de lenguaje natural.

Se considera una subdisciplina de la IA
Computadora
lenguaje
lenguaje
comprensión
generación
¿Qué es el PLN?

El término PLN es normalmente utilizado para describir
la función de componentes de SW o HW en un sistema
de computadora el cual analiza o sintetiza lenguaje
escrito o hablado.

El término “natural” se indica para distinguir habla o
escritura humana de lenguajes más formales, como
notaciones lógicas o matemáticas, o lenguajes computadora
como java, lisp y C++.
¿Qué es el PLN?

Entendimiento del lenguaje Natural (ELN) está
asociado con la meta más ambiciosa de tener un
sistema realmente capaz de comprender el
lenguaje natural como lo haría un ser humano.
Áreas de estudio relacionadas

El lenguaje es estudiado en varias disciplinas
académicas diferentes.
 Cada
disciplina define su propio conjunto de
problemas y tiene sus propios métodos para
abordarlos.
Áreas de estudio relacionadas

Lingüística: Es el estudio del lenguaje encargado de explicar
la composición y empleo del lenguaje.

Estudia la estructura del lenguaje, considerando preguntas
como porqué ciertas combinaciones de palabras forman
sentencias pero otras no.

O porqué una sentencia puede tener algún significado pero no
otros.

Entre sus áreas de estudio se encuentran la sintaxis, gramática,
semántica, morfología y la fonología.
Áreas de estudio relacionadas

La psicolingüística, estudia los procesos de
producción y comprensión del lenguaje humano.

Considera preguntas tales como, cómo la gente
identifica la estructura apropiada de una sentencia
y cuando deciden sobre el significado apropiado
de las palabras.
Áreas de estudio relacionadas

La filosofía considera cómo las palabras pueden
significar cualquier cosa y como ellas identifican
objetos en el mundo.

Los filósofos también consideran que significa tener
creencias, metas e intenciones, y como estas
capacidades cognitivas se relacionan al lenguaje.
Áreas de estudio relacionadas

La meta de la lingüística computacional es
desarrollar una teoría computacional del lenguaje,
utilizando las nociones de algoritmos y estructuras
de datos de las ciencias de la computación.

Para construir un modelo computacional, se debe
aprovechar lo conocido de otras disciplinas.
Áreas de estudio relacionadas
Disciplina
Lingüística
Problemas típicos
¿Cómo forman frases y sentencias las
palabras ?
Psicolingüística ¿Cómo las personas identifican la
estructura de las sentencias? ¿Cómo se
identifican los significados de las
palabras? ¿Cuándo toma lugar el
entendimiento?
Filosofía
¿Qué es el significado y cómo las
palabras y sentencias lo adquieren?
¿Cómo las palabras identifican objetos
en el mundo?
Lingüística
¿Cómo se identifica la estructura de las
computacional sentencias? ¿Cómo se puede modelar el
conocimiento y el razonamiento? ¿Cómo
se puede utilizar el lenguaje para logar
tareas específicas?
Herramientas
Intuiciones sobre significado y
“buena-formación”; modelos
matemáticos de estructura.
Técnicas experimentales basados
en medir el desempeño humano,
análisis estadístico de
observaciones.
Argumentación del lenguaje natural
utilizando intuición sobre contraejemplos, modelos matemáticos.
Algoritmos, estructuras de datos,
modelos formales de razonamiento
y representación; técnicas de IA
(métodos de búsqueda y
representación)
Historia del PLN

El PLN es una disciplina con una larga trayectoria.

Nace en la década de 1960, como un subárea de la
Inteligencia Artificial y la Lingüística, con el objeto de
estudiar los problemas derivados de la generación y
comprensión automática del lenguaje natural.

¿Y después? Tarea…..
El PLN

Regresemos al video de HAL de Odisea 2009 ¿qué
etapas podemos distinguir tiene que hacer la
supercomputadora?
 Se
requieren 6 niveles de procesamiento.
El PLN
Reconocer
/Generar
Señal sonora

Secuencia de palabras
Para lograr esto son necesarios conocimientos de
 Fonética:
naturaleza física de los sonidos.
 Fonología:
cómo los sonidos funcionan en una lengua
El PLN

Es necesario conocer otras características del
lenguaje.
 Como

que los sustantivos tienen género y número
Pero que cas-a no es el femenino de cas-o.
El PLN

Saber que es posible formar palabras de otras
agregando prefijos o sufijos a las existentes
 In-creíble
(negación)
 Calmada-mente
(mente transforma adjetivo en
adverbio)

Morfología: estudio de la estructura interna de las
palabras.
El PLN

Es necesario conocer el orden correcto en el que las
palabras deben decirse para que lo que se dice tenga
sentido


“Dave, lo siento, que no puedo hacerlo, me temo”

“Lo puedo Dave siento que no temo me hacerlo”
Sintaxis: estudio de la estructuración (orden y
agrupamiento de las palabras en unidades mayores)
El PLN

Sintaxis
 Abre
las compuertas, HAL
 Baja
las persianas, HAL.
 Saca
los dados, HAL.
 Suelta
los perros, HAL.
 Estructura
V+ART+SUST+SP+SUST
El PLN

No sólo debe saber de sintaxis.

Debe comprenderse el significado de lo que Dave
está diciendo.
 Semántica
léxica: Significado de cada palabra.
 Semántica
composicional: Significado de la
combinación de palabras para obtener significados
mayores.
El PLN

Y si todavía queremos agregar algo. Se presenta un uso educado
del lenguaje.

Lo siento, Dave. Me temo que no puedo hacerlo.

La respuesta podría haber sido: “No” o “De ninguna manera”

Son conocimientos de:

Pragmática: estudio del modo en el que el contexto influye en la
interpretación del significado. Cómo el lenguaje se utiliza para ciertos
fines.

Discurso: estudio de las unidades mayores a la oración.
Fonética

La fonética estudia la acústica (la formación y propagación de
los sonidos) y la fisiología (como funcionan los órganos al
producir sonido) de las expresiones pronunciadas,
representadas como fonemas.

Cada fonema representa un sonido.

El problema: no siempre está ilustrado por una sola letra.

El español posee fonemas que se identifican como vocales
a/e/i/o/u/ y fonemas que se realizan en consonantes:
d/f/l/m/ñ/p/t
Fonética

Sin embargo hay cosas “extrañas”.

El fonema /b/ corresponde a 2 letras (b y v) al igual que el
fonema /y/ y el fonema /rr/

Corresponden a 3 letras: el fonema /k/ (que se describe con la
“k”, la “qu”); la “c” que precede a las vocales “a”, “o”, “u” (ca,
co, cu) y el fonema /s/ (que se escribe con las letras “s”, “z”, “c”
seguida de “e” o de “i”).

El fonema /g/ corresponde a la letra “g” cuando va antes de
“a”, “o”, “u” (ga, go, gu) o a la letra doble gu, antes de “e” o “i”
(gue, gui)
Fonética

El fonema /j/ corresponde a la letra “j” y también a
la letra “g”, solamente cuando va seguida de vocales
“e” e “i” (ge, gi).

Hay letras dobles, ch(fonema ch), ll (fonema y), qu
(fonema k), rr (fonema rr) y gu (seguida de “e” o de
“i”).
Fonética

“r” a veces representa al fonema /r/ (arete) y a veces
al fonema /rr/ (rata).

“h” no corresponde a ningún sonido, ni representa
ningún fonema, sólo tiene valor ortográfico.

“w” no se usa más que en palabras procedentes del
inglés (suena como “u”) o procedentes del alemán
(suena como “b”).
Fonética

Los problemas en fonética computacional están
relacionados con el desarrollo de sistemas de
reconocimiento de voz y síntesis del habla.

Sistemas de reconocimiento de voz
 La
computadora puede reconocer las palabras
pronunciadas en el micrófono.
Fonética

En los sistemas de síntesis de habla hay mucho más
éxito.

Existen sistemas que hablan bastante bien, incluso sin el
acento de robot pero aún no suenan completamente
con una persona.

Loquendo Vocal Technology and Services.

Son utilizados básicamente por personas con deficiencias de
la vista.
Fonología

La fonología estudia cuál es el valor de los fonemas desde
el punto de vista de su función en la lengua.

El fonema es el elemento más simple de la lengua.

Es la unidad fonológica que se caracteriza por ser
diferenciadora de significado, pero carente de significado en si
misma.

El fonema /l/, por si solo carece de significado; pero si en la
palabra “ley” se sustituye por el fonema “rr” (rey), resulta una
diferencia de significado.
Fonología

Investiga:

Que diferencias fónicas están relacionadas con diferencias
de significado.

Que relaciones establece un fonema con los demás dentro
de un paradigma y como se da este:

Pala (/p/). mala (/m/) sala (/s/), tala (/t/), bala (/b/), gala
(/g/), jala (/j/)

-ala el fonema omitido determina la diferencia de la palabra;
también indica cómo se combina con otros para formar palabras
y frases.
Morfología

Estudio de la estructura interna de las palabras
(sufijos, prefijos, raíces, flexiones) y el sistema de
categorías gramaticales de los idiomas (género,
número).
Morfología

Los problemas de morfología computacional están
relacionados con el desarrollo de sistemas de
análisis y síntesis morfológica automática.

El desarrollo de estos módulos es aún costoso, hay
que construir grandes diccionarios de raíces.
 Con
alrededor de 100,000 elementos.
Sintaxis

Estudio del orden y agrupamiento de las palabras
en unidades mayores.

Es la parte de la gramática que estudia la
concordancia o armonía que entre varias clases de
palabras ha establecido el uso.

Indicar el orden de los elementos que componen a
la oración.
Sintaxis

La sintaxis computacional debe tener métodos para análisis
y síntesis automática.

Construir la estructura de la frase o generar la frase basándose
en su estructura.

El desarrollo de los analizadores sintácticos (parsers)
todavía es un problema abierto, especialmente para los
idiomas que no tienen un orden de palabras fijo.

Como el español.
Sintaxis

En el inglés el orden de las palabras es fijo, por eso
las teorías basadas en el inglés no son tan
fácilmente adaptables para el español.
Semántica


Corresponde al estudio del significado

El propósito de la semántica es “entender” la frase.

¿Qué significa entender?
Hay que conocer el sentido de todas las palabras e
interpretar las relaciones sintácticas.

Los investigadores están más o menos de acuerdo que los
resultados del análisis semántico deben ser redes semánticas.

Se representan todos los conceptos y las relaciones entre ellos.
Semántica

Otra representación muy similar son los grafos
conceptuales.

Lo que se necesita saber es cómo hacer la
transformación de un árbol sintáctico a una red
semántica.

Este problema no tiene todavía una solución general.
Semántica

Definir los sentidos de las palabras, es de por sí
una tarea muy difícil, aún si se hace manualmente.
 Los
resultados de la definición de los sentidos de las
palabras existen en forma de diccionarios.
Semántica

Problema principal: siempre existe un círculo vicioso
en las definiciones, las palabras se definen a través
de otras palabras.
 Si
definimos gallo como “el macho de la gallina” y
gallina como “la hembra del gallo”, no ayudaremos a
alguien que quiere averiguar que cosas son.

Normalmente los ciclos son más largos e inevitables.
Semántica

La semántica computacional puede ayudar a
resolverlo buscando un conjunto de palabras a
través de las cuáles se definirán todas las demás
palabras: el vocabulario definidor.

Otro problema específico es evaluar
automáticamente la calidad de los diccionarios.
Semántica

Una aplicación del análisis semántico es la
desambigüación automática de sentidos de
palabras.
 Gato:

felino, herramienta o una persona.
Para saber cuál de los sentidos se usa en un
contexto se pueden aplicar diferentes métodos
para analizar las demás palabras presentes.
Semántica

El gato se acostó en el sillón y estaba maullando.


El mecánico usó un gato para subir el automóvil.


Acostarse y maullar indican que es un felino.
Mecánico, subir y automóvil dan preferencia al sentido una herramienta.
El mecánico compró un gato y lo llevó en su carro.

No se puede definir el sentido, ni siquiera una persona lo puede hacer
sin un contexto más amplio.
Pragmática

Estudio de cómo el lenguaje se utiliza para cumplir
objetivos.

Se dice que la pragmática trata de las relaciones
entre la oración y el mundo externo.
Pragmática

Un ejemplo famoso:

Usted y yo estamos comiendo juntos y yo le pregunto a usted si
puede pasarme la sal, usted contesta que sí… y sigue comiendo.

Seguramente la respuesta es formalmente correcta, porque usted
realmente puede pasarme la sal y eso es lo que contiene
literalmente la pregunta, pero la intención fue pedir la sal y no
preguntar sobre la posibilidad de pasarla.

Lo que interesa a la pragmática son las intenciones del
autor del texto o del hablante.
Pragmática

Como se encuentran muchos problemas ya en el
nivel semántico, normalmente es difícil continuar la
cadena de análisis en el siguiente nivel, aunque
siempre hay que tomarlo en cuenta.
Discurso

Estudio de las unidades mayores a la oración.

Normalmente no hablamos con una oración aislada,
sino con varias oraciones.

Estas oraciones tienen ciertas relaciones entre sí.

Las oraciones hiladas forman una nueva entidad
llamada discurso.
Discurso

En el análisis del discurso existe un problema muy
importante: la resolución de correferencia.

Las relaciones de correferencia también se llaman
anafóricas.
 He
visto una nueva casa ayer. Su cocina era
excepcionalmente grande (su=de la casa)
 Llegó
Juan. Él estaba cansado (el=Juan)
Discurso

Las anteriores son relaciones de correferencia y la
computadora tendría que interpretarlas correctamente
para poder construir las representaciones semánticas.

Existen algoritmos de resolución de correferencia
bastante buenos, alcanzando un 90% de exactitud,
resolver el 10% restante todavía es una tarea difícil.
Niveles en el PLN
Ambigüedad

Si todo está definido…
 ¿porque
es difícil el procesamiento del lenguaje
natural?
 La
ambigüedad es el mayor problema del PLN.
 ¿Qué
es la ambigüedad?
Ambigüedad

Ambiguo: que admite distintas interpretaciones.

Homonimia: dos palabras con misma forma que tienen
distintos significados.

Distinta etimología, distintas entradas en el diccionario

Homografía vino (bebida) / vino (llegó)

Homofonía: ola /hola, as/has/haz, cocer /coser
Ambigüedad

El LN posee propiedades que merman la
efectividad de los sistemas de recuperación de
información textual.
 La
variación lingüística es la posibilidad de utilizar
diferentes palabras o expresiones para comunicar una
misma idea.
 La
ambigüedad lingüística se produce cuando una
palabra o frase permite más de una interpretación.
Ambigüedad

Ambos fenómenos inciden en la recuperación de
información.

La variación lingüística provoca el silencio
documental:
 La
omisión de documentos relevantes para cubrir la
necesidad de información, ya que no se han utilizado
los mismos términos que aparecen en el documento.
Ambigüedad

La ambigüedad implica el ruido documental:
 La
inclusión de documentos que no son significativos, se
recuperan también documentos que utilizan el término
pero con significado diferente al requerido.

Estas dos características dificultan
considerablemente el tratamiento automatizado del
lenguaje.
Ambigüedad

Polisemia: una palabra con múltiples significados
(una entrada en el diccionario con distintos
significados).
 El
hombre desciende del mono y el mono desciende del
árbol.
 Banco,
capital
Ambigüedad en los niveles de análisis

A nivel fonético
 Homofonía
 Ola
 As
/hola
/has/haz
 Segmentación
 Ató
dos palos / a todos, palos
 Entre
el clavel y la rosa, su majestad escoja.
Ambigüedad en los niveles de análisis

A nivel morfológico una misma palabra puede adoptar
diferentes roles morfo-sintácticos en función del
contexto en el que aparece.

Deja la comida que sobre sobre la mesa de la cocina, dijo
llevando el sobre en la mano.

sobre es ambigua morfológicamente

Puede ser un sustantivo masculino singular, una preposición,
y también la 1ra. o 3ra. persona del presente del verbo
sobrar.
Ambigüedad en los niveles de análisis

Ambigüedad a nivel morfológico
 Nosotros
 ¿El
plantamos papas.
verbo plantar está conjugado en pasado o en
presente?
Ambigüedad en los niveles de análisis

Nivel sintáctico: estudio de las relaciones establecidas
entre las palabras para formar unidades superiores.

Se produce ambigüedad por la posibilidad de asociar
a una frase más de una estructura sintáctica.

Posibilidad de expresar lo mismo pero cambiando el
orden de la estructura sintáctica de la frase.

María vio a un niño con un telescopio en la ventana.
Ambigüedad en los niveles de análisis

La interpretación de la dependencia de los dos sintagmas
preposicionales, con un telescopio y en la ventana, otorga
diferentes significados a la frase:

María vio a un niño que estaba en la ventana y que tenía un
telescopio.

María estaba en la ventana, desde donde vió a un niño que
tenía un telescopio,

María estaba en la ventana, desde donde miraba con un
telescopio, y vió a un niño.
Ambigüedad en los niveles de análisis

Los hombres y las mujeres que hayan cumplido 60
años pueden solicitar una pensión.

[Los hombres y las mujeres que hayan cumplido 60 años]
pueden solicitar una pensión.

[Los hombres] y [las mujeres que hayan cumplido 60 años]
pueden solicitar una pensión.
Ambigüedad en los niveles de análisis



Ambigüedad a nivel semántico
 Todos
los hombres aman a una mujer.
 Todos
los estudiantes leyeron un libro.
¿Es la misma mujer/libro para todos?
Para cada hombre/estudiante existe una
mujer/libro.
Ambigüedad en los niveles de análisis

A nivel semántico, donde se estudia el significado
de una palabra y el de una frase a partir de los
significados de cada una de las palabras que la
componen.

La ambigüedad se produce porque una palabra
puede tener uno o varios sentidos (polisemia).
Ambigüedad en los niveles de análisis

Luís dejó el periódico en el banco.
 banco

puede ser: entidad bancaria o un asiento.
La interpretación de esa frase va más allá del
análisis de los componentes que forman la frase, se
realiza a partir del contexto en que es formulada.
Ambigüedad en los niveles de análisis

También hay que tener en cuenta la variación
léxica que hace referencia a la posibilidad de
utilizar términos distintos a la hora de representar
un mismo significado (sinonimia):
 Coche
/ Vehículo / Automóvil.
Ambigüedad en los niveles de análisis


Ambigüedad a nivel pragmático
Llego a las ocho. Espérame
?A qué hora llegarás¿
Llego a las ocho. Espérame
Previsión
Nunca llegas en hora
Llego a las ocho. Espérame
Promesa
Eso me lo vas a tener que decir cara a cara
Llego a las ocho. Espérame.
Amenaza
Ambigüedad en los niveles de análisis

A nivel pragmático, basado en la relación del lenguaje con el
contexto en que es utilizado, en muchos casos no puede realizarse
una interpretación literal de los términos utilizados.

En ocasiones el sentido de las palabras que forman una frase tiene
que interpretarse a un nivel superior recurriendo al contexto en que
es formulada.

Se moría de risa.

No puede interpretarse literalmente el verbo morirse, debe entenderse
en un sentido figurado.
Ambigüedad en los niveles de análisis

Otra cuestión es la ambigüedad de anáfora.
 Por
la presencia en la oración de pronombres y
adverbios que hacen referencia a algo mencionado
con anterioridad.
 Ella
le dijo que los pusiera debajo.
Ambigüedad en los niveles de análisis

La interpretación de esta frase tiene diferentes
incógnitas ocasionadas por la utilización de
pronombres y adverbio:

¿quién habló?, ¿a quién?, ¿qué pusiera qué?, ¿debajo
de dónde?.
 Para
otorgar un significado a esta frase debe
recurrirse nuevamente al contexto en que es formulada.
Ambigüedad en los niveles de análisis

Ambigüedad a nivel de discurso
 Tomé
el dulce del escritorio y lo comí
 Tomé
el dulce que estaba en el escritorio y comí el
dulce.
 Tomé
el dulce que estaba en el escritorio y comí el
escritorio.
Ambigüedad en los niveles de análisis

Ambigüedad a nivel discurso

El profesor dijo al estudiante que terminara la tarea. El
estaba muy preocupado de cuánto le faltaba para pasar.

A nivel discurso también se maneja la referencia a la
misma entidad

Relación entre sentencias

Miguel le pego al hombre. El había robado su bicicleta.
Ambigüedad en los niveles de análisis

¿Es posible resolver la ambigüedad?
 Juan

No puede ser el pato quien lleve la escopeta.
 Puse
 Las

mató al pato con la escopeta.
la camisa en la lavadora y la lavé.
lavadoras lavan. La ropa se lava.
Se requiere conocimiento del mundo.
Ambigüedad en los niveles de análisis

Con todos los ejemplos expuestos queda
evidenciada la complejidad del lenguaje y que su
tratamiento automático no resulta fácil ni obvio.
Limitaciones y ventajas
Entonces, el PLN es difícil porque…

Puede existir alta ambigüedad en todos los niveles.

Es complejo y sutil.

Implica razonar acerca del mundo.

Se debe considerar la inserción en un sistema social de
gente que interactúa:

Exponiendo, convenciendo, ordenando, insultando.

Cambiando a lo largo del tiempo.
Aplicaciones del PLN

Se pueden distinguir 2 motivaciones para desarrollar
modelos computacionales.

La motivación científica es obtener un mejor entendimiento
de cómo funciona el lenguaje.

Reconoce que cualquiera de las otras disciplinas
tradicionales no tienen las herramientas para
completamente atacar el problema de cómo la comprensión
y producción del lenguaje funcionan.
Aplicaciones del PLN

Aún si se combinan todas las aproximaciones, una
teoría comprensiva sería muy compleja para ser
estudiada utilizando métodos tradicionales.

Pero si se podrían realizar esas teorías complejas
como programas y entonces probarlas para
observar que tan bien se desempeñan.
Aplicaciones del PLN

Al observar donde fallan, se pueden mejorar
incrementalmente.

Los modelos computacionales pueden brindar
predicciones específicas sobre el comportamiento
humano.

Esto puede llevar a adquirir un mejor entendimiento de
cómo el procesamiento del lenguaje humano funciona.
Aplicaciones del PLN

La motivación práctica o tecnológica es que las
capacidades del PLN revolucionaran la forma en que
las computadoras son utilizadas.

Ya que la mayoría del conocimiento humano es
“grabada” en forma lingüística, las computadores que
puedan entender el LN, tendrían acceso a toda esa
información.

Además interfaces de LN permitirán que sistemas
complejos sean más accesibles.
TAREAS:

Leer el artículo Procesamiento de Lenguaje Natural y sus
Aplicaciones por Alexander Gelbukh.

Revisar el capítulo 2 del libro Procesamiento automático
del español con enfoque en recursos léxicos grandes y
elegir 1 aplicación, buscar ejemplos de ese tipo de
aplicación y elaborar una presentación de máximo 15
minutos.
Descargar