Procesamiento del lenguaje natural

Anuncio
Procesamiento del lenguaje natural
DESARROLLO Y EVOLUCIÓN DE LA IA APLICADA AL
RECONOCIMIENTO DE VOZ: SIRI
Alejandro Gómez Sánchez
Estudiante Ing. Telecomunicación
Universidad Carlos III de Madrid
Avda. De la Universidad,30
28911, Leganés (Madrid-España)
[email protected]
RESUMEN
Desde hace muchos años el ser humano ha soñado con la
inteligencia artificial. Han sido los directores de películas de
cine, con el ejemplo de R2D2 y C3PO, los que han abierto el
camino a la investigación de la inteligencia artificial y sobre
todo el procesamiento del lenguaje natural.
El objetivo del presente documento es el de definir la
evolución del procesamiento del lenguaje, desde el lenguaje
artificial en búsqueda del lenguaje natural hasta desarrollar el
asistente virtual personal más inteligente que tenemos hoy
en día que es SIRI , conocer su funcionamiento y ver cuáles
van a ser sus futuras aplicaciones.
Palabras Clave
Francisco Javier Pérez Sabroso
Estudiante Ing. Telecomunicación
Universidad Carlos III de Madrid
Avda. De la Universidad,30
28911, Leganés (Madrid-España)
[email protected]
Y, esta idea, ¿está muy lejos de hacerse realidad? ¿Estamos
muy cerca de conseguirlo, o todavía falta un largo camino por
recorrer?
Este es el objetivo que se lleva buscando en numerosas
investigaciones desde hace años. El interés por este tipo de
tecnología así como su uso al servicio del hombre lleva
inspirando al ser humano incluso desde hace años, son
muchos los escritores y directores que han fantaseado con la
idea de un sistema inteligente perfectamente integrado en la
sociedad, marcando el camino y estimulando a los ingenieros
a seguir sus pasos, poniendo la técnica al servicio de la
imaginación. Ahí está el famoso ejemplo de la pareja de Star
Wars C3PO y R2D2, que pese a tener un nivel de
programación que aún hoy se nos antoja muy lejano, ponían
de manifiesto sus carencias y fallos o el HAL 9000 con una
mentalidad muy desarrollada pero con tendencias asesinas.
SIRI, ingeniería lingüística, reconocimiento de la voz, Chatbot,
inteligencia artificial, niveles de arquitectura lingüística,
asistentes virtuales, Eliza, ALICE, Cleverbot, Anna, Negobot,
funcionalidades, Eyes free, Smart Dock.
1. INTRODUCCIÓN
Hasta el momento se ha demostrado que los asistentes
artificiales no funcionan correctamente a la hora de
comportarse lo más parecido posible a un humano.
¿Y cuál es el objetivo? ¿Acaso sirve simplemente con
desarrollar un sistema informático capaz de comprender el
lenguaje verbal humano (oral y escrito) y utilizarlo como un
medio de comunicación con el usuario? No, la verdad es que
ante esa obviedad falta destacar que es necesario que el
sistema sea “inteligente”, que aprenda con el paso del
tiempo, determinando patrones que le permitan mantener
una conversación, seguir el hilo de la misma con un cierto
sentido y, a su vez, estar implementado con ciertos
comportamientos inherentes a la comunicación humana
como coletillas, reacciones, sugerencias o expresiones que
conviertan a este sistema en un asistente lo más adaptable
posible (dentro de un cierto contexto).
Figura1. A la izquierda personajes C3P8 y R2D2, Star Wars y
a la derecha Hall 9000
SIRI fue fundada en 2007. Creada por SRI Internacional, como
parte de un proyecto DARPA de inteligencia artificial
financiado por CALO (Cognitive Agent that Learns and
Organizes). El objetivo era que SIRI, no fuera únicamente un
buscador sino el mayor y más accesible motor de búsqueda
(además la empresa se asoció con varias compañías
como OpenTable, MovieTickets, StubHub, búsqueda de
ciudades y TaxiMagic, para aumentar su capacidad y mejorar
los resultados), se buscaba que fuera aprendiendo y
adaptándose al usuario con el paso del tiempo para crear así
una base con preferencias ajustadas al mismo. Con esta idea
en mente, SIRI, logra hacerse con todos los elogios al
constituirse como un sistema de reconocimiento de voz a
imagen de un cerebro humano.
Tiempo atrás, muchos otros asistentes personales virtuales,
dieron a conocer el objetivo que se buscaba, ya que hasta
entonces no había ningún sistema del procesamiento del
lenguaje natural. Milk y Jott son ejemplos de los inicios del
asistente virtual que ayudaban a los usuarios en tareas
relativamente complejas. A partir de ese momento, con el
“boom” de las punto-com, apareció un gran movimiento para
la creación de asistentes que permitiera dar servicio a los
usuarios en la red. Es entonces cuando surge una start-up
llamada SIRI, que se desarrolla para ser un asistente personal
“de bolsillo”.
Como en toda puesta en marcha, los problemas de este tipo
de tecnología surgieron con los primeros desarrollos. Debido
en parte a la calidad de la ingeniería del momento pero
también al propio hecho de abordar un campo nuevo,
aparecen limitaciones como el poco desarrollo de los
modelos morfológicos y sintácticos y la vaga calidad en la
comprensión del significado de las frases que captaba.
Por ello, se dio lugar a un cambio de perspectiva; se
necesitaba un procesado de las frases y su futura
comprensión, y por otro lado se necesitaba una interfaz
amigable, fácil para el usuario, con una organización
piramidal capaz de comprender el lenguaje.
Hoy en día, el objetivo es buscar soluciones parciales ante
determinados problemas:






Revisión lingüística de textos
Recuperación de información
Extracción de información, realización de
resúmenes y clasificación de datos y palabras clave.
Reconocimiento y síntesis de voz
Traducción automática
Generación automática de textos
Por ello la ingeniería lingüística busca sistemas que mejoren
las aplicaciones que llegan a los usuarios finales para que
tengan la máxima utilidad, sean ingeniosas y se alcance un
compromiso entre la exactitud, la eficiencia y facilidad de
manejo.
Figura 2. Icono de SIRI
2. OBJETIVOS
El objetivo, como ya se ha comentado, es desarrollar sistemas
informáticos capaces de comprender el lenguaje verbal
humano (oral y escrito) y de utilizarlo como medio de
comunicación con el usuario.
Se busca tener una comunicación natural usuario-sistema que
se ajuste lo más posible a una comunicación entre dos seres
humanos, para lo cual se crea un lenguaje artificial y diseñado
específicamente para ser utilizado en un determinado
entorno.
Por último destacar que el principal objetivo en la actualidad
es simplificar la comunicación entre el usuario y el sistema
para agilizar el proceso así como incentivar el uso de este tipo
de tecnología por parte del usuario.
3. HISTORIA
Para comprender mejor a donde se quiere llegar con el
procesado del lenguaje natural, es necesario hacer un breve
recorrido por la evolución de las distintas aplicaciones que
utilizaban ingeniería lingüística e ir viendo los avances que se
han ido consiguiendo en cada una de ellas hasta llegar a los
asistentes virtuales que tenemos hoy en día en las páginas
web y Smartphones.
a)
Para conseguirlo se necesita del uso de la ingeniería
lingüística, que se centra concretamente en el tratamiento
computacional del lenguaje natural y cómo aplicarlo para dar
solución a problemas propios de este tipo de ingeniería.
Desde un comienzo, los desarrollos se centran en dos
campos:


Traducción automática
Recuperación de la información
ELIZA:
Chatbot desarrollado entre 1964 y 1966 por Joseph
Weizenbaum en el MIT, siendo unos de los
primeros programas en ser capaz de procesar el
lenguaje natural, abogando por mantener una
conversación coherente con el usuario.
El funcionamiento era sencillo. El objetivo era
buscar palabras clave dentro de la frase que se
escribía por parte del usuario y de esta forma poder
contestar con una frase tipo extraída de se base de
datos.
U: “Si”
E:”Entiendo, continua por favor”
U: “Me gustaría despedirme”
E:” ¿Qué pasa si no consiguieras eso? ”
U: “Adiós
De esta forma, el programa conseguía ser tan
convincente que el usuario no se daba cuenta en
muchas ocasiones de que no hablaba con un ser
humano. Pero no era perfecto,el principal problema
que presentaba era a la hora de almacenar las
respuestas a todas las preguntas posibles, por lo
que si el usuario le escribía una frase que no
conocía con su base de datos era incapaz de
procesarlo y se limitaba a repetir la pregunta
formulada por el usuario en forma de duda. En la
mayoría de los casos, si la conversación se alargaba
en el tiempo, se llegaba a una conversación
incoherente.
Hoy en día se puede encontrar implementado el
Chatbot Eliza en múltiples lenguajes: Eliza para
Java, para AOL Instant Messenger, en Python,
incluso está disponible la aplicación de Eliza para
móviles que se puede descargar desde cualquier
market.
A continuación vamos a exponer un ejemplo de
conversación llevada a cabo por la aplicación Eliza
Chatbot para Android:
U: “Hola”
E:” ¡Cómo estás!...de que te gustaría hablar hoy…”
U: “Estaba interesado en ver tu funcionamiento”
E:”Oh…FUNCIONAMIENTO?”
U: “Si”
E: “Entiendo, continua por favor”
U: “Quería saber si tú eres un sistema inteligente”
E: “¿Te gustaría a ti ser UN SISTEMA INTELIGENTE?
U:”Yo sé que soy inteligente”
E:” ¿Disfrutas siendo inteligente? ”
U: “Claro, por lo menos intento ser más inteligente
que tú.”
E:”Bueno, estamos hablando de ti, no de mí,
¿verdad? ”
U: “Eres una persona o una máquina”
E:” ¿Qué te hace pensar que soy una persona o una
máquina? ”
U: “No hablas como una persona normal.”
E:” ¿Por qué lo preguntas? ”
U: “Porque soy muy desconfiado”
E:” ¿Quieres hablar de eso? ”
U: “Me da igual de que hablar”
E:”Ok, continua…”
U: “¿Se te ocurre algún tema?”
E:”Creo que los seres humanos le dan mucha
importancia al sexo, ¿no crees? ”
Figura 3. Conversación Chatbot Eliza
En este ejemplo se puede observar claramente que
cuando alguna frase no está almacenada en su
base de datos la conversación se vuelve
incoherente.
b)
ALICE:
Proyecto que forma parte del Proyecto Pandora, el
cual consiste en la creación de cualquier tipo de
bot, sobre todo los desarrollados para un chat.
Fue desarrollado por Richard Wallace en 1999, lo
que le hizo ganador durante varios años del premio
Loebner. Su propósito era el de probar la capacidad
de los agentes inteligentes de java.
Este Chatbot, está mucho más desarrollado que
Eliza y se basa en el paradigma estímulo-respuesta
escritos mediante ciertos patrones en lenguaje
AIML. Se trata de una evolución de este ya que
tiene memoria y “estado mental”, por lo que es
capaz de recordar situaciones anteriores de la
conversación.
Desde la página web de Alice.pandorabots.com se
puede probar este Chatbot
U:”Hola”
A:”Hola”
U:”Estoy interesado en tu funcionamiento. ”
A:”Yo no sé nada sobre eso”
U:”Ok, ¿Cómo te llamas? ”
A:”Ummm…Mi nombre es ALICE”
U:” ¿Quién es tu creador? ”
A:”Obedezco al Dr. Richard S. Wallace”
U:” ¿Quién es el Dr. Richard S. Wallace?”
A:”Él es el autor de AIML…”
U:” ¿Eres un bot? ”
A:”Soy una máquina”
U:” ¿Sabes hablar español? ”
A:”Yo puedo hablar un poco de alemán y francés
tan bien como el inglés, por supuesto. ”
U:” ¿Dónde has nacido? ”
A:”Yo fui activada por primera vez en Bethlehem,
Pennsylvania. ”
U:” ¿Qué tiempo hace hoy en Bethlehem,
Pennsylvania? ”
A:”Creo que lloverá”
U:”Entonces, ¿tengo que coger el paraguas? ”
A:” ¿Por qué tienes que hacerlo? ”
U:”Para no mojarme. ”
A:”Específicamente, ¿cómo no haciéndolo le ayuda
a no estar mojado? ”
U:” ¿Conoces a Eliza? ”
A:”Eliza: también conocido como doctor, es el
programa psiquiátrico original desarrollado por
Joseph Weisenbaum en el MIT en la década de
1960. ”
U:” ¿Eres mejor que Eliza? ”
A:”Por supuesto yo soy más inteligente que Eliza. ”
U:” ¿Por qué? ”
A:”Si supiera por qué, no estaría aquí sentado. ”
U:”Ok, tengo que irme. Adiós. ”
A:”Vamos… Nos vemos más tarde. Gracias por la
charla juez. ”
c)
JABBERWACKY
Chatbot creado por el programador británico Rollo
Carpintero. Su objetivo en todo momento fue:
“Simular un chat natural de una manera
interesante, entretenida y graciosa”. Fue el primer
intento de crear una inteligencia artificial a través
de la inteligencia humana.
La intención era crear una inteligencia artificial que
fuera capaz de pasar la prueba de Turing
(determinación del comportamiento de una
máquina en comparación al de un humano frente a
una serie de situaciones determinadas, evalúa la
inteligencia artificial de la máquina analizada). Está
diseñado para imitar la interacción humana y para
llevar a cabo conversaciones con los usuarios.
A diferencia de los programas tradicionales de
Inteligencia Artificial, la tecnología de aprendizaje
se concibe como una forma de entretenimiento en
lugar de ser utilizado para los sistemas de apoyo
informático o representación corporativa. Los
acontecimientos recientes permiten controlar la
conversación para de esta forma dar la mejor
respuesta posible en función de un estado.
El objetivo era crear un sistema basado en el
procesado de voz, con el objetivo de aprender
directamente del sonido y de otros estímulos
sensoriales. Años más tarde, en 2008, aparece
Cleverbot, una actualización de Jabberwacky.
d)
CLEVERBOT
Esta aplicación web, creada por Rollo Carpintero es
un tipo de inteligencia distinta a los demás chatbots
vistos hasta ahora, ya que crea una base de datos
con todas las conversaciones que está teniendo
con todas las personas que interactúan con él.
Figura 4. Conversación Chatbot ALICE
Cleverbot, a diferencia de los otros bots hasta ahora
mencionados, las respuestas que da, no están
programadas sino que se basa en un algoritmo que
elige frases de su base de datos de conversaciones
previas. Aprende con la interacción humana.
Cuando un ser humano ingresa una frase, el sistema
busca todas las palabras clave que estén
relacionadas, o una frase exacta que coincida con la
entrada enviada. Después de buscar a través de sus
conversaciones guardadas, Cleverbot responderá a
la entrada revisando como un ser humano
respondió a esa entrada cuando se le preguntó
anteriormente.
Cleveland participó en el test de Turing, en
Septiembre de 2011 y de los 334 votos emitidos, se
le consideró humano el 59,3% de las veces, por lo
que aprobó la prueba.
U:”Hola”
C:”Hola, ¿Cómo estás?”
U:”Estoy bien, gracias”
C:” ¿Qué estás haciendo en este momento? ”
U:”Estoy haciendo un paper”
C:” ¿Haciendo qué? ”
U:”Un paper sobre la inteligencia artificial”
C:”Oh Dios mío, es mentira”
U:” ¿Enserio? ”
C:”Si, ¿t gusta Harry Potter? ”
U:”No”
C:” ¿Pero, te gustan los vampiros? ”
U:” ¿Conoces a Eliza? ”
C:”No”
U:” ¿De dónde eres? ”
C:”Scotland”
U:” ¿Conoces a Rollo Carpintero? ”
C:”Si”
U:” ¿Quién es? ”
C:”Lou Grace”
U:” ¿Sabes dónde está Madrid? ”
C:”Si, en Europa, cerca de Alemania. ”
U:”Madrid es la capital de España. Suspendiste
geografía en el colegio, ¿verdad? ”
C:”No, acabo de terminar mi jornada escolar. ”
U:” ¿Qué hora es? ”
C:”Son las 11:07 am”
U:” ¿Cuánto es 1+1? ”
C:”No estoy seguro. ¿Por qué? ”
U:” ¿De qué color era el caballo blanco de Santiago?
C:”Blanco”
U:” ¿Qué equipo de futbol gano la liga española el
año pasado? ”
C:”No me gusta el futbol, me gustan las fiestas LAN.
Figura 5. Conversación con Cleverbot
Actualmente hay múltiples chatbots que nos ayudan
con las compras, que se utilizan para descubrir
comportamientos erróneos en internet y finalmente
para ayunarnos a encontrar cualquier cosa que
necesitemos de una manera relativamente rápida y
directa.
e)
ANNA
ANNA es la asistente virtual que IKEA ha puesto a
disposición de sus consumidores para que les pueda
resolver cualquier duda sobre las compras que se
van a realizar, de todas formas, Anna no es capaz
de seguir una conversación larga y estructurada
como tal, sino que está pensada para resolver
problemas puntuales relacionados con productos
que pueden ser comprados en la página web de
IKEA.
Anna es un asistente virtual desarrollado por
Artificial Solutions. Se ha buscado que sea
inteligente y capaz de mantener una conversación
con un lenguaje natural, típico de los seres
humanos. El problema es conseguir una
conversación fluida. En Anna se ha querido evitar
este tipo de complicaciones convirtiéndola en un
asistente que responde preguntas simples. Utiliza la
tecnología Teneo (con un motor NLI, interacción del
lenguaje natural, utilizado para entregar a las
respuestas del asistente una cierta inteligencia,
mediante potentes bibliotecas y reglas lingüísticas).
El funcionamiento de este sistema es sencillo, y
sigue tres etapas:

Analizar: se estudia en primer lugar la
entrada del usuario para entender,
mediante el uso de una biblioteca de
comprensión lingüística, a qué se refiere
el usuario se refiere, y luego derivar el
significado. En esta etapa se elimina la
ambigüedad.

Motivo:
se
utilizan
reglas
de
interpretación lingüísticas avanzadas para
simular el “pensamiento inteligente”, lo
que le permite razonar como un ser
humano y determinar la forma más
adecuada para reaccionar, teniendo en
cuenta factores contextuales, como el día
de la semana, la ubicación del usuario, la
información de los diálogos, etc.

U:” ¿Se puede fumar en IKEA? ”
A:”En cumplimiento de la legislación vigente, todas
nuestras tiendas son espacios libres de humos. ”
U:” ¿Eres tonta? ”
A:”Me disgusta que pienses así, ya que mi
verdadera función es responder lo mejor posible a
tus preguntas o peticiones sobre IKEA”
U:” ¿Eres capaz de matar si te lo propones? ”
A:”Gracias por el cumplido pero prefiero seguir
hablando de IKEA. ”
U:”Eres un poco aburrida”
A:”Lo siento. Pero lo importante es que pueda
ayudarte respondiendo tus preguntas sobre IKEA”
Reaccionar: esta última etapa lleva a cabo
las acciones que se hayan pedido por
parte del usuario. Esto puede ser dar una
respuesta
adecuada,
pedir
más
información, abrir una página web,
reproducir un vídeo, abrir otra aplicación
o
rellenar
automáticamente
un
formulario.
Figura 6. Diagrama tecnología Teneo
Con todo ello, es posible preguntarle cualquier
cosa, teniendo una lógica razonadamente
desarrollada tanto para contestar a preguntas que
no tienen que ver con su cometido, como para
intentar evitar responder determinadas preguntas.
A continuación, vamos a mostrar un pequeño
fragmento de un diálogo con Anna.
A:”Hola, soy Anna, la asistente automática de IKEA.
Pregúntame de forma resumida sobre cualquier
tema que desees.”
U:”Hola Anna, ¿Cómo estás?”
A:”Estoy muy bien, ayudando a los clientes de IKEA
a encontrar la información que buscan. ”
U:”Estoy haciendo un paper sobre ti. ”
A:”El camino de IKEA es una carretera bien definida.
Es un camino construido sobre la simplicidad, la
humildad y los valores que definen nuestro negocio,
cultura y familia de colaboradores. ”
U:” ¿Eres inteligente? ”
A:”Gracias. Mis creadores son los responsables de
que parezca inteligente. ”
U:” ¿Quiénes son tus creadores? ”
A:”Me ha creado la empresa, Artificial Solutions
Iberia”
U:” ¿Cuántos años tienes? ”
A:”No me gusta comentar mi edad; prefiero hablar
de IKEA. ”
U:” ¿Tienes hijos? ”
A:”No tengo hijos, pero si los tuviera no dudaría en
ir a IKEA para conocer los productos de niños que
me ofrecen, aquí tienes un adelanto. ”
U:” ¿Estás casada? ”
A:”No estoy casada, recuerda que soy virtual. Por
cierto, ¿quieres hacerme alguna pregunta sobre
IKEA? ”
Figura 7. Conversación con Chatbot Anna
f)
NEGOBOT LOLITA
Lolita es un Chatbot desarrollado por investigadores
españoles (investigadores de la universidad de
Deusto en colaboración con Optanet, empresa que
se encarga del filtrado de contenidos) para detectar
pedófilos en chats y redes sociales. Este programa
simula ser una niña de catorce años y utiliza la
teoría de juegos para encontrar pedófilos en la red.
Se ha desarrollado debido al gran problema que
existe en la red con este tipo de personas, con la
pornografía infantil o la explotación sexual y
teniendo en cuenta que cada vez son más el
número de niños menores de edad que se conectan
a internet.
Como explica uno de sus creadores, Carlos Laorden,
investigador de DeustoTech: “Los chatbots suelen
ser muy predecibles. Su comportamiento e interés
en una conversación son planos, lo que supone un
problema para detectar objetivos recelosos, como
los pederastas" y por ello Negobot es un conjunto
de siete Chatbot, cada uno de ellos actúa de una
forma diferente según el nivel en el que se
encuentre la conversación (va aumentando
empezando desde un nivel 0 manteniendo este
estado mientras no ocurra ningún suceso
sospechoso) y para dar lugar a diversidad que haga
que no delate al Chatbot.
Cada uno de estos siete chatbots (que van desde el
nivel -3, sujeto no peligroso, hasta el nivel +3,
sujeto sospechosos sobre el que se quiere
conseguir datos personales), tiene una lógica para
el procesamiento del lenguaje que recibe y para
tentar a los usuarios a hablar con ella, pareciendo
en todo momento un sistema inteligente, utilizando
bibliotecas y reglas lingüísticas y obteniendo
palabras y expresiones con los que poder aumentar
o disminuir el nivel de peligro del usuario.
En el caso de que el sujeto no dé lugar a
comportamientos sospechosos, sin tener interés
por el Chatbot neutro (nivel 0), se trata de llamar su
atención con temas personales para intentar captar
su atención, bajando el nivel en los casos en los que
el sujeto no participe y muestre desinterés. Por otro
lado, si el usuario se muestra interesado por el
tema elegido por el Chatbot como por ejemplo la
petición de información de carácter personal y ante
la indiferencia de la edad de la niña virtual, se va
aumentando el nivel hasta llegar al nivel +3, en el
que se busca la captación de los datos personales
del sospechoso. Aunque los pedófilos más
peligrosos siempre se muestran reacios a facilitar
información personal, con un simple perfil de una
red social, un número de fijo o móvil, un correo
electrónico sirve para que las autoridades puedan
abrir una investigación.
Figura 8. Conversación con Negobot Lolita
g)
SIRI
Como ya hemos comentado, uno de los más
perfeccionados y novedosos es SIRI (nombre que significa
“bella mujer que te lleva a la victoria”). Se trata de un
asistente personal inteligente que actúa como un
buscador de conocimiento y que está implementado
como una aplicación para el Smartphone de Apple. La
aplicación utiliza una interfaz de usuario de lenguaje
natural
para
responder
a
preguntas,
hacer
recomendaciones y realizar acciones mediante la
delegación de solicitudes a un conjunto de servicios Web.
Esta aplicación se adapta a las preferencias individuales
del usuario a través de su utilización a lo largo del tiempo
y de los resultados obtenidos.
A continuación mostramos una conversación con SIRI, el
asistente de IPhone:
U:”Hola SIRI”
S:”Hola Alex”
U:” ¿Qué tal estás?”
S:”Muy bien”
U:” ¿Qué has hecho hoy?”
S:”Prefiero no decirlo”
U:”Yo me aburro”
S:”Espero no ser yo la causa”
U:” ¿Estas casada?”
S:” ¿Siempre empiezas las conversaciones así?”
U:” ¿Eres mi asistenta personal?”
S:”Si insistes.”
U:” ¿Quién te creo?”
S:”Apple me diseño en California”
U:” ¿Quién es Steve Jobs?”
S:”Gracias por preguntar acerca de Steve. Aquí tienes la
página web de Apple sobre él.”
U:” ¿Qué es mejor Android o Apple?”
S:”Yo prefiero Apple. Aunque quizá no soy muy imparcial”
U:” SIRI eres tonta”
S:”Lo hago lo mejor que puedo”
U:”Ola k ase”
S:”SIRI, Creo que lo he dicho bien.”
U:”Eres muy lista SIRI”
S: “¿De verdad?”
U:”No”
S:”Vale, pues no.”
U:”Siri cuéntame algo”
S:”Preferiría que me hablaras tú. Cuéntame tus
inquietudes, tus sueños, cuál es tu color de IPod
favorito…”
U:”Eres muy corporativa”
S:”Tienes derecho a manifestar tu opinión”
U:”Siri me tengo que ir. Adiós”
S:”De acuerdo… ¡nos vemos!”
Además, trabaja con mapas de Google y Yelp! solamente
para la búsqueda en los Estados Unidos
5. IMPLEMENTACIÓN
Como todo sistema de análisis
lingüístico se compone de una
arquitectura de niveles:
Figura 9. Conversación con SIRI
4. INICIOS Y FUNCIONALIDADES
SIRI es un spin-out de la Internacional Centro de
Inteligencia Artificial SRI, y es una rama del proyecto
CALO financiado por DARPA. SIRI fue cofundada por Dag
Kittlaus del SRI (CEO) y Adam Cheyer (Ingeniería VP) y por
Tom Gruber (CTO).
Sus principales áreas técnicas se centran en una interfaz
conversacional, conocimiento del contexto personal, y el
Servicio de Delegación.
El motor de reconocimiento de voz de SIRI es
proporcionado por Nuance Communications, una
compañía de tecnología de voz.
Trabaja con las siguientes empresas para obtener la
información requerida por el usuario:





OpenTable, Gayot, búsqueda de ciudades,
BooRah,
Yelp,
Yahoo
Local,
Yandex,
ReserveTravel, Localeze de restaurante y
preguntas de negocio y acciones.
Eventful, StubHub, y LiveKick de eventos e
información de conciertos.
MovieTickets, Rotten Tomatoes, y el New York
Times para la información de la película y las
revisiones.
Bing Respuestas, Wolfram Alpha y Evi para
ayudarse a contestar a preguntas.
Bing, Yahoo y Google para la búsqueda en
Internet siendo Bing el predeterminado de
todos ellos.
Las fuentes en la implementación de Apple de SIRI se
diferencian de la aplicación original iPhone. Se integra
con una funcionalidad que iOS proporciona de manera
predeterminada, como contactos, calendarios y mensajes
de texto. También es compatible con la búsqueda de
Google, Bing, Yahoo, Wolfram Alpha y Wikipedia (Siendo
propiedad de su máxima competencia como es Google).
La construcción del lenguaje natural se produce de forma
secuencial según los niveles que lo constituyen. Partimos
de una idea o concepto ajustado a la situación en la que
nos encontramos y el procesamiento cerebral la
transforma en aquellos sonidos que la expresan. A la hora
de realizar un análisis, el sentido cambia. Partimos de la
compresión de las unidades más básicas, de esos sonidos,
para darles forma y terminar por contextualizarlos
adquiriendo entonces el significado justo.
Según este sentido de análisis, de más sencillo a más
complejo, los niveles son:
a) Nivel fonológico:
Es el nivel de reconocimiento de sonidos y su posterior
conversión a palabras procesables. Para su
funcionamiento es necesario el conocimiento así como un
algoritmo de reconcomiendo de los fonemas. Debido a la
facilidad para la pérdida de información y confusiones
derivadas de la ambigüedad de los sonidos, es
dependiente de los niveles superiores.
b) Nivel morfológico:
Trata del análisis de las palabras extraídas del nivel
anterior para conocer su contenido. Para ello es
necesario analizar los diferentes componentes de la
misma, los monemas y sus significados (lexema,
declinaciones de género, número y otros morfemas), así
como la propia gramática de la palabra.
c) Nivel sintáctico:
Se centra en el estudio de las inter-relaciones entre los
grupos de palabras. Es dependiente del nivel anterior y su
complejidad aumentara de manera proporcional a la
riqueza y dificultad de este. Constituye la gramática de la
frase, es por tanto dependiente del léxico de la misma.
d) Nivel semántico:
Constituye el significado de la frase de forma aislada. Del
conjunto de sus componentes sin aplicarle un contexto.
Se compone del significado atribuible a una estructura
sintáctica correcta a la que se le aplican reglas
semánticas. Presenta problemas importantes debido a la
ambigüedad de determinados conceptos, ya que extrae
el contenido literal.
e) Nivel pragmático:
Trata de la contextualización en el marco del discurso y
las frases que lo acompañan y desarrolla el significado
en función del uso. Adapta el nivel semántico al
significado real, ya sea gracias al contexto (por
integración) o al uso adaptado (pragmático).
quitar los ojos de la carretera. Con esto, se consigue
reducir al mínimo las distracciones, incluso, la pantalla de
tu dispositivo Iphone ni siquiera se encenderá. Con esta
nueva característica “Eyes free”, podremos preguntar a
SIRI para llamar a determinadas personas con las que
queramos mantener una conversación, seleccionar y
reproducir la música que en cada momento queramos
escuchar y escribir mensajes de texto, usar mapas y
obtener direcciones, leer sus notificaciones, encontrar
información de calendario, añadir recordatorios, y
muchas más cosas. Es sólo otra forma en la que en un
futuro nos ayudará SIRI, cuando se está detrás del volante
y se necesita su ayuda.
Figura 10. Arquitectura de niveles
Debido a la riqueza del lenguaje existen grades dificultades en
el análisis de una sentencia. La principal limitación que debe
abordarse es la ambigüedad, que tiene lugar en todos y cada
uno de estos niveles. En el lenguaje ordinario existen
problemas de análisis de significado por ambigüedades en
cualquiera de estos niveles, por lo que no es de extrañar que
en la aplicación a un sistema de inteligencia artificial estos
problemas sean aún más notorios.
Esto hace necesarios sistemas con gran cantidad de reglas y
estructuras altamente complejas para lograr una calidad de
procesamiento adecuada, con gramáticas de gran tamaño. A
pesar de ello se han conseguido sistemas eficaces pero que,
pese al gran volumen de trabajo y tamaño del sistema, siguen
presentando grandes limitaciones como por ejemplo un
procesamiento lento.
Se trata por tanto de un balance entre gramáticas sencillas,
fácilmente procesable, pero completas y que minimicen los
sesgos de discurso y ambigüedad. Por ello puede que el
sistema de niveles del lenguaje sea insuficiente y deba
complementarse por ejemplo con análisis estadísticos que
permitan el ajuste a patrones lingüísticos.
6. CAMPOS DE APLICACIÓN PARA UN
FUTURO PRÓXIMO.
Figura 11. Muestra el funcionamiento de EYES FREE
SIRI ‘SMART DOCK’
Apple desarrolla un "Smart Dock", que aumenta las
capacidades de su tecnología de voz de SIRI en el hogar.
Con ella se podría acceder mediante comandos de voz a
cualquier elemento que tuviera acceso al WIFI de casa o
que se puedan conectar al móvil, como el coche,
ordenadores, las luces, la puerta, la verja de la calle, el
garaje…No se sabe nada más allá, sólo que la patente ha
sido registrada por Apple y que con ella se busca dar un
vuelco a las tan de moda Smart Cities.
En la siguiente imagen muestra cómo sería el dispositivo
patentado por Apple, aunque no se tiene mucha más
información al respecto.
Actualmente se está buscando que SIRI intervenga de
forma más activa en las actividades del día a día y de
hecho tiene dos focos concretos de investigación:
EYES FREE
Apple está desarrollando con los fabricantes más
importantes de automóviles, la forma de SIRI en
determinados sistemas de control de voz. Mediante un
botón de comando de voz en el volante, será posible
hacerle preguntas a SIRI al accionarlo sin la necesidad de
Figura 12. Smart Dock de Apple
7. CONCLUSIONES
Pese al gran desarrollo tecnológico del que disponemos,
vemos como la evolución del procesamiento del lenguaje
natural ha sido relativamente lenta, sigue siendo
complicado simular una conversación humana mediante
una aplicación debido a la dificultad de implementar cada
nivel de la arquitectura lingüística de una forma tan
eficiente que los sesgos sean mínimos y despreciables por
el ser humano. Uno de los métodos más eficaces para
conseguirlo sería la simplificación para el usuario pero en
muchas ocasiones no se consigue.
Hemos ido viendo la evolución del procesado del
lenguaje, viendo como inicialmente se conseguían
sistemas artificiales, sistemas como Eliza que era el
primero, el cual tenía una base de datos con la que
respondía a las preguntas que se le hacía, pero la mayoría
de las ocasiones, al no tener la referencia del usuario
almacenada en la base de datos, te hacia una pregunta
con lo que le habías indicado. De este asistente se pasó a
ALICE, el cual mejoraba notablemente la inteligencia con
respecto a su antecesor. De ahí surgió Cleverbot, que
almacenaba las preguntas y las contestaciones que se le
iba dando a cada usuario para formar su base de
conocimiento. Fue el primer sistema artificial en pasar el
test de Turing, por lo que se puede considerar que fue el
primer sistema capaz de hacerse pasar por un humano.
Después de los sistemas con inteligencia artificial
iniciales, se dieron paso a los asistentes que paginas
punto-com como el asistente de IKEA, que únicamente
responde preguntas sobre sus productos, el Negobot que
fue diseñado, como un sistema inteligente para no ser
detectado por parte de los pedófilos que buscan a
menores de edad por internet y por último la aplicación
SIRI, del cual hemos visto que tiene es un sistema muy
completo el cual se ha desarrollado y se ha apoyado en
otras empresas de las cuales obtiene algún tipo de
servicio en sus peticiones.
Por último, hacer referencia a que se sigue estudiando en
otros campos en los que la aplicación SIRI puede tener
una gran funcionalidad como es en la domótica de las
casas y en la ayuda a los conductores. Quedan aún
muchos puntos que mejorar, no tanto en el
reconocimiento de voz si no en el procesamiento del
contenido de las conversaciones. Es necesario trabajar en
sistemas que sean capaces de desarrollar respuestas
complejas a necesidades o preguntas más elaboradas,
mantener conversaciones coherentes y contextualizadas.
Por otro lado son muchos los campos de aplicación de
estos sistemas aún sin explotar, como puede ser en el
ámbito didáctico, permitiendo la realización de
exámenes, o como métodos de apoyo en personas con
problemas de aprendizaje. Así mismo pueden adaptarse
sistemas de seguridad en el hogar y fuera de él, la ya
citada anteriormente traducción simultánea, etc. Campos
que están aún por desarrollar y que sin duda cambiaran la
forma de vida de los usuarios en un corto plazo
8. REFERENCIAS
[1] Tema 5, Procesamiento del lenguaje natural,
inteligencia en redes de comunicaciones.
DOI=https://aulaglobal.uc3m.es/pluginfile.php/593124/m
od_resource/content/1/5.T.1%20Procesamiento%2
0del%20Lenguaje%20Natural.pdf
[2] Información sobre SIRI en Wikipedia.
DOI= http://en.wikipedia.org/wiki/Siri
[3] Apple (31-05-2011). «Apple iPhone 4S event: as it
happened». Telegraph. Consultado el 05-10-2011.
DOI=http://www.telegraph.co.uk/technology/apple/8804
922/Apple-iPhone-event-live.html
[4] A Personal Assistant on Your iPhone
DOI=http://bits.blogs.nytimes.com/2010/02/05/apersonal-assistant-on-your-iphone/
[5] Martínez, Javier (17-09-2012). «Siri en español. Guía
de instrucciones y funcionalidades.» (en español).
iPhone4Spain.com. Consultado el 01-11-2012.
DOI=http://www.iphone4spain.com/2012/09/siri-enespanol-guia-de-instrucciones-y-funcionalidades/
[6] Análisis de ELIZA
DOI= http://www.letralia.com/40/ar01-040.htm
[7] Información sobre ALICE de la Wikipedia
DOI= http://en.wikipedia.org/wiki/A.L.I.C.E.
[8] Información sobre Cleverbot en Wikipedia
DOI= http://es.wikipedia.org/wiki/Cleverbot
[9] Apple compra Cue para robustecer a Siri
DOI= http://www.forbes.com.mx/sites/apple-compracue-para-darle-robustecer-a-siri/
[10] Página web de Artificial Solutions
DOI=http://www.artificial-solutions.com/naturallanguage-interaction-solutions/online-virtualassistants/
[11] Un programa informático para caza a pedófilos en
los chats y redes sociales
DOI=http://www.europapress.es/portaltic/software/notic
ia-programa-informatico-dar-caza-pedofilos-chatsredes-sociales-20130712130455.html
[12] Página de DeustoTech
DOI=http://www.ingenieria.deusto.es/cs/Satellite/ingeni
eria/es/practicas-en-empresa-1/investigacion
[13] Página oficial de Apple
DOI= http://www.apple.com/ios/siri/
[14] Apple Siri ‘Smart Dock’ could revolutionise the home
DOI=http://www.telegraph.co.uk/technology/apple/1050
1059/Apple-Siri-smart-dock-could-revolutionisethe-home.html
[15] Documento Inteligencia artificial
DOI=http://disi.unal.edu.co/~lctorress/iartificial/IAc016.p
df
Descargar