Lenguaje natural vs. lenguaje artificial

Anuncio
Lenguaje natural vs. lenguaje artificial
Juan Carlos Torres Moreno, mexicano especialista en Procesamiento del Lenguaje
Natural, participó en evento internacional de sistemas en la UPAO y explica la relación
entre el lenguaje humano y el lenguaje en las computadoras
Juan Carlos
Torres Moreno,
experto en
informática.
El Procesamiento del Lenguaje Natural, una rama de la inteligencia artificial, es una
disciplina fascinante, orientada a facilitar, mediante sistemas informáticos, la
comunicación entre el hombre y la computadora (texto y voz) por medio del lenguaje
humano. ¿Cómo esto es posible? ¿Qué problemas se presentan para este trabajo?
El doctor en computación Juan Carlos Torres Moreno, mexicano, responsable Equipo
de Investigación en Procesamiento del Lenguaje Natural – LIA de la Université
d'Avignon et des Pays de Vaucluse (Francia), llegó a Trujillo para participar del VI
Congreso Internacional de Ingeniería de Software, Telecomunicaciones y Sistemas de
la UPAO y nos ofreció algunas interesantes ideas sobre el tema.
‐Doctor, ¿cuál es el principal problema que afronta el Procesamiento del Lenguaje
Natural (PLN)?
‐Bueno, no es un problema, son muchos problemas, porque para los humanos es fácil
hablar, aprender idiomas, comunicarse, pero para el PLN no es una tarea fácil, son
muchas tareas y problemas, como, por ejemplo, generación de textos, resumen
automático, clasificación de documentos, traducción automática, clasificación
temática, búsqueda de información, recuperación de información.
‐¿Hasta qué punto se utiliza la lingüística en el PLN?
‐La lingüística fue creada para explicar el idioma y el lenguaje humano, las tesis de la
lingüística son válidas para el lenguaje humano, pero para el lenguaje procesado por
computadoras tiene limitaciones; sin embargo, es valioso porque es un análisis muy
fino, el análisis PLN estadístico es muy grosero. Entonces, se debe conjugar los dos
enfoques. Primero un análisis estadístico de base, de grandes masas de documentos, y
luego un análisis fino para analizar las frases al detalle, una vez que la ambigüedad ya
no existe.
‐¿Cómo funciona la búsqueda de información en Google?
‐Por ejemplo, quiero buscar un término, como Universidad, UPAO, Perú, Trujillo,
escribo palabras claves, o puedo escribir una frase completa: “dónde está la UPAO en
el Perú”. Lo que hace Google es eliminar los artículos y signos de puntuación y
solamente guarda las palabras claves más importantes. Éstas después las va a
normalizar, por ejemplo, Universidad, universitario, colegio, educación superior
probablemente las lleve a un solo término. Así, la sigla UPAO va a estar indexada.
‐¿Y qué hace luego?
‐Lo que hace Google, en particular, es recorrer la internet visible en alrededor de un
mes, donde hace una búsqueda de todos los sitios posibles que puede indexar y al final
de este mes tiene una base, denominada base de datos invertida, de los sitios de
Internet con sus palabras claves, quiere decir que si yo hago una búsqueda en Google,
la búsqueda fue indexada por lo menos hace un mes. Hay otros mecanismos, como los
artículos periodísticos o la cosa que es muy nueva, Google lo pone artificialmente para
que aparezca arriba porque, de lo contrario, no aparecería, pero, en general, tarda un
mes para que aparezca en la internet visible, que representa un 15 o 20 por ciento de
la internet total.
‐¿Entonces, hay una internet invisible?
‐Exacto, está representada por las páginas dinámicas. Son las páginas creadas
automáticamente, de base de datos, que están con clave, mi cuenta bancaria no la
puede ver nadie más que yo. Es un masa de un 80 por ciento, el resto, lo visible, es lo
que los robots de búsqueda recorren en un mes, aproximadamente.
‐¿Será difícil confrontar el lenguaje de programación y el lenguaje natural?
‐Es muchísimo más preciso el lenguaje formal, de programación, es conciso, no
ambiguo y tiene una sintaxis estricta. El lenguaje natural, en cambio, tiene una
cantidad de palabras inmensa, nadie sabe el número de palabras en español ni en
francés ni en inglés. Y no es un número astronómico, pero es muy grande.
‐¿Cómo un ser humano reconoce un idioma y cómo lo hace la computadora?
‐El mecanismo mental es difícil de explicar, no lo sé, pero sí sé que una persona aún
desconociendo un idioma puede saber si es alemán, francés o ruso, aunque no que
sepa ninguno de los tres. ¿Cómo funciona el mecanismo mental? Es difícil,
probablemente es un mecanismo asociativo, de cómo haya uno leído o visto imágenes.
¿Como hace la máquina? A través de un cálculo de probabilidades con los n‐gramas de
letras. Cada letra tiene una frecuencia de aparición diferente en cada idioma, en ruso,
por ejemplo, las r son más frecuentes; en español la letra ñ es característica. Más o
menos funciona así, contando las frecuencias de letras.
‐¿Cómo aumenta esta certeza de reconocimiento del idioma para la computadora?
‐Para tener la mayor certeza hay que ir a grupos de cinco letras, hay de dos (bigramas),
tres (trigrama), etc., de esa manera el porcentaje de identificación del idioma es
altísimo, cien por ciento prácticamente. No logramos reproducir el mecanismo mental
exacto de cómo el humano reconoce el idioma, pero la computadora logra al 100% la
tarea. Lo importante es llegar a la solución. (CGM)
Descargar