Lenguaje natural y lenguaje formal

Anuncio
Lenguaje natural y lenguaje formal
Joel David Rojas Avella
1.
Un paseo por los lenguajes formales
1.1.
Definiciones introductorias
La teorı́a de lenguajes formales es la aproximación matemática que intenta
describir los aspectos fundamentales del lenguaje. La primera definición importante es la de ((alfabeto)), que podemos entenderla como un conjunto que
contiene una cantidad finita de sı́mbolos.
Una ((proposición)) es una cadena finita de sı́mbolos del alfabeto. Hay infinitamente tantas proposiciones como enteros, i.e. el conjunto de las proposiciones
es numerable.
Un ((lenguaje)) es un conjunto de proposiciones. De entre todas las posibles
proposiciones, hay unas que pertenecen al lenguaje y otras que no. Esto lo determina la ((gramática)) que es la lista finita de reglas que determinan un lenguaje.
Y puede ser vista de hecho, como ((reglas de construcción)). Además, las proposiciones pueden incluir ((elementos terminales)) y ((elementos no terminales)). Los
elementos terminales son elementos del alfabeto. Los no terminales son huecos,
en los que se pueden ir colocando nuevas preposiciones.
1.2.
Algo de Teorı́a de la Computación
Un autómata regular queda definido formalmente como la quı́ntupla
(Q, Σ, δ, q0 , F ),
donde Q es un conjunto finito de estados, Σ es un alfabeto de entrada finito,
q0 en Q es el estado inicial, F ⊆ Q es el conjunto de estados finales, y δ es la
función de transición que va de Q × Σ en Q. Es decir, δ(q, a) es el estado para
cada estado q y el sı́mbolo de entrada a.
Un autómata de pila es un autómata finito al cual se le otorga la extención
de tener una pila de memoria, y queda definido como la séptupla
(Q, Σ, Γ, δ, q0 , Z, F )
donde ahora Γ es el alfabeto de la pila y Z es el estado inicial de la pila. δ queda
extendida, yendo ahora de Q × Σ ∪ {} × Γ ∪ {} → P(Q × Γ ∪ {}) siendo la
cadena vacı́a, y P el conjunto potencia.
1
Finalmente, definiremos una máquina de Turing, que es la más poderosa
dentro de la teorı́a de autómatas. Para una máquina de Turing con una cinta
infinita consideramos a la séptupla
(Q, Γ, b, Σ, δ, q0 , F )
donde ahora Γ es el conjunto de los sı́mbolos en la cinta, b ∈ Γ es el sı́mbolo en
blanco, Σ ∈ Γ\{b} es el conjunto de sı́bolos de entrada y
δ : Q × Γ → Q × Γ × {I, D, N }
será la función de transición, con I el salto a la izquierda, D el salto a la derecha
y N el no salto.
1.3.
La jerarquı́a de Chomsky
En 1956, el lingüista Noam Chomsky da una clasificación jerárquica de distintos tipos de gramáticas formales que generan lenguajes formales. La Jerarquı́a
de Chomsky consta de cuatro niveles:
Gramáticas de tipo 0 (sin restricciones), que incluye a todas las gramáticas
formales. Estas gramáticas generan todos los lenguajes capaces de ser reconocidos por una máquina de Turing. Los lenguajes son conocidos como
lenguajes recursivamente enumerables. Nótese que esta categorı́a es diferente de la de los lenguajes recursivos, cuya decisión puede ser realizada
por una máquina de Turing que se detenga.
Sus reglas de formación están dadas por:
α→β
Y no tienen restricciones. Ambas, α y β pueden representar cualquier
cadena finita de simbolos terminales o no terminales.
Gramáticas de tipo 1 (gramáticas sensibles al contexto) generan los lenguajes sensibles al contexto. Estas gramáticas tienen reglas de la forma:
αAβ → αγβ
con A un no terminal y α, β y γ cadenas de elementos terminales y no
terminales. Las cadenas α y β pueden ser vacı́as, pero γ no puede serlo. La
regla S → está permitida si S no aparece en la parte derecha de ninguna
regla. Los lenguajes descritos por estas gramáticas son exactamente todos
aquellos lenguajes reconocidos por una máquina de Turing no determinista cuya cinta de memoria está acotada por un cierto número entero de
veces sobre la longitud de entrada, también conocidas como Autómatas
Linealmente Acotados.
Por ejemplo, considerando el alfabeto {0, 1, 2} y al lenguaje L = 0n 1n 2n .
Con reglas de producción
2
S → 0AS2
S → 012
A0 → 0A
A1 → 1A
nos da una gramática sensible al contexto.
Gramáticas de tipo 2 (gramáticas libres del contexto) generan los lenguajes
independientes del contexto. Las reglas son de la forma
A→γ
con A un elemento no terminal y γ una cadena de terminales y no terminales. Estos lenguajes son aquellos que pueden ser reconocidos por un
autómata con pila dentro de la teorı́a de la computación.
Por ejemplo, considerando el alfabeto {0, 1} y al lenguaje L = 0n 1n . Con
reglas de producción
S → 0S1
S→
nos da una gramática libre de contexto.
Gramáticas de tipo 3 (gramáticas regulares) generan los lenguajes regulares. Estas gramáticas se restringen a aquellas reglas que tienen en la
parte izquierda un elemento no terminal, y en la parte derecha un solo
terminal, posiblemente seguido de un no terminal. La regla S → también está permitida si S no aparece en la parte derecha de ninguna regla.
Estos lenguajes son aquellos que en teorı́a de la computación pueden ser
aceptados por un autómata finito. Esta familia de lenguajes pueden ser,
también, obtenidas por medio de expresiones regulares.
Por ejemplo, considerando el alfabeto {0, 1} y al lenguaje L = 01n . Con
reglas de producción
S → 0A
A → 1A
A→
nos da una gramática regular.
Es posible demostrar que una gramática sensible al contexto no es equivalente a una gramática libre de contexto, y que ambas, las gramáticas sensibles
al contexto y libres de contexto no son equivalentes a las gramáticas regulares.
Lo primero, a través de el lema de bombeo para gramáticas libres de contexto; y
análogamente para el segundo con el lema de bombeo para gramáticas regulares.
No se incluyen aquı́, pero se pueden encontrar en [Ho].
3
Ası́ pues, cualquier pregunta matemática es equivalente a preguntar cuándo
una cadena es parte de un lenguaje o no. Un teorema matemático es una proposición. La prueba de un teorema es la derivación de esta proposición a travéz de
aplicaciones iteradas de las reglas de reescritura de la gramática. Las reglas de
reescritura son los axiomas de un sistema formal.
Resulta que el lenguaje que contiene todas las expresiones bien formadas
de la aritmética, puede ser generado por una gramática libre de contexto. Sin
embargo, Gödel provó que el lenguaje que contiene exactamente todas las expresiones correctas de la aritmética no tiene gramática. Entonces, el famoso
teorema de incompletud de Gödel implica que el lenguaje de las matemáticas
no es computable.
Se discute dentro de qué categorı́a deberı́a colocarse al lenguaje humano,
ya que se cuestiona si las gramáticas libres de contexto son adecuadas para los
lenguajes naturales o si es necesario evocar gramáticas más complejas como las
sensibles al contexto, pero a la vez, no se cree que un lenguaje natural llegue a
explotar todas las caracterı́sticas de una gramática sensible al contexto.
2.
Un paseo por los lenguajes naturales
Dentro del estudio de los lenguajes naturales, se da una sitematización para
concentrarse en aspectos muy especı́ficos. Tenemos como los principales, a la
fonética (estudio de las caracterı́sticas fı́sicas de los sonidos del habla humana),
la fonologı́a (estudio de la organización de esos sonidos para formar el sistema
de una lengua en particular), la morfologı́a (estudio de las palabras y su estructura), la sintaxis (estudio de la combinación de las palabras para formar
unidades mayores o construcciones), y la semántica (estudio del significado de
las palabras.
Tradicionalmente, la sintáxis y la morfologı́a forman la gramática de una
lengua natural.
Considerando que el elemento humano en la formación e interpretación de los
lenguajes naturales es trascendental, vale la pena abordar un panorama general
sobre la semántica, que es uno de los juicios de valor que diferencı́a fuertemente
nuestra perspectiva de ambos tipos de lenguaje.
Para la filosofı́a del lenguaje, la posición con respecto a el significado de
las palabras ha presentado teorı́as contovertidas y contiene además, nombres
conocidos por nosotros.
Con todo, la semiótica es el estudio más cercano que se tiene a el tipo
de análisis que se tiene comparativamente con el de los lenguajes formales, y
también se considerará.
2.1.
Filosofı́a del lenguaje
Filosóficamente, el estudio de el significado de las palabras ha sido un tema
abordado desde la edad media. Esto, considerando la curiosidad que presenta el
significado de las palabras y la asignación de este.
4
El significado que transmite una palabra es, en principio, el resultado de
algún acuerdo humano. Sobre la naturaleza de este acuerdo existen cuatro visiones diferentes.
Las teorı́as agustinianas (de San Agustı́n de Hipona) afirman que la significación de las palabras viene determinada por un acuerdo público que asocia
las palabras con los objetos. Para comprender una palabra hay que conocer el
acuerdo, algo que se aprende a medida que se crece. Las teorı́as lockeanas (de
los seguidores de John Locke) sostienen que el significado de una palabra viene
determinado por los pensamientos (((ideas))) que posee el hablante y posiblemente también el oyente. Ası́ pues, las palabras son etiquetas para la colección
privada de ideas que cada uno tiene. Las teorı́as del significado de Ludwig
Wittengstein (1889-1951) postulan que el significado de una palabra viene
determinado por su uso, de modo que la comprensión es una habilidad para
emplear la palabra. Por último, los defensores de teorı́as causales mantienen
que laspalabras significan lo que significan porque los hablantes están motivados
a pronunciarlas cuando tienen ante sı́ los distintos objetos.
Según las teorı́as lockeanas, no existen certezas absolutas repecto del significado de una palabra, sólo existen certezas relativas a lo que significan para
cada individuo. Efectivamente, cada persona tiene un lenguaje propio, llamado ideolecto, y sólo quieren decir lo mismo cuando, por ejemplo, pronuncian
((Roma)), dado que sus ideolectos coinciden. Ante estas posiciones, personajes
como Lewis Carroll se opusieron y ridiculizaron la idea de que se pueda hacer
que las palabras signifiquen lo que el hablante quiera. Para utilizar un lenguaje
de manera apropiada, afirmaba, el usuario debe reconocer que los significados
vienen parcialmente determinados por una convención públicamente aceptada
(véase la sección 3). Gottlob Frege (1848-1925) criticaba también las reducciones lockeanas y afirmaba que el hecho de que cada persona pueda sus asociaciones particulares para cada palabra, no debe ser confundido con el lenguaje,
porque de ser ası́, la comunicación serı́a imposible al suponer que dos personas
no querrı́an decir nunca lo mismo con una determinada palabra, y aunque lo
hicieran, tampoco lo sabrı́an. Y del hecho de que haya comunicación, se puede
deducir que en el significado haya algo más que asociaciones privadas.
Frege introduce dos nociones técnicas: referencia (esa cosa del mundo a la
cual se refiere una palabra) y sentido (el modo de pensar sobre la referencia).
Todas las palabras que no son ambiguas tienen una única referencia. Por el
contrario, el sentido es el modo de pensar sobre la referencia. De modo que hay
que conocer el sentido de una palabra para comprenderla; no obstante, como hay
maneras distintas de pensar respecto a una misma cosa, dos palabras pueden
tener la misma referencia pero sentidos distintos (((La ciudad de México)) y ((La
ciudad de los palacios))). Frege pensaba que para que sea posible la comunicación,
cada palabra debe de tener un único sentido al alcance de cualquiera.
Teorı́as mas modernas sobre el significado de las palabras son más desesperanzadoras en el sentido de una capacidad real de comprensión en el lenguaje natural. W.V.O. Quine, discı́pulo de Whitehead, quién propone un caso
paradigmático y se refiere al encuentro de lenguajes naturales distintos, en los
que según él, habrı́a que hacer ciertas suposiciones para la interpretación del
5
otro lenguaje, algo que tiene una importancia crucial, porque casi todas estas
suposiciones debieran ser ciertas para garantizar el éxito en la comunicación,
cosa que asume imposible y termina proponiendo que para él, no existen significados reales de las palabras.
En contraparte, se puede argumentar que no se podrı́a verificar que los
demás quisieran decir exactamente lo mismo que nosotros al utilizar las palabras (aunque, de hecho, la identidad del significado no es esencial para la
comunicación). Chomsky, metido también en esto, defiende la existencia de una
evidencia equivalente a un lenguaje innato en la estructura mental o cerebral,
la cual determina la traducción correcta.
Quine es un empirista y Chomsky un racionalista. La presencia de un conocimiento lingüı́stico innato explicarı́a, según Chomsky, cómo el lenguaje puede ser generativo, cómo puede ser empleado para crear y comprender un número infinito
de frases nuevas.
2.2.
Un modelo semiótico de la lengua natural
Ahora, pasaremos a examinar las estructuras de las distintas lenguas naturales o originales o artificiales que podemos encontrar, y deberemos contrastarlas
con una noción teóricamente rigurosa de estructura de una lengua natural. Para
ello nos atendremos al modelo hjelmsleviano 1 , al que no referiremos cuando
vayamos a examinar una lengua.
Una lengua natural (y en general cualquier sistema semiótico2 ) se compone
de un plano de la expresión (en el caso de una lengua natural hablaremos de un
léxico, una fonologı́a y una sintaxis) y un plano del contenido, que representa
el universo de conceptos que podemos expresar. Cada uno de estos planos se
compone de forma y sustancia, y ambos resultan de la organización de una
materia o continuum.
En una lengua natural, la forma de la expresión está constituida por sus
sistema fonológico, por un repertorio léxico y por sus reglas sintácticas. Mediante esta forma podemos generar distintas sustancias de la expresión, como las
palabras que pronunciamos todos los dı́as, o el texto que estáis leyendo. Para
elaborar una forma de expresión, una lengua escoge (del continuum de sonidos
que una voz humana es capaz de emitir) una serie de sonidos y excluye otros,
que existen y se pueden producir pero que no pertenecen a la lengua en cuestión.
CONTENIDO
EXPRESION
continuum
sustancia
forma
forma
sustancia
continuum
1 Louis Hjelmslev (1899-1965) considerda al lenguaje como un sistema de signos: la esencia
del lenguaje es definir un sistema de correspondencias entre sonido y significado. El análisis
del lenguaje implica, por tanto, describir cada uno de estos dos planos y sus interconexiones.
2 semiótica Estudio de los signos y los sistemas de signos: lenguas, códigos, señalizaciones,
et cetera.
6
Para que los sonidos de una lengua sean comprensibles hay que asociarles los
significados, o bien los contenidos. El continuum del contenido es el conjunto de
todo cuanto se podrı́a pensar y decir, o sea, todo el universo fı́sico y mental (en
la medida de lo que podamos hablar de él). No obstante, casa lengua organiza
el universo de lo que puede ser dicho y pensado en una forma del contenido.
Pertenecen a la forma del contenido (sólo a modo de ejemplo) el sistema de los
colores, la organización del universo zoológico en géneros, familias y especies, la
oposición entre alto y bajo o entre amor y odio.
Los distintos modos de organizar el contenido cambian de una lengua a otra
y a veces también cambian según consideramos el uso común de una lengua
o su uso cientı́fico. Ası́, un experto en colores conoce y puede nombrar miles
de colores, mientras que el hombre de la calle sólo conoce y nombra una serie
reducida; algunos pueblos conocen y nombran varios colores que no corresponden
a los nuestros, porque no están divididos según la longitud de onda del espectro
cromático, sino según otros criterios. Un hablante cualquiera reconoce una serie
muy reducida de ((insectos)), mientras que un zoólogo distingue varios miles.
Por poner un ejemplo bastante diferente (pues los modos de organización del
contenido son múltiples) en una sociedad de religión animista un término que
nosotros traducirı́amos como vida podrı́a aplicarse también a distintos aspectos
del reino animal.
A causa de estas caracterı́sticas una lengua natural puede considerarse como
un sistema holı́stico 3 : por el hecho de estar estructurada de un modo determinado implica una versión del mundo. Según algunas teorı́as, una lengua natural
serı́a apta para expresar una determinada experiencia de la realidad. Aunque
esta prosición resulte extremista, nos encontramos repetidamente frente a tal
objeción a medida que vayamos examinando las crı́ticas presentadas a diversos
proyectos de la lengua perfecta.
En cuando a la sustancia del contenido, representa el sentido de cada uno
de los enunciados que producimos como sustnacia de la expresión.
Para poder ser capaz de significar, una lengua natural establece correlaciones
entre elementos de la forma de la expresión y elementos de la forma del contenido. Un elemento del plano de la expresión, como por ejemplo el lexema nav-,
está relacionado con determinadas unidades de contenido (digamos, en una burda definición, ((contrucción)), ((que flota)), ((móvil)), ((apta para el transporte)));
morfemas como por ejemplo ø/s establecen si se trata de una o más de estas
construcciones.
Pero en las lenguas naturales esta correlación entre expresión y contenido sólo
se produce en el nivel de las unidades mayores que son los ı́tems léxicos (unidades
de primera articulación, que se articulan precisamente para formar sintagmas
dotados de sentido). No existe correlación significativa , en cambio, en el nivel
de las unidades de segunda articulación, los fonemas. Los fonemas pertenecen a
un inventario cerrado de sonidos carentes de significado, que se articulan para
formar unidades dotadas de significado. Los sonidos que componen la palabra
3 holismo Propiedad del lenguaje según la cual una palabra o frase sólo tiene significado
en el contexto del lenguaje tomado como un todo. Las interrelaciones que se dan entre todas
las palabras o frases de un lenguaje es lo que determina el significado de cada una de ellas.
7
nave no son partes componentes de la idea ((nave)) (no se trata de que n signifique
contrucción, a signifique que flota, y ası́ sucesivamente). Tanto es ası́ que los
mismo sonidos pueden ser articulados de manera diferente para formar otra
unidad de primera articulación con un significado completamente distinto, como
por ejemplo vena.
Este principio, el de la doble articulación hay que considerarlo atentamente
porque puede verse cómo muchas lenguas filosóficas pretenden precisamente
eliminarlo.
En términos hjelmslevianos una lengua es biplanar pero no conformal: la
forma de la expresión está estructurada de manera distinta a la forma del contenido, la relación entre ambas formas es arbitraria y las variaciones de la expresión no corresponden a variaciones del contenido de una manera especular.
Si en lugar de nave se pronunciase cave, la simple sustitución de un sonido
supondrı́a un cambio radical de significado. Existen, no obstante, sistemas que
Hjelmsev define como conformales: piénsese, por ejemplo, en la esfera de un
reloj, donde cada posición de las manecillas corresponde milı́metro a milı́metro
a una variación temporal, o bien la fistinta posición de la Tierra en el curso de
su giro alrededor del sol. Tal como veremos, muchas lenguas perfectas aspiran
a esta correspondencia entre signos y realidad o entre signos y sus conceptos
correspondientes.
Pero una lengua natural no sólamente se basa en una sintaxis y una semántica. Se basa también en una pragmática, es decir, se basa en unas reglas de uso,
que se ocupan de analizar las circunstancias y los contextos de emisión, y estas
mismas reglas de usa establecen la posibilidad de los usos retóricos de la lengua,
gracias a los cuales palabras y contrucciones sintácticas pueden adquirir significados múltiples (como sucede por ejemplo con las metáforas). Algunos proyectos
han identificado la perfección de una lengua con la supresión de estos aspectos
pragmáticos; otros, en cambio, han pretendido que una lengua perfecta tiene
que ser capaz de reproducir estas caracterı́sticas de las lenguas naturales.
Finalmente, una lengua natural pretende ser omniefable, es decir, capaz de
dar cuenta de toda nuestra experiencia, fı́sica y mental, y capaz, pues, de poder
expresar sensaciones, percepciones, abstracciones, hasta llegar a la pregunta
de por qué existe el Ser y no la Nada. Es cierto que el lenguaje verbal no es
completamente efable (inténtese describir con las palabras la diferencia entra el
perfume de la verbena y el del romero) y, por tanto, debe valerse de indicaciones,
gestos, inflexiones tonales. Sin embargo, de entre todos los sistemas semióticos,
es el que posee un mayor y más satisfactorio grado de efabilidad, y por este
motivo casi todos los proyectos de la lengua perfecta se remiten precisamente al
modelo del lenguaje verbal.
3.
Elementos citables con respecto al lenguaje
en la literatura y cultura popular
((¿Por qué no admitir que mi insatisfacción revela una ambición desmesura-
8
da, quizá un delirio megalómano? Ante el escritor que quiere anularse a
sı́ mismo para dar voz a cuanto existe fuera de él se abren dos caminos:
o escribir un libro que pueda ser el único, capaz de agotar el todo en sus
páginas; o escribir todos los libros, de modo que persiga al todo a través
de sus imágenes parciales. El libro único, que contiene el todo, no podrı́a
ser sino el texto sagrado, la palabra total revelada. Pero yo no creo que la
totalidad sea contenible en el lenguaje; mi problema es lo que queda fuera,
lo no-escrito, lo no-escribible. No me queda otro camino que escribir todos
los libros, escribir los libros de todos los autores posibles.)) Italo Calvino.
The Philosopher’s Question.
A philosopher is visited by an angel who offers, ((You can ask God a
question.)) The philosopher is thrilled and wants time to take his time.
After a few days, the angel returns. The philosopher ir ready: ((I want to
ask the following question: What is the pair of the best possible question
that I could ask and its answer?)) The angel moves to God. God computes.
The angel returns: ((The best possible question that you could have asked
is the question you did ask, and the answer is the answer I just gave you.))
Citada por Martin Nowak.
((I don’t know what you mean by ’glory’)) Alice said.
Humpty Dumpty smiled contemptuously. ((Of course you don’t – till I tell
you. I meant ’there’s a nice knock-down argument for you!’))
((But ‘glory’ doesn’t mean ‘a nice knock-down argument,’)) Alice objected.
((When I use a word,)) Humpty Dumpty said in a rather a scornful tone,
((it means just what I choose it to mean – neither more nor less.)) Lewis
Carrol.
9
4.
Bibliografı́a
[Ca] Calvino Italo. Si una noche de invierno un viajero. Siruela. Barcelona
(1990).
[Ch] ((Jerarquı́a de Chomsky)), en Wikipedia. 9.03.2008.
http://es.wikipedia.org/wiki/Jerarquı́a de Chomsky
[Ec] Eco Umberto. La búsqueda de la lengua perfecta en la cultura europea.
Editorial Crı́tica, Barcelona (1994).
[Ho] Hopcroft John E., Ullman Jeffrey D. Introduction to Automata Theory,
Languages, and Computation. Addison-Wesley Publishing Company (1979).
[Hj] ((Louis Hjelmslev)), en Wikipedia. 9.03.2008.
http://es.wikipedia.org/wiki/Louis Hjelmslev
[Hu] ((Humpty Dumpty)), en Wikipedia. 9.03.2008. Citando a: Lewis Carrol,
Through the Looking-Glass. http://en.wikipedia.org/wiki/Humpty Dumpty
[La] Enciclopedia metódica Larousse, Sexto tomo. ((Filosofı́a del lenguaje)).
Pp.134-137. Ciudad de México: Ediciones Larousse (1997).
[No] Nowak A. Martin. Evolutionary Dynamics: exploring the equations of
life. The Belknap Press of Harvard Univertity Press. Cambridge (2006).
10
Descargar