Lenguaje natural y lenguaje formal Joel David Rojas Avella 1. Un paseo por los lenguajes formales 1.1. Definiciones introductorias La teorı́a de lenguajes formales es la aproximación matemática que intenta describir los aspectos fundamentales del lenguaje. La primera definición importante es la de ((alfabeto)), que podemos entenderla como un conjunto que contiene una cantidad finita de sı́mbolos. Una ((proposición)) es una cadena finita de sı́mbolos del alfabeto. Hay infinitamente tantas proposiciones como enteros, i.e. el conjunto de las proposiciones es numerable. Un ((lenguaje)) es un conjunto de proposiciones. De entre todas las posibles proposiciones, hay unas que pertenecen al lenguaje y otras que no. Esto lo determina la ((gramática)) que es la lista finita de reglas que determinan un lenguaje. Y puede ser vista de hecho, como ((reglas de construcción)). Además, las proposiciones pueden incluir ((elementos terminales)) y ((elementos no terminales)). Los elementos terminales son elementos del alfabeto. Los no terminales son huecos, en los que se pueden ir colocando nuevas preposiciones. 1.2. Algo de Teorı́a de la Computación Un autómata regular queda definido formalmente como la quı́ntupla (Q, Σ, δ, q0 , F ), donde Q es un conjunto finito de estados, Σ es un alfabeto de entrada finito, q0 en Q es el estado inicial, F ⊆ Q es el conjunto de estados finales, y δ es la función de transición que va de Q × Σ en Q. Es decir, δ(q, a) es el estado para cada estado q y el sı́mbolo de entrada a. Un autómata de pila es un autómata finito al cual se le otorga la extención de tener una pila de memoria, y queda definido como la séptupla (Q, Σ, Γ, δ, q0 , Z, F ) donde ahora Γ es el alfabeto de la pila y Z es el estado inicial de la pila. δ queda extendida, yendo ahora de Q × Σ ∪ {} × Γ ∪ {} → P(Q × Γ ∪ {}) siendo la cadena vacı́a, y P el conjunto potencia. 1 Finalmente, definiremos una máquina de Turing, que es la más poderosa dentro de la teorı́a de autómatas. Para una máquina de Turing con una cinta infinita consideramos a la séptupla (Q, Γ, b, Σ, δ, q0 , F ) donde ahora Γ es el conjunto de los sı́mbolos en la cinta, b ∈ Γ es el sı́mbolo en blanco, Σ ∈ Γ\{b} es el conjunto de sı́bolos de entrada y δ : Q × Γ → Q × Γ × {I, D, N } será la función de transición, con I el salto a la izquierda, D el salto a la derecha y N el no salto. 1.3. La jerarquı́a de Chomsky En 1956, el lingüista Noam Chomsky da una clasificación jerárquica de distintos tipos de gramáticas formales que generan lenguajes formales. La Jerarquı́a de Chomsky consta de cuatro niveles: Gramáticas de tipo 0 (sin restricciones), que incluye a todas las gramáticas formales. Estas gramáticas generan todos los lenguajes capaces de ser reconocidos por una máquina de Turing. Los lenguajes son conocidos como lenguajes recursivamente enumerables. Nótese que esta categorı́a es diferente de la de los lenguajes recursivos, cuya decisión puede ser realizada por una máquina de Turing que se detenga. Sus reglas de formación están dadas por: α→β Y no tienen restricciones. Ambas, α y β pueden representar cualquier cadena finita de simbolos terminales o no terminales. Gramáticas de tipo 1 (gramáticas sensibles al contexto) generan los lenguajes sensibles al contexto. Estas gramáticas tienen reglas de la forma: αAβ → αγβ con A un no terminal y α, β y γ cadenas de elementos terminales y no terminales. Las cadenas α y β pueden ser vacı́as, pero γ no puede serlo. La regla S → está permitida si S no aparece en la parte derecha de ninguna regla. Los lenguajes descritos por estas gramáticas son exactamente todos aquellos lenguajes reconocidos por una máquina de Turing no determinista cuya cinta de memoria está acotada por un cierto número entero de veces sobre la longitud de entrada, también conocidas como Autómatas Linealmente Acotados. Por ejemplo, considerando el alfabeto {0, 1, 2} y al lenguaje L = 0n 1n 2n . Con reglas de producción 2 S → 0AS2 S → 012 A0 → 0A A1 → 1A nos da una gramática sensible al contexto. Gramáticas de tipo 2 (gramáticas libres del contexto) generan los lenguajes independientes del contexto. Las reglas son de la forma A→γ con A un elemento no terminal y γ una cadena de terminales y no terminales. Estos lenguajes son aquellos que pueden ser reconocidos por un autómata con pila dentro de la teorı́a de la computación. Por ejemplo, considerando el alfabeto {0, 1} y al lenguaje L = 0n 1n . Con reglas de producción S → 0S1 S→ nos da una gramática libre de contexto. Gramáticas de tipo 3 (gramáticas regulares) generan los lenguajes regulares. Estas gramáticas se restringen a aquellas reglas que tienen en la parte izquierda un elemento no terminal, y en la parte derecha un solo terminal, posiblemente seguido de un no terminal. La regla S → también está permitida si S no aparece en la parte derecha de ninguna regla. Estos lenguajes son aquellos que en teorı́a de la computación pueden ser aceptados por un autómata finito. Esta familia de lenguajes pueden ser, también, obtenidas por medio de expresiones regulares. Por ejemplo, considerando el alfabeto {0, 1} y al lenguaje L = 01n . Con reglas de producción S → 0A A → 1A A→ nos da una gramática regular. Es posible demostrar que una gramática sensible al contexto no es equivalente a una gramática libre de contexto, y que ambas, las gramáticas sensibles al contexto y libres de contexto no son equivalentes a las gramáticas regulares. Lo primero, a través de el lema de bombeo para gramáticas libres de contexto; y análogamente para el segundo con el lema de bombeo para gramáticas regulares. No se incluyen aquı́, pero se pueden encontrar en [Ho]. 3 Ası́ pues, cualquier pregunta matemática es equivalente a preguntar cuándo una cadena es parte de un lenguaje o no. Un teorema matemático es una proposición. La prueba de un teorema es la derivación de esta proposición a travéz de aplicaciones iteradas de las reglas de reescritura de la gramática. Las reglas de reescritura son los axiomas de un sistema formal. Resulta que el lenguaje que contiene todas las expresiones bien formadas de la aritmética, puede ser generado por una gramática libre de contexto. Sin embargo, Gödel provó que el lenguaje que contiene exactamente todas las expresiones correctas de la aritmética no tiene gramática. Entonces, el famoso teorema de incompletud de Gödel implica que el lenguaje de las matemáticas no es computable. Se discute dentro de qué categorı́a deberı́a colocarse al lenguaje humano, ya que se cuestiona si las gramáticas libres de contexto son adecuadas para los lenguajes naturales o si es necesario evocar gramáticas más complejas como las sensibles al contexto, pero a la vez, no se cree que un lenguaje natural llegue a explotar todas las caracterı́sticas de una gramática sensible al contexto. 2. Un paseo por los lenguajes naturales Dentro del estudio de los lenguajes naturales, se da una sitematización para concentrarse en aspectos muy especı́ficos. Tenemos como los principales, a la fonética (estudio de las caracterı́sticas fı́sicas de los sonidos del habla humana), la fonologı́a (estudio de la organización de esos sonidos para formar el sistema de una lengua en particular), la morfologı́a (estudio de las palabras y su estructura), la sintaxis (estudio de la combinación de las palabras para formar unidades mayores o construcciones), y la semántica (estudio del significado de las palabras. Tradicionalmente, la sintáxis y la morfologı́a forman la gramática de una lengua natural. Considerando que el elemento humano en la formación e interpretación de los lenguajes naturales es trascendental, vale la pena abordar un panorama general sobre la semántica, que es uno de los juicios de valor que diferencı́a fuertemente nuestra perspectiva de ambos tipos de lenguaje. Para la filosofı́a del lenguaje, la posición con respecto a el significado de las palabras ha presentado teorı́as contovertidas y contiene además, nombres conocidos por nosotros. Con todo, la semiótica es el estudio más cercano que se tiene a el tipo de análisis que se tiene comparativamente con el de los lenguajes formales, y también se considerará. 2.1. Filosofı́a del lenguaje Filosóficamente, el estudio de el significado de las palabras ha sido un tema abordado desde la edad media. Esto, considerando la curiosidad que presenta el significado de las palabras y la asignación de este. 4 El significado que transmite una palabra es, en principio, el resultado de algún acuerdo humano. Sobre la naturaleza de este acuerdo existen cuatro visiones diferentes. Las teorı́as agustinianas (de San Agustı́n de Hipona) afirman que la significación de las palabras viene determinada por un acuerdo público que asocia las palabras con los objetos. Para comprender una palabra hay que conocer el acuerdo, algo que se aprende a medida que se crece. Las teorı́as lockeanas (de los seguidores de John Locke) sostienen que el significado de una palabra viene determinado por los pensamientos (((ideas))) que posee el hablante y posiblemente también el oyente. Ası́ pues, las palabras son etiquetas para la colección privada de ideas que cada uno tiene. Las teorı́as del significado de Ludwig Wittengstein (1889-1951) postulan que el significado de una palabra viene determinado por su uso, de modo que la comprensión es una habilidad para emplear la palabra. Por último, los defensores de teorı́as causales mantienen que laspalabras significan lo que significan porque los hablantes están motivados a pronunciarlas cuando tienen ante sı́ los distintos objetos. Según las teorı́as lockeanas, no existen certezas absolutas repecto del significado de una palabra, sólo existen certezas relativas a lo que significan para cada individuo. Efectivamente, cada persona tiene un lenguaje propio, llamado ideolecto, y sólo quieren decir lo mismo cuando, por ejemplo, pronuncian ((Roma)), dado que sus ideolectos coinciden. Ante estas posiciones, personajes como Lewis Carroll se opusieron y ridiculizaron la idea de que se pueda hacer que las palabras signifiquen lo que el hablante quiera. Para utilizar un lenguaje de manera apropiada, afirmaba, el usuario debe reconocer que los significados vienen parcialmente determinados por una convención públicamente aceptada (véase la sección 3). Gottlob Frege (1848-1925) criticaba también las reducciones lockeanas y afirmaba que el hecho de que cada persona pueda sus asociaciones particulares para cada palabra, no debe ser confundido con el lenguaje, porque de ser ası́, la comunicación serı́a imposible al suponer que dos personas no querrı́an decir nunca lo mismo con una determinada palabra, y aunque lo hicieran, tampoco lo sabrı́an. Y del hecho de que haya comunicación, se puede deducir que en el significado haya algo más que asociaciones privadas. Frege introduce dos nociones técnicas: referencia (esa cosa del mundo a la cual se refiere una palabra) y sentido (el modo de pensar sobre la referencia). Todas las palabras que no son ambiguas tienen una única referencia. Por el contrario, el sentido es el modo de pensar sobre la referencia. De modo que hay que conocer el sentido de una palabra para comprenderla; no obstante, como hay maneras distintas de pensar respecto a una misma cosa, dos palabras pueden tener la misma referencia pero sentidos distintos (((La ciudad de México)) y ((La ciudad de los palacios))). Frege pensaba que para que sea posible la comunicación, cada palabra debe de tener un único sentido al alcance de cualquiera. Teorı́as mas modernas sobre el significado de las palabras son más desesperanzadoras en el sentido de una capacidad real de comprensión en el lenguaje natural. W.V.O. Quine, discı́pulo de Whitehead, quién propone un caso paradigmático y se refiere al encuentro de lenguajes naturales distintos, en los que según él, habrı́a que hacer ciertas suposiciones para la interpretación del 5 otro lenguaje, algo que tiene una importancia crucial, porque casi todas estas suposiciones debieran ser ciertas para garantizar el éxito en la comunicación, cosa que asume imposible y termina proponiendo que para él, no existen significados reales de las palabras. En contraparte, se puede argumentar que no se podrı́a verificar que los demás quisieran decir exactamente lo mismo que nosotros al utilizar las palabras (aunque, de hecho, la identidad del significado no es esencial para la comunicación). Chomsky, metido también en esto, defiende la existencia de una evidencia equivalente a un lenguaje innato en la estructura mental o cerebral, la cual determina la traducción correcta. Quine es un empirista y Chomsky un racionalista. La presencia de un conocimiento lingüı́stico innato explicarı́a, según Chomsky, cómo el lenguaje puede ser generativo, cómo puede ser empleado para crear y comprender un número infinito de frases nuevas. 2.2. Un modelo semiótico de la lengua natural Ahora, pasaremos a examinar las estructuras de las distintas lenguas naturales o originales o artificiales que podemos encontrar, y deberemos contrastarlas con una noción teóricamente rigurosa de estructura de una lengua natural. Para ello nos atendremos al modelo hjelmsleviano 1 , al que no referiremos cuando vayamos a examinar una lengua. Una lengua natural (y en general cualquier sistema semiótico2 ) se compone de un plano de la expresión (en el caso de una lengua natural hablaremos de un léxico, una fonologı́a y una sintaxis) y un plano del contenido, que representa el universo de conceptos que podemos expresar. Cada uno de estos planos se compone de forma y sustancia, y ambos resultan de la organización de una materia o continuum. En una lengua natural, la forma de la expresión está constituida por sus sistema fonológico, por un repertorio léxico y por sus reglas sintácticas. Mediante esta forma podemos generar distintas sustancias de la expresión, como las palabras que pronunciamos todos los dı́as, o el texto que estáis leyendo. Para elaborar una forma de expresión, una lengua escoge (del continuum de sonidos que una voz humana es capaz de emitir) una serie de sonidos y excluye otros, que existen y se pueden producir pero que no pertenecen a la lengua en cuestión. CONTENIDO EXPRESION continuum sustancia forma forma sustancia continuum 1 Louis Hjelmslev (1899-1965) considerda al lenguaje como un sistema de signos: la esencia del lenguaje es definir un sistema de correspondencias entre sonido y significado. El análisis del lenguaje implica, por tanto, describir cada uno de estos dos planos y sus interconexiones. 2 semiótica Estudio de los signos y los sistemas de signos: lenguas, códigos, señalizaciones, et cetera. 6 Para que los sonidos de una lengua sean comprensibles hay que asociarles los significados, o bien los contenidos. El continuum del contenido es el conjunto de todo cuanto se podrı́a pensar y decir, o sea, todo el universo fı́sico y mental (en la medida de lo que podamos hablar de él). No obstante, casa lengua organiza el universo de lo que puede ser dicho y pensado en una forma del contenido. Pertenecen a la forma del contenido (sólo a modo de ejemplo) el sistema de los colores, la organización del universo zoológico en géneros, familias y especies, la oposición entre alto y bajo o entre amor y odio. Los distintos modos de organizar el contenido cambian de una lengua a otra y a veces también cambian según consideramos el uso común de una lengua o su uso cientı́fico. Ası́, un experto en colores conoce y puede nombrar miles de colores, mientras que el hombre de la calle sólo conoce y nombra una serie reducida; algunos pueblos conocen y nombran varios colores que no corresponden a los nuestros, porque no están divididos según la longitud de onda del espectro cromático, sino según otros criterios. Un hablante cualquiera reconoce una serie muy reducida de ((insectos)), mientras que un zoólogo distingue varios miles. Por poner un ejemplo bastante diferente (pues los modos de organización del contenido son múltiples) en una sociedad de religión animista un término que nosotros traducirı́amos como vida podrı́a aplicarse también a distintos aspectos del reino animal. A causa de estas caracterı́sticas una lengua natural puede considerarse como un sistema holı́stico 3 : por el hecho de estar estructurada de un modo determinado implica una versión del mundo. Según algunas teorı́as, una lengua natural serı́a apta para expresar una determinada experiencia de la realidad. Aunque esta prosición resulte extremista, nos encontramos repetidamente frente a tal objeción a medida que vayamos examinando las crı́ticas presentadas a diversos proyectos de la lengua perfecta. En cuando a la sustancia del contenido, representa el sentido de cada uno de los enunciados que producimos como sustnacia de la expresión. Para poder ser capaz de significar, una lengua natural establece correlaciones entre elementos de la forma de la expresión y elementos de la forma del contenido. Un elemento del plano de la expresión, como por ejemplo el lexema nav-, está relacionado con determinadas unidades de contenido (digamos, en una burda definición, ((contrucción)), ((que flota)), ((móvil)), ((apta para el transporte))); morfemas como por ejemplo ø/s establecen si se trata de una o más de estas construcciones. Pero en las lenguas naturales esta correlación entre expresión y contenido sólo se produce en el nivel de las unidades mayores que son los ı́tems léxicos (unidades de primera articulación, que se articulan precisamente para formar sintagmas dotados de sentido). No existe correlación significativa , en cambio, en el nivel de las unidades de segunda articulación, los fonemas. Los fonemas pertenecen a un inventario cerrado de sonidos carentes de significado, que se articulan para formar unidades dotadas de significado. Los sonidos que componen la palabra 3 holismo Propiedad del lenguaje según la cual una palabra o frase sólo tiene significado en el contexto del lenguaje tomado como un todo. Las interrelaciones que se dan entre todas las palabras o frases de un lenguaje es lo que determina el significado de cada una de ellas. 7 nave no son partes componentes de la idea ((nave)) (no se trata de que n signifique contrucción, a signifique que flota, y ası́ sucesivamente). Tanto es ası́ que los mismo sonidos pueden ser articulados de manera diferente para formar otra unidad de primera articulación con un significado completamente distinto, como por ejemplo vena. Este principio, el de la doble articulación hay que considerarlo atentamente porque puede verse cómo muchas lenguas filosóficas pretenden precisamente eliminarlo. En términos hjelmslevianos una lengua es biplanar pero no conformal: la forma de la expresión está estructurada de manera distinta a la forma del contenido, la relación entre ambas formas es arbitraria y las variaciones de la expresión no corresponden a variaciones del contenido de una manera especular. Si en lugar de nave se pronunciase cave, la simple sustitución de un sonido supondrı́a un cambio radical de significado. Existen, no obstante, sistemas que Hjelmsev define como conformales: piénsese, por ejemplo, en la esfera de un reloj, donde cada posición de las manecillas corresponde milı́metro a milı́metro a una variación temporal, o bien la fistinta posición de la Tierra en el curso de su giro alrededor del sol. Tal como veremos, muchas lenguas perfectas aspiran a esta correspondencia entre signos y realidad o entre signos y sus conceptos correspondientes. Pero una lengua natural no sólamente se basa en una sintaxis y una semántica. Se basa también en una pragmática, es decir, se basa en unas reglas de uso, que se ocupan de analizar las circunstancias y los contextos de emisión, y estas mismas reglas de usa establecen la posibilidad de los usos retóricos de la lengua, gracias a los cuales palabras y contrucciones sintácticas pueden adquirir significados múltiples (como sucede por ejemplo con las metáforas). Algunos proyectos han identificado la perfección de una lengua con la supresión de estos aspectos pragmáticos; otros, en cambio, han pretendido que una lengua perfecta tiene que ser capaz de reproducir estas caracterı́sticas de las lenguas naturales. Finalmente, una lengua natural pretende ser omniefable, es decir, capaz de dar cuenta de toda nuestra experiencia, fı́sica y mental, y capaz, pues, de poder expresar sensaciones, percepciones, abstracciones, hasta llegar a la pregunta de por qué existe el Ser y no la Nada. Es cierto que el lenguaje verbal no es completamente efable (inténtese describir con las palabras la diferencia entra el perfume de la verbena y el del romero) y, por tanto, debe valerse de indicaciones, gestos, inflexiones tonales. Sin embargo, de entre todos los sistemas semióticos, es el que posee un mayor y más satisfactorio grado de efabilidad, y por este motivo casi todos los proyectos de la lengua perfecta se remiten precisamente al modelo del lenguaje verbal. 3. Elementos citables con respecto al lenguaje en la literatura y cultura popular ((¿Por qué no admitir que mi insatisfacción revela una ambición desmesura- 8 da, quizá un delirio megalómano? Ante el escritor que quiere anularse a sı́ mismo para dar voz a cuanto existe fuera de él se abren dos caminos: o escribir un libro que pueda ser el único, capaz de agotar el todo en sus páginas; o escribir todos los libros, de modo que persiga al todo a través de sus imágenes parciales. El libro único, que contiene el todo, no podrı́a ser sino el texto sagrado, la palabra total revelada. Pero yo no creo que la totalidad sea contenible en el lenguaje; mi problema es lo que queda fuera, lo no-escrito, lo no-escribible. No me queda otro camino que escribir todos los libros, escribir los libros de todos los autores posibles.)) Italo Calvino. The Philosopher’s Question. A philosopher is visited by an angel who offers, ((You can ask God a question.)) The philosopher is thrilled and wants time to take his time. After a few days, the angel returns. The philosopher ir ready: ((I want to ask the following question: What is the pair of the best possible question that I could ask and its answer?)) The angel moves to God. God computes. The angel returns: ((The best possible question that you could have asked is the question you did ask, and the answer is the answer I just gave you.)) Citada por Martin Nowak. ((I don’t know what you mean by ’glory’)) Alice said. Humpty Dumpty smiled contemptuously. ((Of course you don’t – till I tell you. I meant ’there’s a nice knock-down argument for you!’)) ((But ‘glory’ doesn’t mean ‘a nice knock-down argument,’)) Alice objected. ((When I use a word,)) Humpty Dumpty said in a rather a scornful tone, ((it means just what I choose it to mean – neither more nor less.)) Lewis Carrol. 9 4. Bibliografı́a [Ca] Calvino Italo. Si una noche de invierno un viajero. Siruela. Barcelona (1990). [Ch] ((Jerarquı́a de Chomsky)), en Wikipedia. 9.03.2008. http://es.wikipedia.org/wiki/Jerarquı́a de Chomsky [Ec] Eco Umberto. La búsqueda de la lengua perfecta en la cultura europea. Editorial Crı́tica, Barcelona (1994). [Ho] Hopcroft John E., Ullman Jeffrey D. Introduction to Automata Theory, Languages, and Computation. Addison-Wesley Publishing Company (1979). [Hj] ((Louis Hjelmslev)), en Wikipedia. 9.03.2008. http://es.wikipedia.org/wiki/Louis Hjelmslev [Hu] ((Humpty Dumpty)), en Wikipedia. 9.03.2008. Citando a: Lewis Carrol, Through the Looking-Glass. http://en.wikipedia.org/wiki/Humpty Dumpty [La] Enciclopedia metódica Larousse, Sexto tomo. ((Filosofı́a del lenguaje)). Pp.134-137. Ciudad de México: Ediciones Larousse (1997). [No] Nowak A. Martin. Evolutionary Dynamics: exploring the equations of life. The Belknap Press of Harvard Univertity Press. Cambridge (2006). 10