Diferencias cuantitativas entre referencia y sentido1 ROGELIO NAZAR [email protected] Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra Pl. de la Mercè 10­12 08002 Barcelona Resumen. Esta presentación indaga sobre una regularidad matemática de la lengua que nos permite diferenciar las palabras de un discurso en las dos clases de referencia y sentido, según la terminología de Frege (1892). En el ámbito de la lingüística aplicada, este trabajo puede ser de interés particularmente en terminología para la elaboración de sistemas de extracción automática de términos. El análisis propuesto es prometedor también en un plano puramente teórico, ya que señala propiedades cuantitativas y estructurales, independientes de la lengua, que diferencian las palabras que se utilizan con una función denominativa y las que tienen una función predicativa. La metodología de análisis es la medición de las propiedades distribucionales de los términos en el discurso, fundamentalmente estadísticas de coocurrencia. Con esta técnica es posible capturar vectores o redes de términos que representan el vecindario léxico específico de una expresión y además estudiar su evolución en un período de tiempo. Las unidades referenciales muestran, por lo general, un patrón específico que las pone de relieve. Palabras clave: sentido y referencia, Sinn und Bedeutung, extracción de terminología especializada, estadísticas de coocurrencia léxica. Abstract. This presentation inquires on a mathematical regularity of language that allows us to differentiate words in a discourse in the two classes of reference and sense, following Frege's (1892) terminology. In the field of applied linguistics, this work can be of interest particularly in terminology, for the elaboration of systems of automatic terminology extraction. The analysis is also promising in a purely theoretical plane, because it shows some quantitative and structural language independent properties that differentiate the words that are used with a denominative function from those with a predicative function. The methodology for this analysis is to measure the distributional properties of terms in discourse, basically statistics of coocurrence. With this technique it is possible to capture vectors or networks of terms that represent the specific lexical neighborhood for a term and also to study its evolution along a period of time. The referential units are, in general, highlighted by a specific pattern. Keywords: sense and reference, Sinn und Bedeutung, extraction of specialized terminology, statistics of lexical coocurrence. 1. INTRODUCCIÓN El problema que vamos a tratar en este artículo es bastante antiguo en lógica y en filosofía del lenguaje. El antecedente principal es sin duda el artículo Sinn und Bedeutung de Frege (1892), pero para hacerle justicia al tema deberíamos analizar en detalle por lo menos los trabajos de Russell (1905); Strawson, (1950); Eco (1968) y Putnam (1975) entre diversos otros. No tengo posibilidad de introducir aquí una síntesis del estado de la cuestión, por lo que partiré de una serie de supuestos básicos que tendrán que aceptarse de manera tentativa para que el resto del trabajo tenga sentido. Decimos que una expresión tiene referencia o valor referencial cuando designa un objeto definido. El ejemplo típico de tal expresión es el nombre 1 Actas del XXVI Congreso de AESLA (Asociación Española de Lingüística Aplicada) Universidad de Almería ­ Abril 2008 propio. Si yo digo Aristóteles, estoy haciendo referencia a un famoso personaje de la historia. Pero también me puedo referir a él como el discípulo de Platón, o también como el maestro de Alejandro. Estas expresiones tienen por un lado referencia y por otro algo distinto que es el sentido. La expresión (1), por ejemplo, tiene sentido pero no tiene referencia. 1) El actual rey de Francia es calvo. Lo que determina la normalidad o extrañeza de expresiones de este tipo no es algo que tenga que ver con su corrección gramatical o semántica, sino las relaciones entre la información que es transmitida por el texto y unos estados del mundo real o ficcional, como repositorio del imaginario colectivo en un momento histórico determinado. Diremos más bien que un referente no es el objeto real sino una unidad cultural (Quine 1951; Eco 1968) de la cual se conoce una serie de predicados que le corresponden por definición, tal como los ejemplos de Aristóteles más arriba. Estos son los enunciados analíticos de Kant (1781), que son los que no agregan nueva información sino que descomponen el sujeto exponiendo sus propiedades. Convertir a estos enunciados en negaciones es volverlos contradictorios: *Aristóteles no fue el discipulo de Platón. Es una contradiccción a menos que se trate de un excepcional descubrimiento histórico, en cuyo caso se trataría de un enunciado sintético. Lo original del presente trabajo es seguramente la aproximación cuantitativa. Resulta inusual aplicar un tratamiento estadístico a un problema que pertenece al ámbito de la filosofía. Sería deseable poder dirimir esta cuestión de una manera matemática, porque esto ofrecería una alternativa empírica a la introspección lingüística o a la especulación filosófica. Existe una manera filosófica de acercarse al problema, que implica preguntarse por la esencia de la función referencial, y una manera instrumental, que sería por ejemplo tener la capacidad de reconocer las unidades referenciales que se encuentran en un texto. Lo que queremos hacer aquí es más bien aplicar el aparato estadístico de una manera inquisitiva para obtener conocimiento acerca del lenguaje y concretamente de sus unidades referenciales. La hipótesis que guía el trabajo es que existe una diferencia estadística entre los términos que tienen función léxica y los que tienen función referencial en el discurso. Estas son estadísticas distribucionales de los términos en un corpus y determinan fundamentalmente la relación que existe entre un término y otros términos que son sus vecinos frecuentes. A continuación, dos experimentos de estadística de corpus presentan evidencia empírica de la hipótesis recién formulada, el primero desde un punto de vista diacrónico y el segundo sincrónico. Los resultados se interpretan y comentan en el apartado de discusión. 2. EXPERIMENTO 1 2.1. MÉTODOS En esta sección vamos a estudiar una distinción entre unidades referenciales y unidades de sentido desde un punto de vista diacrónico. Intentaremos caracterizar una unidad según su contexto. Suponemos que cuanto más homogénea es la distribución de una unidad en un corpus diacrónico, mayor es su independencia respecto al contexto y por lo tanto mayor su probabilidad de tener un valor funcional o léxico en lugar de referencial. La figura 1 muestra dos ejemplos seleccionados aleatoriamente. El primero es claramente una unidad léxica no referencial, cuidadosamente. La otra en cambio sí es referencial, partido comunista de las tierras vascas. Vemos que en el primer caso las ocurrencias se distribuyen más o menos homogéneamente, mientras que la segunda aparece sólo cuando pasa a formar parte de la agenda temática de los medios. Figura 1: análisis diacrónico de dos unidades. Debemos observar que sólo podemos hablar de una tendencia general ya que hay unidades referenciales, como Jesucristo, que también tienen una presencia continua a lo largo del tiempo. El experimento que hacemos a continuación muestra que la tendencia es de cualquier modo lo suficientemente general como para considerar aplicaciones prácticas. No ha sido posible conseguir los mismos resultados utilizando algunas de las medidas más conocidas para deteminar el grado de heterogeneidad de los valores individuales de una muestra, tales como la desviación estándar, la medida IDF (Sparck Jones, 1972) o el índice de dispersión de Juilland (1966). En este experimento, la fórmula de dispersión (Dj) de una unidad j es igual a la cantidad de subpartes del corpus con frecuencia 0 (o una frecuencia mínima absoluta o relativa indicada como parámetro) que sería la variable que denominamos Cj, multiplicada por la frecuencia relativa máxima de j (Fj) en una subparte (año) del corpus. Dj = Fj . Cj El corpus es el archivo del diario El País2 en el período 1976­2007. El listado de unidades fue seleccionado aleatoriamente a partir de las que tienen una frecuencia absoluta de 30 apariciones en el año 2007. En la tabla 1 se ordenan decrecientemente los términos según la ponderación o peso que obtienen. 2.2. RESULTADOS nº 1 2 3 Unidad Peso pp 67.2592 tierras vascas 4.17144 partido comunista de las tierras 4.11597 2 http://www.elpais.com nº 51 52 53 Unidad director de cine varía hemos pasado Peso 0 0 0 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 fuel 3.95108 listas de espera 2.43176 manjón 1.9448 muyahidin 1.7566 kimi raikkonen 1.38051 iwo jima 1.36612 etanol 1.36612 amancio ortega 1.31733 lotc 1.26854 mahoma 1.2037 organismo internacional de la 1.07338 energía gobierno de los jueces 0.8823 rap 0.71591 ex agente 0.60704 comunidad foral 0.4879 robot 0.40197 Ángela 0.40152 guarderías 0.36172 recurrida 0.28695 jefe del ejército 0.25167 domiciliario 0.21102 ecología 0.2092 my 0.20379 grant 0.19827 guardian 0.19516 dakar 0.16862 ego 0.15915 greco 0.15356 búlgaros 0.14637 radios 0.13617 próximas elecciones generales 0.12424 quemaron 0.10398 suburbios 0.10177 mi hija 0.07494 abandonan 0.05705 orgullosa 0.04879 seré 0.04879 le toca 0 además 0 conocerá 0 negación 0 disposiciones 0 farmacéutica 0 alcanzará 0 dobles 0 llamamos 0 unas cuantas 0 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 sometidas producía estrenado dibujar agotamiento vigilante luchas pere revelaciones fronterizos finalizó obra de arte consolidado fanatismo mary ampliación de capital adquirida memorable avanzando años treinta consideradas garantizar la seguridad jesucristo declinó despidos atento torneos ocultado agradecimiento concertada placa tarde o temprano congresos siempre según más de dos años multiplican pocas semanas crecimientos clínico determina alquilar experimental todas las fuerzas columbia creído lanchas cuidadosamente 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Tabla 1: resultados del análisis diacrónico. Observemos que en la tabla 1 los términos que están en sombreado, los considerados referenciales, se concentran en la parte superior izquierda, que es donde se ubican las primeras posiciones en la lista de ponderación. Allí están los casos más fáciles de reconocer, puesto que muchos son nombres propios. No necesitamos ir al contexto para determinar que Kimi Raikkonen es una unidad cultural. Pero hay expresiones más complejas, como fuel o etanol, aunque son términos que denominan conceptos específicos. Otras, como Jefe del ejército, Ángela, Pere, Mary o mi hija, no interesan porque su referencia se actualiza de manera distinta en cada texto. 3. EXPERIMENTO 2 3.1. MÉTODOS Con el estudio sincrónico analizaremos un discurso en particular clasificando sus términos en unidades referenciales y unidades funcionales según una estimación de su cantidad de información, como la capacidad de tener un grupo específico de términos relacionados. Analizamos un fragmento de artículo científico, que en este caso resulta ser: A. Alonso1, N. Egüés Olazábal y O. Ayo Martín. (2006) Infección por virus de Epstein­Barr y esclerosis múltiple, Neurología nº 21. Dentro de este documento seleccionamos aleatoriamente un párrafo y marcamos en negrita los términos referenciales por medio de nuestro conocimiento de la lengua. En segundo lugar, marcamos en altas las unidades a las que corresponde una entrada en un diccionario terminológico del área (Mosby 2001), para introducir una medida objetiva. La idea es entonces desarrollar un algoritmo que sea capaz de llevar a cabo ese mismo marcado con un criterio puramente estadístico. Este algoritmo toma cada unidad del texto, siendo cada unidad una cadena de hasta tres palabras ortográficas siempre y cuando no comiencen o acaben como una palabra funcional, y genera un primer vector t con cada una de estas unidades: t =w1 , w2 , w3 ... w n Los componentes obtienen una ponderación inicial (wi) sobre la base de su rareza en un corpus de referencia de lengua general en castellano, de una extensión de dos millones de palabras. La ponderación es el logaritmo de la frecuencia del término en el texto analizado sobre la frecuencia que tiene en el corpus de referencia (fi) más 1, por si no aparece. Se elimina toda unidad que tenga una frecuencia absoluta superior a 200 en el corpus de referencia, entonces, si fi < 200: ti w i=log f i 1 El siguiente paso es convertir a cada componente de t en un nuevo vector de términos (ti = i ). Estos son términos estadísticamente asociados, pero no extraídos del corpus de referencia, sino de la web. Descargamos 100 documentos donde aparece el término candidato y calculamos la asociación ahora por Información Mutua, porque queremos estimar el grado de asociación entre dos unidades léxicas, por un lado i , que es el término que da nombre al vector, y por otro lado cada uno de los componentes de i , o sea ij. P i i j MI i ,i j =log 2 P i Pi j Para la expectativa de la frecuencia normal de una palabra tomamos una vez más el corpus de referencia. Esto va a dar la ponderación de cada elemento de i para poder eliminar todos los componentes que tengan una información mutua inferior a 9 bits. A continuación, calculamos el solapamiento entre cada vector i con t recordando que el primero representa a cada candidato y el segundo el texto analizado. En este caso hemos elegido por comodidad sólo un pequeño fragmento del documento, pero para calcular el solapamiento léxico deberíamos incluir todo el documento analizado, o por lo menos el léxico que tenga una ponderación (wi) superior a ­1. Este es el solapamiento (Oit) entre i y t : ∣i∣∩∣t∣ Oit = ∣t ∣ En este experimento aceptamos un candidato como referencial si el solapamiento supera un umbral de 0.05. 3.2. RESULTADOS Las muestras 1 y 2 comparan los marcas hechas por el algoritmo, el diccionario y el informante. El algoritmo (muestra 2) utiliza distintos juegos de corchetes para expresar que hay términos dentro de términos. Por ejemplo, cuando dice [[seroprevalencia] de [anticuerpos]] quiere decir que ha encontrado: seroprevalencia, anticuerpos y seroprevalencia de anticuerpos. Muestra 1: términos marcados como referenciales por el informante (negrita) y por el diccionario terminológico (altas). Muestra 2: términos marcados como referenciales por el algoritmo. 4. DISCUSIÓN La primera técnica sobre el eje diacrónico es lo suficientemente simple como para no requerir mayores precisiones. Respecto a la segunda, la explicación tentativa es que las estadísticas de distribución de términos en el discurso están controladas por mecanismos retóricos. En general, cada vez que se introduce un término referencial en el discurso, éste debe ser definido de acuerdo a los principios vigentes en una comunidad, lo que tiene como consecuencia la asociación estadística entre términos. Es decir que una serie de conductas individuales deviene en propiedades estructurales emergentes por fuera del control individual. Este trabajo puede ser de interés en campos como la lexicografía, ya que allí esta distinción se hace de oficio. Estando el lenguaje en permanente cambio y evolución, son muchas las unidades nuevas que pasan a formar parte del sistema de la lengua. Sin embargo no todas las palabras tienen valor léxico. Las unidades referenciales, por ejemplo, no tienen que entrar en el diccionario sino en la enciclopedia, por lo menos las que designan unidades socialmente percibidas. En el caso de la terminología especializada resulta más complejo determinar cuándo puede entrar en el diccionario. Los términos son unidades referenciales, como los nombres propios, con la diferencia de que designan conceptos y no particulares (Wüster 1979; Cabré 1999). Si este trabajo interesara también a los terminólogos, sería preciso hacer una distinción fundamental entre esta propuesta y la de otros trabajos como la extracción automática de terminología (Daille 1994; Vivaldi 2001). Aquí no estamos tratando con el mismo tipo de unidad. No todas las unidades que en este trabajo consideraríamos referenciales serían consideradas terminológicas por estos autores. La condición de referencial viene dada más bien por contingencias históricas, y es por eso que interesa un criterio objetivo, estadístico, porque implica reducir el problema de la referencia a un problema puramente geométrico, independiente de la lengua y del dominio temático. 5. REFERENCIAS Cabré, T. 1999. La Terminología: Representación y Comunicación. Barcelona: Institut Universitari de Lingüística Aplicada. Daille, B. 1994. Approche mixte pour l'extraction automatique de terminologie: statistiques lexicales et filtres linguistiques. Thèse de Doctorat en Informatique Fondamentale. Université Paris 7. Eco, U. 1968. La estructura ausente. Madrid: Lumen. Frege, G. 1892/1993. “On sense and reference”, in A.W. Moore (ed.) Meaning and Reference. Oxford: Oxford University Press. Juilland, A. y Chang­Rodríguez, E. 1964. Frequency Dictionary of Spanish Words. The Hague: Mouton. Kant, I. 1781/1978. Crítica de la razón pura. Traducción de Pedro Ribas. Madrid: Alfaguara. Mosby 2001. Diccionario Mosby de Medicina, Enfermería y Ciencias de la salud. Quinta edición. Madrid: Harcourt. Versión en lengua española de la 5.ª edición de la obra original en inglés: Mosby's Medical, Nursing, and Allied Health Dictionary, Mosby Year Book, Inc. Putnam, H. 1975/1985. “The meaning of 'meaning'”. Philosophical Papers, Vol. 2: Mind, Language and Reality. Cambridge University Press Quine, W. 1951. “Two Dogmas of Empiricism”. The Philosophical Review 60 (1951): 20­43. Russell, B. 1905. “On Denoting”, Mind, (14) : 479­493. Sparck Jones, K. 1972. “A statistical interpretation of term specificity and its application in retrieval”. Journal of Documentation, 28 (1): 11­21. Strawson, P.F. 1950. “On Referring”, Mind, (235): 320­344. Vivaldi, J. 2001/2004. Extracción de candidatos a término mediante combinación de estrategias heterogéneas, Barcelona: IULA, Sèrie Tesis 9. Wüster, E. 1979/1998. Introducción a la teoría general de la terminología y a la lexicografía terminológica, Barcelona: IULA, Sèrie Monografies 1.