INTRODUCCIÓN A LA LINGÜÍSTICA COMPARATIVA Y OBTENCIÓN Y COMPARACÍON DE FRECUENCIAS RELATIVAS DE LETRAS Ander Martinez de Albeniz Ausin Introducción: La estadística, especialmente desde el desarrollo del cálculo numérico ha sido una gran ayuda para la lingüística en el estudio de la genética de los idiomas y la relación entre estos. Todos sabemos que el castellano desciende del latín, pero ¿Como lo sabemos? No es una pregunta muy difícil, seguramente tomando un texto en latín nos sería relativamente sencillo encontrarle cierto sentido e incluso traducirlo parcialmente al castellano, diríamos que nos basaríamos en un contraste intuitivo basado en el conocimiento que tenemos del castellano, esto sería una especie de comparación estadística, vemos ‘’demasiadas’’ coincidencias para que sea una coincidencia. Pero como saber si un idioma es realmente descendiente directo de otro o simplemente ha sido contaminado en cierto grado pero en esencia guarda una raíz totalmente ajena al digamos ‘’padre putativo’’. Digamos que tenemos un niño que se parece a la madre pero no al padre, como podemos saber si no es hijo del butanero? Este sería el punto débil del método comparativo en lingüística, por mucho que se parezca el castellano al latín la mejor prueba de su parentesco resultan los datos históricos sobre la ocupación de la península por el Imperio Romano, los textos en latín escritos en la península misma y encontrados en numerosos lugares etc. Pero que sucede si un idioma no dispone de registros lo suficientemente antiguos para compararlo históricamente con otro en un estadio antiguo? Pues simplemente que el método estadístico gana mucho valor al ser una de las pocas herramientas combinada con la paleo-lingüística y la arqueología para aventurarse en el brumoso mundo de los árboles genealógicos de los idiomas. La paleo-lingüística mediante una serie de suposiciones sobre la evolución de los fonemas de un idioma a partir de su versión escrita más antigua disponible es capaz de reproducir la sonoridad y ciertas reglas de un idioma en un estadio anterior e incluso descifrar inscripciones ininteligibles mediante otros métodos, digamos que puede sugerir un proto-lenguaje para un idioma que no dispone de registros escritos antiguos a fin de mediante la comparación con otros idiomas que si posean escrituras antiguas o con otros proto-lenguajes sugerir hipótesis. La veracidad de esta hipótesis dependerá de lo acertadas o no que hayan sido nuestras suposiciones a la hora de realizar el proto-lenguaje que dependerá en parte de lo que hayamos pretendido retroceder en el tiempo con dicho idioma, como se ve es todo un castillo de naipes que se puede venir abajo cuando menos lo esperemos. Ese es uno de los motivos principales de que idiomas aislados y de alfabetización tardía como el Euskera, Buruchaski, Ainu, Yeniseiko… se resistan a ser emparentados, existen teorías pero todas se han construido con tantas hipótesis que no se pueden afirmar como axiomas. Aunque los citados idiomas no hayan sido emparentados estas técnicas de comparación en otros casos han verificado teorías que a priori nadie daría por verdaderas. Agárrense porque estos métodos hacen que podamos asegurar que: ¡El Castellano y el Ruso son parientes! A priori nadie lo diría, dos idiomas geográficamente tan alejados, hablados por culturas un tanto dispares y formalmente indescifrables el uno para el otro son una especie de primos lejanos. De hecho la teoría que afirma esta relación supuso toda una revolución para la lingüística cuando Sir William Jones la formulo en 1788 y que más tarde se comprobaría gracias a la lingüística histórica o comparativa. Los lingüistas afirman que entre el año 3000 antes de cristo y el 2000 a.C una lengua hablada en el caucaso se expandió por Europa y el sub-continente indio siendo esta lengua que se llama indoeropeo, la madre del sánscrito (lenguaje sagrado de la india del que por suerte conserva escritos), griego, latín, lenguas germánicas (de donde vendrán las lenguas inglesa, alemana, noruega…), lenguas eslavas, lenguas celtas, lenguas iranias… Así la lingüística ha sido capaz de relacionar en un mismo nodo la práctica totalidad de idiomas hablados actualmente en Europa así como algunas lenguas extintas, excepción hecha del Húngaro, el Fines, varios idiomas hablados en la zona de Georgia, el Euskera y el Etrusco. Por la misma vía también se han desentrañado numerosos misterios lingüísticos más. Hasta clasificar los idiomas en familias algunas de las cuales se muestran en el siguiente mapa (cortesía de Wikipedia): Euskera ¿Pero, a la hora de comparar dos idiomas como sabemos si estamos comparándolos bien? Si comparamos una lista de diez palabras entre dos lenguajes y por casualidad una de ellas es un préstamo de otro idioma estaremos introduciendo un sesgo bastante importante en nuestra estimación. Otro problema es que teniendo los idiomas miles de palabras diferentes con total seguridad podemos afirmar que tomados dos idiomas totalmente dispares encontraremos unas cuantas palabras iguales y de diferente significado e incluso varios pares de palabras iguales con el mismo significado, seguramente monosílabos o bisílabos. Por ello no nos debemos dejar llevar por la euforia si encontramos que los indios fueginos llaman Dar Vader a un demonio del bosque (exagerando un poco), al fin y al cabo el repertorio fonético humano no es ilimitado! En vistas a escoger las palabras más adecuadas para la comparación surgió en el siglo veinte la conocida como la lista Swadesh lista de 100 palabras (también existe una versión más larga y existen otras listas). Estas palabras por lo básico de su significado se creen más estables, constituyentes de un núcleo cuasi-permanente del idioma, en ella encontramos términos familiares, nombres de elementos de la naturaleza etc. Se ha estimado que el 86% de las palabras de este vocabulario básico cambia cada mil años, lo cual nos da una idea de cuan atrás nos permite retroceder, a continuación se muestra parte de la lista Swadesh con sus términos en ingles, castellano y vasco modernos: INGLES I, me CASTELLANO Yo, me EUSKERA Ni You Tu Zu We This Nosotros Esto Gu Hau That Eso hori Who Quien Nor What Que Zer Name Nombre Izen Knee Rodilla Belaun Grease Grasa Gantz Father Padre Aita One Uno Bat Earth Tierra Lur Red Rojo Gorri New Nuevo Berri To give Dar Eman Big Grande Handi Many Muchos Asko Two Dos Bi Seed Semilla Hazi Person Not Persona No Pertsona Ez Hot Caliente Bero Night Noche Gau Woman To sit Feather Mujer Sentarse Pluma Emakume Eseri Luma To hear Smoke Escuchar Humo Entzun Ke Long Largo Luze Breasts Pechos Titiak A continuación se realiza una comparación no mediante palabras de la lista de Swadesh sino mediante las letras del alfabeto, más bien los sonidos que representan en seis idiomas que son el Castellano, Portugués, Catalán, Vasco, Gallego e Italiano, estos idiomas ortográficamente tienen ciertas similitudes ya que todos ellos representan cada sonido de una forma similar luego comparando las frecuencias de las letras podremos de cierta forma comparar la sonoridad de lo idiomas y así establecer si a priori se puede afirmar que el castellano es más próximo a cualquiera de los otros idiomas que al Euskera y de tal forma suponer que no deriva del latín como el resto de idiomas de la muestra. COMPARACIÓN DE FRECUENCIAS DE LETRAS: Con el objetivo de comprobar de una forma sencilla el parecido sonoro de varias lenguas se me ocurrió que podría realizar un programa que tomando un texto con más de 2500 caracteres compase las frecuencias relativas de algunos idiomas para establecer su grado de parentesco de una forma no muy científica quizá pero que sirva de primera aproximación. Para ello he tomado cinco idiomas lingüísticamente emparentados y de relación comprobada como son el gallego, el catalán, el italiano, el castellano y el portugués y por otro lado he analizado el euskera. He comparado las diferencias cuadradas de las frecuencias relativas por letra de los idiomas portugués, catalán, gallego y vasco con las del castellano. Para obtener las frecuencias de los idiomas primeramente elaboré un programa en lenguaje Fortran que lee y cuenta la cantidad de letras en un archivo de texto, al hacerlo me encontré con varios problemas inherentes al lenguaje de programación como que Fortran no acepta caracteres que no sean letras o números como variable carácter lo que me obligo a buscar otro lenguaje de programación más apto, como es C, este lenguaje permite que todos los caracteres del estandar ASCII puedan utilizarse como variables carácter, pero como no me ha dado tiempo más que a aprender lo básico de C he tenido que realizar el programa en Fortran. Esto me ha obligado a perder bastante tiempo eliminando los caracteres no deseados con ayuda de la bendita función ‘’buscar y reemplazar’’ de Word antes de poder analizar el cada texto. Una vez calculadas las frecuencias de los cinco idiomas las pasé a Excel donde he sacado los grafiquillos que vienen al final. Dada la frecuencia de la letra i-esima fi(idioma) he calculado las siguientes diferencias con respecto de las frecuencias del castellano. Δi(idioma)= (fi(idioma)- fi(castellano))2/ fi(castellano) La suma de estás diferencias para cada idioma me han dado unos índices que he llamado Indices de Similitud I.S.. He calculado varios índices, por un lado, el índice teniendo en cuenta todas las frecuencias, por otro lado I.S. que tienen solo en cuenta las letras que no son conflictivas (por homofonía, por ausencia clara…), el I.S. de las vocales más la Y y el I.S. de las consonantes menos la Y. Estos I.S. se presentan en la siguiente tabla: S.I. global S.I. representativo S.I. volales + Y S.I consonantes - Y Català Galego Portuges Italiano Euskera 1,38227 1,04142 0,41608 0,96619 1,49982 0,90732 0,34014 1,15967 1,32078 0,93439 0,23464 1,08613 1,55615 1,21557 0,59835 0,95780 4,94524 1,99889 0,41452 4,53072 NOTA: las letras conflictivas para el S.I. representativo son K, W, X, Ñ, H, B, V, Q, C; Nótese que la elección de los idiomas no ha sido al azar, todos estos idiomas comparten cierta característica en su ortografía, en general los sonidos se representan con las mismas letras, esto es, los fonemas se representan de la misma forma. Para comparar el inglés por ejemplo con el castellano habría sido necesario escribir otro programa que midiese las frecuencias de los fonemas en cada idioma, este programa sería más general y más útil pero hubiese requerido más tiempo y en estas fechas no abunda. A la hora de adaptar el texto en portugués y el catalán se ha cambiado la ç por la s y en general se han cambiado las letras con acentos de diverso tipo por sus equivalentes no acentuadas. De los datos S.I. obtenidos podemos concluir que en general el vasco tiene menor nivel de parentesco con el castellano que otros idiomas de su entorno comprobando lo que ya sabiamos y la hipótesis inicial. Las frecuencias se han sacado de los siguientes textos algunos buscados mediante google: CASTELLANO Un relato corto del autor de 34258 letras válidas CATALÀ Un documento de la generalitat de catalunya ‘‘Diari Oficial de la Generalitat de Catalunya’’ extraido de: http://www.csub.scs.es/cat/proveidors/arxius/bellvitge_anuncis_do9.doc GALEGO PORTUGES ITALIANO EUSKERA Con 3421 letras validas Los estatutos de una asociación forestal gallega ‘’ ESTATUTOS DO GRUPO GALEGO DE APOIO Á CERTIFICACIÓN FORESTAL DO FSC ‘’ De la dirección: http://www.fscspain.org/documentos/ESTATUTOS%20DO%20GRUPO%20DE %20APOIO%20GALEGO%20PARA%20A%20CERTIFICACI %D3N%20FORESTAL%20F.doc Con 7007 letras validas Un trabajo de una amiga portuguesa estudiante de psicología de 11824 letras Un texto sobre economía italiano ‘’ L’insuccesso scolastico: un approccio di tipo economico di Roberto Fini ‘’ De la dirección: http://www.univirtual.it/varie/05042003.doc Con 12599 letras Textos sobre los papeles de salamanca del gobierno vasco ‘’Jaurlaritzarenak diren Salamancako agirien eskaera eta errepublika garaiko Eusko Jaurlaritzaren aldarrikapenak’’ De la dirección: http://www.eaj-pnv.com/documentos/documentos/5197_e.doc Con 13864 letras validas Bibliografia y fuentes: -‘’El Euskera Arcaico’’ de Luis Nuñez Astrain, Editorial Hiru del libro aunque acabo de descubrir que esta disponible en http://www.erabili.com/zer_berri/muinetik/dokumentuak/2004/El_Euskera_Arcaico_Exte nsion_y_Parentescos.pdf Es interesante e incluso divertido en la parte que enumera unas cuantas teorias locas que se han llegado a plantear para emparentar el Euskera. -Wikipedia (sección de lingüística en ingles y en castellano, muy completas) -‘’Elementary Cryptanalysis, a mathematical approach’’, de Abraham Sinkov, Mathematical Asociation of America MAA, New mathematical library. GRAFICOS: Frecuencias para los seis idiomas: CASTELLANO: Texto literario ambientado en el extranjero 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 A B C D E F G H I J K L M N Ñ O P Q R S T U V W X Y Z CATALAN: Texto de la Generalitat 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 A B C D E F G H I J K L M N Ñ O P Q R S T U V W X Y Z GALEGO: Estatutos de asociación forestal 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 A B C D E F G H I J K L M N Ñ O P Q R S T U V W X Y Z ITALIANO: Análisis ecónomico 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 A B C D E F G H I J K L M N Ñ O P Q R S T U V W X Y Z PORTUGES: Texto de psicología 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 A B C D E F G H I J K L M N Ñ O P Q R S T U V W X Y Z EUSKERA: Texto sobre los papeles de Salamanca 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 A B C D E F G H I J K L M N Ñ O P Q R S T U V W X Y Z S.I. teniendo en cuenta las ortografias S.I. con todas las letras S.I. de vocales + Y ES G PO R TU IT AL IA N O O AL EG G 5 4 3 2 1 ES G R TU PO AL IA N O IT G AL EG O A EU SK ER AL À TU R PO C AT G ES O N IT AL IA O AL EG G S KE R A 0 EU AT AL À A S.I. de las consonantes excepto Y 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 C EU SK ER AL À C AT G ES PO IT R TU AL E G AL IA N O G O A 2,5 2 1,5 1 0,5 0 EU SK ER C AT AL À 6 5 4 3 2 1 0