OBTENCIÓN Y COMPARACÍON DE FRECUENCIAS RELATIVAS

Anuncio
INTRODUCCIÓN A LA LINGÜÍSTICA
COMPARATIVA Y
OBTENCIÓN Y COMPARACÍON DE
FRECUENCIAS RELATIVAS DE LETRAS
Ander Martinez de Albeniz Ausin
Introducción:
La estadística, especialmente desde el desarrollo del cálculo numérico ha sido
una gran ayuda para la lingüística en el estudio de la genética de los idiomas y la
relación entre estos.
Todos sabemos que el castellano desciende del latín, pero ¿Como lo
sabemos? No es una pregunta muy difícil, seguramente tomando un texto en latín nos
sería relativamente sencillo encontrarle cierto sentido e incluso traducirlo parcialmente
al castellano, diríamos que nos basaríamos en un contraste intuitivo basado en el
conocimiento que tenemos del castellano, esto sería una especie de comparación
estadística, vemos ‘’demasiadas’’ coincidencias para que sea una coincidencia.
Pero como saber si un idioma es realmente descendiente directo de otro o
simplemente ha sido contaminado en cierto grado pero en esencia guarda una raíz
totalmente ajena al digamos ‘’padre putativo’’. Digamos que tenemos un niño que se
parece a la madre pero no al padre, como podemos saber si no es hijo del butanero?
Este sería el punto débil del método comparativo en lingüística, por mucho que
se parezca el castellano al latín la mejor prueba de su parentesco resultan los datos
históricos sobre la ocupación de la península por el Imperio Romano, los textos en
latín escritos en la península misma y encontrados en numerosos lugares etc.
Pero que sucede si un idioma no dispone de registros lo suficientemente
antiguos para compararlo históricamente con otro en un estadio antiguo? Pues
simplemente que el método estadístico gana mucho valor al ser una de las pocas
herramientas combinada con la paleo-lingüística y la arqueología para aventurarse en
el brumoso mundo de los árboles genealógicos de los idiomas.
La paleo-lingüística mediante una serie de suposiciones sobre la evolución de
los fonemas de un idioma a partir de su versión escrita más antigua disponible es
capaz de reproducir la sonoridad y ciertas reglas de un idioma en un estadio anterior e
incluso descifrar inscripciones ininteligibles mediante otros métodos, digamos que
puede sugerir un proto-lenguaje para un idioma que no dispone de registros escritos
antiguos a fin de mediante la comparación con otros idiomas que si posean escrituras
antiguas o con otros proto-lenguajes sugerir hipótesis. La veracidad de esta hipótesis
dependerá de lo acertadas o no que hayan sido nuestras suposiciones a la hora de
realizar el proto-lenguaje que dependerá en parte de lo que hayamos pretendido
retroceder en el tiempo con dicho idioma, como se ve es todo un castillo de naipes que
se puede venir abajo cuando menos lo esperemos. Ese es uno de los motivos
principales de que idiomas aislados y de alfabetización tardía como el Euskera,
Buruchaski, Ainu, Yeniseiko… se resistan a ser emparentados, existen teorías pero
todas se han construido con tantas hipótesis que no se pueden afirmar como axiomas.
Aunque los citados idiomas no hayan sido emparentados estas técnicas de
comparación en otros casos han verificado teorías que a priori nadie daría por
verdaderas.
Agárrense porque estos métodos hacen que podamos asegurar que:
¡El Castellano y el Ruso son parientes!
A priori nadie lo diría, dos idiomas geográficamente tan alejados, hablados por
culturas un tanto dispares y formalmente indescifrables el uno para el otro son una
especie de primos lejanos. De hecho la teoría que afirma esta relación supuso toda
una revolución para la lingüística cuando Sir William Jones la formulo en 1788 y que
más tarde se comprobaría gracias a la lingüística histórica o comparativa.
Los lingüistas afirman que entre el año 3000 antes de cristo y el 2000 a.C una
lengua hablada en el caucaso se expandió por Europa y el sub-continente indio siendo
esta lengua que se llama indoeropeo, la madre del sánscrito (lenguaje sagrado de la
india del que por suerte conserva escritos), griego, latín, lenguas germánicas (de
donde vendrán las lenguas inglesa, alemana, noruega…), lenguas eslavas, lenguas
celtas, lenguas iranias… Así la lingüística ha sido capaz de relacionar en un mismo
nodo la práctica totalidad de idiomas hablados actualmente en Europa así como
algunas lenguas extintas, excepción hecha del Húngaro, el Fines, varios idiomas
hablados en la zona de Georgia, el Euskera y el Etrusco.
Por la misma vía también se han desentrañado numerosos misterios
lingüísticos más. Hasta clasificar los idiomas en familias algunas de las cuales se
muestran en el siguiente mapa (cortesía de Wikipedia):
Euskera
¿Pero, a la hora de comparar dos idiomas como sabemos si estamos
comparándolos bien? Si comparamos una lista de diez palabras entre dos lenguajes y
por casualidad una de ellas es un préstamo de otro idioma estaremos introduciendo un
sesgo bastante importante en nuestra estimación. Otro problema es que teniendo los
idiomas miles de palabras diferentes con total seguridad podemos afirmar que
tomados dos idiomas totalmente dispares encontraremos unas cuantas palabras
iguales y de diferente significado e incluso varios pares de palabras iguales con el
mismo significado, seguramente monosílabos o bisílabos. Por ello no nos debemos
dejar llevar por la euforia si encontramos que los indios fueginos llaman Dar Vader a
un demonio del bosque (exagerando un poco), al fin y al cabo el repertorio fonético
humano no es ilimitado!
En vistas a escoger las palabras más adecuadas para la comparación surgió
en el siglo veinte la conocida como la lista Swadesh lista de 100 palabras (también
existe una versión más larga y existen otras listas). Estas palabras por lo básico de su
significado se creen más estables, constituyentes de un núcleo cuasi-permanente del
idioma, en ella encontramos términos familiares, nombres de elementos de la
naturaleza etc. Se ha estimado que el 86% de las palabras de este vocabulario básico
cambia cada mil años, lo cual nos da una idea de cuan atrás nos permite retroceder, a
continuación se muestra parte de la lista Swadesh con sus términos en ingles,
castellano y vasco modernos:
INGLES
I, me
CASTELLANO Yo, me
EUSKERA
Ni
You
Tu
Zu
We
This
Nosotros Esto
Gu
Hau
That
Eso
hori
Who
Quien
Nor
What
Que
Zer
Name
Nombre
Izen
Knee
Rodilla
Belaun
Grease
Grasa
Gantz
Father
Padre
Aita
One
Uno
Bat
Earth
Tierra
Lur
Red
Rojo
Gorri
New
Nuevo
Berri
To give
Dar
Eman
Big
Grande
Handi
Many
Muchos
Asko
Two
Dos
Bi
Seed
Semilla
Hazi
Person
Not
Persona No
Pertsona Ez
Hot
Caliente
Bero
Night
Noche
Gau
Woman
To sit
Feather
Mujer
Sentarse Pluma
Emakume Eseri
Luma
To hear
Smoke
Escuchar Humo
Entzun
Ke
Long
Largo
Luze
Breasts
Pechos
Titiak
A continuación se realiza una comparación no mediante palabras de la lista de
Swadesh sino mediante las letras del alfabeto, más bien los sonidos que representan
en seis idiomas que son el Castellano, Portugués, Catalán, Vasco, Gallego e Italiano,
estos idiomas ortográficamente tienen ciertas similitudes ya que todos ellos
representan cada sonido de una forma similar luego comparando las frecuencias de
las letras podremos de cierta forma comparar la sonoridad de lo idiomas y así
establecer si a priori se puede afirmar que el castellano es más próximo a cualquiera
de los otros idiomas que al Euskera y de tal forma suponer que no deriva del latín
como el resto de idiomas de la muestra.
COMPARACIÓN DE FRECUENCIAS DE LETRAS:
Con el objetivo de comprobar de una forma sencilla el parecido sonoro de
varias lenguas se me ocurrió que podría realizar un programa que tomando un texto
con más de 2500 caracteres compase las frecuencias relativas de algunos idiomas
para establecer su grado de parentesco de una forma no muy científica quizá pero que
sirva de primera aproximación. Para ello he tomado cinco idiomas lingüísticamente
emparentados y de relación comprobada como son el gallego, el catalán, el italiano, el
castellano y el portugués y por otro lado he analizado el euskera. He comparado las
diferencias cuadradas de las frecuencias relativas por letra de los idiomas portugués,
catalán, gallego y vasco con las del castellano.
Para obtener las frecuencias de los idiomas primeramente elaboré un programa
en lenguaje Fortran que lee y cuenta la cantidad de letras en un archivo de texto, al
hacerlo me encontré con varios problemas inherentes al lenguaje de programación
como que Fortran no acepta caracteres que no sean letras o números como variable
carácter lo que me obligo a buscar otro lenguaje de programación más apto, como es
C, este lenguaje permite que todos los caracteres del estandar ASCII puedan utilizarse
como variables carácter, pero como no me ha dado tiempo más que a aprender lo
básico de C he tenido que realizar el programa en Fortran. Esto me ha obligado a
perder bastante tiempo eliminando los caracteres no deseados con ayuda de la
bendita función ‘’buscar y reemplazar’’ de Word antes de poder analizar el cada texto.
Una vez calculadas las frecuencias de los cinco idiomas las pasé a Excel
donde he sacado los grafiquillos que vienen al final.
Dada la frecuencia de la letra i-esima fi(idioma) he calculado las siguientes
diferencias con respecto de las frecuencias del castellano.
Δi(idioma)= (fi(idioma)- fi(castellano))2/ fi(castellano)
La suma de estás diferencias para cada idioma me han dado unos índices que
he llamado Indices de Similitud I.S.. He calculado varios índices, por un lado, el índice
teniendo en cuenta todas las frecuencias, por otro lado I.S. que tienen solo en cuenta
las letras que no son conflictivas (por homofonía, por ausencia clara…), el I.S. de las
vocales más la Y y el I.S. de las consonantes menos la Y. Estos I.S. se presentan en
la siguiente tabla:
S.I. global
S.I. representativo
S.I. volales + Y
S.I consonantes - Y
Català
Galego
Portuges
Italiano
Euskera
1,38227
1,04142
0,41608
0,96619
1,49982
0,90732
0,34014
1,15967
1,32078
0,93439
0,23464
1,08613
1,55615
1,21557
0,59835
0,95780
4,94524
1,99889
0,41452
4,53072
NOTA: las letras conflictivas para el S.I. representativo son K, W, X, Ñ, H, B, V, Q, C;
Nótese que la elección de los idiomas no ha sido al azar, todos estos idiomas
comparten cierta característica en su ortografía, en general los sonidos se representan
con las mismas letras, esto es, los fonemas se representan de la misma forma. Para
comparar el inglés por ejemplo con el castellano habría sido necesario escribir otro
programa que midiese las frecuencias de los fonemas en cada idioma, este programa
sería más general y más útil pero hubiese requerido más tiempo y en estas fechas no
abunda. A la hora de adaptar el texto en portugués y el catalán se ha cambiado la ç
por la s y en general se han cambiado las letras con acentos de diverso tipo por sus
equivalentes no acentuadas.
De los datos S.I. obtenidos podemos concluir que en general el vasco tiene
menor nivel de parentesco con el castellano que otros idiomas de su entorno
comprobando lo que ya sabiamos y la hipótesis inicial.
Las frecuencias se han sacado de los siguientes textos algunos buscados mediante
google:
CASTELLANO Un relato corto del autor de 34258 letras válidas
CATALÀ
Un documento de la generalitat de catalunya ‘‘Diari Oficial de la
Generalitat de Catalunya’’
extraido de:
http://www.csub.scs.es/cat/proveidors/arxius/bellvitge_anuncis_do9.doc
GALEGO
PORTUGES
ITALIANO
EUSKERA
Con 3421 letras validas
Los estatutos de una asociación forestal gallega
‘’ ESTATUTOS DO GRUPO GALEGO DE APOIO Á CERTIFICACIÓN
FORESTAL DO FSC ‘’
De la dirección: http://www.fscspain.org/documentos/ESTATUTOS%20DO%20GRUPO%20DE
%20APOIO%20GALEGO%20PARA%20A%20CERTIFICACI
%D3N%20FORESTAL%20F.doc
Con 7007 letras validas
Un trabajo de una amiga portuguesa estudiante de psicología
de 11824 letras
Un texto sobre economía italiano
‘’ L’insuccesso scolastico: un approccio di tipo economico
di Roberto Fini ‘’
De la dirección: http://www.univirtual.it/varie/05042003.doc
Con 12599 letras
Textos sobre los papeles de salamanca del gobierno vasco
‘’Jaurlaritzarenak diren Salamancako agirien eskaera eta errepublika
garaiko Eusko Jaurlaritzaren aldarrikapenak’’
De la dirección:
http://www.eaj-pnv.com/documentos/documentos/5197_e.doc
Con 13864 letras validas
Bibliografia y fuentes:
-‘’El Euskera Arcaico’’ de Luis Nuñez Astrain, Editorial Hiru del libro aunque acabo de
descubrir que esta disponible en
http://www.erabili.com/zer_berri/muinetik/dokumentuak/2004/El_Euskera_Arcaico_Exte
nsion_y_Parentescos.pdf
Es interesante e incluso divertido en la parte que enumera unas cuantas teorias locas
que se han llegado a plantear para emparentar el Euskera.
-Wikipedia (sección de lingüística en ingles y en castellano, muy completas)
-‘’Elementary Cryptanalysis, a mathematical approach’’, de Abraham Sinkov,
Mathematical Asociation of America MAA, New mathematical library.
GRAFICOS:
Frecuencias para los seis idiomas:
CASTELLANO: Texto literario ambientado en el extranjero
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
A B C D E F G H
I
J K L M N Ñ O P Q R S T U V W X Y Z
CATALAN: Texto de la Generalitat
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
A B C D E F G H I
J K L M N Ñ O P Q R S T U V W X Y Z
GALEGO: Estatutos de asociación forestal
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
A B C D E F G H I
J K L M N Ñ O P Q R S T U V W X Y Z
ITALIANO: Análisis ecónomico
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
A B C D E F G H
I
J K L M N Ñ O P Q R S T U V W X Y Z
PORTUGES: Texto de psicología
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
A B C D E F G H
I
J K L M N Ñ O P Q R S T U V W X Y Z
EUSKERA: Texto sobre los papeles de Salamanca
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
A B C D E F G H I
J K L M N Ñ O P Q R S T U V W X Y Z
S.I. teniendo en cuenta las ortografias
S.I. con todas las letras
S.I. de vocales + Y
ES
G
PO
R
TU
IT
AL
IA
N
O
O
AL
EG
G
5
4
3
2
1
ES
G
R
TU
PO
AL
IA
N
O
IT
G
AL
EG
O
A
EU
SK
ER
AL
À
TU
R
PO
C
AT
G
ES
O
N
IT
AL
IA
O
AL
EG
G
S
KE
R
A
0
EU
AT
AL
À
A
S.I. de las consonantes excepto Y
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
C
EU
SK
ER
AL
À
C
AT
G
ES
PO
IT
R
TU
AL
E
G
AL
IA
N
O
G
O
A
2,5
2
1,5
1
0,5
0
EU
SK
ER
C
AT
AL
À
6
5
4
3
2
1
0
Descargar