LOS MÉTODOS ESTADÍSTICOS

Anuncio
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
LOS MÉTODOS ESTADÍSTICOS
Y LA INVESTIGACIÓN LINGÜÍSTICA
BREVE RECORRIDO HISTÓRICO
Los recursos matemáticos de aplicación más generalizada a la investigación en
cualquier campo de las ciencias, incluidas las sociales, son los que proceden de la
Estadística y del Cálculo de Probabilidades. Cuando se habla coloquialmente de
estadística, se suele pensar en una relación de datos numéricos presentada de forma
ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe
sobre el término por influencia del entorno. Diariamente se nos ofrecen informaciones
sobre accidentes de tráfico, índices de crecimiento de población, turismo, tendencias
políticas... Es al entrar en mundos más específicos de la Ciencias Sociales como la
Medicina, Biología o Psicología, cuando se empieza a percibir la Estadística como un
instrumento que da luz y produce valiosos resultados en estudios cuyos movimientos y
relaciones, por su variabilidad intrínseca, no pueden ser abordados desde la perspectiva
de las leyes deterministas.
Cada manual sobre Ciencia Estadística incorpora una definición que varía en
función del tipo de lector al que se dirige, pero todas coinciden en capacitar a la
disciplina para registrar hechos y expresarlos matemáticamente, para investigar las
relaciones que existen entre ellos aplicando principios emanados de la teoría de la
probabilidad y para establecer, si es posible, el alcance de las leyes que regulan tales
relaciones con la intención de realizar inferencias, ayudar a la toma de decisiones y, en
su caso, formular predicciones.
La Estadística mide y analiza los sucesos calificables de casuales para llegar a
explicar los principios por los cuales se rigen. Los eventos en cuya descripción se
utilizan medidas y conceptos estadísticos se denominan eventos estadísticos. Las leyes
1
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
que expresan las relaciones exactas entre sucesos, propiedades o magnitudes parcial o
totalmente estadísticas se llaman leyes estadísticas. Su grado de fiabilidad se incrementa
en la medida que aumenta el número de elementos sobre los que operan.
Desde los comienzos de la civilización han existido formas sencillas de
estadística. Así se pueden calificar las representaciones gráficas y símbolos aparecidos
en rocas y paredes de cuevas de la isla de Cerdeña, pertenecientes a la cultura Nuraga,
que servían para llevar el control del ganado y la caza. De la antigüedad egipcia se
conservan documentos acerca de movimientos poblacionales y censos, todo bajo la
advocación de Safnkit, diosa de los libros y las cuentas.
Hacia el año 3000 a. C. los babilonios usaban pequeñas tablillas de arcilla para
recopilar datos tabulados sobre producción agrícola. China posee censos anteriores al
2000 a. C. En la Biblia se localizan varios recuentos de población, en el Libro de los
Números y en el Libro de las Crónicas:
“Locutusque est Dominus ad Moysen in deserto Sinai dicens: ‘Numera filios
Levi per domos patrum suorum et familias omnem masculum ab uno mense et
supra’.Numeravit eos Moyses, ut praeceperat Dominus, et inventi sunt filii Levi
per nomina sua Gerson et Caath et Merari. Haec sunt nomina filiorum Gerson
secundum familias suas: Lobni et Semei; filii Caath secundum familias suas:
Amram et Isaar, Hebron et Oziel...”. [COLUNGA, A.1994:108].
Los griegos también realizan censos cuya información sirve para cobrar
impuestos. A partir del Imperio Romano los gobiernos recopilan, de forma más o menos
exhaustiva según época y talante, datos sobre población, superficie y renta de los
territorios bajo su control. En 1662 aparece el primer estudio estadístico notable de
población titulado Observations on the London Bills of Mortality. Un trabajo semejante
sobre las defunciones contabilizadas en la ciudad de Breslau (Alemania), realizado en
1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera
tabla de mortalidad [A.H.E.P.E. 2002].
Los análisis estadísticos modernos se inician en el siglo XVII. Matemáticos
como Pierre Fermat [FERMAT, P. 1894-1912] o Blaise Pascal [PASCAL. 1819], elaboran las
primeras construcciones matemáticas probabilísticas a partir de aspectos relacionados
con los juegos de azar que servirán de base para trabajos posteriores1.
1
Pueden encontrarse ediciones más modernas de estos autores. Véanse TANNERY, P. [1999] y
TORRECILLAS, J. [1999], en relación a Fermat y MARTÍNEZ, R. [1999] sobre Pascal.
2
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
El origen de la ciencia probabilística se fija en 1654 a partir de la
correspondencia mantenida entre ambos [TURNBULL S. 1956:75-178] en
resolución del llamado “problema de los puntos”.
torno a la
El Cálculo de Probabilidades y la
Estadística se consolidan como disciplinas independientes entre la segunda mitad del
siglo XVII y los primeros años del siglo XVIII. Es en este siglo cuando Godofredo
Achenwall, profesor de Derecho Publico en la Universidad de Gottinga, utiliza por vez
primera el término estadística como sustantivo etimológicamente derivado de status en
su obra Geschichte der heutigen vornehmsten Europaeischen Staaten im Grundrisse
[ACHENWALL, G.1749]
y lo aplica al “conocimiento profundizado de la situación, o
status, relativa y comparada de cada Estado”. La Estadística produce, pues, inventarios,
que describen cuantitativamente las cosas notables de un estado, pero amplía
rápidamente su esfera de estudio al campo de los seguros marítimos y de la ciencia.
A lo largo del siglo XIX las compañías aseguradoras, que exigen un cálculo
exacto de riesgos para ajustar el monto de sus pólizas, y la generalización del método
científico, que precisa de un tratamiento más riguroso de sus datos para evitar la
ambigüedad de las descripciones verbales y facilitar las comparaciones, estimulan la
búsqueda de fórmulas capaces para trasladar cualquier clase de información a valores
numéricos equivalentes.
Desde 1738 la incorporan a sus trabajos de física hombres importantes como
Bernoulli [BERNOULLI Society. 1987] o Maxwell [MAXWELL, J.C. 1998], que escribe en
1854:
“E'ben noto che la conoscenza si basa sulle regole del corretto ragionamento.
Tali regole sono, o dovrebbero essere, contenute nella Logica; ma quest'
ultima
tratta soltanto cose che sono certe, impossibili o completamente dubbie,
nessuna delle quali (per fortuna) ci interessa. Perciò la vera logica di questo
mondo è il calcolo delle probabilità, che tiene conto del concetto di probabilità
che è, o dovrebbe essere, nella mente di ogni uomo ragionevole”. [CERASOLI,
M. 1995:39-41].
Son ellos quienes van a constatar la existencia real de las leyes estadísticas y
contribuirán de manera fundamental a su evolución. Posteriormente Boltzmann [COHEN,
E. G. D. 1973]
y Gibbs [GIBBS SYMPOSIUM. 1990] generalizan su empleo convenciendo a
los escépticos de su utilidad en contextos experimentales. Bernoulli, por ejemplo,
trabaja en la distribución que lleva su nombre y proporciona la primera solución al
3
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
problema de estimar una cantidad desconocida a partir de un conjunto de mediciones de
su valor que, por el error experimental, presentan variabilidad. Será pionero en la
aplicación del cálculo infinitesimal al cálculo de probabilidades. Maxwell y Boltzmann
desarrollan ecuaciones propias...
A los estudios sobre la lengua llega más tarde y su introducción promueve
avances considerables. Sugiere la posibilidad de establecer en el habla determinaciones
cuantitativas y dota a los investigadores de un instrumento de análisis indispensable
para fijar los rasgos característicos de ciertos fenómenos lingüísticos y sus relaciones.
Permite demostrar que el lenguaje corriente responde en muchos aspectos a mecanismos
que se ajustan a
reglas fijas destinadas a conseguir la correcta transmisión de
información. Esto resulta esencial para el desarrollo de la teoría de la información y los
lenguajes computacionales. Weaver [WEAVER.1949] estableció que la palabra
información en la teoría de la comunicación hace más referencia a lo que se puede decir
que a lo que efectivamente se dice2, esto es, le interesa más la situación antes de la
recepción del símbolo que el símbolo mismo.
La información es una medida de la libertad de selección cuando se escoge un
mensaje. Se pueden abordar, así, cuestiones de estilo, descubrir la longitud media y la
frecuencia de ciertas palabras o establecer la probabilidad de que aparezca una sílaba en
el seno de una lengua. Por ejemplo, en español, la información que sigue a la letra “q”
es muy limitada puesto que hay una mínima libertad de elección en lo que viene
después (casi siempre
una “u”). El concepto de información se aplica no sólo a
mensajes individuales, que sería más bien sentido, sino a la situación en tanto que un
todo. Dice Zipf en 1949:
“De todos los actos de la conducta humana, solo la corriente del habla parece
constituir un continuo que, con una mínima distorsión, se puede aislar del
contexto de la conducta y, al mismo tiempo, rotular y estudiar en forma
estadística con un alto grado de exactitud”. [Zipf. 1949].
2
Aquí se tratará más adelante, al tomar el tema de la entropía lingüística.
4
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
El objeto predilecto de esta clase de estudio es la palabra3. Ya en el año 900 a.
C., los estudiosos del Talmud contaban las palabras e ideas de la Tora [MILLER, G. A.
1979:107-108]
para averiguar cuántas veces, y con qué frecuencia, aparecían formas
inusuales. El respeto actual por ellas, consideradas como elementos obvios del lenguaje,
no fue compartido por los antiguos. La escritura griega y la romana no las separaba en
forma coherente. Fue alrededor del siglo X cuando los amanuenses, y con posterioridad
los impresores, se esfuerzan por dar mayor legibilidad a su trabajo y dignifican las
unidades verbales dejando un espacio entre una y otra.
La frecuencia de palabras se asocia generalmente al nombre de Zipf4 por haber
establecido una ley fundamental [ZIPF, G. K. 1949] que afirma que, en cualquier texto, el
producto de la frecuencia de cada palabra por su rango es constante.
George Kinsley Zipf (1902-1950), profesor de Filología en la Universidad de
Harvard, supone que el ser humano trata siempre de minimizar el esfuerzo necesario
para lograr sus objetivos, lo que, en circunstancias donde le es permitido escoger
alternativas, le lleva a inclinarse por aquellos procesos que resultan en el menor
consumo de energía. Esto significa la existencia del principio del menor esfuerzo [ZIPF,
G. K. 1949]
en la conducta humana y hace posible que, casi siempre, sus patrones de
actuación puedan ser analizados de acuerdo con este principio. De igual modo que
cuando busca la unión de dos puntos tiende hacia la línea recta, cuando escribe, cuando
habla, tiende hacia la mayor economía de palabras.
Basándose en estas observaciones Zipf formula su ley que relaciona frecuencia y
rango. El procedimiento para cuantificar ambos conceptos [BRAUN, E. 1996] empieza
por contar las veces que se repite cada palabra en un texto. Obtiene el indicador
frecuencia dividiendo el resultado de cada recuento entre el total de palabras del texto.
Se ordenan ahora todos los términos siguiendo el orden decreciente de las frecuencias
resultantes. Se denomina rango de la palabra al lugar que ocupa cada término en ese
listado. Si en un texto la palabra de más frecuencia es “de”, en la lista ocupará el primer
lugar y, por tanto, tendrá rango uno. Si el artículo “el” tiene el segundo valor de
frecuencia ocupará el segundo lugar en la lista y tendrá rango dos...
Del estudio de diferentes textos en varios idiomas deduce la existencia de una
3
Es corriente distinguir entre palabras y unidades léxicas. Una unidad léxica es una entrada única en el
diccionario, bajo la cual se agrupan varias palabras relacionadas.
4
Con anterioridad a Zipf ya se había trabajado con frecuencias e incluso rangos. LÓPEZ MATEO, V.
[1998:31-38] hace una interesante reseña histórica sobre léxico-estadística que inicia en 1987 con
Kärding y su búsqueda de las palabras más usuales del alemán.
5
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
relación entre frecuencia y rango. Cuanto mayor es el rango menor es la frecuencia
con la que aparece en el texto. Un rango alto se sitúa en la parte baja de la lista y eso
significa menor frecuencia. Esta dependencia actúa en forma inversa porque disminuye
a medida que el rango aumenta. Si f denota frecuencia y r rango, f depende de r
como 1/r. Este resultado se llama ley de Zipf de rango-frecuencia5, más generalmente
expresada del siguiente modo:
rxf=C
donde,
r
es el orden de la palabra en la lista (rango)
f
es la frecuencia
C
es la constante para el texto
La tabla 1.2 - 1, tomada de Marcus, Nicolau y Staty [MARCUS. 1978:238] que
supone un texto de 60 000 palabras, explica claramente la fórmula.
Rango
10
Tabla 1.2 – 1
Frecuencia
2 653
Rango x frecuencia
26 530
100
265
26 530
1 000
26
26 530
10 000
2
26 530
29 000
1
26 530
Esta relación es la misma que se obtiene para otros fenómenos físicos y naturales
y que recibe el nombre de ley de potencias 1/f. En este caso, hablando en términos
matemáticos, potencia -1.
De acuerdo con Zipf se puede predecir la frecuencia de una palabra partir de su
rango usando la fórmula [GALICIA HARO, S. 2000:Cap.1.3]
frecuencia = k x rango 5
También se conoce como “ley de Estoup-Zipf” ya que, al parecer había sido señalada por Estoup en
1916. Zipf se habría limitado a confirmarla [MARCUS, NICOLAU y STATI. 1978:237].
6
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
donde
ky
son constantes empíricamente determinadas.
La ley de Zipf vincula la frecuencia de ocurrencia de una palabra y el número
total de palabras conocidas o utilizadas; esto es, la amplitud de vocabulario. Cuanto
menor es el vocabulario, mayor será la frecuencia de las palabras situadas en los
primeros rangos.
Este hecho va a ser tenido muy en cuenta en la elaboración del modelo
metodológico alternativo para la determinación de los coeficientes de disponibilidad
léxica que desarrolla esta Tesis.
Otro ejemplo puede ilustrar el contenido de la teoría. Supóngase un buen escritor
con un vocabulario activo cercano a las 100 000 palabras. Los términos que ocupen los
primeros 10 lugares en la lista recogida de sus textos supondrán alrededor de 25% del
total contabilizado, es decir, la frecuencia de estas 10 palabras es de 0.25.
En contraste, en un texto periodístico de unas 10 000 palabras el porcentaje
apenas crece al 30%. Esto se debe principalmente a que el escritor no podrá evitar el uso
de palabras como “de”, “el”, “y”, “a”... que, generalmente, ocupan los primeros rangos
en cualquier texto.
La distribución de palabras, en varios lenguajes naturales, sigue la ley de Zipf
[BAAYEN, H. 1992]
siempre que el estudio se realice a partir de una muestra
suficientemente amplia.
Después de Zipf la lingüística moderna ha acumulado una enorme cantidad de
material procedente de la observación y descripción de hechos, relaciones, leyes y
comparaciones que ha desbordado la capacidad de tratamiento de los problemas por
métodos tradicionales y ha elevado a objeto de culto, de forma a veces temeraria, la
metodología basada en modelos estadísticos, que, supuestamente, proporcionan un
amplio caudal de interpretaciones
a cambio de no demasiada exigencia de
conocimientos numéricos.
Shannon [SHANNON. 1949; 1981] desde la teoría matemática de la comunicación,
junto a la demanda de nuevos diccionarios más cercanos a la realidad y necesidades de
una sociedad cada vez más global, contribuyen en gran manera a la difusión y
conocimiento de experiencias, ensayos y formulaciones relacionadas con la estructura y
enseñanza de las lenguas y la transmisión de datos.
Los nombres de Simón de Laplace [LAPLACE. 1812; 1825], Bayes [BAYES. 1908],
7
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
Markov [MARKOV. 1916] o Sharman [SHARMAN. 1989] entran de lleno en el ámbito
lingüístico donde el auge del ordenador y la oferta de potentes programas informáticos,
capaces de dar respuesta
en segundos a complicados algoritmos matemáticos,
colaboran a su desarrollo y favorecen la aparición de nuevas disciplinas. Despegan la
lingüística estadística y la lingüística matemática, que, a su vez, sirven de apoyatura
para la solución nuevos problemas relacionados, a modo de ejemplo, con la indización y
localización en Internet.
Ni que decir tiene que la mencionada “comodidad” es sólo aparente. Es grande
el riesgo de incurrir en desviaciones de bulto por aplicar fórmulas cuyo fundamento
teórico no es dominado por el investigador que las utiliza.
Las consecuencias de estas actuaciones son construcciones artificiosas y
estériles o, y ello es peor, engañosas. Aquí se entiende la estadística como un auxiliar
útil para la lengua.
La transformación de conceptos verbales en aspectos cuantitativos se debe hacer
sólo en función de las necesidades metodológicas y con cuidado y respeto extremos
para evitar interpretaciones abusivas que no se deriven de forma rigurosa y necesaria de
los datos aducidos, o que se fuercen éstos para utilizarlos en algoritmos no aplicables al
tipo al que corresponden.
Así ocurre, por ejemplo, cuando se opera con datos ordinales o nominales como
si de medidas de intervalo se tratasen, o se aplican estadísticos paramétricos sobre
muestras y poblaciones no paramétricas.
Debe tenerse en cuenta que:
“La clase de medida que se obtiene es una función de las reglas bajo las
cuales fueron asignados los números. Las operaciones y relaciones en la
obtención de puntajes; las manipulaciones y operaciones deben ser las de la
estructura numérica a la que la medición es isomórfica. [...] Las mediciones
nominales y ordinales son las realizadas más comúnmente en las ciencias de
la conducta. Los datos medidos por escalas nominales y ordinales deben
analizarse por métodos no paramétricos. Los datos medidos con escalas de
intervalo o de de proporción deben analizarse por métodos paramétricos si los
supuestos del modelo estadístico paramétrico son sostenibles”. [SIEGEL.
1983:50]
La Tabla 1.2 - 2, también tomada de Siegel [SIEGEL. 1983:51], define las
relaciones que se admiten dentro de cada categoría y muestra en esquema las
operaciones permitidas para cada rango de datos.
8
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
De acuerdo con ella no es procedente, por ejemplo, calcular una media
geométrica a partir de datos de intervalo. De igual manera determinar una media natural
cuando se opera con medidas de proporción, que admiten la media geométrica, puede
significar una perdida de información adicional valiosa para el proyecto en que se
incardina la estimación.
Escala
Nominal
Ordinal
Intervalo
Proporci
ón
Tabla 1.2 - 2
Relaciones definidas
Estadísticos
apropiados
Equivalencia
Moda
Frecuencia
Coeficiente
de
contingencia
Equivalencia
Mediana
De mayor a menor
Percentiles
Spearman rs
Kendall r
Equivalencia
Media
De mayor a menor
Desviación estándar
Proporción conocida de un Correlación
del
intervalo a cualquier otro
momento-producto de
Pearson.
Correlación
del
múltiple
momento
producto
Equivalencia
Media geométrica
De mayor a menor
Coeficiente
de
Proporción conocida de un variación
intervalo a cualquier otro
Proporción conocida de un
valor de la escala a
cualquier otro
Pruebas
apropiadas
Pruebas
estadísticas no
paramétricas
Pruebas
estadísticas
paramétricas y
no
paramétricas.
Otra deficiencia de naturaleza más profunda puede emerger si las ecuaciones
diseñadas no tienen su origen y fundamento en propiedades objetivamente extraídas de
la organización lingüística misma. Se pueden aplicar formulaciones de carácter
estrictamente teórico a partir de elementos empíricos, pero siempre que éstos se infieran
matemáticamente de fenómenos de la lengua, sin forzar unas u otros en interés de la
investigación.
Los experimentos, a su vez, deben desarrollarse con arreglo a las condiciones
9
ANTONIO GARCÍA MEGÍA – DOCTOR EN FILOLOGÍA HISPÁNICA – ALMERÍA
[email protected]
impuestas por los algoritmos. Si no son significativos de esta manera, conviene
delimitar con exactitud las diferencias que se observan para comprobar eventualmente
por vía empírica la validez del cálculo en circunstancias más generales respecto de
aquellas en que se estableció, homologando, si éste es el caso, las nuevas condiciones
como una investigación teórica más.
Tampoco se puede utilizar la forma matemática para dar imagen de cientificidad
a las conclusiones derivadas de una determinada formulación universalmente validada y
reconocida por la comunidad científica, cuando se han sustituido, en la totalidad o en
parte, los factores y elementos constituyentes del cálculo, supuestamente asépticos y
objetivos, por apreciaciones y mediciones subjetivas o no objetivadas.
10
Descargar