Engañando a Gauss,Cuando los ceros de la p sí importan,Las

Anuncio
Engañando a Gauss
No cabe duda de que Gauss y su distribución con forma de campana son la
base para la realización de gran parte de las pruebas de contraste de
hipótesis e inferencia de datos en estadística. Por eso, a nadie le llama
la atención que muchas pruebas solo puedan realizarse cuando la variable
que se estudia sigue una distribución normal.
Por ejemplo, si queremos comparar
tienen que ser independientes, seguir
varianza similar (homocedasticidad).
comparaciones, estudios de correlación,
las medias de dos muestras, éstas
una distribución normal y tener una
Lo mismo ocurre para muchas otras
etc.
Cuando tenemos la mala suerte de que nuestra muestra no sigue una
distribución normal debemos recurrir a las pruebas de contraste no
paramétricas. Estas pruebas son igual de serias y rigurosas que las
paramétricas, pero tienen el inconveniente de que son mucho más
conservadoras, en el sentido de que cuesta más alcanzar el nivel de
significación estadística necesario para poder rechazar la hipótesis nula.
Podría darse el caso de que no obtengamos significación estadística con la
prueba no paramétrica mientras que, si pudiésemos aplicarla, si podríamos
obtenerla con la paramétrica.
Para evitar que pueda pasarnos esto, a alguien se le debió ocurrir que
podemos transformar los datos de tal forma que los nuevos datos
transformados sí sigan la distribución normal. Esto, que parece un truco
sucio, es perfectamente lícito, siempre en cuanto tengamos en cuenta que
luego tendremos que hacer la transformación inversa para interpretar
correctamente los resultados.
Hay diversos métodos de transformación, aunque quizás el más utilizado
es el de la transformación logarítmica.
Pensemos un momento en los logaritmos decimales (base 10). En la escala
logarítmica hay la misma distancia entre 1 y 10 que entre 10 y 100 y que
entre 100 y 1000. ¿Qué quiere decir esto?. Pues que si transformamos cada
variable en su logaritmo, los valores entre 1 y 10 se expandirán, mientras
que los más altos se comprimirán. Por eso la transformación logarítmica es
útil para transformar distribuciones con sesgo positivo (con cola más larga
hacia la derecha): la parte izquierda se expandirá, mientras que la derecha
se comprimirá, favoreciendo que la curva resultante se ajuste mejor a una
normal. Solo comentar que, aunque hemos puesto el ejemplo con el logaritmo
decimal, que se entiende mejor, en estadística suele hacerse esta
transformación con logaritmos neperianos o naturales, que tienen por base
el número e, que vale, aproximadamente, 2,7182812.
Esta transformación logarítmica solo vale para números mayores que cero,
aunque si tenemos una distribución con valores negativos podríamos sumar
una constante a cada valor para que fuese mayor que cero antes de calcular
su logaritmo. Cuando la nueva curva se ajusta a la campana se dice que
sigue una distribución lognormal.
En ocasiones, si la distribución está muy sesgada, puede hacerse la
transformación recíproca (1/x), más potente y que produce un efecto similar
a la logarítmica. Otra tercera posibilidad, menos potente que la
logarítmica, es transformar calculando la raíz cuadrada de cada valor.
Cuando el sesgo de la distribución es negativo (cola más larga hacia la
izquierda) nos interesará lo contrario: comprimir la cola de la izquierda y
extender la de la derecha. Si lo pensamos, esto puede hacerse elevando cada
valor al cuadrado o al cubo. Los productos resultantes de los valores
pequeños estarán menos alejados que los resultantes de valores grandes, con
lo que la distribución se parecerá más a una normal.
Así que miramos nuestra distribución, hacemos la transformación que nos
parezca más oportuna y comprobamos si ya es normal. En ese caso, hacemos la
prueba paramétrica para obtener el nivel de significación. Finalmente,
deshacemos la transformación para poder interpretar correctamente los
resultados, aunque en este punto puede haber alguna dificultad.
Si hemos aplicado una transformación logarítmica y hemos obtenido una
media, su antilogaritmo es la media geométrica y no la aritmética. Si se
trata de una diferencia de medias, lo que obtenemos es la razón de medias
geométricas.
Con los intervalos de confianza no hay mayor problema. Podemos
transformar, obtenerlos y deshacer la transformación. La que se muestra
intratable con todo este tipo de transformaciones y antitransformaciones es
la desviación estándar, que no tiene sentido transformar en reverso porque
sus unidades pierden totalmente el sentido de la realidad.
Las transformaciones 1/x y raíz cuadrada permiten recuperar los valores
de las medias y de los intervalos de confianza sin problemas, pero tampoco
pueden hacer nada con las desviaciones estándar.
Comentar, para terminar, que hay otras dos situaciones en que puede ser
útil transformar los datos. Una es cuando las varianzas de las muestras son
diferentes (no hay homocedasticidad). En estos casos puede aplicarse la
logarítmica (si la varianza aumenta en proporción con la media), el
cuadrado (si aumenta en proporción con el cuadrado de la media) o la raíz
cuadrada (si lo hace en proporción con la raíz cuadrada de la media).
La otra situación es cuando queremos forzar que la relación entre las
dos variables sea lineal, como cuando queremos utilizar modelos de
regresión lineal. Claro que estos casos habría que tener algunas otras
consideraciones de cómo afectan las transformaciones a los coeficientes de
regresión. Pero esa es otra historia…
Cuando los ceros de la p sí
importan
Ya sabemos que para contrastar la igualdad de medias de dos muestras que
se distribuyan de forma normal podemos utilizar la prueba de la t de
Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos
medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula
(que es lo que queremos la mayor parte de las veces) y asumimos que las
medias son diferentes.
Este valor de p, también llamado alfa, es totalmente arbitrario y
representa simplemente la probabilidad de que la diferencia observada se
deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos
conformamos con el riesgo de error del 5%, llamado error de tipo I, de
rechazar la hipótesis nula cuando es cierta y la diferencia se debe al
azar.
La cosa se complica un poco más cuando comparamos las medias de más de
dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al
análisis de la varianza (si las muestras se distribuyen de forma normal y
sus varianzas son iguales), que nos proporciona otro valor de p. Una vez
más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias
y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de
esas medias son diferentes entre sí y cuáles no?.
Lo primero que se nos pasa por la cabeza es hacer un contraste con la
prueba de la t de Student tomando las muestras dos a dos. El número de
comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de
muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay
cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así
hasta que nos aburramos.
Sin embargo, si hacemos esto correremos el riesgo de meter la pata,
tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un
poco porqué esto es así.
Al hacer cada contraste, la probabilidad de un significativo es de 0,05
y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20
comparaciones independientes: la probabilidad de que ninguno sea
significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de
0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar
el número de comparaciones y que podemos encontrar una diferencia
falsamente significativa solo por azar.
Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la
probabilidad de que al menos uno sea significativo será de 1-Probabilidad
de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a
0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de
probabilidades de identificar una diferencia como significativa cuando en
realidad no lo es o, dicho de otra forma, de cometer un error de tipo I.
¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra
ayuda con su célebre corrección.
La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos
dicho que es (1-alfa) 20 . Ahora os pido que me creáis si os digo que (1alfa)20 es aproximadamente igual a 1-20xalfa. Luego 0,95 = 1-20alfa. Si
despejamos alfa obtenemos la corrección de Bonferroni:
alfa de cada comparación = alfa general / número de comparaciones.
Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un
valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por
parejas consideraremos que podemos rechazar la hipótesis nula de igualdad
cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones,
el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005.
A esto es a lo que me refiero con lo de la importancia de los ceros de
la p. Cuanto más comparaciones, más ceros tendrá que tener para poder
considerar la diferencia estadísticamente significativa sin aumentar el
riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc
entre varios subgrupos de un ensayo clínico o en los estudios de asociación
genómica que, bajo ese nombre tan elegante, no son más que estudios de
casos y controles camuflados.
Como es fácil comprender, esta corrección penaliza el valor de p y hace
que el contraste sea mucho más conservador en el sentido de no poder
rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue
siendo significativa, la credibilidad de los resultados será mucho mayor.
Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único
en dar una solución para este problema de las comparaciones múltiples.
Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel,
etc y el usar una u otra puede depender únicamente del programa estadístico
de que dispongamos. Pero esa es otra historia…
Las rarezas de los pueblos
pequeños
Recuerdo cuando yo era pequeño e iba al colegio que casi todo el mundo
tenía un pueblo al que irse durante las vacaciones. Claro que eran otros
tiempos y la mayor parte de los niños eran hijos de emigrados recientemente
a la ciudad, así que casi todo el mundo tenía “su pueblo”. Ahora la cosa es
diferente. La mayoría de los niños de los colegios son de la ciudad donde
viven, así que está casi mal visto ser “de pueblo”.
Sin embargo, los pueblos tienen muchas cosas interesantes. Suelen ser,
por ejemplo, lugares más tranquilos y donde se lleva una vida más sana.
Pero, aunque poca gente lo sabe, los pueblos se ven acechados por el azar.
Los pueblos son presa fácil de una cosa llamada ley de los pequeños
números. ¿Sabéis en qué consiste?. Trataremos de explicarlo con un ejemplo.
Cuando yo era residente había un pueblo, cuyo nombre no voy a decir para
no ofender a nadie, del que venían casi todos los traslados de enfermedades
raras. Ignorantes de nosotros, llegamos incluso a especular con la
posibilidad de que la abundante pizarra del lugar fuese radiactiva y
tuviese la culpa de que los habitantes de este pueblo tuviesen
aparentemente una incidencia tan alta de patología tan extraña. Sin
embargo, la explicación es mucho más sencilla y no hace falta recurrir a
ninguna teoría conspiratoria. La culpa es de los pequeños números.
Vamos a suponer que el riesgo de padecer fildulastrosis es del uno por
mil (prevalencia Pv = 0,001). Como todos sabemos, esta enfermedad genética
se debe a una mutación que se produce totalmente al azar, por lo que
presentar o no la enfermedad puede asumirse como un suceso de Bernouilli
que sigue una distribución de probabilidad binomial.
Según la prevalencia que hemos elegido, si vamos recorriendo pueblos
esperaremos encontrar un caso de fildulastrosis por cada 1.000 habitantes.
Si llegamos a un pueblo con 5.000 habitantes y tiene solo un caso en lugar
de cinco, ¿qué diríamos?. Pues seguro que pensaríamos que nos encontramos
ante uno más de los beneficios de la vida del campo, mucho más sana, sin
estrés y en contacto con la naturaleza.
¿Y si llegamos a uno todavía más pequeño, de 1.000 habitantes y vemos
que hay cuatro enfermos?. Siguiendo un razonamiento tan estúpido como el
anterior, diríamos que es sin duda un efecto de la vida en el campo, con
menos controles sanitarios y en contacto con animales de granja y demás
guarrerías de la naturaleza.
Pero en los dos casos estaríamos equivocados. El vivir en el campo no
tiene culpa de que haya más o menos enfermos. Vamos a ver qué pasa con
estos pueblos.
Si hay 1.000 habitantes, lo esperado es que haya un caso de
fildulastrosis (Pv=0,001). De hecho, si utilizamos una calculadora de
probabilidad binomial, la probabilidad de que haya al menos un enfermo es
del 63%. Pero si jugamos un poco con la calculadora, podemos ver que la
probabilidad de que haya dos o más es del 26%, de que haya tres o más del
8% y de que haya cuatro o más un 2%. Como veis, la prevalencia se triplica
en uno de cada cuatro pueblos de 1.000 habitantes solo por efecto del azar.
Pensemos ahora que el pueblo tiene 10.000 habitantes. El número de casos
esperados es de 10 (con una probabilidad del 54%). Sin embargo, la
probabilidad de que haya al menos 20 casos cae a un 0,3% y de que haya al
menos 30 se aproxima a cero. Quiere esto decir que el azar es mucho más
caprichoso con los pueblos pequeños. Las muestras grandes son siempre más
precisas y es más difícil que encontremos valores extremos por efecto del
azar.
¿Qué pasa con el otro ejemplo?. Ocurre lo mismo: la muestra pequeña es
más imprecisa y más susceptible a la desviación hacia valores extremos por
mero azar. Como el primer pueblo tiene 5.000 habitantes, esperaremos
encontrar por lo menos cinco casos de fildulastrosis (probabilidad del
61%). Si volvemos a utilizar la calculadora, veremos que la probabilidad de
que haya cuatro o menos es del 44%, de que haya tres o menos del 26% y de
que haya dos o menos del 12%. Quiere decir que en uno de cada ocho pueblos
de 5.000 habitantes, la prevalencia, por puro azar, bajará hasta 0,0004.
¿Qué pasaría con un pueblo más grande, digamos de 10.000 habitantes?. Pues
que esperaríamos 10 casos o menos con una probabilidad del 58%, pero la
probabilidad de que la prevalencia baje a 0,0004 (cuatro casos o menos) cae
hasta un 3%. Y si hacéis el cálculo para una ciudad de 100.000 habitantes,
veréis que la probabilidad de que la prevalencia baje a la mitad es
prácticamente cero.
La ley de los pequeños números se cumple en ambos sentidos. Ya no
tendremos que volver a dar ninguna explicación absurda cuando veamos una
ciudad pequeña con una prevalencia anormalmente alta o baja de una
enfermedad conocida. Sabemos que es capricho del azar y de su ley de los
pequeños números.
Y aquí terminamos por hoy. Espero que nadie se haya ido a Google a
buscar qué es la fildulastrosis, pero si alguien lo ha encontrado, que me
lo explique. El ejemplo que hemos puesto es sencillo para poder demostrar
más fácilmente el asunto de la imprecisión de las muestras pequeñas. En la
vida real probablemente la aparición de ciertas enfermedades pueda
condicionar un mayor riesgo de enfermar en los familiares, lo cual podría
exagerar todavía más el efecto que hemos mostrado y favorecer la aparición
de valores más extremos. Pero esa es otra historia…
La gran familia
Que no se confundan los cinéfilos. No vamos a hablar de aquella película
del año 1962 en la que el pequeño Chencho se perdía en la Plaza Mayor por
Navidades y en la que se tiraban por lo menos hasta el verano hasta que lo
encontraban, en gran parte gracias al tesón buscador del abuelo. Hoy vamos
a hablar de otra familia más relacionada con las funciones de densidad de
probabilidad y espero que no acabemos tan perdidos como el pobre Chencho de
la película.
No cabe duda de que la reina de las funciones de densidad es la
distribución normal, la de forma de campana. Esta es una distribución de
probabilidad que se definía por su media y su desviación estándar y que
está en el centro de todo el cálculo de probabilidades y de inferencia
estadística. Pero hay otras funciones continuas de probabilidad que se
parecen algo o mucho a la distribución normal y que también son muy
utilizadas cuando se realiza contraste de hipótesis.
La primera de la que vamos a hablar es la distribución de la t de
Student. Para los curiosos de la historia de la ciencia os diré que el
inventor de la t realmente se llamaba William Sealy Gosset, pero como debía
gustarle poco su nombre, firmaba sus escritos con el pseudónimo de Student.
De ahí que el estadístico se conozca como la t de Student.
La forma de su función de densidad es la de una campana simétrica
distribuida alrededor de la media. Es muy parecida a la curva normal,
aunque con unas colas más pobladas, motivo que ocasiona que las
estimaciones con esta distribución tengan menos precisión con muestras
pequeñas, ya que tener más datos en las colas implica la posibilidad
siempre de tener resultados alejados de la media con más probabilidad. Hay
infinitas funciones de distribución de la t de Student, caracterizadas por
la media, la varianza y los grados de libertad, pero cuando la muestra es
superior a 30 (cuando aumentan los grados de libertad), la t se parece
tanto a la normal que podemos utilizar una normal sin cometer grandes
errores.
La t de Student se utiliza para comparar medias de poblaciones que se
distribuyen de forma normal cuando los tamaños muestrales son pequeños o
cuando se desconoce el valor de la varianza poblacional. Y esto funciona
así porque si a una muestra de variables le restamos la media y la
dividimos por el error estándar, el valor que obtenemos sigue esta
distribución.
Otro miembro de esta familia de distribuciones continuas es la chicuadrado, que juega también un papel muy importante en estadística. Si
tenemos una muestra de variables que siguen una distribución normal, las
elevamos al cuadrado y las sumamos, la suma sigue una distribución de la
chi-cuadrado con un número de grados de libertad igual al tamaño muestral.
En la práctica, cuando tenemos una serie de valores de una variable,
podemos restarle los valores esperados de esa variable bajo el supuesto de
nuestra hipótesis nula, elevar la diferencias al cuadrado, sumarlas y ver
la probabilidad del valor obtenido según la función de densidad de la chicuadrado, con lo que podremos así decidir si rechazamos o no nuestra
hipótesis nula.
Esta aplicación tiene tres utilidades básicas: la determinación de la
bondad del ajuste de una población a una teórica, la prueba de homogeneidad
de dos poblaciones y el contraste de independencia de dos variables.
Al contrario que la normal, la función de densidad de la chi-cuadrado
solo tiene valores positivos, por lo que es asimétrica con una larga cola
hacia la derecha. Claro que la curva se va haciendo cada vez más simétrica
al aumentar los grados de libertad, pareciéndose cada vez más a una
distribución normal.
La última de la que vamos a hablar hoy es la distribución de la F de
Snédecor. En esta no hay sorpresas de nombres, aunque parece que en la
invención de este estadístico participó también un tal Fisher.
Esta distribución está más relacionada con la chi-cuadrado que con la
normal, ya que es la función de densidad que sigue el cociente de dos
distribuciones de chi-cuadrado. Como es fácil de entender, solo tiene
valores positivos y su forma depende del número de grados de libertad de
las dos distribuciones de la chi-cuadrado que la determinan. Esta
distribución se utiliza para el contraste de varianzas (ANOVA).
En resumen, vemos que hay varias funciones de densidad muy parecidas que
sirven para calcular probabilidades, por lo que son útiles en diversos
contrastes de hipótesis. Hay muchas más, como la normal bivariada, la
binomial negativa, la distribución uniforme, la beta o la gamma, por
nombrar algunas. Pero esa es otra historia…
Descargar