Engañando a Gauss No cabe duda de que Gauss y su distribución con forma de campana son la base para la realización de gran parte de las pruebas de contraste de hipótesis e inferencia de datos en estadística. Por eso, a nadie le llama la atención que muchas pruebas solo puedan realizarse cuando la variable que se estudia sigue una distribución normal. Por ejemplo, si queremos comparar tienen que ser independientes, seguir varianza similar (homocedasticidad). comparaciones, estudios de correlación, las medias de dos muestras, éstas una distribución normal y tener una Lo mismo ocurre para muchas otras etc. Cuando tenemos la mala suerte de que nuestra muestra no sigue una distribución normal debemos recurrir a las pruebas de contraste no paramétricas. Estas pruebas son igual de serias y rigurosas que las paramétricas, pero tienen el inconveniente de que son mucho más conservadoras, en el sentido de que cuesta más alcanzar el nivel de significación estadística necesario para poder rechazar la hipótesis nula. Podría darse el caso de que no obtengamos significación estadística con la prueba no paramétrica mientras que, si pudiésemos aplicarla, si podríamos obtenerla con la paramétrica. Para evitar que pueda pasarnos esto, a alguien se le debió ocurrir que podemos transformar los datos de tal forma que los nuevos datos transformados sí sigan la distribución normal. Esto, que parece un truco sucio, es perfectamente lícito, siempre en cuanto tengamos en cuenta que luego tendremos que hacer la transformación inversa para interpretar correctamente los resultados. Hay diversos métodos de transformación, aunque quizás el más utilizado es el de la transformación logarítmica. Pensemos un momento en los logaritmos decimales (base 10). En la escala logarítmica hay la misma distancia entre 1 y 10 que entre 10 y 100 y que entre 100 y 1000. ¿Qué quiere decir esto?. Pues que si transformamos cada variable en su logaritmo, los valores entre 1 y 10 se expandirán, mientras que los más altos se comprimirán. Por eso la transformación logarítmica es útil para transformar distribuciones con sesgo positivo (con cola más larga hacia la derecha): la parte izquierda se expandirá, mientras que la derecha se comprimirá, favoreciendo que la curva resultante se ajuste mejor a una normal. Solo comentar que, aunque hemos puesto el ejemplo con el logaritmo decimal, que se entiende mejor, en estadística suele hacerse esta transformación con logaritmos neperianos o naturales, que tienen por base el número e, que vale, aproximadamente, 2,7182812. Esta transformación logarítmica solo vale para números mayores que cero, aunque si tenemos una distribución con valores negativos podríamos sumar una constante a cada valor para que fuese mayor que cero antes de calcular su logaritmo. Cuando la nueva curva se ajusta a la campana se dice que sigue una distribución lognormal. En ocasiones, si la distribución está muy sesgada, puede hacerse la transformación recíproca (1/x), más potente y que produce un efecto similar a la logarítmica. Otra tercera posibilidad, menos potente que la logarítmica, es transformar calculando la raíz cuadrada de cada valor. Cuando el sesgo de la distribución es negativo (cola más larga hacia la izquierda) nos interesará lo contrario: comprimir la cola de la izquierda y extender la de la derecha. Si lo pensamos, esto puede hacerse elevando cada valor al cuadrado o al cubo. Los productos resultantes de los valores pequeños estarán menos alejados que los resultantes de valores grandes, con lo que la distribución se parecerá más a una normal. Así que miramos nuestra distribución, hacemos la transformación que nos parezca más oportuna y comprobamos si ya es normal. En ese caso, hacemos la prueba paramétrica para obtener el nivel de significación. Finalmente, deshacemos la transformación para poder interpretar correctamente los resultados, aunque en este punto puede haber alguna dificultad. Si hemos aplicado una transformación logarítmica y hemos obtenido una media, su antilogaritmo es la media geométrica y no la aritmética. Si se trata de una diferencia de medias, lo que obtenemos es la razón de medias geométricas. Con los intervalos de confianza no hay mayor problema. Podemos transformar, obtenerlos y deshacer la transformación. La que se muestra intratable con todo este tipo de transformaciones y antitransformaciones es la desviación estándar, que no tiene sentido transformar en reverso porque sus unidades pierden totalmente el sentido de la realidad. Las transformaciones 1/x y raíz cuadrada permiten recuperar los valores de las medias y de los intervalos de confianza sin problemas, pero tampoco pueden hacer nada con las desviaciones estándar. Comentar, para terminar, que hay otras dos situaciones en que puede ser útil transformar los datos. Una es cuando las varianzas de las muestras son diferentes (no hay homocedasticidad). En estos casos puede aplicarse la logarítmica (si la varianza aumenta en proporción con la media), el cuadrado (si aumenta en proporción con el cuadrado de la media) o la raíz cuadrada (si lo hace en proporción con la raíz cuadrada de la media). La otra situación es cuando queremos forzar que la relación entre las dos variables sea lineal, como cuando queremos utilizar modelos de regresión lineal. Claro que estos casos habría que tener algunas otras consideraciones de cómo afectan las transformaciones a los coeficientes de regresión. Pero esa es otra historia… Cuando los ceros de la p sí importan Ya sabemos que para contrastar la igualdad de medias de dos muestras que se distribuyan de forma normal podemos utilizar la prueba de la t de Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula (que es lo que queremos la mayor parte de las veces) y asumimos que las medias son diferentes. Este valor de p, también llamado alfa, es totalmente arbitrario y representa simplemente la probabilidad de que la diferencia observada se deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos conformamos con el riesgo de error del 5%, llamado error de tipo I, de rechazar la hipótesis nula cuando es cierta y la diferencia se debe al azar. La cosa se complica un poco más cuando comparamos las medias de más de dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al análisis de la varianza (si las muestras se distribuyen de forma normal y sus varianzas son iguales), que nos proporciona otro valor de p. Una vez más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de esas medias son diferentes entre sí y cuáles no?. Lo primero que se nos pasa por la cabeza es hacer un contraste con la prueba de la t de Student tomando las muestras dos a dos. El número de comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así hasta que nos aburramos. Sin embargo, si hacemos esto correremos el riesgo de meter la pata, tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un poco porqué esto es así. Al hacer cada contraste, la probabilidad de un significativo es de 0,05 y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20 comparaciones independientes: la probabilidad de que ninguno sea significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de 0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar el número de comparaciones y que podemos encontrar una diferencia falsamente significativa solo por azar. Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la probabilidad de que al menos uno sea significativo será de 1-Probabilidad de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a 0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de probabilidades de identificar una diferencia como significativa cuando en realidad no lo es o, dicho de otra forma, de cometer un error de tipo I. ¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra ayuda con su célebre corrección. La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos dicho que es (1-alfa) 20 . Ahora os pido que me creáis si os digo que (1alfa)20 es aproximadamente igual a 1-20xalfa. Luego 0,95 = 1-20alfa. Si despejamos alfa obtenemos la corrección de Bonferroni: alfa de cada comparación = alfa general / número de comparaciones. Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por parejas consideraremos que podemos rechazar la hipótesis nula de igualdad cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones, el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005. A esto es a lo que me refiero con lo de la importancia de los ceros de la p. Cuanto más comparaciones, más ceros tendrá que tener para poder considerar la diferencia estadísticamente significativa sin aumentar el riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc entre varios subgrupos de un ensayo clínico o en los estudios de asociación genómica que, bajo ese nombre tan elegante, no son más que estudios de casos y controles camuflados. Como es fácil comprender, esta corrección penaliza el valor de p y hace que el contraste sea mucho más conservador en el sentido de no poder rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue siendo significativa, la credibilidad de los resultados será mucho mayor. Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único en dar una solución para este problema de las comparaciones múltiples. Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel, etc y el usar una u otra puede depender únicamente del programa estadístico de que dispongamos. Pero esa es otra historia… Las rarezas de los pueblos pequeños Recuerdo cuando yo era pequeño e iba al colegio que casi todo el mundo tenía un pueblo al que irse durante las vacaciones. Claro que eran otros tiempos y la mayor parte de los niños eran hijos de emigrados recientemente a la ciudad, así que casi todo el mundo tenía “su pueblo”. Ahora la cosa es diferente. La mayoría de los niños de los colegios son de la ciudad donde viven, así que está casi mal visto ser “de pueblo”. Sin embargo, los pueblos tienen muchas cosas interesantes. Suelen ser, por ejemplo, lugares más tranquilos y donde se lleva una vida más sana. Pero, aunque poca gente lo sabe, los pueblos se ven acechados por el azar. Los pueblos son presa fácil de una cosa llamada ley de los pequeños números. ¿Sabéis en qué consiste?. Trataremos de explicarlo con un ejemplo. Cuando yo era residente había un pueblo, cuyo nombre no voy a decir para no ofender a nadie, del que venían casi todos los traslados de enfermedades raras. Ignorantes de nosotros, llegamos incluso a especular con la posibilidad de que la abundante pizarra del lugar fuese radiactiva y tuviese la culpa de que los habitantes de este pueblo tuviesen aparentemente una incidencia tan alta de patología tan extraña. Sin embargo, la explicación es mucho más sencilla y no hace falta recurrir a ninguna teoría conspiratoria. La culpa es de los pequeños números. Vamos a suponer que el riesgo de padecer fildulastrosis es del uno por mil (prevalencia Pv = 0,001). Como todos sabemos, esta enfermedad genética se debe a una mutación que se produce totalmente al azar, por lo que presentar o no la enfermedad puede asumirse como un suceso de Bernouilli que sigue una distribución de probabilidad binomial. Según la prevalencia que hemos elegido, si vamos recorriendo pueblos esperaremos encontrar un caso de fildulastrosis por cada 1.000 habitantes. Si llegamos a un pueblo con 5.000 habitantes y tiene solo un caso en lugar de cinco, ¿qué diríamos?. Pues seguro que pensaríamos que nos encontramos ante uno más de los beneficios de la vida del campo, mucho más sana, sin estrés y en contacto con la naturaleza. ¿Y si llegamos a uno todavía más pequeño, de 1.000 habitantes y vemos que hay cuatro enfermos?. Siguiendo un razonamiento tan estúpido como el anterior, diríamos que es sin duda un efecto de la vida en el campo, con menos controles sanitarios y en contacto con animales de granja y demás guarrerías de la naturaleza. Pero en los dos casos estaríamos equivocados. El vivir en el campo no tiene culpa de que haya más o menos enfermos. Vamos a ver qué pasa con estos pueblos. Si hay 1.000 habitantes, lo esperado es que haya un caso de fildulastrosis (Pv=0,001). De hecho, si utilizamos una calculadora de probabilidad binomial, la probabilidad de que haya al menos un enfermo es del 63%. Pero si jugamos un poco con la calculadora, podemos ver que la probabilidad de que haya dos o más es del 26%, de que haya tres o más del 8% y de que haya cuatro o más un 2%. Como veis, la prevalencia se triplica en uno de cada cuatro pueblos de 1.000 habitantes solo por efecto del azar. Pensemos ahora que el pueblo tiene 10.000 habitantes. El número de casos esperados es de 10 (con una probabilidad del 54%). Sin embargo, la probabilidad de que haya al menos 20 casos cae a un 0,3% y de que haya al menos 30 se aproxima a cero. Quiere esto decir que el azar es mucho más caprichoso con los pueblos pequeños. Las muestras grandes son siempre más precisas y es más difícil que encontremos valores extremos por efecto del azar. ¿Qué pasa con el otro ejemplo?. Ocurre lo mismo: la muestra pequeña es más imprecisa y más susceptible a la desviación hacia valores extremos por mero azar. Como el primer pueblo tiene 5.000 habitantes, esperaremos encontrar por lo menos cinco casos de fildulastrosis (probabilidad del 61%). Si volvemos a utilizar la calculadora, veremos que la probabilidad de que haya cuatro o menos es del 44%, de que haya tres o menos del 26% y de que haya dos o menos del 12%. Quiere decir que en uno de cada ocho pueblos de 5.000 habitantes, la prevalencia, por puro azar, bajará hasta 0,0004. ¿Qué pasaría con un pueblo más grande, digamos de 10.000 habitantes?. Pues que esperaríamos 10 casos o menos con una probabilidad del 58%, pero la probabilidad de que la prevalencia baje a 0,0004 (cuatro casos o menos) cae hasta un 3%. Y si hacéis el cálculo para una ciudad de 100.000 habitantes, veréis que la probabilidad de que la prevalencia baje a la mitad es prácticamente cero. La ley de los pequeños números se cumple en ambos sentidos. Ya no tendremos que volver a dar ninguna explicación absurda cuando veamos una ciudad pequeña con una prevalencia anormalmente alta o baja de una enfermedad conocida. Sabemos que es capricho del azar y de su ley de los pequeños números. Y aquí terminamos por hoy. Espero que nadie se haya ido a Google a buscar qué es la fildulastrosis, pero si alguien lo ha encontrado, que me lo explique. El ejemplo que hemos puesto es sencillo para poder demostrar más fácilmente el asunto de la imprecisión de las muestras pequeñas. En la vida real probablemente la aparición de ciertas enfermedades pueda condicionar un mayor riesgo de enfermar en los familiares, lo cual podría exagerar todavía más el efecto que hemos mostrado y favorecer la aparición de valores más extremos. Pero esa es otra historia… La gran familia Que no se confundan los cinéfilos. No vamos a hablar de aquella película del año 1962 en la que el pequeño Chencho se perdía en la Plaza Mayor por Navidades y en la que se tiraban por lo menos hasta el verano hasta que lo encontraban, en gran parte gracias al tesón buscador del abuelo. Hoy vamos a hablar de otra familia más relacionada con las funciones de densidad de probabilidad y espero que no acabemos tan perdidos como el pobre Chencho de la película. No cabe duda de que la reina de las funciones de densidad es la distribución normal, la de forma de campana. Esta es una distribución de probabilidad que se definía por su media y su desviación estándar y que está en el centro de todo el cálculo de probabilidades y de inferencia estadística. Pero hay otras funciones continuas de probabilidad que se parecen algo o mucho a la distribución normal y que también son muy utilizadas cuando se realiza contraste de hipótesis. La primera de la que vamos a hablar es la distribución de la t de Student. Para los curiosos de la historia de la ciencia os diré que el inventor de la t realmente se llamaba William Sealy Gosset, pero como debía gustarle poco su nombre, firmaba sus escritos con el pseudónimo de Student. De ahí que el estadístico se conozca como la t de Student. La forma de su función de densidad es la de una campana simétrica distribuida alrededor de la media. Es muy parecida a la curva normal, aunque con unas colas más pobladas, motivo que ocasiona que las estimaciones con esta distribución tengan menos precisión con muestras pequeñas, ya que tener más datos en las colas implica la posibilidad siempre de tener resultados alejados de la media con más probabilidad. Hay infinitas funciones de distribución de la t de Student, caracterizadas por la media, la varianza y los grados de libertad, pero cuando la muestra es superior a 30 (cuando aumentan los grados de libertad), la t se parece tanto a la normal que podemos utilizar una normal sin cometer grandes errores. La t de Student se utiliza para comparar medias de poblaciones que se distribuyen de forma normal cuando los tamaños muestrales son pequeños o cuando se desconoce el valor de la varianza poblacional. Y esto funciona así porque si a una muestra de variables le restamos la media y la dividimos por el error estándar, el valor que obtenemos sigue esta distribución. Otro miembro de esta familia de distribuciones continuas es la chicuadrado, que juega también un papel muy importante en estadística. Si tenemos una muestra de variables que siguen una distribución normal, las elevamos al cuadrado y las sumamos, la suma sigue una distribución de la chi-cuadrado con un número de grados de libertad igual al tamaño muestral. En la práctica, cuando tenemos una serie de valores de una variable, podemos restarle los valores esperados de esa variable bajo el supuesto de nuestra hipótesis nula, elevar la diferencias al cuadrado, sumarlas y ver la probabilidad del valor obtenido según la función de densidad de la chicuadrado, con lo que podremos así decidir si rechazamos o no nuestra hipótesis nula. Esta aplicación tiene tres utilidades básicas: la determinación de la bondad del ajuste de una población a una teórica, la prueba de homogeneidad de dos poblaciones y el contraste de independencia de dos variables. Al contrario que la normal, la función de densidad de la chi-cuadrado solo tiene valores positivos, por lo que es asimétrica con una larga cola hacia la derecha. Claro que la curva se va haciendo cada vez más simétrica al aumentar los grados de libertad, pareciéndose cada vez más a una distribución normal. La última de la que vamos a hablar hoy es la distribución de la F de Snédecor. En esta no hay sorpresas de nombres, aunque parece que en la invención de este estadístico participó también un tal Fisher. Esta distribución está más relacionada con la chi-cuadrado que con la normal, ya que es la función de densidad que sigue el cociente de dos distribuciones de chi-cuadrado. Como es fácil de entender, solo tiene valores positivos y su forma depende del número de grados de libertad de las dos distribuciones de la chi-cuadrado que la determinan. Esta distribución se utiliza para el contraste de varianzas (ANOVA). En resumen, vemos que hay varias funciones de densidad muy parecidas que sirven para calcular probabilidades, por lo que son útiles en diversos contrastes de hipótesis. Hay muchas más, como la normal bivariada, la binomial negativa, la distribución uniforme, la beta o la gamma, por nombrar algunas. Pero esa es otra historia…