Tanto va el cántaro a la fuente...,Todos los caminos llevan a Roma

Anuncio
Tanto va
fuente…
el
cántaro
a
la
…que termina por romperse. ¿Qué se rompe, el cántaro o la fuente?. El
refrán se refiere, claro está, al cántaro. El dicho hace referencia a los
tiempos en que no había agua en las casas y había que ir hasta la fuente a
por ella, de forma que, más tarde o más temprano, el cántaro se rompía, ya
fuese por desgaste por un uso excesivo o por algún desgraciado accidente
que acababa con él hecho pedazos. Supongo que la fuente podía romperse
también, pero para eso ya había que ser muy bestia, así que el refrán no
contempla esa posibilidad.
En la actualidad empleamos esta frase para referirnos al hecho de que si
repetimos una acción con demasiada insistencia podemos acabar teniendo
algún contratiempo.
Por ejemplo, hagamos un paralelismo entre ir a la fuente con el cántaro
y hacer un contraste de hipótesis. ¿Creéis que no tienen nada que ver?.
Pues lo tienen: si hacemos contrastes de hipótesis de forma insistente
podemos acabar llevándonos un disgusto, que no será otro que el de cometer
un error de tipo I. Me explicaré para que no penséis que me he dado con el
cántaro en la cabeza en uno de los viajes a la fuente.
Recordemos que siempre que hacemos un contraste de hipótesis
establecemos una hipótesis nula (H0) que dice que la diferencia observada
entre los grupos de comparación se debe al azar. A continuación, calculamos
la probabilidad de que la diferencia se deba al azar y, si es menor que un
valor determinado (habitualmente 0,05), rechazamos H0 y afirmamos que es
altamente improbable que la diferencia se deba al azar, por lo que la
consideramos real. Pero claro, altamente improbable no significa seguro.
Siempre hay un 5% de probabilidad de que, siendo H0 cierta, la rechacemos,
dando por bueno un efecto que en realidad no existe. Esto es lo que se
llama cometer un error de tipo I.
Si hacemos múltiples comparaciones la probabilidad de cometer un error
aumenta. Por ejemplo, si hacemos 100 comparaciones, esperaremos
equivocarnos aproximadamente cinco veces, ya que la probabilidad de
equivocarnos en cada ocasión será del 5% (y la de acertar del 95%).
Así que podemos preguntarnos, si hacemos n comparaciones, ¿cuál es la
probabilidad de tener al menos un falso positivo?. Esto es un poco
laborioso de calcular, porque habría que calcular la probabilidad de
1,2,…,n-1 y n falsos positivos utilizando probabilidad binomial. Así que
recurrimos a un truco muy utilizado en el cálculo de probabilidades, que es
calcular la probabilidad del suceso complementario. Me explico. La
probabilidad de algún falso positivo más la probabilidad de ninguno será de
1 (100%). Luego la probabilidad de algún falso positivo será igual a 1
menos la probabilidad de ninguno.
¿Y cuál es la probabilidad de ninguno?. La de no cometer error en cada
contraste ya hemos dicho que es de 0,95. La de no cometer errores en n
contrastes será de 0,95n. Así que la probabilidad de tener al menos un falso
positivo será de 1 – 0,95n.
Imaginaos que hacemos 20 comparaciones. La probabilidad de cometer, como
mínimo, un error de tipo I será de 1-0,95 2 0 = 0,64. Habrá un 64% de
probabilidad de que cometamos un error y demos por existente un efecto que
en realidad no existe por puro azar.
Pues que chorrada, me diréis. ¿Quién se va a poner a hacer tantas
comparaciones sabiendo el peligro que tiene?. Pues, si os paráis a
pensarlo, lo habéis visto muchas veces. ¿Quién no ha leído un artículo
sobre un ensayo que incluía un estudio post hoc con múltiples
comparaciones?. Es bastante frecuente cuando el ensayo no da resultados con
significación estadística. Los autores tienden a exprimir y torturar los
datos hasta que encuentran un resultado satisfactorio.
Sin embargo, desconfiad siempre de los estudios post hoc. El ensayo debe
tratar de responder a una pregunta previamente establecida y no buscar
respuestas a preguntas que nos podemos hacer después de finalizarlo,
dividiendo los participantes en grupos según características que no tienen
nada que ver con la aleatorización inicial.
De todas formas, como es una costumbre difícil de erradicar, sí que
podemos exigir a los autores de los ensayos que tengan una serie de
precauciones si quieren hacer estudios post hoc con múltiples contrastes de
hipótesis. Lo primero, todo análisis que se haga con los resultados del
ensayo debe especificarse cuando se planifica el ensayo y no una vez
terminado. Segundo, los grupos deben tener cierta plausibilidad biológica.
Tercero, debe evitarse hacer comparaciones múltiples con subgrupos si los
resultados generales del ensayo no son significativos. Y, por último,
utilizar siempre alguna técnica que permita mantener la probabilidad de
error de tipo I por debajo del 5%, como la corrección de Bonferroni o
cualquier otra.
A nosotros nos quedará un último consejo: valorar con precaución las
diferencias que se puedan encontrar entre los distintos subgrupos, sobre
todo cuando los valores de p son discretos, entre 0,01 y 0,05.
Y aquí dejamos los estudios post hoc y sus trampas. No hemos comentado
que hay más ejemplos de comparaciones múltiples además del análisis de
subgrupos postaleatorización. Se me ocurre el ejemplo de los estudios de
cohortes que estudian diferentes efectos producto de una misma exposición,
o el de los análisis intermedios que se hacen durante los ensayos
secuenciales para ver si se cumple la regla de finalización preestablecida.
Pero esa es otra historia…
Todos los caminos llevan a
Roma
Esta expresión tiene su origen en la manía que les entró a los romanos
por hacer carreteras entre la capital del Imperio y las provincias más
alejadas. Había un momento en que cualquier camino que tomases te llevaba a
Roma, de ahí el dicho.
En la actualidad los caminos te pueden llevar a cualquier parte, pero la
frase se conserva para usarla cuando queremos decir que hay varias maneras
de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay
dependencia entre dos variables y si su diferencia es estadísticamente
significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.
Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible,
para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que,
ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en
medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes
son más listos, los romanos o los cartagineses.
Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses
que pillamos despistados en la batalla de Cannas y les pasamos un test de
inteligencia para ver qué proporción tiene un cociente de inteligencia
mayor de 120, lo que vamos a considerar como ser bastante listo.
Los resultados podéis verlos en la
tabla que os adjunto. Podemos ver que
el 25% de los romanos (63 de 251) y el
16% de los cartagineses (40 de 249)
pueden ser calificados como listos. A
primera vista uno pensaría que los
romanos eran más listos pero claro,
siempre hay posibilidad de que esta
diferencia sea debida al azar por error
de muestreo.
Así que planteamos nuestra hipótesis nula de que todos son igual de
listos, elegimos un estadístico cuya distribución de probabilidad bajo la
hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor
de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que
los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis
nula, así que concluiremos que todos eran igual de listos y que la
diferencia observada se debe al azar.
El primer estadístico que se me
ocurre es la chi-cuadrado. Como ya
sabemos, ésta valora la diferencia
entre valores observados y esperados y
calcula un valor que sigue una
distribución conocida (chi-cuadrado),
por lo que podemos calcular su valor de
p. De esta forma, construimos la tabla
de valores observados y esperados y
obtenemos un valor de chi-cuadrado
igual a 6,35. Ahora podemos calcular el
valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad
disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de
0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en
efecto, más listos que los cartagineses, lo que explicaría que ganasen las
tres guerras púnicas, aunque la segunda se les atragantase un poco.
Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de
llegar a la p sería comparar las dos proporciones y ver si su diferencia es
estadísticamente significativa. Una vez más, nuestra hipótesis nula dice
que no hay diferencias entre las dos, así que la resta de las dos
proporciones, si la hipótesis nula es cierta, debería valer cero.
De esta manera, lo que tenemos que hacer es calcular la diferencia de
proporciones y estandarizarla dividiéndola por su error estándar,
obteniendo así un valor z que seguirá una distribución de probabilidad
normal.
La fórmula es la siguiente
Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra
calculadora de probabilidad para calcular lo que queda fuera de la media ±
z (el contraste es bilateral), veremos que el valor de p = 0,01.
Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.
Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que
la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula
(error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado
o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.
Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado
(6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51).
Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de
la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado
todos los valores de una distribución de frecuencias normal y volvemos a
representar los resultados obtendremos una distribución de frecuencias de
la chi-cuadrado. Curioso, ¿verdad?.
También podríamos realizar una prueba exacta de Fisher en lugar de una
chi-cuadrado y obtendríamos unos resultados similares.
Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros
que todavía hay más caminos para demostrar si la diferencia de proporciones
es significativa o no. Podríamos haber calculado el intervalo de confianza
de la diferencia o el del cociente de proporciones (el riesgo relativo) o,
incluso, el de la odds ratio entre las dos proporciones y ver si los
intervalos incluían el valor nulo para determinar si eran estadísticamente
significativos. Pero esa es otra historia…
La falsa moneda
Hoy vamos a seguir jugando con monedas. De hecho, vamos a jugar con dos
monedas, una de ellas legal y la otra más falsa que Judas Iscariote,
cargada de forma que dé más caras que cruces cuando la lanzamos. Os
aconsejo que os pongáis cómodos antes de empezar.
Resulta que tenemos una moneda trucada. Por definición, la probabilidad
de sacar cara con una moneda legal es 0,5 (50%). Por otra parte, nuestra
moneda trucada saca cara el 70% de las veces (probabilidad 0,7), lo cual
nos viene muy bien porque la usamos cada vez que queremos sortearnos alguna
tarea desagradable. No tenemos más que ofrecer nuestra moneda, pedir cruz y
confiar un poco en que la suerte de nuestra falsa moneda nos beneficie.
Ahora supongamos que hemos sido tan despistados como para guardar la
moneda trucada con las demás. ¿Cómo podemos saber cuál es la falsa?. Y aquí
es donde se nos ocurre el juego. Vamos a imaginar qué pasaría si tirásemos
la moneda al aire 100 veces seguidas. Si la moneda es legal esperamos sacar
cara unas 50 veces, mientras que con la trucada esperamos sacar unas 70.
Así que vamos a escoger una moneda, la lanzamos 100 veces y, basándonos en
el número de caras, decidiremos si está trucada o no. Así que, de forma
arbitraria elegimos un valor entre 50 y 70, pongamos que 65 y decimos: si
obtenemos 65 caras o más diremos que nuestra moneda está trucada, pero si
sacamos menos de 65 diremos que es legal.
Pero cualquiera se da cuenta en seguida que este método no es infalible.
Por una parte, podemos sacar 67 caras con una moneda legal y concluir que
está trucada, cuando no lo está. Pero es que también puede dar la
casualidad que saquemos 60 con la trucada y nos creamos que es una moneda
legal. ¿Podemos solucionar este problema y evitar equivocarnos?. Pues, la
verdad es que no podemos, pero lo que sí podemos es medir la probabilidad
que tenemos de equivocarnos.
Si utilizamos una calculadora de probabilidad binomial (los más
valientes pueden hacer los cálculos a mano), la probabilidad de sacar 65
caras o más con una moneda legal es del 0,17%, mientras que la probabilidad
de sacarlas con nuestra moneda cargada es del 88,4%. Así que se pueden
presentar cuatro situaciones que os represento en la tabla adjunta.
En este caso, nuestra hipótesis nula dice que la moneda es legal,
mientras que la alternativa dice que la moneda está trucada a favor de las
caras.
Empecemos por los casos en que la prueba concluye que la moneda es legal
(sacamos menos de 65 caras). La primera posibilidad es que la moneda sea,
en efecto, legal. Pues habremos acertado. No tenemos más que decir de este
supuesto.
La segunda posibilidad es que, a pesar de lo que dice nuestra prueba, la
moneda sea más falsa que el beso de una suegra. Pues esta vez hemos
cometido un error que alguien con muy poca imaginación bautizó como error
de tipo II. Hemos aceptado la hipótesis nula de que la moneda es legal
cuando en realidad está trucada.
Vamos a suponer ahora que nuestra prueba concluye que la moneda está
trucada. Si la moneda es, en realidad, legal, habremos vuelto a
equivocarnos, pero esta vez lo que habremos cometido es un error de tipo I.
En este caso hemos rechazado la hipótesis nula de que la moneda es legal
siendo cierto que es legal.
Por último, si concluimos que es falsa y realmente está trucada,
habremos acertado una vez más.
Vemos en la tabla que la probabilidad de cometer un error de tipo I es,
en este ejemplo, del 0,17%. Esta es la significación estadística de nuestra
prueba, que no es más que la probabilidad de rechazar nuestra hipótesis
nula de que la moneda es legal (decir que es falsa) cuando en realidad lo
es (es legal). Por otra parte, la probabilidad de acertar cuando la moneda
es falsa es del 91%. A esta probabilidad se le llama potencia, que no es
más que la probabilidad de acertar cuando la prueba dice que está trucada
(acertar cuando rechazamos la hipótesis nula).
Si pensáis un poco veréis que el error de tipo II es el complementario
de la potencia. Cuando la moneda es falsa, la probabilidad de aceptar que
es legal cuando no lo es (error de tipo II) más la probabilidad de acertar
y decir falsa debe sumar el 100%. Así, el error de tipo II es igual a 1 –
potencia.
Esta significación estadística que hemos visto es el famoso valor de la
p. La significación estadística no es más que la probabilidad de cometer un
error de tipo I. Por convenio, se suele aceptar como tolerable el 0,05
(5%), ya que, en general, es preferible no aceptar como buenas hipótesis
que son falsas. Por eso en los estudios científicos se buscan valores bajos
de significación y altos de potencia, aunque los dos están relacionados,
por lo que al aumentar la significación disminuye la potencia, y viceversa.
Y aquí terminamos. Al que haya llegado hasta aquí a través de este
galimatías sin perderse del todo, mi más sincera enhorabuena, porque la
verdad es que esta entrada parece un juego de palabras. Y eso que podríamos
haber comentado algo sobre significación y cálculo de intervalos de
confianza, tamaños muestrales, etc. Pero esa es otra historia…
Descargar