Una elección importante,El rey a examen

Anuncio
Una elección importante
La vida está llena de decisiones importantes. Decidimos qué estudiar. A
veces, muy pocas, podemos decidir dónde trabajar. Decidimos si nos casamos
y con quién (o eso nos parece). Decidimos dónde vivimos, qué coche
compramos, etc. Y la cagamos un número de veces considerablemente más
elevado del deseable. ¿Creéis que no?. Entonces explicadme el significado
de ese lamento que se oye con tanta frecuencia y que reza así: “si se
viviese dos veces…”. Pues eso.
Por eso, antes de tomar una decisión hay que valorar cuidadosamente las
alternativas de que disponemos. Y esto, válido para la mayor parte de los
aspectos de la vida normal, es aplicable también al método científico, con
la ventaja añadida de que suele estar más claramente establecido cuál puede
ser la elección más correcta.
Y, ya que hablamos de elegir, supongamos que queremos tener una idea de
cuál va a ser el resultado de las próximas elecciones. La forma de obtener
el dato más aproximado sería preguntar a todos los votantes por su
intención de voto, pero a nadie se le escapa que esto puede ser imposible
desde un punto de vista práctico. Pensemos en un país grande con cincuenta
millones de votantes. En estos casos lo que hacemos es elegir un
subconjunto de la población, al que llamamos muestra, hacemos la encuesta
entre sus componentes y estimamos el resultado en la población general.
Pero podemos preguntarnos, ¿es fiable esta estimación?. Y la respuesta
es sí, siempre que empleemos una técnica de muestreo válida que nos permita
obtener una muestra representativa de la población. Todo dependerá de dos
características del muestreo: su exactitud y su precisión.
La exactitud determina la proximidad entre el resultado que obtenemos en
la muestra y el valor real inaccesible en la población y depende del tipo
de muestra elegido. Para que sea exacta, la muestra ha de ser
representativa, lo que quiere decir que la distribución de la variable de
estudio (y de las variables relacionadas) tiene que ser similar a la de la
población. Habitualmente se empieza definiendo el marco muestral, que es el
listado o forma de identificar a los individuos de la población a los que
podemos acceder, llamados unidades de muestreo, y sobre los que se aplicará
el proceso de selección. Pensemos, por ejemplo, en un censo de población,
un listado de historias clínicas, etc. La elección del marco debe hacerse
de forma muy cuidadosa, ya que condicionará la interpretación de los
resultados.
Por otra parte, la precisión depende del tamaño de la muestra y de la
variabilidad entre los participantes, como recordaréis de la fórmula de los
intervalos de confianza (IC95% = valor ± 1.96 x error estándar). Como el
error estándar es el cociente de la desviación típica entre la raíz
cuadrada del tamaño de la muestra (n), a mayor desviación típica o menor
tamaño de muestra, mayor amplitud del intervalo de confianza y menor
precisión. Pero esto es una verdad a medias que solo sirve si asumimos que
la población tiene una tamaño infinito porque, en realidad, el error
estándar debe multiplicarse por un factor de corrección, para muestras
finitas, que tenga en cuenta el tamaño de la población (N), con lo que la
verdadera fórmula del intervalo sería la siguiente:
¡Alto!. Ahora no aceleréis el
ritmo de lectura porque haya escrito una fórmula y volved a mirarla para
contemplar, una vez más, la magia del teorema central del límite, el Sancta
Sanctórum de la inferencia estadística. Si la población (N) es muy grande,
el cociente rápidamente se hace casi cero y el error se multiplica casi por
uno, con lo cual prácticamente el intervalo no cambia. Y esto no es ninguna
tontería, ya que explica por qué con una muestra de 1200 votantes podemos
estimar, con muy poco margen de error, tanto las elecciones para alcalde de
Nueva York, como las de presidente de EE.UU. o las de emperador del Mundo
mundial, si lo tuviésemos (siempre, claro está, que cada muestra sea
representativa de cada censo electoral). Por otra parte, si n se va
aproximando a N, el factor de corrección se aproxima a cero y el intervalo
se va haciendo cada vez más estrecho. Esto explica que, si n=N, el valor
que obtenemos coincide con el real de la población, según el teorema de
Pero Grullo.
Así que, siendo tal el poder de una insignificante muestra, a nadie
puede extrañar que sean diversas las formas de elegirla. Las primeras que
vamos a ver son las técnicas de muestreo probabilístico, en las que todos
los sujetos tienen una probabilidad conocida, distinta de cero, de ser
seleccionados, aunque no es obligatorio que todos tengan la misma
probabilidad. Normalmente se utilizan métodos aleatorios para la selección,
con lo que se evita la subjetividad del investigador y se minimiza la
posibilidad de que, por azar, la muestra no sea representativa, lo que se
conoce como error aleatorio o de muestreo. Como siempre, no podemos
desembarazarnos del azar, pero sí cuantificarlo.
El más conocido es el muestreo aleatorio simple, en el que cada unidad
muestral del marco tiene la misma probabilidad de ser elegido. Lo más
frecuente es realizar un muestreo sin sustitución, que quiere decir que,
una vez elegido, el participante no se reintegra a la población para que no
se pueda elegir más de una vez. Para hacer las cosas bien, el proceso de
selección a partir del marco se hace con una tabla de números aleatorios o
un algoritmo informático.
En ocasiones, la variable no se distribuye uniformemente en la
población. En estos casos, para que la muestra sea representativa puede
dividirse la población en estratos y hacer un muestreo aleatorio en cada
estrato. Para poder realizar esta técnica, llamada muestreo aleatorio
estratificado, necesitamos conocer la distribución de la variable en la
población. Además, los estratos deben ser excluyentes entre sí, de forma
que la variabilidad dentro de cada uno sea mínima y la variabilidad entre
estratos sea la mayor posible. Si los estratos tienen un tamaño similar el
muestreo se hace de forma proporcional, pero si alguno es más pequeño puede
sobre representarse e incluir más unidades de muestreo que el resto. El
problema es que el análisis se complica, ya que hay que ponderar los
resultados de cada estrato en función de su contribución al resultado
global, pero los programas estadísticos hacen estas correcciones sin
inmutarse. La ventaja de esta técnica es que las estimaciones que se
obtienen, si se analizan los datos correctamente, son más precisas, ya que
la varianza global se calcula a partir de la de los estratos, que siempre
será menor que la de la población general. Este tipo de muestreo es muy
útil cuando la variable de estudio se influye por otras variables de la
población. Si queremos estudiar, por ejemplo, la prevalencia de cardiopatía
isquémica puede ser útil estratificar por sexo, peso, edad, fumador o no, o
lo que pensemos que pueda influir en el resultado.
Un paso más allá de este enfoque está el del muestreo en etapas
múltiples o muestreo por conglomerados (en clusters, para los que lean
inglés). En este caso la población se divide en unidades primarias de
muestreo que, a su vez, se dividen en unidades secundarias en las que se
lleva a cabo el proceso de selección. Este tipo, con todas las etapas que
nos interese en cada caso, es muy usado en estudios escolares, en los que
se van separando por nivel socioeconómico, tipo de enseñanza, edad, curso o
lo que se nos ocurra. El problema de este diseño, aparte de su complejidad
de implementación y análisis de resultados, es que podemos tener sesgos si
los miembros de una unidad se parecen mucho. Pensad, por ejemplo, que
queremos estudiar la tasa de vacunaciones en una ciudad: dividimos la
ciudad en zonas, de cada zona seleccionamos al azar unas familias y vemos
cuántos niños están vacunados. Lógicamente, si un niño está vacunado
seguramente sus hermanos también lo estarán, con lo que puede
sobreestimarse la tasa de vacunación global de la ciudad si en el muestreo
nos tocan muchas familias numerosas de las zonas con mejor nivel sanitario.
El muestreo sistemático se utiliza con frecuencia en estudios en los que
el marco muestral no existe o es incompleto. Por ejemplo, si queremos
probar un antigripal, no sabemos quién va a contraer la gripe. Elegimos una
constante de aleatorización (k) y esperamos tranquilamente a que lleguen
los enfermos a la consulta. Cuando hayan llegado los k primeros, elegimos
uno al azar y, a partir de ahí, incluimos a uno de cada k que vengan con
gripe hasta completar el tamaño muestral deseado.
En todas las técnicas anteriores se conocía la probabilidad de cada
integrante de la población de ser seleccionado. Sin embargo, esta
probabilidad se desconoce en los modelos no probabilísticos, en los que no
se utilizan métodos aleatorios, por lo que hay que tener especial cuidado
con la representatividad de la muestra y la presencia de sesgos.
El muestreo consecutivo se usa con frecuencia en ensayos clínicos. En el
ejemplo anterior de la gripe podríamos enrolar en el ensayo a los n
primeros que acudiesen a consulta y que cumpliesen los criterios de
inclusión y exclusión del ensayo. Otra posibilidad es la de inclusión de
voluntarios. Esta no es muy recomendable, ya que los sujetos que aceptan
participar en un estudio sin que nadie se lo pida pueden presentar
características que afecten la representatividad de la muestra.
Los especialistas en mercado utilizan mucho el muestreo por cuotas,
seleccionando a los sujetos según la distribución de las variables que a
ellos les interesan, pero este tipo de diseño se emplea poco en medicina.
Y, por último, comentemos el uso de técnicas adaptativas, como el llamado
muestreo en bola de nieve, muestreo en paseos aleatorios o muestreo en red.
Por ejemplo, pensemos que queremos hacer un estudio con adictos a alguna
sustancia ilegal. Nos costará encontrar a los participantes, pero una vez
que encontremos al primero podemos preguntarle si conoce a alguien más que
pudiese participar. Esta técnica que, aunque pueda parecerlo, no me acabo
de inventar, tiene su utilidad para poblaciones muy difíciles de alcanzar.
Y con esto terminamos con las técnicas que tratan de conseguir el tipo
de muestra más adecuado para nuestro estudio. Nos quedaría hablar del
tamaño de la muestra y de cómo debe calcularse previamente al inicio del
estudio para que no sea ni demasiado grande, ni demasiado pequeña. Pero esa
es otra historia…
El rey a examen
Todos sabemos que el ensayo clínico aleatorizado es el rey de los
diseños metodológicos de intervención. Es el tipo de estudio epidemiológico
que permite un mejor control de los errores sistemáticos o sesgos, ya que
el investigador controla las variables del estudio y los participantes son
asignados al azar entre las intervenciones que se comparan. Se entiende
entonces que el ensayo clínico, bien de forma directa o como parte de un
metaanálisis, constituya la prueba de mejor calidad científica para apoyar
(o no) la eficacia de una intervención y que sea el diseño preferente de
los estudios científicos sobre tratamiento.
Claro que esto no quiere decir que cuando veamos que un artículo nos
cuenta un ensayo clínico nos podamos relajar y darlo por bueno. El ensayo
clínico puede también contener sus trampas y argucias, por lo que, como con
cualquier otro tipo de trabajo, será buena práctica realizar una lectura
crítica del mismo, basándonos en nuestros tres pilares: validez,
importancia y aplicabilidad.
Como siempre, a la hora de estudiar el rigor científico o VALIDEZ, nos
fijaremos primero en una serie de criterios primarios imprescindibles. Si
estos no se cumplen, mejor no perder el tiempo con el trabajo y buscar otro
más provechoso.
¿Existe un pregunta clínica claramente definida?. Se debe plantear una
hipótesis de trabajo con sus correspondientes hipótesis nula y alternativa,
a ser posible sobre un tema relevante desde el punto de vista clínico. Es
preferible que el estudio trate de responder solo a una pregunta. Cuando se
quiere responder a varias suele complicarse el estudio en exceso para
acabar no contestando ninguna de forma completa y adecuada.
¿Se realizó la asignación de forma aleatoria?. Para poder afirmar que
las diferencias entre los grupos se deben a la intervención es necesario
que sean homogéneos. Esto se consigue asignando los pacientes al azar,
única forma de controlar las variables confusoras conocidas y, más
importante, también las que desconocemos. Si los grupos fueran distintos y
atribuyésemos la diferencia únicamente a la intervención podríamos incurrir
en un sesgo de confusión. El ensayo debe contener una tabla con la
frecuencia de aparición de las variables demográficas y de confusión de
ambas muestras para estar seguros de que los grupos son homogéneos. Un
error frecuente es buscar las diferencias entre los dos grupos y valorarlas
según su p, cuando sabemos que la p no mide homogeneidad. Si los hemos
repartido al azar, cualquier diferencia que observemos se deberá
obligatoriamente al azar (no necesitaremos una p para saberlo). El tamaño
muestral no está pensado para discriminar entre las variables demográficas,
por lo que una p no significativa puede indicar simplemente que la muestra
es pequeña para verla. Por otro lado, cualquier mínima diferencia puede
alcanzar significación estadística si la muestra es lo suficientemente
grande. Así que olvidaos de la p: si hay alguna diferencia, lo que hay que
hacer es valorar si tiene la relevancia clínica suficiente como para poder
haber influido en los resultados.
Hay que considerar también si la secuencia de aleatorización se hizo de
forma correcta. El método utilizado debe garantizar que todos los
componentes de la población seleccionada tengan la misma probabilidad de
ser elegidos, por lo que se prefieren las tablas de números aleatorios o
secuencias generadas por ordenador. Y aquí pasa algo muy curioso: resulta
que es bien conocido que la aleatorización produce muestras de diferente
tamaño, sobre todo si las muestras son pequeñas, motivo por el que a veces
se usan muestras aleatorizadas por bloques balanceados en tamaño. Y yo os
pregunto, ¿cuántos estudios habéis leído con el mismo número de
participantes en las dos ramas y que afirmaban ser aleatorizados?.
Desconfiad si veis grupos iguales, sobre todo si son pequeños. Además, la
aleatorización debe ser oculta, de forma que no se pueda saber a qué grupo
va a pertenecer el siguiente participante. Por eso se prefieren los
sistemas centralizados vía telefónica o a través de Internet.
También es importante que el seguimiento haya sido completo, de forma
que todo participante que entre en el estudio tiene que ser tenido en
cuenta al finalizar. Si las pérdidas superan el 20%, se admite que hay que
valorar su efecto en los resultados. Lo más habitual suele ser el llamado
escenario del peor de los casos: se supone que todas las pérdidas del grupo
control han ido bien y todas las del grupo de intervención han ido mal y se
repite el análisis para comprobar si las conclusiones se modifican, en cuyo
caso la validez del estudio quedaría seriamente comprometida. El último
aspecto importante es considerar si los pacientes que no han recibido el
tratamiento previamente asignado (siempre hay alguno que no se entera y
mete la pata) se han analizado según la intención de tratamiento, ya que es
la única forma de preservar todos los beneficios que se obtienen con la
aleatorización.
Una vez comprobados estos criterios primarios, nos fijaremos en tres
criterios secundarios que influyen en la validez interna. Habrá que
comprobar que los grupos fueran similares al inicio del estudio (ya hemos
hablado de la tabla con los datos de los dos grupos), que se llevó a cabo
el enmascaramiento de forma adecuada como forma de control de sesgos y que
los dos grupos fueron manejados y controlados de forma similar a excepción,
claro está, de la intervención en estudio.
Pasaremos a continuación a considerar cuáles son los resultados del
estudio para calibrar su IMPORTANCIA clínica. Habrá que determinar las
variables medidas para ver si el trabajo expresa de forma adecuada la
magnitud y la precisión de los resultados. Es importante, una vez más, no
conformarnos con que nos inunden con múltiples p llenas de ceros. Recordad
que la p solo nos indica la probabilidad de que estemos dando como buenas
diferencias que solo existen por azar (o, dicho con elegancia, de cometer
un error de tipo 1), pero que significación estadística no tiene porqué ser
sinónimo de relevancia clínica.
En el caso de variables continuas como tiempo de supervivencia, peso,
tensión arterial, etc, lo habitual será expresar la magnitud de los
resultados como diferencia de medias o de medianas, dependiendo de cuál sea
la medida de centralización más adecuada. Sin embargo, en casos de
variables dicotómicas (vivo o muerto, sano o enfermo, etc) se utilizarán el
riesgo relativo, su reducción relativa y absoluta y el número necesario a
tratar (NNT). De todas ellas, la que mejor expresa la eficiencia clínica es
siempre el NNT. Cualquier trabajo digno de nuestra atención debe
proporcionar estos datos o, en su defecto, la información necesaria para
que podamos calcularlos.
Pero para permitir conocer una estimación más real de los resultados en
la población necesitamos saber la precisión del estudio, y nada más fácil
que recurrir a los intervalos de confianza. Estos intervalos, además de la
precisión, nos informan también de la significación estadística. Será
estadísticamente significativo si el intervalo del riesgo relativo no
incluye el uno y el del NNT el cero. En el caso de que los autores no nos
los proporcionen, podemos utilizar una calculadora para obtenerlos, como
las disponibles en la web de CASPe.
Para finalizar la lectura crítica de un trabajo de tratamiento
valoraremos su APLICABILIDAD, para lo cual nos tendremos que preguntar si
los resultados pueden generalizarse a nuestros pacientes o, dicho de otro
modo, si existe alguna diferencia entre nuestros pacientes y los del
estudio que impida la generalización de los resultados. Hay que tener en
cuenta en este sentido que cuánto más estrictos sean los criterios de
inclusión de un estudio, más difícil será generalizar sus resultados,
comprometiéndose así su validez externa.
Pero, además, debemos considerar si se han tenido en cuenta todos los
resultados clínicamente importantes, incluyendo efectos secundarios e
indeseables. La variable de resultado medida debe ser importante para el
médico y para el paciente. No hay que olvidar que el hecho de que demostrar
que la intervención sea eficaz no significa obligatoriamente que sea
beneficiosa para nuestros pacientes. Habrá que valorar también los efectos
nocivos o molestos y estudiar el balance beneficios-costes-riesgos, así
como las dificultades que puedan existir para aplicar el tratamiento en
nuestro medio, las preferencias del paciente, etc.
Para terminar, recomendaros que utilicéis alguna de las
herramientas disponibles para lectura crítica, como las plantillas CASPe, o
una lista de verificación, como la CONSORT, para no dejaros ninguno de
estos puntos sin considerar. Eso sí, todo lo que hemos hablado se refiere a
ensayos clínicos aleatorizados y controlados, ¿Y qué pasa si se trata de
ensayos no aleatorizados o de otra clase de estudios cuasiexperimentales?.
Pues para eso se siguen otra serie de normas, como pueden ser las de la
declaración TREND. Pero esa es otra historia…
Descargar