Significación estadística

Anuncio
cALidad
Significación
estadística
n José Navas Sanz de Santamaría
Médico. Director de la Fundación Cosme y Damián
C
uando se habla de estadística o se lee en la diferentes publicaciones
científicas sobre los resultados de su aplicación, la mayoría de
los médicos experimentamos inseguridad y desconfianza,
quizás porque durante nuestra formación universitaria siempre
la vimos como ajena a la cultura médica o quizás porque en su
enseñanza se hizo hincapié en su razonamiento matemático y
no en la comprensión de sus alcances y beneficios. Trataremos en este artículo
de revisar la esencia de las pruebas estadísticas y su papel en la toma de las
decisiones clínicas.
centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009
En general, cada vez que se adjudica un adjetivo
calificativo a algo o a alguien, implícitamente se
está haciendo una comparación. Así, por ejemplo,
cuando se habla de que determinado individuo es
alto o gordo, se está haciendo una comparación
con el promedio de altura o de masa corporal de la
población. De igual manera, en el ámbito médico,
cuando se afirma que un paciente es hipertenso o
diabético, se están comparando su presión arterial
o su concentración glicemia con unos patrones
ponderados de valores extraídos de la población
general.
Sin embargo, cuando se hacen estas comparaciones, lo que se busca encontrar es si existen o
no diferencias entre los grupos que se están comparando. De este modo, si quisiera decidir sobre
4
la conveniencia de utilizar un nuevo antibiótico
en la profilaxis perioperatoria, debo compararlo
o buscar la evidencia que lo compare con el
antibiótico que se acepta regularmente, pues se
espera encontrar que los resultados al utilizar los
dos antibióticos sean diferentes (quizás mejor el
nuevo). Es importante aclarar que no encontrar
diferencias no significa que sean iguales.
Cuando efectivamente se encuentra diferencia
a favor de uno, es importante tener en mente
que la diferencia puede provenir de tres orígenes
diferentes:
• Porque hay diferencia real entre los antibióticos.
• Porque la diferencia es producida por un sesgo,
sin haber diferencia real.
Porque la diferencia fue ocasionada por el
azar.
La primera razón no requiere explicación,
porque es obvia, pero a ella es casi imposible llegar
sin haber descartado los sesgos y el azar como
causa o factor contributivo importante de la diferencia. El sesgo se define como cualquier proceso
que aparta sistemáticamente los resultados de la
verdad o que usualmente falsea los resultados. La
diferencia encontrada fue inducida por factores
distintos al antibiótico.
Para entender mejor el concepto, ilustramos
las dos clases más frecuentes de sesgos. Si como
estrategia para introducir una nueva máquina de
afeitar al mercado (Super In) se realiza un estudio
que la compara con una máquina tradicional (Rapidbarba) y en la asignación de sujetos se escoge
un grupo de profesionales para usar la Super In
(grupo de estudio) y un grupo de indigentes para
probar la Rapidbarba (grupo control) y el estudio
demuestra que hubo muchas menos cortadas al
rasurarse con la Super In, la pregunta que debe
hacerse es si realmente es mejor la Super In, en
términos de cortadas, o si solamente por la gran
diferencia de los grupos (indigentes vs. profesionales), independiente de la máquina, la frecuencia
de cortadas iba a ser mayor.
La respuesta, por supuesto, es que de entrada
la posibilidad de cortarse al afeitarse era mucho
mayor entre los indigentes y quizás el resultado del
estudio hubiera sido el mismo, independientemente de cuál máquina de afeitar usaran. Es decir, los
individuos del grupo de estudio eran diferentes de
los individuos del grupo control, y esto se conoce
como sesgo de asignación.
es un radiólogo, quien además no tiene experiencia
en identificar los puntos de referencia clínica para
la medición, nuevamente encontraremos diferencias entre los grupos, esta vez ocasionados por un
sesgo del observador.
La mejor forma de controlar estos y otros sesgos es a través del uso de un diseño adecuado de
estudio, que incluya el mayor grado de cegamiento
posible (triple o cuádruple ciego).
La tercera razón para explicar las diferencias
entre dos grupos es la influencia que el azar
tiene en los resultados. El azar se define como la
variación fortuita de una medida y es la causa por
la cual si se lanza una moneda al aire, no siempre
cae igual número de veces en cara y en sello. De
hecho, si se lanza al aire 10 veces resulta, sin estar
viciada la moneda, que cae tres o cuatro veces
en cara y seis o siete veces en sello, o viceversa,
solamente por azar.
En medicina ocurre lo mismo. Si repetimos
una medición, así esté siempre bien ejecutada,
obtendremos resultados sutilmente distintos
solamente por azar, y por ello cuando se encuentran diferencias entre dos grupos en un estudio,
es indispensable conocer la probabilidad de que
estas hayan ocurrido solamente por azar antes de
aceptarlas como reales.
A diferencia de los sesgos, el azar no se puede
evitar, pero sí medir. Así, todas las pruebas estadísticas (T de Student, chi cuadrado, Anova, etc.)
sirven para cuantificar la probabilidad de que las
diferencias encontradas sean producto de azar.
Si volvemos a utilizar el ejemplo de la medición
clínica de la longitud de los miembros inferiores
y la repetimos varias veces, encontraremos una
variación de resultados (77,5 a 79,5 cm) alrededor
de la medida real (78 cm), que podría atribuirse al
azar; mientras que si el metro utilizado es más corto, tendremos la misma variación pero alrededor
de una medida errada (76 cm), ocasionada por un
sesgo de medición (Gráfico 1).
La aplicación de las pruebas estadísticas arroja
un resultado numérico que representa la probabilidad porcentual de que la diferencia encontrada sea
producto del azar. Se expresa con una p (abreviatura de probabilidad) seguida de un decimal (p<0,01;
p<0,05, etc.), para significar que la probabilidad
del azar es menor del 1% en el primer caso y del
5% en el segundo (equivale a la probabilidad de
error al rechazar la hipótesis nula).
Gráfico 1
Intervención del azar en la medida de la longitud real de miembros inferiores
centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009
•
El segundo sesgo más frecuente es el sesgo
de medición, donde las variables se miden siempre mal. Por ejemplo, si queremos constatar la
exactitud de la medición clínica de la longitud de
los miembros inferiores y la comparamos contra la
medición radiológica (test de Farril), pero al metro
que utilizamos le faltan centímetros en la punta,
siempre encontraremos que hay diferencias en las
mediciones, porque el instrumento que utilizamos
(metro) siempre mide mal (sesgo del instrumento).
En el mismo ejemplo, si quien hace las mediciones
5
calidad
la variación entre diferentes muestras de una
misma población.
¿Cuál es el valor de p necesario? La respuesta a
esta pregunta es imposible de precisar con certeza,
pero la comunidad internacional ha establecido
arbitrariamente que probabilidades inferiores al
5% (p<0,05) pueden ser aceptables en la mayoría
de las investigaciones en salud; sin embargo, este
acuerdo no puede ser absoluto, porque el valor de
p deseado está condicionado por el impacto que
el resultado del estudio produzca, como veremos
más adelante.
Por otra parte, existe la tendencia universal a
pensar que si los valores de p son bajos (p<0,05
o p<0,01), los resultados del estudio son científicamente verdaderos, y de manera inversa:
si los valores de p son altos, los resultados son
un engaño. Por ello es importante recalcar, una
vez más, que las pruebas estadísticas solamente
cuantifican la probabilidad de que las diferencias
encontradas en el estudio hayan aparecido por
el azar, pero nunca hablan de que los resultados
sean verdaderos o no o que sean más o menos
importantes o trascendentes.
centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009
En consecuencia, expresiones como altamente
significativo no parecen tener cabida al hablar de
significación estadística, y su ponderación debe
analizarse en conjunto con todas las características
del estudio y a la luz del impacto de los resultados.
Además, la utilización de estos valores p (pruebas
de hipótesis) tiene limitaciones como no ilustrar
la magnitud ni la dirección de la diferencia encontrada.
De ahí que recientemente haya venido ganando popularidad el uso de los intervalos de confianza (IC) (pruebas de estimación) que no solamente
informan sobre la relación estadística, sino que
ilustran la magnitud y la dirección de la diferencia
encontrada y la variabilidad del resultado.
Los intervalos de confianza son una medida
de dispersión que representa un rango de valores
dentro de los cuales se espera que esté el resultado
verdadero. Los dos valores que definen el intervalo
se llaman límites de confianza. Se sustentan en
que si un mismo estudio se repitiera con diferentes muestras de la población, los resultados no
serían idénticos, aunque sí estarían distribuidos
alrededor de un valor real. El IC estima entonces
6
La precisión estadística del resultado se expresa
con un IC del 95%. Esto quiere decir que si el estudio fue bien hecho (control de sesgos), hay una
posibilidad del 95% de que el intervalo contenga el
verdadero valor. La magnitud del IC depende de la
variabilidad del fenómeno que se esté estudiando
y del tamaño de la muestra.
(...) expresiones como
altamente significativo
no parecen tener cabida
al hablar de significación
estadística, y su ponderación
debe analizarse en conjunto
con todas las características
del estudio y a la luz del
impacto de los resultados.
Además, la utilización de
estos valores p (pruebas de
hipótesis) tiene limitaciones
como no ilustrar la magnitud
ni la dirección de la
diferencia encontrada.
Las fórmulas que se utilizan para calcularlo
son diferentes si se trata de una frecuencia o de
un riesgo, pero siempre en el numerador estará
la variabilidad de la medida y en el denominador
el tamaño de la muestra. Entre menor la variabilidad y mayor el tamaño de la muestra (poder del
estudio), más estrecho y, por lo tanto, más preciso
será el IC.
Estos IC se interpretan en forma similar a
la significancia estadística (valor de p), es decir,
cuando los IC de dos medidas de frecuencia se
superponen o cuando en un estudio de riesgo el IC
incluye el uno (no efecto), se dice que la diferencia
no es estadísticamente significativa. Sin embargo, a
diferencia de los valores de p, los IC proporcionan
información adicional porque hacen énfasis en lo
importante, es decir, en la magnitud del efecto
(cuantificación). Además, sirven para evaluar la
dirección del resultado, que el solo valor de p no
indica. Son, por lo tanto, más completos y útiles
que el valor de p, pues permiten caracterizar los
resultados, en lugar de simplemente describirlos.
Veamos dos ejemplos que ilustran varias formas
de uso e interpretación de los IC. El primero (1) se
trata de un estudio de prevalencia de fumadores en
los estudiantes de pregrado de una facultad de medicina. Del total de 900 estudiantes, un investigador
escogió al azar, mediante un sorteo, una muestra
de 100. En esta encontró una prevalencia de fumadores del 25%, y como la muestra fue seleccionada
aleatoriamente, concluye que la prevalencia para la
totalidad de la población es la misma.
Ahora preguntémonos, ¿qué pasaría si se
escogiera una segunda o una tercera muestra
de 100 estudiantes? ¿El resultado sería idéntico?
Seguramente no. En cada nueva muestra habría
Gráfico 2
resultados de estas pruebas estadísticas son: (1)
calidad del diseño del estudio, (2) marco conceptual
vigente y (3) balance riesgo-beneficio.
Riesgos relativos e IC de cuatro posibles desenlaces en mujeres
inicialmente sanas manejadas con hormonas
La calidad del diseño de investigación que
se utilizó es de vital importancia, ya que a través
de este se logra tener un control adecuado de
los sesgos, y como lo explicamos anteriormente,
cuando existen sesgos (asignación, medición, etc.)
que por sí solos sean capaces de alterar los resultados, resulta inoficioso determinar la probabilidad
de azar. Aún peor, si existen sesgos importantes
que desvirtúan el estudio, ninguna cantidad de
estadística podrá validarlos y su utilización solamente podrá disfrazarlos de credibilidad (validez
metodológica).
desenlace
accidente cerebro-vascular
Fractura de cadera
cáncer de seno
cáncer de endometrio
1
2
riesgo relativo
pequeñas variaciones. Hipotéticamente, cada vez
que se repita el estudio, se obtendría una prevalencia ligeramente diferente, pero el promedio de
ellas correspondería a la verdadera prevalencia de
la población.
Los IC le permiten al investigador, con los datos
de una sola muestra, determinar los rangos dentro
de los cuales estaría la verdadera prevalencia de
la población con una confianza del 90%, 95% o
99%, según se prefiera en el análisis. Utilizando
una fórmula para obtener un IC del 95% en este
ejemplo, con 100 estudiantes como tamaño de
muestra, los límites de confianza irían entre 16,5% y
33,5%. Si se aumentara el tamaño de muestra a 400
estudiantes, el IC del 95% sería menor, y por lo tanto
más preciso, estaría entre 20,8% y 29,5%.
El segundo ejemplo (2) se trata de un estudio
publicado en la revista JAMA en 2002 por parte
de los investigadores del grupo Women’s Health
Initiative, en el que mediante un experimento
aleatorizado y controlado se midieron los efectos en
el tiempo de la toma de estrógenos más progestina
(EP) en la salud de mujeres sanas posmenopáusicas
(Gráfico 2).
La representación gráfica es muy útil para
analizar los resultados. Por ejemplo, se puede
apreciar que la ingesta de EP es un factor de riesgo
para accidente cerebro-vascular (ACV). El mejor
estimativo del riesgo está representado en el círculo
que equivale a un riesgo relativo de 1,41, con un
intervalo que va desde un riesgo tan bajo como 1,07
o tan alto como 1,85. Cuando se mira la relación de
la toma de EP con fracturas de cadera, sucede lo
contrario; en este caso la medicación tiene un factor
protector, como se puede constatar al observar todo
el intervalo por debajo de uno.
En general, si los resultados de un estudio van
contra el sentido común, a pesar de mostrar valores
de p significativos, es mejor ser cautos o moderadamente escépticos y esperar nuevos estudios.
Por el contrario, si los resultados concuerdan con
el sentido común, a pesar de tener valores de p no
significativos, probablemente es acertado darles el
beneficio de la duda.
Aunque el riesgo de cáncer de seno parece
estar aumentado, el límite inferior del intervalo
incluye el uno (no efecto), por lo que no se podría
concluir en forma estadísticamente significativa que
esta droga es verdaderamente un riesgo para esta
enfermedad. Finalmente, en relación con el cáncer
de endometrio, el estudio es poco informativo, pues
el IC, además de incluir el uno, es tan amplio que
con el seguimiento se podría esperar cualquier cosa
entre beneficio o riesgo.
Mirado desde otra perspectiva: cuando los
resultados de un estudio que además de tener
lógica fisiopatológica y un beneficio importante
tienen valores de p grandes, vale la pena confirmar si el tamaño de la muestra fue suficiente para
poder encontrar diferencias significativas. Por
el contrario, cuando el tamaño de la muestra es
muy grande, se debe ser cauteloso, porque pueden mostrar significación estadística en variables
clínicamente triviales.
Los tres grandes requisitos necesarios de
un estudio para poder válidamente ponderar los
Finalmente, el tercer criterio para ponderar los
resultados de la aplicación de pruebas estadísticas
7
centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009
0
El segundo requisito que debe cumplir un
estudio es que tenga un marco conceptual vigente, esto es, que se ajuste la lógica fisiopatológica
respaldada en publicaciones previas. Esta vigencia
conceptual, a pesar de ser un criterio moderadamente subjetivo, protege de aceptar resultados de
estudios cuyo contenido es discretamente extraño
y, por lo tanto, nos puede inducir a apoyarnos
principalmente en los métodos estadísticos para
aceptarlo (validez científica).
calidad
a un estudio es el necesario balance entre el riesgo
y el beneficio que se debe asumir al aceptar o
rechazar los resultados. Así, entre más alto sea
el riesgo potencial y más marginal el beneficio
esperado, se precisa mayor seguridad de que el
beneficio demostrado es real y no producto del azar,
y por ello se requieren de niveles de significación
mayores (p<0,01).
Hoy en día, en medicina, estamos continuamente expuestos a que se utilice, de manera amañada,
este concepto de significación clínica, para inducirnos
a utilizar productos cuya efectividad y seguridad
no ha sido científicamente comprobada, pero que
bajo el concepto de que no hacen daño pretenden
recomendar su utilización por el potencial, no comprobado, beneficio.
Si se encuentra un experimento clínico aleatorizado, donde se compara un nuevo fármaco para
el tratamiento de la artritis reumatoidea (ácido
milagrónico) con el ácido acetilsalicílico, y al cabo
de dos años de seguimiento se encuentra que hubo
cuatro curaciones en el grupo de estudio (ácido milagrónico) y ninguna en el grupo control (p<0,3, no
significativo estadísticamente) y, además, no hubo
efectos colaterales y los efectos antiinflamatorios
fueron iguales en los dos grupos, ¿será suficiente
la evidencia? ¿Debo darle ácido milagrónico a los
próximos pacientes que consulten por artritis reumatoidea? Para contestar estas preguntas el raciocinio
que uno está obligado a hacer es:
Hablo, por supuesto, de buena parte de la medicina naturista que utilizando diseños de investigación
muy débiles, anécdotas y, en la mejor de los casos
reporte de casos, nos induce a pensar que cualquier
beneficio, aunque no esté demostrado, es aceptable
dado el riesgo mínimo de la intervención (lo natural
no hace daño), aunque tampoco esté demostrado.
•
•
centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009
•
¿Cuáles son los beneficios potenciales? 10% de
curación para una enfermedad en que no se conoce tratamientos curativos, pero las diferencias
no fueron estadísticamente significativas.
¿Cuáles son los riesgos potenciales? En el estudio no se encontraron efectos colaterales en
ninguno de los grupos y sabemos que el ASA
sí los tiene en el aparato digestivo.
¿Cuánta seguridad estoy dispuesto a cambiar
por el beneficio? La respuesta a esta pregunta,
que resume las dos anteriores, se ha denominado significación clínica y es el ejercicio que
diariamente hacemos en la práctica cuando
decidimos cualquier intervención médica. Así,
optamos por administrar anticoagulantes, debemos aceptar un riesgo de sangrado para obtener
el beneficio de prevenir una embolia pulmonar,
o al indicar un determinado antibiótico y su
potencial nefrotoxicidad.
(...) es frecuente en la
literatura médica la utilización
tendenciosa del método
científico (seudociencia).
Con pruebas insuficientes,
desconocimiento de
evidencias contrarias
y usando diseños de
También es frecuente en la literatura médica la
utilización tendenciosa del método científico (seudociencia). Con pruebas insuficientes, desconocimiento
de evidencias contrarias y usando diseños de investigación inapropiados, pretenden demostrar unas
diferencias y persuadirnos mediante la estadística
de aceptarlas.
mediante la estadística de
En resumen, los métodos estadísticos no son
herramientas para convencer o engañar y no sustituyen los demás criterios. Solamente cuantifican
la posibilidad de que el azar nos induzca a aceptar
lo falso como verdadero (error α) o a rechazar lo
verdadero como falso (error β). Por ello deben
utilizarse de la misma forma que un borracho usa el
poste de la luz: no tanto para alumbrar como para
ayudar a soportar.
aceptarlas.
Referencias
investigación inapropiados,
pretenden demostrar unas
diferencias y persuadirnos
1.Lozano JM, Dennis R. Medidas de frecuencia, de asociación y de impacto. En Ruiz A, Gómez C y Londoño
D, editores. Investigación clínica: epidemiología clínica
aplicada. Bogotá: Centro Editorial Javeriano (CEJA);
2001. p. 95-112.
2. Fletcher R, Fletcher SW. Clinical epidemiology: the
Essentials. Baltimore: Lippincott; 2005.
Bibliografía
En el análisis de un estudio hacemos lo mismo.
Nos preguntamos ¿cuánto riesgo de que el resultado no sea verdadero (que las diferencias entre el
grupo de estudio y el grupo control no sean reales)
estoy dispuesto a asumir a cambio del beneficio
potencial?
8
Gehlbach SH. Interpreting the medical literature. New York:
McGraw-Hill; 1993.
Sackett D, Straus S, Richardson WS, Rosemberg W, Haynes
RB. Evidence-based medicine: how to practice and
teach EBM. New York: Churchill Livingston; 2000.
Sackett DL, Haynez RB, Guyat GR, Tugwell P. Clinical
aepidemiology: a basic science fro clinical medicine.
Boston: Little Brown & Company; 1991.
Descargar