cALidad Significación estadística n José Navas Sanz de Santamaría Médico. Director de la Fundación Cosme y Damián C uando se habla de estadística o se lee en la diferentes publicaciones científicas sobre los resultados de su aplicación, la mayoría de los médicos experimentamos inseguridad y desconfianza, quizás porque durante nuestra formación universitaria siempre la vimos como ajena a la cultura médica o quizás porque en su enseñanza se hizo hincapié en su razonamiento matemático y no en la comprensión de sus alcances y beneficios. Trataremos en este artículo de revisar la esencia de las pruebas estadísticas y su papel en la toma de las decisiones clínicas. centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009 En general, cada vez que se adjudica un adjetivo calificativo a algo o a alguien, implícitamente se está haciendo una comparación. Así, por ejemplo, cuando se habla de que determinado individuo es alto o gordo, se está haciendo una comparación con el promedio de altura o de masa corporal de la población. De igual manera, en el ámbito médico, cuando se afirma que un paciente es hipertenso o diabético, se están comparando su presión arterial o su concentración glicemia con unos patrones ponderados de valores extraídos de la población general. Sin embargo, cuando se hacen estas comparaciones, lo que se busca encontrar es si existen o no diferencias entre los grupos que se están comparando. De este modo, si quisiera decidir sobre 4 la conveniencia de utilizar un nuevo antibiótico en la profilaxis perioperatoria, debo compararlo o buscar la evidencia que lo compare con el antibiótico que se acepta regularmente, pues se espera encontrar que los resultados al utilizar los dos antibióticos sean diferentes (quizás mejor el nuevo). Es importante aclarar que no encontrar diferencias no significa que sean iguales. Cuando efectivamente se encuentra diferencia a favor de uno, es importante tener en mente que la diferencia puede provenir de tres orígenes diferentes: • Porque hay diferencia real entre los antibióticos. • Porque la diferencia es producida por un sesgo, sin haber diferencia real. Porque la diferencia fue ocasionada por el azar. La primera razón no requiere explicación, porque es obvia, pero a ella es casi imposible llegar sin haber descartado los sesgos y el azar como causa o factor contributivo importante de la diferencia. El sesgo se define como cualquier proceso que aparta sistemáticamente los resultados de la verdad o que usualmente falsea los resultados. La diferencia encontrada fue inducida por factores distintos al antibiótico. Para entender mejor el concepto, ilustramos las dos clases más frecuentes de sesgos. Si como estrategia para introducir una nueva máquina de afeitar al mercado (Super In) se realiza un estudio que la compara con una máquina tradicional (Rapidbarba) y en la asignación de sujetos se escoge un grupo de profesionales para usar la Super In (grupo de estudio) y un grupo de indigentes para probar la Rapidbarba (grupo control) y el estudio demuestra que hubo muchas menos cortadas al rasurarse con la Super In, la pregunta que debe hacerse es si realmente es mejor la Super In, en términos de cortadas, o si solamente por la gran diferencia de los grupos (indigentes vs. profesionales), independiente de la máquina, la frecuencia de cortadas iba a ser mayor. La respuesta, por supuesto, es que de entrada la posibilidad de cortarse al afeitarse era mucho mayor entre los indigentes y quizás el resultado del estudio hubiera sido el mismo, independientemente de cuál máquina de afeitar usaran. Es decir, los individuos del grupo de estudio eran diferentes de los individuos del grupo control, y esto se conoce como sesgo de asignación. es un radiólogo, quien además no tiene experiencia en identificar los puntos de referencia clínica para la medición, nuevamente encontraremos diferencias entre los grupos, esta vez ocasionados por un sesgo del observador. La mejor forma de controlar estos y otros sesgos es a través del uso de un diseño adecuado de estudio, que incluya el mayor grado de cegamiento posible (triple o cuádruple ciego). La tercera razón para explicar las diferencias entre dos grupos es la influencia que el azar tiene en los resultados. El azar se define como la variación fortuita de una medida y es la causa por la cual si se lanza una moneda al aire, no siempre cae igual número de veces en cara y en sello. De hecho, si se lanza al aire 10 veces resulta, sin estar viciada la moneda, que cae tres o cuatro veces en cara y seis o siete veces en sello, o viceversa, solamente por azar. En medicina ocurre lo mismo. Si repetimos una medición, así esté siempre bien ejecutada, obtendremos resultados sutilmente distintos solamente por azar, y por ello cuando se encuentran diferencias entre dos grupos en un estudio, es indispensable conocer la probabilidad de que estas hayan ocurrido solamente por azar antes de aceptarlas como reales. A diferencia de los sesgos, el azar no se puede evitar, pero sí medir. Así, todas las pruebas estadísticas (T de Student, chi cuadrado, Anova, etc.) sirven para cuantificar la probabilidad de que las diferencias encontradas sean producto de azar. Si volvemos a utilizar el ejemplo de la medición clínica de la longitud de los miembros inferiores y la repetimos varias veces, encontraremos una variación de resultados (77,5 a 79,5 cm) alrededor de la medida real (78 cm), que podría atribuirse al azar; mientras que si el metro utilizado es más corto, tendremos la misma variación pero alrededor de una medida errada (76 cm), ocasionada por un sesgo de medición (Gráfico 1). La aplicación de las pruebas estadísticas arroja un resultado numérico que representa la probabilidad porcentual de que la diferencia encontrada sea producto del azar. Se expresa con una p (abreviatura de probabilidad) seguida de un decimal (p<0,01; p<0,05, etc.), para significar que la probabilidad del azar es menor del 1% en el primer caso y del 5% en el segundo (equivale a la probabilidad de error al rechazar la hipótesis nula). Gráfico 1 Intervención del azar en la medida de la longitud real de miembros inferiores centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009 • El segundo sesgo más frecuente es el sesgo de medición, donde las variables se miden siempre mal. Por ejemplo, si queremos constatar la exactitud de la medición clínica de la longitud de los miembros inferiores y la comparamos contra la medición radiológica (test de Farril), pero al metro que utilizamos le faltan centímetros en la punta, siempre encontraremos que hay diferencias en las mediciones, porque el instrumento que utilizamos (metro) siempre mide mal (sesgo del instrumento). En el mismo ejemplo, si quien hace las mediciones 5 calidad la variación entre diferentes muestras de una misma población. ¿Cuál es el valor de p necesario? La respuesta a esta pregunta es imposible de precisar con certeza, pero la comunidad internacional ha establecido arbitrariamente que probabilidades inferiores al 5% (p<0,05) pueden ser aceptables en la mayoría de las investigaciones en salud; sin embargo, este acuerdo no puede ser absoluto, porque el valor de p deseado está condicionado por el impacto que el resultado del estudio produzca, como veremos más adelante. Por otra parte, existe la tendencia universal a pensar que si los valores de p son bajos (p<0,05 o p<0,01), los resultados del estudio son científicamente verdaderos, y de manera inversa: si los valores de p son altos, los resultados son un engaño. Por ello es importante recalcar, una vez más, que las pruebas estadísticas solamente cuantifican la probabilidad de que las diferencias encontradas en el estudio hayan aparecido por el azar, pero nunca hablan de que los resultados sean verdaderos o no o que sean más o menos importantes o trascendentes. centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009 En consecuencia, expresiones como altamente significativo no parecen tener cabida al hablar de significación estadística, y su ponderación debe analizarse en conjunto con todas las características del estudio y a la luz del impacto de los resultados. Además, la utilización de estos valores p (pruebas de hipótesis) tiene limitaciones como no ilustrar la magnitud ni la dirección de la diferencia encontrada. De ahí que recientemente haya venido ganando popularidad el uso de los intervalos de confianza (IC) (pruebas de estimación) que no solamente informan sobre la relación estadística, sino que ilustran la magnitud y la dirección de la diferencia encontrada y la variabilidad del resultado. Los intervalos de confianza son una medida de dispersión que representa un rango de valores dentro de los cuales se espera que esté el resultado verdadero. Los dos valores que definen el intervalo se llaman límites de confianza. Se sustentan en que si un mismo estudio se repitiera con diferentes muestras de la población, los resultados no serían idénticos, aunque sí estarían distribuidos alrededor de un valor real. El IC estima entonces 6 La precisión estadística del resultado se expresa con un IC del 95%. Esto quiere decir que si el estudio fue bien hecho (control de sesgos), hay una posibilidad del 95% de que el intervalo contenga el verdadero valor. La magnitud del IC depende de la variabilidad del fenómeno que se esté estudiando y del tamaño de la muestra. (...) expresiones como altamente significativo no parecen tener cabida al hablar de significación estadística, y su ponderación debe analizarse en conjunto con todas las características del estudio y a la luz del impacto de los resultados. Además, la utilización de estos valores p (pruebas de hipótesis) tiene limitaciones como no ilustrar la magnitud ni la dirección de la diferencia encontrada. Las fórmulas que se utilizan para calcularlo son diferentes si se trata de una frecuencia o de un riesgo, pero siempre en el numerador estará la variabilidad de la medida y en el denominador el tamaño de la muestra. Entre menor la variabilidad y mayor el tamaño de la muestra (poder del estudio), más estrecho y, por lo tanto, más preciso será el IC. Estos IC se interpretan en forma similar a la significancia estadística (valor de p), es decir, cuando los IC de dos medidas de frecuencia se superponen o cuando en un estudio de riesgo el IC incluye el uno (no efecto), se dice que la diferencia no es estadísticamente significativa. Sin embargo, a diferencia de los valores de p, los IC proporcionan información adicional porque hacen énfasis en lo importante, es decir, en la magnitud del efecto (cuantificación). Además, sirven para evaluar la dirección del resultado, que el solo valor de p no indica. Son, por lo tanto, más completos y útiles que el valor de p, pues permiten caracterizar los resultados, en lugar de simplemente describirlos. Veamos dos ejemplos que ilustran varias formas de uso e interpretación de los IC. El primero (1) se trata de un estudio de prevalencia de fumadores en los estudiantes de pregrado de una facultad de medicina. Del total de 900 estudiantes, un investigador escogió al azar, mediante un sorteo, una muestra de 100. En esta encontró una prevalencia de fumadores del 25%, y como la muestra fue seleccionada aleatoriamente, concluye que la prevalencia para la totalidad de la población es la misma. Ahora preguntémonos, ¿qué pasaría si se escogiera una segunda o una tercera muestra de 100 estudiantes? ¿El resultado sería idéntico? Seguramente no. En cada nueva muestra habría Gráfico 2 resultados de estas pruebas estadísticas son: (1) calidad del diseño del estudio, (2) marco conceptual vigente y (3) balance riesgo-beneficio. Riesgos relativos e IC de cuatro posibles desenlaces en mujeres inicialmente sanas manejadas con hormonas La calidad del diseño de investigación que se utilizó es de vital importancia, ya que a través de este se logra tener un control adecuado de los sesgos, y como lo explicamos anteriormente, cuando existen sesgos (asignación, medición, etc.) que por sí solos sean capaces de alterar los resultados, resulta inoficioso determinar la probabilidad de azar. Aún peor, si existen sesgos importantes que desvirtúan el estudio, ninguna cantidad de estadística podrá validarlos y su utilización solamente podrá disfrazarlos de credibilidad (validez metodológica). desenlace accidente cerebro-vascular Fractura de cadera cáncer de seno cáncer de endometrio 1 2 riesgo relativo pequeñas variaciones. Hipotéticamente, cada vez que se repita el estudio, se obtendría una prevalencia ligeramente diferente, pero el promedio de ellas correspondería a la verdadera prevalencia de la población. Los IC le permiten al investigador, con los datos de una sola muestra, determinar los rangos dentro de los cuales estaría la verdadera prevalencia de la población con una confianza del 90%, 95% o 99%, según se prefiera en el análisis. Utilizando una fórmula para obtener un IC del 95% en este ejemplo, con 100 estudiantes como tamaño de muestra, los límites de confianza irían entre 16,5% y 33,5%. Si se aumentara el tamaño de muestra a 400 estudiantes, el IC del 95% sería menor, y por lo tanto más preciso, estaría entre 20,8% y 29,5%. El segundo ejemplo (2) se trata de un estudio publicado en la revista JAMA en 2002 por parte de los investigadores del grupo Women’s Health Initiative, en el que mediante un experimento aleatorizado y controlado se midieron los efectos en el tiempo de la toma de estrógenos más progestina (EP) en la salud de mujeres sanas posmenopáusicas (Gráfico 2). La representación gráfica es muy útil para analizar los resultados. Por ejemplo, se puede apreciar que la ingesta de EP es un factor de riesgo para accidente cerebro-vascular (ACV). El mejor estimativo del riesgo está representado en el círculo que equivale a un riesgo relativo de 1,41, con un intervalo que va desde un riesgo tan bajo como 1,07 o tan alto como 1,85. Cuando se mira la relación de la toma de EP con fracturas de cadera, sucede lo contrario; en este caso la medicación tiene un factor protector, como se puede constatar al observar todo el intervalo por debajo de uno. En general, si los resultados de un estudio van contra el sentido común, a pesar de mostrar valores de p significativos, es mejor ser cautos o moderadamente escépticos y esperar nuevos estudios. Por el contrario, si los resultados concuerdan con el sentido común, a pesar de tener valores de p no significativos, probablemente es acertado darles el beneficio de la duda. Aunque el riesgo de cáncer de seno parece estar aumentado, el límite inferior del intervalo incluye el uno (no efecto), por lo que no se podría concluir en forma estadísticamente significativa que esta droga es verdaderamente un riesgo para esta enfermedad. Finalmente, en relación con el cáncer de endometrio, el estudio es poco informativo, pues el IC, además de incluir el uno, es tan amplio que con el seguimiento se podría esperar cualquier cosa entre beneficio o riesgo. Mirado desde otra perspectiva: cuando los resultados de un estudio que además de tener lógica fisiopatológica y un beneficio importante tienen valores de p grandes, vale la pena confirmar si el tamaño de la muestra fue suficiente para poder encontrar diferencias significativas. Por el contrario, cuando el tamaño de la muestra es muy grande, se debe ser cauteloso, porque pueden mostrar significación estadística en variables clínicamente triviales. Los tres grandes requisitos necesarios de un estudio para poder válidamente ponderar los Finalmente, el tercer criterio para ponderar los resultados de la aplicación de pruebas estadísticas 7 centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009 0 El segundo requisito que debe cumplir un estudio es que tenga un marco conceptual vigente, esto es, que se ajuste la lógica fisiopatológica respaldada en publicaciones previas. Esta vigencia conceptual, a pesar de ser un criterio moderadamente subjetivo, protege de aceptar resultados de estudios cuyo contenido es discretamente extraño y, por lo tanto, nos puede inducir a apoyarnos principalmente en los métodos estadísticos para aceptarlo (validez científica). calidad a un estudio es el necesario balance entre el riesgo y el beneficio que se debe asumir al aceptar o rechazar los resultados. Así, entre más alto sea el riesgo potencial y más marginal el beneficio esperado, se precisa mayor seguridad de que el beneficio demostrado es real y no producto del azar, y por ello se requieren de niveles de significación mayores (p<0,01). Hoy en día, en medicina, estamos continuamente expuestos a que se utilice, de manera amañada, este concepto de significación clínica, para inducirnos a utilizar productos cuya efectividad y seguridad no ha sido científicamente comprobada, pero que bajo el concepto de que no hacen daño pretenden recomendar su utilización por el potencial, no comprobado, beneficio. Si se encuentra un experimento clínico aleatorizado, donde se compara un nuevo fármaco para el tratamiento de la artritis reumatoidea (ácido milagrónico) con el ácido acetilsalicílico, y al cabo de dos años de seguimiento se encuentra que hubo cuatro curaciones en el grupo de estudio (ácido milagrónico) y ninguna en el grupo control (p<0,3, no significativo estadísticamente) y, además, no hubo efectos colaterales y los efectos antiinflamatorios fueron iguales en los dos grupos, ¿será suficiente la evidencia? ¿Debo darle ácido milagrónico a los próximos pacientes que consulten por artritis reumatoidea? Para contestar estas preguntas el raciocinio que uno está obligado a hacer es: Hablo, por supuesto, de buena parte de la medicina naturista que utilizando diseños de investigación muy débiles, anécdotas y, en la mejor de los casos reporte de casos, nos induce a pensar que cualquier beneficio, aunque no esté demostrado, es aceptable dado el riesgo mínimo de la intervención (lo natural no hace daño), aunque tampoco esté demostrado. • • centro de gestión hospitalaria | víasalud | número 49 | Septiembre de 2009 • ¿Cuáles son los beneficios potenciales? 10% de curación para una enfermedad en que no se conoce tratamientos curativos, pero las diferencias no fueron estadísticamente significativas. ¿Cuáles son los riesgos potenciales? En el estudio no se encontraron efectos colaterales en ninguno de los grupos y sabemos que el ASA sí los tiene en el aparato digestivo. ¿Cuánta seguridad estoy dispuesto a cambiar por el beneficio? La respuesta a esta pregunta, que resume las dos anteriores, se ha denominado significación clínica y es el ejercicio que diariamente hacemos en la práctica cuando decidimos cualquier intervención médica. Así, optamos por administrar anticoagulantes, debemos aceptar un riesgo de sangrado para obtener el beneficio de prevenir una embolia pulmonar, o al indicar un determinado antibiótico y su potencial nefrotoxicidad. (...) es frecuente en la literatura médica la utilización tendenciosa del método científico (seudociencia). Con pruebas insuficientes, desconocimiento de evidencias contrarias y usando diseños de También es frecuente en la literatura médica la utilización tendenciosa del método científico (seudociencia). Con pruebas insuficientes, desconocimiento de evidencias contrarias y usando diseños de investigación inapropiados, pretenden demostrar unas diferencias y persuadirnos mediante la estadística de aceptarlas. mediante la estadística de En resumen, los métodos estadísticos no son herramientas para convencer o engañar y no sustituyen los demás criterios. Solamente cuantifican la posibilidad de que el azar nos induzca a aceptar lo falso como verdadero (error α) o a rechazar lo verdadero como falso (error β). Por ello deben utilizarse de la misma forma que un borracho usa el poste de la luz: no tanto para alumbrar como para ayudar a soportar. aceptarlas. Referencias investigación inapropiados, pretenden demostrar unas diferencias y persuadirnos 1.Lozano JM, Dennis R. Medidas de frecuencia, de asociación y de impacto. En Ruiz A, Gómez C y Londoño D, editores. Investigación clínica: epidemiología clínica aplicada. Bogotá: Centro Editorial Javeriano (CEJA); 2001. p. 95-112. 2. Fletcher R, Fletcher SW. Clinical epidemiology: the Essentials. Baltimore: Lippincott; 2005. Bibliografía En el análisis de un estudio hacemos lo mismo. Nos preguntamos ¿cuánto riesgo de que el resultado no sea verdadero (que las diferencias entre el grupo de estudio y el grupo control no sean reales) estoy dispuesto a asumir a cambio del beneficio potencial? 8 Gehlbach SH. Interpreting the medical literature. New York: McGraw-Hill; 1993. Sackett D, Straus S, Richardson WS, Rosemberg W, Haynes RB. Evidence-based medicine: how to practice and teach EBM. New York: Churchill Livingston; 2000. Sackett DL, Haynez RB, Guyat GR, Tugwell P. Clinical aepidemiology: a basic science fro clinical medicine. Boston: Little Brown & Company; 1991.