Capítulo 8 ANÁLISIS e interpretación de los datos Richard C. Dickers La finalidad de muchas investigaciones de campo es identificar las causas, los factores de riesgo, las fuentes, los vehículos, las vías de transmisión, u otros factores que ponen en mayor riesgo a algunos miembros de la población de tener un evento adverso para la salud si se comparan con otros. En algunas investigaciones de campo es suficiente identificar un culpable, si el culpable puede eliminarse, el problema se resuelve. En otros contextos la meta puede ser cuantificar la relación entre la exposición (o cualquier característica de la población) y un evento adverso para la salud. La cuantificación de ésta relación puede conducir no sólo a implementar intervenciones apropiadas, sino también a avanzar en el conocimiento sobre la causalidad de las enfermedades. Ambos tipos de investigación de campo requiere del uso apropiado de métodos epidemiológicos, pero no necesariamente del empleo de sofisticados métodos analíticos. Este capítulo describe la estrategia para planificar un análisis, los métodos para conducir ése análisis y las guías para interpretar los resultados. PLANIFICACIÓN pre análisis ¿Que analizar? El primer paso de un análisis exitoso es establecer previamente una estrategia de análisis. Un análisis planeado y ejecutado en forma cuidadosa y a conciencia es tan crítico para una investigación de campo como lo es para un estudio basado en un protocolo de investigación. La planificación es necesaria para asegurar que las hipótesis apropiadas seran consideradas y que los datos relevantes seran recolectados, registrados, administrados, analizados e interpretados apropiadamente para evaluar esas hipótesis. Por consiguiente, el tiempo para decidir que (y como) se van a analizar los datos debe darse antes de diseñar el cuestionario, no después que usted ha recolectados los datos. Como se muestra en la figura 8-1 las hipótesis de que usted desea evaluar son las que dirigen el análisis. Estas hipótesis generalmente se desarrollan al considerar las causas y modos de transmisión de la condición bajo investigación; conversando con pacientes y con personal médico y salud pública local; observando los patrones dominantes en la epidemiología descriptiva; e identificando los resultados diferentes (outliers) en la epidemiología descriptiva. Dependiendo de la situación de salud que se está investigando, estas hipótesis deben abordar la fuente del agente, el modo (y vehículo o vector) de la transmisión y las exposiciones que causan la enfermedad. Estas hipótesis deben ser verificables, ya que la función del análisis será evaluar estas hipótesis. Una vez que usted ha definido la hipótesis, usted necesita decidir sobre los datos que recolectará para evaluar esas hipótesis. (Usted también deberá determinar el mejor diseño de estudio según se describió en el capítulo anterior). Haciendo referencia de la medicina clínica, la ley X de la casa de Dios fue: "si usted no toma una temperatura, usted no puede encontrar la fiebre". En forma similar en el campo de la epidemiología si usted olvida preguntar acerca de un factor de riesgo potencialmente importante en su cuestionario, usted no puede evaluar si está implicado en el brote. Ya que las hipótesis que usted quiere analizar determinar los datos que usted necesita recolectar, el tiempo para planear el análisis es previo al diseño de su cuestionario. El cuestionario y otros instrumentos de recolección de datos no están limitados a los factores de riesgo. Ellos también deben incluir información sobre la identificación del caso, datos clínicos y variables descriptivas. La información de la identificación (o códigos de ID que permitan vincular el caso con información almacenada en otro sitio) le permite re-contactar al encuestado para hacer preguntas adicionales o proporcionar información de seguimiento. Información clínica suficiente se debe recolectar para determinar si un paciente cumple verdaderamente con la definición del caso. 1 Los datos clínicos sobre el espectro y la gravedad de la enfermedad, hospitalización y las secuelas también pueden ser útiles. Factores descriptivos sobre tiempo, lugar y personas deben recogerse para caracterizar adecuadamente la población, evaluar la comparabilidad entre grupos (casos y controles en un estudio de casos y controles; grupos expuestos y no expuestos en un estudio de cohortes) y a ayudar a usted a generar hipótesis acerca de las relaciones causales. EDICIÓN de datos Generalmente, los datos para un estudio analítico se recopilan en cuestionarios de papel. Estos datos son luego introducidos en una computadora. Menos comúnmente, los datos se introducen directamente en una computadora tan pronto son obtenidos. En cualquiera de las situaciones, las buenas prácticas de manejo de datos facilitarán el análisis. Estas prácticas incluyen, como mínimo: • • Asegurar que usted tenga el número correcto de registros sin duplicados y tener chequeos en los campos de los datos que controlen la calidad Revise que el número de ficha en la base de datos coincida con el número del cuestionario. Entonces revise para controlar fichas duplicadas. No es inusual en los cuestionarios haberse saltado o metido datos dos veces. Más aún si no se han metido de una sola vez. Dos tipos de chequeos de control de calidad pueden ser realizados antes de comenzar el análisis: el chequeos de rango y el chequeos de lógica o consistencia. El chequeo de rango identifica valores para cada variable que están "fuera del rango". Si, para la variable "género", "masculino" será codificado como 1 y "femenino" como 2, el chequeo de rango puede identificar fichas o individuos con cualquier otro valor diferente a 1 o 2. Si hay un número 3, o una letra F, o espacios sin llenar, revise el cuestionario original, revise la respuesta o re codifica como valores "datos faltantes". Para la variable "peso (en libras)" un rango permisible para adultos podría ser de 90 a 250. Es muy posible que algunos sujetos podrán pesar más o menos de lo establecido por este rango, pero también es posible que valores fuera del ser rango sean más bien errores de codificación. De nuevo usted debe decidir entre verificar la información o dejarla como ha sido introducida. El esfuerzo necesario para confirmar y completar la información debería ser considerado contra el efecto de una pérdida de datos al momento del análisis. Bajo ninguna circunstancia usted deberá cambiar un dato solamente porque usted cree que ése dato está incorrecto. El chequeo lógico comparar las respuestas de dos diferentes preguntas y marcar aquellas que son inconsistentes. Por ejemplo, un individuo que tiene la variable género codificada como masculino y en la variable "histerectomía" tiene la respuesta si probablemente será marcada. Las fechas también son variables que deben ser revisadas y comparadas por ejemplo la fecha de inicio de los síntomas usualmente precede la fecha de la hospitalización (excepto en los brote de infecciones nosocomiales cuando la fecha hospitalización precede la fecha de inicio de síntomas) asimismo la fecha de inicio deberá preceder a la fechas del reporte. De nuevo usted debe decidir como deberá manejar las inconsistencias. Dos principios adicionales deberían guiar el manejo de los datos. Primero, documentar todo, particularmente sus decisiones. Tome una copia del cuestionario en blanco y escriba en nombre de cada una de las variables próximas a la correspondiente pregunta del cuestionario. Si, la variable género usted decide recodificarla de la letra F como un número 2 y cambiar el código número 3 a espacio en blanco y la letra T como datos faltantes, escriba toda esas decisiones para saber en el futuro como será el manejo de las variables y sus valores. Muchas inconsistencias en la base de datos tienden a descubrirse solamente durante el análisis. Trate esta inconsistencias de la misma forma como ha decidido manejarlas y entonces documente sus decisiones. 2 El segundo principio es "nunca permita que un error de los datos crezca". Enfrente este problema tan pronto como usted lo descubra. Bajo las distintas presiones de una investigación de campo, es muy común olvidarnos acerca del error de un dato, se analizan los datos tal y como están, lo que puede traer como consecuencia pasar una vergüenza durante una presentación cuando los cálculos o los valores de un cuadro no parecen tener sentido. Desarrollo de la estrategia de análisis Después que se hayan editado los datos, usted está preparado para analizarlos. Pero antes de que usted se siente A analizar los datos, primero desarrolle la estrategia de análisis. La estrategia de análisis es equivalente al esquema que desarrollaría antes de sentarse a escribir el artículo final procedido incorpore los componentes clave del análisis en una secuencia lógica y elabore una guía para continuar el análisis. Una estrategia analítica que se planifica con antelación en forma apropiada, acelera el análisis una vez que se recopilan los datos. TABLA 8-1: Secuencia de la estrategia de análisis epidemiológico 1 2 Establecer, como se recolectaron los datos y de acuerdo a ello, el plan de análisis. Identificar listas las variables más importantes a la luz de lo que usted conoce sobre el tema en estudio, hipótesis biológicamente plausibles, y la forma en que el estudio será o fue conducido: • exposiciones de interés • efecto de interés • potenciales confusores • variables para análisis de sub grupos 3 Para familiarizarse con los datos, planee desarrollar distribuciones de frecuencia y estadística descriptiva de las variables identificadas en el paso número 2 4 Para caracterizar la población en estudio, construya cuadros de manifestaciones clínicas y epidemiología descriptiva (deben crearse previamente los cuadros y estar listos para escribir los datos) 5 Para evaluar las asociaciones entre exposición-enfermedad, elabore tablas de dos vías basadas basadas en el diseño del estudio, conocimiento existente e hipótesis del estudio (deben crearse previamente los cuadros y estar listos para escribir los datos) Construya tablas de dos vías adicionales basadas en los hallazgos interesantes de los datos. 6 7 Construya tablas de tres vías más refinadas (ejemplo: dosis-respuesta, análisis de sensibilidad) y análisis de subgrupos basados en el diseño, conocimiento previo, hipótesis o hallazgos interesantes de los datos. El primer paso al desarrollar la estrategia de análisis es reconocer como se recolectaron los datos. Por ejemplo, si usted tiene datos de un estudio de cohortes, piense en términos de grupos de exposición y el plan para calcular las tasas. Si usted tiene datos de un estudio de casos y controles, piense en términos de casos y controles. Si los casos y los controles se equipararon, planee cómo hacer el análisis apareado. Si usted tiene datos de una encuesta revise el esquema de muestreo, usted puede necesitar un ajuste de los datos por el efecto de diseño en el análisis. El próximo paso es decidir qué variables son las más importantes. Incluye las exposiciones y efecto de interés, otros factores de riesgo conocidos, factores del diseño del estudio, las variables que 3 usted apareó, cualquier otra variable que usted piense puede tener una repercusión en el análisis y también otras variables en las que usted sencillamente está interesado. Si el cuestionario es pequeño quizás todas las variables se consideran importantes. Planea revisar la frecuencia de respuestas y hacer estadísticas descriptivas para cada variable. Esta es la mejor manera de familiarizarse con los datos. ¿Cuáles son los valores mínimos, máximos y promedios para cada variable? ¿Hay variables que tienen muchas respuestas desconocidas? Si usted deberá hacer un análisis estratificado o por subgrupos por ejemplo, con respecto a raza, ¿hay un número suficiente de respuestas de cada categoría de raza? El próximo paso en la estrategia de análisis es bosquejar las tablas de salida. Una tabla de salida es un cuadro, como una distribución de frecuencias o un cuadro de dos sentidos, que se titula y rotula completamente pero no contiene ningún dato. Los números se completarán según progresa el análisis. Usted debe esbozar la serie de tabla de salida a manera de guía para el análisis. Los cuadros deberán proceder en un orden lógico, de lo simple (por ejemplo: epidemiología descriptiva) a lo complejo (por ejemplo: epidemiología analítica). Los cuadros también deben indicar que medidas (por ejemplo, razón de probabilidades) y estadísticas (por ejemplo, CHI cuadrado) usted calculará para cada cuadro. Mediciones y estadísticas se describen posteriormente en este capítulo. Una manera de pensar sobre los tipos y secuencia de las tablas de salida es considerada que cuadros usted quiere mostrar en su informe. Una secuencia común es la siguiente: Tabla 1: Tabla 2: Manifestaciones clínicas. Ejemplo: signos y síntomas, confirmado por laboratorio, hospitalizados, defunciones, etc. Epidemiología descriptiva tiempo: usualmente graficado con un gráfico lineal (para tendencias seculares) o curva epidémica. Lugar: país de residencia u ocurrencia, mapa de puntos o graduado. Persona: "¿quién está en el estudio? (Edad, raza, sexo, etc.) Para estudios analíticos: Tabla 3: Tabla 4: Tabla 5: Tabla 6: Tablas primarias de asociación, (factores de riesgo por condición de resultados) estratificación de la tabla 3 para separar defectos y evaluar confusión y modificación de efecto. refinamiento de la tabla 3. Ejemplo: dosis-respuesta, latencia, uso de definiciones de casos más sensibles o más específicos. análisis por subgrupos específicos. La siguiente secuencia de tablas de salida fue diseñada antes de conducir un estudio de casos y controles de síndrome de Kawasaki (una enfermedad pediátrica de causa desconocida que ocasionalmente ocurre en conglomerados). Dado que no hay ninguna prueba de diagnóstico definitiva para éste síndrome, la definición de caso requiere que el paciente tenga fiebre más al menos cuatro de las cinco manifestaciones clínicas enumeradas en la tabla de salida A. Tres hipótesis a ser probadas por el estudio de casos y controles fueron la asociación supuesta del síndrome con el antecedente de enfermedad vírica, la exposición reciente al champú de alfombras y mayor ingreso económico en el hogar. 4 TABLA DE SALIDA “A” Criterios Diagnósticos para casos de Síndrome de Kawasaki con inicio Octubre-Diciembre Criterio 1. Fiebre ≥ 5 días 2. Inyección conjuntival bilateral 3. Cambios Orales a. Labios inyectados b. Faringe inyectada c. Labios secos figurados d. Lengua en fresa 4. Cambios en extremidades periféricas a. Edema b. Eritema c. Descamación periungueal 5. Rash 6. Linfadenopatía cervical > 1.5 cm Número Porcentaje TABLA DE SALIDA “B” Días de Hospitalización, Casos de Síndrome de Kawasaki con inicio Octubre-Diciembre Días de hospitalización 0 1 2 3 4 5 6 7 8 9 Y así hasta el máximo Desconocido Rango: Promedio: Mediana: Frecuencia ---------------- TABLA DE SALIDA “C” Distribución de frecuencia de complicaciones serias en casos de Síndrome de Kawasaki con inicio en Octubre-Diciembre Criterio Número Porcentaje Artritis Aneurisma de arteria coronaria Otras complicaciones (listar) Muerte 5 TABLA DE SALIDA “D” Características Demográficas de casos de Síndrome de Kawasaki con inicio en Octubre-Diciembre Característica Demográfica Edad Número Porcentaje < 1 año 1 año 2 años 3 años 4 años 5 años ≥ 6 años Sexo Mujer Hombre Raza Blanca Negra Asiática Otra TABLA DE SALIDA “E” Distribución de frecuencias por cantón de residencia, casos de Síndrome de Kawasaki con inicio en Octubre-Diciembre. Cantón Número Porcentaje Población Tasa de ataque Cantón A Cantón B Cantón C Cantón D Cantón E Cantón F 6 TABLA DE SALIDA “F” Distribución de frecuencias por Ingreso Familiar,casos de Síndrome de Kawasaki con inicio en Octubre-Diciembre. Ingreso anual familiar * Número Porcentaje < $15,000 ------------------ ( %) $15,000 - $29,999 ------------------ ( %) $30,000 - $44,999 ------------------ ( %) ≥ $45,000 ------------------ ( %) * Puede ser necesario revisar las categorías de ingreso familiar para establecer rangos. TABLA DE SALIDA “G” Síndrome de Kawasaki y antecedente de Enfermedad Estudio Caso-control CASOS CONTROLES ---------- SI Antecedente de enfermedad NO TOTAL TOTAL ------------- ------------- ------------- ------------- ------------- ---------- ------------- Odds Ratio= _________ 95% IC = (………..) 2 X = ________ Valor de p = (…………) 7 TABLA DE SALIDA “H” Síndrome de Kawasaki y Champú de alfombra. Estudio Caso-control CASOS CONTROLES TOTAL SI ------------- ------------- ---------- NO ------------- ------------- ---------- TOTAL ------------- Champú de Alfombra ------------- Odds Ratio= _________ 95% IC = (………..) 2 X = ________ Valor de p = (…………) TABLE DE SALUDA “I” Síndrome de Kawasaki e Ingreso Familiar. Estudio Caso-Control. CASOS Ingreso Familiar ( en miles de $) CONTROLES TOTAL < 15 15 – 29 30 – 44 ≥ 45 TOTAL 2 X = ________ Valor de p = (…………) Ya que la epidemiología descriptiva ha sido cubierta en el capítulo 5, el resto de este capítulo desarrollará las técnicas analíticas más comúnmente usadas en las investigaciones de campo. La figura 8-2 ilustra una pantalla del módulo de análisis del programa Epi-Info (ver capítulo 12). Muestra la salida del comando "tablas" para datos típicos de una investigación de campo. Observe los cuatro elementos de la salida: 1) la tabla de dos –por- dos 2) las medidas de asociación. 3) las pruebas de significancia estadística y 4) los intervalos de confianza. Cada uno de estos elementos se tratará a continuación. 8 ILL? Vanilla Ice Cream Yes No TOTAL 43 11 54 Yes % Fila 79.6 20.4 100.0 % Columna 93.5 37.9 72.0 3 No % Fila 14.3 % Columna 6.5 46 TOTAL % Fila 61.3 % Columna 100.0 18 85.7 62.1 29 38.7 100.0 Tabla 2 x 2 21 100.0 28.0 75 100.0 100.0 Medidas de Asociación Análisis de tabla simple Point Estimación 95% Intervalo de Confianza L. Inferior L. Superior PARAMETROS: Basados en OR Odds Ratio (producto cruzado) 23.4545 5.8410 94.1811 (T) Odds Ratio (EMV-MLE) 22.1490 5.9280 109.1473 (M) 5.2153 138.3935 (F) PARAMETROS: Basados en el riesgo Razón de Riesgos (RR) Diferencia de Riesgos (DR) 5.5741 1.9383 16.0296 (T) 65.3439 46.9212 83.7666 (T) Intervalos de confianza (T=Series Taylor;C=Cornfield;M=P-Media;F=Fisher) TEST ESTADÍSTICOS Chi cuadrado: sin corregir Chi cuadrado: Mantel-Haenszel Chi cuadrado: Corrección de Yates P-media exacta Test exacto de Fisher Chi cuadrado p de 1 cola p de 2 colas 27.2225 0.0000013505 26.8596 0.0000013880 24.5370 0.0000018982 0.0000001349 0.0000002597 Pruebas de significancia estadística 9 Figura 8-2 : Salida típica de Epi-Info del modulo de análisis utilizando el commando “tables”. (Fuente: Oswego, Epi-Info V. 3.0 Dean AG, et al. LA TABLA DOS – POR – DOS “Cada estudio epidemiológico puede resumirse en una tabla de dos por dos. (H. Ory) En muchos estudios epidemiológicos, la exposición y el evento de salud en estudio pueden caracterizarse como variables binarias, por ejemplo "si" o "ningún". La relación entre la exposición y enfermedades luego puede ser tabulada en forma cruzada en un cuadro dos por dos, llamado así por qué tanto la exposición, como la enfermedad tienen dos categorías ( tabla 8-2). Tabla 8-2: Salida y anotación de datos en una tabla típica de 2 por 2. SI Exposición SI NO Total ENFERMEDAD NO A B H1 Tasa de ataque A/H1 C D H0 C/H0 V1 V2 Total T Convencionalmente se coloca la condición de enfermedad (por ejemplo, enfermo vs. sano) en la parte superior de la tabla y el estado de exposición al lado de la tabla (EPI-INFO, también sigue esta convención aunque en los libros de texto epidemiológicos no lo hacen). La intersección de una fila y una columna en la cual se registra un valor, se conoce como una celda. Las letras a, b, c y d dentro de las cuatro celdas de la tabla dos por dos se refieren al número de personas con la condición de enfermedad indicado en la columna que encabeza la tabla y el estado de exposición indicado al lado izquierdo de la misma. Por ejemplo, c es el número de sujetos no expuestos enfermos o sea los casos en el estudio. Los totales horizontales de la fila se denominan H. 1 y H. 0 (o H. 2), y los totales de las columnas verticales se rotulan v1 y v0 (o v2). El número total de sujetos incluidos en el cuadro dos por dos se escribe en la esquina inferior derecha y es representado por las letra t o n. Las tasas de ataque (la proporción de un grupo de personas que desarrollan la enfermedad durante un intervalo específico) generalmente se anotan a la derecha de los totales de la fila. Los datos de una investigación de brote ocurrido en Carolina del Sur se presentan en la tabla 8-3. El cuadro muestra una tabulación cruzada del consumo de pavo (exposición con respecto a la presencia o ausencia de gastroenteritis por salmonela (resultado). Las tasas de ataque (56% para los que comieron el pavo y 12% para los que no comieron) se ubican a la derecha del cuadro. 10 Tabla 8-3: Consumo de Pavo y Enfermedad gastrointestinal. Brote de Salmonella. Carolina del Sur, 1990. SI Comió Pavo SI NO Total Enfermó NO Total 115 89 204 Tasa de ataque 56% 5 36 41 12% 120 125 245 49% RIESGO RELATIVO (115/204) / (5/41) = 56/12 = 4.6 MEDIDAS DE ASOCIACIÓN. Una medida de asociación cuantifica la fuerza o magnitud de la asociación estadística entre la exposición y el problema de salud de interés. Las medidas de asociación son a veces denominadas medidas de efecto porque, si la exposición está relacionada "causalmente" con la enfermedad cuantifican el efecto de tener la exposición con respecto a la incidencia de la enfermedad. En los estudios de cohortes, la medida de asociación más comúnmente usada es el riesgo relativo. En estudios de caso-control, es el Odds Ratio (OR) o razón de probabilidades es la medida de asociación comúnmente usada. En los estudios transversales, se puede calcular la razón de prevalencia o una razón de probabilidades de prevalencia. Riesgo relativo (razón de riesgos) El riesgo relativo es el riesgo del grupo expuesto dividido entre el riesgo del grupo no expuesto. Riesgo relativo (RR) = riesgo de los expuestos/riesgo de los no expuestos = (a/h1)/(c/h0) El riesgo relativo refleja el riesgo excesivo que muestra el grupo expuesto comparado con el riesgo del grupo no expuesto (basal, esperado) el exceso se expresa como una razón. En una situación de brote agudo, el riesgo se representa mediante la tasa de ataque. Los datos que se muestran en la tabla 8-3 indican que el riesgo relativo de la enfermedad, dado el consumo de pavo fue 0. 564/0. 122 = 4. 6. O sea que las personas que comieron pavo tuvieron 4.6 veces más probabilidad de enfermar que las que no comieron pavo. Observé que el riesgo relativo será mayor que 1.0 cuando el riesgo del grupo expuesto es mayor que el riesgo del grupo no expuesto. El riesgo relativo será menor que 1.0 cuando el riesgo del grupo expuesto es menor que el riesgo del grupo no expuesto, como es generalmente el caso si la exposición en estudio es la vacunación. Razón de probabilidades (razón de productos cruzados, razón de momios). En la mayoría de los estudios de casos y controles, debido a que usted no sabe el tamaño de la población del grupo expuesto y no expuesto, no tiene un denominador para calcular la tasa de ataque o el riesgo. Sin embargo, usando los datos de casos y controles, el riesgo relativo puede ser aproximado por una razón de probabilidades. La razón de probabilidades se calcula así: 11 La razón de probabilidades u Odds Ratio (OR) = ad/bc En un brote de infección de herida quirúrgica por Estreptococo del Grupo A (GAS) en un hospital de la comunidad ocurrieron 10 casos durante un período de 17 meses. Los investigadores usaron una tabla de números aleatorios para seleccionar los controles de los 2600 procedimientos quirúrgicos que se realizaron durante el período epidémico. Ya que muchos conglomerados de infecciones de heridas quirúrgicas por GAS pueden detectarse al identificar portadores de GAS entre el personal de Salas de operaciones, los investigadores estudiaron a todo el personal hospitalario asociado con cada paciente. Ellos elaboraron una tabla dos por dos para la exposición a cada funcionario y calcular las razones de posibilidades. La tabla dos por dos para la exposición a la enfermera A se muestra en el cuadro 8-4. La razón de probabilidades fue 8 x 49/2 x 5 = 39.2 En sentido estricto esto significa que las probabilidades de estar expuesto a la enfermera A fue 39 veces mayor entre los casos que entre los controles. Es también razonable decir que la probabilidad de desarrollar una infección de la herida quirúrgica de GAS fue 39 veces mayor entre los pacientes expuestos a la enfermera A que entre los no expuestos.. Para enfermedades raras (menos de cinco%) la razón de probabilidades se aproxima al riesgo relativo. En este ejemplo con sólo 10 casos de 2600 procedimientos, la razón de probabilidades podría ser interpretada de la siguiente manera: el riesgo de contraer una infección de la herida quirúrgica por GAS fue 39 veces mayor entre aquellos expuestos a la enfermera A que entre aquellos no expuestos.. El OR es una medida de asociación muy útil por varias razones. Como se mencionó anteriormente cuando la enfermedad es rara, un estudio de casos y controles puede producir una razón de probabilidades que estrechamente se aproxima al riesgo relativo de un estudio de cohortes. Desde una perspectiva estadística teórica (más allá del alcance de éste capítulo), la razón de probabilidades también tiene unas propiedades estadísticas aconsejables y es fácilmente derivada de técnicas de modelos multivariados. Tabla 8-4: Infección de herida quirúrgica y exposición a la Enfermera A. Hospital M, Michigan 1980. ENFERMEDAD Exposición a Enfermera A SI NO Total Caso (Si) 8 Control (No) 5 13 2 49 51 10 54 64 Momios: 8/2=4 5/49=0.1 Razón de Momios: (4)/(0.1) = 40 12 Razón de prevalencia y razón de probabilidades de prevalencia. Los estudios transversales o encuestas miden la prevalencia (casos existentes) de una condición de salud en una población, en lugar de la incidencia (nuevos casos). La prevalencia a depende de ambos: incidencia (riesgo) y la duración de la enfermedad, de manera que las medidas de asociación basadas en los casos prevalentes reflejan ambos: el efecto de la exposición sobre la incidencia como su efecto sobre la duración o la supervivencia. Las medidas de prevalencia de asociación análogas al riesgo relativo y la razón de probabilidades (Odds Ratio) son: la razón de prevalencia y la razón de probabilidades de prevalencia (“prevalence odds ratio”) respectivamente. Tabla 8-5: Datos de un estudio transversal hipotético de prevalencia. SI Exposición SI NO Total Tiene condición NO Total Prevalencia 20 80 100 20% 20 380 400 5% 40 460 500 8% Razón de Prevalencia: (20%) / (5%) = 4.0 En el cuadro dos por dos que se muestra en la tabla 8-5, la razón de prevalencia es = 0. 20/0. 05 = 4.0. O sea, los sujetos expuestos tienen cuatro veces la probabilidad de tener la condición comparados con los no expuestos. En el ejemplo anterior, la razón de probabilidades de prevalencia = (20) x (380)/(80)x(20) = 4.75. La probabilidad de tener la enfermedad es 4. 75 veces mayor para el grupo expuesto que para el grupo no expuesto. Es importante observar que cuando la prevalencia es baja, los valores de la razón de prevalencia y la razón de probabilidades de prevalencia serán similares. Medidas de impacto en la salud pública Una medida de impacto en la salud pública coloca la asociación de la exposición enfermedad desde una perspectiva de salud pública. Refleja la contribución aparente de una exposición sobre la frecuencia de la enfermedad en una población particular, por ejemplo, para una exposición asociada como un mayor riesgo de la enfermedad (por ejemplo, tabaquismo y cáncer de pulmón) la proporción de riesgo atribuible representa la reducción esperada en la carga de la enfermedad si la exposición se elimina (o nunca existió). El riesgo atribuible poblacional representa la proporción de enfermedad en una población que es atribuible a una exposición. Para una exposición asociada con una reducción del riesgo de la enfermedad (por ejemplo, vacunación) una fracción prevenible podría ser calculada al representar la reducción real de la carga de la enfermedad atribuible al nivel actual de exposición en la población. Proporción de riesgo atribuible (proporción de fracción atribuible) entre expuestos, fracción etiológica La proporción de riesgo atribuible es el porcentaje de los casos en el grupo expuesto que probablemente es atribuible a la exposición. Esta medida supone que el nivel de riesgo en el grupo 13 no expuesto (se asume que es el punto de comparación o grupo con riesgo basal de la enfermedad) también aplica al grupo expuesto, así que sólo el riesgo en exceso debe atribuirse a la exposición. El porcentaje de riesgo atribuible puede ser calculado con cualquiera de las siguientes fórmulas (que son algebraicamente equivalentes): Porcentaje de riesgo atribuible = (Riesgo expuestos – riesgo no expuestos) / Riesgo expuestos = (RR-1) / RR El porcentaje de riesgo atribuible se puede representar como una fracción puede ser multiplicado por 100 y reportarse como una proporción. Utilizando los datos de consumo de Pavo de la tabla 83 la proporción de riesgo atribuible es (0.564 – 0.122) / 0.564 = 78.4%. Por consiguiente más de tres cuartos de la gastroenteritis que se presentó entre las personas que comieron pavo, se puede atribuir al consumo de pavo el otro 21.6% es atribuido a la ocurrencia basal de gastroenteritis en la población. En un estudio de casos y controles, si se considera que la razón de probabilidades es una aproximación razonable al riesgo relativo, usted puede calcular la proporción de riesgo atribuible de la siguiente manera: Porcentaje de riesgo atribuible es = (OR – 1) / OR Proporción de riesgo atribuible a la población (fracción atribuible a la población) La proporción de riesgo atribuible poblacional es la proporción de casos en toda la población (ambos grupos: expuestos y no expuestos) probablemente atribuible a la exposición. Fórmulas algebraicamente equivalentes son: Porcentaje de riesgo atribuible a la población: (PRAP) PRAP = (Riesgo total – riesgo no expuestos) / Riesgo total = P(RR - 1) / [P(RR – 1) + 1] Donde P = proporción de la población expuesta = h1/t Aplicando de la primera fórmula a los datos de consumo de pavo, la proporción de riesgo atribuible poblacional es (0. 490- 0. 122) /0. 490 = 75.1% . En situaciones en las cuales la mayoría de los casos están expuestos, la proporción de riesgo atribuible y la proporción de riesgo atribuible poblacional serán similares. Para enfermedades con causas múltiples (por ejemplo, muchas enfermedades crónicas) y exposiciones poco comunes, la proporción de riesgo atribuible poblacional puede ser considerablemente menor que el porcentaje de riesgo atribuible. La proporción de riesgo atribuible poblacional puede estimarse en estudios de casos y controles de base poblacional al aproximar el riesgo relativo (RR) utilizando la proporción de los controles expuestos para aproximar P, por ejemplo, P=b/v0 (suponiendo que los controles son representativos de toda la población). Fracción prevenible en el grupo expuesto (eficacia vacunal) Si el riesgo relativo es menor de 1.0, usted puede calcular la fracción prevenible, que es la proporción potencial de nuevos casos que habrían ocurrido en ausencia de la exposición. En otras palabras, la fracción prevenible es la proporción de los casos potencialmente prevenidos mediante 14 alguna exposición beneficiosa, por ejemplo: la vacunación. La fracción prevenible en el grupo expuesto se calcula así: Fracción prevenible entre los expuestos = (Riesgo no expuestos – riesgo expuestos)/Riesgo no exp = 1 – RR La tabla 8-6 presenta los datos de un brote de sarampión ocurrido en 1970 a lo largo de la frontera de Texas-Arkansas. Dado que algunos casos habían ocurrido entre los niños vacunados contra el sarampión, la población cuestionaba la eficacia de la vacuna anti- sarampionosa. Según se muestra en la tabla 8-6 el riesgo de sarampión entre los niños vacunados fue cerca del 4% del riesgo de los niños no vacunados. La eficacia de la vacuna que se calculó fue 96% indicando que la vacunación previno un 96% de los casos de sarampión, los cuales hubieran ocurrido en los niños vacunados si no se les hubiera aplicado la vacuna. Observe que los términos "atribuible" y "prevenible" refleja mucho más que la simple asociación estadística. Implican una relación de causa y efecto entre la exposición y la enfermedad. Por consiguiente, estas medidas no deben presentarse rutinariamente, hasta que se haya pensado concienzudamente la relación causal. Tabla 8-6: Estado vacunal y ocurrencia de sarampión. Texacarna, 1970. SI VACUNADO SI NO Total SARAMPION NO Total Tasa por Mil 27 6,323 6,350 4.2 512 4,323 4,835 106 539 10,646 11,185 48 Riesgo Relativo = 4.2 / 106 = 0.04 Fracción prevenible: (106 – 4.2) / 106 = 0.96 = 96% 15 Pruebas de significancia estadística Las pruebas de significancia estadística se usan para determinar que probable es que los resultados observados podrían haber ocurrido sólo por el azar, si la exposición no estaba en realidad relacionada con la enfermedad. En los párrafos siguientes, describimos las características claves de las pruebas más comúnmente utilizadas con tablas 2 por 2. Para la discusión de la teoría, derivaciones, y otros temas más allá del alcance de este libro, sugerimos consultar algunos de los muchos textos de bioestadística que cubren estos tópicos. Las pruebas estadísticas asumen que la población en estudio es una muestra de alguna gran "población de referencia". Luego supone que, en la población de referencia, la incidencia de la enfermedad es la misma para los grupos expuestos y no expuestos. En otras palabras, supone que, en la población general, la exposición no está relacionada con la enfermedad. Esta suposición se conoce como la hipótesis nula. (La hipótesis alternativa, que puede ser adoptada si la hipótesis nula prueba no ser plausible, es que la exposición se asocia con la enfermedad). Luego, calcule una medida de asociación como el riesgo relativo o la razón de probabilidades. Seguidamente, calcule la prueba de significancia estadística como una Ji cuadrada esta prueba le indica la probabilidad de encontrar una asociación tan fuerte como (o más fuerte que) la que usted hubiera observado si la hipótesis nula fuera realmente verdadera. Esta probabilidad se llama el valor de p. Un valor-p muy pequeño significa que usted tendría muy poca probabilidad de observar tal asociación si la hipótesis nula fuera verdadera, es decir que, dados los datos que usted tiene, la hipótesis nula no es plausible. Si este valor de p es más pequeño que un límite predeterminado (generalmente 0. 05 o 5%) usted puede descartar (rechazar) la hipótesis nula a favor de la hipótesis alternativa. Al llegar a una decisión acerca de la hipótesis nula, esté alerta contra dos tipos de error. En un error tipo 1 (también denominado error alfa), la hipótesis nula se rechaza cuando es, en realidad verdadera. En un error tipo 2 (denominado error beta), la hipótesis nula no se rechaza cuando es en realidad falsa. Tanto la hipótesis nula al igual que la hipótesis alternativa, debe especificarse con antelación. Cuando se sabe poco acerca de la asociación que se está probando, usted debe especificar como hipótesis nula que la exposición no está relacionada con la enfermedad, (por ejemplo RR = 1 u OR = 1) . La hipótesis alternativa correspondiente establece que la exposición y la enfermedad están asociados (RR ≠ 1 u OR ≠ 1). Note que esta hipótesis alternativa incluye las posibilidades de que la exposición, podría, ya sea incrementar o disminuir el riesgo de la enfermedad. Cuando usted conoce más acerca de la asociación entre una exposición dada y la enfermedad, se podría especificar una hipótesis más precisa (direccional). Por ejemplo, si es bien conocido que una exposición aumenta el riesgo de desarrollar un problema de salud particular (ejemplo: fumado y cáncer de pulmón), usted puede especificar la hipótesis nula de que la exposición no aumenta el riesgo de esa condición (ej: RR <1 o RR< 1) y la hipótesis alternativa de que la exposición incrementa el riesgo (ej: RR> 1 o OR>l). De forma similar, si usted ha estado estudiando una relación de protección bien establecida [sarampión, paperas, rubéola, vacuna (MMR) y sarampión]. Usted podría especificar la hipótesis nula de que RR > 1 y la hipótesis alternativa de que RR < 1. Una hipótesis no-direccional es sometida a prueba a través de una prueba de "2-colas". Una hipótesis direccional requerirá la prueba de una cola. En general, el corte para la prueba de una cola es dos veces el corte para la prueba de dos colas (es decir, 0.10 en lugar de 0.05). Dado que la elevación del punto de corte para rechazar la hipótesis nula incrementa la probabilidad de hacer un Error Tipo I, los epidemiólogos en esta situación (de campo) generalmente usan la prueba de 2 colas. 16 Dos pruebas diferentes, cada una con variaciones, son utilizadas para hacer pruebas de datos en una tabla dos por dos. Estos dos tests o pruebas, descritas más adelante son, la prueba exacta de Fisher y el Chi cuadrado. Estas pruebas no son específicas para medidas de asociación. El mismo test puede ser usado independientemente si Ud. está interesado en Riesgo relativo, Odds ratio o Riesgo atribuible. Prueba exacta de Fisher La prueba exacta de Fisher se considera el "patrón de oro" para un cuadro 2 por 2 y es la prueba de elección cuando los números de una tabla de 2 por 2 son pequeños. Se asume que la hipótesis nula es verdadera en la población de referencia y que los valores de las cuatro celdas, pero no los totales de las filas y columnas de las tablas 2 por 2, podrían cambiar. La prueba exacta de Fisher incluye el cálculo de la probabilidad de observar una asociación en una muestra igual a o mayor que la muestra observada. La técnica para la derivación de esta probabilidad se esboza en el apéndice 1. Como regla general la prueba exacta de Fisher es la prueba preferida cuando el valor esperado en cualquier celda de la tabla dos por 2 es menor a cinco. El valor esperado se calcula multiplicando los totales de las filas por los totales de las columnas y dividiendo por los totales de la tabla. Sin embargo, calcular la prueba exacta de Fisher, es tedioso con números pequeños, por lo que se convierte en prácticamente imposible cuando los números son grandes. Afortunadamente, con números grandes, la prueba de Chi cuadrado proporciona una aproximación razonable a la prueba exacta de Fisher. Prueba del Chi cuadrado Cuando usted tiene al menos 30 sujetos y el valor esperado en cada celda de la tabla 2 por 2 es al menos cinco, la prueba de chi cuadrado proporciona una aproximación razonable a la prueba exacta de Fisher. Colocando los números apropiados en la fórmula de chi cuadrado, usted obtiene un valor para las chi cuadrada. Luego busqué su correspondiente valor-P. para 2 colas en una tabla de chi cuadrado (ver apéndice 2). Una tabla de 2 por 2 tiene un grado de libertad y una chi cuadrada mayor a 3. 84 corresponde a una P. de dos colas menor de 0. 05. Al menos tres fórmulas diferentes de la si cuadrada para tablas de 2 por 2 se utilizan comúnmente. El programa EPI INFO presenta las tres. Para un conjunto dado de datos en una tabla de 2 por 2, la fórmula de chi cuadrado de Pearson obtiene el valor de chi cuadrado más grande y en consecuencia el valor-P más pequeño. Este valor-P es con frecuencia un poco más pequeño que el valor-P. del "patrón de oro" calculado por el método exacto de Fisher. Así la chi cuadrada de Pearson puede conducir con más frecuencia a errores de tipo 1 (confluye que hay una asociación cuando no la hay). La chi cuadrada de yates corregida obtiene el valor-p más grande de las tres fórmulas, a veces aún más grande que el correspondiente al valor-p de la prueba de Fisher. La corrección de yates es la preferida por los epidemiólogos que desean reducir al mínimo la probabilidad de cometer un error de tipo 1, pero aumenta la probabilidad de un error de tipo 2. La fórmula de Mantel-Haenszel popular en el análisis estratificado, produce un valor-P. un poco más grande que el de la chi cuadrada de Pearson, pero a menudo más pequeño que el valor-P. de la chi cuadrada de yates corregido y el valor-P. de Fisher. 17 Muchos epidemiólogos de campo prefieren la fórmula corregida de yates dado qué es menos probable cometer un error de tipo 1 (pero tiene mayor probabilidad de hacer un error de tipo 2). Los epidemiólogos que realizan con frecuencia análisis estratificados están habituados a utilizar la fórmula de Mantel-Haenszel por lo cual tienden a usarla más, aún para análisis simples de tablas 2 por 2. Medidas de asociación vs. pruebas de significancia Las medidas de asociación, como el riesgo relativo y la razón de probabilidades, reflejan la fuerza de la asociación entre una exposición y una enfermedad. Estas medidas son generalmente independientes del tamaño del estudio y puede pensarse que son la "mejor suposición" del grado de asociación en la población-fuente. Sin embargo, la medida no da ninguna indicación de su fiabilidad, es decir cuánta fe hay que poner en ella. Por contraste, una prueba de significancia proporciona una indicación de cuan probable la asociación observada es debida al azar. Aunque la estadística de la prueba de chi cuadrada está influenciada tanto por la magnitud de la asociación y el tamaño de la muestra, no distingue la contribución de cada uno. Por lo tanto las medidas de asociación y los prueba de significancia (intervalo de confianza, ver abajo) proporcionan información complementaria. 18 Interpretación de los resultados de la prueba estadística "No significativo" no necesariamente significa "ninguna asociación". La medida de asociación (riesgo relativo, razón de probabilidades) indican la dirección y la fuerza de la asociación. La prueba estadística indica cuan probable la asociación observada puede haber ocurrido por azar. La no significancia puede no reflejar una asociación en la población de referencia, pero también puede reflejar un tamaño de muestra demasiado pequeño para detectar una determinada asociación en la población de referencia. La significancia estadística por sí sola no indica una relación de causa-efecto. Una asociación puede representar una verdadera relación causal, pero también puede ser debido al azar, sesgos de selección, sesgos de información, confusión y otras fuentes de error en el diseño, la ejecución y el análisis del estudio. Las pruebas estadística se relaciona sólo con el rol del azar como explicación de una asociación observada, y la significancia estadística indica sólo que es poco probable que el azar (aunque no imposible) sea la explicación de la asociación. Usted debe depender de su criterio epidemiológico al considerar estos factores, así como la consistencia de los resultados con los obtenidos en otros estudios, la relación temporal entre la exposición y la enfermedad, la plausibilidad biológica y otros criterios de inferencia causal. Estos temas se trata con mayor profundidad en la última sección de este capítulo. Finalmente la significación estadística no necesariamente implica significancia para la salud pública. Un estudio grande como una asociación débil y poca relevancia en salud pública (o clínica) puede sin embargo tener "significancia estadística". Más comúnmente, las relaciones relevantes para la salud pública y/o importancia clínica no logran demostrar "significancia estadística" porque los estudios son demasiado pequeños. Intervalos de confianza para medidas de asociación Acabamos de describir el uso de una prueba estadística para determinar cuan probable la diferencia entre la asociación observada y el estado de nulidad es compatible con variaciones al azar. Otro índice de la variabilidad estadística de la asociación es el intervalo de confianza. Los estadísticos definen un intervalo de confianza como el intervalo que, dado el muestreo repetido de la población de referencia incluirá o "abarca" los valores verdaderos el 95% del tiempo. El intervalo de confianza de un único estudio puede interpretarse como el rango de valores que, dados unos datos y en ausencia de sesgo, tiene 95% de probabilidad de incluir el valor "verdadero". En términos generales, el intervalo de confianza puede interpretarse como el rango en el cual se puede encontrar el "verdadero" valor de una asociación, o el rango de valores que son compatibles con los datos del estudio. La prueba del chi cuadrado y el intervalo de confianza están relacionados estrechamente. El chi cuadrado utilizan los datos observados para determinar la probabilidad (valor-P.) de la hipótesis nula. Usted rechaza la hipótesis nula si esa probabilidad es menor a un valor preseleccionado, denominado Alfa, como puede ser el 5%. El intervalo de confianza usa un valor probabilístico preseleccionado, el Alfa, para determinar los límites del intervalo. Usted puede rechazar la hipótesis nula si el intervalo no incluye el valor de la asociación nula. Ambos indican la precisión de la asociación observada. Ambos están influidos por la magnitud de la asociación y el tamaño del grupo de estudio. Mientras que ambas miden la precisión de los datos, ninguna de ellas aborda la validez (ausencia de sesgo). Usted debe seleccionar un nivel probable místico (Alfa) para determinar los valores límites del intervalo de confianza. Del mismo modo que la prueba del chi cuadrado, los epidemiólogos eligen tradicionalmente un nivel Alfa de 0. 05 o 0.01. La "confianza" es por lo tanto 100 x (I - alfa)% (e.g., 95% o 99%). 19 A diferencia del cálculo de una chi cuadrada, el cálculo de un intervalo de confianza depende de la medida particular de asociación, o sea, cada medida de asociaciones tiene su propio fórmula para calcular los intervalos de confianza. En realidad, cada medida tiene varias fórmulas, por ejemplo, existen intervalos de confianza "exactos" y una variedad de aproximaciones. Interpretación del intervalo de confianza Como señaláramos anteriormente, un intervalo de confianza a veces se considera como la variedad de valores compatibles con los datos de un estudio. Suponga que usted realizó un estudio en su área en la cual el riesgo relativo para fumar y las enfermedades X. fue 4.0 y el intervalo de confianza de 95% fue de 3.0 a 5. 3 su mejor suposición de la asociación en la población de referencia es 4.0 pero los datos son compatibles con valores que se ubican entre 3.0 y 5. 3. Observe que sus datos no son compatibles con un riesgo relativo de 1.0 es decir sus datos no son compatibles con la hipótesis nula. Por lo anterior, tanto los valores que están incluidos en el intervalo de confianza como los valores que están fuera del intervalo proporcionan información importante. La amplitud de un intervalo de confianza, es decir, los valores incluidos reflejan la precisión con la cual el estudio puede especificar una asociación como un riesgo relativo. Un intervalo de confianza amplio refleja una elevada variabilidad o imprecisión. Un intervalo de confianza estrecho refleja poca variabilidad y alta precisión. Generalmente, cuanto más grande es el número de sujetos u observaciones en un estudio, es mayor la precisión y es menor la amplitud del intervalo de confianza. Se indicó anteriormente, la medida de asociación proporciona la "mejor suposición" de nuestras estimaciones sobre la verdadera asociación. Si estuviéramos en un casino, esa "mejor suposición" sería el número que apostaríamos. El intervalo de confianza proporciona una medida de la confianza que nosotros debemos tener en esa mejor suposición, es decir ¡nos dice cuánto apostar! Un gran intervalo de confianza indica falta de precisión en nuestra mejor suposición, de manera que no debemos apostar demasiado en ese número. Un intervalo de confianza estrecho indica un cálculo más preciso, de manera que quizás deseemos apostar más en ese número. Dado que el intervalo de confianza refleja la variedad de valores compatibles con los datos en un estudio, uno puede usar el intervalo de confianza para determinar si los datos son compatibles con la hipótesis nula. Ya que la hipótesis nula especifica que el riesgo relativo (o razón de probabilidades) equivale a 1.0. Un intervalo de confianza que incluye el número 1 es compatible con la hipótesis nula. Esto equivale a afirmar que no puede rechazarse la hipótesis nula. Por otro lado, un intervalo de confianza que no incluye al 1 indica que la hipótesis nula debe rechazarse, ya que es inconsistente con los resultados del estudio. Por lo tanto, el intervalo de confianza puede usarse como una prueba de significancia estadística. Tablas resumen de la exposición Si la meta de la investigación del campo es identificar o más vehículos o factores de riesgo de enfermedades, puede ser útil resumir las exposiciones de interés en una única tabla como la tabla 8-8. Para un brote transmitido por los alimentos, este tipo de tablas incluyen cada producto alimenticio servido, los números de enfermos y sanos según el antecedente de consumo de alimentos, las tasas de ataque específicas por alimento (si se hizo un estudio de cohortes), el riesgo relativo (u Odds ratio), chi cuadrada y/o valor-p y a veces, los intervalos de confianza. Para identificar a un culpable usted debe buscar un producto alimenticio con dos características: 20 1. Un riesgo relativo elevado, razón de probabilidades o chi cuadrada (valor-p pequeño) que reflejen una diferencia en las tasas de ataque entre aquellos expuestos al elemento y aquellos no expuestos y 2. La mayoría de las personas enfermas han estado expuestas, por lo cual, la exposición podría "explicar" la mayoría, si no la totalidad de casos. Tabla 8-8: tasas de ataque específicas de personas que comieron durante el almuerzo del domingo. Brote de salmonella. Carolina del Sur, 1990. COMIO COMIDA Pavo Jamón Aderezo Compota Pasta Frijoles Elote Pan Mantequilla Te Café Frambuesas No. CASOS 115 65 99 85 76 96 80 78 47 102 9 42 TOTAL 204 121 186 159 139 183 153 158 88 203 28 74 NO COMIO TA % 56 54 53 53 55 52 52 49 53 50 32 57 No. CASOS 5 54 21 35 44 23 40 41 73 18 111 78 TOTAL 41 122 59 85 106 61 92 84 157 42 217 171 TA % 12 44 36 41 42 38 43 49 46 43 51 46 TA: Tasa de ataque, RR: riesgo relativo, IC: Intervalo de confianza. RR 4.6 1.2 1.5 1.3 1.3 1.4 1.2 1.0 1.2 1.2 0.6 1.2 (95% CI) (2.0, 10.6) (0.9, 1.6) (1.0, 2.2) (1.0, 1.7) (1.0, 1.7) (1.0, 2.0) (0.9, 1.6) (0.8, 1.3) (0.9, 1.5) (0.8, 1.7) (0.4, 1.1) (1.0, 1.6) P VALOR <0.001 0.178 0.027 0.090 0.056 0.065 0.229 0.958 0.365 0.482 0.090 0.144 Fuente: Luby et al 1993. En la Tabla 8-8, el pavo tiene el riesgo relativo más alto (y el menor valor-p), y 115 de 120 personas que enfermaron (casos) comieron pavo. Análisis estratificado Aunque se ha dicho que cada estudio epidemiológico puede resumirse en una tabla 2 por 2, muchos estudios epidemiológicos requieren análisis más complejos que los análisis que emplea tablas de 2 por 2 descritos hasta ahora en este capítulo. Por ejemplo, dos exposiciones diferentes pueden parecer asociadas con enfermedad ¿cómo analizarlas ambas al mismo tiempo? Aún cuando usted sólo esté interesado en la asociación como una exposición particular o un resultado particular, un tercer factor puede estar complicando la asociación. Los dos principales tipos de complicaciones son: confusión y modificación de efecto. El análisis estratificado, al examinar la asociación de la exposición con la enfermedad dentro de diferentes categorías de acuerdo con un tercer factor, es un método para tratar estas complicaciones. El análisis estratificado es un método eficaz para evaluar los efectos de dos exposiciones diferentes sobre la enfermedad. Considere un brote hipotético de la hepatitis A entre los estudiantes de un colegio. Los investigadores, no conociendo el vehículo, administraron un cuestionario de consumo de alimentos a 50 de los estudiantes con hepatitis A y a 50 controles sanos. Dos exposiciones habían elevado los OR, con valores estadísticamente significativos de valores-p: la leche y donas (tabla 8-9). Debido a que con frecuencia las personas consumieron donas y leche, muchos estaban expuestos a ambos alimentos o a ninguno. ¿Cómo apartar el efecto de cada uno de los alimentos? 21 Tabla 8-9: Hepatitis A y consumo de leche y donas LECHE Casos Controles Total EXPUESTOS 37 21 58 NO-EXP 13 29 42 TOTAL 50 50 100 Odds ratio=3.9 Yates-corregida x2=9.24 Valor p=0.0002 La estratificación es una manera de separar el efecto de los dos alimentos. Primero, decidida que comida es la exposición de interés y cuál será la variable de estratificación. Ya que las donas tienen el OR más elevado, usted quizá elija donas como la exposición y leche como la variable de estratificación. Los resultados se muestran en la tabla 8-10. La razón de probabilidades para donas es 6. 0 independientemente si se consumió o no la leche. Table 8-10. Hepatitis A y consume de Donas estratificado por LECHE ¿Comió Donas? Tomó Leche Casos Controles Si 36 18 No 1 3 Odds ratio=6.0 DONAS No tomó leche Casos Controles Si 4 2 No 9 27 Odds ratio=6.0 ¿Comió Donas? Casos Controles Total EXPUESTOS 40 20 60 NO-EXP 10 30 40 TOTAL 50 50 100 Odds ratio=6.0 Yates-corregido x2=15.04 Valor-p=0.0001 ¿Ahora, que sucede si usted hubiera decidido identificar la asociación de leche-enfermedad estratificando por donas? Los resultados se muestran en la tabla 8-11 Claramente, de la tabla 8-10, el consumo de donas sigue estando altamente asociado con la enfermedad, independientemente del consumo lácteo. Por otro lado, como se muestran en la tabla 811 el consumo de leche no está asociado con la enfermedad pues muestra OR de 1.0 si se estratifica por la variable donas y se comparan los que comieron y no comieron donas. La leche sólo parecía asociarse con enfermedad porque los que tomaron leche también comieron donas. Table 8-11. Hepatitis A y Consumo de Leche, estratificado por Donas. ¿Tomó Leche? Odds ratio=1.0 Comió Donas Casos Controles Si 36 18 No 4 2 ¿Tomó Leche? Odds ratio=1.0 No comió Donas Casos Controles Si 1 3 No 9 27 22 Un método alternativo para analizar las dos exposiciones se presenta en la tabla 2 por 4 que se muestra a continuación. En ese cuadro, la exposición 1 se denomina “EXP 1” como la exposición 2 es “EXP 2”. Para calcular la razón de riesgo de cada fila, se divide la tasa de ataque ("riesgo") de esa fila entre la tasa de ataque para el grupo no expuesto a cualquiera de las exposiciones (fila inferior de tabla 8-12). Para calcular la razón de probabilidades de cada fila, utiliza los valores de la fila para a y b en la manera usual (ad.bc). Tabla 8-12: Arreglo de datos en una tabla de 2 x 4, análisis de dos exposiciones al mismo tiempo. Exp 1 Exp 2 Enf Sano Total Riesgo RR OR Si Si ass bss hss ass/hss Rss/Rnn assd/bssc No Si ans bns hns ans/hns Rns/Rnn ansd/bnsc Si No asn bsn hsn asn/hsn Rsn/Rnn asnd/bsnc No No c d hnn c/hnn 1.0 (Ref) 1.0 (Ref) En la tabla 8-12 es fácil ver el efecto del exposición 1 por sí sola (fila 3) por comparación con el grupo no expuesto (fila 4), la exposición 2 por sí sola (fila 2) comparada con el grupo no expuesto (fila 4) y la exposición 1 y 2 juntas (fila 1) comparada con el grupo no expuesto (fila 4). Por lo tanto es posible evaluar los efectos separados y conjuntos. En la tabla 8-13 usted puede ver que el consumo de donas por sí solo tenía una razón de probabilidades de 6. 0 mientras que la leche sólo tuvo una razón de probabilidades de 1.0 juntas donas y leche tenía una razón de probabilidades de 6. 0 o sea lo mismo que las donas por sí solas. En otras palabras, las donas pero no la leche, se asociaron con la enfermedad. La tabla de 2 por 4 resume los cuadros estratificados en uno y elimina la necesidad de designar uno de los alimentos como la exposición primaria y el otro como la variable de estratificación. Tabla 8-13: Exposición Donas Si Si No No Hepatitis A y consumo de leche y donas en un arreglo de tabla de 2 x 4 Leche Si No Si No Enfermedad Caso Control 36 18 1 3 4 2 9 27 Odds ratio (36)(27)/(18)(9) = 6.0 (1)(27)/(3)(9) = 1.0 (4)(27)/(2)(9) = 6.0 1.0 (ref) Confusión La estratificación también ayuda en la identificación y manejo de la confusión. La confusión es la distorsión de una asociación de exposición y enfermedad ocasionada por el efecto de un tercer factor (un confusor). El tercer factor puede ser confusor y distorsionar la asociación de exposiciónenfermedad si está asociado con el efecto en forma independiente del exposición, es decir, aún en el grupo no expuesto. En otras palabras, debe ser un factor de riesgo independiente, asociado con la 23 exposición pero no una consecuencia de ello. Para separar el efecto de la exposición del efecto del factor de confusión se estratifica por la variable confusora. Considere las tasas de mortalidad de Alaska vs. Arizona. En 1988, la tasa cruda de mortalidad en Arizona fue 7.9 defunciones por 1000 habitantes, más de dos veces mayor que la tasa cruda de mortalidad en Alaska (3.9 las defunciones por 1000 habitantes) ¿es Arizona más peligrosa para la salud? La respuesta es no. De hecho, para la mayoría de los grupos de edad, la tasa de mortalidad en Arizona es cercana o algo inferior a la tasa de mortalidad en Alaska. La población de Arizona es más vieja que la población de Alaska y las tasas de mortalidad suben con la edad. La edad es un confusor de la aparentemente elevada tasa de mortalidad de Arizona. Las tasas de mortalidad ajustadas por edad para Arizona y Alaska son 7.5 por 1000 y 8.4 por 1000 respectivamente. Observé que la edad satisface los dos criterios descritos anteriormente: la mayor edad está asociada con el aumento de la mortalidad, independientemente de donde las personas vivan y la edad se asocia con lugar de la residencia (en la población de Arizona es más vieja que las de Alaska). Retornemos a la secuencia según la cual se debe realizar un análisis. Después que usted ha evaluado las relaciones básicas de exposición-enfermedad usando las tablas 2 por 2, debe estratificar los datos por terceras variables, variables que son cofactores, potenciales confusores o modificadores de efecto (serán descritas posteriormente en este capítulo). Si por medio de su simple análisis de tablas 2 por 2 ha identificado dos o más factores de riesgo posibles, cada uno debe estratificarse por el otro. Además, usted debe desarrollar una lista de otras variables que deben ser evaluadas. La lista debe incluir los factores de riesgo conocidos de la enfermedad (uno de los dos criterios para un confusor) y las variables de equiparamiento. Luego estratifique o separe los datos por categorías de terceras variables pertinentes. Para cada estrato compute una medida de asociación específica para el estrato. La edad es con frecuencia un confusor real, por lo que es razonable considerarlo un potencial confusor en cualquier conjunto de datos. Utilizando la edad como ejemplo usted podría separar los datos por grupos de edad de diez años (estrato) crear una tabla de 2 por 2 separando la exposición y efecto para cada estrato y calcular una medida de asociación para cada estrato. El resultado de este tipo de análisis es que, al interior de cada estrato "similares se comparan con similares". Si la variable de estratificación es sexo, en un estrato la relación de exposiciónenfermedad se evalúa en las mujeres y en el otro estrato se evalúa la misma relación para los hombres. El sexto ya no puede ser un confusor en éstos estratos, pues las mujeres se comparan con las mujeres y los hombres se comparan con los hombres. Para buscar la confusión, primero mire los valores más pequeños y más grandes de las medidas de asociación específicas de los estratos y compárelas con el valor crudo. Si el valor crudo no está incluido dentro del rango comprendido entre el valor más pequeño y el más grande específico de los estratos, la confusión probablemente está presente. Con frecuencia, la confusión no es tan obvia. Así que, el próximo paso es calcular un resumen de la medida ajustada de asociación como un promedio ponderado de los valores específicos de los estratos. El método más común de controlar la confusión es estratificar los datos y luego calcular las medidas que representan los promedios ponderados de los datos específicos de los estratos. Una técnica muy utilizada fue desarrollada por Mantel y Haenszel. Éste y otros métodos se describen en la referencia 5. Después de calcular el valor resumido, compare el valor resumido con el valor crudo para ver si son apreciablemente diferentes. Lamentablemente no hay ninguna regla rígida o pruebas estadísticas para definir lo que representa ser "apreciablemente diferentes". En la práctica, suponemos que el valor ajustado resumido es más exacto. La pregunta que surge es: "el valor crudo se aproxima 24 adecuadamente al valor ajustado o el valor crudo podría estar desorientando al lector? Si el valor crudo y el ajustado son similares, usted puede usar el crudo porqué no lo está desorientando y es más fácil de explicar. Si los dos valores son apreciablemente diferentes (10 por ciento?, 20%?) usa el valor ajustado. Después de decidir si el valor crudo, el valor ajustado por las medidas de asociación específicas de los estratos son las más apropiadas, usted puede probar la hipótesis y calcular los intervalos de confianza para las medidas seleccionadas. Modificación de efecto El tercer uso de la estratificación es la evaluación de la modificación de efectos. Modificación de efecto significa, sencillamente, que el grado de asociación entre una exposición y un efecto difiere en los diferentes subgrupos de la población. Por ejemplo, una vacuna antisarampiónosa (exposición) puede ser sumamente eficaz (asociación fuerte) al prevenir la enfermedad (efecto) si se aplica después de 15 meses de edad del niño (variable de estratificación igual a la edad de la vacunación, el estrato de edad uno es igual o mayor de 15 meses) pero es menos eficaz (más débil la asociación) si se administra antes de los 15 meses (estrato de edad dos igual o menor de 15 meses). Otro ejemplo, la tetraciclina (exposición) puede causar (asociación fuerte) moteado de los dientes (de efecto) en los niños (variable de estratificación igual la edad, el estrato de edad uno es igual a los niños) pero la tetraciclina no causa moteado del diente entre los adultos (estrato de edad dos igual los adultos). En ambos ejemplos la sesión o efecto depende de si es modificado por una tercera variable. La modificación de efecto es clarificadora porque plantea preguntas o investigaciones adicionales. Por qué varía el efecto? De qué manera es un grupo diferente del otro? El estudio de estas y otras preguntas relacionadas pueden conducir a profundizar en el conocimiento de la fisiopatología, la historia natural de las enfermedades y las características genéticas o adquiridas del huésped que influyen en el riesgo de las enfermedades. Básicamente, la evaluación de la modificación del efecto incluir el determinar si las medidas de asociación específicas de cada estrato son diferentes entre sí. La identificación de la modificación de efecto es realmente un proceso de dos partes que incorpora las siguientes preguntas: A) ¿es del rango de asociaciones lo suficientemente amplio para tener importancia en salud pública o tener relevancia científica? Un credo de la epidemiología del campo es que "una diferencia para hacer una diferencia tiene que hacer una diferencia" B) ¿el rango de asociaciones tiende a representar la variación normal el muestreo? La evaluación se puede ser en forma cualitativa (mirando los resultados) o cuantitativamente (haciendo análisis multivariados como la regresión logística o con pruebas estadísticas de la heterogeneidad) Es importante señalar otro diferencia: la confusión es sumamente común, porque es precisamente un artefacto de los datos. La verdadera modificación de efecto, por otro lado, representa generalmente un fenómeno biológico y en consecuencia, es mucho menos común. Análisis adicionales Vale la pena mencionar dos áreas adicionales, aunque las discusiones técnicas están más allá del alcance de este libro. Estas dos áreas son la evaluación de las relaciones dosis-respuesta y el modelaje. 25 REFERENCIAS BIBLIOGRAFICAS 1. Shem, S. (1978). The House of God. Richard Marek Publishers, New York. 2. Dean A.G., Dean J.A., Coulombier D., et al. (1994). Epi Info, Version 6: A word processing, database, and statistics program for epidemiology or microcomputers. Centers for Disease Control and Prevention, Atlanta, Georgia. 3. Luby, S.P., Jones, J.L., Horan, J.M. (1993). A large salmonellosis outbreak catered by a frequently penalized restaurant. Epidemiol and Infect 110, 31-39. 4. Berkelman, R.L., Martin, D., Graham, D.R., et al. (1982). Streptococcal wound infections caused by a vaginal carrier. J American Med Assoc 247, 2680-82. 5. Landrigan, P.J. (1972). Epidemic measles in a divided city. J American Med Assoc 221,567-70. 1. Kleinbaum, D.G., Kupper, L.L., Morgenstern, H. (1982). Epidemiologic Research: Principles and Quantitative Methods. Lifetime Learning Publications, Belmont, California. 2. Schlesselman, J.J. (1982). Case-control studies: Design, conduct, analysis. Oxford University Press, New York. 3. Shands, K.N., Schmid, G.P., Dan, B.B., et al. (1980). Toxic-shock syndrome in menstruating women: Association with tampon use and Staphylococcus aureus and clinical features in 52 cases. N Eng Med, 303, 1436-42. 4. Dicker, R.C. (1986). Kawasaki syndrome. Washington Morbid Rep,(Oct);1-4. 5. Robins, J . Greenland, S., Breslow. N.E. (1986) A general estimator for the variance of the Mantel-Haenszel odds ratio. Am J Epidemiol, 124, 719 23. 6. Comstock, G.W. (1990). Vaccine evaluation by case-control or prospective studies, Am J Epidemiol, 131, 205-7. 7. Hill, A.B. (1965). The environment and disease: association or causation? Proc R Soc Med 58, 295-300. 26