DISEÑO TRANSVERSAL 1. Objetivos: - Reconocer las ventajas y limitaciones del diseño de prevalencia y transversal Identificar tipos de muestreo utilizados en la selección de los participantes Identificar sesgos más comunes del diseño transversal Calcular e interpretar las medidas de riesgo relacionadas con este diseño y su intervalo de confianza 2. Términos Claves: Muestra, confiabilidad, validez, estudio piloto, razón de prevalencias. 3. Desarrollo del tema: 3.1. Introducción Los estudios transversales son diseños observacionales de base individual que suelen tener un doble componente descriptivo y analítico. Cuando predomina el primer componente se habla de estudios transversales descriptivos o de prevalencia, cuya finalidad es el estudio de la frecuencia y distribución de eventos de salud y enfermedad. El objetivo de este diseño es medir una o más características o enfermedades en un momento dado de tiempo; por ejemplo: prevalencia de accidentes laborales; número de cursos de capacitación realizados por trabajador; prevalencia de disfonía en profesores; nivel de satisfacción de los usuarios de un servicio; prevalencia de consumo de cigarrillo en la empresa, prevalencia de obesidad, etc. A través de este diseño se puede identificar los elementos básicos en epidemiología: persona (trabajador), lugar (ambiente laboral), tiempo (antigüedad a la exposición) y características relativas al agente (factor de riesgo) relacionados con el evento (Tabla 1). Tabla1: Identificación del patrón de ocurrencia del evento Elemento de Estudio Persona Aspectos considerados Sexo Edad Antigüedad laboral Raza Elaborado por Verónica Iglesias Tasas de Mortalidad o Morbilidad más altas se presentan en: ¿Hombres o mujeres? ¿Un grupo de edad más que otros? ¿Influye o no el tiempo en el trabajo? ¿En que raza es más relevante? Elemento de Estudio Aspectos considerados Actividad Condiciones fisiopatológicas Hábitos Residencia Origen o procedencia Lugar Estancia Características ambientales Tendencia Tiempo Fluctuaciones Duración Emisión Depósito Características tóxicas Emisión Agente Depósito Características tóxicas Tasas de Mortalidad o Morbilidad más altas se presentan en: ¿En que determinado trabajo es más relevante? ¿Existen grupos que realizan actividades similares? ¿Quiénes presentan antecedentes patológicos? ¿Quiénes fuman?, ¿Tipo de alimentación?, ¿Practican algún deporte? ¿Urbano o rural? ¿Quiénes ocupan el mismo puesto laboral? ¿Quiénes viven en zonas comunitarias similares? ¿Difieren las características del lugar de trabajo? ¿Difieren las características del lugar de vivienda? ¿Exposiciones más recientes? ¿Aumento o disminución? ¿Período o época? ¿Períodos de exposición breves o largos? ¿Los expuestos a las mayores emisiones? ¿Los expuestos de manera prolongada a determinadas concentraciones? ¿Los expuestos a las sustancias más tóxicas? ¿Los expuestos a las mayores emisiones? ¿Los expuestos de manera prolongada a determinadas concentraciones? ¿Los expuestos a las sustancias más tóxicas? El diseño de prevalencia es de gran utilidad por su capacidad para generar hipótesis de investigación, estimar la prevalencia de eventos de salud o enfermedad (es decir, la proporción de individuos que sufre el evento en una población en un momento determinado), así como identificar posibles factores de riesgo para algunas enfermedades. El diseño transversal además de estimar la prevalencia de un evento en salud, se utiliza para investigar la asociación entre una determinada exposición y una enfermedad. En este último caso se conocen como estudios transversales analíticos. Una diferencia básica entre ambos es que en el diseño transversal la variable resultado (enfermedad o condición de salud) y las variables de exposición (características de los sujetos como hábito de fumar, edad, sexo, Elaborado por Verónica Iglesias nivel socioeconómico) se miden en un mismo momento. Como ejemplos se tiene el análisis de la relación entre stress (evento) y la condición socioeconómica (exposición); la relación entre actividad física (exposición) y obesidad (evento); hipertensión arterial (evento) y el nivel socioeconómico (exposición), y la relación ruido (exposición) e infarto agudo al miocardio (evento). A diferencia de los estudios de cohorte, en los cuales se realiza el seguimiento de sujetos expuestos y la ocurrencia de eventos nuevos por un período determinado de tiempo, en el diseño transversal se obtiene la medición de la exposición y evento de interés en los sujetos de estudio en un momento dado. Por este motivo, no es posible determinar si el factor de exposición en estudio precedió al efecto, salvo en el caso de exposiciones que no cambian con el tiempo. Su limitación para establecer causalidad entre exposición y efecto, se compensa por su flexibilidad para explorar asociaciones entre múltiples exposiciones y múltiples efectos. El diseño transversal es útil para estudiar enfermedades de larga duración, como es el caso de enfermedades crónicas. Este diseño no es adecuado para el estudio de enfermedades (o exposiciones) que se presentan con poca frecuencia en una población (enfermedades raras o con baja prevalencia) o que son de corta duración, debido a que sólo captarían información sobre un número reducido de individuos que las padezcan. A pesar de sus limitaciones, el diseño transversal es muy utilizado, ya que su costo es relativamente inferior al de otros diseños epidemiológicos, como los estudios de cohorte, y proporcionan información importante y en forma rápida para la planificación y administración de los servicios de salud. 3.2. Población y muestra Se define como población base del estudio aquella a la que el estudio hace referencia por ejemplo trabajadores de una determinada empresa, mujeres trabajadoras del agro, recién nacidos, hijos de madres fumadoras, etc. En la mayoría de los estudios no se obtiene información de todos los sujetos que integran la población bajo estudio, sino sobre un grupo de ellos llamado muestra. La muestra seleccionada debe reflejar las características de la población base que se busca estudiar; por ejemplo, si se quiere determinar la prevalencia de obesidad en una empresa y los factores de riesgo asociados, se debe incluir sujetos provenientes de todos los sitios de trabajo (gerencia, ejecutivos, administrativos, etc). Si al investigador le interesa estudiar características de algún subgrupo específico de la población, en ese caso se puede aumentar la proporción de sujetos en la muestra que pertenecen a ese subgrupo. 3.3. Cálculo del tamaño de muestra Para determinar el tamaño de muestra el investigador necesita fijar algunos criterios y, además conocer ciertos datos de la población. Los criterios que el mismo fija son: el nivel de significancia estadística, cuyo valor mayormente aceptado es 95%; la precisión (d), es decir, en cuanto acepta que difiera el Elaborado por Verónica Iglesias porcentaje de la muestra del P del Universo, en otras palabras cual es la amplitud del intervalo que él está dispuesto a aceptar para el parámetro. Finalmente se requiere tener una idea acerca de la prevalencia de la característica en la población o de la varianza si se trata de alguna medición de tipo cuantitativo. La seguridad (nivel de significancia) y la precisión compiten entre sí, por lo que debe llegarse a una combinación aceptable que asegure que el tamaño de muestra sea factible de estudiar desde el punto de vista de los recursos y del tiempo disponible. La fórmula general es: n = z2 (PQ) d2 Donde: n = tamaño de muestra z = es el valor de la desviación normal, igual a 1.96 para un nivel de significación del 5% P = Prevalencia de la característica en la población Q=1–P d = precisión (en cuanto se aleja la muestra del verdadero porcentaje del universo. Suponiendo que se desea estimar la prevalencia de obesidad en la población, con una confianza del 95% y una precisión de 5%. Basándose en la información disponible en otros estudios, se estima que P = 25%. Reemplazando en la formula se obtiene: n = 1.962 (25*75) = 288 52 Esto significa que necesitamos una muestra de 288 personas para estimar con un 95% de confianza la prevalencia de obesidad, no alejándose más del 5% del verdadero porcentaje del universo. En la siguiente tabla se muestran diferentes tamaños muestrales necesarios para que el intervalo de confianza al 95% incluya la verdadera prevalencia, en dos escenarios de precisión del estudio. Tamaño de la muestra Prevalencia Precisión Precisión 10% 5% 10 19 73 20 62 246 30 80 323 40 92 368 Elaborado por Verónica Iglesias 50 96 385 El tamaño de muestra se calcula de tal forma que permita estimar, con un determinado poder y nivel de confianza, la prevalencia de alguna enfermedad o alguna característica de la población. Un tamaño de muestra pequeño no permitirá que el estudio tenga el poder suficiente para encontrar asociaciones significativas entre las variables de exposición y resultado, y un tamaño excesivo ocasionará gasto innecesario de recursos y tiempo. 3.4. Métodos de muestreo Una vez determinado el tamaño de muestra es necesario identificar el método que se utilizará para seleccionar a los participantes. Para ello existen diversos métodos de muestreo: a) Muestreo aleatorio simple (MAS): se denomina muestreo aleatorio simple a un método para seleccionar n unidades de las N unidades del universo, de modo que cada una de las muestras posibles de tamaño n tienen la misma posibilidad de ser seleccionada. Supongamos que una empresa con oficinas en varias regiones del país desea hacer un estudio sobre la prevalencia de obesidad y los factores de riesgo asociados. Se ha determinado que la población base es de 6000 personas y el tamaño de muestra requerido es de 300 individuos. Para seleccionar la muestra es necesario contar con un marco muestral, es decir una lista completa de las unidades de muestreo. Una alternativa simple es hacer una ficha con los 6000 nombres, meter las fichas en una bolsa y sacar las 300 fichas necesarias sin reemplazo. Otra alternativa es armar una base de datos con los 6000 sujetos y utilizando un paquete estadístico adecuado solicitarle una muestra del tamaño requerido. La probabilidad de selección en cada unidad está dada por la expresión: f = n N Denominada fracción de muestreo, donde n representa el tamaño de la muestra y N, el tamaño del universo. Ventajas: Todos los elementos tienen igual probabilidad de ser elegidos y los cálculos matemáticos son sencillos. Desventajas: Se requiere un marco muestral completo y detallado; la muestra puede quedar muy dispersa y puede ser necesario visitar una región por un solo elemento. b) Muestreo sistemático (MS): es un procedimiento especialmente útil cuando los elementos del universo están ordenados de alguna manera: archivos de fichas clínicas, listas de alumnos, etc. Este método se caracteriza por la selección de unidades tomando una de cada k unidades, siendo k el espaciamiento de muestreo dado por la expresión: Elaborado por Verónica Iglesias k = n N Donde “N” corresponde al tamaño de la población y n al tamaño de la muestra. El procedimiento consiste en tomar un número en forma aleatoria dentro de las k primeras unidades. A esta primera unidad de muestreo seleccionada se denomina unidad de arranque. Para seleccionar las siguientes unidades que formarán la muestra, se le suma a la unidad de arranque k, 2k, 3k, etc., hasta obtener el tamaño de muestra deseado. En nuestro ejemplo el espaciamiento de muestreo estaría dado por k = 6000 / 300 es igual a 20. Por lo tanto elegimos un número en forma aleatoria entre 1 y 20. Supongamos que el número elegido fue 5, a esa unidad de arranque (5) se le suma el intervalo de muestreo (20) entonces la muestra queda constituida por las unidades 5, 25, 45, 65, etc procediéndose de igual forma para el resto de las unidades seleccionadas. Ventajas: rápido y sencillo; garantiza la distribución de la muestra; no necesita numeración de las unidades, sólo un ordenamiento físico que permita el recuento Desventajas: No sirve si hay un ordenamiento en el marco muestral o si se presenta algún comportamiento periódico, por ejemplo que cada 10 números impares se registre un gerente. c) Muestreo aleatorio estratificado (MAE): consiste en clasificar a todos los elementos de la población en grupos (estratos) y seleccionar luego en cada grupo, una muestra aleatoria simple, tomando al menos un elemento de cada grupo. Los estratos pueden reflejar distintos grupos de edad, regiones geográficas, sexo, diferente grado de exposición, etc. En nuestro ejemplo, se pueden formar estratos de acuerdo al cargo u ocupación en la empresa, por ejemplo gerencia, personal administrativo y personal de terreno. En caso que los estratos sean de diferente tamaño se puede utilizar el siguiente procedimiento para seleccionar la muestra. Universo N % n Gerencia Administrativos 100 900 1,7 15 5 45 Trabajadores TOTAL 5000 6000 83,3 100 250 300 El porcentaje con el que contribuye cada estrato al total del universo, se aplica al tamaño de la muestra calculado n y ese es el número de elementos que debe tomarse de cada estrato. Ventajas: la estimación de los parámetros puede tener un menor error que el obtenido para una muestra aleatoria simple de tamaño comparable; asegura la participación de todos los estratos. Elaborado por Verónica Iglesias Desventajas: se requiere un marco muestral detallado por estrato, mayor complejidad de los cálculos. d) Muestreo de Conglomerados (MC): En este tipo de muestreo las unidades de muestreo son agrupaciones tales como escuelas, fábricas, manzanas, llamadas conglomerados. En nuestro ejemplo los conglomerados serían las oficinas de la empresa distribuidas en varias regiones del país. En términos generales la característica que define un conglomerado es su proximidad geográfica, al reunir varios elementos en una misma área. Un conglomerado no implica necesariamente la homogeneidad que se requiere en el estrato y representa más bien una facilidad operativa. De hecho se busca que sean heterogéneos al interior de cada conglomerado y homogéneos entre sí. Ventajas: la principal ventaja del muestreo por conglomerados es de índole económica, pues permite obtener los datos sin necesidad de grandes desplazamientos en el terreno. 3.5. Sesgos más comunes en los estudios de diseño transversal Se conoce como sesgo a cualquier desviación que pueda conducir a conclusiones que son sistemáticamente diferentes de la verdad. Estos sesgos se pueden producir durante el proceso de elaboración del proyecto (sesgo de selección de los participantes), durante la recolección de la información (sesgo de información), o bien durante el análisis. Algunos de los sesgos más comunes en el diseño transversal son: a) Muestreo con sesgo de duración: este sesgo ocurre debido a que en el estudio de diseño transversal generalmente se sobrerrepresenta a los casos con larga duración de la enfermedad y se subrepresenta aquéllos de corta duración. Por ejemplo, una persona con enfermedad crónica tiene mayor posibilidad de ser incluida en un estudio que una persona que se enferma y recupera rápidamente quien difícilmente será incluida en el grupo prevalente. b) Sesgo de información: sesgo que puede ocurrir debido al cambio en el nivel de exposición a través del tiempo, por ejemplo un trabajador que se registra como no expuesto en el momento que se realiza el estudio, sin embargo 5 o 10 años atrás trabajaba en el sitio de mayor exposición. También es importante considerar que si la exposición produce enfermedad leve y de larga duración –aun cuando no produzca riesgo de enfermar– la frecuencia de exposición será elevada en los casos y, por lo tanto, de aparente mayor riesgo. En cambio, si la exposición produce una alta letalidad de la enfermedad, entonces la frecuencia de exposición será muy baja entre los casos y la asociación exposición-enfermedad puede resultar negativa, aún cuando en realidad la exposición no resulte en menor riesgo de enfermar. c) Sesgo de selección: aquel que se produce al momento de reclutar a los participantes del estudio. Por ejemplo si aquellos individuos que aceptan participar en el estudio presentan una menor o mayor exposición, o menor o mayor enfermedad en comparación con la población base, entonces los Elaborado por Verónica Iglesias resultados obtenidos no serán válidos. Una de las estrategias para tratar de evitar este sesgo es realizar un muestreo probabilístico o aleatorio en el que todos los individuos que conforman la población bajo estudio tengan la misma probabilidad de ser incluidos en el estudio. d) Sesgo de información: sucede cuando la recolección de la información no ocurre de igual manera para todos los participantes, por ejemplo si para el diagnóstico de una enfermedad se utilizan diferentes métodos entre los participantes. También ocurre sesgo de información cuando los datos recolectados son poco verídicos o incompletos o cuando los individuos seleccionados para el estudio rechazan participar, lo cual se puede relacionar con características de interés que hagan que la población participante sea diferente a la no participante. Esto afectará la estimación de prevalencia o de asociación entre exposición y efecto y afectará la validez del estudio. Por este motivo es necesario conocer las razones de no participación o no respuesta y las características de los sujetos no participantes, para saber si se trata de valores perdidos al azar o de manera sistemática y cómo esto afecta las mediciones. e) Sesgo de memoria: cuando se hacen preguntas sobre exposiciones o eventos pasados, aquellas personas que han sufrido una experiencia traumática (enfermedad, aborto, accidente) tienden a recordar las exposiciones con más detalle que quienes no tuvieron dicha experiencia. La ausencia de sesgos en la selección de los sujetos de estudio y en la medición de las variables en la población en estudio se conoce como validez interna; esto significa que los resultados obtenidos son ciertos para la población o muestra estudiada. Si la muestra es representativa de la población base, esto aumentará la validez externa del estudio; esto es, la posibilidad de inferir dichos resultados a la población base de la cual se obtuvo la muestra, así como a poblaciones similares. 3.6. Recolección de la información Una vez definida la población y muestra, así como las variables que se investigarán es necesario definir los instrumentos que se emplearán para recolectar la información. La variable resultado pueden ser medida a partir de: cuestionarios, fichas clínicas, exámenes de laboratorio, certificados de defunción, etc; mientras que las variables de exposición pueden obtenerse a partir de: cuestionarios, registros ocupacionales, uso de biomarcadores, información proveniente de otras instituciones, por ejemplo las encargadas de fiscalizar la calidad del agua, aire, etc. En el ámbito ocupacional generalmente existen registros que contienen información general tal como edad, sexo, año de ingreso a la empresa, sitios de trabajo, etc y fichas médicas donde se registran exámenes periódicos, hábito de fumar, etc. En estos casos puede ser necesario elaborar una ficha de recolección de tal información. Elaborado por Verónica Iglesias Otro método muy utilizado son los cuestionarios. En este caso, si las preguntas son elaboradas con fines del estudio, éstas deben estar adaptadas a la población objetivo. El lenguaje utilizado para las preguntas debe ser fácilmente entendido por la persona que responde. Antes de aplicar el cuestionario, se debe evaluar la confiabilidad (capacidad del instrumento para dar resultados similares en distintos momentos del tiempo) y la validez (capacidad del instrumento para medir la variable que realmente desea medir). Ambas características pueden ser evaluadas a través de un estudio piloto. También se pueden utilizar cuestionarios que ya han sido validados en el medio local. La principal ventaja de usar escalas validadas es que posteriormente se puede comparar la información obtenida con otros estudios. En todos los casos (cuestionarios elaborados con fines del estudio, cuestionarios previamente validados o también en el caso de las fichas de recolección de información) es necesario realizar una prueba piloto de los instrumentos de recolección de información. Esta prueba, llevada a cabo con una submuestra de la población bajo estudio, permitirá corregir problemas en el cuestionario y su procedimiento de aplicación. Un aspecto muy importante una vez definido el instrumento con que se recolectará la información, la confiabilidad y validez de éste, es el entrenamiento al personal de campo que aplicará dicho instrumento. Esto con el objetivo de evitar que el entrevistador o recolector de datos también sea una fuente de sesgo lo que se produce cuando un mismo entrevistador obtiene mediciones diferentes de la característica o atributo de interés (variabilidad intraobservador), o cuando una misma medición se obtiene de manera diferente entre un observador y otro (variabilidad entre observadores). 3.7. Análisis de los datos El análisis de datos depende de los objetivos del estudio y de la escala de medición de las variables. Éste se inicia con la obtención de las estadísticas descriptivas de las variables de interés, lo que permite conocer las características generales de la población bajo estudio. Por ejemplo, se puede conocer la frecuencia y distribución de edades, escolaridad, ingreso económico, género, uso de servicios de salud, motivos de consulta médica, tabaquismo, etcétera. En el caso de variables dicotómicas como presencia o ausencia de enfermedad los datos se expresan como proporción y en el caso de variables continuas, como el peso y la talla, los datos se presentan como medidas de tendencia central (media, mediana, moda) y de dispersión (rangos, desviación estándar, varianza, percentiles). a) Comparación de prevalencias: Si el objetivo del estudio es comparar prevalencias entre grupos de exposición, los datos pueden ser analizados a partir de una tabla tetracórica (2x2). En esta tabla se registra en las columnas el número de enfermos y no enfermos y en las filas el número de expuestos y no expuestos: Elaborado por Verónica Iglesias Enfermos Sanos Total Expuestos a b a+b No Expuestos c d c+d a+c b+d a+b+c+d Total Estimador: Número de enfermos en la población = Prevalencia de enfermedad en la población = Prevalencia de enfermedad en los expuestos = Prevalencia de enfermedad en los no expuestos = Razón de prevalencias de enfermedad = a+c a+c /a+b+c+d a/a+b c/c+d (a/a+b) / (c/c+d) La medida de efecto o asociación puede ser expresada como: Razón de Prevalencia: (a/a+b) / (c/c+d) ó Diferencia de Prevalencias: (a/a+b) - (c/c+d) En la razón de prevalencias el valor de uno se interpreta como igual prevalencia de enfermedad entre expuestos y no expuestos. Un valor mayor de uno significa que la prevalencia es mayor en los expuestos que en los no expuestos. Un valor menor a uno significa que la prevalencia es mayor en los no expuestos que en los expuestos. Alternativamente, se puede calcular el ODDS RATIO con la siguiente fórmula: OR = (a*d) / (b*c) La interpretación del Odds Ratio es similar a la razón de prevalencias; un valor de uno se interpreta como igual posibilidad de enfermar entre expuestos y no expuestos. Un valor mayor de uno significa que la posibilidad de enfermar es mayor en los expuestos que en los no expuestos. Un valor menor a uno significa que la posibilidad de enfermar es mayor en los no expuestos que en los expuestos. b) Comparación de variables fisiológicas: Además de determinar la presencia o ausencia de síntomas, enfermedad o muerte como variables resultado, en algunos estudios transversales se mide como resultado variables que están distribuidas de manera continua como por ejemplo peso o presión arterial comparado entre dos o más grupos de trabajadores. Cuando se compara el valor promedio entre dos grupos la prueba estadística utilizada es la t-student y cuando se compara el valor promedio entre tres o más grupos se Elaborado por Verónica Iglesias utiliza la técnica de análisis de varianza conocida como ANOVA. Ambas técnicas pueden ser utilizadas cuando los datos tienen una distribución normal, de no ser así, es necesario realizar una transformación logarítmica previamente a la comparación. Conclusiones: Entre las ventajas del diseño transversal destaca que éste permite el estudio de eventos (variable dicotómica) y efectos sobre la función fisiológica (variables continuas). Además con este diseño se pueden estudiar simultáneamente múltiples efectos y múltiples exposiciones. Es útil para el estudio de enfermedades de alta prevalencia. Entre las debilidades de este diseño se señala que es menos apropiado que el diseño de casos y controles o el diseño de cohorte para establecer asociaciones causales debido a que en el diseño transversal los datos del evento y la exposición son medidas en el mismo momento. Una debilidad importante cuando se estudian poblaciones ocupacionales es que en dichos estudios sólo se incluye a la población activa. En estos casos la prevalencia o severidad del evento puede ser subestimada, especialmente en enfermedades que continúan el progreso después que la exposición ha terminado o en aquellas que llevan a un abandono precoz de los lugares de trabajo. 4. Referencias Bibliográficas - Rothman KJ, Greenland S. Modern epidemiology. 2nd edition: LippincottRaven, 1998. Taucher E. Bioestadística. 2ª edición. Editorial Universitaria, 1999. Hernández B, Velasco MHE. Encuestas transversales. Salud Pub Mex. 2000;42(5): 447-55. Checkoway H, Pearce N, Kriebel D. Research Methods in Occupational Epidemiology. Second Edition. Oxford University Press, 2004. Elaborado por Verónica Iglesias