IX Congreso Galego de Estatística e Investigación de Operacións Ourense, 12–13–14 de novembro de 2009 EPIDAT 4.0: UNA HERRAMIENTA DE APOYO PARA LA ENSEÑANZA DE LA ESTADÍSTICA M. I. Santiago Pérez1, G. Naveira Barbeito1 y el Equipo de Epidat 42 1 Dirección Xeral de Saúde Pública e Planificación. Consellería de Sanidade. Xunta de Galicia. 2 Mª Isolina Santiago, Gael Naveira, Xurxo Hervada, Luis Carlos Silva, Enrique Vázquez, Óscar Mújica, Jorge Bacallao, Humberto Fariñas. RESUMEN El objetivo de este trabajo es describir la trayectoria, características y situación actual de Epidat, un proyecto desarrollado por la Dirección Xeral de Saúde Pública e Planificación de la Consellería de Sanidade (Xunta de Galicia) en colaboración con la Organización Panamericana de la Salud. Se trata de una herramienta de libre distribución con una gran variedad de opciones para el análisis estadístico y epidemiológico de datos; actualmente se distribuye la versión 3.1 y está en desarrollo la 4.0. Palabras y frases clave: Software, epidemiología. 1. INTRODUCCIÓN Para la enseñanza de la estadística, tanto en el ámbito universitario como en la enseñanza media, es fundamental combinar las clases teóricas con clases prácticas que ayuden a los alumnos a profundizar en los conceptos estadísticos y a una mejor afirmación de los conocimientos. Para alcanzar este objetivo es necesario contar con herramientas de manejo sencillo y, preferiblemente, de libre acceso para los alumnos. La Dirección Xeral de Saúde Pública e Planificación (DXSP) de la Xunta de Galicia lleva más de 15 años trabajando en un proyecto, llamado Epidat, que consiste en el desarrollo y difusión de un programa de libre distribución para el análisis estadístico y epidemiológico de datos, y que constituye una herramienta válida para apoyar y facilitar la docencia de la estadística1. El propósito de este trabajo es repasar a grandes rasgos la trayectoria del proyecto y dar información acerca de la versión 4.0 en la que actualmente se trabaja. Epidat nació como una calculadora sencilla para dar respuesta a las necesidades de cálculos estadísticos y epidemiológicos básicos en la DXSP, debido a la escasez y poca disponibilidad de programas con estas características a principios de los años 90. Su primera versión, desarrollada para el entorno MS-DOS, resultó de la cooperación técnica entre la Consellería de Sanidade y la Organización Panamericana de la Salud (OPS), que se ha mantenido desde entonces a través de un convenio de colaboración entre ambas instituciones. La secuencia y características de las sucesivas versiones de Epidat se recoge en la tabla 1. Actualmente, puede descargarse gratuitamente la versión 3.1 desde la página Web de la DXSP: http://dxsp.sergas.es. Tabla 1: Características de las sucesivas versiones de Epidat Versión Año Rasgos fundamentales 1.0 1994 Calculadora básica de indicadores epidemiológicos para MS-DOS 2.0 1997 Ampliación limitada de la versión anterior, ahora para Windows 3.1 2.1 1998 Traducción al catalán, gallego, inglés y portugués 3.0 2004 Ampliación radical de contenidos, entorno Windows 98 3.1 2006 Corrección de errores y traducción al gallego, inglés y portugués A finales del año 2007 se realizó una encuesta por vía electrónica entre los usuarios registrados de la versión 3 de Epidat (3.0 y 3.1)2. El cuestionario, que fue enviado a 13.063 direcciones de correo, incluía 19 preguntas, 14 de las cuales se referían a la versión 3 (frecuencia de uso, dificultades halladas, grado de uso y utilidad de cada módulo, errores detectados y valoración de diferentes aspectos en una escala de 0 a 10), y las 5 restantes solicitaban sugerencias de cara a una nueva versión. Los resultados de la encuesta, con casi 1.500 respuestas, pusieron de manifiesto un alto grado de satisfacción con el programa por parte de la mayoría de los usuarios, quienes dieron ideas sobre la inclusión de nuevos métodos, fundamentalmente modelos de regresión, análisis multivariante y supervivencia, y sugerencias para mejorar la ayuda y el manejo del programa. Dada la amplia difusión alcanzada por Epidat, presente en más de 50 países (aunque el 98% de los usuarios son de Iberoamérica), y teniendo en cuenta el interés mostrado por los usuarios en la encuesta, así como las necesidades de optimización identificadas, el equipo de Epidat se ha trazado la tarea de desarrollar una nueva versión, la 4.0, en la que trabaja desde principios del año 2008. 2. CARACTERÍSTICAS DE EPIDAT 4 En el desarrollo de Epidat 4.0 participan estadísticos, epidemiólogos e informáticos de Galicia, Cuba y OPS. Esta nueva versión se está programando en Java, debido a la versatilidad de este lenguaje, que permite el funcionamiento de la aplicación en distintos sistemas operativos, tales como Windows, Linux y Macintosh. Igual que en la versión anterior, el entorno y, fundamentalmente, el contenido y la ayuda, son elementos distintivos de Epidat 4.0. Un cambio importante con respecto a las versiones anteriores es que Epidat 4.0 tiene una estructura modular de modo que, a partir de un entorno general, se podrán añadir o modificar de forma independiente los distintos módulos temáticos, lo cual facilitará las actualizaciones del programa. Epidat 4.0 tiene un entorno amigable en el que se ha priorizado que el manejo de datos y la gestión de resultados sean sencillos para el usuario (Figura 1). Aunque esta versión mantiene la filosofía de estar orientada preferentemente al manejo de datos tabulados, en algunos procedimientos opera con bases de datos no agregados. Además, en la mayoría de las opciones del programa es posible cargar los datos de forma automática a partir de tablas en formato Excel, Access o de OpenOffice, utilizando un asistente para la obtención de datos. Los resultados que genera el programa, que pueden ser numéricos o gráficos, se acumulan en un editor de texto que se puede salvar con formato rtf, pdf o una extensión propia de Epidat, epi. Una novedad destacable de esta versión es el editor de gráficos, que permite personalizar todos los gráficos generados por el programa y guardarlos en formato de imagen. El contenido de Epidat ha ido creciendo con las sucesivas versiones hasta llegar a 12 módulos en la versión 3, ahora ampliados a 19 (tabla 2) como resultado de las discusiones del equipo de trabajo y de las numerosas sugerencias aportadas por los usuarios. Estos métodos abarcan una amplia variedad de técnicas estadísticas y epidemiológicas, que cubren las necesidades más generalizadas de los epidemiólogos y técnicos de salud, así como las carencias presentes en los paquetes estadísticos más frecuentemente empleados por los profesionales de la Epidemiología. Tabla 2: Módulos contenidos en Epidat 4.0. Presentes en la versión 3 Nuevos en la versión 4.0 Ajuste de tasas Análisis descriptivo Demografía Depuración e imputación de datos Muestreo Estimación de la mortalidad atribuida Distribuciones de probabilidad Regresión logística Concordancia y consistencia Análisis de supervivencia Pruebas diagnósticas Índices de desarrollo o privación Tablas de contingencia Medición de desigualdades en salud Inferencia sobre parámetros Métodos de evaluación económica Análisis bayesiano Vigilancia epidemiológica Meta-análisis A continuación se describen brevemente los módulos con un carácter más específicamente estadístico, cinco de los cuales ya estaban incluidos en la versión 3 del programa3: ò Análisis descriptivo: ofrece la posibilidad de organizar y resumir un conjunto de datos mediante tablas de frecuencias, cálculo de medidas características y representaciones gráficas. En este módulo el editor de gráficos juega un papel fundamental. ò Depuración e imputación de datos: contiene procedimientos para identificar datos atípicos y para imputar datos faltantes en varios casos particulares pero muy frecuentes en el análisis de datos tabulados. ò Muestreo: incluye procedimientos para determinar tamaños muestrales, selección de muestras probabilísticas con diferentes diseños y tratamiento de datos en muestras complejas. ò Inferencia sobre parámetros: permite calcular intervalos de confianza y hacer pruebas de hipótesis sobre medias, proporciones y tasas de incidencia, con datos de una o dos muestras. ò Análisis bayesiano: permite aplicar la metodología bayesiana a problemas básicos de inferencia, como son la estimación y comparación de medias y proporciones. En la mayoría de opciones de este módulo el usuario puede seleccionar de una forma interactiva la función de distribución a priori más adecuada para sus datos. ò Tablas de contingencia: contiene un submódulo orientado a la epidemiología, con opciones para estudiar la asociación entre exposición y enfermedad, y otro que permite analizar la asociación entre dos variables categóricas en tablas bidimensionales M×N. ò Regresión logística: contiene opciones para hacer ajustes logísticos, tanto a partir de tablas de contingencia múltiples como con bases de datos extendidas. ò Análisis de supervivencia: permite estimar la supervivencia por el método de Kaplan-Meier, o ajustar modelos de regresión de Cox. ò Distribuciones de probabilidad: ofrece la posibilidad de computar valores de la función de distribución y su inversa para un amplio abanico de distribuciones discretas y continuas, así como representar gráficamente la función de densidad y de distribución. También permite generar muestras simuladas para cada una de las distribuciones incluidas. La ayuda de Epidat es, desde la versión 3, uno de sus elementos distintivos respecto de aplicaciones similares. Lejos de reducirse o concentrarse en explicar el manejo del programa, la ayuda incluye los fundamentos estadísticos y epidemiológicos de cada método, con numerosos ejemplos debidamente resueltos y comentados. Además, en la versión 4, la ayuda tendrá como novedad un anexo con los algoritmos implementados en cada módulo y la bibliografía utilizada para delimitarlos, y se pondrá especial celo en conservar su enfoque crítico y mejorar su calidad. 3. CONCLUSIONES En resumen, la versión 4 de Epidat va a constituir una herramienta versátil, de manejo sencillo, válida para distintos sistemas operativos y con una ayuda bien diferenciada respecto a otras aplicaciones. El programa se pondrá a libre disposición de los usuarios en el primer trimestre del año 2010 cuando estén programados la mitad de los módulos previstos. Los restantes se irán incorporando progresivamente. Para cualquier comentario o sugerencia para la nueva versión puede dirigirse a [email protected]. REFERENCIAS 1 Hervada Vidal, X., Santiago Pérez MI, Vázquez Fernández E, Castillo Salgado C, Loyola Elizondo E, Silva Ayçaguer LC. Epidat 3.0: Programa para el análisis epidemiológico de datos tabulados. Versión 3.0. Rev Esp Salud Pública 2004;78(2):277-80. 2 Santiago-Pérez MI, Vázquez E, Hervada X, Silva LC, Fariñas H, Mújica OJ et al. Perfil y opiniones de los usuarios registrados de Epidat 3. XXVI Reunión Científica de la Sociedad Española de Epidemiología. Gacet Sanit. 2008;22(Espec Congr):72. 3 Santiago Pérez MI, López Ratón M, Vázquez Fernández E, Silva Ayçaguer LC, Hervada Vidal X. Epidat 3.1: Una herramienta para el análisis epidemiológico de datos tabulados. Congreso de Estadística e Investigación de Operaciones de Galicia y Norte de Portugal. Figura 1: Pantalla de Epidat 4.0