INSTITUTO MEXICANO DEL SEGURO SOCIAL MINERÍA DE DATOS COMPRENSIÓN DEL NEGOCIO FASE 1 ¿Quiénes somos? El IMSS, es la Institución con mayor presencia en la atención a la salud y en la protección social de los mexicanos desde su fundación en 1943, para ello, combina la investigación y la práctica médica, con la administración de los recursos para el retiro de sus asegurados, para brindar tranquilidad y estabilidad a los trabajadores y sus familias, ante cualquiera de los riesgos especificados en la Ley del Seguro Social. Hoy en día, más de la mitad de la población mexicana, tiene algo que ver con el Instituto, hasta ahora, la más grande en su género en América Latina. Figura 1.1 Historia del IMMS Objetivos del negocio • Fortalecer el primer y segundo nivel de atención. • Ampliar y rehabilitar la infraestructura médica y social. • Implementar un programa de cuidados paliativos y unidades médicas de tiempo completo. • Fortalecer la promoción de la salud. • Mejorar la salud materna y reducir la mortalidad neonatal. MINERÍA DE DATOS Requisitos, supuestos y restricciones No se cuenta con las instalaciones adecuadas, eso afecta la eficiencia a la hora de las citas y de la atención médica que merecen los derechohabientes. Los seis hospitales regionales de alta especialidad (HRAE) creados por el gobierno federal a partir de 2006, no cumplen con la misión de mejorar el acceso a la atención médica de enfermedades complejas y graves. A pesar del tiempo transcurrido, más de 93 por ciento de los servicios de alta especialidad se proporcionan en los institutos nacionales de salud y hospitales federales ubicados en la ciudad de México. Solamente 6.5 por ciento de los pacientes fueron atendidos en los HRAE, los que se suponía, según ha dicho la Secretaría de Salud (Ssa), son suficientes para descentralizar la demanda de servicios médicos de alta especialidad. Actualmente se cuenta con 464 hospitales en todo México, que atienden a los derechohabientes. Al cierre de noviembre de 2018, la población derechohabiente adscrita a clínica alcanzó 57.6 millones de derechohabientes, un promedio de 56.8 millones de personas afiliadas durante once meses. Misión Visión Valores La misión del IMSS es ser el instrumento básico de la seguridad social, establecido como un servicio público de carácter nacional, para todos los trabajadores y trabajadoras y sus familias. Por un México con más y mejor seguridad social Honradez Lealtad Imparcialidad Eficiencia Disciplina Profesionalismo Objetividad Transparencia Integridad Objetivo de la minería de datos Se pretende saber en qué región del país: Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste, Sureste y Sureste, es más recomendable abrir un nuevo hospital de especialidad médica y así ofrecer una respuesta más rápida a los derechohabientes, así como asegurar la atención adecuada a los pacientes. MINERÍA DE DATOS Criterios de éxito Para la realización de la minería de datos se utilizarán los campos de la base de datos ▪ ▪ ▪ ▪ ▪ EDAD_AGRU (Edad agrupada) GR_LISMEX (Grupos lista mexicana) AREA_UR (Área Urbana o Rural) ASIST_MEDI (Asistencia médica) ENT_REGIS (Entidad registro) Es un dato importante conocer la edad de los pacientes finados para poder identificar los patrones en la edad (EDAD_AGRU) en los que se dan frecuentemente ciertas enfermedades, y es con el campo GR_LISMEX con el cuál se agrupan las enfermedades y nos informa si hubo otra complicación adicional a la enfermedad, también se requiere de los datos que almacena el campo AREA_UR (Urbana o Rural) para identificar si se requiere que la clínica sea establecida en una de estas dos áreas e identificar la región a la que pertenece (Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste, Sureste y Sureste). Finalmente es interesante saber cuántas personas fueron las que recibieron asistencia médica (ASIST_MEDI) previo a su defunción. Plan de Proyecto El plan para la realización y entrega de este proyecto se describe a continuación: • Fase 1: Comprensión del negocio Encargado/a: Abigail Rodríguez Fecha de entrega: 12 de julio 2019 Se realizará la investigación sobre el IMSS para conocer a fondo la institución y comprender a detalle las necesidades y requerimientos de la misma. • Fase 2: Comprensión de los datos Encargados: Selene Villa / Eduardo Juárez Fecha de entrega: 13 de julio 2019 Se realizará el estudio de los datos, lo que significa realizar diversas auditorías en CLEMENTINE para conseguir un mejor análisis de la base y los datos que contiene. • Fase 3: Preparación de los datos Encargados: Rafael Alvarado / Humberto Rodríguez Fecha de entrega: 13 de julio 2019 Una vez seleccionados los datos a usar, se realizará la limpieza, estructuración, integración y de ser necesario formateo de los mismos. • Fase 4: Modelado Encargados: Humberto Rodriguez / Eduardo Juárez Fecha de entrega: 19 de julio 2019 MINERÍA DE DATOS Conforme los resultados de la fase anterior se realizará una propuesta de modelo y una prueba del mismo para determinar si los parámetros escogidos son los correctos. • Fase 5: Evaluación Encargadas: Selene Villa / Abigail Rodríguez Fecha de entrega: 19 de julio 2019 Los resultados serán evaluados conforme al objetivo de minería antes descrito y se realizará la revisión del proceso para determinar los siguientes pasos a seguir. • Fase 6: Implantación Rafael Alvarado / Eduardo Juárez / Humberto Rodríguez Fecha de entrega: 20 de julio 2019 Se definirá el plan de implantación, monitoreo y mantención del sistema, así como, el informe final con el o los modelos aprobados. • Desarrollo de aplicación en C# Se desarrolla en conjunto con las demás fases por lo que la fecha de entrega será el sábado 27 de julio. A continuación, se presenta el cronograma para una mejor visualización de las fechas de entrega: JULIO CAPITULO ENCARGADO ACTIVIDAD OBJETIVO DEL NEGOCIO VALORACION DE SITUACION OBJETIVO DEL DM COMPRENSION DEL NEGOCIO ABIGAIL METAS DE DATA MEANING CRONOGRAMA PLAN DE PROYECTO ROCOLECCION DE DATOS DESCRIPCION DE DATOS COMPRENSION DE LOS DATOS SELENE Y EDUARDO EXPLORACION DE DATOS CALIDAD DE LOS DATOS DESCRIPCION DE DATASET SELECCIÓN DE DATOS LIMPIAR DATOS PREPARACION DE LOS DATOS RAFAEL Y HUMBERTO ESTRUCTURAR LOS DATOS INTEGRAR LOS DATOS FORMATO DE LOS DATOS SELECCIONAR TECNICA DE MODELADO GENERAR EL PLAN DE PRUEBA MODELADO HUMBERTO Y EDUARDO CONSTRUIR EL MODELO EVALUAR EL MODELO EVALUAR LOS RESULTADOS REVISION DEL PROGRESO EVALUACION SELENE Y ABIGAIL DETERMINAR PROXIMO PASO EVALUAR MODELO PLAN DE IMPLEMENTACION PLAN DE MONITOREO Y MANTENCIÓN IMPLANTACION RAFAEL, HUMBERTO Y EDUARDO INFORME FINAL REVISION DEL PROYECTO INICIO DESARROLLO APLICACIÓN EN C# SELENE Y RAFAEL PRUEBAS PRESENTACIÓN DE APLICACIÓN 20 20 AGOSTO 26 27 2 3 Figura 1.2 Cronograma MINERÍA DE DATOS FASE 2 COMPRENSIÓN DE LOS DATOS Recolectar los datos iniciales En esta segunda fase se realiza la recolección inicial de los datos para poder familiarizarnos con los datos y averiguar su calidad. Los datos se encuentran almacenados en un archivo de texto plano Analisis.txt. La base de datos cuenta con 703 047 registros y 59 campos, los cuales serán explicados más adelante en la auditoría. Los datos almacenados en su mayoría son de tipo entero, ya que representan una clave que tendrá una descripción. Un ejemplo de ello se muestra en la Tabla 2.1 CVE 1 2 9 DESCRIP Hombres Mujeres Sexo no especificado Tabla 2.1. Ejemplo de clave con descripción La base de datos almacena información referente a los pacientes finados que fueron atendidos en el IMSS, se encuentran datos que nos indican una lista de enfermedades de México que se atienden en el hospital y algunas categorías de tipo de enfermedad. En cuanto a los datos del paciente finado se puede conocer el día de registro, fecha de nacimiento, nacionalidad, sexo, edad (*agrupada), mes de certificación, si la persona era derechohabiente, la entidad de la República mexicana donde vivió, escolaridad, actividad económica, la ocupación, estado conyugal, el parentesco (padre, madre, hijo, etc.), localidad de la residencia, entre otros. En la tabla 2.2 se encuentra una lista en general de los campos, así como el tipo de campo que es, la longitud, su nemónico, el rango de las claves que se utilizan para clasificar los datos y la descripción de cada campo. Descripción de los datos A continuación, se muestra una mejor descripción de algunos campos de la base de datos que no son muy claros: EDAD (Edad). En este campo determina la edad de la persona fallecida, en donde contiene distintos rangos o valores que son determinados, en horas, días, meses y años. PRESUNTO (Presunto). Este campo consiste en la causa que supone que fue ocasionada o si fue sospechosa la defunción de dicha persona, por ejemplo, si fue por accidente, homicidio, suicidio, etc. NECROPSIA (Necropsia). Este campo representa la exploración física externa del cadáver antes de proceder con la apertura de cavidades para determinar la causa de la persona fallecida, por lo que en este campo determina si se realizara o no la necropsia, o que tal vez no esté definido. MINERÍA DE DATOS COND_CERT (Certificada Por). Este campo básicamente contiene el medico por quien fue tratado la persona fallecida, si fue un médico legista (persona que determina el origen de las lesiones sufridas), autoridad civil u otro tipo de médico. DERECHOHAB (Derechohabiencia). Este campo se aplica a la persona cuyos derechos derivan de otra, que comúnmente son los hijos menores de edad y los mayores incapacitados, empleando así este término para hacer referencia al heredero de una persona y, en consecuencia, beneficiario de los derechos de indemnización establecidos en una póliza (IMSS, ISSSTE, SEMAR, Seguro popular, etc.). CAPITULO (Capitulo). En este campo principalmente incluye o contiene la categoría del tipo de enfermedades que tuvo la persona fallecida (Enfermedades del sistema circulatorio, respiratorio, digestivo, enfermedades nutricionales, embarazo, tumores, etc.). COMPLICARO (Complicaron el embarazo). Este campo primeramente especifica si la persona fallecida tuvo complicaciones o no a la hora del embarazo, si es que aplica en ese caso, o puede que no esté especificado totalmente. COND_ACT (Condición de Actividad económica). Este campo determina la condición de actividad económica del paciente finado, en el campo se almacena como respuesta un “Si” o “No”, no se especifica la actividad en la que se desenvolvía, este campo sirve para facilitar y promover la producción de vivienda de calidad. DIA_CERT (Día de Certificación). Este campo especifica el día exacto en los documentos oficiales para certificar las muertes, los cuales son expedidos por profesionales de la medicina o personas autorizadas por la autoridad sanitaria, una vez comprobado el fallecimiento y determinadas sus causas. MES_CERT (Mes de Certificación). Este campo especifica el mes exacto en los documentos oficiales para certificar las muertes, los cuales son expedidos por profesionales de la medicina o personas autorizadas por la autoridad sanitaria, una vez comprobado el fallecimiento y determinadas sus causas. ANIO_CERT (Año de Certificación). Este campo especifica el año en los documentos oficiales para certificar las muertes, los cuales son expedidos por profesionales de la medicina o personas autorizadas por la autoridad sanitaria, una vez comprobado el fallecimiento y determinadas sus causas. MATERNAS (Maternas). Este campo se centra en describir la causa de la defunción materna. Explicación de las claves de algunos campos para ejemplificar mejor su funcionamiento: Asistencia médica: contiene las claves 1,2,3 donde 1: con asistencia médica, 2: sin asistencia médica, 99: sin especificar Entidad de residencia: se presentan claves de entidades con un rango del 1 al 570 y 99 el cual hace referencia a que no está especificada la editad MINERÍA DE DATOS Certificado por: entidad con claves del tipo de doctor que certifico la defunción donde 1: Médico tratante, 2: Médico legista, 3: Otro médico, 4: Persona autorizada por SSA, 5: Autoridad civil, 8: Otro, 9: no especificado Sitio donde ocurrió la defunción: las claves almacenadas en este campo hacen referencia al lugar donde se registró la defunción de la persona como es tipo de hospital, hogar los cuales abarcan de la clave 1 a la 12 y el 99 no especificado NOMBRE_CAMPO LONGITUD TIPO NEMÓNICO RANGO_CLAVES Descripción Año Defunción 4 int anio_ocur 1943 - 2017, 9999 Se incluye el año de la defunción Año Registro 4 int anio_regis 2017 Se incluye el año del registro Año Nacimiento 4 int anio_nacim 1889 - 2017, 9999 Se incluye el año del nacimento Año de Certificación 4 int anio_cert 2016 - 2017 Asistencia Médica 1 int asist_medi 1 - 2, 9 Se incluye el año de la certificación de defunción Se incluye el tipo de asistencia médica Capitulo 2 int Capitulo 1 – 20 Se incluye la categoría del tipo de enfermedad Grupo 2 int Grupo 1 – 34 Causa Defunción (Lista Detallada) 4 varchar causa_def A000 - Y899 Se incluye la descripción del tipo de enfermedad Se describe la causa de la defunción Sintaxis Maternas 4 Letras Consecutivo Ejemplo A-Y 000 - 999 A010 varchar maternas O000 - O998, C58X, E230, NA En este caso A representa enfermedades causadas por bacterias Los números son para especificar las variantes de esas enfermedades Se describe la causa de la defunción materna La categoría C58X está relacionada con tumores pero se utliliza para definir tumor en placenta De la categoría O000 a O998 se describen las causas relacionadas con los fetos La categoría E230 refiere al Hipopituitarismo durante el embarazo NA refiere a que se desconoce Entidad Registro 2 int ent_regis 1 – 32 Municipio Registro 3 int mun_regis 1 - 570 Entidad Residencia 2 int ent_resid 1-35, 99 Municipio Residencia 3 int mun_resid 1-570, 999 Clave Localidad de Residencia Entidad Ocurrencia 4 int loc_resid 1 - 6999, 9999 2 int ent_ocurr 1-35,99 Municipio Ocurrencia 3 int mun_ocurr 1-570,999 Clave Localidad de Ocurrencia Entidad Ocurrencia de la lesión 4 int loc_ocur 1 - 6999, 9999 2 int ent_ocules 1-35,88, 99 Contiene la entidad de la república mexicana donde se registro Contiene los municipios de la república mexicana donde se registro Contiene la entidad de la república mexicana donde vivio Contiene los municipios de la república mexicana donde vivio Contiene la clave de la república mexicana donde vivio Contiene la entidad de la república mexicana donde ocurrio su muerte Contiene los municipios de la república mexicana donde ocurrio su muerte Contiene la clave de la república mexicana donde ocurrio su muerte Contiene la entidad de la república mexicana donde ocurrio la lesión MINERÍA DE DATOS Municipio Ocurrencia de la lesión 3 int mun_ocules 1-570, 888, 999 Clave Localidad de Ocurrencia de la lesión 4 int loc_ocules 1 - 6999, 8888 9999 Distritos de Oaxaca 3 int dis_re_oax 901 - 930, 999 Contiene los municipios de la república mexicana donde ocurrio la lesión La clave 888 refiere a que la localidad por caso especial no se puede especificar Contiene la clave de la república mexicana donde ocurrio la lesión La clave 8888 refiere a que la localidad por caso especial no se puede especificar Contiene los distritos de Oaxaca Certificada Por 1 int cond_cert 1 - 5, 8, 9 Contiene el medico por quien fue tratado Complicaron el embarazo Condición de Actividad económica Condición de embarazo 1 int complicaro 1, 2, 8, 9 1 int cond_act 1, 2, 8, 9 Se especifica si la persona tuvo comlicaciones en el embarazo Se especifica la actividad económica 1 int embarazo 1-6, 8, 9 Se especifica la condición del embarazo Derechohabiencia 2 int derechohab 1-9, 99 Se indica si la persona era derechohabiente Día Defunción 2 int dia_ocurr 1-31,99 Se indica el día de la defunción Día Registro 2 int dia_regis 1-31,99 Se indica el día registro Día Nacimiento 2 int dia_nacim 1-31,99 Se indica el día nacimiento Día de Certificación 2 int dia_cert 1-31,99 Se indica el día de certificación Edad 4 int Edad 1001-1023, 1097,1098, 20012029,2098, 30013011,3098, 40014120, 4998 Se incluye las edades de las personas fallecidas, en horas, días, meses y años Edad agrupada 2 int edad_agru 1-30 Este campo detalla la edad que tenia el paciente cuando falleció y lo detalla en horas, días, meses y años. Los rangos 1001-1023 representan las horas, del 2001-2029 se representan en días, del 3001 a 3011 encontramos la edad en meses y por último en los rangos de 4001 - 4120 encontramos las edades en años. Se incluyen las edades agrupadas Estado Conyugal 1 int edo_civil 1-6, 8, 9 Se incluye el estado conyugal Escolaridad 2 int escolarida 1-10, 88, 99 Se incluye la escolaridad Este campo toma en cuenta el nivel escolar del finado, tomando en cuenta que para la clave 88 son menores de 3 años y la clave 99 aparece como no especificado Grupos lista mexicana 3 int gr_lismex 1-59 Hora de la defunción 2 int Horas 00-23, 99 Se incluye la lista de las enfermedades por grupos Se indica la hora de la defunción Lengua indígena 1 int Lengua 1, 2, 9 Se indica si sabe una lengua indigena Lista1 3 int lista1 1-103, 902 Se indica la lista de las enfermedades Causa Defunción (Lista Mexicana) 3 int lista_mex 1-59, 01A - 09Z, 10A - 56C Mes Defunción 2 int mes_ocurr 1-12, 99 Se indica la lista de las enfermedades de México Se divide en 59 categorias, clasificadas en números y letras Se indica el mes de defunción Mes Registro 2 int mes_regis 1-12 Se indica el mes de registro MINERÍA DE DATOS Mes Nacimiento 2 int mes_nacim 1-12,99 Se indica el mes de nacimiento Mes de Certificación 2 int mes_cert 1-12, 99 Se indica el mes de certificación Minuto de la defunción 2 int Minutos 00-59, 99 Se indica el minuto de defunción Nacionalidad 1 int nacionalid 1-2, 9 Se indica la nacionalidad Necropsia 1 int necropsia 1-2, 9 Se indica si se realizo necropsia Ocupación 2 int ocupacion 1 - 11, 97, 98, 99 Se indica la ocupación Ocurrió Trabajo 1 int ocurr_trab 1-2, 8, 9 Se indica si el siniestro ocurrio en el trabajo Parentesco del presunto agresor Presunto 2 int par_agre 1 - 72, 88, 99 Se indica el parentesco 1 int Presunto 1-5, 8 Se indica la causa de la defunción Razón Materna 1 int razon_m 1 Se indica si la causa fue materna Causas relacionadas con embarazo Sexo 1 int rel_emba 1,2, 8, 9 Se indica si la cauda fue por el embarazo 1 int Sexo 1-2,9 Se indica el sexo Sitio donde Ocurrio la Defunción Sitio donde Ocurrio la Lesión Tamaño Localidad Residencia Tamaño de Localidad Ocurrencia Area Urbano Rural 2 int sitio_ocur 1-12,99 Se indica el sitio de la defunción 2 int lugar_ocur 0 - 9, 88 Se indica el sitio de la lesión 2 int tloc_resid 01-17,99 Se indica la localidad de la residencia 2 int tloc_ocurr 01-17,99 Se indica la localidad de ocurrencia 1 int area_ur 1, 2, 9 Se indica si el area es rural o urbana Violencia Familiar 1 int vio_fami 1, 2, 8, 9 Se indica si hubo violencia familiar Tabla 2.2 Descripción de campos de la base de datos Evaluación de los datos Para familiarizarnos mejor con la información que almacena nuestra base datos se decidió realizar una auditoría en CLEMENTINE, con la auditoría se pueden conocer mejor las propiedades de los campos. Al realizar la auditoría se muestra el campo, una gráfica de muestra, el tipo de campo, los valores mínimos y máximos, la media del campo, la desviación típica, asimetría, muestra los valores que son únicos y cuantos de los registros por campo son válidos. En las siguientes figuras (fig. 2.1- fig. 2.4) se muestran los resultados de la auditoría de la base de datos del IMSS. MINERÍA DE DATOS En la figura 2.1 se puede observar que para los primeros 11 campos no se encontraron datos erróneos o nulos, ya que en el recuento de los valores válidos se obtuvo un total de 703,047 registros. En los campos de la misma figura no se encontraron los rangos establecidos para clasificarlos. En la columna Tipo para todos esos valores de la figura 3 se observa que son de tipo “Rango” lo que hace referencia a los mínimos y máximos que se muestran en la columna de a lado, y eso nos lleva a concluir que nuestros valores están clasificados tomando ciertos parámetros. Figura 2.1 Auditoría de la base de datos en CLEMENTINE MINERÍA DE DATOS En la figura 2.2 se observan la secuencia de los campos de nuestra base de datos y todos son de tipo “Rango” por lo que son valores en los que podemos encontrar un mínimo y un máximo, no se encontraron datos nulos, y no se encontraron valores únicos para los campos de la misma figura. En la columna de valores únicos no se reconocen los rangos establecidos por la base de datos. Figura 2.2 Auditoría de la base de datos en CLEMENTINE MINERÍA DE DATOS En la figura 2.3 se muestra que nuestros campos son de tipo “Rango” y por lo tanto sus rangos están establecidos por los valores de las columnas del lado derecho Min y Máx, no se muestran valores únicos y tampoco se encontraron datos incorrectos o nulos en cada uno de los campos, ya que el total de los valores válidos tuvieron un total de 703047, que como ya se ha mencionado es el total de registros de la base de datos. En la columna Media se muestra el promedio de cada uno de los campos, este valor generalmente se obtiene sumando todos los datos del campo y dividiéndolo entre el número de datos, cabe mencionar que este parámetro solo aplica para datos cuantificables. Figura 2.3 Auditoría de la base de datos en CLEMENTINE MINERÍA DE DATOS En la figura 2.4 se observan algunos datos diferentes a los que se muestran en las figures anteriores (fig. 2.2 – fig. 2.3) ya que ahora tenemos campos que son de tipo “Conjunto” y “Marca” y en estos no se observa algún valor de mínimo y máximo, por lo que se puede concluir que son campos de texto. En el campo de tipo “Conjunto” se puede concluir que hace referencia a que es un conjunto de palabras o elementos significantes con significados relacionados y en ese mismo campo se observa que hay un total de 107 valores únicos, a partir de los cuales se sabe hay una clasificación del mismo tamaño para este campo en el cual se describe la causa de la defunción materna. Por otro lado, también se encuentra el campo Razon_Materna en el cual se encuentran dos valores únicos dentro de este campo, lo que nos lleva a concluir que este campo solo está clasificado por dos posibles respuestas. Para los campos que se muestran en la figura 6 todos los registros son válidos. Figura 2.4 Auditoría de la base de datos en CLEMENTINE MINERÍA DE DATOS Verificar la calidad de los datos Una vez realizada la auditoría, con el mismo análisis se pueden obtener los resultados de la calidad de los datos. Como se muestra en la parte superior izquierda de la figura 7, los datos completos de la base de datos arrojo un resultado del 100% ya que no hay celdas en nulo, de la misma forma se muestra que el total de registros completos de la base de datos es de un 100%. Con los resultados observados en la figura 2.5 se puede concluir que los datos están completos y que se puede disponer de ellos gracias a su corrección. Figura 2.5 Calidad de los datos a partir de la auditoría de la base de datos. MINERÍA DE DATOS PREPARACIÓN DE LOS DATOS FASE 3 En esta fase se pretende preparar los datos para adecuarlos a las técnicas de minería de datos que se van a emplear sobre ellos. Lo que implica hacer una selección sobre el subconjunto de datos que se van a utilizar, así como limpiarlos para mejorar su calidad, añadir nuevos datos a partir de los existentes y darles el formato requerido por la herramienta de modelado, para ello se utilizara CLEMENTINE. Selección de los datos En términos de registros se utilizarán todos los registros de la base de datos para implementar la técnica de minería de datos, por lo que se contará con un total de 703 047 registros. Por otro lado, con los campos no es la misma situación ya que no todos aportan información para llegar al objetivo de la minería de datos, definida en la fase 1 (Comprensión del Negocio), por lo que se va a prescindir de algunos de ellos. Los campos que se utilizarán para el análisis son los siguientes: EDAD_AGRU (Edad agrupada) GR_LISMEX (Grupos lista mexicana) AREA_UR (Área Urbana o Rural) ASIST_MEDI (Asistencia médica) ENT_REGIS (Entidad registro) El motivo para la inclusión o exclusión de algunos campos es conforme a la importancia de información de dichos campos en relación a los objetivos de la minería de datos. Para poder realizar la minería de datos fue necesario crear un nuevo campo de regiones, en donde se hizo una búsqueda de los estados a los que pertenece el IMSS, y a partir de cada una de los estados se hizo una clasificación por las siguientes regiones: Tabla 3.1 Campo Regiones En la Tabla 3.1 se muestra cómo fue que está compuesto el campo Regiones. En la tabla 3.2 se muestra la descripción de los campos que se van a utilizar para generar el campo determinante: MINERÍA DE DATOS NOMBRE_CAMPO LONGITUD TIPO NEMÓNICO RANGO_CLAVES Registros Descripción Clave region 1 int Clv_region 1-8 703047 Contiene la region de cada region a la que pertenece Edad agrupada 2 int edad_agru 1-30 703047 Se incluyen las edades agrupadas Grupos lista mexicana 3 int gr_lismex 1-59 703047 Se incluye la lista de las enfermedades por grupos Area Urbano Rural Asistencia Médica 1 1 int int area_ur 1, 2, 9 703047 Se indica si el area es rural o urbana asist_medi 1 - 2, 9 703047 Se incluye el tipo de asistencia médica Tabla 3.2 Descripción de datos seleccionados Limpiar los datos La base de datos con la que se cuenta y conforme a los datos seleccionados cumplen con la calidad para poder trabajar con ellos, como se mostró en la fig 7. Son datos limpios y por lo tanto no hay necesidad de hacer una limpieza sobre ellos. Tampoco se tienen campos en los que falten valores (ir a la fig 7), ya que se demostró que los campos y los registros están completos al 100% (en la fase 2). Observando la figura 8, podemos observar que los estados están divididos por regiones, además de que en la figura tenemos el total de enfermedades más comunes por región. Además, observamos que cada región tiene una clave, misma que vamos a utilizar posteriormente para proponer el modelo más adecuado y realizar la minería. Debido a que en la fase 2 se determinó que los datos están limpios e íntegros, no se requirió de realizar mayor limpieza ni modificación alguna, de haberla hecho hubiéramos corrompido la base y no nos servirían los datos. Estructura de los datos Una vez que los datos están seleccionados para la generación del campo determinante es mejor trabajar con datos numéricos, y conforme a nuestra selección el campo. Como se mencionó previamente se generaron dos campos extras los cuales son: CLV_REGION REGION Estos campos fueron creados para realizar todas las combinaciones posibles y encontrar su relación con el número de enfermedades. Integración de los datos Para poder trabajar con los campos y generar el campo determinante se simplifico la base de datos, solo tomando en cuenta los datos de nuestra selección. La simplificación de la base de datos se muestra en la tabla 3.3 MINERÍA DE DATOS ENT_REGIS ASIST_MEDI GR_LISMEX AREA_UR EDAD_AGRU 1 9 1-10 9 1-10 1 9 11-20 9 11-15 1 9 21-30 9 16-20 1 9 31-40 9 21-30 1 1 49-50 1 1-30 1 2 49-50 2 1-30 1 9 49-50 9 1-30 1 1 49-50 9 1-30 1 2 49-50 9 1-30 1 1 1-10 1 1-10 1 2 1-10 2 1-10 1 1 11-20 1 11-15 1 2 11-20 2 11-15 1 1 21-30 1 16-20 1 2 21-30 2 16-20 1 1 31-40 1 21-30 1 2 31-40 2 21-30 1 9 49-50 1 1-30 1 9 49-50 2 1-30 2 9 1-10 9 1-10 2 9 11-20 9 11-15 2 9 21-30 9 16-20 2 9 31-40 9 21-30 2 1 49-50 1 1-30 2 2 49-50 2 1-30 2 9 49-50 9 1-30 2 1 49-50 9 1-30 2 2 49-50 9 1-30 2 1 1-10 1 1-10 2 2 1-10 2 1-10 2 1 11-20 1 11-15 2 2 11-20 2 11-15 2 1 21-30 1 16-20 2 2 21-30 2 16-20 2 1 31-40 1 21-30 2 2 31-40 2 21-30 2 9 49-50 1 1-30 2 9 49-50 2 1-30 3 9 1-10 9 1-10 3 9 11-20 9 11-15 MINERÍA DE DATOS 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 9 9 1 2 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 9 9 1 2 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 9 9 1 21-30 31-40 49-50 49-50 49-50 49-50 49-50 1-10 1-10 11-20 11-20 21-30 21-30 31-40 31-40 49-50 49-50 1-10 11-20 21-30 31-40 49-50 49-50 49-50 49-50 49-50 1-10 1-10 11-20 11-20 21-30 21-30 31-40 31-40 49-50 49-50 1-10 11-20 21-30 31-40 49-50 9 9 1 2 9 9 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 1 2 9 9 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 1 16-20 21-30 1-30 1-30 1-30 1-30 1-30 1-10 1-10 11-15 11-15 16-20 16-20 21-30 21-30 1-30 1-30 1-10 11-15 16-20 21-30 1-30 1-30 1-30 1-30 1-30 1-10 1-10 11-15 11-15 16-20 16-20 21-30 21-30 1-30 1-30 1-10 11-15 16-20 21-30 1-30 MINERÍA DE DATOS 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 2 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 9 9 1 2 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 9 9 1 2 9 1 49-50 49-50 49-50 49-50 1-10 1-10 11-20 11-20 21-30 21-30 31-40 31-40 49-50 49-50 1-10 11-20 21-30 31-40 49-50 49-50 49-50 49-50 49-50 1-10 1-10 11-20 11-20 21-30 21-30 31-40 31-40 49-50 49-50 1-10 11-20 21-30 31-40 49-50 49-50 49-50 49-50 2 9 9 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 1 2 9 9 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 1 2 9 9 1-30 1-30 1-30 1-30 1-10 1-10 11-15 11-15 16-20 16-20 21-30 21-30 1-30 1-30 1-10 11-15 16-20 21-30 1-30 1-30 1-30 1-30 1-30 1-10 1-10 11-15 11-15 16-20 16-20 21-30 21-30 1-30 1-30 1-10 11-15 16-20 21-30 1-30 1-30 1-30 1-30 MINERÍA DE DATOS 7 7 7 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 2 1 2 1 2 1 2 1 2 9 9 9 9 9 9 1 2 9 1 2 1 2 1 2 1 2 1 2 9 9 49-50 1-10 1-10 11-20 11-20 21-30 21-30 31-40 31-40 49-50 49-50 1-10 11-20 21-30 31-40 49-50 49-50 49-50 49-50 49-50 1-10 1-10 11-20 11-20 21-30 21-30 31-40 31-40 49-50 49-50 9 1 2 1 2 1 2 1 2 1 2 9 9 9 9 1 2 9 9 9 1 2 1 2 1 2 1 2 1 2 1-30 1-10 1-10 11-15 11-15 16-20 16-20 21-30 21-30 1-30 1-30 1-10 11-15 16-20 21-30 1-30 1-30 1-30 1-30 1-30 1-10 1-10 11-15 11-15 16-20 16-20 21-30 21-30 1-30 1-30 Tabla 3.3 Simplificación de la base de datos con la selección de los campos En base a una investigación sobre las Expectativas y Experiencias de los Usuarios del Sistema de Salud en México realizada en el año 2010 en algunas de las unidades médicas de la Coordinación de Institutos Nacionales de Salud, se demostró que la edad más numerosa fue el de las personas entre 35 y 64 años de edad, denominados adultos maduros, (38.71%), y el menos numeroso, fue de las personas con 65 años conocidos como adultos mayores, (12.84%), si se juntan estos dos datos se tiene que el 51.55% de los pacientes atendidos reportaron tener 35 años más. MINERÍA DE DATOS Gráfica 3.1 Pacientes atendidos en base a la edad En la misma investigación se hizo una entrevista a los pacientes para conocer el motivo por el cual el paciente asistió al hospital. Los motivos de consulta y padecimientos diagnosticados se clasificaron de acuerdo con los sistemas del cuerpo, como se muestra en la tabla 3.4 Tabla 3.4 Motivo por el cual el paciente asistió el día de la entrevista al hospital. MINERÍA DE DATOS Uno de los cuestionarios de la Experiencia y Expectativas de los Usuarios del Sistema de Salud de México, se realizaron algunas preguntas relativas a las características sociales de la población que se relacionan a sus hábitos y su condición de salud. El 28% de los usuarios acude a la unidad médica por primera vez, el 72% reporta ser usuario subsecuente. En la gráfica 3.2 se observa que de estos pacientes el 50% reporta haber asistido más de 11 veces anteriormente. Gráfica 3.2 Pacientes que acuden a las unidades médicas. En base a un Informe sobre la Salud de los Mexicanos 2016 se obtuvo una gráfica que muestra las unidades de hospitalización por 100,000 habitantes por entidad federativa, 2007 y 2014 (ir a la gráfica 3.3). Gráfica 3.3 Unidades de hospitalización por 100,000 habitantes por entidad federativa, 2007 y 2014 MINERÍA DE DATOS Al analizar la tendencia en la construcción de hospitales por entidad federativa, resalta el crecimiento ocurrido en 28 de los 32 estados. Las entidades con mayor generación de nuevas unidades fueron Baja California, Querétaro y la Ciudad de México, con incrementos de 10, 9.5 y 5 veces más, respectivamente. Bajo este contexto, el incremento pudo deberse tanto a la construcción y apertura de nuevas unidades. Formateo de los datos En el campo creado CLV_REGION, para poder realizar todas las combinaciones posibles y encontrar su relación con el número de enfermedades. A partir de esto se hizo simplificación del contenido de este campo en dónde cada una de las 32 entidades de la República Mexicana se agruparon en las 8 regiones de esta. La división regional del territorio mexicano se estableció a partir de la combinación de factores físico-naturales e histórico-culturales. Los histórico-culturales tienen que ver con las formas de organización social y económica que los seres humanos han creado como parte de su adaptación al medio natural en el que viven. La combinación de todos estos factores, forma uno de los criterios que se utilizan para establecer semejanzas y diferencias entre las 32 entidades que integran al territorio nacional. La agrupación de los estados que presentan características similares, ya sean de tipo físico, cultural y/o económico, da origen a la formación de ocho regiones, lo cual permite facilitar el estudio de México. En base a la anterior la clasificación quedo de la siguiente manera: CVE_MUN Aguascalientes Baja California Baja California Sur Campeche Coahuila de Zaragoza Colima Chiapas Chihuahua Ciudad de México Durango Guanajuato Guerrero Hidalgo Jalisco México Michoacán de Ocampo Morelos Nayarit Nuevo León Oaxaca Region Centronorte Noroeste Noroeste Sureste Suroeste Noroeste Centrosur Noreste Oeste Noroeste Centronorte Suroeste Este Oeste Centrosur Oeste Centrosur Oeste Noreste Suroeste Clv_Region 4 5 5 8 7 5 2 6 1 5 4 7 3 1 2 1 2 1 6 7 MINERÍA DE DATOS Puebla Querétaro Quintana Roo San Luis Potosí Sinaloa Sonora Tabasco Tamaulipas Tlaxcala Veracruz de Ignacio de la Llave Yucatán Zacatecas Este Centronorte Sureste Centronorte Noroeste Noroeste Sureste Noreste Este Este Sureste Centronorte 3 4 8 4 5 5 8 6 3 3 8 4 Tabla 3.5 Clasificación de las 32 entidades de la República Mexicana conforme a las regiones. MINERÍA DE DATOS MODELADO FASE 4 En esta fase de la metodología se escogerá la técnica (o técnicas) más apropiadas para los objetivos marcados de la minería de datos. A continuación, y una vez realizado un plan de prueba para los modelos escogidos, se procederá a aplicar dichas técnicas sobre los datos para generar el modelo y por último se tendrá que evaluar si dicho modelo ha cumplido los criterios de éxito o no. Escoger la Técnica de Modelado Debido a que se utilizara el software de CLEMENTINE para realizar la minería de datos, deberemos utilizar alguna de las técnicas de modelado que nos ofrece esta herramienta de acuerdo con los objetivos de nuestro proyecto que están reflejados en el apartado objetivos de la minería. De los modelos que nos ofrece CLEMENTINE, el que se adapta a nuestros objetivos sería el Algoritmo C5.0. El cual genera un árbol de decisión, así como un conjunto de reglas. Este algoritmo divide la muestra basándose en el campo que ofrece la máxima ganancia de información en cada nivel. El campo objetivo debe ser categórico. Se permiten varias divisiones en más de dos subgrupos. En minería de datos el algoritmo C5.0 se utiliza para modelar las clasificaciones en los datos. Se construyen a partir del esqueleto de este método para generar un árbol de decisión a partir de un conjunto de datos. Generar el Plan de Prueba A continuación, se generaron las posibles combinaciones de acuerdo a distintos criterios para realizar el campo determinante y principalmente, para que no hubiera ningún dato inconsistente o valores en nulo. Las siguientes combinaciones hacen referencia que NO se debe generar el hospital de especialidad médica a dichas personas dependiendo la región: SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >1 Y (Edad agrupada) <= 10 SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > 10 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >11 Y (Edad agrupada) <= 15 SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > 20 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >16 Y (Edad agrupada) <= 20 SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > 30 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >20 Y (Edad agrupada) <= 30 SI (Clave Región) = 1 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 MINERÍA DE DATOS SI (Clave Región) = 1 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) >= 49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 1 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) >= 49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 1 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 SI (Clave Región) = 2 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 2 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 2 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 2 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 MINERÍA DE DATOS SI (Clave Región) = 3 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 3 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 3 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 3 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 SI (Clave Región) = 4 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 4 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 4 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 4 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 MINERÍA DE DATOS SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 SI (Clave Región) = 5 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 5 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 5 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 SI (Clave Región) = 6 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 6 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 6 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 6 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 MINERÍA DE DATOS SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 SI (Clave Región) = 7 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 7 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 7 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 7 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana) <= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10 SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana) <= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15 SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana) <= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20 SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana) <= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30 SI (Clave Región) = 8 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 8 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 8 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 SI (Clave Región) = 8 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana) <= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30 MINERÍA DE DATOS Construir el modelo Para la construcción del modelo se utilizaron los siguientes nodos: Nodo Descripción Este nodo fue utilizado para poder cargar el archivo de texto en clementine. Este nodo fue utilizado para poder seleccionar el campo de salida para determinar el criterio de evaluación. Este nodo fue utilizado para mostrar de forma gráfica la información de los campos de salida. Este nodo fue utilizado para realizar el modelo de nuestra minería de datos. Este nodo fue utilizado para realizar el análisis que se obtuvo de la minería de datos. Este nodo fue utilizado para realizar la auditoria de los datos y validar que los datos que lee el programa estuvieran correctos. Este nodo fue utilizado para poder seleccionar diferentes campos. Este nodo fue utilizado para mostrar la información de los datos. Este nodo fue utilizado para poder exportar la información a SQL. Este nodo fue utilizado para poder mostrar de forma gráfica la información de los campos de salida. Tabla 4.1 Descripción de nodos Una vez en el Software se utilizó un nodo orígenes Archivo var para obtener la base de datos (que se encuentra en un archivo de texto plano) con los campos seleccionados para trabajar con ellos desde CLEMENTINE. MINERÍA DE DATOS Ajustes de parámetros A partir del nodo Archivo var. en donde se encuentra el origen de los datos se conectó un nodo tipo en el cuál se define cuáles serán los campos de salida y, de entrada, por lo que se modificó la dirección del campo Determinante, ya que será el campo de salida. Figura 4.1. Dirección de los campos en el nodo tipo A continuación, se muestra la construcción y ejecución del modelo para la minería de datos del proyecto. Para ello fue necesario conectar un nodo de modelado C5.0 al nodo tipo como se muestra en la figura 4.2, al ejecutar el nodo C5.0 a partir del cual se genera la técnica de modelado árboles de decisiones la cual se muestra en la figura 4.4. Figura 4.2 Construcción del Modelo C5.0 MINERÍA DE DATOS Figura 4.3. Árbol de decisiones para la construcción de Hospitales MINERÍA DE DATOS Evaluar el modelo Una vez obtenido el árbol se conectó un nodo de resultado análisis como se muestra en la figura 4.4 Con el nodo de análisis se aprecian los resultados para el campo determinante. Como se muestra en la figura 11 se obtuvo que un 99.95% de los resultados son correctos lo que representa 702,690 registros y se obtuvo que el 0.05% son erróneos lo cual representa a 357 registros. Figura 4.4 Análisis de árbol de decisiones MINERÍA DE DATOS FASE 5 Evaluación Evaluar los resultados Retomando el objetivo de la minería de datos definido en la fase 1… Se pretende saber en qué región del país: Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste, Sureste y Sureste, es más recomendable abrir un nuevo hospital de especialidad médica y así ofrecer una respuesta más rápida a los derechohabientes, así como asegurar la atención adecuada a los pacientes. Para identificar en que región se requiere más de la construcción de un hospital se conectó un nodo de gráficos a la minería realizada y en ese se seleccionaron los campos REGIÓN y Determinante. Como se muestra en la figura 5.1 se hizo un recuento del porcentaje que abarca cada región en base al campo determinante por lo que en la región Oeste es necesario dar prioridad a la construcción de hospitales. Figura 5.1 Distribución de la región y campo determinante MINERÍA DE DATOS En la siguiente grafica de mallas (figura 5.2) se muestran todas las combinaciones posibles entre las regiones (Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste, Sureste y Sureste), el área (rural o urbana) y nuestro campo determinante. Figura 5.2 Gráfica de mallas MINERÍA DE DATOS En la tabla 5.1 se muestran las combinaciones de manera porcentual en base a la gráfica de mallas. Las combinaciones se clasifican en enlaces débiles, medio y fuertes. En las siguientes tablas se muestran las combinaciones que se representan en la gráfica de mallas. En los enlaces débiles se muestran las combinaciones en donde no es viable la construcción de un nuevo hospital. Por lo tanto, en los enlaces fuertes se muestran las combinaciones en los que se necesita la construcción de un hospital. MINERÍA DE DATOS Tabla 5.1 Combinaciones de la gráfica de mallas En la figura 5.3 se muestra la misma gráfica de mallas, pero solo mostrando los resultados que se encuentran por arriba de un 20% de factibilidad. Figura 5.3 Gráfica de mallas MINERÍA DE DATOS Revisión del proceso Con base a las fases anteriores, se ha determinado hasta este momento que se han generado resultados satisfactorios, a pesar de que se generaron varios problemas en cuanto algunos rangos de cada valor, por lo que se llegó a la conclusión de que teníamos que especificar que significaba cada uno de los rangos que se vieran inconsistentes o extraños. Básicamente se obtuvieron los resultados esperados de acuerdo a nuestro objetivo pretendiendo conocer en qué región del país (Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste, Sureste y Sureste), es mucho más aceptable y recomendable abrir un nuevo hospital de especialidad médica para ofrecer una respuesta más rápida a los derechohabientes, así como asegurar la atención adecuada a los pacientes, así que, por lo tanto, podría pasarse a la fase siguiente. Determinar próximos pasos Como podemos observar en la imagen (Figura 5.4), se implementó un nodo de “seleccionar” para visualizar en una tabla las regiones que sean igual a las de Centronorte, que el área sea de tipo Rural y finalmente que el campo determinante sea igual a NO. Figura 5.4 Selección de campos y condiciones MINERÍA DE DATOS Se puede visualizar en la Figura 5.5 los datos obtenidos en una tabla a partir del nodo de selección como se muestra en la Figura 5.4 Figura 5.5 Tabla de resultados con condiciones En esta imagen que se encuentra debajo (Figura 5.6), se realizó una selección de los campos para representarlo en una tabla las regiones que sean igual a las de Oeste, que el área sea solamente de tipo Urbano y finalmente que el campo determinante sea igual a SI. Figura 5.6 Selección de campos y condiciones MINERÍA DE DATOS Podemos observar en la siguiente tabla (Figura 5.7), los datos mostrados u obtenidos a partir del nodo de selección que se realizó, como se muestra en la Figura 5.6 Figura 5.7 Tabla de resultados con condiciones MINERÍA DE DATOS FASE 6 Implantación Para esta fase se explicará con mayor detalle cómo poner en funcionamiento este proyecto que se ha ido explicando y detallando en fases anteriores. También se mostrarán los resultados obtenidos junto con su explicación, de esta forma, se comprenderá de una mejor manera el uso que se le puede dar a todos los datos con los que contamos y las búsquedas que se podrían realizar en un futuro para realizar otro tipo de toma de decisiones para otras áreas del IMSS. Plan de implementación Para realizar la implementación de este proyecto será necesario conocer los resultados arrojados, por la fase anterior ya se tiene conocimiento de la región en donde es más factible que se construya el hospital. 6.1Gráfica de campo determinante Como se observa en el gráfico 6.1 es clara la diferencia de registros que hay entre la región Oeste y las demás, por lo que es prescindible ir realizando la planificación de la construcción del hospital en cuestión. MINERÍA DE DATOS A continuación, se presenta el gráfico que sustenta el estudio al encontrar más relaciones entre el campo determinante y la región Oeste. 6.2 Gráfica de malla vista en la fase anterior En esta gráfica de malla podemos observar que hay líneas más delgadas que otras, y otras más gruesas que otras, esto se explicó en la fase anterior, sin embargo, en esta fase se vuelve a hacer la mención porque para la implementación del proyecto se debe resaltar que se utilizó un gráfico de malla para visualizar de una manera más sencilla y diferente el resultado. Recordemos que, para estas grandes cantidades de información, es importante, considerar la visualización de los datos de diferentes maneras, así podremos encontrar relaciones que desconocíamos o encontrar patrones que no podíamos encontrar en una tabla o en una gráfica tradicional. Si se logran identificar estos aspectos se podrán realizar en el futuro estudios de minería con mayor rapidez. Una vez teniendo claros nuestros resultados procedemos a especificar el plan de implementación: MINERÍA DE DATOS 1. Se debe de tomar en cuenta que nuestro resultado no es el único dato que tenemos disponible para consulta, por lo que se entregará una aplicación donde se mostrarán los resultados derivados de nuestro objetivo principal. 6.3 Interfaz de aplicación 2. En la siguiente imagen 6.4 se observan los módulos con los que cuenta la aplicación para realizar las consultas pertinentes. 6.4 Menú de opciones 3. La aplicación será instalada en la PC de Dirección General para su consulta. También será instalada en la oficina de la Jefatura de Servicios y finanzas, así como en la oficina de la Jefatura de Servicios Administrativos ya que de ella depende el área de construcción y planeación inmobiliaria. 4. Esto se realizará el día de entrega del proyecto. 5. Adicionalmente se dará una breve explicación al personal involucrado en este proyecto de parte del IMSS para que sepan usar los módulos de la aplicación y tengan acceso a ella para los datos que requieran consultar. Plan de monitoreo y mantención MINERÍA DE DATOS (Plan de monitorización y mantención) La supervisión y mantenimiento de la implementación del presente proyecto es una fase importante del mismo debido a que los datos que se procesan con mucha frecuencia pueden ser modificados por el personal de la institución. Los datos pueden ser modificados por diferentes motivos como haber realizado una codificación incorrecta, haber asignado una clave incorrecta al paciente, etc. El volumen de estos datos en movimiento es grande motivo por el cual la extracción de las muestras debe ser realizada cuidadosamente y realizando siempre backups de los datos explotados en cada proceso. La minería de datos debería ser realizada toda vez que se tenga un proyecto de construcción, ya sea de hospital o clínica, ya que el modelo elegido nos ha arrojado resultados tan satisfactorios. El detalle de este modelo es que para realizar un nuevo estudio, sería necesario realizar todas las fases como se realizó para este proyecto, ya que se tendrían nuevos y más datos, de los cuales se desconocería la calidad. Como plan de supervisión y mantenimiento se podrían establecer los siguientes procesos en las áreas correspondientes: • • • • • Extracción y almacenamiento bimestral de los datos guardando la información obtenida en formato de hoja de cálculo. Distribución de los datos en función de los modelos de software de minería de datos a trabajar. En nuestro caso con el modelo implementado. Los archivos de la explotación de datos deberán ser guardados en una memoria externa con capacidad de 1T, almacenándolos por ejemplo en carpetas ordenadas por periodos bimestrales. Los resultados obtenidos en cada explotación de datos deberán ser llevados a formato de hoja de cálculo y generar gráficas de distintos tipos para una mejor visualización e interpretación de los resultados obtenidos en cada periodo. Los datos almacenados deberán pasar por una revisión y limpieza mensual ya que la cantidad de registros de pacientes es inmensa. MINERÍA DE DATOS Informe final Este proyecto nació de la necesidad de dirigir recursos y presupuesto de parte del IMSS a la construcción de un hospital en la región donde fuera más necesario y de este modo evitar defunciones por falta de atención en las enfermedades que son más comunes en las distintas regiones. El presente va dirigido a la Dirección General del IMSS y a las Jefaturas del Servicio de Finanzas y Servicios Administrativos, con el fin de enterarles los por menores del estudio de minería realizado. Se utilizó el modelo CRISP-DM en este proyecto, el cual, refiere toda una metodología para hacer estudios de minería y encontrar datos de interés o predictivos conforme al objetivo de minería que se tenga. En este caso, el objetivo era saber en qué región del país es más necesaria la construcción de un hospital de especialidad para evitar defunciones y brindar una atención médica, oportuna y de calidad. Durante el desarrollo de las fases se fueron conociendo los objetivos propios de la institución, así como su misión y visión. Esto permitió que los desarrolladores tuvieran conocimiento de las necesidades latentes. También se realizaron investigaciones sobre las enfermedades más comunes en el país y se documentaron por medio de gráficos las necesidades de la población en cuestión de visitas al doctor y salud, lo cual permitió la correcta elección de los campos o registros que serían tomados en cuenta para hacer el estudio de minería. Durante las fases de selección y limpieza se comprobó la calidad de los datos, lo cual, fue muy fortuito al encontrar que los registros que contiene la base de datos de la institución están muy limpios y no tiene incongruencias o datos erróneos. Lo anterior facilita mucho el tratamiento de los registros y agiliza la realización del estudio. Durante la fase de Minería se tomaron en cuenta todas las combinaciones posibles entre nuestros registros seleccionados para poder crear el campo determinante que es el resultado de la operación realizada en el programa Clementine. Finalmente, en las fases 5 y 6 se muestran los resultados finales junto con la entrega de la aplicación. MINERÍA DE DATOS Modelos aprobados Se aplicó un único modelo a este estudio ya que por la naturaleza de los datos y del objetivo en sí, solamente tomando en cuenta todas las combinaciones posibles y los campos seleccionados, se podría obtener un resultado fidedigno y correcto. Con esto sería factible que la dirección General tomara la decisión de abrir el proyecto de construcción de un nuevo hospital de especialidad. Documentación de experiencias Listado de dificultades • Fase 1 No se presentaron dificultades • Fase 2 En la descripción de los datos tuvimos dificultades con las claves ya que todas están especificadas en rangos por lo que toma tiempo identificar qué claves corresponden a qué cosa. • Fase 3 La creación del campo regiones en un inicio se pensó dividirlo en 4 regiones, sin embargo, hay que considerar que se debe de ser más específico para tener una minería más precisa, por lo que se tuvo que dividir en 8 regiones. • Fase 4 Para el modelado y realizar la minería se tuvo dificultades con el archivo ya que Clementine no reconocía los rangos de los campos, por lo que se recomienda realizar un respaldo de su base de datos en archivo de tipo txt ó var para facilitar al software la lectura de los datos. • Fase 5 No se tuvieron dificultades • Fase 6 No se tuvieron dificultades. MINERÍA DE DATOS