Subido por eleazar santuario villalba

Hospital IMSS

Anuncio
INSTITUTO MEXICANO DEL
SEGURO SOCIAL
MINERÍA DE DATOS
COMPRENSIÓN DEL NEGOCIO
FASE 1
¿Quiénes somos?
El IMSS, es la Institución con mayor presencia en la atención a la salud y en la protección
social de los mexicanos desde su fundación en 1943, para ello, combina la investigación y
la práctica médica, con la administración de los recursos para el retiro de sus asegurados,
para brindar tranquilidad y estabilidad a los trabajadores y sus familias, ante cualquiera de
los riesgos especificados en la Ley del Seguro Social. Hoy en día, más de la mitad de la
población mexicana, tiene algo que ver con el Instituto, hasta ahora, la más grande en su
género en América Latina.
Figura 1.1 Historia del IMMS
Objetivos del negocio
•
Fortalecer el primer y segundo nivel de atención.
•
Ampliar y rehabilitar la infraestructura médica y social.
•
Implementar un programa de cuidados paliativos y unidades médicas de tiempo
completo.
•
Fortalecer la promoción de la salud.
•
Mejorar la salud materna y reducir la mortalidad neonatal.
MINERÍA DE DATOS
Requisitos, supuestos y restricciones
No se cuenta con las instalaciones adecuadas, eso afecta la eficiencia a la hora de las citas
y de la atención médica que merecen los derechohabientes.
Los seis hospitales regionales de alta especialidad (HRAE) creados por el gobierno federal
a partir de 2006, no cumplen con la misión de mejorar el acceso a la atención médica de
enfermedades complejas y graves. A pesar del tiempo transcurrido, más de 93 por ciento
de los servicios de alta especialidad se proporcionan en los institutos nacionales de salud
y hospitales federales ubicados en la ciudad de México.
Solamente 6.5 por ciento de los pacientes fueron atendidos en los HRAE, los que se
suponía, según ha dicho la Secretaría de Salud (Ssa), son suficientes para descentralizar
la demanda de servicios médicos de alta especialidad.
Actualmente se cuenta con 464 hospitales en todo México, que atienden a los
derechohabientes.
Al cierre de noviembre de 2018, la población derechohabiente adscrita a clínica alcanzó
57.6 millones de derechohabientes, un promedio de 56.8 millones de personas afiliadas
durante once meses.
Misión
Visión
Valores
La misión del IMSS es ser
el instrumento básico de la
seguridad social,
establecido como un
servicio público de carácter
nacional, para todos los
trabajadores y trabajadoras
y sus familias.
Por un México con más y
mejor seguridad social
Honradez
Lealtad
Imparcialidad
Eficiencia
Disciplina
Profesionalismo
Objetividad
Transparencia
Integridad
Objetivo de la minería de datos
Se pretende saber en qué región del país: Oeste, Centro sur, Este, Centro norte, Noroeste,
Noreste, Sureste y Sureste, es más recomendable abrir un nuevo hospital de especialidad
médica y así ofrecer una respuesta más rápida a los derechohabientes, así como asegurar
la atención adecuada a los pacientes.
MINERÍA DE DATOS
Criterios de éxito
Para la realización de la minería de datos se utilizarán los campos de la base de datos
▪
▪
▪
▪
▪
EDAD_AGRU (Edad agrupada)
GR_LISMEX (Grupos lista mexicana)
AREA_UR (Área Urbana o Rural)
ASIST_MEDI (Asistencia médica)
ENT_REGIS (Entidad registro)
Es un dato importante conocer la edad de los pacientes finados para poder identificar los
patrones en la edad (EDAD_AGRU) en los que se dan frecuentemente ciertas
enfermedades, y es con el campo GR_LISMEX con el cuál se agrupan las enfermedades y
nos informa si hubo otra complicación adicional a la enfermedad, también se requiere de
los datos que almacena el campo AREA_UR (Urbana o Rural) para identificar si se requiere
que la clínica sea establecida en una de estas dos áreas e identificar la región a la que
pertenece (Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste, Sureste y Sureste).
Finalmente es interesante saber cuántas personas fueron las que recibieron asistencia
médica (ASIST_MEDI) previo a su defunción.
Plan de Proyecto
El plan para la realización y entrega de este proyecto se describe a continuación:
•
Fase 1: Comprensión del negocio
Encargado/a: Abigail Rodríguez
Fecha de entrega: 12 de julio 2019
Se realizará la investigación sobre el IMSS para conocer a fondo la institución y
comprender a detalle las necesidades y requerimientos de la misma.
•
Fase 2: Comprensión de los datos
Encargados: Selene Villa / Eduardo Juárez
Fecha de entrega: 13 de julio 2019
Se realizará el estudio de los datos, lo que significa realizar diversas auditorías en
CLEMENTINE para conseguir un mejor análisis de la base y los datos que contiene.
•
Fase 3: Preparación de los datos
Encargados: Rafael Alvarado / Humberto Rodríguez
Fecha de entrega: 13 de julio 2019
Una vez seleccionados los datos a usar, se realizará la limpieza, estructuración,
integración y de ser necesario formateo de los mismos.
•
Fase 4: Modelado
Encargados: Humberto Rodriguez / Eduardo Juárez
Fecha de entrega: 19 de julio 2019
MINERÍA DE DATOS
Conforme los resultados de la fase anterior se realizará una propuesta de modelo y una
prueba del mismo para determinar si los parámetros escogidos son los correctos.
•
Fase 5: Evaluación
Encargadas: Selene Villa / Abigail Rodríguez
Fecha de entrega: 19 de julio 2019
Los resultados serán evaluados conforme al objetivo de minería antes descrito y se
realizará la revisión del proceso para determinar los siguientes pasos a seguir.
•
Fase 6: Implantación
Rafael Alvarado / Eduardo Juárez / Humberto Rodríguez
Fecha de entrega: 20 de julio 2019
Se definirá el plan de implantación, monitoreo y mantención del sistema, así como, el
informe final con el o los modelos aprobados.
•
Desarrollo de aplicación en C#
Se desarrolla en conjunto con las demás fases por lo que la fecha de entrega será el
sábado 27 de julio.
A continuación, se presenta el cronograma para una mejor visualización de las fechas de
entrega:
JULIO
CAPITULO
ENCARGADO
ACTIVIDAD
OBJETIVO DEL NEGOCIO
VALORACION DE SITUACION
OBJETIVO DEL DM
COMPRENSION DEL NEGOCIO
ABIGAIL
METAS DE DATA MEANING
CRONOGRAMA
PLAN DE PROYECTO
ROCOLECCION DE DATOS
DESCRIPCION DE DATOS
COMPRENSION DE LOS DATOS
SELENE Y EDUARDO
EXPLORACION DE DATOS
CALIDAD DE LOS DATOS
DESCRIPCION DE DATASET
SELECCIÓN DE DATOS
LIMPIAR DATOS
PREPARACION DE LOS DATOS
RAFAEL Y HUMBERTO
ESTRUCTURAR LOS DATOS
INTEGRAR LOS DATOS
FORMATO DE LOS DATOS
SELECCIONAR TECNICA DE MODELADO
GENERAR EL PLAN DE PRUEBA
MODELADO
HUMBERTO Y EDUARDO
CONSTRUIR EL MODELO
EVALUAR EL MODELO
EVALUAR LOS RESULTADOS
REVISION DEL PROGRESO
EVALUACION
SELENE Y ABIGAIL
DETERMINAR PROXIMO PASO
EVALUAR MODELO
PLAN DE IMPLEMENTACION
PLAN DE MONITOREO Y MANTENCIÓN
IMPLANTACION
RAFAEL, HUMBERTO Y EDUARDO
INFORME FINAL
REVISION DEL PROYECTO
INICIO
DESARROLLO
APLICACIÓN EN C#
SELENE Y RAFAEL
PRUEBAS
PRESENTACIÓN DE APLICACIÓN
20
20
AGOSTO
26
27
2
3
Figura 1.2 Cronograma
MINERÍA DE DATOS
FASE 2
COMPRENSIÓN DE LOS DATOS
Recolectar los datos iniciales
En esta segunda fase se realiza la recolección inicial de los datos para poder familiarizarnos
con los datos y averiguar su calidad.
Los datos se encuentran almacenados en un archivo de texto plano Analisis.txt.
La base de datos cuenta con 703 047 registros y 59 campos, los cuales serán explicados
más adelante en la auditoría. Los datos almacenados en su mayoría son de tipo entero, ya
que representan una clave que tendrá una descripción. Un ejemplo de ello se muestra en
la Tabla 2.1
CVE
1
2
9
DESCRIP
Hombres
Mujeres
Sexo no
especificado
Tabla 2.1. Ejemplo de clave con descripción
La base de datos almacena información referente a los pacientes finados que fueron
atendidos en el IMSS, se encuentran datos que nos indican una lista de enfermedades de
México que se atienden en el hospital y algunas categorías de tipo de enfermedad. En
cuanto a los datos del paciente finado se puede conocer el día de registro, fecha de
nacimiento, nacionalidad, sexo, edad (*agrupada), mes de certificación, si la persona era
derechohabiente, la entidad de la República mexicana donde vivió, escolaridad, actividad
económica, la ocupación, estado conyugal, el parentesco (padre, madre, hijo, etc.),
localidad de la residencia, entre otros. En la tabla 2.2 se encuentra una lista en general de
los campos, así como el tipo de campo que es, la longitud, su nemónico, el rango de las
claves que se utilizan para clasificar los datos y la descripción de cada campo.
Descripción de los datos
A continuación, se muestra una mejor descripción de algunos campos de la base de datos
que no son muy claros:
EDAD (Edad). En este campo determina la edad de la persona fallecida, en donde contiene
distintos rangos o valores que son determinados, en horas, días, meses y años.
PRESUNTO (Presunto). Este campo consiste en la causa que supone que fue ocasionada
o si fue sospechosa la defunción de dicha persona, por ejemplo, si fue por accidente,
homicidio, suicidio, etc.
NECROPSIA (Necropsia). Este campo representa la exploración física externa del cadáver
antes de proceder con la apertura de cavidades para determinar la causa de la persona
fallecida, por lo que en este campo determina si se realizara o no la necropsia, o que tal vez
no esté definido.
MINERÍA DE DATOS
COND_CERT (Certificada Por). Este campo básicamente contiene el medico por quien
fue tratado la persona fallecida, si fue un médico legista (persona que determina el origen
de las lesiones sufridas), autoridad civil u otro tipo de médico.
DERECHOHAB (Derechohabiencia). Este campo se aplica a la persona cuyos derechos
derivan de otra, que comúnmente son los hijos menores de edad y los mayores
incapacitados, empleando así este término para hacer referencia al heredero de una
persona y, en consecuencia, beneficiario de los derechos de indemnización establecidos
en una póliza (IMSS, ISSSTE, SEMAR, Seguro popular, etc.).
CAPITULO (Capitulo). En este campo principalmente incluye o contiene la categoría del
tipo de enfermedades que tuvo la persona fallecida (Enfermedades del sistema circulatorio,
respiratorio, digestivo, enfermedades nutricionales, embarazo, tumores, etc.).
COMPLICARO (Complicaron el embarazo). Este campo primeramente especifica si la
persona fallecida tuvo complicaciones o no a la hora del embarazo, si es que aplica en ese
caso, o puede que no esté especificado totalmente.
COND_ACT (Condición de Actividad económica). Este campo determina la condición de
actividad económica del paciente finado, en el campo se almacena como respuesta un “Si”
o “No”, no se especifica la actividad en la que se desenvolvía, este campo sirve para facilitar
y promover la producción de vivienda de calidad.
DIA_CERT (Día de Certificación). Este campo especifica el día exacto en los documentos
oficiales para certificar las muertes, los cuales son expedidos por profesionales de la
medicina o personas autorizadas por la autoridad sanitaria, una vez comprobado el
fallecimiento y determinadas sus causas.
MES_CERT (Mes de Certificación). Este campo especifica el mes exacto en los
documentos oficiales para certificar las muertes, los cuales son expedidos por profesionales
de la medicina o personas autorizadas por la autoridad sanitaria, una vez comprobado el
fallecimiento y determinadas sus causas.
ANIO_CERT (Año de Certificación). Este campo especifica el año en los documentos
oficiales para certificar las muertes, los cuales son expedidos por profesionales de la
medicina o personas autorizadas por la autoridad sanitaria, una vez comprobado el
fallecimiento y determinadas sus causas.
MATERNAS (Maternas). Este campo se centra en describir la causa de la defunción
materna.
Explicación de las claves de algunos campos para ejemplificar mejor su funcionamiento:
Asistencia médica: contiene las claves 1,2,3 donde 1: con asistencia médica, 2: sin
asistencia médica, 99: sin especificar
Entidad de residencia: se presentan claves de entidades con un rango del 1 al 570 y 99
el cual hace referencia a que no está especificada la editad
MINERÍA DE DATOS
Certificado por: entidad con claves del tipo de doctor que certifico la defunción donde 1:
Médico tratante, 2: Médico legista, 3: Otro médico, 4: Persona autorizada por SSA, 5:
Autoridad civil, 8: Otro, 9: no especificado
Sitio donde ocurrió la defunción: las claves almacenadas en este campo hacen
referencia al lugar donde se registró la defunción de la persona como es tipo de hospital,
hogar los cuales abarcan de la clave 1 a la 12 y el 99 no especificado
NOMBRE_CAMPO
LONGITUD
TIPO
NEMÓNICO
RANGO_CLAVES
Descripción
Año Defunción
4
int
anio_ocur
1943 - 2017, 9999
Se incluye el año de la defunción
Año Registro
4
int
anio_regis
2017
Se incluye el año del registro
Año Nacimiento
4
int
anio_nacim
1889 - 2017, 9999
Se incluye el año del nacimento
Año de Certificación
4
int
anio_cert
2016 - 2017
Asistencia Médica
1
int
asist_medi
1 - 2, 9
Se incluye el año de la certificación de
defunción
Se incluye el tipo de asistencia médica
Capitulo
2
int
Capitulo
1 – 20
Se incluye la categoría del tipo de enfermedad
Grupo
2
int
Grupo
1 – 34
Causa Defunción (Lista
Detallada)
4
varchar
causa_def
A000 - Y899
Se incluye la descripción del tipo de
enfermedad
Se describe la causa de la defunción
Sintaxis
Maternas
4
Letras
Consecutivo
Ejemplo
A-Y
000 - 999
A010
varchar
maternas
O000 - O998,
C58X, E230, NA
En este caso A representa enfermedades
causadas por bacterias
Los números son para especificar las variantes
de esas enfermedades
Se describe la causa de la defunción materna
La categoría C58X está relacionada con
tumores pero se utliliza para definir tumor en
placenta
De la categoría O000 a O998 se describen las
causas relacionadas con los fetos
La categoría E230 refiere al Hipopituitarismo
durante el embarazo
NA refiere a que se desconoce
Entidad Registro
2
int
ent_regis
1 – 32
Municipio Registro
3
int
mun_regis
1 - 570
Entidad Residencia
2
int
ent_resid
1-35, 99
Municipio Residencia
3
int
mun_resid
1-570, 999
Clave Localidad de
Residencia
Entidad Ocurrencia
4
int
loc_resid
1 - 6999, 9999
2
int
ent_ocurr
1-35,99
Municipio Ocurrencia
3
int
mun_ocurr
1-570,999
Clave Localidad de
Ocurrencia
Entidad Ocurrencia de la
lesión
4
int
loc_ocur
1 - 6999, 9999
2
int
ent_ocules
1-35,88, 99
Contiene la entidad de la república mexicana
donde se registro
Contiene los municipios de la república
mexicana donde se registro
Contiene la entidad de la república mexicana
donde vivio
Contiene los municipios de la república
mexicana donde vivio
Contiene la clave de la república mexicana
donde vivio
Contiene la entidad de la república mexicana
donde ocurrio su muerte
Contiene los municipios de la república
mexicana donde ocurrio su muerte
Contiene la clave de la república mexicana
donde ocurrio su muerte
Contiene la entidad de la república mexicana
donde ocurrio la lesión
MINERÍA DE DATOS
Municipio Ocurrencia de
la lesión
3
int
mun_ocules
1-570, 888, 999
Clave Localidad de
Ocurrencia de la lesión
4
int
loc_ocules
1 - 6999, 8888
9999
Distritos de Oaxaca
3
int
dis_re_oax
901 - 930, 999
Contiene los municipios de la república
mexicana donde ocurrio la lesión
La clave 888 refiere a que la localidad por caso
especial no se puede especificar
Contiene la clave de la república mexicana
donde ocurrio la lesión
La clave 8888 refiere a que la localidad por
caso especial no se puede especificar
Contiene los distritos de Oaxaca
Certificada Por
1
int
cond_cert
1 - 5, 8, 9
Contiene el medico por quien fue tratado
Complicaron el
embarazo
Condición de Actividad
económica
Condición de embarazo
1
int
complicaro
1, 2, 8, 9
1
int
cond_act
1, 2, 8, 9
Se especifica si la persona tuvo comlicaciones
en el embarazo
Se especifica la actividad económica
1
int
embarazo
1-6, 8, 9
Se especifica la condición del embarazo
Derechohabiencia
2
int
derechohab
1-9, 99
Se indica si la persona era derechohabiente
Día Defunción
2
int
dia_ocurr
1-31,99
Se indica el día de la defunción
Día Registro
2
int
dia_regis
1-31,99
Se indica el día registro
Día Nacimiento
2
int
dia_nacim
1-31,99
Se indica el día nacimiento
Día de Certificación
2
int
dia_cert
1-31,99
Se indica el día de certificación
Edad
4
int
Edad
1001-1023,
1097,1098, 20012029,2098, 30013011,3098, 40014120, 4998
Se incluye las edades de las personas fallecidas,
en horas, días, meses y años
Edad agrupada
2
int
edad_agru
1-30
Este campo detalla la edad que tenia el
paciente cuando falleció y lo detalla en horas,
días, meses y años.
Los rangos 1001-1023 representan las horas, del
2001-2029 se representan en días, del 3001 a
3011 encontramos la edad en meses y por
último en los rangos de 4001 - 4120
encontramos las edades en años.
Se incluyen las edades agrupadas
Estado Conyugal
1
int
edo_civil
1-6, 8, 9
Se incluye el estado conyugal
Escolaridad
2
int
escolarida
1-10, 88, 99
Se incluye la escolaridad
Este campo toma en cuenta el nivel escolar del
finado, tomando en cuenta
que para la clave 88 son menores de 3 años y la
clave 99 aparece como no especificado
Grupos lista mexicana
3
int
gr_lismex
1-59
Hora de la defunción
2
int
Horas
00-23, 99
Se incluye la lista de las enfermedades por
grupos
Se indica la hora de la defunción
Lengua indígena
1
int
Lengua
1, 2, 9
Se indica si sabe una lengua indigena
Lista1
3
int
lista1
1-103, 902
Se indica la lista de las enfermedades
Causa Defunción (Lista
Mexicana)
3
int
lista_mex
1-59, 01A - 09Z,
10A - 56C
Mes Defunción
2
int
mes_ocurr
1-12, 99
Se indica la lista de las enfermedades de
México
Se divide en 59 categorias, clasificadas en
números y letras
Se indica el mes de defunción
Mes Registro
2
int
mes_regis
1-12
Se indica el mes de registro
MINERÍA DE DATOS
Mes Nacimiento
2
int
mes_nacim
1-12,99
Se indica el mes de nacimiento
Mes de Certificación
2
int
mes_cert
1-12, 99
Se indica el mes de certificación
Minuto de la defunción
2
int
Minutos
00-59, 99
Se indica el minuto de defunción
Nacionalidad
1
int
nacionalid
1-2, 9
Se indica la nacionalidad
Necropsia
1
int
necropsia
1-2, 9
Se indica si se realizo necropsia
Ocupación
2
int
ocupacion
1 - 11, 97, 98, 99
Se indica la ocupación
Ocurrió Trabajo
1
int
ocurr_trab
1-2, 8, 9
Se indica si el siniestro ocurrio en el trabajo
Parentesco del presunto
agresor
Presunto
2
int
par_agre
1 - 72, 88, 99
Se indica el parentesco
1
int
Presunto
1-5, 8
Se indica la causa de la defunción
Razón Materna
1
int
razon_m
1
Se indica si la causa fue materna
Causas relacionadas con
embarazo
Sexo
1
int
rel_emba
1,2, 8, 9
Se indica si la cauda fue por el embarazo
1
int
Sexo
1-2,9
Se indica el sexo
Sitio donde Ocurrio la
Defunción
Sitio donde Ocurrio la
Lesión
Tamaño Localidad
Residencia
Tamaño de Localidad
Ocurrencia
Area Urbano Rural
2
int
sitio_ocur
1-12,99
Se indica el sitio de la defunción
2
int
lugar_ocur
0 - 9, 88
Se indica el sitio de la lesión
2
int
tloc_resid
01-17,99
Se indica la localidad de la residencia
2
int
tloc_ocurr
01-17,99
Se indica la localidad de ocurrencia
1
int
area_ur
1, 2, 9
Se indica si el area es rural o urbana
Violencia Familiar
1
int
vio_fami
1, 2, 8, 9
Se indica si hubo violencia familiar
Tabla 2.2 Descripción de campos de la base de datos
Evaluación de los datos
Para familiarizarnos mejor con la información que almacena nuestra base datos se decidió
realizar una auditoría en CLEMENTINE, con la auditoría se pueden conocer mejor las
propiedades de los campos.
Al realizar la auditoría se muestra el campo, una gráfica de muestra, el tipo de campo, los
valores mínimos y máximos, la media del campo, la desviación típica, asimetría, muestra
los valores que son únicos y cuantos de los registros por campo son válidos.
En las siguientes figuras (fig. 2.1- fig. 2.4) se muestran los resultados de la auditoría de la
base de datos del IMSS.
MINERÍA DE DATOS
En la figura 2.1 se puede observar que para los primeros 11 campos no se encontraron
datos erróneos o nulos, ya que en el recuento de los valores válidos se obtuvo un total de
703,047 registros. En los campos de la misma figura no se encontraron los rangos
establecidos para clasificarlos. En la columna Tipo para todos esos valores de la figura 3
se observa que son de tipo “Rango” lo que hace referencia a los mínimos y máximos que
se muestran en la columna de a lado, y eso nos lleva a concluir que nuestros valores están
clasificados tomando ciertos parámetros.
Figura 2.1 Auditoría de la base de datos en CLEMENTINE
MINERÍA DE DATOS
En la figura 2.2 se observan la secuencia de los campos de nuestra base de datos y todos
son de tipo “Rango” por lo que son valores en los que podemos encontrar un mínimo y un
máximo, no se encontraron datos nulos, y no se encontraron valores únicos para los
campos de la misma figura. En la columna de valores únicos no se reconocen los rangos
establecidos por la base de datos.
Figura 2.2 Auditoría de la base de datos en CLEMENTINE
MINERÍA DE DATOS
En la figura 2.3 se muestra que nuestros campos son de tipo “Rango” y por lo tanto sus
rangos están establecidos por los valores de las columnas del lado derecho Min y Máx, no
se muestran valores únicos y tampoco se encontraron datos incorrectos o nulos en cada
uno de los campos, ya que el total de los valores válidos tuvieron un total de 703047, que
como ya se ha mencionado es el total de registros de la base de datos. En la columna Media
se muestra el promedio de cada uno de los campos, este valor generalmente se obtiene
sumando todos los datos del campo y dividiéndolo entre el número de datos, cabe
mencionar que este parámetro solo aplica para datos cuantificables.
Figura 2.3 Auditoría de la base de datos en CLEMENTINE
MINERÍA DE DATOS
En la figura 2.4 se observan algunos datos diferentes a los que se muestran en las figures
anteriores (fig. 2.2 – fig. 2.3) ya que ahora tenemos campos que son de tipo “Conjunto” y
“Marca” y en estos no se observa algún valor de mínimo y máximo, por lo que se puede
concluir que son campos de texto.
En el campo de tipo “Conjunto” se puede concluir que hace referencia a que es un conjunto
de palabras o elementos significantes con significados relacionados y en ese mismo campo
se observa que hay un total de 107 valores únicos, a partir de los cuales se sabe hay una
clasificación del mismo tamaño para este campo en el cual se describe la causa de la
defunción materna.
Por otro lado, también se encuentra el campo Razon_Materna en el cual se encuentran dos
valores únicos dentro de este campo, lo que nos lleva a concluir que este campo solo está
clasificado por dos posibles respuestas.
Para los campos que se muestran en la figura 6 todos los registros son válidos.
Figura 2.4 Auditoría de la base de datos en CLEMENTINE
MINERÍA DE DATOS
Verificar la calidad de los datos
Una vez realizada la auditoría, con el mismo análisis se pueden obtener los resultados de
la calidad de los datos. Como se muestra en la parte superior izquierda de la figura 7, los
datos completos de la base de datos arrojo un resultado del 100% ya que no hay celdas en
nulo, de la misma forma se muestra que el total de registros completos de la base de datos
es de un 100%.
Con los resultados observados en la figura 2.5 se puede concluir que los datos están
completos y que se puede disponer de ellos gracias a su corrección.
Figura 2.5 Calidad de los datos a partir de la auditoría de la base de datos.
MINERÍA DE DATOS
PREPARACIÓN DE LOS DATOS
FASE 3
En esta fase se pretende preparar los datos para adecuarlos a las técnicas de minería de
datos que se van a emplear sobre ellos. Lo que implica hacer una selección sobre el
subconjunto de datos que se van a utilizar, así como limpiarlos para mejorar su calidad,
añadir nuevos datos a partir de los existentes y darles el formato requerido por la
herramienta de modelado, para ello se utilizara CLEMENTINE.
Selección de los datos
En términos de registros se utilizarán todos los registros de la base de datos para
implementar la técnica de minería de datos, por lo que se contará con un total de 703 047
registros. Por otro lado, con los campos no es la misma situación ya que no todos aportan
información para llegar al objetivo de la minería de datos, definida en la fase 1 (Comprensión
del Negocio), por lo que se va a prescindir de algunos de ellos.
Los campos que se utilizarán para el análisis son los siguientes:
EDAD_AGRU (Edad agrupada)
GR_LISMEX (Grupos lista mexicana)
AREA_UR (Área Urbana o Rural)
ASIST_MEDI (Asistencia médica)
ENT_REGIS (Entidad registro)
El motivo para la inclusión o exclusión de algunos campos es conforme a la importancia de
información de dichos campos en relación a los objetivos de la minería de datos.
Para poder realizar la minería de datos fue necesario crear un nuevo campo de regiones,
en donde se hizo una búsqueda de los estados a los que pertenece el IMSS, y a partir de
cada una de los estados se hizo una clasificación por las siguientes regiones:
Tabla 3.1 Campo Regiones
En la Tabla 3.1 se muestra cómo fue que está compuesto el campo Regiones.
En la tabla 3.2 se muestra la descripción de los campos que se van a utilizar para generar
el campo determinante:
MINERÍA DE DATOS
NOMBRE_CAMPO
LONGITUD
TIPO
NEMÓNICO
RANGO_CLAVES Registros
Descripción
Clave region
1
int
Clv_region
1-8
703047 Contiene la region de cada region a la que pertenece
Edad agrupada
2
int
edad_agru
1-30
703047 Se incluyen las edades agrupadas
Grupos lista mexicana
3
int
gr_lismex
1-59
703047 Se incluye la lista de las enfermedades por grupos
Area Urbano Rural
Asistencia Médica
1
1
int
int
area_ur
1, 2, 9
703047 Se indica si el area es rural o urbana
asist_medi
1 - 2, 9
703047 Se incluye el tipo de asistencia médica
Tabla 3.2 Descripción de datos seleccionados
Limpiar los datos
La base de datos con la que se cuenta y conforme a los datos seleccionados cumplen con
la calidad para poder trabajar con ellos, como se mostró en la fig 7. Son datos limpios y por
lo tanto no hay necesidad de hacer una limpieza sobre ellos.
Tampoco se tienen campos en los que falten valores (ir a la fig 7), ya que se demostró que
los campos y los registros están completos al 100% (en la fase 2).
Observando la figura 8, podemos observar que los estados están divididos por regiones,
además de que en la figura tenemos el total de enfermedades más comunes por región.
Además, observamos que cada región tiene una clave, misma que vamos a utilizar
posteriormente para proponer el modelo más adecuado y realizar la minería.
Debido a que en la fase 2 se determinó que los datos están limpios e íntegros, no se requirió
de realizar mayor limpieza ni modificación alguna, de haberla hecho hubiéramos corrompido
la base y no nos servirían los datos.
Estructura de los datos
Una vez que los datos están seleccionados para la generación del campo determinante es
mejor trabajar con datos numéricos, y conforme a nuestra selección el campo.
Como se mencionó previamente se generaron dos campos extras los cuales son:
CLV_REGION
REGION
Estos campos fueron creados para realizar todas las combinaciones posibles y encontrar
su relación con el número de enfermedades.
Integración de los datos
Para poder trabajar con los campos y generar el campo determinante se simplifico la base
de datos, solo tomando en cuenta los datos de nuestra selección. La simplificación de la
base de datos se muestra en la tabla 3.3
MINERÍA DE DATOS
ENT_REGIS ASIST_MEDI GR_LISMEX AREA_UR EDAD_AGRU
1
9
1-10
9
1-10
1
9
11-20
9
11-15
1
9
21-30
9
16-20
1
9
31-40
9
21-30
1
1
49-50
1
1-30
1
2
49-50
2
1-30
1
9
49-50
9
1-30
1
1
49-50
9
1-30
1
2
49-50
9
1-30
1
1
1-10
1
1-10
1
2
1-10
2
1-10
1
1
11-20
1
11-15
1
2
11-20
2
11-15
1
1
21-30
1
16-20
1
2
21-30
2
16-20
1
1
31-40
1
21-30
1
2
31-40
2
21-30
1
9
49-50
1
1-30
1
9
49-50
2
1-30
2
9
1-10
9
1-10
2
9
11-20
9
11-15
2
9
21-30
9
16-20
2
9
31-40
9
21-30
2
1
49-50
1
1-30
2
2
49-50
2
1-30
2
9
49-50
9
1-30
2
1
49-50
9
1-30
2
2
49-50
9
1-30
2
1
1-10
1
1-10
2
2
1-10
2
1-10
2
1
11-20
1
11-15
2
2
11-20
2
11-15
2
1
21-30
1
16-20
2
2
21-30
2
16-20
2
1
31-40
1
21-30
2
2
31-40
2
21-30
2
9
49-50
1
1-30
2
9
49-50
2
1-30
3
9
1-10
9
1-10
3
9
11-20
9
11-15
MINERÍA DE DATOS
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
9
9
1
2
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
9
9
1
2
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
9
9
1
21-30
31-40
49-50
49-50
49-50
49-50
49-50
1-10
1-10
11-20
11-20
21-30
21-30
31-40
31-40
49-50
49-50
1-10
11-20
21-30
31-40
49-50
49-50
49-50
49-50
49-50
1-10
1-10
11-20
11-20
21-30
21-30
31-40
31-40
49-50
49-50
1-10
11-20
21-30
31-40
49-50
9
9
1
2
9
9
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
1
2
9
9
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
1
16-20
21-30
1-30
1-30
1-30
1-30
1-30
1-10
1-10
11-15
11-15
16-20
16-20
21-30
21-30
1-30
1-30
1-10
11-15
16-20
21-30
1-30
1-30
1-30
1-30
1-30
1-10
1-10
11-15
11-15
16-20
16-20
21-30
21-30
1-30
1-30
1-10
11-15
16-20
21-30
1-30
MINERÍA DE DATOS
5
5
5
5
5
5
5
5
5
5
5
5
5
5
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
7
7
7
7
7
7
7
7
2
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
9
9
1
2
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
9
9
1
2
9
1
49-50
49-50
49-50
49-50
1-10
1-10
11-20
11-20
21-30
21-30
31-40
31-40
49-50
49-50
1-10
11-20
21-30
31-40
49-50
49-50
49-50
49-50
49-50
1-10
1-10
11-20
11-20
21-30
21-30
31-40
31-40
49-50
49-50
1-10
11-20
21-30
31-40
49-50
49-50
49-50
49-50
2
9
9
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
1
2
9
9
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
1
2
9
9
1-30
1-30
1-30
1-30
1-10
1-10
11-15
11-15
16-20
16-20
21-30
21-30
1-30
1-30
1-10
11-15
16-20
21-30
1-30
1-30
1-30
1-30
1-30
1-10
1-10
11-15
11-15
16-20
16-20
21-30
21-30
1-30
1-30
1-10
11-15
16-20
21-30
1-30
1-30
1-30
1-30
MINERÍA DE DATOS
7
7
7
7
7
7
7
7
7
7
7
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
8
2
1
2
1
2
1
2
1
2
9
9
9
9
9
9
1
2
9
1
2
1
2
1
2
1
2
1
2
9
9
49-50
1-10
1-10
11-20
11-20
21-30
21-30
31-40
31-40
49-50
49-50
1-10
11-20
21-30
31-40
49-50
49-50
49-50
49-50
49-50
1-10
1-10
11-20
11-20
21-30
21-30
31-40
31-40
49-50
49-50
9
1
2
1
2
1
2
1
2
1
2
9
9
9
9
1
2
9
9
9
1
2
1
2
1
2
1
2
1
2
1-30
1-10
1-10
11-15
11-15
16-20
16-20
21-30
21-30
1-30
1-30
1-10
11-15
16-20
21-30
1-30
1-30
1-30
1-30
1-30
1-10
1-10
11-15
11-15
16-20
16-20
21-30
21-30
1-30
1-30
Tabla 3.3 Simplificación de la base de datos con la selección de los campos
En base a una investigación sobre las Expectativas y Experiencias de los Usuarios del
Sistema de Salud en México realizada en el año 2010 en algunas de las unidades médicas
de la Coordinación de Institutos Nacionales de Salud, se demostró que la edad más
numerosa fue el de las personas entre 35 y 64 años de edad, denominados adultos
maduros, (38.71%), y el menos numeroso, fue de las personas con 65 años conocidos
como adultos mayores, (12.84%), si se juntan estos dos datos se tiene que el 51.55% de
los pacientes atendidos reportaron tener 35 años más.
MINERÍA DE DATOS
Gráfica 3.1 Pacientes atendidos en base a la edad
En la misma investigación se hizo una entrevista a los pacientes para conocer el motivo por
el cual el paciente asistió al hospital. Los motivos de consulta y padecimientos
diagnosticados se clasificaron de acuerdo con los sistemas del cuerpo, como se muestra
en la tabla 3.4
Tabla 3.4 Motivo por el cual el paciente asistió el día de la entrevista al hospital.
MINERÍA DE DATOS
Uno de los cuestionarios de la Experiencia y Expectativas de los Usuarios del Sistema de
Salud de México, se realizaron algunas preguntas relativas a las características sociales de
la población que se relacionan a sus hábitos y su condición de salud. El 28% de los usuarios
acude a la unidad médica por primera vez, el 72% reporta ser usuario subsecuente. En la
gráfica 3.2 se observa que de estos pacientes el 50% reporta haber asistido más de 11
veces anteriormente.
Gráfica 3.2 Pacientes que acuden a las unidades médicas.
En base a un Informe sobre la Salud de los Mexicanos 2016 se obtuvo una gráfica que
muestra las unidades de hospitalización por 100,000 habitantes por entidad federativa,
2007 y 2014 (ir a la gráfica 3.3).
Gráfica 3.3 Unidades de hospitalización por 100,000 habitantes por entidad federativa,
2007 y 2014
MINERÍA DE DATOS
Al analizar la tendencia en la construcción de hospitales por entidad federativa, resalta el
crecimiento ocurrido en 28 de los 32 estados. Las entidades con mayor generación de
nuevas unidades fueron Baja California, Querétaro y la Ciudad de México, con incrementos
de 10, 9.5 y 5 veces más, respectivamente. Bajo este contexto, el incremento pudo deberse
tanto a la construcción y apertura de nuevas unidades.
Formateo de los datos
En el campo creado CLV_REGION, para poder realizar todas las combinaciones posibles
y encontrar su relación con el número de enfermedades. A partir de esto se hizo
simplificación del contenido de este campo en dónde cada una de las 32 entidades de la
República Mexicana se agruparon en las 8 regiones de esta.
La división regional del territorio mexicano se estableció a partir de la combinación de
factores físico-naturales e histórico-culturales. Los histórico-culturales tienen que ver con
las formas de organización social y económica que los seres humanos han creado como
parte de su adaptación al medio natural en el que viven. La combinación de todos estos
factores, forma uno de los criterios que se utilizan para establecer semejanzas y diferencias
entre las 32 entidades que integran al territorio nacional. La agrupación de los estados que
presentan características similares, ya sean de tipo físico, cultural y/o económico, da origen
a la formación de ocho regiones, lo cual permite facilitar el estudio de México.
En base a la anterior la clasificación quedo de la siguiente manera:
CVE_MUN
Aguascalientes
Baja California
Baja California Sur
Campeche
Coahuila de Zaragoza
Colima
Chiapas
Chihuahua
Ciudad de México
Durango
Guanajuato
Guerrero
Hidalgo
Jalisco
México
Michoacán de Ocampo
Morelos
Nayarit
Nuevo León
Oaxaca
Region
Centronorte
Noroeste
Noroeste
Sureste
Suroeste
Noroeste
Centrosur
Noreste
Oeste
Noroeste
Centronorte
Suroeste
Este
Oeste
Centrosur
Oeste
Centrosur
Oeste
Noreste
Suroeste
Clv_Region
4
5
5
8
7
5
2
6
1
5
4
7
3
1
2
1
2
1
6
7
MINERÍA DE DATOS
Puebla
Querétaro
Quintana Roo
San Luis Potosí
Sinaloa
Sonora
Tabasco
Tamaulipas
Tlaxcala
Veracruz de Ignacio de la Llave
Yucatán
Zacatecas
Este
Centronorte
Sureste
Centronorte
Noroeste
Noroeste
Sureste
Noreste
Este
Este
Sureste
Centronorte
3
4
8
4
5
5
8
6
3
3
8
4
Tabla 3.5 Clasificación de las 32 entidades de la República Mexicana conforme a las
regiones.
MINERÍA DE DATOS
MODELADO
FASE 4
En esta fase de la metodología se escogerá la técnica (o técnicas) más apropiadas para los
objetivos marcados de la minería de datos. A continuación, y una vez realizado un plan de
prueba para los modelos escogidos, se procederá a aplicar dichas técnicas sobre los datos
para generar el modelo y por último se tendrá que evaluar si dicho modelo ha cumplido los
criterios de éxito o no.
Escoger la Técnica de Modelado
Debido a que se utilizara el software de CLEMENTINE para realizar la minería de datos,
deberemos utilizar alguna de las técnicas de modelado que nos ofrece esta herramienta de
acuerdo con los objetivos de nuestro proyecto que están reflejados en el apartado objetivos
de la minería.
De los modelos que nos ofrece CLEMENTINE, el que se adapta a nuestros
objetivos sería el Algoritmo C5.0. El cual genera un árbol de decisión, así como
un conjunto de reglas. Este algoritmo divide la muestra basándose en el campo
que ofrece la máxima ganancia de información en cada nivel. El campo objetivo
debe ser categórico. Se permiten varias divisiones en más de dos subgrupos.
En minería de datos el algoritmo C5.0 se utiliza para modelar las clasificaciones en los
datos. Se construyen a partir del esqueleto de este método para generar un árbol de
decisión a partir de un conjunto de datos.
Generar el Plan de Prueba
A continuación, se generaron las posibles combinaciones de acuerdo a distintos criterios
para realizar el campo determinante y principalmente, para que no hubiera ningún dato
inconsistente o valores en nulo.
Las siguientes combinaciones hacen referencia que NO se debe generar el hospital de
especialidad médica a dichas personas dependiendo la región:
SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >1 Y (Edad agrupada) <= 10
SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > 10 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >11 Y (Edad agrupada) <= 15
SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > 20 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >16 Y (Edad agrupada) <= 20
SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > 30 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >20 Y (Edad agrupada) <= 30
SI (Clave Región) = 1 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
MINERÍA DE DATOS
SI (Clave Región) = 1 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 1 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) >= 49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 1 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) >= 49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 1 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
SI (Clave Región) = 2 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 2 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 2 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 2 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 2 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
MINERÍA DE DATOS
SI (Clave Región) = 3 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 3 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 3 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 3 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 3 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
SI (Clave Región) = 4 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 4 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 4 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 4 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 4 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
MINERÍA DE DATOS
SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
SI (Clave Región) = 5 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 5 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 5 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 5 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
SI (Clave Región) = 6 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 6 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 6 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 6 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 6 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
MINERÍA DE DATOS
SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
SI (Clave Región) = 7 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 7 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 7 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 7 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 7 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =1 Y (Gpo. Lista Mexicana)
<= 10 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 10
SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =11 Y (Gpo. Lista Mexicana)
<= 20 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=11 Y (Edad agrupada) <= 15
SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =21 Y (Gpo. Lista Mexicana)
<= 30 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=16 Y (Edad agrupada) <= 20
SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =31 Y (Gpo. Lista Mexicana)
<= 40 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=21 Y (Edad agrupada) <= 30
SI (Clave Región) = 8 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 1 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 8 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 2 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 8 Y (Asistencia Médica) = 9 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 8 Y (Asistencia Médica) = 1 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
SI (Clave Región) = 8 Y (Asistencia Médica) = 2 Y (Gpo. Lista Mexicana) > =49 Y (Gpo. Lista Mexicana)
<= 50 Y (Área Urbana Rural) = 9 Y (Edad agrupada) >=1 Y (Edad agrupada) <= 30
MINERÍA DE DATOS
Construir el modelo
Para la construcción del modelo se utilizaron los siguientes nodos:
Nodo
Descripción
Este nodo fue utilizado para poder cargar el archivo de
texto en clementine.
Este nodo fue utilizado para poder seleccionar el
campo de salida para determinar el criterio de
evaluación.
Este nodo fue utilizado para mostrar de forma gráfica
la información de los campos de salida.
Este nodo fue utilizado para realizar el modelo de
nuestra minería de datos.
Este nodo fue utilizado para realizar el análisis que se
obtuvo de la minería de datos.
Este nodo fue utilizado para realizar la auditoria de los
datos y validar que los datos que lee el programa
estuvieran correctos.
Este nodo fue utilizado para poder seleccionar
diferentes campos.
Este nodo fue utilizado para mostrar la información de
los datos.
Este nodo fue utilizado para poder exportar la
información a SQL.
Este nodo fue utilizado para poder mostrar de forma
gráfica la información de los campos de salida.
Tabla 4.1 Descripción de nodos
Una vez en el Software se utilizó un nodo orígenes Archivo var para obtener la base de
datos (que se encuentra en un archivo de texto plano) con los campos seleccionados para
trabajar con ellos desde CLEMENTINE.
MINERÍA DE DATOS
Ajustes de parámetros
A partir del nodo Archivo var. en donde se encuentra el origen de los datos se conectó un
nodo tipo en el cuál se define cuáles serán los campos de salida y, de entrada, por lo que
se modificó la dirección del campo Determinante, ya que será el campo de salida.
Figura 4.1. Dirección de los campos en el nodo tipo
A continuación, se muestra la construcción y ejecución del modelo para la minería de datos
del proyecto.
Para ello fue necesario conectar un nodo de modelado C5.0 al nodo tipo como se muestra
en la figura 4.2, al ejecutar el nodo C5.0 a partir del cual se genera la técnica de modelado
árboles de decisiones la cual se muestra en la figura 4.4.
Figura 4.2 Construcción del Modelo C5.0
MINERÍA DE DATOS
Figura 4.3. Árbol de decisiones para la construcción de Hospitales
MINERÍA DE DATOS
Evaluar el modelo
Una vez obtenido el árbol se conectó un nodo de resultado análisis como se muestra en la
figura 4.4
Con el nodo de análisis se aprecian los resultados para el campo determinante. Como se
muestra en la figura 11 se obtuvo que un 99.95% de los resultados son correctos lo que
representa 702,690 registros y se obtuvo que el 0.05% son erróneos lo cual representa a
357 registros.
Figura 4.4 Análisis de árbol de decisiones
MINERÍA DE DATOS
FASE 5
Evaluación
Evaluar los resultados
Retomando el objetivo de la minería de datos definido en la fase 1…
Se pretende saber en qué región del país: Oeste, Centro sur, Este, Centro norte,
Noroeste, Noreste, Sureste y Sureste, es más recomendable abrir un nuevo hospital de
especialidad médica y así ofrecer una respuesta más rápida a los derechohabientes, así
como asegurar la atención adecuada a los pacientes.
Para identificar en que región se requiere más de la construcción de un hospital se conectó
un nodo de gráficos a la minería realizada y en ese se seleccionaron los campos REGIÓN
y Determinante.
Como se muestra en la figura 5.1 se hizo un recuento del porcentaje que abarca cada región
en base al campo determinante por lo que en la región Oeste es necesario dar prioridad a
la construcción de hospitales.
Figura 5.1 Distribución de la región y campo determinante
MINERÍA DE DATOS
En la siguiente grafica de mallas (figura 5.2) se muestran todas las combinaciones
posibles entre las regiones (Oeste, Centro sur, Este, Centro norte, Noroeste, Noreste,
Sureste y Sureste), el área (rural o urbana) y nuestro campo determinante.
Figura 5.2 Gráfica de mallas
MINERÍA DE DATOS
En la tabla 5.1 se muestran las combinaciones de manera porcentual en base a la gráfica
de mallas.
Las combinaciones se clasifican en enlaces débiles, medio y fuertes.
En las siguientes tablas se muestran las combinaciones que se representan en la gráfica
de mallas.
En los enlaces débiles se muestran las combinaciones en donde no es viable la
construcción de un nuevo hospital.
Por lo tanto, en los enlaces fuertes se muestran las combinaciones en los que se necesita
la construcción de un hospital.
MINERÍA DE DATOS
Tabla 5.1 Combinaciones de la gráfica de mallas
En la figura 5.3 se muestra la misma gráfica de mallas, pero solo mostrando los resultados
que se encuentran por arriba de un 20% de factibilidad.
Figura 5.3 Gráfica de mallas
MINERÍA DE DATOS
Revisión del proceso
Con base a las fases anteriores, se ha determinado hasta este momento que se han
generado resultados satisfactorios, a pesar de que se generaron varios problemas en
cuanto algunos rangos de cada valor, por lo que se llegó a la conclusión de que teníamos
que especificar que significaba cada uno de los rangos que se vieran inconsistentes o
extraños.
Básicamente se obtuvieron los resultados esperados de acuerdo a nuestro objetivo
pretendiendo conocer en qué región del país (Oeste, Centro sur, Este, Centro norte,
Noroeste, Noreste, Sureste y Sureste), es mucho más aceptable y recomendable abrir un
nuevo hospital de especialidad médica para ofrecer una respuesta más rápida a los
derechohabientes, así como asegurar la atención adecuada a los pacientes, así que, por lo
tanto, podría pasarse a la fase siguiente.
Determinar próximos pasos
Como podemos observar en la imagen (Figura 5.4), se implementó un nodo de “seleccionar”
para visualizar en una tabla las regiones que sean igual a las de Centronorte, que el área
sea de tipo Rural y finalmente que el campo determinante sea igual a NO.
Figura 5.4 Selección de campos y condiciones
MINERÍA DE DATOS
Se puede visualizar en la Figura 5.5 los datos obtenidos en una tabla a partir del nodo de
selección como se muestra en la Figura 5.4
Figura 5.5 Tabla de resultados con condiciones
En esta imagen que se encuentra debajo (Figura 5.6), se realizó una selección de los
campos para representarlo en una tabla las regiones que sean igual a las de Oeste, que el
área sea solamente de tipo Urbano y finalmente que el campo determinante sea igual a SI.
Figura 5.6 Selección de campos y condiciones
MINERÍA DE DATOS
Podemos observar en la siguiente tabla (Figura 5.7), los datos mostrados u obtenidos a
partir del nodo de selección que se realizó, como se muestra en la Figura 5.6
Figura 5.7 Tabla de resultados con condiciones
MINERÍA DE DATOS
FASE 6
Implantación
Para esta fase se explicará con mayor detalle cómo poner en funcionamiento este
proyecto que se ha ido explicando y detallando en fases anteriores.
También se mostrarán los resultados obtenidos junto con su explicación, de esta
forma, se comprenderá de una mejor manera el uso que se le puede dar a todos
los datos con los que contamos y las búsquedas que se podrían realizar en un futuro
para realizar otro tipo de toma de decisiones para otras áreas del IMSS.
Plan de implementación
Para realizar la implementación de este proyecto será necesario conocer los
resultados arrojados, por la fase anterior ya se tiene conocimiento de la región en
donde es más factible que se construya el hospital.
6.1Gráfica de campo determinante
Como se observa en el gráfico 6.1 es clara la diferencia de registros que hay entre
la región Oeste y las demás, por lo que es prescindible ir realizando la planificación
de la construcción del hospital en cuestión.
MINERÍA DE DATOS
A continuación, se presenta el gráfico que sustenta el estudio al encontrar más
relaciones entre el campo determinante y la región Oeste.
6.2 Gráfica de malla vista en la fase anterior
En esta gráfica de malla podemos observar que hay líneas más delgadas que otras,
y otras más gruesas que otras, esto se explicó en la fase anterior, sin embargo, en
esta fase se vuelve a hacer la mención porque para la implementación del
proyecto se debe resaltar que se utilizó un gráfico de malla para visualizar de una
manera más sencilla y diferente el resultado.
Recordemos que, para estas grandes cantidades de información, es importante,
considerar la visualización de los datos de diferentes maneras, así podremos
encontrar relaciones que desconocíamos o encontrar patrones que no podíamos
encontrar en una tabla o en una gráfica tradicional.
Si se logran identificar estos aspectos se podrán realizar en el futuro estudios de
minería con mayor rapidez.
Una vez teniendo claros nuestros resultados procedemos a especificar el plan de
implementación:
MINERÍA DE DATOS
1. Se debe de tomar en cuenta que nuestro resultado no es el único dato que
tenemos disponible para consulta, por lo que se entregará una aplicación
donde se mostrarán los resultados derivados de nuestro objetivo principal.
6.3 Interfaz de aplicación
2. En la siguiente imagen 6.4 se observan los módulos con los que cuenta la
aplicación para realizar las consultas pertinentes.
6.4 Menú de opciones
3. La aplicación será instalada en la PC de Dirección General para su consulta.
También será instalada en la oficina de la Jefatura de Servicios y finanzas, así
como en la oficina de la Jefatura de Servicios Administrativos ya que de ella
depende el área de construcción y planeación inmobiliaria.
4. Esto se realizará el día de entrega del proyecto.
5. Adicionalmente se dará una breve explicación al personal involucrado en
este proyecto de parte del IMSS para que sepan usar los módulos de la
aplicación y tengan acceso a ella para los datos que requieran consultar.
Plan de monitoreo y mantención
MINERÍA DE DATOS
(Plan de monitorización y mantención)
La supervisión y mantenimiento de la implementación del presente proyecto
es una fase importante del mismo debido a que los datos que se procesan
con mucha frecuencia pueden ser modificados por el personal de la
institución.
Los datos pueden ser modificados por diferentes motivos como haber
realizado una codificación incorrecta, haber asignado una clave incorrecta
al paciente, etc. El volumen de estos datos en movimiento es grande motivo
por el cual la extracción de las muestras debe ser realizada
cuidadosamente y realizando siempre backups de los datos explotados en
cada proceso.
La minería de datos debería ser realizada toda vez que se tenga un proyecto
de construcción, ya sea de hospital o clínica, ya que el modelo elegido nos
ha arrojado resultados tan satisfactorios.
El detalle de este modelo es que para realizar un nuevo estudio, sería
necesario realizar todas las fases como se realizó para este proyecto, ya que
se tendrían nuevos y más datos, de los cuales se desconocería la calidad.
Como plan de supervisión y mantenimiento se podrían establecer los
siguientes procesos en las áreas correspondientes:
•
•
•
•
•
Extracción y almacenamiento bimestral de los datos guardando la
información obtenida en formato de hoja de cálculo.
Distribución de los datos en función de los modelos de software de
minería de datos a trabajar. En nuestro caso con el modelo
implementado.
Los archivos de la explotación de datos deberán ser guardados en
una memoria externa con capacidad de 1T, almacenándolos por
ejemplo en carpetas ordenadas por periodos bimestrales.
Los resultados obtenidos en cada explotación de datos deberán ser
llevados a formato de hoja de cálculo y generar gráficas de distintos
tipos para una mejor visualización e interpretación de los resultados
obtenidos en cada periodo.
Los datos almacenados deberán pasar por una revisión y limpieza
mensual ya que la cantidad de registros de pacientes es inmensa.
MINERÍA DE DATOS
Informe final
Este proyecto nació de la necesidad de dirigir recursos y presupuesto de
parte del IMSS a la construcción de un hospital en la región donde fuera más
necesario y de este modo evitar defunciones por falta de atención en las
enfermedades que son más comunes en las distintas regiones.
El presente va dirigido a la Dirección General del IMSS y a las Jefaturas del
Servicio de Finanzas y Servicios Administrativos, con el fin de enterarles los por
menores del estudio de minería realizado.
Se utilizó el modelo CRISP-DM en este proyecto, el cual, refiere toda una
metodología para hacer estudios de minería y encontrar datos de interés o
predictivos conforme al objetivo de minería que se tenga. En este caso, el
objetivo era saber en qué región del país es más necesaria la construcción
de un hospital de especialidad para evitar defunciones y brindar una
atención médica, oportuna y de calidad.
Durante el desarrollo de las fases se fueron conociendo los objetivos propios
de la institución, así como su misión y visión. Esto permitió que los
desarrolladores tuvieran conocimiento de las necesidades latentes.
También se realizaron investigaciones sobre las enfermedades más comunes
en el país y se documentaron por medio de gráficos las necesidades de la
población en cuestión de visitas al doctor y salud, lo cual permitió la correcta
elección de los campos o registros que serían tomados en cuenta para
hacer el estudio de minería.
Durante las fases de selección y limpieza se comprobó la calidad de los
datos, lo cual, fue muy fortuito al encontrar que los registros que contiene la
base de datos de la institución están muy limpios y no tiene incongruencias
o datos erróneos. Lo anterior facilita mucho el tratamiento de los registros y
agiliza la realización del estudio.
Durante la fase de Minería se tomaron en cuenta todas las combinaciones
posibles entre nuestros registros seleccionados para poder crear el campo
determinante que es el resultado de la operación realizada en el programa
Clementine.
Finalmente, en las fases 5 y 6 se muestran los resultados finales junto con la
entrega de la aplicación.
MINERÍA DE DATOS
Modelos aprobados
Se aplicó un único modelo a este estudio ya que por la naturaleza de los
datos y del objetivo en sí, solamente tomando en cuenta todas las
combinaciones posibles y los campos seleccionados, se podría obtener un
resultado fidedigno y correcto. Con esto sería factible que la dirección
General tomara la decisión de abrir el proyecto de construcción de un
nuevo hospital de especialidad.
Documentación de experiencias
Listado de dificultades
•
Fase 1
No se presentaron dificultades
•
Fase 2
En la descripción de los datos tuvimos dificultades con las claves ya que todas están
especificadas en rangos por lo que toma tiempo identificar qué claves
corresponden a qué cosa.
•
Fase 3
La creación del campo regiones en un inicio se pensó dividirlo en 4 regiones, sin
embargo, hay que considerar que se debe de ser más específico para tener una
minería más precisa, por lo que se tuvo que dividir en 8 regiones.
•
Fase 4
Para el modelado y realizar la minería se tuvo dificultades con el archivo ya que
Clementine no reconocía los rangos de los campos, por lo que se recomienda
realizar un respaldo de su base de datos en archivo de tipo txt ó var para facilitar
al software la lectura de los datos.
•
Fase 5
No se tuvieron dificultades
•
Fase 6
No se tuvieron dificultades.
MINERÍA DE DATOS
Descargar