Análisis multivariado de riegos usando Técnicas de Segmentación

Anuncio
Diagnóstico y detección de factores de riesgo de la HTA usando técnicas estadísticas
Autores: Lic. Santiago Cuadrado1
Dra. Gladys Casas Cardoso2
1
Licenciado en Ciencia de la Computación.
Doctora en Ciencias Técnicas. Prof. Auxiliar Fac. Mat.-Física y Computación. UCLV
Dr. CT. Emilio F. González Rodríguez*, Lic. Ma. Elena Mellado Pérez*, Dra. CS. Osana Molerio Pérez*, Dra. Alina
Pérez de Armas**, Dra. Haydee Curbelo Hernández**, Dra. Otmara Guirado Blanco**, Dra. CM Manuela Herrera**,
Dra. Yakelín Luna Carvajal***, Dr CM. Carlos Martinéz***, Dr. MSc. Gerardo Alvarez Alvarez***, Dr. Rafael Cruz
Abascal***, Dr. Luis Monteagudo***, Dra. Ana María Correa***, Dr. Juan Gutierrez Ronquillo***
*Universidad Central de Las Villas.** Instituto Superior de Ciencias Médicas de Villa Clara. *** Sectorial de Salud de Villa
Clara.
2
Introducción
La probabilidad y el riesgo de que una persona pueda desarrollar o sufrir un proceso específico, puede determinarse a
partir del análisis de la experiencia colectiva de grandes números de individuos representativos, que posean las
características consideradas. A fin de establecer comparaciones, a veces es necesario examinar también la
experiencia de la población en general o del resto de ella.
En la práctica el riesgo indica la probabilidad media de contraer una enfermedad para cada individuo del grupo. Los
factores de riesgo son el conjunto de fenómenos de los cuales depende esta probabilidad.
La determinación de los factores de riesgo es de especial interés en salud pública, ya que con su posible modificación
se puede interrumpir el desarrollo de la enfermedad.
En el presente trabajo se analizan los resultados obtenidos al aplicar técnicas univariadas y multivariadas para el
diagnóstico de la Hipertensión Arterial (HTA) y la determinación de sus factores de riesgos. El uso integrado de estas
técnicas en el campo de la salud resulta novedosa en nuestro país. Lo más interesante resulta que la técnica de
CHAID (Chi-squared Automatic Interaction Detector) proporciona criterios y datos suficientes para organizar Sistemas
Expertos para Diagnóstico, en particular Sistemas Expertos basados en redes neuronales bayesianas.
Hipertensión Arterial (HTA)
La hipertensión arterial es un factor de riesgo para las enfermedades del corazón, cerebro y riñon, sin embargo, ella
por si misma representa una enfermedad. La Organización Mundial de Salud la ha denominado epidemia silenciosa
pues por lo regular se presenta de forma asintomática, ocasionando daños como: trombosis, hemorragias cerebrales,
infarto del miocardio, muerte súbita, insuficiencia renal, entre otras.
Varios estudios realizados consideran esta enfermedad como la primera causa de muerte en el mundo. En Cuba y en
particular en nuestro municipio está vinculada a la segunda causa de muerte.
Lo más interesante y preocupante de esta enfermedad es la gran cantidad de personas que desconocen su
padecimiento, debido al hecho de ser asintomática. Según “La I Encuesta Nacional de Factores de Riesgo y
Actividades Preventivas de Cuba”, del total de hipertensos detectados sólo el 60.8% conocían de su enfermedad y de
ellos el 75% tenían tratamiento. De estos últimos un 12.3% cumplía tratamiento no farmacológico, un 20.9 % lo hacía
con medicamentos y el 42% usaban ambos.
Los factores de riesgo de esta enfermedad son tan disímiles que pueden ir desde factores económicos y sociales,
hasta ambientales y étnicos, por lo que su diagnóstico no debe limitarse simplemente a la toma de la presión arterial
sistólica y diastólica, sino analizar cada uno de estos factores. Sin lugar a dudas, el estudio de todos los factores
requiere de una gran cantidad de recursos materiales y humanos de los que no siempre es posible disponer.
El proyecto de investigación de la Universidad Central de Las Villas “Proyección del Centro de Desarrollo Electrónico
hacia la Comunidad” (PROCDEC) tiene como objetivo principal el desarrollo de un estudio de personas
supuestamente normotensas primero en la ciudad de Santa Clara y luego en toda la nación.
En el desarrollo de este proyecto participa un grupo multidisciplinario formado por un psicólogo, un cardiólogo, un
nefrólogo, un genetista, 3 fisiólogos, dos clínicos, un médico de laboratorio, dos ingenieros y dos cibernéticos.
Participan además especialistas en Medicina Integral General de los centros hospitalarios José Ramón León, Chiqui
Gómez,Ramón Pando Ferrer, Santa Clara y XX Aniversario. Estos especialistas realizan el estudio del paciente,
mientras el grupo multidisciplinario es quien valida el diagnóstico.
A continuación se muestran los resultados obtenidos al aplicar técnicas estadísticas univariadas y multivariadas para
determinar factores de riesgo, a partir de una muestra de 863 pacientes. Características fundamentales de los datos
La base de datos relativa a este estudio está formada por un conjunto de 38 atributos predictivos que se obtienen de
estudios y entrevistas realizadas a los pacientes y un atributo objetivo (diagnóstico) cuyo valor (hipertenso o
normotenso) se infiere a partir del valor de los atributos predictivos.
Determinación de los factores de riesgo
La forma más elemental de evaluar la magnitud de un factor de riesgo para atributos discretos es a través de tablas de
contingencia en los conocidos estudios epidemiológicos de casos controles o estudios de cohortes. En dichas tablas
de contingencias, la variable de entrada (fila) representa el factor y la variable de salida (columna) la presencia o no de
la enfermedad.
Por ejemplo:
Diagnóstico de expertos
Sexo
Total
Total
Hipertenso
Normotenso
Masculino
194
213
407
Femenino
130
326
456
324
539
863
En dicha tabla, tienen particular interés los porcentajes por filas. De esta forma:
% de Masculinos-Hipertensos=194/407=0,47
es una. estimación de la probabilidad de la salida Hipertenso condicionada a la entrada Masculino y se interpreta
como el riesgo de Hipertensión en caso de ser hombre.
% de Femeninos-Hipertensos=130/456=0,28
es una estimación de la probabilidad de la salida Hipertenso condicionada a la entrada Femenino y se interpreta
como el riesgo de Hipertensión en caso de ser mujer.
La relación entre estos dos riesgos:
RR=%Masculinos-Hipertensos/%Femeninos-Hipertensos=1,67
se denomina riesgo relativo y es una estimación de la relación entre las probabilidades de salida Hipertenso cuando la
entrada es Masculino respecto a la entrada Femenino.
En este caso se interpretaría que ser Hipertenso es 1,71 veces más riesgoso entre los hombres que entre las
mujeres.
En general, si RR >> 1, la variable de entrada se considera un factor de riesgo. Si RR << 1, la variable de entrada es
un riesgo negativo, es decir, un factor protector. Si RR  1, la variable de entrada no es ni un factor de riesgo ni un
factor protector.
Para llegar a conclusiones estadísticas se formula una dócima de hipótesis para:
H0: RR = 1
H1: RR  1
o lo que es equivalente, se formula un intervalo de confianza para RR. Si a partir de los datos de una muestra ese
intervalo queda a la derecha de 1, se habla de riesgo; si queda a la izquierda se habla de protector y si abarca a 1 no
se considera el factor asociado a la enfermedad.
Este análisis se realizó con todas las variables discretas dicotómicas y se determinó que constituyen factores de
riesgo para la hipertensión cualquiera de los siguientes: ser hombre, estar en la etapa de climaterio, ser de raza negra
o mestiza, ingerir bebidas alcohólicas, fumar, haber tenido un infarto de miocardio, padecer de enfermedades renales,
ser diabético, padecer de dislipidemia, haber tenido gestaciones con HTA e ingerir medicamentos.
Análisis multivariado de riesgos mediante el análisis discriminante y regresión logística.
El estudio anterior permite analizar la dependencia estadística de cada atributo predictivo discreto respecto al atributo
objetivo, sin embargo no permite considerar las interacciones que pudieran existir entre dichos atributos, ni permite
considerar atributos continuos. Por esta razón se propone el uso de técnicas de análisis multivariado tales como el
análisis de discriminante y la regresión logística que permiten construir funciones integrales de riesgo,, ordenar estos
factores y facilitar el estudio de sus interacciones.
El análisis de discriminante brinda esencialmente tres informaciones:

Hasta qué punto el conjunto de variables X1, X2, …, Xn (digamos factores de riesgos o interacciones de
estos) son capaces de distinguir dos grupos (por ejemplo, enfermos y sanos, en un estudio de casos controles).

Determinar el orden de importancia de estos factores en la distinción de los grupos (y la eliminación de
algunos si es necesario).

Construir una función discriminante (interpretada como una función integral de riesgo en este caso), de la
forma:
F = 0 + 1 X1 + 2 X2 + … + n Xn.
de manera que F  0 sobre la mayoría de enfermos y F < 0 sobre la mayoría de sanos.
En particular el orden de importancia “absoluta” de las variables se determina por el coeficiente de correlación de cada
una con la función F, con independencia de si dicha variable aparece o no en la expresión de F.
A continuación se presentan los algunos resultados de realizar un análisis discriminante. Para el uso de esta técnica
incorporamos un nuevo grupo de interés para los especialistas formado por 268 pacientes clasificados como
hiperreactivos. Ahora la nueva muestra quedó formada por tres grupos: normotensos, hiperreactivos e hipertensos. El
uso de esta técnica dio como resultado que las variables más importantes para distinguir entre estos grupos son:
Presión arterial media (PAM), TA Sistólica basal, Índice de masa corporal (IMC), TA Diastólica basal, Colesterol HDL,
Climaterio, Antecedentes Patológicos Familiares, Edad, TA Diastólica y Sistólica basal al 1er minuto, Glicemia,
Dislipidemia, Sexo y TA Sistólica basal al 2do minuto, Acido Úrico. Los resultados de clasificación fueron los
siguientes:
Classification Results(a)
Diagnóstico de expertos
Predicted Group Membership
Hipertenso Hiperreactivo
Normotenso
vascular
Hipertenso
284
40
0
324
Hiperreactivo vascular
12
250
6
268
477
539
0
62
Normotenso
89,4% of original grouped cases correctly classified.
Total
Como puede apreciarse las variables mencionadas anteriormente permiten diferenciar claramente los pacientes
hipertensos de los normotensos.
Por esta razón realizamos una regresión multinomial logística tomando como categoría de referencia ¨hiperrectivo¨.
Por tal razón se decide aplicar una regresión logística la cual es más recomendable cuando predominan las variables
discretas como en este caso.
En este tipo de regresión se construye también una “función discriminante”, pero de la forma:
f 
1
n
1  Exp( 0    i xi )
i 1
y se interpreta como la probabilidad condicional de que se produzca la enfermedad (E = Si) dado que un sujeto exhiba
el perfil (X1, X2, …, Xn).
La determinación de los coeficientes se hace no exactamente por regresión sino por aproximaciones sucesivas que
procuran maximizar la verosimilitud de la muestra y ello se puede lograr también por técnicas paso a paso, entre las
cuales es particularmente recomendable la maximización de la razón de verosimilitud Chi-cuadrado si se quiere
obtener resultados concordantes con los que lograremos después a través de la técnica CHAID que se propondrá.
El uso de esta técnica muestra que las variables que son estadísticamente significativas para diferenciar los
hiperreactivos de los hipertensos son: Sexo, Raza, Enfermedad renal, Ingiere medicamentos actualmente,
Antecedentes Patologicos Familiares, TA Sistólica basal, TA Diastólica basal, TA Sistólica (al 1er minuto), TA Sistólica
(al 2do minuto), TA Diastólica (al 2do minuto), Presión arterial media (PAM), Indice de masa corporal (IMC), Acido
Urico y Colesterol HDL 2
Por otra parte las que son estadísticamente significativas para diferenciar los hiperreactivos de los normotensos son:
Sexo, Fuma, TA Sistólica (al 1er minuto), TA Diastólica (al 1er minuto), TA Sistólica (al 2do minuto). TA Diastólica (al
2do minuto) y Presión arterial media (PAM).
Los resultados de la clasificación fueron:
Classification
Observed
Predicted
Hipertenso
Hiperreactivo vascular
Normotenso
Percent Correct
Hipertenso
310
14
0
95,7%
Hiperreactivo vascular
12
246
10
91,8%
Normotenso
0
9
530
98,3%
Overall Percentage
28,5%
23,8%
47,7%
96,0%
Como puede apreciarse el uso de una regresión logística multinomial ofrece mejores resultados para realizar una
clasificación.
Análisis multivariado de riegos usando Técnicas de Segmentación
El orden de importancia sucesiva de las variables puede sugerir, tanto en el análisis discriminante como en la
regresión logística algunas interacciones a considerar, pero esto no es totalmente claro. Por otra parte la inclusión o
no de una variable nominal, depende en gran medida de la forma de que esta es codificada y los resultados de
cualquiera de las dos técnicas pueden verse afectadas por esto. La técnica que se presenta a continuación resuelve
estas dificultades.
El análisis de CHAID surge como una técnica de segmentación y es particularmente útil en todos aquellos problemas
en que se quiera subdividir una población a partir de una variable dependiente y posibles variables predictoras que
cambien esencialmente los valores de la variable dependiente en cada una de las subpoblaciones o segmentos.
Más que segmentar la población en este caso la técnica de CHAID se usa para:
 Para conocer cuáles, entre decenas de variables (posibles factores de riesgo) pueden ser eliminadas.
 Para comprender el orden de importancia de los factores de riesgo en la caracterización de la enfermedad y en
particular ayudar a detectar posibles factores confusores o modificadores de riesgo
 Para entender cómo ciertos factores de riesgo interactúan con otros.
 Para conocer que efectos interactivos incluir en un análisis discriminante o de regresión logística de casoscontroles respecto a factores de riesgo.
 Para buscar entre cientos de tablas de contingencia y seleccionar aquellas que son más significativas
estadísticamente.
 Simplificar las crostabulaciones combinando categorías de variables predictoras que no difieren
significativamente.
Los principales resultados de aplicar esta técnica a nuestro problema se presentan en la Fig 1.
Los resultados de la clasificación usando la estructura jerárquica obtenida son:
Classification
Observed
Predicted
Hipertenso
Hiperreactivo vascular
Normotenso
Percent Correct
Hiperreactivo vascular
Normotenso
282
30
0
40
232
52
2
6
487
87,0%
86,6%
90,4%
Overall Percentage
27,6%
28,6%
43,8%
88,5%
Hipertenso
Growing Method: CHAID
Aunque estos resultados de clasificación no resultan mejores que los de la regresión logística multinomial, la
reducción del conjunto de rasgos a considerar es significativa y la estructura jerárquica en la que se organizan los
casos permite un manejo eficiente de los mismos mediante el uso de otras técnicas. Por ejemplo, una técnica
elemental la constituye dado un nuevo individuo recorrer el árbol en profundidad analizando sólo el atributo de interés
en cada nivel hasta ubicarlo en uno de los nodos terminales. Con la información que brinda el nodo terminal se puede
determinar la probabilidad de que ese individuo pertenezca a uno de los grupos. Si las probabilidades sean valores
muy bajos puede darse una vuelta atrás al nodo precedente y así sucesivamente hasta lograr dar una diagnóstico con
una probabilidad aceptable.
Para caracterizar los grupos de riesgo se decide quitar del análisis las variables que miden la presión arterial, pues
como vimos anteriormente, ellas por si solas prácticamente caracterizan a dichos grupos.
Grupos de riesgo considerando a los hiperreactivos
En este caso constituyen grupos de riesgo para la hipertensión aquellas personas que tiene un IMC (índice de masa
corporal) por encima de 30, 8 y las personas que tienen un IMC entre 24,8 y 30,8 pero tienen elevados niveles de
colesterol HDL. Los resultados se muestran en la Fig 2.
Grupos de riesgo sin considerar los hiperreactivos
En este caso constituyen grupo de riesgo aquellas personas que tiene un IMC por encima de 31,65 o que tiene un
IMC entre 24,72 y 31,65 y que tienen más de 42 años ó la hemoglobina alta. Los resultados se muestran en la Fig 3.
Conclusiones
En el presente trabajo se realiza un estudio de los factores de riesgo de la HTA usando como muestra a un grupo de
pacientes supuestamente normotensos de la ciudad de Santa Clara. Los estudios realizados mediante el uso
integrado de la técnica de análisis discriminante, regresión logística y la técnica de CHAID permiten simplificar de
manera significativa el estudio de factores que nada aportan a la detección y prevención de la HTA. Por otra parte la
representación de los casos en una estructura jerárquica permite un manejo eficiente de los mismos mediante el uso
de otras técnicas como las que se aplican en Inteligencia Artificial para trabajar con árboles de decisión y redes
bayesianas.
Bibliografía
Mas JR., Galván VG. El origen de la hipertensión arterial. Genética de la hipertensión arterial. Hipertensión 2002, 23 (05):136-143.
Corry DB., TUC ML. Obesity, hipertensión and sympathetic nervous system activity. Curr Hypertens Rep 1999, 1:119-126.
Nigro D., Vergottini JC., Kuschnir E. y cols. Epidemiología de la Hipertensión Arterial en la Ciudad de Córdoba, Argentina.. Rev Fed
Arg Cardiol 1999; 28: 69 –75.
Willett P. Recent trenes in hierarchic document clustering: A critical review. Information processing and management , 1988 24 (5),
577-597
Law MR. Am J. Epidemiologic evidence on salt and blood pressure. Hypertension 1997, 10: 42S – 45S.
Lauritzen S.L., Wermuth N. Graphical models for associations between variables, some of which are qualitative and some
quantitative. Annals of Statistics 1989, 17:31-57.
Quinlan J. Induction of decisión trees. Machina Learning 1986, 1:81-106.
Figuras
Fig 1. Estructura jerárquica de organización de los casos considerando todas las variables
Fig 2. Estructura jerárquica de organización de los casos sin considerar las variables que miden PA.
Fig 3. Estructura jerárquica de organización de los casos sin considerar las variables que miden PA ni los hiperreactivos
Descargar