Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna CAPITULO III MARCO TEÓRICO 3.1.- BAJO PESO DEL RECIÉN NACIDO Un recién nacido es catalogado como aquel niño que nace con un peso inferior a los 2500 gramos o equivalentemente 5 libras y 8 onzas. En el municipio Boyeros el bajo peso al nacer ha constituido un problema de salud desde hace varios años; el primer paso para tratar este problema es conocer los factores de riesgo, por lo que decidieron investigar al respecto, con el objetivo de identificar los factores asociados con el bajo peso al nacer en el municipio de Boyeros durante 1994 y 1995. Se hizo un estudio tipo analítico con un cohorte retrospectivo, cuya fuente de información estuvo constituida por la historia clínica obstétrica de cada embarazada. Se estudiaron las 4 461 mujeres embarazadas del municipio Boyeros durante 1994 y 1995; con los datos recogidos durante todo su embarazo hasta el parto. Del total de mujeres estudiadas 426 tuvieron hijos que pesaron al nacer menos de 2 500 gramos. Las variables independientes estudiadas fueron: • Los antecedentes obstétricos, en especial el número de partos y legrados previos; • Al inicio de la atención : edad, la escolaridad y el estado nutricional; • Durante el embarazo: los hábitos tóxicos, la ganancia de peso, la evolución de la hemoglobina y enfermedades asociadas. Se utilizó el riesgo relativo y la estadística chi-cuadrado de Mantel y Hanzel, mediante los cuales se observó que las alteraciones cervicales uterinas y la sepsis vaginal, los Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna abortos instrumentados y la multiparidad; se señalan como factores de riesgo muy importantes del bajo peso al nacer y el factor de menos riesgo fue la hipertensión arterial. Ser fumadora o adolescente también constituyó un factor de riesgo, no así la cantidad de partos o legrados previos y el bajo nivel de escolaridad de la madre. Los problemas nutricionales tales como la anemia del tercer trimestre, la desnutrición materna y la poca ganancia de peso durante el embarazo también son señalados como factores de riesgo importantes del bajo peso al nacer. Las enfermedades que se presentan durante la gestación tales como la sepsis urinaria y la hipertensión arterial o toxemia gravídica se asocian con gran frecuencia con el bajo peso del recién nacido. Constituyeron factores de riesgo del bajo peso del recién nacido en orden decreciente de importancia: las alteraciones cervicales, la anemia del tercer trimestre, la sepsis vaginal, la sepsis urinaria, la desnutrición , ser madre fumadora, la poca ganancia de peso durante el embarazo, tener menos de 20 años al momento de la gestación y presentar hipertensión arterial o toxemia; no constituyeron factores de riesgo del bajo peso al nacer: los antecedentes de 3 o más partos y/o legrados y tener grado de instrucción menor al décimo grado. En otros estudios se encontró que los problemas de salud de la madre influyen en el peso al nacer, especialmente si tiene presión arterial alta, diabetes, ciertas infecciones, problemas del riñón, corazón o pulmón. Influyen en el peso al nacer un útero o cuello uterino anormal. El comportamiento de la madre durante el embarazo puede afectar el peso al nacer del bebé, por lo que se recomienda realizar atención prenatal temprana y regular; los factores controlables más importantes, para prevenir el bajo peso al nacer son: no Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna fumar, no consumir alcohol o drogas y aumento del peso moderadamente. Los médicos recomiendan que una mujer de peso normal aumenta de 25 a 35 libras. Factores socioeconómicos como los bajos ingresos y la falta de instrucción también están asociados con un mayor riesgo de tener un bebé de bajo peso al nacer, aunque las razones fundamentales de esta asociación no se han logrado explicar en su totalidad. Las madres de bajos ingresos no tienen los recursos económicos suficientes para acceder a una mejor atención para su salud y tener una nutrición adecuada. Mujeres menores de 17 o mayores de 35 años de edad, solteras y mujeres que han tenido muchos hijos, están en mayor riesgo de tener un bebé con bajo peso al nacer. Las adolescentes quizás no practiquen buenos hábitos de la salud. Las mujeres que presentan estrés excesivo y otros problemas sociales, económicos, psicológicos y que son víctimas de la violencia doméstica u de otro abuso también están en mayor riesgo de tener a un bebé de bajo peso al nacer. 3.2.- CONCEPTOS BÁSICOS DE LA REGRESIÓN LOGÍSTICA: La Regresión Logística se usa cuando se requiere modelar la relación entre una variable respuesta ( dependiente) binaria y una ó más variables independientes (predictivas ó regresoras) cuantitativas o cualitativas, este modelo permite obtener una función de las variables independientes; de tal forma que clasifique a los individuos en uno de los dos grupos establecidos, en base a los valores de la variable dependiente . La Regresión Logística; tiene como objetivo obtener un modelo especial de regresión múltiple, con las siguientes características: 1. La variable dependiente o respuesta no es continua, sino discreta y binaria. 2. Las variables explicativas pueden ser cuantitativas y/o cualitativas. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3. La ecuación del modelo no es una función lineal , sino exponencial. La Regresión Logística así como la Regresión Lineal cuantifica la relación existente entre las variables explicativas y la de respuesta, pero en este caso permite clasificar (predecir) individuos en un grupo u otro, en función a su probabilidad. La Regresión Logística predice directamente la probabilidad de ocurrencia de un suceso. 3.2.1.- FORMULACIÓN DEL MODELO: →T 1º Sea el vector de componentes : Ø Cada : yi ; y = ( y1 ,............, yn ) ; donde: i = 1,2,3,.........,n , puede tomar dos valores cero ó uno, que representan el evento fracaso o éxito respectivamente , Ø Cada una de las componentes distribuidas independientemente y con distribución Bernoulli; es decir y i ~ B(1, πi ) . 2º Sean las variables independientes x1 , x 2 ,........x p , las que pueden ser cualitativas y/o cuantitativas. 3º La función de probabilidad de la variable respuesta esta dada por: p( Y = y i ) = π i (1 − π i ) 1− y i yi i = 1, 2,......n 4º La función de distribución conjunta de las n variables aleatorias es: 1− yi p[Y = y1 ,Y = y 2 ,..........,Y = yn ] = ∏ p[Y = y i ] = ∏ πi (1− πi ) n n i =1 i =1 yi 5º En un modelo donde la variable respuesta es binaria, se busca un enlace entre los valores esperados de la variable de respuesta con las variables explicativas. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna Como y i ~ B (1 , π i ) , su esperanza y varianza esta dado por: E (yi ) = πi 6º A partir de ( x i1 ,........., x ip ) las variables independientes V ( y i ) = π i (1 − π i ) y , i = 1,........., n ; muestra de n observaciones de X1 ,................, X P ; en los grupos de individuos establecidos por los dos valores de la variable dependiente Y ; se trata de obtener una combinación lineal de las variables independientes que permitan estimar las probabilidades de que un individuo pertenezca a cada una de las dos subpoblaciones o grupos. Ø Sea xiT = (1, x i1 ,......... , xip ) la i-ésima observación para las k variables ρ explicativas. Ø La esperanza de y dado un valor de x toma valores entre cero y uno, en este caso el modelo adecuado, es el de probabilidad que pertenezca al intervalo [0, 1 ] ; es decir el de distribución logística: ρ β +β x + .......... .+ β x p ip e 0 1 i1 E ( yi = 1 / xi ) = β + β x + .......... .+ β p x ip 1 + e 0 1 1i que es igual a la probabilidad de que el i-ésimo individuo de la muestra pertenezca a la segunda subpoblación, y se denota como: ρ β0 + β1 x i 1 + ...........+β´ p xip e P ( yi = 1 / x i ) = β +β x 1+ e 0 1 1 i + ...........+β p x ip Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna e Li πi = 1 + e Li πi = o, equivalentemente, 1 1 + e − Li Ø la probabilidad de que el i-ésimo individuo pertenezca a la primera muestra es: P( yi = 0 / xρi ) = 1 1+ e β 0 + β1 x1i +...........+β p x pk Donde: Li = β 0 + β 1 x i 1 + .................... + β p xip i) : Es una función lineal de las variables explicativas y varía en el intervalo de ∞ hasta + ∞ , ii) β 0 , β1 ,........., β p , probabilidad πi son los parámetros del modelo a estimar, entonces la no es lineal.. Ø En términos generales el valor de y dado x se puede representar, y = π (x) + ε i) Si y =1 ⇒ ε = 1 ii) Si y =0 ⇒ ε = - π(x) , con probabilidad π(x) - π(x) , con probabilidad 1- π(x) Luego ε tiene distribución con media cero y varianza π(x)[ 1- π(x)] Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 7º El modelo de regresión Logística ( llamado modelo de Regresión Logística Lineal, porque es una función lineal de las variables explicativas) se basa en los siguientes supuestos: 1. El modelo está correctamente especificado, es decir las probabilidades consideradas son funciones logísticas de las variables regresoras X. Las variables regresoras son medidas sin error. 2. Las observaciones son independientes. 3. Ninguna de las variables regresoras es función lineal de las otras. 4. La distribución Binomial, describe la distribución de los errores 8º Se define el “odds”, como el cociente entre la probabilidad de que la i-ésima observación pertenezca al segundo grupo con respecto a la probabilidad de que la iésima observación pertenezca al primer grupo: ϑ= πi p ( yi = 1) = 1 − p( yi = 1) 1 − π i esta razón varia desde “0” hasta “+ ∞ ”, al tomar Logaritmo natural a “ϑ ” se obtiene el logit: π L = ln ϑ = ln i 1 − π i cuyo rango varía de - ∞ cuando π = 0 a + ∞ cuando π = 1 . Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3.2.2.- ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO: Los parámetros de los modelos con variable respuesta binaria, se estiman generalmente utilizando el método de máxima verosimilitud. p( Y = y i ) = π i yi (1 − π ) 1 − yi i = 1, 2,......n i es la contribución de la i-_ésima observación a la función de verosimilitud. Asumiendo que los casos son independientes no auto correlacionados , la función de verosimilitud es: n p[Y = y1, Y = y2 ,.........., Y = y n ] = ∏ p[Y = yi ] = i =1 n Sea i =1 i =1 ∏π (1 − π ) i =1 yi i i 1− yi n L = ∏ p[Y = y i ] = ∏ π 1− y i n yi i (1 − π i ) .............................(1) como nuestro objetivo es encontrar estimadores que maximizen (1), aplicando logaritmo natural se tiene: ln L = ∑ {Yi ln π i + (1 − Yi ) ln(1 − π i )}.....................(2) n i =1 llamada logaritmo de la función de verosimilitud, luego derivando (2) e igualando a cero , se obtiene: ∑ (Y − π ) = 0 ........................(3) n i =1 i i Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna ∑ (Y − π ) x = 0 .............(4) n i =1 para i i i = 1,.....,n ij ; j = 1,2,......,p como las ecuaciones no son lineales en los parámetros no pueden ser estimados directamente , se hace uso de los métodos interactivos para su estimación; como el método de Newton o el tanteo, que proporcionan el mismo resultado , ya que al obtener las segundas derivadas de (2) las variables aleatorias ” y i ” no aparecen; lo que permiten avaluar la mejor estimación para los parámetros del modelo. Al obtener la segunda derivada con respecto a los parámetros, se obtiene: 1) n ∂ 2 ln L = −∑ xij π i (1 − π i ) .………………............................……(5) ∂β 2j i =1 i = 1,....,n; j = 0 ,1,2........., p es la matriz de términos negativos, de orden (p+1)x(p+1) n ∂ 2 ln L = − x ij xil π i (1 − πi ) .....................................................(6) ∑ 2) i=1 ∂β j ∂β i i = 1,....,n; j = 0 ,1,2........., p ....... Sea I (B ) , llamada matriz de información. La varianza y covarianza de los parámetros estima dos son obtenidos de la inversa de esta matriz, denotada por Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna Var ( β ) = I −1 ( β ) .Los estimadores de varianza y covarianza, denotados por Vˆar( βˆ ) , se obtiene evaluando Var (β ) en β̂ . Generalmente usamos los errores estandar estimados de los parámetros estimados es ˆ ( βˆ j ) decir; S E [ ] 1/ 2 = Vˆar( βˆ j ) Iˆ ( Bˆ ) = X ′VX j=0,1,........,p donde X de orden (n)x(p+1), es la matriz que contiene los datos de cada sujetos y V de orden ( n)x(n), matriz diagonal que contiene 1 1 . X = . . 1 X 11 .......... .......... ...... X 1 p X 21 .......... .......... .... X 2 p . . . . . . . . . . . . . . X n 1 .......... .......... ...... X np πˆ i (1 − πˆ i ) : 0 .............0 πˆ1 (1 − πˆ1 ) 0 π (1 − π ) 0 ..........0 ˆ2 2 . V = . . . 0 ...........................πˆ (1 − πˆ ) in n Las probabilidades estimadas que un individuo pertenezca a la primera y segunda subpoblación son respectivamente: πˆ i = 1 ˆ 1 + e − Li y qˆ = 1 − π̂ i los parámetros estimados del modelo se pueden interpretar considerando: 1. Los “logit” o “LnODDS ( L̂ )” Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 2. ODDS ( ϑ =e L̂ ) o por los ODDS RATIO: que es una razón de ODDS, en dos valores diferentes de la variable regresora: OR = ϑˆ1 ϑˆ0 son utilizados para describir la potencia ó verosimilitud, de un efecto. Son utilizados sobre todo en aquellos casos donde la variable regresora están medida en escala nominal y es dicotomica. 3. Probabilidades pˆ = πˆ = 1 1 + e− L 3.2.3.- SELECCIÓN DE VARIABLES: En el modelo de Regresión Lineal Múltiple, las variables explicativas ó regresoras a partir de las que se construyo la ecuación pueden ser seleccionadas mediante un procedimiento por pasos. El objetivo era construir la ecuación, con aquel subconjunto de las variables regresoras que mayor información aportase sobre los valores de la variable respuesta. Análogamente en la Regresión Logística puede seleccionarse aquel subconjunto de variables regresoras que más información aporten sobre la probabilidad de pertenecer a cualquiera de los grupos establecidos, mediante los valores de la variable respuesta . 3.2.3.1.- Método Forward: El método que se utiliza para seleccionar el subconjunto de variables será el Forward y los estadísticos que se utilizara en la selección y eliminación de variables serán la Puntuación eficiente de Rao y la estadística de Wald, respectivamente. Este método comprende los siguientes pasos : Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 1) En introducir la variable que presente el mínimo p-valor asociado al estadístico puntuación Eficiente de Rao, siempre y cuando se verifique el criterio de selección. En caso contrario el proceso finalizará sin que ninguna variable sea elegida y en consecuencia, no es posible construir la función L a partir de la información de las variables explicativas o regresoras. En introducir la variable que presente el mínimo p-valor asociado al estadístico puntuación Eficiente de Rao, siempre y cuando se verifique el criterio de selección. En caso contrario el proceso finalizará y la función L se construirá a partir de la información de las variables explicativas o regresoras incluidas en el paso 1. 2) En introducir la variable que presente el mínimo p-valor asociado al estadístico puntuación Eficiente de Rao, siempre y cuando se verifique el criterio de selección. Sí al incluir una variable, el máximo p-valor asociado al estadístico de Wald para las variables previamente incluidas, verifica el criterio de eliminación antes de proceder a la selección de una nueva variable, se elimina a la variable correspondiente. 3) Cuando ninguna variable verifica el criterio de eliminación, se vuelve a la etapa anterior. La etapa anterior se repite hasta que ninguna variable no seleccionada satisfaga el criterio de selección y ninguna de las seleccionadas satisfagan el de eliminación. 3.2.3.2.-Estadística de Wald: Esta estadística de Wald juega el mismo rol que el estadístico “T” en el análisis de regresión lineal múltiple. Permite contrastar las hipótesis de que los parámetros del modelo son igualas a cero. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna Para cualquier variable independiente asociado a xj xj seleccionada, si β j es el parámetro en al ecuación de Regresión Logística, el estadístico de Wald permite contrastar la siguiente hipótesis nula: H o : βj = 0 H1 : β j ≠ 0 para al menos un j=1,2,.......,p la estadística de prueba esta dada por: βˆ j W= SEˆ (βˆ j ) Bajo la hipótesis nula, la estadística de Wald tiene distribución Chi-cuadrado con un grado de libertad. ( ) SEˆ β j es la desviación estándar asintótica de β̂ j . La interpretación de dicha hipótesis es que la información que se perderá al eliminar la variable xj en el siguiente paso no es significativa. La variable a ser eliminada será la que presente mayor p_valor. 3.2.3.3.-.Puntuación Eficiente de Rao: La puntuación eficiente de Rao juega el mismo rol que la estadística “ T ” para las variables que no se incluyen en el modelo. Supongamos que β j es el parámetro asociado a la variable x j , bajo el supuesto que se incluirá en la ecuación en el Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna siguiente paso. El estadístico de Puntuación Eficiente de Rao permite contrastar la hipótesis nula: Ho : βj = 0 H1 : β j ≠ 0 para al menos un j=1,2,.......,p La interpretación de dicha hipótesis es que sí la variable x j fuera seleccionada en el siguiente paso, la información que aportará no seria significativa, la variable a ser seleccionada será la que presente menor p_valor. 3.2.4.- EVALUACIÓN DEL MODELO: Es uno de los aspectos más importantes del análisis de regresión, comprende: 1.- La validación de los supuestos de independencia de las observaciones, no multicolinealidad entre las variables regresoras. 2.- Análisis de los diversos tipos de residuos, permite detectar observaciones outliers, atípicos ó discordantes. 3.- Análisis de influencia, permita detectar observaciones ó conjuntos de observaciones que influyen en diversos aspectos del análisis de regresión: estimación de la variable de respuesta o ajuste del modelo y la estimación de los parámetros del modelo. Cuando el modelo pasa en forma satisfactoria todos estos análisis, esta en condiciones de ser utilizada por el investigador, para cumplir con los objetivos trazados. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3.2.4.1.- BONDAD DE AJUSTE: Comprobar la Bondad del ajuste es analizar cuán probable son los resultados a partir del modelo ajustado, es decir que tan efectivamente describe el modelo los resultados de la variable. El ajuste del modelo es bueno si : Ø Las distancias entre los valo res de la variable de respuesta observada con respecto a la ajustada son pequeñas. Ø La contribución da cada par ( y i , ŷ i ) , a las medidas resumen no es sistemático y es relativamente pequeño al error de estructura del modelo. Utilizaremos las siguientes medidas, que nos permitan medir la bondad del ajuste del modelo de regresión logística: 3.2.4.1.1.- ESTADÍSTICA DE LA DESVIANZA: Proporciona una prueba de hipótesis para evaluar el ajuste del modelo . Las hipótesis a evaluar son: H 0 : No existe diferencia entre el modelo estimado y el modelo saturado. H 1 : Existe diferencia entre el modelo estimado y el modelo saturado. La estadística de prueba es: desviaza D = ∑ residual i =1 n 2 2 ∼ x(α ,n − p −1) Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna para un nivel de significación “α ” se rechaza la hipótesis nula si ó el D > x(2n − p −1) p-valor es menor que el valor de “α ”. 3.2.4.1.2.- ESTADÍSTICA CHI-CUADRADO DE PEARSON: Otra prueba para ver si el modelo es el adecuado, para representar las observaciones , se basan en los residuos de Pearson . Las hipótesis a considerar son : H 0 : No existe diferencia entre los valores observados y ajustados. H 1 : Existe diferencia entre los valores observados y ajustados. La estadística para la prueba es: 2 desviaza ∼ x(2α ,n − p −1) x = ∑ i =1 Pearson n 2 para un nivel de significación “ α ” se rechaza la hipótesis nula si x 2 > x(2n− p−1) ó el p-valor es menor que el valor de “α ”. 3.2.5.- ANÁLISIS DE RESIDUOS: Es un método eficaz para detectar deficiencias en el modelo de regresión logística, mediante gráficos. Los residuos juegan un papel importante en la identificación de observaciones que son casos atípicos ú outliers. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3.2.5.1.- RESIDUO ORDINARIO: El residuo es de gran ayuda para clasificar una observación como outlier, el residuo para la i-ésima observación se calcula como los valores observados menos los valores de predicción de la variable dependiente, el residuo ordinario es : r j = y j − π̂ j debido al efecto de la escala de medición, este tipo de residuo no es útil para detectar outliers. Es necesario transformar los residuos para eliminar el efecto de la escala de medición de la variable de respuesta y regresoras, se presentan los siguientes residuos transformados: 3.2.5.2.- RESIDUO DE PEARSON: Es usado para detectar errores en el ajuste del modelo. r j* = y j − πˆ j πˆ j (1 − πˆ j ) donde: y j : éxito πˆ j : probabilidad estimada. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3.2.5.3.- RESIDUO DE PEARSON ESTANDARIZADO: Es usado también para detectar errores en el ajuste del modelo. rij = donde: r j* r j* 1− hj es el residuo de Pearson , h j es el valor leverage. 3.2.5.4.- DESVIANZA RESIDUAL: Se basa en el modelo de desvianza y es de gran utilidad para detectar errores en el ajuste del modelo. El resultado de la desvianza es una estadística de bondad de ajuste del modelo de Regresión Logística. Se basa en el logaritmo de la función de verosimilitud: y 1 − y j d j = ±2 y j ln j + (1 − y j )ln 1 π − π ˆ ˆ j j 1/ 2 donde: y j : éxito πˆ j : probabilidad estimada. Los gráficos de residuos, no son útiles para evaluar el modelo de Regresión logística con variables respuestas binarias. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3.2.6.- ANÁLISIS DE INFLUENCIA: Permite detectar mediante el uso de estadísticas, observaciones influyentes sobre el ajuste del modelo de Regresión Logística y evaluar sus efectos sobre los diversos aspectos del análisis de Regresión Logística: 3.2.6.1.- LEVERAGE: “ hii ” Son los elementos de la diagonal de la matriz H ( matriz de predicción) : H = V 1 / 2 X (X TVX ) X TV 1 / 2 , vi = πˆ i (1 − πˆi ) −1 con Miden la influencia relativa que cada observación ejerce sobre el modelo ajustado. El gráfico de los leverage versus las probabilidades estimadas, es de gran utilidad para evaluar los valores de la diagonal de la matriz de predicción. 3.2.6.2.- ESTADÍSTICA DELTA CHI-CUADRADO DE PEARSON: Es otra medida para determinar que puntos son mas influyentes en la estimación del ajuste del modelo de Regresión Logística. Mide el cambio que ocurre cuando se retira una observación del análisis. Las observaciones influyentes son los que tienen el mayor valor de la estadística Delta Chi-cuadrado de Pearson. ∆x 2 p( j ) = r *j 2 (1 − h ) j Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna donde: r j*2 : residuo de Pearson h j : leverage 3.2.6.3.- ESTADÍSTICA DELTA DESVIANZA: Esta medida permite evaluar el cambio de los puntos del estadístico Delta Desvianza cuando se elimina una observación. Datos influyentes son aquellos que tienen los valores más grande en la estadística Delta Desvianza: ∆x 2 D( j ) d J2 = (1 − h j ) donde: d j : desvianza residual h j : leverage. Detecta observaciones que son influyentes en la estimación del ajuste del modelo de Regresión Logística. 3.2.6.4.- DISTANCIA DE COOK: Esta medida permite detectar que observaciones influyen en la estimación de los parámetros del modelo de Regresión Logística. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna Mide el cambio en los residuos, cuando se retira una observación, del calculo de las estimaciones de los parámetros del modelo. ∆β2 = rj*2 h j (1 − h ) 2 j valores grandes de la distancia de Cook ( ∆β j ≥ 1 ), indica que la j-ésima observación ejerce influencia en las estimaciones de los parámetros del modelo. 3.2.6.5.- GRÁFICOS PARA EL DIAGNOSTICO: Son de gran utilidad para detectar datos influyentes en el modelo de regresión logística, mediante gráficos de las medidas de influencia.. Hosmer y Lemeshow (1989) sugiere los siguientes gráficos: 1.- Delta Chi-cuadrado versus probabilidad estimada. 2.- Delta Desvianza versus probabilidad estimada. 3.-Distancia de Cook versus probabilidad estimada. Los siguientes gráficos son de gran utilidad: 4.- Delta Chi-cuadrado versus leverage. 5.- Delta Desvianza versus leverage. 6.- Distancia de Cook versus Leverage. Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM Factores que se Asocian con el Bajo Peso del Recién Nacido. Corasma Uñurucu, Vilma Yovanna 3.2.7.- EVALUACIÓN DE LA CAPACIDAD PREDICTIVA DEL MODELO: 1.- La siguiente tabla permite evaluar las eficacia del modelo para clasificar nuevos individuos en el primer ó segundo grupo. Se elige un punto de corte ( p>0.5) a partir del cual se acepta “ 1 “ como respuesta y para los valores por debajo de este punto de corte se considera, que la variable de respuesta toma el valor cero. Los valores de la tabla de clasificación se definen como: OBSERVADO TOTALES PREDICTTIVO 0 n11 n12 n11 + n12 1 n21 n22 n21 + n22 TOTALES n11 + n21 n12 + n22 n Donde n11 y n 22 son los casos correctamente clasificados y n12 y n21 son los casos incorrectamente clasificados mediante el Modelo de Regresión Logística. Tasa de aciertos: n11 + n22 n Tasa de error: n12 + n21 n Elaboración y diseño en formato PDF, por la Oficina General del Sistema de Bibliotecas y Biblioteca Central UNMSM