Métodos de Regresión Ciencias y Técnicas Estadísticas Soluciones Examen, 18 de Septiembre, 2006 Cuestiones 2 h. 30m. n P C1. Si se sabe que en regresión lineal simple el coe…ciente b 1 veri…ca que b 1 = pi bi , donde i=1 pi = a) (xi x)2 ns2x yi y xi x y bi = , demostrar que: n P El coe…ciente b 1 se puede expresar como b 1 = wi yi donde wi = i=1 b) n P Los valores wi veri…can que wi = 0; i=1 c) n P n P wi xi = 1 y i=1 i=1 ¿Cuál es la utilidad del resultado dado en a)? wi2 = (xi x) ns2x : 1 ns2x . SOLUCIÓN: a) Se tiene que n X b = 1 = pi b i = i=1 n X (xi x) 2 n X (xi yi x) ns2x i=1 = n X (xi n P Los valores wi veri…can que wi = 0; wi = i=1 n X i=1 wi xi = n X i=1 n X i=1 c) wi2 = n X (xi n X (xi i=1 x) ns2x 0= n X wi xi = 1 y x) ns2x ns2x i=1 n X i=1 n X (xi yi 2 x) (yi ns2x n y X (xi ns2x i=1 yi x) wi yi n P i=1 = Pn (xi x) 1 = 2 4 n2 s4x n sx (xi ns2x x) i=1 1 xi = 2 nsx n X wi2 = n X x2i i=1 (xi 1 ns2x , x n X xi i=1 2 x) = i=1 ya que =0 ! = ns2x =1 ns2x ns2x 1 = 2 n2 s4x nsx Al veri…carse que el coe…ciente b 1 se expresa como combinación lineal de yi ; se puede probar la normalidad del coe…ciente b 1 a partir de la normalidad en las yi : C2. En el modelo de Regresión Lineal Múltiple con p variables se supone que yi = con y) i=1 n P x) n X (xi = i=1 i=1 wi xi = y x i=1 x) i=1 n X y= ns2x i=1 b) yi xi x) ns2x i=1 ns2x i=1 n X (xi i 0 + 1 xi1 v.a.i.i.d según una N (0; ). 1 + ::: + p xip + i a) Determinar que para cada xi1 ; :::; xip …jos se veri…ca que 1 p exp 2 f (yi ) = utilizando que si W b) 1 d) 1 xi1 0 N ( ; ) se tiene que f (w) = ::: p1 2 p xip 1 exp 2 2 2 2 (w ) . Determinar a partir del apartado anterior la función de verosimiltud l c) yi 2 2 0; 1 ; :::; p; 2 jy1 ; :::yn : Determinar los estimadores máximo verosímiles b M V y b2M V (sin demostrar la condición de máximo). 1 ¿Por qué b M V coincide con el estimador mínimo cuadrático b = (X t X) X t y? SOLUCIÓN: a) Por ser i N (0; ), para cada xi1 ; :::; xip …jos se tiene, al ser yi = x + ; que i p ip yi N E + 0 1 xi1 yi + ::: + N 0 yi + N p1 2 por lo que f (yi ) = b) + N 2 2 i + ::: + 1 xi1 + 0 1 exp + ; q V p xip + ::: + 1 xi1 yi 0 1 xi1 + E [ i] ; p xip + ::: + + 0; + ::: + p xip + + ::: + i p V [ i] p 2 p xip ; 1 xi1 0 + 1 xi1 ::: p xip 2 : La función de verosimilitud viene dada por l 0; 1 ; :::; 2 p; jy1 ; :::yn = 2 n Y i=1 n=2 1 = exp 2 = c) 1 xi1 0 yi p xip + 0 n=2 1 2 2 n 1 X 2 yi 2 2 yi 0 1 xi1 0 1 xi1 ::: t X ) : ::: p xip 2 i=1 1 exp 2 1 1 p exp 2 2 2 (y X ) (y p xip ! El logaritmo neperiano de la función de verosimilitud viene dado por Lnl ; = 2 jy1 ; :::yn = n Ln (2 ) 2 n Ln (2 ) 2 n Ln 2 n Ln 2 1 2 2 2 yt y 1 2 2 2 t 2 (y X ty + con lo que los puntos críticos son solución del sistema dado por @ Lnl @ ; @ Lnl @ 2 ; 2 2 jy1 ; :::yn = 0 2 jy1 ; :::yn = 0 t X ) (y t X tX X ) 2 y al ser X t X simétrica por 1 2 2X t y + 2X t X 2 n 1 1 + 4 (y 2 2 2 =0 t X ) (y X )=0 y, por tanto, al ser rg (X) = p + 1; por b d) b2M V = Al ser Lnl ; 2 = 1 (y n t X ) (y 1 exp 2 2 2 n=2 1 2 X ) exp 2 2 X ty n=2 1 jy1 ; :::yn = 1 = X tX MV 1 2 t (y X ) (y X ) btb 2 se tiene que maximizar la exponencial negativa del exponente, equivale a minimizar el exponente. 1 C3. Si se de…ne la matriz de ortogonalización C como C = (X t X) propiedades: X t demostrar las siguientes a) CX = I. b) CC t = (X t X) c) b= 1 . +C . SOLUCIÓN: a) CX = (X t X) b) 1 X t X = I. Se tiene que CC t = X t X 1 Xt = X tX 1 Xt X = X tX c) b = (X t X) 1 1 X tX Xt X tX 1 t t = X tX 1 1 = X tX X tX X tX 1 Xt 1 t X tX X t X X tX = X tX X t y = Cy = C (X + ) = CX + C = Xt 1 t 1 1 +C . C4. Se supone que se está estudiando si una variable explicativa dicotómica (X=Exposición: Exp+, Exp-) in‡uye en una variable respuesta dicotómica (Y=Enfermedad: Enf, Sano). Los datos experimentales se pueden resumir en la tabla 2x2 siguiente: Enf (1) Sano (0) Exp+ (1) a c s1 3 Exp- (0) b d s2 r1 r2 n En el supuesto de un modelo de regresión logística simple para los datos de la tabla anterior, expresar la función de verosimilitud l ( 0 ; 1 ) en función de a; b; c y d SOLUCIÓN: Se tiene que l( 0; 1) a b c = [P (Y = 1jX = 1)] [P (Y = 1jX = 0)] [P (Y = 0jX = 1)] [P (Y = 0jX = 0)] a 1 = 1+e ( 1 1+e 0+ 1) b 1 0 c 1 1+e ( 0+ 1) 1 d d 1 1+e 0 C5. En Análisis de Supervivencia: a) ¿Qué técnica estadística se podría usar para comparar k grupos si no hubiera datos censurados? b) Demostrar que la función de supervivencia S (t) veri…ca que S (t) =exp( H (t)) siendo Z t P (t < T t + tjT t) h (t) = lim y H (t) = h (x) dx t!0 t 0 SOLUCIÓN: a) Se podrían usar los tests log-rank ponderados (válidos con y sin censura) y el test H de Kruskal.Wallis (válido sólo si no hay censura). b) Se utiliza que S 0 (t) f (t) = S (t) S (t) h (t) = con lo que H (t) = Z t h (x) dx = 0 = LnS (t) + LnS (0) = Z 0 t d t LnS (x) dx = [ LnS (x)]0 dx LnS (t) + Ln1 = LnS (t) + 0 = LnS (t) y por tanto S (t) = exp ( H (t)) C6. En este ejemplo …cticio se estudia la posible correlación entre dos variables Var2 y Var1 medidas en n = 10 individuos. Los datos se muestran en la tabla siguiente: Var 2 67 70 70 76 86 87 67 76 76 80 Var 1 87 89 86 70 66 70 80 80 72 70 a) Si a Var2 se la denota por y; a Var1 por x, a los rangos de Var2 por Ry y a los rangos de var1 por Rx , calcular Ry y Rx . 4 b) Calcular el coe…ciente de correlación de Spearman rbs y su estadístico de contraste asociado t utilizando que X Tx = no empates3 no empates empates en x Ty = X no empates3 no empates empates en y D= n X (Rix 2 Riy ) ; Ax = n3 n 12 i=1 c) rbs = Tx n3 ; Ay = rbs Ax + Ay D p ; t= q 1 r bs2 2 Ax Ay tn n 12 Ty 2 n 2 ¿Qué decisión se adopta en base al valor del estadístico de contraste? ¿Es el p-valor<0,05? SOLUCIÓN: a) Los rangos se muestran en la siguiente tabla y 67 70 70 76 86 87 67 76 76 80 b) x 87 89 86 70 66 70 80 80 72 70 A partir de dichos rangos se tiene que X Tx = no empates3 Ry 1,5 3,5 3,5 6 9 10 1,5 6 6 8 Rx 9 10 8 3 1 3 6,5 6,5 5 3 no empates = 33 3 + 23 2 = 30 empates en x Ty = X no empates3 no empates = 23 2 + 23 2 + 33 3 = 36 empates en y D= n X (Rix 2 Riy ) = 292; Ax = n3 i=1 rbs = c) n 12 Tx Ax + Ay D p = 2 Ax Ay t= q rbs 1 r bs2 n 2 = = 80; Ay = n 12 Ty = 79; 5 0; 831 4; 221 Como jtj >> 1; 96, se rechaza H0 a un nivel de signi…cación de 5 n3 = 0; 05 (p-valor<0,05).