Bioestadística II J. A. Rueda Restrepo REGRESIÓN MÚLTIPLE NOTACIÓN MATRICIAL PARA MEDIAS Y VARIANZAS Supongamos que tenemos un conjunto de K variables aleatorias Y1, Y2, ..., Yk en donde las medias están dadas por E(Yi) = µ i, i = 1, 2, ...,k. Éstas variables constituyen un vector aleatorio Y con media: ⎡ y1 ⎤ ⎡ µ 1 ⎤ ⎢ y ⎥ ⎢µ ⎥ E (Y ) = E ⎢ 2 ⎥ = ⎢ 2 ⎥ = µ ⎢ ... ⎥ ⎢ ... ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ yk ⎦ ⎣µ k ⎦ Se define la matriz de varianzas y covarianzas del vector aleatorio como una matriz simétrica ∑ que contiene las varianzas en la diagonal principal y las covarianzas en los elementos que están fuera de esta diagonal, así: Var(Y) = E(Y-µ)(Y-µ)’ =∑ La matriz de varianzas y covarianzas de Y = ∑= [1] ⎡ σ 12 σ 12, 2 σ 12,3 ... σ 12,k ⎤ ⎢ 2 2 2 2 ⎥ ⎢σ 2,1 σ 2 σ 2,3 ... σ 2,k ⎥ ⎢ σ 312 σ 32, 2 σ 32 ... σ 32,k ⎥ ⎢ ⎥ M M M O M ⎢ ⎥ ⎢σ 2 σ 2 σ 2 ... σ 2 ⎥ k ,2 k ,3 k ⎦ ⎣ k ,1 Si un vector aleatorio Y = [ Y1, Y2, ..., Yk ] se ha generado con variables que presentan distribución conjunta normal con media µ y matriz de varianzas y covarianzas ∑, este vector se puede indicar por la notación: Y ~ η ( µ ,∑) [2] Si las variables son independientes y presentan varianza común σ2 entonces: ⎡σ 2 ⎢ ⎢0 = ∑ ⎢M ⎢ ⎣⎢ 0 0 σ2 M 0 ⎤ ⎥ ⎥ = I σ 2 = σ 2I k k ⎥ ⎥ ... σ 2 ⎦⎥ ... ... O 0 0 M [3] En este caso Y ~ η ( µ ,σ2 I k). A continuación se presentan algunos resultados útiles para la obtención de medias y varianzas con notación matricial. 1 Bioestadística II J. A. Rueda Restrepo 1. Sea Y un vector de k variables aleatorias con media µ y sea A una matriz A=(ai,j), entonces: E(AY) = Aµ. 2. Sea Y un vector aleatorio con E(Y) = 0 y matriz de varianzas y covarianzas Iσ2. Sea A una matriz real simétrica, entonces: E(Y’AY) = σ2 tr(A), en la que tr(A) es llamada la traza de la matriz A, y esta definida como la suma de los elementos de la diagonal principal de A. 3. Sea Y un vector de k variables aleatorias con E(Y) = µ y Var(Y) = ∑. Sea A una matriz de orden nxk. Sea Z = AY, entonces: Var(Z) = Var(AY) = A∑A’ [4] EL MODELO DE REGRESIÓN LINEAL EN TÉMINOS MATRICIALES. Ynx1 = X nxp β px1 + ε nx1 Con 2 σ kxk Y( nx1) ⎡ y1 ⎤ ⎢y ⎥ = ⎢ 2⎥ ⎢ ... ⎥ ⎢ ⎥ ⎣ yn ⎦ [5] ε ~ η(0;σ2I) ⎡σ 2 0 0 ... 0 ⎤ ⎢ ⎥ 2 0 ... 0 ⎥ ⎢0 σ =⎢ 0 0 σ 2 ... 0 ⎥ ⎢ ⎥ M M M O M ⎢ ⎥ 2⎥ ⎢0 0 0 ... σ ⎦ ⎣ ⇒ Y '(1xn ) = [ y1 y2 ... yn ] ∧ ⇒ Y 'Y = ∑ yi2 En el caso de regresión lineal simple (una sola variable independiente) Se define (note que p = k + 1, con k = número de variables independientes) X ( nx 2 ) ⎡1 ⎢1 ⎢ = ⎢1 ⎢ ⎢... ⎢⎣ 1 x1 ⎤ x2 ⎥⎥ ⎡1 x3 ⎥ ⇒ X '( 2 xn ) = ⎢ ⎥ ⎣ x1 ... ⎥ xn ⎥⎦ 1 ... 1 ⎤ x3 ... xn ⎥⎦ , y de esta forma 1 x2 2 n i =1 Bioestadística II J. A. Rueda Restrepo X ' X ( 2 x 2) Por idéntico razonamiento ⎡ ⎢ n =⎢ n ⎢ x i ⎢⎣∑ i =1 X ' Y( 2 x1) ⎤ ⎥ i =1 ⎥ n xi2 ⎥ ∑ ⎥⎦ i =1 n ∑x i [6]. ⎤ ⎡ n y ⎢∑ i ⎥ = ⎢ ni =1 ⎥ ⎢ xy⎥ i i ⎥⎦ ⎢⎣∑ i =1 [7] Matriz de coeficientes β: ⎡β ⎤ ⎡b ⎤ β 2 x1 = ⎢ 0 ⎥ ← b2 x1 = ⎢ 0 ⎥ ⎣ β1 ⎦ ⎣ b1 ⎦ En forma general, considere el caso en el cual se desea modelar la variabilidad total de una variable respuesta de interés, en función de relaciones lineales con dos o más variables predictoras, formuladas simultáneamente en un único modelo. Suponemos en principio que las variables predictoras guardan poca asociación lineal entre sí, es decir, cada variable predictora aporta información independiente de las demás predictoras presentes en el modelo (hasta cierto grado, la información aportada por cada una no es redundante). La ecuación del modelo de regresión en este caso es: Yi = β 0 + β1 X i ,1 + β 2 X i , 2 + L + β k X i ,k + ε i Para una regresión con K variables independientes se tiene: X ( nxk +1) ⎡1 ⎢1 ⎢ = ⎢1 ⎢ ⎢M ⎢1 ⎣ x1,1 x1, 2 x2,1 x2, 2 x3,1 x3, 2 M M xn ,1 xn , 2 L L L O L x1, k ⎤ ⎡1 ⎢x x2, k ⎥⎥ ⎢ 1,1 x3, k ⎥ ⇒ X '( k +1xn ) = ⎢ x1, 2 ⎢ ⎥ M ⎥ ⎢ M ⎢ x1, k xn , k ⎥⎦ ⎣ de esta forma 3 1 x2,1 x2, 2 M x2, k 1 x3,1 x3, 2 M x3, k L 1 ⎤ L xn ,1 ⎥⎥ L xn , 2 ⎥ ⎥,y O M ⎥ L xn , k ⎥⎦ Bioestadística II X ' X ( pxp ) J. A. Rueda Restrepo ⎡ ⎢ n ⎢ n ⎢ x 1, j ⎢∑ i =1 =⎢ n ⎢∑ x2, j ⎢ i =1 ⎢ M ⎢n ⎢∑ xk , j ⎣ i =1 n ∑x X 'Y( px1) Por idéntico razonamiento i =1 L ∑x 2 2, j L M O 1, j 2 , j i =1 ∑x k, j n x 2 , j 1, j ∑x x ∑x 2 1, j ∑x n L i =1 n i =1 2, j n ∑x i =1 n ∑x 1, j i =1 n ⎤ ⎥ i =1 ⎥ n x1, j xk , j ⎥ ∑ ⎥ i =1 n ⎥ x2, j xk , j ⎥ [8]. ∑ ⎥ i =1 ⎥ M n ⎥ 2 x ∑ k, j ⎥ i =1 ⎦ n i =1 M n ∑x x k , j 1, j i =1 x k , j 2, j ⎡ n ⎤ ⎢ ∑ yi ⎥ ⎢ ni =1 ⎥ ⎢ x y⎥ i ,1 i ⎢∑ ⎥ i =1 ⎥ =⎢ n ⎢∑ xi , 2 yi ⎥ ⎢ i =1 ⎥ ⎢ M ⎥ ⎢ n ⎥ x y ⎢∑ i , k i ⎥ ⎣ i =1 ⎦ L [9] Matriz de coeficientes β: ⎡b0 ⎤ ⎡β0 ⎤ ⎢b ⎥ ⎢β ⎥ 1 ⎢ 1⎥ ⎢ ⎥ β px1 = ⎢ β 2 ⎥ ← bpx1 = ⎢b2 ⎥ ⎢ ⎥ ⎢ ⎥ M ⎢M⎥ ⎢ ⎥ ⎢⎣bk ⎥⎦ ⎢⎣ β k ⎥⎦ [10] El modelo estimado tiene la forma: Yˆnx1 = X nxp βˆ px1 = X nxp b px1 n Con b tal que minimiza ∑e i =1 1 2 i = e12 + e22 + ... + en2 = e' e , siendo P = k + 1, Siendo k el número de variables independientes 4 1 [11] e = Y − Yˆ Bioestadística II J. A. Rueda Restrepo Por lo tanto, e ' e = ( Y − X βˆ )' ( Y − X βˆ ) = ( Y ' − βˆ ' X ' )( Y − X βˆ ) e ' e = Y ' Y − Y ' X βˆ − βˆ ' X ' Y + βˆ ' X ' X βˆ Nótese que Y ' X βˆ = ( βˆ ' X ' Y )' , y que βˆ ' X ' Y es un escalar, y por esto: e ' e = Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' X βˆ Derivando con respecto a β e igualando a cero. ∂ (e' e) = 0 = −2 X ' Y + 2 X ' Xβˆ ⇔ X ' Xβˆ = X ' Y ∂β ( X ' X ) −1 ( X ' X )βˆ = ( X ' X ) −1 X 'Y Por lo que b = βˆ = ( X ' X )−1 X 'Y [12] La inversa de la matriz de la ecuación [8], premultiplicada por la matriz de la ecuación [9], estima los betas que minimizan la suma de cuadrados de los errores. La inversa de la matriz existe bajo ciertas condiciones, la más importante de las cuales es que todas sus filas y columnas sean linealmente independientes, es decir que ninguna se pueda escribir como una combinación lineal de las otras. De esta manera, el modelo toma la forma: Yˆ = Xβˆ = X ( X ' X ) −1 X ' Y Por conveniencia futura en la notación, se define la matriz (hat = sombrero) H = X ( X ' X ) −1 X ' [13] La cual tiene gran importancia en el análisis de adecuación del modelo. El modelo asume así la forma: Yˆ = HY (H le pone el sombrero Y) [14]. El vector de residuales puede ser escrito como: e = Y − Yˆ = (I − H )Y [15] Por esto, la varianza de los residuales se estima como: Var (e) = σ 2 ( I − H ) 5 [16] Bioestadística II J. A. Rueda Restrepo ANÁLISIS DE VARIANZA En las siguientes fórmulas J es una matriz de n × n cuyas entradas son todas iguales a 1, e I es la matriz identidad de dimensión n × n: Fuente de Sumas de cuadrados variación Grados de Cuadrado medio Razón F libertad Regresión 1 ⎞ ⎛ SSR = y ' ⎜ H − J ⎟ y n ⎠ ⎝ Error SSE = y ' (I − H ) y Total 1 ⎞ ⎛ SST = y ' ⎜ I − J ⎟ y n ⎠ ⎝ k CMR = SSR k n−k−1 CME = SSE n − k −1 Fc = CMR ~ f k ,n−k −1 CME n−1 Bajo los supuestos relativos a los errores del modelo, el estimador insesgado de la varianza corresponde a: σ̂ 2 = MSE [17] La matriz de varianzas covarianzas de b es: V (b) = σ 2 ( X `X ) −1 [18] Esta matriz (la cual es simétrica) tiene sobre su diagonal principal a las varianzas de los estimadores de los parámetros, ( ) 0 1 2 j V(bj), j=0,1,2 ,...,k y por fuera de su diagonal principal a las covarianzas entre tales estimadores, es decir, el elemento en la posición j ,l es COV (bj,bl). REGRESIÓN POLINÓMICA En el caso con variables predictoras cuantitativas, existe la llamada regresión polinomial en la que se utilizan términos cuadráticos y de orden superior de estas variables, como en los diseños experimentales para optimización de procesos mediante la metodología de superficie de respuesta. A pesar de la naturaleza no lineal de tales superficies de respuesta, estos modelos son casos del modelo de regresión lineal general. Otros modelos pueden usar funciones de respuesta curvilíneas, en los cuales se utilizan variables transformadas de forma compleja, para linealización del modelo. 6