14. MÉTODOS Sea una población y sean ligadas a ella una serie de constantes 1,..., k que están por conocerse, y no se pueden medir directamente, entonces, sea X una variable aleatoria definida sobre la población de tamaño n, y {Xn} es una sucesión de observaciones independientes de X, y sobre la cual conocemos la distribución FX (x / i ) . El problema consiste en hallar las estimaciones. El gran problema reside, y para ello trabajemos con dos variables desconocidas 1, 2 , en que se debe suponer que E[ X 4 ] y que se conocen los dos primeros momentos m1 y m2 y que son funciones de 1 y 2 . Además hay que suponer que 1 n P P Xn m1 y Vn k 1 X 2k m2 n y por último, que las funciones 1( x, y) y 2 ( x, y) son tales que P P 1 (Xn , Vn ) 1 (m1 , m 2 ) y 2 (Xn , Vn ) 2 (m1 , m2 ) , con lo cual finalmente se demuestra que, 1 (X n , Vn ) y 2 (X n , Vn ) son sucesiones consistentes de estimaciones de 1 y 2 , respectivamente. Teorema: Sea f(x,y) una función y sean {Xn} y {Yn} unas sucesiones de las variables P P aleatorias tales que X n a yYn b , siendo a y b constantes, entonces, f es continua en (a,b) y si f(Xn,Yn) es variable aleatoria para cualquier n, entonces, P f X n , Yn f (a, b) Estimación de Varianza Mínima. Trabajando con la distribución de Poisson como ejemplo. Sea X una variable aleatoria definida sobre una población , con distribución de Poisson P[X x] e x / x!, x 0,1..., siendo 0 la constante desconocida, entonces al realizar n pruebas independientes de X, sean X1,...,Xn y a partir de ellas hacer la estimación de esta variable. Se calcula E[X] y E[X2] y se tienen unos valores de y 2+ , de donde la varianza resulta ser , y por tanto, X n como s n2 son estimadores consistentes e imparciales de Sea X una variable aleatoria definida sobre la población y sean X1,...,Xn sus n observaciones independientes, y supongamos que la función de distribución de X es absolutamente continua (lo cual es válido para el caso discreto), entonces la función fX(x) es la densidad de X que es de una variable desconocida , f(x/ ). 1 Para trabajar con un ejemplo, sea X N(0,1) , entonces la función de densidad puede ( x ) 2 , x exp1 2 2 Sea = (X1,...,Xn) una estimación imparcial de . Y además, para mínima varianza de lo anterior se debe cumplir: El conjunto A de todos los valores posible de mes f ( x / ) un intervalo abierto, acotado o no; debe existir para todo x ; las n expresiones y ... f (x i / ) dx 1 ...dx n i 1 n ˆ (x ,...,x ) f (x dx ...dx ... i n 1 1 n i 1 puedan derivarse bajo el signo integral con respecto a ; y finalmente, ser, f ( x / ) 1 2 Logf ( X ) para todo A E Teorema. (Desigualdad de Cramer – Rao): Con las hipótesis mencionadas anteriormente, demostrar, 2 1 Logf (X ) , Var ˆ (X1 ,...,X n ) E n A teniendo en cuanta que el signo igual solo es válido cuando exista una constante k, que depende de y n, tal que la probabilidad 1 Logf (X ) k 1 Logf(X k ) n E 2 n Principio de Máxima Probabilidad. Sea X una variable aleatoria definida sobre una población con una distribución discreta o absolutamente continua. Sea f(x/ ) la densidad dependiente de x y de desconocido. El problema es estimar . Sean X1,...,Xn observaciones de X con una densidad conjunta f(x1,...,xn/ ) Se debe procurar siempre encontrar una estimación (X1,...,Xn) de para la cual f(X1,...,Xn/ ) sea máximo. En la práctica es hallar como una función de x1,...,xn ˆ (X1 ,...,X n ) para qua la función f(x1,...,xn/ ) resulte maximizada y entonces se sustituyen las observaciones. Teorema: Supuestas las condiciones impuestas en al numeral anterior, relativo ala estimación de la varianza, si ˆ (X1 ,...,X n ) es una estimación imparcial de con 2 varianza mínima en el sentido dela desigualdad de Cramer – Rao, entonces, ˆ (X1 ,...,X n ) es una estimación de ˆ (X1 ,...,X n ) con máxima probabilidad. DISTRIBUCIÓN MULTIVARIABLE Densidad Normal Multivariable. Hasta ahora se ha considerado que presenta independencia entre sus variables, pero hay que trabajar con altas dependencia, que representan mas cerca la realidad. Se dice que las n variables aleatorias X1,...,Xn son normales en conjunto, o que tienen distribución normal multivariable, si existen n variables aleatorias Z1,...,Zn cada una de ellas con distribución N(0,1), y que existen n constantes 1,..., n y que la matriz rectangular nxn, A=(aij) tales, que X 1 a 11 a 1n Z1 1 X a n n1 a nn Z n n o sea, X=AZ+ . Si profundizar en el cálculo matricial, se trabajará mediante algunas transformaciones de fácil demostración. Sea la función de densidad de las variables aleatorias f x (x) fX1 ,..., fXn (x1,,,,, fxn ) que tiene una distribución normal, y siendo 1 zz las Z1,...,Zn independientes, entonces, f z (z) (2) n / 2 e 2 . Considerando la transformación z A 1 (x ) y haciendo A1 (bij ) , entonces, ( x )( A 1 )( x ) z (2) n / 2 e 2 A 1 x Aceptando que la matriz C=AA´, y como (A´)-1=(A-1)´, esto es, C-1=(A-1)´A-1, y 1 f x (x ) f z (z) 2 C 1 A 1 , resulta, f x ( x ) C 1 (2) n / 2 e 1 ( x )( C 1 )( x ) 2 Lema: La matriz C-1 es simétrica y definida positiva Si U=(Uij) es una matriz de variables aleatorias, la esperanza U, E[U], es la matriz de sus esperanzas, E[Uij]. Asimismo, si G(x)=(gij(x)) es una matriz de funciones definidas sobre un intervalo, [a,b], indicaremos por integrales, esto es, b a b a G( x )dx la matriz de las g ij ( x )dx . Además, las expresiones integrales se escribirá dx´ en vez de dx1...dxn 3 Lo anterior se puede resumir, en si E[X)= , entonces, E[Xi]= i Si C0 es la matriz de covarianzas, entonces, C0=E[(X- )(X- )´], entonces, C 0 (x )(x )f X (x)dx lo que conlleva a C 0 C 1 (2) n / 2 AzzAe 1 z z 2 C dz de donde A C , y finalmente se llega a 1 z z 1 2 I zz e dz (2) n / 2 que corresponde a la matriz identidad Teorema: Si X1,..,Xn tienen distribución conjunta normal, la correspondiente densidad es C 1 1 exp ( x )C 1 ( x ) (2) 2 donde es la esperanza de X y C la matriz covarianza. f x ( x ) n/2 Propiedades. Teorema: Si X=(X1,...,Xn) son n variables aleatorias con una distribución conjunta 1 ( x) A ( x ) absolutamente continua con densidad, f x (x ) Ke 2 , con xi para cualquier i, siendo el vector de constantes, la constante K>0, y A la matriz definida positiva, entonces la distribución multivariable de X´ es normal. Lema: Si es C la matriz covarianza de n variables aleatorias normales conjuntas, y la matriz C puede subdividirse así C C C 11 12 C 21 C 22 siendo C11 una matriz kxk, 1 k n , entonces, C11 es regular simétrica y definida positiva. Teorema: Si las variables aleatorias X1,..,Xn tienen una distribución multivariable normal, cualquier subconjunto de ellas tiene la misma distribución Teorema. (Cochran para análisis de varianza): Si B0,...,Bk son k+1 matrices de tipo nxn y simétricas, y si ri es el rango de Bi y es n=r0+r1+...+rk, y si B0+B1+...+Bk=I, la 4 matriz nxn indéntidad, entonces, existe una matriz ortogonal P, tal que, para cualquier i, P´BiP es una matriz diagonal en la que los elementos diagonales que no son nulos valen 1. Teorema: Si X´=(X1,...,Xn) son n variables aleatorias independientes, cada una de ellas con distribución normal N(0,1), si P es una matriz ortogonal, y Y´=(Y1,...,Yn) es tal que Y=PX, también Y1,...,Yn son variables aleatorias independientes y cada una de ellas tiene distribución N(0,1) Teorema. (Cochran para rangos): Si X´=(X1,...,Xn) son n variables aleatorias independientes, cada una de ellas con distribución normal N(0,1), si Q1(x´),...,Qk(x´) son k formas cuadráticas definidas sobre E(n) tales que k xx j1 Q j ( x), x E ( n ) y si r1+...+rk=n, siendo rj=Qj(x´), entonces, Q1(X´),...,Qk(X´) son k variables aleatorias independientes, y Qj(X´) tiene una distribución Chi-Cuadrado con rj grados de libertad. Independencia de la media y la varianza en una muestra de la población normal. Sean n variables aleatorias independientes X1,...,Xn idénticamente distribuidas ( n 1)s 2n tiene N(, 2 ) , entonces se halla que X n y s 2n son independientes y que 2 distribución Chi-Cuadrado con n-1 grados de libertad Lema: Si X y Y son variables aleatorias independientes y si a,b,c y d son constantes, entonces, aX+b y cY+d son también independientes. Lema: Si n variables aleatorias independientes X1,...,Xn , entonces las variables X12 , X 22 ,..., X n2 son independientes Teorema: Sean X1,...,Xn n observaciones de la variable aleatoria X cuya distribución X ... X n 1 n Xn 1 y s 2n (X k X n ) 2 es Si son N(, 2 ) . n n 1 k 1 (n 1)s n2 independientes y la variable tiene distribución Chi-Cuadrado 2 Teorema: Sean X1,...,Xn n observaciones independientes de la variable aleatoria X con distribución es N(, 2 ) , entonces, la variable T tiene distribución t-Student con n-1 grados de libertad, T n ( X n ) s 2n 5 Se considera a veces que el valor medio x de la muestra se aproxima al valor medio de la población, y entonces, 1 n ˆ x x i , n j1 con tamaño n de la muestra. Similarmente ocurre para la varianza 1 n ˆ 2 s 2 (x j x) 2 n 1 j1 Otros parámetros que son necesarios, tales como el p de la distribución Binomial n x , y es de aquí de donde surge la necesidad de ver que tanta n asertividad hay en estas suposiciones, y se aplica para ello, el Método de los 2 Momentos. El k-ésimo momento de una muestra con la corrección m 2 , donde 12 es la longitud del intervalo y m1 es corrección cero. se asemeja al p̂ Estimadores. Una distribución tiene un parámetro desconocido y conocemos la fórmula para calcular de a partir de una muestra x1,x2,...xn, entonces g(x1, x 2 ,..., xn ) es una estimación de . También se puede considerar las variables aleatorias X1,...,Xn que tienen igual distribución y que son independientes g(X1 ,...,X n ) . Así se tiene, 1 1 x g( x 1 ,...,x n ) ( x 1 x n ) y X g(X 1 ,..., X n ) (X 1 X n ) n n 1 y puesto que E[Xj]=, entonces, E[ X ] n n El estimado de una parámetro x g( x 1 ,...,x n ) 1 ( x 1 x n ) es insesgado sí n E[g(X1 ,...,X n )] Otro insesgado E[S2 ] 2 , con S2 1 n (X j X ) 2 n 1 j1 g(X ,... X ) para un parámetro , es eficiente si se Un estimador insesgado 1 n 2 *g* (X ,..., X ) de varianza finita E[( ) ] y no existe otro estimador insesgado 1 n 6 cuya varianza sea menor que la de . También, eficiencia de un estimador insesgado 1 de con respecto a otro estimador insesgado 2 de como 22 (razón de varianzas 22 y 12 de 2 y 1 , respectivamente. 12 Consistencia: Sea c R y X una variable aleatoria cualquiera, en donde, E[(X-c)2] es finita, entonces, para cualquier 0 , la desigualdad de Tchebichef cumple, 1 P X c 2 E[( X c) 2 ] Si c es el valor medio de X, entonces 2 P X c 2 con 2 la varianza de X ˆ g(x ,...,x ) es un estimador del parámetro y sea g definida para n grande, Sea 1 n ˆ tenemos entonces, haciendo c y X ˆ 1 E[( ˆ ) 2 ] . P 2 Si el estimador tiene la propiedad ˆ ) 2 ] 0 cuando n , entonces, para 0 dada, la probabilidad se E[( aproxima a cero cuando n tiende al infinito, entonces, ˆ 1 P ˆ 1, n . Esto es consistencia P KOLMOGOROV – SMIRNOV Se basa en la comparación de funciones acumulativa que se observa en una muestra ordenada y la respectiva propuesta bajo la hipótesis nula. Si esta comparación revela diferencias importantes, entonces la hipótesis nula se rechaza Considérese F0(x), y sean X1,..,Xn las observaciones aleatorias de una muestra de tamaño n, entonces la función de distribución acumulativa muestral es 0 x x1 S n ( x ) k / n , x k x x k 1 1 x xn esto es, para cualquier valor ordenado x de una muestra, Sn(x) es la proporción del número de valores en la muestra que son iguales o menores a x, y F0(x) es conocida, y entonces la valoración de Sn(x) se compara con la función anterior. Si la hipótesis nula es verdadera, entonces, se espera 7 D n max S n ( x ) F0 ( x ) x siendo Dn una distribución independiente del modelo propuesto bajo la hipótesis nula. La función de distribución de Dn se evalúa solo en función del tamaño de la muestra, cuyos valores se pueden observar en las tablas de los anexos. Para un tamaño del error tipo I, la región crítica es de la forma c P D n n Y de acuerdo con lo anterior, al hipótesis H se rechaza si para algún valor x observado el valor Dn se encuentra dentro de la región crítica de tamaño Apropiada para funciones continuas. Probar que una f(x) es la función de distribución de una población de la que se ha tomado una muestra x1,..., xn . Entonces, se halla F ( x) de la muestra. A = Desviación máxima = Max F̂( x ) F( x ) ; dado un nivel de significancia se halla c: P(A c) 1 que se encuentra en tablas. Por tanto, si a c no se rechaza la hipótesis. MÍNIMOS CUADRADOS En un diagrama de dispersión X y Y se trata de hallar si existe la relación Y X de tipo lineal, en donde y son constantes desconocidas, y es una variable aleatoria Sea la hipótesis E[] 0, V[] 2 , X , pues cada valor de X genera uno de Y mas una alteración aleatoria. Entonces, el valor de espera de y la varianza de no dependen de X, luego, E[Y] X , y V[Y] 2 Sin mas hipótesis no se puede aplicar máxima verosimilitud. Sea E[Y] X y (x1,y1),...,(xn,yn) una muestra aleatoria de Y. Los estimadores mínimo cuadráticos y son los valores que minimizan a n i 1 [Yi (x i )] 2 , de forma que 8 ˆ n i 1 n Yi ( x i x ) i 1 (x i x) 2 con x 1 n xi n i 1 1 n ˆ Y ˆ x, donde, Y i 1 Yi n siendo éstos estimadores insesgados. Ahora bien, E[ ] y E[] , por tanto, V[ ] 2 n i 1 ( x i x) 2 1 x2 y V[] n n ( xi x) 2 i1 Pruebas Óptimas. Lema de Neyman - Pearson La región crítica C de tamaño (región de rechazo), existe una constante k, tal que, (1 ) k cuando ( x 1 ,...,x n ) está dentro de C ( 0 ) (1 ) k cuando ( x1,..., xn ) está fuera de C ( 0 ) Hipótesis: H0 : 0 contra H1 : 1 en una muestra de tamaño n y población con función de distribución de probabilidad. Entonces C es región crítica óptima de tamaño para probar la hipótesis Ho RAZÓN DE VEROSIMILITUD Sea x1,..., xn muestra de una población con función de distribución de probabilidad f ( x, ) con (1,..., n ) . Sea el espacio de los parámetros (o sea, en donde las radas de valores que puede tomar ). Sea H0 impone la restricción sobre los valores de y determina así cierto conjunto de : 0 H0 : 0 , entonces, H1 : , donde 1 0 y la muestra dada x1,..., xn le corresponde la función de verosimilitud () f (x1 , )f (x 2 , ) f (x n , ) . Si mantenemos fijos los xk y hacemos que varíe sobre , entonces, () tiene máxima El cociente es la razón de verosimilitud y siempre es 1 0 Escogiendo un valor 0 tenemos, Si 0 , entonces no hay rechazo de la hipótesis H0 9 Si 0 , entonces, si hay rechazo de la hipótesis. Ahora bien, V Ln , siendo la variable aleatoria para la que es un valor observado; V 2 con 1 gado de libertad cuando n . De otra parte, 0 se halla según sea (el nivel de significancia) ANÁLISIS SECUENCIAL Se trata de evitar muchas observaciones al tomar una decisión. Si al probar H0 contra H1 con un tamaño muestral de n, y decidimos por anticipado el error. Hay que disminuir la cantidad promedio de muestreos. La probabilidad p om , m observaciones para hacer H0 cierta y p 1m probabilidad de que éstas observaciones ocurrieran si fuera cierta H1 Si p om es muy grande respecto a p1m , aceptamos H0, y sí es muy pequeña, aceptamos H1. La razón p m 1m , con los riesgos y . p 0m Si m aceptamos H0 1 1 Sí m aceptamos H1. 1 m Y finalmente, sí hacemos otra observación. 1 BONDAD DE AJUSTE Son las pruebas para probar las hipótesis de que F(x) es la función de distribución de la población. Sea F ( x) es una aproximación de F(x) , y esta aproximación es muy alta, entonces, se rechaza F(x) cono la función de distribución de esa población y si F ( x) se desvía grandemente, rechazar la hipótesis. Prueba 2 . Subdividir el eje x en K intervalos bajo la hipótesis de que F(x) es la función de distribución de la población. Los intervalos I1,...,IK son de tal manera que cada uno contiene s valores (por lo menos) de la muestra x1,..., xn . El número b j de los valores en la muestra en el intervalo Ij, con j=1,...,K. Si el intervalo está en la frontera, se suma 0.5 a cada uno de los bj correspondientes 10 Con F(x), se calcula Pj de la variable aleatoria X que se considera tome cualquier valor en I, entonces, ej=np, 2 K (b j e j ) 02 j1 es la desviación. ej Dado el nivel de significancia hallamos c de P( 2 c) 1 en tabla de ChiCuadrado de K-1 grados de libertad. Sí 20 c no rechazo la hipótesis. Teorema: Sea la hipótesis F(x) es función de distribución de la población en la que se tomó la muestra x1,..., xn , es cierta. Entonces, la variable aleatoria 02 observada, tiene una función de distribución que se aproxima a la distribución de la distribución Chi-Cuadrada con K-1 grados de libertad cuando n Si F(x) disminuye r parámetros desconocidos, se puede usar máxima verosimilitud y luego Chi-Cuadrada con K-1 grados de libertad se presenta como K-r-1 grados de libertad. ERRORES DE ESTIMACIÓN Los errores existen en las mediciones, sistemáticos y estadísticos Sean n mediciones, x1,..., xn de donde se tiene un valor medio de x 1 ( x1 ... xn ) y n 1 n (x j x) 2 , ésta última es el error medio n 1 j1 cuadrático. Si el error tiene densidad normal, entonces, se espera que 2/3 de los valores muéstrales se localicen entre x s y x s una desviación típica de s Con frecuencia una muestra x1,..., xn tiene unos valores más confiables que otros. Sean las variables aleatorias medidas con igual varianza 2 (que es desconocida), entonces, x1 y x2 sean dos valores observados independientes de X1 y X2 con varianza 2 12 y 22 2 , por tanto, x1 tiene mayor peso que x2. La exactitud de la media 1 es igual, x ( x1 x 2 ) 2 * x g1x1 g2 x2 , siendo g1 g2 1 , para g1 y g2 . Así X * g1X1 g2 X 2 11 X* debe tener un error medio cuadrático muy pequeño como sea posible, *2 g12 12 g22 22 y puesto que g2 1 g1 , entonces tenemos, g112 g2 22 Ahora bien, * es mínimo si g1 y g2 son proporcionales a los recíprocos de las 2 varianzas de X1 y X2 respectivamente y puesto que y 22 2 y como * g1 g2 1 , entonces, g1 g2 y por tanto, x 1x1 2 x2 , que es la expresión media pesada. 2 1 En general, x * g1x1 ...gn x2 siendo g1 ...gn 1 . El error medio cuadrático es 1 1 mínimo si y solo sí escogemos los g1,..., gn proporcionales a ,..., 2 , 2 1 n respectivamente. Estos gj son los pesos y por ello nos interesa conocer las razones 2j g x ...gn xn 2 con c j conocidos, por tanto, x * 1 1 g1 ... gn cj OBSERVACIÓN DIRECTA Interesa saber los pesos y de que manera afecta el error la medición. Sean las variables aleatorias independientes X y Y, y se calcula la cantidad Z=h(X,Y) con h la función cualquiera. Sea X la medida de n veces y Y la medida de m veces, entonces, 1 1 los valores medios son x ( x 1 ... x n ) y y ( y1 ... y n ) , por lo cual el error n n medio cuadrático de X es s x . Usando la notación xi x ui , o sea, u i x i u , tenemos s x similarmente para y, s y 1 n u2 , y i 1 i n 1 1 m v 2 (1) j1 j m 1 h h vj y x y y v j tenemos u i 0 y v j 0 quedando Con v j y j y , sabemos que z ij h ( x u i , y v j ) h ( x, y) u i despreciando los términos ui 1 n m z h ( x , y) con error medio cuadrático i 1 j1 ij mn 1 h h n m 2 z z u v , esto es, , que elevando al s ( z z ) ij i j ij x y mn 1 i 1 j1 cuadrado y afectando el término de la derecha queda, z 12 2 h n m n h h i1 j1 u x i1 j1 v i2 y x mi1 u i2 donde se deduce, aplicando (1): 2 n n i 1 s m 2 2 i ui2 (n 1)s 2x y m j1 2 h n n i 1 v i2 , y de v 2j (m 1)s 2y , o sea, finalmente 2 2 h 2 1 h 2 (n 1)m s x (m 1)n s y y sí m y n son muy grandes, mn 1 x y h 2 2 h 2 2 entonces, s s x s y . x y Aquí las derivadas parciales se evalúan en ( x, y ) LA REGRESIÓN SISTEMAS BIVARIADOS - REGRESIÓN Y CORRELACIÓN En muchos casos se requiere conocer más que el comportamiento de una sola variable, se requiere conocer la relación entre dos o más variables que muestran comportamientos de tipo lineal Diagrama de dispersión. Una distribución divariada se puede representar en un plano cartesiano X-Y, de manera pues que se grafican tantas parejas ordenadas como observaciones hayan de las variables. A este conjunto de puntos o nube de puntos se le denomina diagrama de dispersión, tal como se puede observar en las figuras Regresión lineal simple. La regresión permite ver la relación entre las dos variables, considerando a una de ellas como independiente y la otra dependiente, en donde la dependencia es funcional entre las variables. A este método se le conoce como el método de los mínimos cuadrados para obtener la ecuación ŷ a bx Siendo y la variable dependiente, a el intercepto con la variable y de la recta resultante de la regresión, b, la pendiente de dicha recta y x la variable independiente 13 Por el método de los mínimos cuadrados esta recta se puede deducir los parámetros correspondientes a la pendiente y al intercepto, b y a, respectivamente como, n b̂ n i 1 i 1 i 1 n x i2 x i i 1 i 1 n â n n x i yi x i yi n n n i 1 i 1 2 y y i b̂ x i n Donde n es el número muestral considerado Correlación . La correlación entre dos variables es el grado de relación que existe entre las variables x y y y se calcula a partir del coeficiente de correlación, el cual se caracteriza por variar entre -1 y +1, siendo su magnitud el indicador del grado de asociación entre las variables, veamos, si =0 indica que no existe relación alguna entre x y y, si →0 o es muy pequeño, la relación entre las variables no son importantes, y los valores extremos -1 y +1 indican una correlación perfecta entre las variables. El signo señala la pendiente de la recta que se ajusta Para determinar el coeficiente de correlación, es necesario conocer primero el error estándar del estimado de la recta ajustada, el cual indica la dispersión o la variabilidad de los valores observados alrededor de la línea de regresión, n e (y i 1 i ŷ) 2 n2 Siendo, e el error estándar del estimado Una vez obtenido el error estándar del estimado, es necesario medir qué porcentaje de la información es recogida o explicada por el modelo de regresión escogido o coeficiente de determinación (r2). r2 1 e2 2y 14 Siendo, r2 el coeficiente de determinación y varíe entre 0 y 1, e2 es el error estándar al cuadrado o la varianza del error y y2 es la varianza de la variable dependiente y. Cuando el r2 es cercano a 1, se dice que el modelo de regresión lineal ajustado tiene un alto grado de ajuste y sí por el contrario éste se acerca a 0 su grado de ajuste es muy bajo y por tanto el ajuste no es suficiente como usar el modelo o para pronosticar variables En la práctica es más frecuente usar r , denominado el coeficiente de correlación lineal, que corresponde a la raíz cuadrada positiva de r2. El coeficiente de correlación lineal r, es también conocido como coeficiente de Pearson. Ya se mencionaba que el coeficiente de correlación lineal oscila entre +1 y -1 Regresión múltiple. Muchas veces es necesario relacionar varias variables en regresión simple ŷ a b1 x1 b 2 x 2 ... En donde a es el intercepto con el eje y, bi son los coeficientes resultantes de la correlaciones entre los xi y y Un caso particular es i=2, en cuya caso aplicando el método de los mínimos cuadrados se obtiene Y na b X b X X Y a X b X b X X X Y a X b X X b X 1 1 1 1 2 2 2 2 2 1 1 1 2 1 2 1 2 2 2 2 Una vez obtenida la ecuación de regresión, se determina el error estándar de la estimación de regresión múltiple: Se (Y Y ) 2 n3 Se Y 2 a Y b1 X 1Y b2 X 2Y n3 Y el coeficiente de determinación múltiple, estará dado por: R 2 a Y b1 X 1Y b2 X 2Y ny Y 2 ny 2 2 LA REGRESION Representamos en un gráfico los pares de valores de una distribución bidimensional: la variable x en el eje horizontal o eje de abscisa, y la variable y en el eje vertical, o eje de ordenada. El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. 15 Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos. Una recta viene definida por la siguiente fórmula: y a bx En donde y sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable x o independiente. Se asume que las variables X e Y son ambas variables aleatorias y que su función de distribución de probabilidad conjunta es normal bivariante. La normal bivariante es una extensión a dos dimensiones de la normal univariante. Su representación gráfica es una campana tridimensional. Depende de 5 parámetros: x, y, x, y y que son respectivamente las medias, las desviaciones típicas de X e Y, y su coeficiente de correlación. Dicho coeficiente se define como Siendo el numerador la llamada covarianza xy E (X x )(Y y ) Las propiedades de la normal bivariante son: - la función de distribución de probabilidades marginales son ambas normales con medias x, y y desviaciones típicas x, y respectivamente. - las función de distribución de probabilidades condicionadas f(y|x) son también normales con medias y varianzas y y x y (x x ) 2Y x 2y (1 2 ) x obsérvese que la media depende linealmente de x, es decir, también se puede escribir 16 Y X 0 1X - simétricamente las función de distribución de probabilidades f(x|y) A partir de una muestra aleatoria se pueden estimar los coeficientes por los mismos procedimientos que en el modelo I y se obtienen los mismos resultados. Ahora, sin embargo, también se obtiene un estimador para el coeficiente de correlación que no tiene sentido en el modelo I. Propiedades del coeficiente de correlación. - número sin dimensiones entre -1 y 1. - si las variables son independientes =0. La inversa no es necesariamente cierta, aunque si las variables son normales bivariantes sí. - si las variables estuvieran relacionadas linealmente =1 Un contraste que interesa realizar en un modelo II es H0: =0. Como y 1 x este contraste es totalmente equivalente al realizado sobre dicho coeficiente, aunque también hay tablas basadas en que una cierta transformación (de Fisher) de r se distribuye aproximadamente como una normal. ¿Qué mide y qué no mide r?. Se puede demostrar una relación algebraica entre r y el análisis de la varianza de la regresión de tal modo que su cuadrado (coeficiente de determinación) es la proporción de variación de la variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio del modelo lineal. No mide la magnitud de la pendiente ("fuerza de la asociación") y tampoco mide lo apropiado del modelo lineal 17 Potencia de los contrastes en regresión. Los contrastes se realizan en base al conocimiento de la distribución muestral del estadístico usado. En el caso de la regresión, las distribuciones usadas son la normal (para r) y la t-Student (para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia, pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30 en la práctica) a la normal. Usaremos esto. 1-=P(rechazar Ho| Ho falsa) ˆ 1 3.87 Supongamos que E(1 ) 2.51 y asumamos normalidad ¿qué potencia tiene el contraste si 1 fuera 5 (recordar que se necesita concretar H1)?. ¿Cuándo rechazamos H0 al 95%? Cuando ˆ 1 1.96 ˆ 1 1.96 * E(ˆ 1 ) E(ˆ 1 ) en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H 0. Hay que calcular la probabilidad de encontrar si 1 fuera 5. Calculamos z=(4.92-5)/2.51=-0.03 18 y lo miramos en la tabla de la función de distribución Normal 1 Planteamiento. Dos variables aleatorias x y y, x independiente de y. Se trata de hallar la dependencia de y respecto a x. Dadas n variables x1,..., xn y se observan valores que se relacionan (x1, y1 ), ...,(xn , yn ) y se supone que la media de Y depende de x: ( x) , entonces, la regresión ( x) x , la cual es la recta de regresión de Y con base en x y a que es la pendiente. ANÁLISIS DE CORRELACIÓN X y Y son variables aleatorias. Aplicando mínimos cuadrados para las parejas observadas (x1 , y1 ) , ...,(x n , y n ) . La recta debe ajustarse a los puntos dados de manera que la suma de los cuadrados de las distancias de estos puntos hasta la recta sea mínima. La distancia la mediremos verticalmente. Distancia de un punto (x j , y j ) hasta la recta y=a+bx es y j a bx j , y para n puntos, los cuadrados de las distancias es q j1 ( y j a bx j ) 2 n q q 0 y 0 , entonces, y y b( x x ) , en donde, a b 1 1 x ( x 1 ... x n ) y y ( y1 ... y n ) . n n s xy La pendiente de la recta b 2 con sx 2 1 1 n 2 1 n n 2 s 2x ( x x ) x x j j n j1 j y n 1 j1 n 1 j1 1 1 n n s xy ( x j x )( y j y) x j y j nxy j1 n 1 n 1 j1 1 n 1 n n s xy x y i1 x i j1 y j j1 j j n 1 n El mínimo: 19 por tanto, a y bx y b x y nxy x nx j j 2 j 2 Todos los puntos de una muestra se localizan en la recta de regresión, sí y solo sí, s2xy s2x s2y 20