X y Y son variables aleatorias. Aplicando mínimos cuadrados para

Anuncio
14. MÉTODOS
Sea  una población y sean ligadas a ella una serie de constantes 1,...,  k que están
por conocerse, y no se pueden medir directamente, entonces, sea X una variable
aleatoria definida sobre la población de tamaño n, y {Xn} es una sucesión de
observaciones independientes de X, y sobre la cual conocemos la distribución
FX (x / i ) . El problema consiste en hallar las estimaciones.
El gran problema reside, y para ello trabajemos con dos variables desconocidas
 1,  2 , en que se debe suponer que E[ X 4 ]   y que se conocen los dos primeros
momentos m1 y m2 y que son funciones de 1 y  2 . Además hay que suponer que
1 n
P
P
Xn 

m1 y Vn  k 1 X 2k 

m2
n
y por último, que las funciones 1( x, y) y  2 ( x, y) son tales que
P
P
1 (Xn , Vn ) 

1 (m1 , m 2 ) y 2 (Xn , Vn ) 

2 (m1 , m2 ) ,
con lo cual finalmente se demuestra que, 1 (X n , Vn ) y  2 (X n , Vn ) son
sucesiones consistentes de estimaciones de 1 y  2 , respectivamente.
Teorema: Sea f(x,y) una función y sean {Xn} y {Yn} unas sucesiones de las variables
P
P
aleatorias tales que X n 

a yYn 

b , siendo a y b constantes, entonces, f es
continua en (a,b) y si f(Xn,Yn) es variable aleatoria para cualquier n, entonces,
P
f X n , Yn 

f (a, b)


Estimación de Varianza Mínima. Trabajando con la distribución de Poisson como
ejemplo. Sea X una variable aleatoria definida sobre una población  , con
distribución de Poisson P[X  x]  e  x / x!, x  0,1..., siendo   0 la constante
desconocida, entonces al realizar n pruebas independientes de X, sean X1,...,Xn y a
partir de ellas hacer la estimación de esta variable.
Se calcula E[X] y E[X2] y se tienen unos valores de  y  2+  , de donde la varianza
resulta ser  , y por tanto, X n como s n2 son estimadores consistentes e imparciales
de 
Sea X una variable aleatoria definida sobre la población  y sean X1,...,Xn sus n
observaciones independientes, y supongamos que la función de distribución de X es
absolutamente continua (lo cual es válido para el caso discreto), entonces la función
fX(x) es la densidad de X que es de una variable desconocida  , f(x/  ).
1
Para trabajar con un ejemplo, sea X  N(0,1) , entonces la función de densidad puede
 ( x  ) 2 
,    x  
exp1
2
2




Sea  =  (X1,...,Xn) una estimación imparcial de  . Y además, para mínima varianza
de lo anterior se debe cumplir: El conjunto A de todos los valores posible de  mes
f ( x /  )
un intervalo abierto, acotado o no;
debe existir para todo    x   ; las


  n

expresiones
y
...
f (x i / ) dx 1 ...dx n
   
i 1

n


ˆ (x ,...,x ) f (x  dx ...dx
...

i
n
 1
  1 n  
i 1

puedan derivarse bajo el signo integral con respecto a  ; y finalmente,
ser, f ( x / ) 
1
2
 Logf ( X ) 
   para todo  A
E



Teorema. (Desigualdad de Cramer – Rao): Con las hipótesis mencionadas
anteriormente, demostrar,


2
1  Logf (X ) 
 ,
Var ˆ (X1 ,...,X n )  E
n    A 
teniendo en cuanta que el signo igual solo es válido cuando exista una constante k,
que depende de  y n, tal que la probabilidad

1  Logf (X ) 
k 1  Logf(X k )  n E  


2
n
Principio de Máxima Probabilidad. Sea X una variable aleatoria definida sobre una
población  con una distribución discreta o absolutamente continua. Sea f(x/  ) la
densidad dependiente de x y de  desconocido. El problema es estimar  . Sean
X1,...,Xn observaciones de X con una densidad conjunta f(x1,...,xn/  )
Se debe procurar siempre encontrar una estimación  (X1,...,Xn) de  para la cual
f(X1,...,Xn/  ) sea máximo. En la práctica es hallar  como una función de x1,...,xn
ˆ (X1 ,...,X n ) para qua la función f(x1,...,xn/  ) resulte maximizada y entonces se
sustituyen las observaciones.
Teorema: Supuestas las condiciones impuestas en al numeral anterior, relativo ala
estimación de la varianza, si ˆ (X1 ,...,X n ) es una estimación imparcial de  con
2
varianza mínima en el sentido dela desigualdad de Cramer – Rao, entonces,
ˆ (X1 ,...,X n ) es una estimación de ˆ (X1 ,...,X n ) con máxima probabilidad.
DISTRIBUCIÓN MULTIVARIABLE
Densidad Normal Multivariable. Hasta ahora se ha considerado que presenta
independencia entre sus variables, pero hay que trabajar con altas dependencia, que
representan mas cerca la realidad.
Se dice que las n variables aleatorias X1,...,Xn son normales en conjunto, o que tienen
distribución normal multivariable, si existen n variables aleatorias Z1,...,Zn cada una
de ellas con distribución N(0,1), y que existen n constantes  1,...,  n y que la matriz
rectangular nxn, A=(aij) tales, que
 X 1   a 11  a 1n  Z1   1 
  
   
       
   
X  a
   
 n   n1  a nn  Z n    n 
o sea, X=AZ+  . Si profundizar en el cálculo matricial, se trabajará mediante algunas
transformaciones de fácil demostración. Sea la función de densidad de las variables
aleatorias f x (x)  fX1 ,..., fXn (x1,,,,, fxn ) que tiene una distribución normal, y siendo
1
 zz
las Z1,...,Zn independientes, entonces, f z (z)  (2) n / 2 e 2 . Considerando la
transformación z  A 1 (x  ) y haciendo A1  (bij ) , entonces,
 ( x  )( A 1 )( x  )
z
 (2) n / 2 e 2
A 1
x 
Aceptando que la matriz C=AA´, y como (A´)-1=(A-1)´, esto es, C-1=(A-1)´A-1, y
1
f x (x )  f z (z)
2
C 1  A 1 , resulta,
f x ( x ) 
C 1
(2) n / 2
e
1
 ( x  )( C 1 )( x  )
2
Lema: La matriz C-1 es simétrica y definida positiva
Si U=(Uij) es una matriz de variables aleatorias, la esperanza U, E[U], es la matriz de
sus esperanzas, E[Uij]. Asimismo, si G(x)=(gij(x)) es una matriz de funciones
definidas sobre un intervalo, [a,b], indicaremos por
integrales, esto es,

b
a

b
a
G( x )dx la matriz de las
g ij ( x )dx . Además, las expresiones integrales se escribirá dx´ en
vez de dx1...dxn
3
Lo anterior se puede resumir, en si E[X)=  , entonces, E[Xi]=  i
Si C0 es la matriz de covarianzas, entonces, C0=E[(X-  )(X-  )´], entonces,




C 0   
(x  )(x  )f X (x)dx
lo que conlleva a C 0 
C 1
(2) n / 2




 
AzzAe
1
 z z
2
C dz
de donde A  C , y finalmente se llega a
1
 z z


1
2
I

zz

e
dz
(2) n / 2  
que corresponde a la matriz identidad
Teorema: Si X1,..,Xn tienen distribución conjunta normal, la correspondiente
densidad es
C 1
 1

exp  ( x  )C 1 ( x  ) 
(2)
 2

donde  es la esperanza de X y C la matriz covarianza.
f x ( x ) 
n/2
Propiedades.
Teorema: Si X=(X1,...,Xn) son n variables aleatorias con una distribución conjunta
1
 ( x) A ( x  )
absolutamente continua con densidad, f x (x )  Ke 2
, con   xi  
para cualquier i, siendo  el vector de constantes, la constante K>0, y A la matriz
definida positiva, entonces la distribución multivariable de X´ es normal.
Lema: Si es C la matriz covarianza de n variables aleatorias normales conjuntas, y la
matriz C puede subdividirse así
C C 
C   11 12 
 C 21 C 22 
siendo C11 una matriz kxk, 1  k  n , entonces, C11 es regular simétrica y definida
positiva.
Teorema: Si las variables aleatorias X1,..,Xn tienen una distribución multivariable
normal, cualquier subconjunto de ellas tiene la misma distribución
Teorema. (Cochran para análisis de varianza): Si B0,...,Bk son k+1 matrices de tipo
nxn y simétricas, y si ri es el rango de Bi y es n=r0+r1+...+rk, y si B0+B1+...+Bk=I, la
4
matriz nxn indéntidad, entonces, existe una matriz ortogonal P, tal que, para cualquier
i, P´BiP es una matriz diagonal en la que los elementos diagonales que no son nulos
valen 1.
Teorema: Si X´=(X1,...,Xn) son n variables aleatorias independientes, cada una de
ellas con distribución normal N(0,1), si P es una matriz ortogonal, y Y´=(Y1,...,Yn) es
tal que Y=PX, también Y1,...,Yn son variables aleatorias independientes y cada una de
ellas tiene distribución N(0,1)
Teorema. (Cochran para rangos): Si X´=(X1,...,Xn) son n variables aleatorias
independientes, cada una de ellas con distribución normal N(0,1), si Q1(x´),...,Qk(x´)
son k formas cuadráticas definidas sobre E(n) tales que
k
xx   j1 Q j ( x), x  E ( n )
y si r1+...+rk=n, siendo rj=Qj(x´), entonces, Q1(X´),...,Qk(X´) son k variables aleatorias
independientes, y Qj(X´) tiene una distribución Chi-Cuadrado con rj grados de
libertad.
Independencia de la media y la varianza en una muestra de la población normal.
Sean n variables aleatorias independientes X1,...,Xn idénticamente distribuidas
( n  1)s 2n
tiene
N(,  2 ) , entonces se halla que X n y s 2n son independientes y que
2
distribución Chi-Cuadrado con n-1 grados de libertad
Lema: Si X y Y son variables aleatorias independientes y si a,b,c y d son constantes,
entonces, aX+b y cY+d son también independientes.
Lema: Si n variables aleatorias independientes X1,...,Xn , entonces las variables
X12 , X 22 ,..., X n2 son independientes
Teorema: Sean X1,...,Xn n observaciones de la variable aleatoria X cuya distribución
X  ...  X n
1
n
Xn  1
y s 2n 
(X k  X n ) 2
es
Si
son
N(,  2 ) .

n
n  1 k 1
(n  1)s n2
independientes y la variable
tiene distribución Chi-Cuadrado
2
Teorema: Sean X1,...,Xn n observaciones independientes de la variable aleatoria X
con distribución es N(,  2 ) , entonces, la variable T tiene distribución t-Student con
n-1 grados de libertad, T 
n ( X n  )
s 2n
5
Se considera a veces que el valor medio x de la muestra se aproxima al valor medio
 de la población, y entonces,
1 n
ˆ  x   x i ,
n j1
con tamaño n de la muestra. Similarmente ocurre para la varianza
1 n
ˆ 2  s 2 
 (x j  x) 2
n  1 j1
Otros parámetros que son necesarios, tales como el p 

de la distribución Binomial
n
x
, y es de aquí de donde surge la necesidad de ver que tanta
n
asertividad hay en estas suposiciones, y se aplica para ello, el Método de los
2
Momentos. El k-ésimo momento de una muestra con la corrección m 2  , donde 
12
es la longitud del intervalo y m1 es corrección cero.
se asemeja al p̂ 
Estimadores. Una distribución tiene un parámetro desconocido  y conocemos la
fórmula para calcular  de  a partir de una muestra x1,x2,...xn, entonces
  g(x1, x 2 ,..., xn ) es una estimación de  . También se puede considerar las
variables aleatorias X1,...,Xn que tienen igual distribución y que son independientes
  g(X1 ,...,X n ) . Así se tiene,
1
1
x  g( x 1 ,...,x n )  ( x 1    x n ) y X  g(X 1 ,..., X n )  (X 1    X n )
n
n
1
y puesto que E[Xj]=, entonces, E[ X ]  n
n
El estimado de una parámetro x  g( x 1 ,...,x n ) 
1
( x 1   x n ) es insesgado sí
n
E[g(X1 ,...,X n )]  
Otro insesgado E[S2 ]   2 , con S2 
1 n
(X j  X ) 2

n  1 j1
  g(X ,... X ) para un parámetro  , es eficiente si se
Un estimador insesgado 
1
n
2

 *g* (X ,..., X ) de 
varianza finita E[(  ) ] y no existe otro estimador insesgado 
1
n
6
cuya varianza sea menor que la de  . También, eficiencia de un estimador insesgado
1 de  con respecto a otro estimador insesgado  2 de  como
 22
(razón de varianzas 22 y 12 de 2 y 1 , respectivamente.
12
Consistencia: Sea c  R y X una variable aleatoria cualquiera, en donde, E[(X-c)2]
es finita, entonces, para cualquier   0 , la desigualdad de Tchebichef cumple,
1
P X  c     2 E[( X  c) 2 ]

Si c es el valor medio de X, entonces
2
P X  c     2 con  2 la varianza de X

ˆ  g(x ,...,x ) es un estimador del parámetro  y sea g definida para n grande,
Sea 
1
n
ˆ tenemos
entonces, haciendo c   y X  


ˆ      1 E[( 
ˆ  ) 2 ] .
P
2

Si el estimador tiene la propiedad
ˆ  ) 2 ]  0 cuando n   , entonces, para   0 dada, la probabilidad se
E[(
aproxima a cero cuando n tiende al infinito, entonces,
ˆ      1 P 
ˆ      1, n   . Esto es consistencia
P




KOLMOGOROV – SMIRNOV
Se basa en la comparación de funciones acumulativa que se observa en una muestra
ordenada y la respectiva propuesta bajo la hipótesis nula. Si esta comparación revela
diferencias importantes, entonces la hipótesis nula se rechaza
Considérese F0(x), y sean X1,..,Xn las observaciones aleatorias de una muestra de
tamaño n, entonces la función de distribución acumulativa muestral es
0 x  x1


S n ( x )  k / n , x k  x  x k 1

1 x  xn

esto es, para cualquier valor ordenado x de una muestra, Sn(x) es la proporción del
número de valores en la muestra que son iguales o menores a x, y F0(x) es conocida, y
entonces la valoración de Sn(x) se compara con la función anterior. Si la hipótesis
nula es verdadera, entonces, se espera
7
D n  max S n ( x )  F0 ( x )
x
siendo Dn una distribución independiente del modelo propuesto bajo la hipótesis nula.
La función de distribución de Dn se evalúa solo en función del tamaño de la muestra,
cuyos valores se pueden observar en las tablas de los anexos.
Para un tamaño  del error tipo I, la región crítica es de la forma
c 

P D n 

n

Y de acuerdo con lo anterior, al hipótesis H se rechaza si para algún valor x
observado el valor Dn se encuentra dentro de la región crítica de tamaño 
Apropiada para funciones continuas. Probar que una f(x) es la función de distribución
de una población de la que se ha tomado una muestra x1,..., xn . Entonces, se halla
F ( x) de la muestra.
A = Desviación máxima = Max F̂( x )  F( x ) ; dado un nivel de significancia se halla
c: P(A  c)  1   que se encuentra en tablas.
Por tanto, si a  c no se rechaza la hipótesis.
MÍNIMOS CUADRADOS
En un diagrama de dispersión X y Y se trata de hallar si existe la relación
Y  X     de tipo lineal, en donde  y  son constantes desconocidas, y  es
una variable aleatoria
Sea la hipótesis E[]  0, V[]   2 , X , pues cada valor de X genera uno de Y
mas una alteración aleatoria. Entonces, el valor de espera de  y la varianza de  no
dependen de X, luego, E[Y]  X  , y V[Y]   2
Sin mas hipótesis no se puede aplicar máxima verosimilitud.
Sea E[Y]  X   y (x1,y1),...,(xn,yn) una muestra aleatoria de Y. Los estimadores
mínimo cuadráticos  y  son los valores que minimizan a

n
i 1
[Yi  (x i  )] 2 ,
de forma que
8

ˆ 

n
i 1
n
Yi ( x i  x )
i 1
(x i  x) 2
con x 
1 n
 xi
n i 1
1 n
ˆ  Y  ˆ x, donde, Y  i 1 Yi
n
siendo éstos estimadores insesgados. Ahora bien, E[ ]   y E[]   , por tanto,
V[ ] 
2

n
i 1
( x i  x) 2
1

x2


y V[] 

 n n ( xi  x) 2 
i1


Pruebas Óptimas. Lema de Neyman - Pearson
La región crítica C de tamaño  (región de rechazo), existe una constante k, tal que,
(1 )
 k cuando ( x 1 ,...,x n ) está dentro de C
 ( 0 )
(1 )
 k cuando ( x1,..., xn ) está fuera de C
 ( 0 )
Hipótesis: H0 :   0 contra H1 :   1 en una muestra de tamaño n y población con
función de distribución de probabilidad. Entonces C es región crítica óptima de
tamaño  para probar la hipótesis Ho
RAZÓN DE VEROSIMILITUD
Sea x1,..., xn muestra de una población con función de distribución de probabilidad
f ( x, ) con   (1,...,  n ) . Sea  el espacio de los parámetros (o sea, en donde las radas de valores que puede tomar  ). Sea H0 impone la restricción sobre los valores
de  y determina así cierto conjunto de  :  0
H0 :  0 , entonces, H1 :    ,
donde 1    0 y la muestra dada x1,..., xn le corresponde la función de
verosimilitud ()  f (x1 , )f (x 2 , )    f (x n , ) . Si mantenemos fijos los xk y
hacemos que  varíe sobre  , entonces, () tiene máxima  
El cociente  

es la razón de verosimilitud y siempre es   1
 0
Escogiendo un valor  0 tenemos, Si    0 , entonces no hay rechazo de la hipótesis
H0
9
Si    0 , entonces, si hay rechazo de la hipótesis.
Ahora bien, V  Ln  , siendo  la variable aleatoria para la que  es un valor
observado; V   2 con 1 gado de libertad cuando n   . De otra parte,  0 se halla
según sea  (el nivel de significancia)
ANÁLISIS SECUENCIAL
Se trata de evitar muchas observaciones al tomar una decisión. Si al probar H0 contra
H1 con un tamaño muestral de n, y decidimos por anticipado el error. Hay que
disminuir la cantidad promedio de muestreos. La probabilidad p om , m observaciones
para hacer H0 cierta y p 1m probabilidad de que éstas observaciones ocurrieran si fuera
cierta H1
Si p om es muy grande respecto a p1m , aceptamos H0, y sí es muy pequeña, aceptamos
H1. La razón
p
 m  1m , con los riesgos  y  .
p 0m

Si  m 
aceptamos H0
1 
1 
Sí  m 
aceptamos H1.


1 
 m 
Y finalmente, sí
hacemos otra observación.
1 

BONDAD DE AJUSTE
Son las pruebas para probar las hipótesis de que F(x) es la función de distribución de
la población. Sea F ( x) es una aproximación de F(x) , y esta aproximación es muy
alta, entonces, se rechaza F(x) cono la función de distribución de esa población y si
F ( x) se desvía grandemente, rechazar la hipótesis.
Prueba  2 . Subdividir el eje x en K intervalos bajo la hipótesis de que F(x) es la
función de distribución de la población. Los intervalos I1,...,IK son de tal manera que
cada uno contiene s valores (por lo menos) de la muestra x1,..., xn . El número b j de
los valores en la muestra en el intervalo Ij, con j=1,...,K.
Si el intervalo está en la frontera, se suma 0.5 a cada uno de los bj correspondientes
10
Con F(x), se calcula Pj de la variable aleatoria X que se considera tome cualquier
valor en I, entonces, ej=np,
2
K (b j  e j )
 02   j1
es la desviación.
ej
Dado el nivel de significancia  hallamos c de P( 2  c)  1   en tabla de ChiCuadrado de K-1 grados de libertad. Sí  20  c no rechazo la hipótesis.
Teorema: Sea la hipótesis F(x) es función de distribución de la población en la que
se tomó la muestra x1,..., xn , es cierta. Entonces, la variable aleatoria  02 observada,
tiene una función de distribución que se aproxima a la distribución de la distribución
Chi-Cuadrada con K-1 grados de libertad cuando n  
Si F(x) disminuye r parámetros desconocidos, se puede usar máxima verosimilitud y
luego Chi-Cuadrada con K-1 grados de libertad se presenta como K-r-1 grados de
libertad.
ERRORES DE ESTIMACIÓN
Los errores existen en las mediciones, sistemáticos y estadísticos
Sean n mediciones, x1,..., xn de donde se tiene un valor medio de x 
1
( x1 ... xn ) y
n
1
n
(x j  x) 2 , ésta última es el error medio

n  1 j1
cuadrático. Si el error tiene densidad normal, entonces, se espera que 2/3 de los
valores muéstrales se localicen entre x  s y x  s
una desviación típica de s 
Con frecuencia una muestra x1,..., xn tiene unos valores más confiables que otros.
Sean las variables aleatorias medidas con igual varianza  2 (que es desconocida),
entonces, x1 y x2 sean dos valores observados independientes de X1 y X2 con varianza
2
 12 
y  22   2 , por tanto, x1 tiene mayor peso que x2. La exactitud de la media

1
es igual, x  ( x1  x 2 )
2
*
x  g1x1  g2 x2 , siendo g1  g2  1 , para g1 y g2   .
Así X *  g1X1  g2 X 2
11
X* debe tener un error medio cuadrático muy pequeño como sea posible,
 *2  g12 12  g22  22 y puesto que g2  1  g1 , entonces tenemos, g112  g2  22
Ahora bien,  * es mínimo si g1 y g2 son proporcionales a los recíprocos de las
2
varianzas de X1 y X2 respectivamente y puesto que  
y  22   2 y como

*
g1  g2  1 , entonces, g1  g2 y por tanto, x  1x1   2 x2 , que es la expresión
media pesada.
2
1
En general, x *  g1x1 ...gn x2 siendo g1 ...gn  1 . El error medio cuadrático es
1
1
mínimo si y solo sí escogemos los g1,..., gn proporcionales a
,..., 2 ,
2
1
n
respectivamente. Estos gj son los pesos y por ello nos interesa conocer las razones
 2j 
g x ...gn xn
2
con c j conocidos, por tanto, x *  1 1
g1 ... gn
cj
OBSERVACIÓN DIRECTA
Interesa saber los pesos y de que manera afecta el error la medición. Sean las
variables aleatorias independientes X y Y, y se calcula la cantidad Z=h(X,Y) con h la
función cualquiera. Sea X la medida de n veces y Y la medida de m veces, entonces,
1
1
los valores medios son x  ( x 1  ...  x n ) y y  ( y1  ...  y n ) , por lo cual el error
n
n
medio cuadrático de X es s x .
Usando la notación xi  x  ui , o sea, u i  x i  u , tenemos s x 
similarmente para y, s y 
1
n
u2 , y

i 1 i
n 1
1
m
v 2 (1)

j1 j
m 1
h
h
 vj
  y
x
y
y v j tenemos  u i  0 y  v j  0 quedando
Con v j  y j  y , sabemos que z ij  h ( x  u i , y  v j )  h ( x, y)  u i
despreciando los términos ui
1
n
m
z  h ( x , y) con error medio cuadrático

i 1  j1 ij
mn
1
h
h
n
m
2
z

z

u

v
,
esto
es,
, que elevando al
s
(
z

z
)


ij
i
j
ij
x
y
mn  1 i 1 j1
cuadrado y afectando el término de la derecha queda,
z
12
2
 h 
n
m
n
 h 
 h 
i1  j1 u  x  i1  j1 v i2  y    x  mi1 u i2
 
donde se deduce, aplicando (1):
2
n

n
i 1
s
m
2
2
i
ui2  (n  1)s 2x y

m
j1
2
 h 
n
  n i 1 v i2 ,
 y 
de
v 2j  (m  1)s 2y , o sea, finalmente
2
2
 h  2 
1 
 h  2
(n  1)m  s x  (m  1)n   s y  y sí m y n son muy grandes,
mn  1 
 x 
 y  

 h  2 2  h  2 2 
entonces, s    s x    s y  .
 x 
 y  
Aquí las derivadas parciales se evalúan en ( x, y )
LA REGRESIÓN
SISTEMAS BIVARIADOS - REGRESIÓN Y CORRELACIÓN
En muchos casos se requiere conocer más que el comportamiento de una sola variable, se
requiere conocer la relación entre dos o más variables que muestran comportamientos de
tipo lineal
Diagrama de dispersión. Una distribución divariada se puede representar en un plano
cartesiano X-Y, de manera pues que se grafican tantas parejas ordenadas como
observaciones hayan de las variables. A este conjunto de puntos o nube de puntos se le
denomina diagrama de dispersión, tal como se puede observar en las figuras
Regresión lineal simple. La regresión permite ver la relación entre las dos variables,
considerando a una de ellas como independiente y la otra dependiente, en donde la
dependencia es funcional entre las variables. A este método se le conoce como el método
de los mínimos cuadrados para obtener la ecuación
ŷ  a  bx
Siendo y la variable dependiente, a el intercepto con la variable y de la recta resultante de la
regresión, b, la pendiente de dicha recta y x la variable independiente
13
Por el método de los mínimos cuadrados esta recta se puede deducir los parámetros
correspondientes a la pendiente y al intercepto, b y a, respectivamente como,
n
b̂ 
n
i 1
i 1
i 1


n  x i2    x i 
i 1
 i 1 
n
â 
n
n x i yi   x i  yi
n
n
n
i 1
i 1
2
y
 y i  b̂ x i
n
Donde n es el número muestral considerado
Correlación . La correlación entre dos variables es el grado de relación que existe entre las
variables x y y y se calcula a partir del coeficiente de correlación, el cual se caracteriza por
variar entre -1 y +1, siendo su magnitud el indicador del grado de asociación entre las
variables, veamos,
si =0 indica que no existe relación alguna entre x y y, si →0 o es muy pequeño, la relación
entre las variables no son importantes, y los valores extremos -1 y +1 indican una correlación
perfecta entre las variables. El signo señala la pendiente de la recta que se ajusta
Para determinar el coeficiente de correlación, es necesario conocer primero el error
estándar del estimado de la recta ajustada, el cual indica la dispersión o la variabilidad de
los valores observados alrededor de la línea de regresión,
n
e
 (y
i 1
i
 ŷ) 2
n2
Siendo, e el error estándar del estimado
Una vez obtenido el error estándar del estimado, es necesario medir qué porcentaje de la
información es recogida o explicada por el modelo de regresión escogido o coeficiente de
determinación (r2).
r2  1
e2
 2y
14
Siendo, r2 el coeficiente de determinación y varíe entre 0 y 1, e2 es el error estándar al
cuadrado o la varianza del error y y2 es la varianza de la variable dependiente y. Cuando el
r2 es cercano a 1, se dice que el modelo de regresión lineal ajustado tiene un alto grado de
ajuste y sí por el contrario éste se acerca a 0 su grado de ajuste es muy bajo y por tanto el
ajuste no es suficiente como usar el modelo o para pronosticar variables
En la práctica es más frecuente usar r , denominado el coeficiente de correlación lineal,
que corresponde a la raíz cuadrada positiva de r2. El coeficiente de correlación lineal r, es
también conocido como coeficiente de Pearson. Ya se mencionaba que el coeficiente de
correlación lineal oscila entre +1 y -1
Regresión múltiple. Muchas veces es necesario relacionar varias variables en regresión
simple
ŷ  a  b1 x1  b 2 x 2  ...
En donde a es el intercepto con el eje y, bi son los coeficientes resultantes de la
correlaciones entre los xi y y
Un caso particular es i=2, en cuya caso aplicando el método de los mínimos cuadrados se
obtiene
 Y  na  b  X  b  X
 X Y  a X  b  X  b  X X
 X Y  a X  b  X X  b  X
1
1
1
1
2
2
2
2
2
1
1
1
2
1
2
1
2
2
2
2
Una vez obtenida la ecuación de regresión, se determina el error estándar de la
estimación de regresión múltiple:

Se 
 (Y  Y )
2

n3
Se 
Y
2
 a Y  b1  X 1Y  b2  X 2Y
n3
Y el coeficiente de determinación múltiple, estará dado por:
R 
2
a Y  b1  X 1Y  b2  X 2Y  ny
Y
2
 ny
2
2
LA REGRESION
Representamos en un gráfico los pares de valores de una distribución
bidimensional: la variable x en el eje horizontal o eje de abscisa, y la variable
y en el eje vertical, o eje de ordenada. El coeficiente de correlación lineal nos
permite determinar si, efectivamente, existe relación entre las dos variables.
15
Una vez que se concluye que sí existe relación, la regresión nos permite
definir la recta que mejor se ajusta a esta nube de puntos.
Una recta viene definida por la siguiente fórmula: y  a  bx
En donde y sería la variable dependiente, es decir, aquella que viene definida
a partir de la otra variable x o independiente. Se asume que las variables X e
Y son ambas variables aleatorias y que su función de distribución de
probabilidad conjunta es normal bivariante. La normal bivariante es una
extensión a dos dimensiones de la normal univariante. Su representación
gráfica es una campana tridimensional. Depende de 5 parámetros: x, y, x,
y y  que son respectivamente las medias, las desviaciones típicas de X e
Y, y su coeficiente de correlación. Dicho coeficiente se define como
Siendo el numerador la llamada covarianza


 xy  E (X   x )(Y   y )
Las propiedades de la normal bivariante son:
- la función de distribución de probabilidades marginales son ambas
normales con medias x, y y desviaciones típicas x, y respectivamente.
- las función de distribución de probabilidades condicionadas f(y|x) son
también normales con medias y varianzas
y
y x  y  
(x   x )
 2Y x   2y (1   2 )
x
obsérvese que la media depende linealmente de x, es decir, también se
puede escribir
16
 Y X  0  1X
- simétricamente las función de distribución de probabilidades f(x|y)
A partir de una muestra aleatoria se pueden estimar los coeficientes por los
mismos procedimientos que en el modelo I y se obtienen los mismos
resultados. Ahora, sin embargo, también se obtiene un estimador para el
coeficiente de correlación que no tiene sentido en el modelo I.
Propiedades del coeficiente de correlación.
-
número sin dimensiones entre -1 y 1.
-
si las variables son independientes =0. La inversa no es necesariamente
cierta, aunque si las variables son normales bivariantes sí.
-
si las variables estuvieran relacionadas linealmente =1
Un contraste que interesa realizar en un modelo II es H0: =0. Como
y
1  
x
este contraste es totalmente equivalente al realizado sobre dicho coeficiente,
aunque también hay tablas basadas en que una cierta transformación (de
Fisher) de r se distribuye aproximadamente como una normal.
¿Qué mide y qué no mide r?. Se puede demostrar una relación algebraica
entre r y el análisis de la varianza de la regresión de tal modo que su
cuadrado (coeficiente de determinación) es la proporción de variación de la
variable Y debida a la regresión. En este sentido, r2 mide el poder explicatorio
del modelo lineal. No mide la magnitud de la pendiente ("fuerza de la
asociación") y tampoco mide lo apropiado del modelo lineal
17
Potencia de los contrastes en regresión. Los contrastes se realizan en base
al conocimiento de la distribución muestral del estadístico usado. En el caso
de la regresión, las distribuciones usadas son la normal (para r) y la t-Student
(para los coeficientes). Sólo para la normal es fácil el cálculo de la potencia,
pero sabemos que la t tiende asintóticamenta (para muestras grandes (>30
en la práctica) a la normal. Usaremos esto.
1-=P(rechazar Ho| Ho falsa)
ˆ 1  3.87
Supongamos que 
E(1 )  2.51 y asumamos normalidad ¿qué
potencia tiene el contraste si 1 fuera 5 (recordar que se necesita concretar
H1)?. ¿Cuándo rechazamos H0 al 95%?
Cuando
ˆ 1
 1.96  ˆ 1  1.96 * E(ˆ 1 )
E(ˆ 1 )
en nuestro caso mayor que 4,92. Como no lo es, no rechazamos H 0. Hay que
calcular la probabilidad de encontrar
si 1 fuera 5. Calculamos z=(4.92-5)/2.51=-0.03
18
y lo miramos en la tabla de la función de distribución Normal 1
Planteamiento. Dos variables aleatorias x y y, x independiente de y. Se trata de
hallar la dependencia de y respecto a x. Dadas n variables x1,..., xn y se observan
valores que se relacionan (x1, y1 ), ...,(xn , yn ) y se supone que la media  de Y
depende de x: ( x)   , entonces, la regresión ( x)    x , la cual es la recta de
regresión de Y con base en x y a  que es la pendiente.
ANÁLISIS DE CORRELACIÓN
X y Y son variables aleatorias. Aplicando mínimos cuadrados para las
parejas observadas (x1 , y1 ) , ...,(x n , y n ) . La recta debe ajustarse a los puntos
dados de manera que la suma de los cuadrados de las distancias de estos
puntos hasta la recta sea mínima. La distancia la mediremos verticalmente.
Distancia de un punto (x j , y j ) hasta la recta y=a+bx es y j  a  bx j , y para n
puntos, los cuadrados de las distancias es q   j1 ( y j  a  bx j ) 2
n
q
q
0 y
 0 , entonces, y  y  b( x  x ) , en donde,
a
b
1
1
x  ( x 1  ...  x n ) y y  ( y1  ...  y n ) .
n
n
s xy
La pendiente de la recta b  2 con
sx
2
1
1  n 2 1
n
n
2
s 2x 
(
x

x
)

x

x
 j
 j n j1 j  y
n  1 j1
n  1  j1
1
1
n
n
s xy 
( x j  x )( y j  y) 
x j y j  nxy


j1
n 1
n  1 j1
1  n
1
n
n

s xy 
x y  i1 x i  j1 y j 


j1 j j
n 1 
n

El mínimo:







19
por tanto, a  y  bx y b 
 x y  nxy
 x  nx
j
j
2
j
2
Todos los puntos de una muestra se localizan en la recta de regresión, sí y solo sí,
s2xy  s2x s2y
20
Descargar