Tema 8 REGRESION Y CORRELACION

Anuncio
Probabilidad y Estadística (I.I.)
Tema 8
Tema 8
REGRESION Y CORRELACION
1.- Introducción al problema de la regresión:
En la práctica es muy frecuente encontrar procesos en los que la/s variable/s de salida dependen de
alguna forma de la/s variable/s de entrada al mismo. La mayor parte de las veces, se tiene una única
variable de salida o respuesta (dependiente) Y, que no se controla en el experimento y que es por
tanto una variable aleatoria, mientras que se pueden tener una o varias variables de entrada
(independientes) X1, X2, ..., Xk, que pueden o no estar controladas por el investigador, aunque lo más
común es que estén perfectamente controladas y por tanto no puedan considerarse del todo
aleatorias y no tengan propiedades distribucionales.
Dada esta situación el problema de la regresión consiste en encontrar una relación entre la variable
dependiente Y el conjunto de variables independientes Xi (Y=f(X1,X2,...,Xk)) que aproxime a la relación
que realmente existe entre las variables y que es desconocida, con el objeto de poder predecir
valores de Y, a partir de los valores de Xi.
Según que la variable de salida dependa de una o varias variables de entrada, hablaremos de
regresión SIMPLE (la que vamos a tratar nosotros) o regresión MULTIPLE respectivamente.
Además podemos distinguir, dependiendo de la forma que presente la función que relaciona las
variables, entre regresión LINEAL (la función es una recta), regresión PARABÓLICA, regresión
HIPERBÓLICA, etc ...
En el análisis de regresión deberemos contemplar los siguientes cuatro aspectos:
Determinar interrelación entre variables (test de independencia, etc ...)
Determinar tipo de función matemática que relaciona óptimamente las variables
(representación gráfica).
Calcular parámetros de dicha función matemática y determinar bondad de ajuste.
Realizar predicciones de la variable dependiente a partir de la independiente.
2.- Regresión simple:
En este caso concreto, consideramos la existencia de una única variable de predicción X.
Consideramos un conjunto {(xi,yi), i =1,2,...n} de n mediciones: y1, ..., yn de una variable respuesta Y, las
cuales se han observado bajo unas condiciones experimentales que representan los valores de la
variable de predicción X: x1, x2, ... xn
Si se tomaran muestras adicionales con los mismos valores de x, se debe esperar que los valores de y
varíen, ya que el valor yi en el par ordenado (xi,yi) es el valor de una variable aleatoria. Se define Y/x
como la variable aleatoria Y correspondiente a un valor fijo x, y su media y su varianza se indican por
µY/x y σ2Y/x, respectivamente.
Ejemplo:
Dosis inicial de droga (X)
0.05
0.05
0.05
0.10
0.10
0.20
Cantidad de droga a los 5 minutos (Y)
0.01
0.02
0.00
0.05
0.01
0.15
1
Probabilidad y Estadística (I.I.)
Tema 8
Supongamos que se administra una cantidad X=x de droga. ¿Cuál será la predicción óptima del valor
que tome la variable Y (Y/X=x)?. El valor promedio de Y condicionado a X=x (µY/x).
Es obvio que, para un valor dado de x, es imposible predecir, de manera exacta, la cantidad de droga
a los 5 minutos en una persona en particular. Sin embargo es posible predecir la cantidad de droga a
los 5 minutos de todos aquellos individuos que recibieron la misma cantidad inicial de droga. Para
cada valor de x existe una distribución de cantidad de droga a los 5 minutos y lo que se busca es la
media de esa distribución, dado x.
Es importante hacer notar que en la regresión sólo puede asociarse un valor de Y con uno de
predicción x; no es posible establecer una relación causa-efecto entre las Y y las x, ya que un cambio
en las x no causará uno correspondiente en la variable respuesta. De manera obvia, existe una
relación entre la altura y el peso de una persona, pero ¿implica esta relación que pueda cambiar la
altura de las personas si se modifica su peso?.
El interés recae en determinar una función matemática sencilla f(x) = µY/x, por ejemplo un polinomio,
que describa de forma razonable, el comportamiento de la variable respuesta, es decir, la función
que se ajuste mejor a los datos, y nos permita predecir valores de la variable respuesta.
El primer paso que daremos será determinar el modelo o función matemática que se va a utilizar. Un
procedimiento sencillo para seleccionar el modelo de regresión a utilizar, consiste en graficar la
variable respuesta contra la variable de predicción. Si la gráfica revela una tendencia lineal, deberá
suponerse un modelo de regresión lineal.
Aplicar regresión LINEAL
Aplicar regresión EXPONENCIAL
El lugar geométrico de los puntos (x, µY/x)) recibe el nombre de curva de regresión poblacional, y no
es más que la representación gráfica de la función f(x) que aproxima a la relación entre las variables.
Estas curvas de regresión son curvas de predicción ideales, que usualmente no conocemos.
Obsérvese que µY/x es un parámetro, la media de la v. a. Y/x que, en principio habría que estimar a
partir de los datos muestrales de que disponemos.
Y
µy/x=α+βx
x1
x2
x3
x4
2
x5 x6
Probabilidad y Estadística (I.I.)
Tema 8
Una vez se ha seleccionado el modelo, el siguiente paso es obtener estimaciones para los parámetros
que intervienen en el mismo.
La REGRESIÓN LINEAL SIMPLE implica que µY/x está linealmente relacionado con x por la ecuación
de regresión lineal poblacional donde los coeficientes de regresión α y β son parámetros que deben
estimarse a partir de los datos muestrales:
µY/x = α + βx
con α y β ∈ R
y β≠0
Lo que sí podemos conocer a partir de los datos muestrales es la ecuación de regresión lineal
ajustada, que es el resultado de estimar los parámetros de la expresión anterior, donde las
estimaciones a y b representan la intersección y la pendiente de y respectivamente:
µˆ Y/x= αˆ + βˆx llamando yˆ =µˆ Y/x yˆ = a + bx
b = βˆ
a = αˆ
Un conjunto de datos podrá dar evidencia de linealidad sobre los valores de x cubiertos por dicho
conjunto. Para valores de X más allá de la zona cubierta por los datos no tendremos nunca evidencia
de linealidad.
No se debe usar nunca la recta de regresión ajustada para predecir valores de Y
correspondientes a valores de X fuera del rango cubierto por los datos.
Una técnica muy aceptable para estimar los parámetros de la ecuación es el método de los mínimos
cuadrados, que pasamos a estudiar.
3.- Método de los mínimos cuadrados:
Al utilizar el modelo de regresión lineal, hemos definido cada variable aleatoria Yi=Y/xi de la
siguiente forma:
Yi = µY/xi + Ei = α + βxi + Ei
donde Ei es el error aleatorio (error propio del modelo, debido al azar y que tiene media cero), y que
para cada observación yi de Yi, (xi,yi), toma un valor εi
Cuando usamos la línea de regresión ajustada yˆ = a + bx cada par de observaciones (xi,yi) satisface:
yˆ i = a + bxi + ei
donde ei es el error residual (distancia vertical que existe entre el valor observado en el punto i de
los datos y el valor ajustado mediante la recta de regresión, ei = y i − yˆ i )
Dibujando sobre el diagrama de dispersión las líneas de regresión real y ajustada y los dos tipos de
errores, obtenemos:
Y
(xi,yi)
y=a+bx
ei
εi
µy/x=α+•x
x
3
Probabilidad y Estadística (I.I.)
Tema 8
Se encontrarán a y b, estimaciones de α y β, de tal forma que la suma de los cuadrados de los
residuos sea mínima. Con frecuencia, la suma de los cuadrados de los residuos recibe el nombre de
suma de los cuadrados de los errores alrededor de la línea de regresión y se representa por SSE.
Este procedimiento de minimización para estimar los parámetros se llama método de los mínimos
cuadrados.
Siendo {(xi,,yi ), i = 1,2, ..., n} la nube de puntos observada. Se encontrarán a y b con objeto de
minimizar:
2
2
SSE = ∑in=1ei 2= ∑in=1 ( y i - yˆ i ) = ∑in=1 ( y i - a - b xi )
Diferenciando SSE con respecto a a y b, se tiene:
∂SSE
= -2 ∑in=1( yi - a - b xi ) xi
∂b
∂SSE
= -2 ∑in=1( y i - a - b xi )
∂a
Al igualar las derivadas parciales a cero y reacomodar los términos, se obtienen las ecuaciones
siguientes (llamadas ecuaciones normales):
na + b ∑in=1 xi= ∑in=1 yi
a ∑in=1 xi+b ∑in=1 xi 2 = ∑in=1 xi y i
las cuales se pueden resolver simultáneamente (por Cramer) para dar las fórmulas de cálculo de a y
b:
n ∑in=1 xi y i -( ∑in=1 xi )( ∑in=1 yi )
ˆ
β =b=
n ∑in=1 xi 2 -( ∑in=1 xi )2
n
n
∑ y -b ∑i=1 xi
αˆ = a = i=1 i
= y - bx
n
4.- Propiedades de los estimadores de mínimos cuadrados:
Partimos de un conjunto de datos:
X
Y
x1
Y1
x2
Y2
...
...
xn
Yn
donde cada Yi = Y/xi es una variable aleatoria, cuya media viene dada por: µ Y/xi = α + βxi que se
estima por: yi = a + bxi, siendo a y b las estimaciones puntuales de los parámetros α y β.
Además de estimar la relación lineal entre x e y para propósitos de predicción, se puede también
estar interesado en la realización de inferencias acerca de su pendiente y el punto de intersección.
Para realizar pruebas de hipótesis y la determinación de intervalos de confianza de α y β, se debe
hacer la suposición adicional de que cada Yi está normalmente distribuida, son todas independientes y
4
Probabilidad y Estadística (I.I.)
Tema 8
su varianza es la misma para todas y viene dada por σ2. Por tanto:
Yi≈ N( µ
Y/xi
= α + βxi , σ2 )
Una estimación insesgada de esta varianza σ2 viene dada por:
SSE S yy - b S xy
=
n-2
n-2
SSE
por tanto s =
n-2
σ̂ 2 = s 2 =
donde:
SSE es una medida de la variabilidad de las observaciones yi en torno a la recta de regresión
estimada.
SSE = ∑in=1( y i - a - b xi )2 como a = y - b x
SSE = ∑in=1( y i - ( y - b x ) - b xi )2
SSE = ∑in=1( y i - y )2 -2b ∑in=1( xi - x )( y i - y )+ b2 ∑in=1( xi - x )2
SSE = S yy - 2b S xy + b2 S xx
SSE = S yy - b S xy
2
n
S xx = ∑i=1( xi - x )
Sxx es una medida de la variabilidad de x y viene dada por:
2
n
S yy = ∑i=1( yi - y )
Syy es una medida de la variabilidad de y y viene dada por:
Sxy es una medida de la variabilidad conjunta de x e y y viene dada por:
n
S xy = ∑i=1( xi - x )( yi - y )
La b de la ecuación de la recta de regresión ajustada podría entonces ponerse en función de Sxy y Sxx
como:
b=
S xy
S xx
Bajo estas suposiciones de
independencia,
normalidad
y
homocedasticidad del modelo, t b =
se cumple que los estadísticos:
b-β
s
a -α
ta =
s
S xx
n
2
xi
∑
n
S xx
i =1
se distribuyen aproximadamente según una t de Student con n-2 grados de libertad.
Intervalo de Confianza para β
Un intervalo de confianza del (1 - α) 100% para el parámetro β en la línea de regresión µ Y/xi = α + βxi
es:
b-
tα/2 s
S xx
< β <b+
tα/2 s
S xx
donde tα/2 es un valor de la distribución t con n-2 grados de libertad, que deja a su derecha una
5
Probabilidad y Estadística (I.I.)
Tema 8
probabilidad α/2.
Contraste de Hipótesis β = β0
Para probar la hipótesis nula H0 de que β = β0 en contra de la alternativa apropiada, de nuevo se
utiliza la distribución t con n-2 grados de libertad para establecer la región crítica.
H0 : β = β0
H1 : β ≠ β0
tb =
H0 : β ≤ β0
H1 : β > β0
H0 : β ≥ β0
H1 : β < β0
R.C. = {tb / | tb |> tα/2 , n − 2}
b - β0
s
R.C. = {tb / tb > tα , n − 2}
R.C. = {tb / tb < − tα , n − 2}
S xx
Intervalo de Confianza para α
Un intervalo de confianza del (1-α) 100% para el parámetro α en la línea de regresión µ
es:
n
a-
2
n
tα/2 s ∑i=1 xi
tα/2 s ∑i=1 xi
<α < a +
n S xx
n S xx
Y/xi
= α + βxi
2
donde tα/2 es un valor de la distribución t con n-2 grados de libertad.
NOTA:
El α del nivel de significación y el α del parámetro de la línea de regresión son diferentes.
Contraste de Hipótesis α = α0
Para probar la hipótesis nula H0 de que α = α0 en contra de la alternativa apropiada, de nuevo se
utiliza la distribución t con n-2 grados de libertad para establecer la región crítica.
H 0 :α = α 0
H 1 :α ≠ α 0
ta =
a -α0
2
s ∑in=1 xi
n S xx
H 0 :α ≤ α 0
H 1 :α > α 0
H 0 :α ≥ α 0
H 1 :α < α 0
R.C. = {t a / | t a |> tα/2 , n − 2}
R.C. = {t a / t a > tα , n − 2}
R.C. = {t a / t a < − tα , n − 2}
5.- Predicción:
La ecuación y = a + b x puede utilizarse para pronosticar o predecir la respuesta media µY/x0 en x =
x0, donde x0 no es necesariamente uno de los valores preseleccionados, o puede utilizarse para
predecir un valor sencillo y0 de la variable Y0 cuando x = x0. Esto es, si X es el peso humano, e Y es la
estatura humana, podemos estar interesados en obtener un intervalo de confianza sobre la media
verdadera de estatura de los humanos µY/x0 en un peso elegido x0=70 kg; o bien podemos estar
interesados en un intervalo de confianza sobre una estatura individual Y0 en un peso elegido x0 = 70
kg.
Se esperaría que el error de predicción fuera más grande cuando se pronostica un valor que cuando
se predice una media. Esto afectará la amplitud de los intervalos para los valores que se pronostican.
6
Probabilidad y Estadística (I.I.)
Tema 8
Por tanto, lo que en estimación puntual se hacía igual para ambos casos, en estimación por intervalos,
da lugar a dos intervalos diferentes.
Intervalo de Confianza de µY/x0
Un intervalo de confianza del (1-α) 100% para la respuesta media µY/x0 es:
2
2
1 ( x0 - x )
1 ( x0 - x )
+
< µ Y < yˆ 0 + tα/2 s
+
yˆ 0 - tα/2 s
n
n
x0
S xx
S xx
donde tα/2 es un valor de la distribución t con n-2 grados de libertad.
Intervalo de Predicción para Y0
Un intervalo de predicción del (1-α) 100% para una sola respuesta y0 es:
2
2
1 ( -x)
1 ( -x)
< µ Y < yˆ 0 + tα/2 s 1 + + x0
yˆ 0 - tα/2 s 1 + + x0
n
n
x0
S xx
S xx
donde tα/2 es un valor de la distribución t con n-2 grados de libertad.
6.- Evaluación de la intensidad de la relación lineal
Hasta ahora el método que teníamos de saber cuándo era conveniente suponer que la relación entre
las variables era lineal, era sólo mediante el diagrama de dispersión. Pero ya en su momento
habíamos comentado que este argumento era muy débil y que existían otros métodos de saberlo.
Básicamente son dos los métodos de averiguarlo.
Método del Análisis de la Varianza
Es un procedimiento que subdivide la variación total de la variable dependiente Y en sus componentes
más significativas.
Supóngase que se tienen n puntos de datos experimentales en la forma usual (xi,yi) y que se estima la
línea de regresión ajustada. Habíamos obtenido SSE = Syy - b Sxy, de donde:
Syy = b Sxy + SSE
o bien, haciendo
SST = Syy
SSR = b Sxy
tenemos:
SST = SSR + SSE
Hemos descompuesto la variación total de la variable dependiente en dos componentes más
significativas para el experimentador.
SST = Suma total corregida de los cuadrados
SSR = Suma de los cuadrados de regresión. Refleja la cantidad de variación de los
valores de y explicados por el modelo, por la línea recta en este caso.
SSE = Suma de los cuadrados del error residual. Refleja la variación alrededor de la
línea de regresión. Inexplicada por la recta de regresión.
Estamos entonces interesados en probar la hipótesis:
La hipótesis nula afirma que el modelo es
H0 : β = 0
H1 : β ≠ 0
µY/x = α, es decir, que las variaciones de y son
7
Probabilidad y Estadística (I.I.)
Tema 8
independientes de los valores de x y totalmente aleatorias. La hipótesis alternativa afirma, en
cambio, que una porción significativa de la variación de y se explica mediante el modelo de regresión
lineal de y sobre x.
Bajo las condiciones de la hipótesis nula, puede demostrarse que SSR/σ2 y SSE/σ2 son valores de
variables independientes χ2 con 1 y n-2 grados de libertad respectivamente, y SST/σ2 también es un
valor de variable χ2 con n-1 grados de libertad.
Para probar la hipótesis nula se usa el estadístico:
SSR
SSR
MSR SSR
σ
f=
= 1 =
= 2
SSE
SSE
MSE
s
: (n − 2)
(n − 2)
σ2
2
:1
y se rechaza H0 con un nivel de significación α cuando f > F α , (1, n-2).
Análisis de la varianza para probar β = 0
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Regresión
SSR = b Sxy
Error
SSE = Syy - b Sxy
n-2
Total
SST = Syy
n-1
1
Cuadrados medios
Estadístico
calculado
MSR = SSR/1
MSE = SSE/n-2
f = MSR/MSE
Región Crítica = [ F(1, n-2), α, +∞)
Método del Coeficiente de Determinación
Este método consiste en calcular un estadístico, cuyo valor nos indicará si se puede considerar
aceptable o no el modelo de regresión lineal. Por estar basado en el coeficiente de correlación
empezaremos explicando la CORRELACION.
El análisis de CORRELACION intenta medir la fuerza de la relación lineal entre dos variables, por
medio de un simple número que recibe el nombre de coeficiente de correlación de Pearson, y viene
dado por:
ρ xy =
cov(X,Y)
cov(X,Y)
=
VAR(X)VAR(Y)
σ xσ y
donde, como sabemos, cov(X,Y) = E[(X - E[X]) (Y - E[Y])] = E[X Y] - E[X] E[Y]
Si valores pequeños de x están asociados a valores pequeños de y, y valores grandes de x están
asociados a valores grandes de y, entonces (X - E[X]) y (Y - E[Y]) tendrán el mismo signo, y por
tanto (X - E[X]) (Y - E[Y]) >0 ⇒ cov(X,Y) >0
Análogamente si valores pequeños de x están asociados a valores grandes de y, y valores grandes de
x están asociados a valores pequeños de y, entonces (X - E[X]) y (Y - E[Y]) tendrán distinto signo, y
por tanto (X - E[X]) (Y - E[Y]) <0 ⇒ cov(X,Y) <0
Este estadístico sólo toma valores entre comprendidos entre -1 y 1, aunque no lo vamos a demostrar
8
Probabilidad y Estadística (I.I.)
Tema 8
( |ρxy| ≤ 1).
El valor del coeficiente de correlación poblacional ρxy es cero cuando β = 0, lo cual ocurre
esencialmente cuando no hay regresión lineal, es decir, la recta de regresión es horizontal y
cualquier conocimiento de X no es útil para predecir Y.
Los valores de ρxy = ± 1 sólo ocurren cuando se tiene una regresión lineal perfecta entre las dos
variables. Entonces, un valor ρxy = +1 implica una relación lineal perfecta con una pendiente positiva,
mientras que un valor de ρxy = -1 resulta en una relación lineal perfecta con una pendiente negativa.
Valores de ρxy cercanos a la unidad en magnitud, implican buena correlación o asociación lineal entre
X e Y, mientras que valores cercanos a cero, implican poca o ninguna correlación (que no es lo mismo
que que las variables sean independientes).
ρxy = 0 ⇔ X, Y están incorreladas, que no implica que X e Y sean independientes.
ρxy = 0
X,Y incorreladas: puntos al azar
ρxy = 0
X,Y incorreladas: relacionadas no linealmente
ρxy = +1
ρxy = -1
Volvemos a encontrarnos con el problema de siempre: cov(X,Y), V(X) y V(Y) son parámetros
poblacionales que serán, en general, desconocidos y habrá que estimarlos, con lo que tampoco
conoceremos el valor de ρxy, sino el de su estimación:
ρ̂ xy = rxy
cˆov(x, y) = E [X .Y ] − E [ X ]E [Y ]
cˆov(x, y) =
cˆov(x, y) =
1 n
 1 n  1 n 
y
xi  ∑ y i 
∑ xi i  n ∑
n i =1
i =1
 n i =1 
n
n
n
i =1
i =1
2
i =1
n ∑ xi y i - ∑ x i ∑ y i
n
9
=
S xy
n
Probabilidad y Estadística (I.I.)
Tema 8
1 n 2  1 n 2
2
ˆ
=
V
(x)
=
xi 
ˆ
σ x
∑ xi -  n ∑
n i =1
i =1

1 n 2  1 n 2
2
ˆ
=
V
(y)
=
ˆ
σ y
∑ y -  ∑ yi 
n i =1 i  n i =1 
2
 n 
n∑ x -  ∑ xi 
i =1
 i =1  = S xx
σˆ 2 x =
2
n
n
n
2
 n 
n∑ y -  ∑ yi 
i =1
 i =1  = S yy
σˆ 2 y =
2
n
n
n
2
i
S xy
ρ̂ xy = r xy =
S xx S yy
=b
2
i
S xx
S yy
donde rxy es el coeficiente de correlación muestral, que tiene el mismo signo que b, es decir, una
correlación positiva (negativa) implica una recta de regresión con pendiente positiva (negativa) y
viceversa. Una vez conocido esto, podemos calcular:
2
2
xy
r =
S xy
S xx S yy
=
SSR
S yy
que recibe el nombre de coeficiente de determinación muestral y representa la proporción de la
variación de Syy explicada por la regresión de Y en X, es decir, SSR.
SSE = S yy - b S xy
SSE
S yy
SSE
= 1- b
S xy
S xy
como b =
S yy
S xx
2
S xy
= 1 - r 2xy
S yy
S xx S yy
SSE S yy - SSE SSR
2
=
=
r xy = 1 S yy
S yy
S yy
= 1-
r2xy * 100 % es el porcentaje de la variación total de Y que puede ser explicado por la recta de
regresión o que es atribuible a la relación lineal entre X e Y.
Un valor de r2xy = 0.89, indica que aproximadamente el 89% de la variación de los valores de Y se
deben a una relación lineal con X.
Se puede realizar otro contraste de hipótesis equivalente al de β = 0 con el coeficiente de
correlación, para ver si es apropiado el método de regresión lineal.
H0: ρxy = 0 (No es buena la regresión lineal)
H1: ρxy ≠ 0
El estadístico del contraste es:
t=
r xy n - 2
1- r
2
xy
siendo R.C. : t / | t |> t α , n − 2 
2


que bajo H0, sigue una distribución t de Student con n - 2 grados de libertad.
10
Probabilidad y Estadística (I.I.)
Tema 8
EJERCICIO EJEMPLO
Estamos midiendo la relación entre la altura (X) y la longitud (Y) de la concha de cierta especie de
lapas (PATELLOIDA CANARIENSIS) que se encuentra en las costas de Canarias. Se obtienen pares
de mediciones como estas:
X
0.9
1.5
...
2.7
Y
3.1
3.6
...
6.3
cuyas sumatorias son las siguientes:
n
∑i=1 xi= 56.5
2
n
∑i=1 xi = 117.68
n
∑i=1 yi= 151.1
2
n
∑i=1 xi y i= 311.96
n
∑i=1 yi = 832.85
n = 28
Se pide calcular:
a) Coeficiente de correlación y recta de regresión de Y sobre X
b) ¿Es válido el modelo lineal?. Justificar la respuesta.
c) Intervalo de confianza al 90% de la longitud promedio de las lapas cuya altura es 2.
d) Intervalo de confianza al 95% de la longitud de una lapa de altura 2.
NOTA: Para los intervalos de confianza, tómese α = 0.01
SOLUCION
a)
2
2
n ∑in=1 xi2-( ∑in=1 xi )
28(117.68) - (56.5 )
=
= 3.6711
28
n
n ∑in=1 y i2-( ∑in=1 yi )2 28(832.85) - (151.1 )2
=
= 17.4496
S yy =
28
n
n ∑in=1 xi y i -( ∑in=1 xi )( ∑in=1 yi ) 28(311.96) - (56.5)(151.1)
=
= 7.0618
S xy =
n
28
S xy
b = βˆ =
= 1.9236
S xy
= 0.8823
r xy =
S xx
S
S
xx
yy
n
n
∑ y
∑ x
2
a = αˆ = y - b x = i=1 i - b i=1 i = 1.5148
r xy = 0.7785
n
n
yˆ = a + bx = 1.5148 + 1.9236 x
S xx =
Luego el 77.85% de la variación de Y puede ser atribuida a su asociación lineal creciente (rxy > 0) con
X
b) La cuestión que se nos plantea en este apartado es ¿Es suficiente la cantidad r2xy obtenida en el
apartado anterior?. Para averiguarlo realizamos el contraste:
H0: β = 0
H1: β ≠ 0
para el que se realiza el siguiente análisis de la varianza:
11
Probabilidad y Estadística (I.I.)
Tema 8
Análisis de la varianza para probar β = 0
Fuente de
variación
Suma de cuadrados
Grados
libertad
Cuadrados
medios
Regresión
SSR = bSxy = 13.5843
Error
SSE = Syy - bSxy= 3.8654
n-2 = 26
Total
SST = Syy= 17.4496
n-1= 27
1
MSR = SSR/1 =
13.5843
Estadístico
calculado
f =MSR/MSE
f = 91.35
MSE = SSE/26 =
0.1487
R.C = [ F (1, 26) ,0.05 , +∞) = [4.23, +∞)
como 91.35 cae dentro de la región crítica, se rechaza H0, por lo que se acepta como válido el modelo
lineal.
Otro contraste equivalente que podía haberse realizado es:
H0: ρxy = 0 (no es válido)
H1: ρxy ≠ 0 (es válido)
t n-2 =
r xy n - 2
0.8823 26
=
=
4.499
= 9.56
0.4706
1 - 0.7785
1 - r2
R.C : t / | t |> t n- 2,α = {t / | t |> t 26,0.025}= {t / | t |> 2.056}
{
2
}
9.56 pertenece a la región crítica, luego se rechaza H0 y se considera válido el modelo lineal.
c)
2

1 ( x0 - x ) 

I µ y/ x0 ,α =  yˆ 0 ± t n- 2,α s
+
2
n
S xx 

t n- 2, α = t 26,0.05 = 1.706
2
x0 = 2
t n- 2,α s
2
2
1 ( x0 - x )
= 1.706 * 0.3856 * 0.1892 = 0.1245
+
n
S xx
yˆ 0 = 1.5148 + 1.9236 * 2 = 5.362
SSE 3.8654
=
= 0.1487 s = 0.3856
n-2
26
( x0 - x )2
2
= 0.000088
( x0 - x ) = 0.000324
S xx
I µ y/ x0 ,0.1 = [5.2375, 5.4865]
x = 2.018 s 2 =
12
Probabilidad y Estadística (I.I.)
Tema 8
d)
2

1 ( x0 - x ) 
α

I y0 ,α =  yˆ 0 ± t n- 2, s 1 + +
2
n
S xx 

t n- 2,α = t 26,0.025 = 2.056
2
2
α
t n- 2,
2
1 (x - x)
s 1+ + 0
= 2.0566 * 0.3856 * 1.0177 = 0.807
n
S xx
para α = 95%
I y0 ,0.05 = [4.555, 6.169]
2

1 (x - x) 

I y0 ,α =  yˆ 0 ± t n- 2,α s 1 + + 0
2
n
S xx 

t n- 2,α = t 26,0.05 = 1.706
2
2
1 ( x0 - x )
= 1.706 * 0.3856 * 1.0177 = 0.6695
t n- 2,α s 1 + +
2
n
S xx
para α = 90%
I y0 ,0.1 = [4.6925, 6.032]
13
Descargar