REGRESION LINEAL SIMPLE

Anuncio
REGRESION LINEAL SIMPLE
El análisis de regresión lineal simple es una técnica estadística para establecer la relación entre dos variables
mediante un modelo matemático establecido.
Existen dos variables, las cuales suponemos que están relacionadas entre sí, es decir, una ejerce cierto
efecto sobre la otra. El objetivo es establecer un modelo que nos sirva para determinar la relación que existe
entre dichas variables.
Las variables a manejar son dos, la variable independiente, X, y la variable dependiente, Y. La variable
independiente se considera como una variable física y controlable, mientras que la variable dependiente es
considerada como una variable aleatoria y medible.
Se puede establecer la relación entre dichas variables por medio de una línea recta (al suponerse dicha
relación como lineal).
Y
Y = a + bX
X
La ecuación de la línea está dada por Y = a + bX, donde a es el punto de intersección de la recta con el eje Y
mientras que la b es la pendiente, es decir, la inclinación de la recta.
El modelo de regresión lineal simple es, de hecho, la ecuación de la línea; para efectos prácticos definimos
dicho modelo mediante:
Y =  + X
Ing. Armando Jiménez Lizcano
1
Donde 0 y 1 son los parámetros del modelo.
0 representa la ordenada en el origen, esto es, el punto donde la recta corta el eje Y.
1 representa la pendiente, esto es, el cambio esperado en Y por cada incremento unitario en X.
ESTIMACION DE PARAMETROS
El modelo anteriormente descrito representa la
X y Y. Es necesario encontrar los valores de 0
parámetros.
Para encontrar estos estimadores, partiremos
valores de X y de Y:
X1
X2
X3
.
.
.
Xn
Y1
Y2
Y3
.
.
.
Yn
relación real existente entre las dos variables,
y 1 que nos sirvan para estimar dichos
de una muestra aleatoria de tamaño n para
Al ser una muestra aleatoria, el error estará presente en dichas mediciones. Debemos considerar dicho error
en el modelo de regresión a fin de representar, mediante éste, cada una de las observaciones anteriores:
Y = 0 + 1X + 
Donde  es un error aleatorio con media cero y varianza 2.
Al utilizar el modelo anterior para representar cada observación de Y, éstas quedarán de la siguiente manera:
Ing. Armando Jiménez Lizcano
2
Y1 = 0 + 1X1 + 1
Y
Y2 = 0 + 1X2 + 2
Y3 = 0 + 1X3 + 3
.
.
.
.
.
.
.
.
.
Y = 0 + 1X
.
.
.
Y = 0 + 1X + 
Yn = 0 + 1Xn + n
X
En general, Yi = 0 + 1Xi + i para i = 1, 2, 3, ..., n
METODO DE MINIMOS CUADRADOS
Para encontrar los estimadores de los parámetros, utilizaremos el método de mínimos cuadrados.
El método de mínimos cuadrados consiste en minimizar la función de mínimos cuadrados.
La función de mínimos cuadrados está dada por:
n
L    i2
i 1
Si de Yi = 0 + 1Xi + i despejamos i y sustituimos dicha expresión en L:
n
n
i 1
i 1
L    i2   Yi   0  1 X i 
2
Buscaremos aquellos valores de  0 y  1 que minimicen la ecuación anterior. Para esto, derivaremos la función
y evaluaremos con respecto a ̂ 0 y ̂1 ( los estimadores) e igualaremos a cero.
Ing. Armando Jiménez Lizcano
3
L
 0
0
ˆ 0 ,ˆ1
L
1
0
ˆ 0 ,ˆ1
Dichas derivadas resultan en:
L
 0
L
1
n
ˆ 0 , ˆ1
 2 Yi  ˆ 0  ˆ1 X i   0
i 1
n
ˆ 0 , ˆ1
 2 Yi  ˆ 0  ˆ1 X i X i  0
i 1
Lo cual nos lleva a las siguientes ecuaciones conocidas como ecuaciones normales de mínimos
cuadrados.
n
n
i 1
i 1
 Yi  nˆ 0  ˆ1  X i  0
n
n
n
i 1
i 1
i 1
 X iYi  ˆ 0  X i  ˆ1  X i2  0
Despejando ˆ 0 y ˆ1 :
 0  Y  1 X
n
n
1 
Ing. Armando Jiménez Lizcano
X Y
i 1
i i

n
 X i  Yi
i 1
i 1
n
 n

 Xi 
n
X i2   i 1 

n
i 1
2
4
Si definimos las siguientes expresiones:
Sxx, como la suma corregida de los cuadrados de X:
n
Sxx    X i  X 
2
i 1
 n

X



i
n
i 1


2
  Xi 
n
i 1
2
y Sxy, como la suma corregida de los productos cruzados de X y de Y:
n
n
n
n
 X Y
i 1
i 1
n
Sxx   Yi  X i  X    X i Yi 
i 1
i
i 1
i
,
entonces ̂1 se puede expresar también como:
̂1 
Sxy
Sxx
Por lo tanto, el modelo de regresión lineal simple ajustado queda de la siguiente forma:
Yˆ  ˆ 0  ˆ1 X
donde ˆ 0 y ˆ1 son los estimadores de los valores verdaderos de la ordenada en el origen y la pendiente,
respectivamente.
INFERENCIA EN LA REGRESION LINEAL SIMPLE
Podemos generalizar sobre los parámetros del modelo a partir de la información obtenida de los estimadores
de éstos. Dicha generalización ( o inferencia estadística) se puede realizar ya sea mediante pruebas de
hipótesis o mediante intervalos de confianza.
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE
PARA LA ORDENADA EN EL ORIGEN
Deseamos probar la hipótesis de que 0 es igual a un valor determinado contra la alternativa apropiada,
digamos por ejemplo, diferente a dicho valor; esto es:
H 0 :  0   0,0
H a :  0   0,0
El estadístico de prueba apropiado será:
Ing. Armando Jiménez Lizcano
5
t0 
ˆ 0   0,0
1 X 2 
MSE 

 n Sxx
donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:
 2  MSE 
SSE
n2
en este caso SSE es la suma de los cuadrados del error y n – 2 son los grados de libertad del error.
SSE  Syy  SSR
Syy es la suma corregida de los cuadrados de Y o la suma total de cuadrados:
 n 
  Yi 
n
2
Syy   Yi   i 1 
n
i 1
2
y SSR es la suma de cuadrados de la regresión:
SSR  ̂1 Sxy
Retomando la hipótesis planteada:
H 0 :  0   0,0
H a :  0   0,0
t0 
ˆ 0   0,0
1 X 2 
MSE 

 n Sxx
este estadístico sigue una distribución t-student con v = n – 2 grados de libertad.
En el estadístico de prueba vemos que
1 X 2 
MSE 
 representa la desviación estándar para 0.
 n Sxx
Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t /2, n – 2, entonces rechazaremos
la hipótesis nula; aceptaremos la alternativa concluyendo que la ordenada en el origen es diferente al valor
con el cual la estamos comparando.
Ing. Armando Jiménez Lizcano
6
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hipótesis nula afirmando que la pendiente es
igual a un valor determinado (siempre que dicho valor sea diferente de cero), contra la alternativa apropiada,
por ejemplo que sea diferente a dicho valor:
H 0 :  1   1,0
H a :  1   1,0
el estadístico de prueba en este caso es:
t0 
ˆ 1  1,0
MSE
Sxx
Este estadístico también sigue una distribución t-student con v = n – 2 grados de libertad.
Del mismo modo, la expresión
MSE
representa la desviación estándar para 1.
Sxx
Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t/2, n – 2, entonces se rechaza la
hipótesis nula y se acepta la alternativa: la pendiente es diferente al valor representado por 1,0.
Un caso especial para la pendiente sería probar la hipótesis nula afirmando que la pendiente es igual a cero
contra la alternativa que sea diferente de cero.
También conocido como Prueba de Significancia, nos ayuda a determinar si la variable independiente tiene o
no efecto significativo sobre la variable dependiente.
Para realizar este procedimiento de prueba de hipótesis, descomponemos la suma total de cuadrados en dos
partes: la suma de cuadrados de la regresión y la suma de los cuadrados del error.
Syy  SSR  SSE
Entonces:
H 0 : 1  0
H a : 1  0
Ing. Armando Jiménez Lizcano
7
También hacemos uso de la tabla de análisis de varianza (ANOVA) para determinar el estadístico de prueba.
Dicha tabla se compone de lo siguiente:
Fuente de
variación
Suma de
cuadrados
Grados de
libertad
Regresión
SSR
1
Error
SS
n-2
Total
Syy
n-1
Media de
cuadrados
SSR
1
SSE
MSE 
n2
MSR 
Estadístico de
prueba
F0 
MSR
MSE
Este estadístico de prueba sigue una distribución F (Fisher)con v1 = 1 y v2 = n – 2 grados de libertad en el
numerador y en el denominador, respectivamente.
En este caso si el estadístico de prueba es superior que el valor de tablas (de la distribución F), Fn – 2, se
rechaza la hipótesis nula y por consiguiente se acepta la alternativa, concluyendo que la variable
independiente (X) si tiene efecto significativo sobre la variable dependiente (Y).
En las pruebas descritas anteriormente el valor de representa el nivel de significancia en la prueba de
hipótesis, esto es, la probabilidad de rechazar la hipótesis nula.
INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL SIMPLE.
Como vimos anteriormente, a parte de las pruebas de hipótesis; también podemos generalizar sobre los
parámetros a partir de los estimadores, mediante intervalos de confianza. Esto es, encontraremos dos límites,
inferior y superior, dentro de los cuales se encontrará el valor verdadero del parámetro del modelo en
cuestión.
Así, para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este parámetro está dado
por la siguiente ecuación.
ˆ 0  t
2
,n  2
1 X 2 
1 X 2 
MSE 
   0  ˆ 0  t ,n2 MSE 

2
 n Sxx
 n Sxx
Aquí, como 0 representa solamente una posición, no debe existir problema alguno en cuanto a la conclusión
de los resultados obtenidos.
Ing. Armando Jiménez Lizcano
8
Igualmente, también podemos calcular un intervalo de confianza de (1 - ) 100%, para la pendiente verdadera
del modelo mediante la siguiente expresión.
ˆ 1  t
2
,n  2
MSE
MSE
 1  ˆ 1  t ,n2
2
Sxx
Sxx
En este caso la conclusión si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en  a  1  b ; la conclusión apropiada será que por cada incremento en X,
Y, disminuirá, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sería a  1  b ; la conclusión será, en este caso, que por cada
incremento en X, Y se incrementará, en promedio, por lo menos a y a lo mucho b veces.
Si el resultado del intervalo es  a  1  b , en este caso, solamente concluiremos que no se puede afirmar
que X tenga efecto sobre Y.
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA PREDICCION
FUTURA
El modelo de regresión lineal simple ajustado Y  ˆ 0  ˆ1 X nos permite establecer como es la relación entre
X y Y, de que medida X afecta a Y. También podemos utilizar este modelo para predecir un valor futuro de Y
dado un valor determinado de X.
Esto es, ¿Cuál es el valor esperado de Y cuando X = X0?, solamente hay que introducir el valor de X0 en la
variable X del modelo.
Yˆ  ˆ 0  ˆ1  X 0 
Podemos calcular intervalos de confianza tanto para la media de una serie de observaciones (para la recta
verdadera) como para una observación futura en particular.
El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, esta dado por la
ecuación:
Ing. Armando Jiménez Lizcano
9
Yˆ0  t
2
,n  2
 1 X 0  X 2 
 1 X 0  X 2 
MSE 
   y  Yˆ0  t ,n2 MSE 

2
Sxx 
Sxx 
 n
 n
El intervalo de confianza de (1 - ) 100% para una observación futura de Y cuando X = X0, está dado por la
expresión:
ˆ 0  t
Y
2
,n 2
 1 X 0  X2 
 1 X 0  X2 
ˆ
MSE 1  
  Y0  Y0  t  ,n2 MSE 1  

2
Sxx 
Sxx 
 n
 n
Si deseamos determinar un intervalo de confianza de (1 - ) 100% para k observaciones futuras haremos:
Yˆ0  t
2
,n  2
 1 1 X 0  X 2 
 1 1 X 0  X 2 
MSE  
  Y0  Yˆ0  t ,n2 MSE 

2
Sxx 
Sxx 
 k n
 k n
MEDIDAS DE ADECUACION DEL MODELO
El siguiente paso ahora es determinar si el modelo calculado nos sirve para representar la relación entre las
variables.
Para esto, el modelo tiene que pasar una serie de pruebas ó medidas de adecuación. Dichas medidas son:
El análisis de los residuos
El coeficiente de determinación y
La prueba de falta de ajuste.
ANALISIS DE LOS RESIDUOS
Este procedimiento se emplea para determinar o analizar el comportamiento de la variación de los residuos o
los errores.
Mediante el modelo de regresión lineal simple, calculado a partir de n observaciones en X y Y, podemos
predecir valores estimados de Y para valores determinados de X.
La diferencia entre los valores observados de Y y los valores estimados de esta variable resulta en los errores
o residuos:
Ing. Armando Jiménez Lizcano
10
ei  Yi  Yˆi
Graficamos estos residuos ya sea contra los valores de X, contra los valores estimados de Y, contra los
valores observados de Y o contra la variable tiempo, si es que se tiene.
Basta comparar, esta gráfica con los siguientes patrones para llegar a una conclusión acerca de la adecuación
del modelo:
ei
ei
0
0
Yi
Yi
En este caso, la variación de los
residuos es constante.
El modelo lineal sí es adecuado
La variación crece a medida que la
variable Yi o el tiempo crece.
El modelo no es adecuado.
ei
ei
0
0
Y
La variación es irregular.
El modelo no es adecuado
i
Y
La variación de los residuos no es lineal.
El modelo lineal no es adecuado para expresar
la
i
relación entre X y Y.
Se puede ajustar dicha relación como un modelo
cuadrático, sólo basta agregar una variable de
orden superior.
Y = 0 + 1X + 2X2
COEFICIENTE DE DETERMINACION
Ing. Armando Jiménez Lizcano
11
El coeficiente de determinación nos permite evaluar qué tanta variación de los valores de Y se explica
mediante el modelo de regresión lineal simple.
Este coeficiente de determinación se representa por el símbolo R2; toma valores entre 0 y 1. A medida que se
acerca a 1 el modelo sí es adecuado puesto que explica la mayor cantidad de variación presente en los datos.
En tanto R2 se acerque a cero, el modelo deja de ser adecuado puesto que la cantidad de variación de los
datos que se explica mediante el modelo es pobre.
El coeficiente de determinación se expresa como un porcentaje y se calcula mediante:
R2 
SSR
 100%
Syy
PRUEBA DE FALTA DE AJUSTE
Esta prueba nos permite determinar si el modelo lineal se puede utilizar para representar la relación entre las
variables, principalmente en aquellos casos en los cuales para un mismo valor de X se tienen mas de una
observación en Y:
X1
X2
X3
.
.
.
Xm
Y11
Y21
Y31
.
.
.
Ym1
Y12
Y22
Y32
.
.
.
Ym2
Y13
Y23
Y33
.
.
.
Ym3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Y1n1
Y2n2
Y3n3
.
.
.
Ymnm
En general se tienen m niveles distintos de X.
En esta prueba partimos de la hipótesis nula:
H0 : El modelo se ajusta a los datos
Contra la alternativa:
Ha : El modelo no se ajusta a los datos
Para este procedimiento se requiere descomponer la suma de cuadrados del error en dos partes:
SSE = SSLOF + SSPE
Donde:
SSLOF es la suma de cuadrados debida a la falta de ajuste.
SSPE es la suma de cuadrados debida al “error puro”
Sabemos que:
Ing. Armando Jiménez Lizcano
12
SSE = Syy - SSR
Entonces:
m
SSPE  
i 1
 Y
ni
i 1
ij
2
 Yi 
Y
SSLOF  SSE  SSPE
El estadístico de prueba apropiado en esta prueba de hipótesis es:
SSLOF
F02 
SSPE
m2
nm
El cual sigue una distribución F con v1  m  2 y v2  n  m grados de libertad en el numerador y en el
denominador, respectivamente.
Si el estadístico de prueba es mayor que el valor de tablas F, m – 2, n – m se rechaza la hipótesis nula y por
consiguiente se acepta la alternativa , el modelo no se ajusta a los datos, por lo tanto, el modelo lineal no es
adecuado para relacionar X y Y.
CORRELACION
Hasta este momento hemos relacionado dos variables que suponemos de antemano tienen una relación entre
sí, esto es, cualquier cambio que provoquemos en la variable independiente, trae como consecuencia un
cambio en la variable dependiente.
Ahora bien, puede haber casos en que las dos variables, X y Y, sean aleatorias; ninguna tiene efecto sobre la
otra, pero sería apropiado relacionar dichas variables (siempre que sea posible).
Podemos relacionar dichas variables mediante el modelo de regresión lineal simple
Y   0  1 X
Aunque éste no nos dice nada sobre la existencia de la relación entre las dos variables.
Es el coeficiente de correlación el que va a determinar si las dos variables están relacionadas entre sí.
El coeficiente de correlación se representa mediante el símbolo  (rho). Se define mediante:

Ing. Armando Jiménez Lizcano
 xy
 x y
13
2
donde  xy
es la covarianza entre X y Y.
El coeficiente de correlación también se puede definir mediante
  1
x
y
Aquí vemos que el coeficiente de correlación está relacionado con 1 sin que esto represente que se trate de
conceptos iguales.
Y
Y
1 > 0
>0
Y
1 < 0
<0
1 = 0
=0
X
X
X
Los estimadores de los parámetros del modelo de regresión son los mismos calculados en temas anteriores:
ˆ 0  Y  ˆ 1 X
ˆ 1 
Sxy
Sxx
En tanto que el estimador del coeficiente de correlación se puede calcular mediante:
r
Sxy
Sxx Syy12
Ahora bien, si elevamos al cuadrado ambos lados de la igualdad:
Ing. Armando Jiménez Lizcano
14
Como
r2 
2
S XY
Sxx  Syy
r2 
Sxy  Sxy
Sxx  Syy
Sxy
 ̂ 1 :
Sxx
r2 
y
̂1 Sxy
Syy
̂1 Sxy  SSR :
entonces:
r2 
SSR
 R2
Syy
Concluimos que el coeficiente de correlación es igual a la raíz cuadrada del coeficiente de determinación
r
SSR
 R2
Syy
Vemos también que el coeficiente de correlación está relacionado con el coeficiente de determinación, aunque
son conceptos totalmente diferentes.
INFERENCIAS SOBRE EL COEFICIENTE DE CORRELACION
Al igual con los parámetros del modelo de regresión, también se pueden hacer inferencias sobre el coeficiente
de correlación verdadero; ya sea mediante pruebas de hipótesis o mediante intervalos de confianza.
PRUEBAS DE HIPOTESIS SOBRE EL COEFICIENTE DE CORRELACION
Para establecer si existe una relación verdadera entre X y Y, podemos realizar la siguiente prueba de
hipótesis:
H0 :   0
Ha :   0
Ing. Armando Jiménez Lizcano
15
Esta prueba es semejante a la prueba de significancia realizada en la regresión lineal simple, aunque tiene
una diferente connotación.
El estadístico de prueba apropiado en este caso es:
t0 
r n2
1 r 2
el cual sigue una distribución t-student con v = n – 2 grados de libertad.
Si el estadístico de prueba es mayor que el valor de tablas t/2,n – 2, se rechaza H0 y por consiguiente se acepta
la alternativa: el coeficiente de correlación es diferente de cero, por lo tanto, las variables sí están
relacionadas entre sí.
También se puede demostrar que el coeficiente de correlación verdadero es igual o diferente a cierto valor
determinado.
Partimos de la hipótesis nula
H 0 :   0
contra la alternativa
H a :   0
El estadístico de prueba es:


zo  tanh1 r   tanh1 0  n  3
donde
tanh 1 x  
1 1 x
In
2 1 x
Este estadístico de prueba sigue una distribución normal estándar.
Entonces, si el valor absoluto del estadístico de prueba es mayor que el valor de tablas z/2, se rechaza H0 y
se acepta la alternativa: el coeficiente de correlación verdadero es diferente del valor con el que se está
comparando.
INTERVALO DE CONFIANZA PARA EL COEFICIENTE DE CORRELACION
Podemos también establecer dos límites, inferior y superior, dentro de los cuales estará el coeficiente de
correlación verdadero.
El intervalo de confianza de (1 – )100% para el coeficiente de correlación está dado por:
Ing. Armando Jiménez Lizcano
16
z 
z



2
    tanh tanh 1 r    2 
tanh tanh 1 r  


n3 
n3 




donde
tanhx  
e x  ex
e x  e x
EJERCICIO
Para ejemplificar lo visto anteriormente, resolveremos el siguiente ejercicio utilizando las fórmula encontradas.
La resistencia del papel utilizado en la manufactura de cajas de cartón ( Y ) se relaciona con el porcentaje
de la concentración de madera dura en la pulpa original ( X ). En condiciones controladas, una planta
piloto manufactura 16 muestras, cada una de diferentes lotes de pulpa, y se mide la resistencia a la
tensión. Los datos son los siguientes.
Ing. Armando Jiménez Lizcano
X
Y
1.0
101.4
1.5
117.4
1.5
117.1
1.5
106.2
17
I.
II.
III.
IV.
V.
VI.
Ajuste un modelo de regresión lineal simple a los datos.
Pruebe la significancia y la falta de ajuste de la regresión. Utilice  = 5 %
Construya un intervalo de confianza del 90 % en la pendiente.
Construya un intervalo de confianza del 98 % en la intersección.
Construya un intervalo de confianza del 95 % sobre la línea de regresión real en X = 2.5
¿Qué porcentaje de la variabilidad en la resistencia del papel se explica a partir de la
concentración de madera dura en la pulpa original?
Ing. Armando Jiménez Lizcano
18
Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos primero calcular
las sumatorias de las variables X y Y:
n=
X =
X2 =
Y =
Y2 =
XY =
16
37.2
93.66
2075.6
272908.02
4937.97
Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirán determinar los
estimadores de los parámetros del modelo solicitado en el inciso 1 del ejercicio.
Sxy   XY 
 X  Y 
n
37.2  2075.6
Sxy  4937.97 
16
Sxy  112.2
 X 

2
Sxx   X
2
n
2

37.2
Sxx  93.66 
16
Sxx  7.17
Calculamos enseguida ̂1 a partir de las expresiones anteriores:
Sxy
Sxx
112.2
ˆ 1 
7.17
ˆ 1  15.6485
ˆ 1 
y el valor de ̂ 0 lo calcularemos mediante:
ˆ 0  Y  1 X
ˆ 0  129.725 15.64852.325
ˆ 0  93.3422
Ing. Armando Jiménez Lizcano
19
El primer inciso nos pide ajustar un modelo de regresión lineal simple a los datos:
Yˆ  93.3422  15.6485 X
De aquí concluimos lo siguiente:

La línea de regresión cortará el eje Y en y = 93.3422.

Por cada incremento en la concentración de madera dura en la pulpa original, la resistencia del papel
se incrementará 15.6485 veces en promedio.
Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirán realizar la prueba de significancia
del modelo.
 Y 
Syy   Y 
n
2
2
Syy  272908.02 
2075.62
16
Syy  3650.81
SSR  ˆ 1 Sxy
SSR  15.6485112.2
SSR  1755.7617
SSE  Syy  SSR
SSE  3650.81  1755.7617
SSE  1895.0483
Para la significancia del modelo planteamos las siguientes hipótesis:
H 0  1  0
H a  1  0
F0 
F0
SSR1 
SSEn  2
1755.7617 

1

1895
.
0483


14
1755.7617
135.3605
F0  12.9710
F0 
Ing. Armando Jiménez Lizcano
20
El valor de las tablas de la distribución F con un nivel de significancia del 5 % con 1 y 14 grados de libertad en
el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadístico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6. esto no lleva a
rechazar la hipótesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel sí está relacionada significativamente con la concentración de madera dura en
la pulpa original.
En la segunda parte del inciso 2 se pide probar también la falta de ajuste del modelo. Para esto
acomodaremos los valores de X, que estén repetidos en los datos, con sus respectivos valores de Y de la
siguiente forma:
X
1.5
117.4
117.1
2.0
2.5
2.8
3.0
131.9
111.3
125.1
134.3
146.9
123.0
145.2
144.5
 Y
Y
Y
106.2
113.5666
139.4
117.15
135.15
139.4
i
Y
=
2
(117.4 – 113.5666 )2+(117.1 – 13.5666)2+
(106.2 – 113.5666)2 =
(131.9 – 139.4 )2+(146.9 – 139.4)2=
(111.3 – 117.15 )2+(123.0 – 117.5)2=
(125.1 – 135.15 )2+(145.2 – 135.15)2=
(134.3 – 139.4 )2+(144.3 – 139.4)2=
81.4466
112.5
68.445
202.005
52.02
SSpe = 516.4166
La suma de los cuadrados del error es 1895.0483.
La suma de los cuadrados debida al error puro es 516.4166
Y la suma de los cuadrados debida a la falta de ajuste es 1895.0483 – 516.4166 = 1378.6317
En este caso tenemos n = 16 parejas de valores de X y de Y, y m = 10 valores distintos de X.
Planteamos las hipótesis:
H 0 : el modelo lineal se ajusta a los datos
H a : el modelo lineal no se ajusta a los datos
el estadístico de prueba es:
SSlof
F02 
SS pe
m2
nm
1378.6317
8
F02 
516.4166
6
F02  2.0022
El valor de las tablas de la distribución F con un nivel de significancia del 5 % y con 8 y 6 grados de libertad en
el numerador y el denominador, respectivamente, es 4.15
Ing. Armando Jiménez Lizcano
21
Comparando el estadístico de prueba con el valor encontrado en las tablas de la distribución F, vemos que
dicho estadístico es menor que 4.15, por lo tanto no podemos rechazar la hipótesis nula:
No se puede afirmar que el modelo lineal no se ajuste a los datos, por lo que podemos decir que dicho
modelo sí es adecuado para representar la relación entre las variables del ejercicio.
En el inciso 3 se pide calcular un intervalo de confianza del 90% para la pendiente de la línea de regresión.
Para esto necesitamos buscar en las tablas de la distribución t-student el valor de t0.5,14. Este valor en la tablas
es 1.761, por lo que el intervalo de confianza quedará de la siguiente manera:
ˆ 1  t
2
15.6485 1.761
,n  2
MSE
MSE
 1  ˆ 1  t ,n2
2
Sxx
Sxx
135.3605
135.3605
 1  15.6485 1.761
7.17
7.17
7.9970  1  23.2999
aquí concluiremos:
Se puede afirmar con un 90% de certeza que por cada incremento en la concentración de madera dura
en la pulpa original del papel, la resistencia del mismo se incrementará por lo menos 7.9970 y a lo
mucho 23.2999 veces en promedio.
En el inciso 4 se pide un intervalo de confianza del 98 % para la intersección de la recta. Buscaremos en este
caso el valor de t0.01,14 también en las tablas de la distribución t-student. Dicho valor es 2.624, el cual
utilizaremos para calcular el intervalo solicitado:
ˆ 0  t
2
,n  2
1 X 2 
1 X 2 
MSE 
   0  ˆ 0  t ,n 2 MSE 

2
 n Sxx
 n Sxx
 1 2.3252 
 1 2.3252 
93.3422 2.624 135.3605 



93
.
3422

2
.
624
135
.
3605

 

0
7.17 
7.17 
16
16
65.7575  0  120.9268
La conclusión será:
Se puede afirmar con un 98% de certeza que la línea de regresión cortará el eje Y en por lo menos
65.7575 y a lo mucho 120.9268.
Ing. Armando Jiménez Lizcano
22
Para el inciso 5 en el que se pide un intervalo de confianza del 95% para la línea de regresión verdadera en
X = 2.5, buscaremos el valor de t0.025,14 en las tablas de la distribución t-student. Este valor es 2.145.
También necesitamos determinar el valor estimado de Y cuando X es igual a 2.5; para esto introducimos dicho
valor en el modelo de regresión lineal calculado en el primer inciso:
Yˆ0  93.3422 15.6485X 0
Yˆ0  93.3422 15.64852.5
Yˆ0  132.4634
El intervalo de confianza para la respuesta media de Y queda determinado de la siguiente manera:
Y0  t
2
,n  2
 1  X  X 2 
 1  X 0  X 2 
MSE  0



Y

t
MSE

 

Y
0
 ,n  2
2
Sxx 
Sxx 
 n
 n
 1 2.5  2.3252 
 1 2.5  2.3252 
132.4634 2.145 135.3605 



132
.
4634

2
.
145
135
.
3605

 

Y
16
7
.
17
7.17


16

126.0150   Y  138.9123
en este caso concluiremos:
Existe un 95% de certeza al afirmar que cuando la concentración de madera dura en la pulpa original
del papel sea de 2.5%, su resistencia esperada será por lo menos 126.0150 y a lo mucho 138.9123.
Por último, el inciso 6 se pide determinar el porcentaje de la variabilidad en la resistencia del papel que se
explica mediante el modelo de regresión lineal simple. Esto es, calcular el coeficiente de determinación:
SSR
Syy
1755.7617
R2 
3650.81
2
R  0.4809
R2 
esto nos indica que:
El 48.09% de la variabilidad de la resistencia del papel se explica mediante el modelo de regresión
lineal simple:
Yˆ  93.3422  15.6485 X
como el valor de R2 es bajo, podemos concluir que el modelo no es adecuado para representar la relación
entre los valores de X y Y.
Podemos verificar la mayoría de los resultados obtenidos anteriormente en la siguiente hoja de cálculo
diseñada en Excel. Esta hoja arroja automáticamente los valores requeridos para resolver un problema de
regresión lineal simple.
Ing. Armando Jiménez Lizcano
23
X
1
1.5
1.5
1.5
2
2
2.2
2.4
2.5
2.5
Y
101.4
117.4
117.1
106.2
131.9
146.9
146.8
133.9
111.3
123
2.8
2.8
3
3
3.2
3.3
125.1
145.2
134.3
144.5
143.7
146.9
PARAMETROS
0
93.34215481
1
15.64853556

Yo
132.4634937
ESTADISTICOS DE PRUEBA
Fo
12.97105273
to1
8.879216556
to2
3.601534774
INTERVALOS DE CONFIANZA
65.75235768
< o <
120.9319519
7.995711933
< 1 <
23.3013592
126.0154945
< Yo <
138.9114929
106.6904439
< Yo <
158.2365436
COEFICIENTE DE DETERMINACION
X1 :
I.C. para o:
I.C. para 1:
I.C. para
Yo:
I.C. para Yo:
I.C. para :
2.5
0.98
0.9
0.95
0.95
0.95
R^2
0.48092497
COEFICIENTE DE CORRELACION
r
0.693487541
ESTADISTICO DE PRUEBA
to
3.601534774
INTERVALO DE CONFIANZA
0.301389825
Ing. Armando Jiménez Lizcano
<<
0.884970481
24
Descargar