Guión de la práctica

Anuncio
Ingenierı́a Industrial.
Asignatura: Ampliación de Estadı́stica
(Curso 03/04).
Prof : Mathieu Kessler
Práctica . Análisis de regresión múltiple con Statistix. (II)
1.
Ejemplo detallado : producción de trigo.
En el estado de Iowa, se intentó relacionar la producción de trigo con la cantidad de lluvia caı́da y la
temperatura media durante los tres meses que corresponden a la fase de crecimiento del trigo y el mes de
cosecha. En el fichero trigo.txt están los datos correspondientes a 32 años de mediciones, con las variables
a: año
r0,r1,r2 : cantidad de lluvia meses de crecimiento
prod : producción t0,t1,t2 : temperatura media meses de crec.
r3,t3 . lluvia y temp. mes de cosecha.
1.
Representar la producción en función del año.
2.
Calcular la matriz de correlación de las variables del problema. ¿Cúales son las variables que parecen
tener mayor influencia en la producción?
3.
Realizar el ajuste lineal de la producción sobre las variables r0 a r3 y t0 a t3.
¿Valor de R2 y σ̃ 2 ? Según la columna de p-valores ¿cuál serı́a la primera variable que podemos
suprimir en el modelo?
4.
Vamos a realizar de manera automatı́ca la selección de modelo :
Seleccionamos la opción Statistix →Linear models→Stepwise regression. y aparece la ventana siguiente
Tenemos que rellenar los cuadros del medio, pasando desde el cuadro ”Variables”, las variables que
decidimos siguiendo las reglas siguientes :
1
Cuadro : ”Dependent variable” : se trata de la variable respuesta y, en nuestro caso, la producción de trigo.
Cuadro ”Forced independent var.” : si queremos que nuestro modelo contenga a la fuerza
algunas variables.
Cuadro ”Starting independent var. ” : si queremos que el programa empieze la regresión con
ciertas variables en el modelo. En particular si queremos hacer eliminación hacia atrás, pasamos
todos las variables regresores en este cuadro.
Cuadro ”Non forced independent var.” las variables que son candidatas para entrar en el
modelo.
Podemos decidir del nivel que permite entrar o salir una variable en el modelo.
El valor de ”P to enter” corresponde al nivel de α que sirve de frontera para incorporar
una nueva variable en el modelo, es decir que si no se rechaza con 100(1-α) % de confianza la
hipótesis nula que el coeficiente de la nueva variable candidata es nulo, se incorpora la variable,
mientras que el valor de ”P to exit” corresponde al nivel de α para el contraste correspondiendo
a una variable ya en el modelo.
Si queremos hacer eliminación hacia atrás ”pura” debemos especificar que el ”P to enter” es
0, para que una variable eliminada no pueda volver a entrar en el modelo. Si queremos hacer
selección hacia delante ”pura” especificamos ”P to exit” como 1, para que una variable que ha
entrado en el modelo no pueda volver a salir. Si queremos hacer regresión por pasos en el que
una variable ya seleccionada puede salir o una variable ya descartada puede volver a entrar
especificamos los dos valores ”p to exit ” y ”p to enter” iguales a 0.05 por ejemplo .
Podemos decidir entre dos tipos de informes breve o completo en el cuadro ”Report”. Se recomienda
la opción ”Full”.
En nuestro caso, (supongamos que en un primer intento el año no es un regresor posible)
5.
a)
Eliminación hacia atrás :
Variables que van desapareciendo del modelo por orden :
.......................................................................................
.......................................................................................
Modelo definitivo con p-valores, R2 , σ̃ 2 . :
.......................................................................................
.......................................................................................
b)
Selección hacia delante :
¿Cuáles son los pasos que ha seguido el programa.? Modelo definitivo con p-valores, R2 , σ̃ 2 .
.......................................................................................
.......................................................................................
c)
Regresión por pasos .
¿Cuáles son los pasos que ha seguido el programa.? Modelo definitivo con p-valores, R2 , σ̃ 2 .
.......................................................................................
.......................................................................................
Realizar el ajuste lineal correspondiente al (a los) modelo (s) del apartado anterior. Examinar los
residuos. Introducir el año en el modelo. ¿Mejora el ajuste?
2
2.
2.1.
Ejercicio.
Motor de cohete
Las propiedades de un motor de cohete están influı́das por un cierto número de condiciones. Una de
las propiedades más importantes es la presión conseguida en la cámara. Se quiere desarrollar un modelo
predictivo para la presión en cámara en función de las caractéristicas siguientes : ”Temperature of cycle” (x2 ), ”Vibration”(x3 ), ”Drop(Shock)”(x4 ) y ”Static Fire”(x5 ). Los datos están en el fichero ASCII:
rocket.txt.
1.
Calcule la matriz de correlación de las variables del problema. ¿Cuál es la primera variable que deba
entrar en el modelo de regresión? Realize el ajuste lineal simple de la presión sobre esta variable, y
guarde los valores ajustados en una variable llamada AJUREG.
........................................................
.......................................................
2.
¿Disponemos de un modelo de regresión con réplicas?
Para encontrar las combinaciones idénticas de los regresores, se puede ordenar los datos utilizando
la opción Sort cases del menu Data. Especificando en el cuadro ”Key variables” las variables x2 x3
x4 y x5, el programa ordena los datos utilizando como primer criterio valores crecientes de x2, en
caso de igualdad de valores de x2, ordena los datos utilizando valores de x3, etc...Crear una nueva
variable llamada ”Factor” que tome valores enteros 1, 2, 3, ...etc que reflejen valores distintos del
vector (x2, x3, x4, x5). ¿Cuántos valores distintos del vector (x2, x3, x4, x5) aparecen en los datos?
Realizar el análisis de la varianza de presión respeto a los valores de Factor.
Fuente de variación
Entre los grupos
Dentro de los grupos
Suma de cuadrados
....
....
G.L
...
...
Cuad. Medio
....
....
F
....
Guarde los valores ajustados del análisis de la varianza ( que corresponden a ȳi ), en una variable
llamada AJUAOV.
3.
Al tener réplicas podemos realizar una prueba de falta de ajuste de nuestro modelo lineal completo.
Plantear las dos hipótesis para esa prueba:
→ −
→2
−
Podemos calcular Ŷ1 − Ŷ0 de manera rápida utilizando Statistix: gracias a la opción Data→transformations
definimos una nueva variable llamada D que contenga los valores de (AJUREG-AJUAOV)2 . Utilizamos la Statistics→ Summary Statistics
Statistics para calcular la suma de los
→Descriptive
→ −
→2
−
elementos de D, suma que coincide con Ŷ1 − Ŷ0 .
Fuente de variación
anova-regresión
observados - anova
Suma de cuadrados
→ −
→2
−
Pk
2
i=1 ni (ȳi − ŷi ) = Ŷ1 − Ŷ0 = .......
−
→2
−
Pk Pni
2
→
= ..........
(y
−
ȳ
)
=
Y
−
Ŷ
ij
i
1
i=1
j=1
G.L
Cuad. Medio
F
k − 2 = ...
..........
.........
n − k = ...
.........
Calcular el p-valor asociado, ¿cuál es tu conclusión?
4.
En un intento de introducir términos de orden superior, definir nuevas variables que contengan los
productos x2 · x3 , x2 · x4 , x2 · x5 , x3 · x4 , x3 · x5 y x4 · x5 .
3
5.
Calcular los coeficientes de correlacion partial de todos esos productos, ası́ como de las variables x2 , x3 y x4 con la variable y, después de ajustar x5 . Esto se realiza utilizando la opción
Statistics→Linear Models→ Partial correlations, y especificando la variable independiente ( en
nuestro caso y), la variable o las variables respecto a las cuales hemos ajustado ( en nuestro caso
x5 ) y las variables cuya correlación parcial con y después de haber sido ajustadas sobre x5 nos
interesa.
6.
Basándose en el apartado anterior, ¿cuál es el término que habrı́a que incorporar? Realizar el ajuste
de regresión lineal múltiple después de haber introducido el nuevo regresor. Guarde los residuos en
AJUREG2, y rellene la tabla siguiente correspondiente a la prueba de falta de ajuste.
Fuente de variación
anova-regresión
observados - anova
Suma de cuadrados
Pk
n (ȳ − ŷi )2 = .......
Pk i=1
Pni i i
2
i=1
j=1 (yij − ȳi ) = ..........
G.L
k − 3 = ...
n − k = ...
Cuad. Medio
..........
.........
F
.........
7.
Volver a calcular los coeficientes de correlación parcial de las variables restantes despúes de ajustar
x5 , y x4 · x5 .¿Cuál es el regresor que habrı́a que incorporar al modelo ahora?
8.
Realizar el análisis de regresión por pasos, de y con los posibles regresores x2 a x5 y todos los
terminos de interacción ( es decir los productos).
4
Descargar