Guión de la práctica

Anuncio
Ingenierı́a Industrial.
Asignatura: Ampliación de Estadı́stica
(Curso 03/04).
Prof : Mathieu Kessler
Práctica . Análisis de regresión con Statistix.
El menu Statistics->Linear models-> Linear regression permite un estudio completo de un conjunto de
datos usando el modelo de regresión lineal simple ası́ como la comprobación de las hipótesis del modelo.
Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente a un estudio de la
evolución del contenido en ácido ascórbico en verduras durante los procesos de secado y almacenamiento.
Se pretende expresar el contenido en % en ácido ascórbico en función del % de materia seca de la verdura.
Los datos están contenidos en el fichero ASCII espinaca.txt cuya primera linea contiene los nombres de
las variables. Después de haber importado los datos, procedemos al análisis:
Los pasos a seguir son los mismos que los vistos en clase :
1.
Representación de la nube de puntos.
Escogemos Statistics-> Descriptive Statistics-> Scater plot, y como es usual en Statistix, en la ventana
de diálogo que aparece, escogemos entre la lista de las variables ya definidas de la izquierda las variables
asociadas con los ejes Ox y Oy, es posible también ( pero opcional) especificar el rango de los ejes.
Puesto que parecen presentar una relación lineal podemos pasar al modelo de regresión lineal: Suponemos
que observamos una realización de las variables (Y1 , Y2 , ..., Yn ), independientes, la distribución de cada
Yi es N (µi , σ 2 ), donde las medias satisfacen:
µi = β1 + β2 xi para i = 1, ..., n
2.
(1)
Determinación de la recta de regresión
La opción Statistics-> Linear Models-> Linear regresion nos permite realizar de manera automática todos
los cálculos necesarios. Debemos especificar la variable dependiente (variable respuesta en el estudio) y
la variable independiente ( variable de control).
Nota : Si la casilla ”Fit constant” está desactivada, corresponde al modelo simplificado µi = β2 xi para
i = 1, ..., n, donde imponemos que la ordenada al origen es igual a 0. Empezamos por activar la casilla,
1
y después de los contrastes motivados por el principio de parsimonia (ver II), si el p-valor del contraste
H0 : β1 = 0, no es significativo para rechazar H0 , podemos considerar el modelo simplificado.
Al pulsar ok, aparece la ventana siguiente :
Interpretación de los resultados proporcionados :
(Ia) y (Ib) : En la columna titulada ”Coefficient” aparecen los estimadores de β1 ( en la fila ”Constant”
Sxy
y de β2 ( en la fila ”X”) : β̂1 = ȳ − β̂2 x̄ y β̂2 = Sxx
, mientras que la columna Std error, contiene una
2
2
2
σ
estimación de la varianza de esos estimadores : puesto que V ar(β̂1 ) = σn (1 + (x̄)
,
sxx ) y V ar(β̂2 ) =
q
q nsxx
2
(x̄)
σ̃ 2
σ̃ 2
la desviación tı́pica estimada de β̂1 es
nsxx .
n (1 + sxx ) ( fila ”Constant”) mientras que la de β̂2 es
Esta columna permite la construcción de intervalos de confianza.
Ejercicio : determinar un intervalo de confianza al 95 % para la pendiente y la ordenada al origen de la
recta de regresión.
(II) : siguiendo el principio de parsimonia, se realizan automáticamente los constrastes
H0 β1 = 0
H0 β2 = 0
(linea ”Constant”) y
(linea ”X”)
H1 β1 6= 0
H1 β2 6= 0
la columna ”student’s t” contiene los valores de los estadı́sticos correspondientes y la columna ”P” contiene
los p-valores de las pruebas.
En este caso, rechazamos las dos hipótesis nulas.
2
Pn
(III) : presenta la estimación de la varianza : Resid. Mean Square σ̃ 2 = 1
(yi − ŷi`) y Standard
n−2
i=1
deviation: σ̃.
(IV) contiene el valor de R2 : el porcentaje de la variabililidad de los datos que está explicado por el
modelo. En nuestro caso, el valor de R2 es bajo, aunque los datos presentan una clara tendencia lineal
porque la varianza es bastante grande.
(V) : Esta tabla corresponde a un análisis de la varianza en el modelo de regresión, que veremos en un
H0 β2 = 0
tema posterior. En el caso de regresión lineal simple es equivalente al contraste
(comprobar
H1 β2 6= 0
que el p-valor es el mismo que en el cuadro (II).)
Gráfica : en la ventana de resultados proporcionados por Statistix, el menu -> Results-> Plots-> Simple
regression plot, nos permite visualizar la recta de regresión junto con los intervalos de predicción (de µxo
y Yx0 al 95 %)
Predicción de nuevos valores : en la ventana de resultados, pinchamos en -> Results-> Prediction,
podemos especificar varios valores de x0 para los cuales nos interesa obtener los intervalos para µxo y
Yx0 .También podemos especificar el nivel de confianza en el cuadro ”C.I Percent Coverage”. Después de
pinchar ”ok”, los resultados
2
LOWER PREDICTED BOUND
PREDICTED VALUE
UPPER PREDICTED BOUND
SE (PREDICTED VALUE)
Ext. inferior del intervalo de predicción para µx0
µ̂x0
Ext.superior del intervalo de predicción para µx0
estimación de la desv. tı́pica de µ̂x0
:LOWER FITTED BOUND, FITTED VALUE, UPPER FITTED BOUND y SE (FITTED VALUE)
idem para Yx0
CORRESPONDING T 2.07 : valor de tn−2,1−α/2
3.
Validación del modelo
Podemos almacenar los residuos ( y los residuos estandar, los valores ajustados, longitud de intervalo
de predicción etc... ) en una nueva variable utilizando la opción Results-> Save res de la ventana de
resultados proporcionados por Statistix, basta con indicar en los cuadros vacı́os los nombres de las nuevas
variables que queremos definir)
También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del
modelo: en el menu -> results-> plots :
Std Resid. vs Fitted values : Residuos estándar en función de los valores ajustados
caracterı́sticas de la gráfica en nuestro caso :
Std. Resid. vs Time series : Residuos estándar en función de su posición
caracterı́sticas de la gráfica en nuestro caso :
Wilks-Shapiro/Rankit plot : gráfica normal de los residuos.
caracterı́sticas de la gráfica en nuestro caso :
4.
4.1.
Ejercicios :
Nivel del mar en Venecia
Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en Venecia. Los datos de los
que disponemos corresponden a los años 1931-1981, y están contenidos en el fichero venecia.txt (Datos
reales, publicados en Smith R.L, ”Extreme value theory based on the r largest annual events”, Journal
of Hydrology, 86 (1986) )
103
99
151
122
122
138
1.
Máximos anuales del nivel
78, 121 116 115
91
97 106 105
116 107 112
97
114 118 107 110
120 114
96 125
del mar, años 1931-1981
147 119 114 89, 102
136 126 132 104 117
95 119 124 118 145
194 138 144 138 123
124 120 132 166 134
Nube de puntos del nivel máximo en función del año,
¿Parece presentar una tendencia lineal?
2.
Si suponemos que las hipótesis del modelo de regresión lineal están satisfechas y µi = β1 + β2 ti ,
i = 1, . . . , n :
3
Intervalo de confianza al 95 % para β1 y para β2.
Estimador de σ.
Principio de parsimonia.
Valor de R2 , comentarios.
Predicción del nivel máximo del mar en 1990, comentar la precisión de la predicción.
3.
Validación del modelo:
Residuos en función de los valores ajustados. Comentar.
Residuos en función de su posición.Comentar
Gráfica normal de los residuos. Comentar.
4.2.
Resistencia del cemento.
Se quiere estudiar la resistencia de
Edad (dı́as)
1
2
3
7
28
1.
unas piezas de cemento en función de su edad en dı́as.
Resistencia(kg/cm2 )
13.0 13.3 11.8
21.9 24.5 24.7
29.8 28.0 24.1 24.2 26.2
32.4 30.4 34.5 33.1 35.7
41.8 42.6 40.3 35.7 37.3
Nube de puntos de la resistencia en función de la edad.
¿Parece presentar una tendencia lineal?
Si la respuesta es no, ¿qué tı́po de función podrı́a ajustarse a la nube de puntos? Si la función es
f (t) = γe−β2 /t , ¿cuál es la interpretacion fı́sica del coeficiente γ? ¿Cuál es la transformación de los
datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente.
2.
Una vez realizada las transformaciones convenientes, determinar los intervalos de confianza al 95 %
para β1 y para β2. , un estimador de σ, concluir sobre el principio de parsimonia, determinar el valor
de R2 , y realizar los comentarios convenientes.
3.
Validación del modelo: Residuos en función de los valores ajustados, en función de su posición, y
gráfica normal. Comentar.
4.3.
Producción mundial de petroleo.
Se quiere estudiar la evolución de la producción mundial de petroleo de 1880 a 1973.Los datos se encuentran en el fichero ASCII petroleo.txt
1.
Nube de puntos de la producción en función del año.
¿Parece presentar una tendencia lineal?
Si la respuesta es no, ¿qué tı́po de función podrı́a ajustarse a la nube de puntos? ¿Cuál es la
transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de
puntos correspondiente.
2.
Estudio de regresión lineal
3.
Validación del modelo.
4
Descargar