Ingenierı́a Industrial. Asignatura: Ampliación de Estadı́stica (Curso 03/04). Prof : Mathieu Kessler Práctica . Análisis de regresión con Statistix. El menu Statistics->Linear models-> Linear regression permite un estudio completo de un conjunto de datos usando el modelo de regresión lineal simple ası́ como la comprobación de las hipótesis del modelo. Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente a un estudio de la evolución del contenido en ácido ascórbico en verduras durante los procesos de secado y almacenamiento. Se pretende expresar el contenido en % en ácido ascórbico en función del % de materia seca de la verdura. Los datos están contenidos en el fichero ASCII espinaca.txt cuya primera linea contiene los nombres de las variables. Después de haber importado los datos, procedemos al análisis: Los pasos a seguir son los mismos que los vistos en clase : 1. Representación de la nube de puntos. Escogemos Statistics-> Descriptive Statistics-> Scater plot, y como es usual en Statistix, en la ventana de diálogo que aparece, escogemos entre la lista de las variables ya definidas de la izquierda las variables asociadas con los ejes Ox y Oy, es posible también ( pero opcional) especificar el rango de los ejes. Puesto que parecen presentar una relación lineal podemos pasar al modelo de regresión lineal: Suponemos que observamos una realización de las variables (Y1 , Y2 , ..., Yn ), independientes, la distribución de cada Yi es N (µi , σ 2 ), donde las medias satisfacen: µi = β1 + β2 xi para i = 1, ..., n 2. (1) Determinación de la recta de regresión La opción Statistics-> Linear Models-> Linear regresion nos permite realizar de manera automática todos los cálculos necesarios. Debemos especificar la variable dependiente (variable respuesta en el estudio) y la variable independiente ( variable de control). Nota : Si la casilla ”Fit constant” está desactivada, corresponde al modelo simplificado µi = β2 xi para i = 1, ..., n, donde imponemos que la ordenada al origen es igual a 0. Empezamos por activar la casilla, 1 y después de los contrastes motivados por el principio de parsimonia (ver II), si el p-valor del contraste H0 : β1 = 0, no es significativo para rechazar H0 , podemos considerar el modelo simplificado. Al pulsar ok, aparece la ventana siguiente : Interpretación de los resultados proporcionados : (Ia) y (Ib) : En la columna titulada ”Coefficient” aparecen los estimadores de β1 ( en la fila ”Constant” Sxy y de β2 ( en la fila ”X”) : β̂1 = ȳ − β̂2 x̄ y β̂2 = Sxx , mientras que la columna Std error, contiene una 2 2 2 σ estimación de la varianza de esos estimadores : puesto que V ar(β̂1 ) = σn (1 + (x̄) , sxx ) y V ar(β̂2 ) = q q nsxx 2 (x̄) σ̃ 2 σ̃ 2 la desviación tı́pica estimada de β̂1 es nsxx . n (1 + sxx ) ( fila ”Constant”) mientras que la de β̂2 es Esta columna permite la construcción de intervalos de confianza. Ejercicio : determinar un intervalo de confianza al 95 % para la pendiente y la ordenada al origen de la recta de regresión. (II) : siguiendo el principio de parsimonia, se realizan automáticamente los constrastes H0 β1 = 0 H0 β2 = 0 (linea ”Constant”) y (linea ”X”) H1 β1 6= 0 H1 β2 6= 0 la columna ”student’s t” contiene los valores de los estadı́sticos correspondientes y la columna ”P” contiene los p-valores de las pruebas. En este caso, rechazamos las dos hipótesis nulas. 2 Pn (III) : presenta la estimación de la varianza : Resid. Mean Square σ̃ 2 = 1 (yi − ŷi`) y Standard n−2 i=1 deviation: σ̃. (IV) contiene el valor de R2 : el porcentaje de la variabililidad de los datos que está explicado por el modelo. En nuestro caso, el valor de R2 es bajo, aunque los datos presentan una clara tendencia lineal porque la varianza es bastante grande. (V) : Esta tabla corresponde a un análisis de la varianza en el modelo de regresión, que veremos en un H0 β2 = 0 tema posterior. En el caso de regresión lineal simple es equivalente al contraste (comprobar H1 β2 6= 0 que el p-valor es el mismo que en el cuadro (II).) Gráfica : en la ventana de resultados proporcionados por Statistix, el menu -> Results-> Plots-> Simple regression plot, nos permite visualizar la recta de regresión junto con los intervalos de predicción (de µxo y Yx0 al 95 %) Predicción de nuevos valores : en la ventana de resultados, pinchamos en -> Results-> Prediction, podemos especificar varios valores de x0 para los cuales nos interesa obtener los intervalos para µxo y Yx0 .También podemos especificar el nivel de confianza en el cuadro ”C.I Percent Coverage”. Después de pinchar ”ok”, los resultados 2 LOWER PREDICTED BOUND PREDICTED VALUE UPPER PREDICTED BOUND SE (PREDICTED VALUE) Ext. inferior del intervalo de predicción para µx0 µ̂x0 Ext.superior del intervalo de predicción para µx0 estimación de la desv. tı́pica de µ̂x0 :LOWER FITTED BOUND, FITTED VALUE, UPPER FITTED BOUND y SE (FITTED VALUE) idem para Yx0 CORRESPONDING T 2.07 : valor de tn−2,1−α/2 3. Validación del modelo Podemos almacenar los residuos ( y los residuos estandar, los valores ajustados, longitud de intervalo de predicción etc... ) en una nueva variable utilizando la opción Results-> Save res de la ventana de resultados proporcionados por Statistix, basta con indicar en los cuadros vacı́os los nombres de las nuevas variables que queremos definir) También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del modelo: en el menu -> results-> plots : Std Resid. vs Fitted values : Residuos estándar en función de los valores ajustados caracterı́sticas de la gráfica en nuestro caso : Std. Resid. vs Time series : Residuos estándar en función de su posición caracterı́sticas de la gráfica en nuestro caso : Wilks-Shapiro/Rankit plot : gráfica normal de los residuos. caracterı́sticas de la gráfica en nuestro caso : 4. 4.1. Ejercicios : Nivel del mar en Venecia Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están contenidos en el fichero venecia.txt (Datos reales, publicados en Smith R.L, ”Extreme value theory based on the r largest annual events”, Journal of Hydrology, 86 (1986) ) 103 99 151 122 122 138 1. Máximos anuales del nivel 78, 121 116 115 91 97 106 105 116 107 112 97 114 118 107 110 120 114 96 125 del mar, años 1931-1981 147 119 114 89, 102 136 126 132 104 117 95 119 124 118 145 194 138 144 138 123 124 120 132 166 134 Nube de puntos del nivel máximo en función del año, ¿Parece presentar una tendencia lineal? 2. Si suponemos que las hipótesis del modelo de regresión lineal están satisfechas y µi = β1 + β2 ti , i = 1, . . . , n : 3 Intervalo de confianza al 95 % para β1 y para β2. Estimador de σ. Principio de parsimonia. Valor de R2 , comentarios. Predicción del nivel máximo del mar en 1990, comentar la precisión de la predicción. 3. Validación del modelo: Residuos en función de los valores ajustados. Comentar. Residuos en función de su posición.Comentar Gráfica normal de los residuos. Comentar. 4.2. Resistencia del cemento. Se quiere estudiar la resistencia de Edad (dı́as) 1 2 3 7 28 1. unas piezas de cemento en función de su edad en dı́as. Resistencia(kg/cm2 ) 13.0 13.3 11.8 21.9 24.5 24.7 29.8 28.0 24.1 24.2 26.2 32.4 30.4 34.5 33.1 35.7 41.8 42.6 40.3 35.7 37.3 Nube de puntos de la resistencia en función de la edad. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿qué tı́po de función podrı́a ajustarse a la nube de puntos? Si la función es f (t) = γe−β2 /t , ¿cuál es la interpretacion fı́sica del coeficiente γ? ¿Cuál es la transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente. 2. Una vez realizada las transformaciones convenientes, determinar los intervalos de confianza al 95 % para β1 y para β2. , un estimador de σ, concluir sobre el principio de parsimonia, determinar el valor de R2 , y realizar los comentarios convenientes. 3. Validación del modelo: Residuos en función de los valores ajustados, en función de su posición, y gráfica normal. Comentar. 4.3. Producción mundial de petroleo. Se quiere estudiar la evolución de la producción mundial de petroleo de 1880 a 1973.Los datos se encuentran en el fichero ASCII petroleo.txt 1. Nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿qué tı́po de función podrı́a ajustarse a la nube de puntos? ¿Cuál es la transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente. 2. Estudio de regresión lineal 3. Validación del modelo. 4