Guión de la práctica

Ingenierı́a Industrial. Asignatura: Ampliación de Estadı́stica (Curso 03/04). Prof : Mathieu Kessler Práctica . Análisis de regresión con Statistix. El menu Statistics->Linear models-> Linear regression permite un estudio completo de un conjunto de datos usando el modelo de regresión lineal simple ası́ como la comprobación de las hipótesis del modelo. Para ilustrar los comandos necesarios, analizaremos el conjunto de datos correspondiente a un estudio de la evolución del contenido en ácido ascórbico en verduras durante los procesos de secado y almacenamiento. Se pretende expresar el contenido en % en ácido ascórbico en función del % de materia seca de la verdura. Los datos están contenidos en el fichero ASCII espinaca.txt cuya primera linea contiene los nombres de las variables. Después de haber importado los datos, procedemos al análisis: Los pasos a seguir son los mismos que los vistos en clase : 1. Representación de la nube de puntos. Escogemos Statistics-> Descriptive Statistics-> Scater plot, y como es usual en Statistix, en la ventana de diálogo que aparece, escogemos entre la lista de las variables ya definidas de la izquierda las variables asociadas con los ejes Ox y Oy, es posible también ( pero opcional) especificar el rango de los ejes. Puesto que parecen presentar una relación lineal podemos pasar al modelo de regresión lineal: Suponemos que observamos una realización de las variables (Y1 , Y2 , ..., Yn ), independientes, la distribución de cada Yi es N (µi , σ 2 ), donde las medias satisfacen: µi = β1 + β2 xi para i = 1, ..., n 2. (1) Determinación de la recta de regresión La opción Statistics-> Linear Models-> Linear regresion nos permite realizar de manera automática todos los cálculos necesarios. Debemos especificar la variable dependiente (variable respuesta en el estudio) y la variable independiente ( variable de control). Nota : Si la casilla ”Fit constant” está desactivada, corresponde al modelo simplificado µi = β2 xi para i = 1, ..., n, donde imponemos que la ordenada al origen es igual a 0. Empezamos por activar la casilla, 1 y después de los contrastes motivados por el principio de parsimonia (ver II), si el p-valor del contraste H0 : β1 = 0, no es significativo para rechazar H0 , podemos considerar el modelo simplificado. Al pulsar ok, aparece la ventana siguiente : Interpretación de los resultados proporcionados : (Ia) y (Ib) : En la columna titulada ”Coefficient” aparecen los estimadores de β1 ( en la fila ”Constant” Sxy y de β2 ( en la fila ”X”) : β̂1 = ȳ − β̂2 x̄ y β̂2 = Sxx , mientras que la columna Std error, contiene una 2 2 2 σ estimación de la varianza de esos estimadores : puesto que V ar(β̂1 ) = σn (1 + (x̄) , sxx ) y V ar(β̂2 ) = q q nsxx 2 (x̄) σ̃ 2 σ̃ 2 la desviación tı́pica estimada de β̂1 es nsxx . n (1 + sxx ) ( fila ”Constant”) mientras que la de β̂2 es Esta columna permite la construcción de intervalos de confianza. Ejercicio : determinar un intervalo de confianza al 95 % para la pendiente y la ordenada al origen de la recta de regresión. (II) : siguiendo el principio de parsimonia, se realizan automáticamente los constrastes H0 β1 = 0 H0 β2 = 0 (linea ”Constant”) y (linea ”X”) H1 β1 6= 0 H1 β2 6= 0 la columna ”student’s t” contiene los valores de los estadı́sticos correspondientes y la columna ”P” contiene los p-valores de las pruebas. En este caso, rechazamos las dos hipótesis nulas. 2 Pn (III) : presenta la estimación de la varianza : Resid. Mean Square σ̃ 2 = 1 (yi − ŷi`) y Standard n−2 i=1 deviation: σ̃. (IV) contiene el valor de R2 : el porcentaje de la variabililidad de los datos que está explicado por el modelo. En nuestro caso, el valor de R2 es bajo, aunque los datos presentan una clara tendencia lineal porque la varianza es bastante grande. (V) : Esta tabla corresponde a un análisis de la varianza en el modelo de regresión, que veremos en un H0 β2 = 0 tema posterior. En el caso de regresión lineal simple es equivalente al contraste (comprobar H1 β2 6= 0 que el p-valor es el mismo que en el cuadro (II).) Gráfica : en la ventana de resultados proporcionados por Statistix, el menu -> Results-> Plots-> Simple regression plot, nos permite visualizar la recta de regresión junto con los intervalos de predicción (de µxo y Yx0 al 95 %) Predicción de nuevos valores : en la ventana de resultados, pinchamos en -> Results-> Prediction, podemos especificar varios valores de x0 para los cuales nos interesa obtener los intervalos para µxo y Yx0 .También podemos especificar el nivel de confianza en el cuadro ”C.I Percent Coverage”. Después de pinchar ”ok”, los resultados 2 LOWER PREDICTED BOUND PREDICTED VALUE UPPER PREDICTED BOUND SE (PREDICTED VALUE) Ext. inferior del intervalo de predicción para µx0 µ̂x0 Ext.superior del intervalo de predicción para µx0 estimación de la desv. tı́pica de µ̂x0 :LOWER FITTED BOUND, FITTED VALUE, UPPER FITTED BOUND y SE (FITTED VALUE) idem para Yx0 CORRESPONDING T 2.07 : valor de tn−2,1−α/2 3. Validación del modelo Podemos almacenar los residuos ( y los residuos estandar, los valores ajustados, longitud de intervalo de predicción etc... ) en una nueva variable utilizando la opción Results-> Save res de la ventana de resultados proporcionados por Statistix, basta con indicar en los cuadros vacı́os los nombres de las nuevas variables que queremos definir) También tenemos la posibilidad de visualizar directamente las gráficas que permiten la validación del modelo: en el menu -> results-> plots : Std Resid. vs Fitted values : Residuos estándar en función de los valores ajustados caracterı́sticas de la gráfica en nuestro caso : Std. Resid. vs Time series : Residuos estándar en función de su posición caracterı́sticas de la gráfica en nuestro caso : Wilks-Shapiro/Rankit plot : gráfica normal de los residuos. caracterı́sticas de la gráfica en nuestro caso : 4. 4.1. Ejercicios : Nivel del mar en Venecia Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) en Venecia. Los datos de los que disponemos corresponden a los años 1931-1981, y están contenidos en el fichero venecia.txt (Datos reales, publicados en Smith R.L, ”Extreme value theory based on the r largest annual events”, Journal of Hydrology, 86 (1986) ) 103 99 151 122 122 138 1. Máximos anuales del nivel 78, 121 116 115 91 97 106 105 116 107 112 97 114 118 107 110 120 114 96 125 del mar, años 1931-1981 147 119 114 89, 102 136 126 132 104 117 95 119 124 118 145 194 138 144 138 123 124 120 132 166 134 Nube de puntos del nivel máximo en función del año, ¿Parece presentar una tendencia lineal? 2. Si suponemos que las hipótesis del modelo de regresión lineal están satisfechas y µi = β1 + β2 ti , i = 1, . . . , n : 3 Intervalo de confianza al 95 % para β1 y para β2. Estimador de σ. Principio de parsimonia. Valor de R2 , comentarios. Predicción del nivel máximo del mar en 1990, comentar la precisión de la predicción. 3. Validación del modelo: Residuos en función de los valores ajustados. Comentar. Residuos en función de su posición.Comentar Gráfica normal de los residuos. Comentar. 4.2. Resistencia del cemento. Se quiere estudiar la resistencia de Edad (dı́as) 1 2 3 7 28 1. unas piezas de cemento en función de su edad en dı́as. Resistencia(kg/cm2 ) 13.0 13.3 11.8 21.9 24.5 24.7 29.8 28.0 24.1 24.2 26.2 32.4 30.4 34.5 33.1 35.7 41.8 42.6 40.3 35.7 37.3 Nube de puntos de la resistencia en función de la edad. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿qué tı́po de función podrı́a ajustarse a la nube de puntos? Si la función es f (t) = γe−β2 /t , ¿cuál es la interpretacion fı́sica del coeficiente γ? ¿Cuál es la transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente. 2. Una vez realizada las transformaciones convenientes, determinar los intervalos de confianza al 95 % para β1 y para β2. , un estimador de σ, concluir sobre el principio de parsimonia, determinar el valor de R2 , y realizar los comentarios convenientes. 3. Validación del modelo: Residuos en función de los valores ajustados, en función de su posición, y gráfica normal. Comentar. 4.3. Producción mundial de petroleo. Se quiere estudiar la evolución de la producción mundial de petroleo de 1880 a 1973.Los datos se encuentran en el fichero ASCII petroleo.txt 1. Nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Si la respuesta es no, ¿qué tı́po de función podrı́a ajustarse a la nube de puntos? ¿Cuál es la transformación de los datos que nos permitirá evidenciar una relación lineal? Realizar la nube de puntos correspondiente. 2. Estudio de regresión lineal 3. Validación del modelo. 4

Guión de la práctica

Documentos relacionados

Productos

Apoyo

Guión de la práctica

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib