Apuntes de Estad´ıstica Industrial

Apuntes de Estadı́stica Industrial Mathieu Kessler Departamento de Matemática Aplicada y Estadı́stica Universidad Politécnica de Cartagena [email protected] Ésta es una versión preliminar, comentarios bienvenidos, 2003 Todos los gráficos de estos apuntes han sido realizados con el programa estadı́stico freeware R, (http://cran.r-project.org) Índice general I. Exploración de datos I.1. Introducción . . . . . . . . . . . . . I.2. Estudio de una variable . . . . . . . I.2.1. Unos cuantos términos . . . . I.2.2. Tabulación y representaciones I.2.3. Medidas numéricas . . . . . . I.3. Extensión al experimento aleatorio . I.3.1. Introducción . . . . . . . . . I.3.2. Medidas numéricas asociadas I.3.3. Modelos más utilizados . . . . . . . . . . . . . . . . . . gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 1 2 4 7 7 9 9 II. Distribuciones muestrales - contrastes de hipótesis II.1. Distribuciones muestrales . . . . . . . . . . . . . . . II.2. Contrastes de hipótesis . . . . . . . . . . . . . . . . . II.2.1. Ejemplo ilustrativo . . . . . . . . . . . . . . . II.2.2. Procedimiento global . . . . . . . . . . . . . . II.2.3. Los contrastes más utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 17 17 18 19 III.Regresión lineal III.1. Introducción . . . . . . . . . . . . . . . . . . . . III.2. Criterio de mı́nimos cuadrados . . . . . . . . . . III.3. Regresión lineal . . . . . . . . . . . . . . . . . . . III.3.1. Regresión lineal simple . . . . . . . . . . . III.3.2. Regresión lineal múltiple . . . . . . . . . . III.4. Inferencia para la regresión . . . . . . . . . . . . III.4.1. Introducción . . . . . . . . . . . . . . . . III.4.2. Algunas distribuciones muestrales . . . . III.4.3. Contrates de significación . . . . . . . . . III.4.4. Ejemplo . . . . . . . . . . . . . . . . . . . III.4.5. Introducción a la construcción de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 23 25 25 28 31 31 32 33 33 34 . . . . . . . . . . . . . . . . . . . . . . ÍNDICE GENERAL iv IV.Análisis en componentes principales IV.1. Introducción . . . . . . . . . . . . . . . . . . . . IV.1.1. Presentación . . . . . . . . . . . . . . . . IV.1.2. Planteamiento para dos variables . . . . . IV.2. Planteamiento general . . . . . . . . . . . . . . . IV.2.1. Preliminares . . . . . . . . . . . . . . . . IV.2.2. Análisis en componentes principales . . . IV.3. Propiedades . . . . . . . . . . . . . . . . . . . . . IV.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . IV.4.1. Notas de examenes . . . . . . . . . . . . . IV.4.2. Encuesta de presupuestos familiares . . . IV.5. Criterio de selección del número de componentes IV.5.1. Diagrama de codo . . . . . . . . . . . . . IV.5.2. Proporción de variabilidad explicada . . . V. Análisis de conglomerados V.1. Introducción . . . . . . . . . . . . . . . . . . . V.2. Método de partición. El algoritmo de k-medias. V.2.1. Presentación . . . . . . . . . . . . . . . V.2.2. Criterios para comparar particiones. . . V.2.3. Descripción del algoritmo . . . . . . . . V.2.4. Comentarios . . . . . . . . . . . . . . . V.2.5. Elección del número de grupos . . . . . V.2.6. Ejemplos . . . . . . . . . . . . . . . . . V.3. Métodos jerárquicos . . . . . . . . . . . . . . . V.3.1. Presentación . . . . . . . . . . . . . . . V.3.2. Distancia, similaridad . . . . . . . . . . V.3.3. Métodos aglomerativos . . . . . . . . . . VI.Análisis factorial VI.1. Introducción . . . . . . . . . . . . VI.2. El modelo . . . . . . . . . . . . . . VI.2.1. Primera formulación . . . . VI.2.2. No unicidad de los factores VI.2.3. Hacia el modelo definitivo . VI.3. Estimación de las cargas factoriales VI.3.1. Método del factor principal VI.4. Rotación de los factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII. Introducción a las series temporales VII.1.Introducción . . . . . . . . . . . . . . . VII.2.Primer paso: exploración gráfica . . . . VII.3.Descomposición en patrones de una serie VII.3.1.Presentación . . . . . . . . . . . VII.3.2.El modelo . . . . . . . . . . . . . VII.4.Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 38 40 40 42 43 43 43 44 45 45 45 . . . . . . . . . . . . 49 49 50 50 50 51 52 52 52 52 52 53 54 . . . . . . . . 57 57 58 58 59 59 60 60 61 . . . . . . 63 63 64 65 65 66 67 ÍNDICE GENERAL VIII. Descomposición de una serie temporal VIII.1. Filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII.2. Medias móviles y componente estacional . . . . . . . . . . . . . . . . VIII.3. Procedimiento para la descomposición clásica . . . . . . . . . . . . . v 71 71 72 74 CAPÍTULO I Exploración de datos I.1. Introducción La estadı́stica utiliza datos para conseguir comprensión sobre un fenómeno. Básicamente, esta comprensión es una consecuencia de la combinación entre conocimientos previos sobre el fenómeno y nuestra capacidad a utilizar gráficos y cálculos para extraer información de los datos. En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran número de variables. Un efecto contradictorio aparece: por una parte, cuanto más datos, más información podemos extraer sobre las variables de interés, pero a la vez es más difı́cil su extracción. En este contexto aparece una primera etapa fundamental frente a un conjunto de datos: la exploración, que se realiza a través de representaciones gráficas y del cálculo de unas cuantas medidas numéricas bien escogidas. Para tener las ideas claras, unos cuantos gráficos pueden proporcionarnos información más valiosa que procedimientos sofisticados que no dominamos. En esta asignatura, veremos en temas posteriores métodos sofisticados de análisis para conjuntos con varias variables (el llamado análisis multivariante) pero dedicamos ahora un capı́tulo a recordar las técnicas elementales con el objetivo de fomentar reacciones sanas frente a un conjunto de datos. I.2. Estudio de una variable Aun cuando el conjunto de datos presenta varias variables, se debe empezar por el estudio individual de cada una. I.2.1. Unos cuantos términos Un conjunto de datos describe individuos, que pueden ser personas pero también objetos. Por ejemplo, asociados a esta clase, podemos considerar que 2 Exploración de datos los individuos son los alumnos. Consideramos variables asociadas a este conjunto de datos, distinguiremos entre variable cuantitativa, que asocia un número a cada individuo, o variable cualitativa, que coloca cada individua en una categorı́a. Ejemplos de variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el grupo sanguı́neo son en cambio variables cualitativas. Un concepto fundamental que utilizaremos con frecuencia corresponde a la distribución de una variable X asociada a un conjunto de datos. Describir la distribución de X corresponde a establecer la lista de los valores que toma X junto con la frecuencia con la que toma cada valor. En particular nos interesa saber si el conjunto presenta mucha o poca variabilidad. I.2.2. Tabulación y representaciones gráficas Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos se presentarán o bien en forma bruta: un fichero con una columna para cada variable, donde cada fila representa un individuo, o bien en forma ya tabulada, es decir donde los datos están agrupados. Para datos agrupados, consideramos por ejemplo mediciones del contenido en nitrato en una muestra de agua: Valor 0.45 0.46 0.47 0.48 Frecuencia 1 2 4 8 Valor 0.49 0.50 0.51 0.51 Frecuencia 8 10 5 8 En el caso en que el conjunto presente muchas valores próximos pero distintos, agrupamos los datos por clases. Consideramos por ejemplo el conjunto de datos de Newcomb (http://www.dmae.upct.es/∼mathieu) Newcomb fue el primero en conseguir ¡en 1882! una estimación de la velocidad de la luz. Las mediciones recogidas en el apéndice corresponden a los tiempos codificados que tardó un rayo de luz en recorrer el camino de ida-vuelta desde el laboratorio de Simon Newcomb situado en el Rı́o Potomac hasta un espejo situado en la base del “Washington Monument”, en total una distancia de 7400m. Para obtener los tiempos en nano segundos (10−9 s) no codificados, hay que añadir 24800 a cada dato.1 Agrupando los datos en clases obtenemos: Frecuencia Clase Frecuencia Clase Frecuencia Clase ] − 45, −40] 1 ] − 15, −10] 0 ]15, 20] 4 ] − 40, −35] 0 ] − 10, −5] 0 ]20, 25] 17 ] − 35, −30] 0 ] − 5, 0] 1 ]25, 30] 26 ] − 30, −25] 0 ]0, 5] 0 ]30, 35] 10 ]5, 10] 0 ]35, 40] 7 ] − 25, −20] 0 ] − 20, −15] 0 ]10, 15] 0 Los datos tabulados se examinan con más comodidad a través de representaciones gráficas. En el eje Ox aparecen los valores de la variables, o en su caso las clases y 1 Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statistics, W. H. Freeman and Company: New York, NY, pp 3-16. I.2 Estudio de una variable 3 6 2 4 Frecuencias 8 10 en el eje Oy las frecuencias. Obtenemos ası́ un diagrama de barras en el ejemplo de las mediciones de la concentración en nitrato, ver figura I.1. 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 Mediciones de la concentracin Figura I.1: Diagrama de barras para las concentraciones de nitrato En el caso en que los datos están agrupados por clase, el diagrama resultante se llama histograma. En la figura I.2, aparece el histograma para las mediciones de Newcomb. 15 10 5 0 Frecuencias 20 25 Histograma, mediciones de Newcomb −40 −20 0 20 40 Mediciones Figura I.2: Histograma para las mediciones de Newcomb 4 Exploración de datos Las representaciones gráficas describen la distribución de la variable en el conjunto. Al examinarlos hay que que intentar contestar a las siguientes preguntas 1. ¿ Es el histograma simétrico? 2. ¿Posee la distribución colas largas? 3. ¿Posee el histograma un máximo claro único? En este caso hablamos de histograma unimodal. 4. ¿Aparecen datos atı́picos?, es decir datos que se alejan del patrón global de los datos. 5. ¿Donde localizamos el centro aproximado de los datos? 6. ¿Presentan los datos mucha dispersión?, lo que se traduce en la forma puntiaguda o chata del histograma. I.2.3. Medidas numéricas Se suele acompañar las representaciones gráficas de las distribuciones con medidas numéricas que proporcionen un resumen de sus caracterı́sticas principales. Existen medidas numéricas para contestar a cada pregunta (y alguna más...) planteadas en el apartado anterior a la hora de examinar el histograma. Nos limitaremos a las medidas de centro y de dispersión, es decir las que proporcionen una respuesta a las preguntas 5 y 6. a). Medidas de centro La media: Si x1 , . . . , xn son los datos, sabemos todos que la media es x̄ = x1 + · · · + xn . n Representa el centro de gravedad de los datos. Cuidado: Es muy sensible a datos atı́picos en el conjunto de datos, y es poco representativa del centro en el caso en que la distribución es asimétrica. Para paliar estos inconvenientes, se considera también la mediana: La mediana: La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 % a su derecha. Es una medida de centralización más adecuada que la media en el caso en que la distribución de los datos es asimétrica ( lo que se ve en el histograma) o si hay datos atı́picos. Si la distribución es simétrica, la media y la mediana coinciden. Para calcular la mediana de un conjunto de n datos, x1 , x2 , . . . , xn . Empiezo por ordenar los datos por orden creciente. La mediana es el dato ordenado no (n + 1)/2. Ejemplo: 125, 129, 134, 185, 200. La mediana es el dato ordenado no 3, y es igual a 134. 11, 15, 20, 23: la mediana es el dato ordenado no 2.5, que tomamos por convención igual al punto medio entre el dato no 2 y el dato no 3. En este caso, la mediana es igual a 17.5. I.2 Estudio de una variable b). 5 Medidas de dispersión La desviación tı́pica Mide lo lejos que están situados los datos respecto a su centro de gravedad, la media. Empezamos por definir la varianza: s2 = (x1 − x̄)2 + · · · + (xn − x̄)2 , n−1 (I.1) que representa aproximadamente el promedio de las distancias al cuadrado entre los datos y su media. La desviación tı́pica s es la raı́z cuadrada de s2 . Naturalmente, la desviación tı́pica es representativa de la dispersión del conjunto de datos solo si la media es representativa de su centro. Una medida alternativa de dispersión que puede ser más representativa en el caso en que la distribución es asimétrica o en presencia de datos atı́picos, es el rango intercuartı́lico. El rango intercuartı́lico (RIC). Hemos definido la mediana como el punto que separa el conjunto en dos partes de mismo tamaño. Definimos de la misma manera los cuartiles como los puntos que separan el conjunto en cuatro partes de mismo tamaño. El primer cuartil Q1 deja el 25 % de los datos ordenados a su izquierda, y el otro 75 % a su derecha, mientras que el tercer cuartil Q3 deja el 75 % de los datos ordenados a su izquierda, y el otro 25 % a su derecha. Por lo tanto el par (Q1 , Q3 ) nos proporciona información sobre la dispersión presente en los datos: cuanto más alejados estén los cuartiles, más dispersos están los datos. Por ello, calculamos el rango intercuartı́lico RIC como la diferencia entre Q3 y Q1 . Para calcular los cuartiles, empezamos por calcular la mediana M e de los datos. El primer cuartil es la mediana del grupo de datos que queda a la izquierda de M e (M e excluida), mientras que el tercer cuartil se calcula como la mediana del grupo que queda a su derecha (M e excluida). El RIC también se utiliza para detectar datos atı́picos: Regla: Se consideran como atı́picos los datos que son menores de Q1 − 1,5 × RIC, o mayores de Q3 + 1,5 × RIC. c). Un resumen gráfico: el diagrama de caja-bigotes El diagrama de caja-bigotes es un resumen gráfico que permite visualizar, para un conjunto de datos, la tendencia central, la dispersión y la presencia posible de datos atı́picos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el tercer cuartil de los datos: El diagrama de caja-bigotes presenta de manera gráfica estas informaciones, tal como está recogida en la figura I.3. Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta : el dato del conjunto inmediatamente superior a Q1 − 1,5 × RIC para el bigote inferior, y el dato inmediatamente inferior a Q3 + 1,5 × RIC, para el bigote superior. La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos. Ejemplo La puntuación de los equipos de la liga española al final de las temporadas 01/02 y 02/03 en primera división se pueden comparar con un diagrama caja-bigotes, como aparece en la figura I.4 Exploración de datos 12 6 ● 11 Dato atpico Bigote 10 Q3 Me 9 Q1 ● 8 ● 40 50 60 70 Figura I.3: Componentes del diagrama caja-bigotes 102 203 Figura I.4: Comparación puntuación final, temporadas 01/02 y 02/03 Comentarios: No hay datos atı́picos, es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos. Hay más diferencia de puntos entre el primer y el último clasificado para la liga 02/03 que en la liga anterior. Los equipos del tercer cuarto de la clasificación están muy apelotonados en la liga 02/03. I.3 Extensión al experimento aleatorio I.3. I.3.1. 7 Extensión al experimento aleatorio Introducción Las técnicas descriptivas son muy útiles pero tienen su limitación, se puede llegar a conclusiones mucho más precisas si estamos dispuestos a formular un modelo para el mecanismo de generación de los datos que observamos: no nos limitamos a los datos que tenemos sino que los consideramos generados a partir de un experimento que formalizamos. En el ejemplo de Newcomb, podemos considerar el experimento: “Llevar a cabo, con el procedimiento de Newcomb, una medición del tiempo que tarda la luz en recorrer los 7400m”. Los datos de los que disponemos fueron generados a partir de las 66 realizaciones que realizó Newcomb de este experimento. Formular un modelo consiste en traducir nuestras creencias sobre las posibilidades que tienen de ocurrir los resultados del experimento. Para ello, utilizaremos el concepto de probabilidad: asignaremos a cada resultado posible del experimento un número entre 0 y 1, según nuestra visión de cuales son las posibilidades de que ocurra. Si pensamos que ocurrirá con toda seguridad le asignamos la probilidad 1 mientras que si pensamos que no tiene posibilidades de ocurrir, le asignamos la probabilidad 0. Merece la pena resaltar que la formulación de un modelo es un decisión subjetiva: dos personas distintas pueden escoger modelos diferentes para modelizar el mismo experimento. Si consideramos el experimento de tirar una moneda no trucada, asignaremos la probabilidad 1/2 a cada de los posibles resultados, cara o cruz. En cambio, si pensamos que la moneda está trucada, y que es tres veces más probable de que ocurra cara que cruz, asignaremos la probabilidad 0.75 al resultado cara, y 0.25 al resultado cruz. Existe una formulación axiomática del concepto de probabilidad que da lugar a una teorı́a coherente y muy estudiada. En esta asignatura nos limitaremos a utilizar el concepto intuitivo de probabilidad. En el caso en que consideramos una variable X asociada a un experimento, al formular un modelo para su distribución, tendré que ser capaz de asignar una probabilidad a cada resultado asociado con X. Si X sólo puede tomar un número finito de valores (o infinito pero numerable), describir su distribución consistirá en realizar la lista de los valores que puede tomar junto con la probabilidad que asignamos a cada valor. En cambio, si X puede tomar cualquier valor real por ejemplo, tendré que definir qué probabilidad asigno a cualquier intervalo. Este último supuesto se consigue definiendo una función de densidad f : La función de densidad f de una variable X es una función positiva que integra R 1, es decir tal que f (x)dx = 1 y que permite calcular la probabilidad de que X pertenezca a un intervalo ]a, b] como Z P[a < X ≤ b] = b f (x)dx. a Deducimos que la probabilidad de que X esté entre a y b corresponde al área debajo de la curva de f comprendida entre a y b, tal como está ilustrado en la figura I.5. Si disponemos de un conjunto de datos con una variable X, generados a partir de realizaciones de un experimento, y si nuestra descripción del mecanismo de generación de los datos a través de un modelo para X, es adecuada, la función de Exploración de datos f 0.0 0.1 0.2 0.3 0.4 8 b a Valores de X Figura I.5: Función de densidad y su interpretación densidad de X tiene mucha relación con el histograma. En efecto, la probabilidad de que X pertenezca a una clase debe explicar la frecuencia de datos que aparecen en esta clase, y por lo tanto la forma del histograma debe corresponder a la forma de la densidad, tal como viene reflejado en la figura I.6. 0.2 0.1 0.0 Densidad 0.3 0.4 Densidad y histograma −2 −1 0 1 x Figura I.6: Densidad y histograma 2 I.3 Extensión al experimento aleatorio I.3.2. 9 Medidas numéricas asociadas De la misma manera que para distribuciones de variables en un conjunto de datos, se pueden resumir algunas caracterı́sticas de las distribuciones de variables asociadas a experimentos aleatorios. a) Media - Esperanza Sea X una variable con densidad f , definimos la media de X, también llamada esperanza o valor esperado, como Z µX = E[X] = xf (x)dx. Es una medida de centro de la distribución si ésta es relativamente simétrica, se interpreta como el centro de gravedad de la distribución, ver figura I.7. E[X] E[X] Figura I.7: La esperanza es el centro de gravedad b) Desviación tı́pica La varianza se define como el promedio de la distancia al cuadrado entre X y su media: Z 2 σX = V ar(X) = (x − µX )2 f (x)dx, y la desviación tı́pica es σX = I.3.3. q 2 . σX Modelos más utilizados Resulta que existen situaciones comunes en las que unos pocos modelos “estandar” sirven para describir los experimentos considerados. a) El modelo normal Es el modelo más utilizado en la práctica. Su densidad depende de dos parámetros µ y σ 2 , que representan parámetros de localización y de dispersión respectivamente. Su expresión es f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 , 10 Exploración de datos cuya representación gráfica es la famosa “campana de Gauss”. Si la densidad de X es la función f arriba descrita, se dice que X sigue una distribución normal de parámetros µ y σ 2 . Se puede demostrar que, si X admite la densidad f descrita arriba, la esperanza de X es µ, mientras que su varianza es σ 2 . Bastará por lo tanto para escoger un modelo normal para una variable fijar el valor de µ y el valor de σ como reflejando el centro y la dispersión de la distribución. En la figura I.8, se ha ajustado una curva normal al histograma de los datos recogidos por Newcomb, después de omitir los dos datos atı́picos −44 y −2. Se observa que el ajuste es bastante bueno. 0.04 0.00 0.02 Frecuencias 0.06 0.08 Histograma, mediciones de Newcomb −40 −20 0 20 40 Mediciones Figura I.8: Ajuste de una densidad normal al histograma de Newcomb Además puesto que la función f no admite primitiva en una forma cerrada, no hay expresión simple para calcular la probabilidad de que una variable normal pertenezca a un intervalo dado. Se recurre por lo tanto a aproximaciones numéricas de la integral Z b (x−µ)2 1 √ e− 2σ2 dx, 2πσ 2 a para obtener P(a < X ≤ b). Los programas informáticos de análisis de datos como SPSS o Statistix disponen de algoritmos que permitan calcular para cualquier t la probabilidad P(X ≤ t). También existe un calculadora estadı́stica freeware NCSScalc, que se puede bajar de mi página web. (http://www.dmae.upct.es/∼mathieu) A pesar de que no exista una expresión simple para las probabilidades asociadas a una distribución normal, es muy útil conocer la regla siguiente: si X es una normal N (µ, σ 2 ), tenemos I.3 Extensión al experimento aleatorio 11 P(µ − σ ≤ X ≤ µ + σ) ' 0,68 P(µ − 2σ ≤ X ≤ µ + 2σ) ' 0,95 P(µ − 3σ ≤ X ≤ µ + 3σ) ' 0,997, lo que queda reflejado en la figura I.9: el 68 % del área debajo de la curva normal está comprendida entre µ − σ y µ + σ, el 94 % entre µ − 2σ y µ + 2σ, y el 99.7 % entre µ − 3σ y µ + 3σ. µ 68% µ−σ µ+σ 95% µ − 2σ µ + 2σ 99.7% µ − 3σ µ + 3σ Figura I.9: Regla del 68 % - 95 % - 99.7 % b) El modelo exponencial Este modelo ha resultado adecuado para modelizar el tiempo discurrido entre dos apariciones de un suceso dado, como por ejemplo el tiempo que pasa entre dos emisiones de partı́culas por un material radiactivo o el tiempo que pasa entre dos llegadas de clientes a una cola. Decimos que X es una variable exponencial con parámetro λ si su función de densidad de λe−λx si x > 0 f (x) = 0 en otro caso. Es fácil demostrar que la media de X es 1/λ y su varianza 1/λ2 . Apéndice Datos: la velocidad de la luz, por S. Newcomb Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30, 12 Exploración de datos 22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28, 29, 16, 23 TEMA II Distribuciones muestrales - contrastes de hipótesis II.1. Distribuciones muestrales Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo, posiblemente con uno o varios parámetros que tendremos que ajustar. Ejemplos Me interesa una moneda para tirar a cara o cruz. El experimento es “Tirar la moneda” y la variable X corresponde al resultado, su distribución se describe como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. p es por lo tanto la probabilidad de que salga cara, y es un parámetro de nuestro modelo. En el caso en que confiamos en que la moneda no está trucada, nuestro modelo considerará que p = 1/2. Para sacar información sobre p y comprobar en particular que la moneda no está trucada, repetiremos un cierto número de veces el experimento. Para las próximas elecciones generales, queremos determinar la proporción de gente que tiene intención de ir a votar, es decir queremos estimar la tasa de participación. El censo electoral para España tiene unos 32 millones de personas. Es claramente imposible entrevistar a todas las personas del censo. En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas 3000 personas entre el censo y preguntándoles si tienen intención de ir a votar. El ı́ndice de audiencias manda en la programación de televisión. Pero ¿cómo saben cuántos espectadores vieron un partido dado o un programa determinado? A mı́ nunca me han preguntado... En realidad, una encuesta se realiza de manera automática y continua: una empresa especializada llamada SOFRES (http://www.sofresam.com) ha escogido al azar unos 3300 hogares que representan unas 10000 personas de entre un total de aprox. 39 500 000 espectadores potenciales. En cada uno de estos hogares, instala un aparato llamado “audı́metro” que graba cuál es el programa que se está viendo en cada momento. 14 Mathieu Kessler: Estadı́stica industrial Quiero conocer la concentración de un determinado producto en una solución. Pienso que es razonable que la distribución de los valores proporcionados por mi aparato de medición sea una normal con media µ y desviación tı́pica σ desconocidas. El centro de esta distribución, es decir µ, será por lo tanto lo más representativo de la concentración que intento determinar. Para estimar µ, repetiré la medición varias veces. Pero surge una pregunta evidente: Pregunta: ¿Cómo sabemos que nuestra estimación es fiable? ¿Por qué limitándose a unas 3000 personas, se puede extropolar el resultado con confianza a una población de 30 millones? Además está claro que el resultado que obtengo depende de la muestra particular que haya escogido, si escojo otra muestra me sale otro resultado. Este hecho se llama la variabilidad muestral. Intento de respuesta: Consideremos el caso del sondeo en él que se busca estimar la tasa de participación antes de unas elecciones. Para intentar convencer al lector de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas a la población de 32 millones no es excesivo, llevo a cabo un estudio de simulación: Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que representará el censo electoral. Los unos representarán a las personas que sı́ tienen la intención de ir a votar, mientras que los ceros a los que no piensan ir a votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos, mientras que el 30 % son ceros. (70 % es una tasa razonable de participación en unas elecciones) Extraigo al azar una muestra de 3000 datos del fichero completo, hago el recuento de los unos, y encuentro que la proporción de unos en esta muestra es de 0.71. Por lo tanto, en este caso, mi estimación es muy buena: estimo la tasa de participación en 71 % mientras que la auténtica, es decir, la de la población (el fichero) es de 70 %. ¿Os he convencido? Seguro que algún lector desconfiado dirá: “ no demuestra nada, ha tenido suerte de que en la muestra que ha escogido, la proporción de unos sea próxima a la proporción poblacional, pero con otra muestra podrı́a salir otro resultado peor.” De acuerdo, el argumento es válido... Pero para convencerle, voy a coger otra muestra al azar de 3000 datos, y encuentro que la proporción muestral de unos es 0.72. Sigue estando muy bien, ¿no? ¿Sigue sin convencerle? Bueno, puedo repetir la extracción de muestras hasta 10 000 veces por ejemplo, y guardo los valores que encuentro para la proporción de 1 en cada una de estas 10000 muestras en una variable llamada p̂. Realizo un histograma de los 10000 valores de p̂, el resultado aparece en la figura II.1. Una primera conclusión se impone: la gran mayorı́a de las muestras han proporcionado un valor de p̂ entre 0.68 y 0.72, lo que corresponde a una muy buena estimación del valor de la proporción poblacional. Por lo tanto este estudio simulado demuestra que al escoger una muestra de 3000 personas, es muy probable que el valor de la proporción de 1 en la muestra esté bastante próxima (menos de dos puntos) de la proporción de 1 en la población, aunque ésta sea muchı́simo más grande que la muestra. Podemos dar un paso más en la utilización de este estudio simulado: si considero ahora el experimento “extraer una muestra de tamaño 3000 en la población”, p̂ es la 15 1000 0 500 Frecuencias 1500 2000 II.1 Distribuciones muestrales 0.67 0.68 0.69 0.70 0.71 0.72 0.73 ^ p Figura II.1: Histograma de los valores de p̂ para 10000 muestras extraidas variable “proporción de 1 en la muestra extraida”. Quiero formular un modelo para su distribución. El histograma en la figura II.1 me sugiere que puedo escoger una distribución normal para p̂. De hecho en la figura II.2, se aprecia que el ajuste por una normal con media µ = 0,70 y desviación tı́pica σ = 0,008 es muy bueno. Utilizando entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar en la población una muestra de tamaño 3000, la probabilidad de que la proporción muestral p̂ se encuentre entre 0,7 − 2 × 0,008 = 0,694 y 0,07 + 2 × 0,008 = 0,716 es del 95 %. Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado, podrı́amos preguntarnos si podrı́amos ahorrarnos algo y extraer una muestra más pequeña. Repitamos por ejemplo el estudio simulado con muestras de sólo 100 personas. El histograma que obtenemos aparece en la figura II.3. Observamos que en este caso el histograma es muchı́simo más chato, y que la dispersión de los valores de p̂ es mucho mayor: es más probable, al escoger una muestra de 100, que la proporción muestral esté bastante alejado del objetivo 0.7. Toda la teorı́a desarrollada acerca de los sondeos utiliza de manera crucial el hecho de que antes de extraer la muestra, se dispone de un modelo para la distribución de p̂ por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este Mathieu Kessler: Estadı́stica industrial Densidad 0 10 20 30 40 16 0.67 0.68 0.69 0.70 0.71 0.72 0.73 phat 1000 0 500 Frecuencias 1500 Figura II.2: Ajuste de una normal al histograma de los valores de p̂ 0.6 0.7 0.8 0.9 ^ p Figura II.3: Histograma de los valores de p̂ para 10000 muestras de tamaño 100 extraidas modelo permite en particular decidir si, fijado el error máximo que se está dispuesto a cometer respecto a la proporción poblacional, el tamaño de la muestra es suficiente como para que el riesgo de cometer un error mayor es lo suficientemente pequeño. Introducimos dos términos fundamentales en estadı́stica: II.2 Contrastes de hipótesis 17 Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadı́stico. La distribución de los valores que puede tomar un estadı́stico respecto a todas las muestras de tamaño n que se podrı́a extraer se llama distribución muestral de este estadı́stico. II.2. Contrastes de hipótesis II.2.1. Ejemplo ilustrativo Supongamos que dispongo de una moneda y quiero saber si está trucada. Formalizo el modelo tal como lo hemos visto en la sección anterior: X es la variable “resultado obtenido al tirar la moneda”, X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. Me pregunto si p = 1/2 o p 6= 1/2. Formulo por lo tanto dos hipótesis: una hipótesis nula: una hipótesis alternativa H0 H1 p = 1/2 p 6= 1/2 0 2 4 6 8 Para decidir cuál de las dos hipótesis es cierta, pienso tirar la moneda 100 veces y calcular la proporción muestral p̂ de caras. Por la teoria de probabilidad y de las variables aleatorias, se sabe que, si p = 1/2, la distribución muestral de p̂ se puede modelizar por una normal con media 0.5 y desviación tı́pica 0.05. Es decir que, antes de realizar el experimento de tirar 100 veces la moneda y calcular la proporción p̂ de caras entre estas 100 tiradas, sé que, si la moneda no está trucada, puedo esperar que la distribución de los valores que podrá tomar p̂ será tal como en la figura II.4. 0.0 0.2 0.4 0.6 0.8 1.0 ^ p Figura II.4: Distribución muestral de p̂ para 100 tiradas de una moneda no trucada ¿Entre qué valores se encontrará con gran confianza p̂? Supongamos ahora que efectivamente, tiro 100 veces la moneda y obtengo 61 caras y 39 cruces. Por lo tanto p̂ = 0,61. ¿Está la moneda trucada? En principio, 18 Mathieu Kessler: Estadı́stica industrial parece que sı́, pero por otra parte, ¿cómo sabemos que este resultado, alejado del 0.5 esperado si la moneda no fuera trucada, no se deba sencillamente al azar, y no provenga de la variabilidad natural inevitable al tirar 100 veces la moneda? Podemos contestar a esta pregunta porque, precisamente, disponemos de un modelo para la distribución de los valores de p̂ si en realidad p = 1/2. Observamos que el valor p̂ = 0,61 es un valor bastante extremo para su distribución. De hecho, ¿qué porcentaje de las muestras de tamaño 100, proporcionan un valor tan o más alejado del 0.5 esperado que 0.61? Para saberlo calculo con una calculadora estadı́stica y utilizando el modelo que tengo para p̂, la probabilidad P[p̂ ≤ 0,39 ∪ p̂ ≥ 0,61], que es aproximadamente igual a 0.028. Deduzco que, si en efecto p = 1/2 sólo el 2.8 % de las muestras de tamaño 100 proporcionarı́an un valor tan o más alejado de 0.5 como el valor que me ha salido. En este sentido, el valor que he obtenido es extremo, suponiendo que la hipótesis nula es cierta... En este caso, los datos tienden a refutar la hipótesis nula, y basándonos en la muestra extraida, afirmamos que la moneda está trucada. El porcentaje de muestras de tamaño 100 que proporcionarı́an un valor igual o más alejado que el valor encontrado en nuestra muestra es una medida de la “fuerza” de los datos contra la hipótesis nula y a favor de la hipótesis alternativa. II.2.2. Procedimiento global De manera repetida en la asignatura, los procedimientos que veremos incluirán contrastes de hipótesis: Llamando θ un parámetro del modelo, formularemos una hipótesis nula y una alternativa respecto al valor de θ. H0 H1 θ = θ0 θ 6= θ0 En el ejemplo ilustrativo, θ era p y θ0 era 1/2. En algunos casos, sólo nos interesará incluir en la hipótesis alternativa valores del parámetro mayores que θ0 . En este caso formularemos las hipótesis como H0 H1 θ = θ0 θ > θ0 . Por supuesto también podrı́amos considerar en la alternativa valores menores que θ0 : H0 H1 θ = θ0 θ < θ0 . Para la primera formulación hablamos de hipótesis alternativa bilateral mientras que para las dos últimas hablamos de hipótesis alternativa unilateral. Planificamos nuestra toma de muestra: escogemos el tamaño de la muestra que extraeremos. En función del parámetro que queremos, escogeremos un estadı́stico y un modelo para su distribución muestral bajo el supuesto que la hipótesis nula es cierta. II.2 Contrastes de hipótesis 19 Extraemos una muestra, calculamos, para esta muestra, el valor del estadı́stico, y situamos este valor en la distribución muestral del estadı́stico cuando H0 es cierta. Cuantificamos la fuerza de los datos en contra de la hipótesis nula y a favor de la hipótesis alternativa a través del p-valor: el p-valor es el porcentaje de muestras del tamaño escogido que proporcionan un valor del estadı́stico tan o más extremo en la distribución muestral que el obtenido para nuestra muestra. En el ejemplo ilustrativo de la sección anterior, habı́amos encontrado un p-valor del orden de 2.8 %. Nota: conforme a la filosofı́a de estos temas recordatorios, hemos escogido una presentación intuitiva obviando algunas sutilezas y/o dificultades. Nuestro objetivo es que el lector haya asimilado el concepto de estadı́stico y de distribución muestral, ası́ como la idea de un contraste de hipótesis, sabiendo interpretar un p-valor. Se suele considerar que un p-valor menor que 0.05 indica una gran fuerza en los datos en contra de la hipótesis nula y a favor de la alternativa, mientras que cuando el p-valor es mayor de 0.2, se considera que los datos no contradicen la hipótesis nula. II.2.3. Los contrastes más utilizados Existe un gran número de contrastes, y nos limitaremos a recordar aquı́ los más sencillos. En el caso en que el modelo escogido para la variable X en la población sea N (µ, σ 2 ), los contrastes sobre la media se formulan como H0 H1 µ = µ0 µ 6= µ0 , en su versión bilateral, o sustituyendo H1 por H1 : µ > µ0 , o H1 : µ < µ0 en su versión unilateral. Para muestras de tamaño n, el estadı́stico de prueba depende de si el valor de σ 2 es conocido o no, es decir si el modelo para X especifica un valor concreto para la varianza, o si ésta se considera desconocida. Si σ 2 es conocido, el estadı́stico de √ 0 , y su distribución muestral en el supuesto de que H0 es cierta prueba es Z0 = X̄−µ σ/ n es Z0 ∼ N (0, 1) si H0 es cierta. Extraemos una muestra concreta, denotamos por ẑ el valor tomado para esta muestra por el estadı́stico Z0 . El p-valor se calcula como 2 × P[Z0 ≥ |ẑ|] en el caso de una hipótesis alternativa bilateral, y como P[Z0 ≥ |ẑ|] en el caso en que H1 sea unilateral. Si en cambio no se especifica ningún valor con el modelo para la varianza de X, se estima σ 2 por s2 la varianza calculada a partir de la muestra. El estadı́stico de √ 0 , y su distribución muestral si H0 es cierta, es una distribución prueba es T0 = X̄−µ s/ n llamada t de student con n − 1 grados de libertad. Su forma es parecida a la Normal pero tiene unas colas más gruesas, debido a la variabilidad adicional que se introduce en el denominador al estimar la desviación tı́pica. TEMA III Regresión lineal III.1. Introducción Es muy normal considerar más de una variable asociada a un experimento. En este caso, más que la distribución de cada variable por separado, nos puede interesar en particular las relaciones que existan entre ellas. Nos centraremos aquı́ en el caso en que distinguimos una variable llamada “respuesta”, cuya amplitud depende de los valores de otras variables llamadas “explicativas”, y aprenderemos cómo deducir un modelo para la evolución de la primera en función de estas últimas. Hay dos utilidades principales al disponer de un modelo: podemos primero explicar la manera en la que cambios en los valores de una variable explicativa induce cambios en el valor de la variable respuesta. Por ejemplo, si pienso que la temperatura media Y en agosto en San Javier evoluciona en función del año según el modelo: T emperatura = −582,5 + 0,31año, deduciré que en promedio, la temperatura media en agosto aumenta de 0.3 grados cada año. Por otra parte, si dispongo de un modelo para la evolución de la variable respuesta, me permite también realizar predicciones del valor que tomará para valores de las explicativas que no hemos observado. Acabamos esta sección de presentación con cuatro ejemplos con datos reales tomados de campos diferentes. Las nubes de puntos correspondientes están presentadas en la figura III.1 Estudio de la resistencia del cemento en función del tiempo de fraguado en dı́as. Fuente: Hald, A. (1952) Statistical theory for engineering applications, Wiley & Sons New-York, pág 541. ¿Cómo evoluciona la resistencia de piezas de cemento en función del tiempo de fraguado? ¿Cuánto tiempo hay que esperar para conseguir el 90 % de la resistencia máxima? Este es el tipo de preguntas a las que podemos contestar con el estudio de este conjunto de datos. 22 Mathieu Kessler: Estadı́stica industrial Todos los años Venecia se inunda durante las “acqua alta”. Sin embargo, parece que el nivel máximo al que llega el mar está cada año más alto, haciendo temer por la conservación de la ciudad y de sus monumentos. Es por lo tanto de interés estudiar la evolución del nivel máximo del mar en función del año. Fuente: Smith, R.L (1986) “Extreme value theory based on the r largest annual events”, Journal of Hydrology, 86. Evolución de la producción mundial de petróleo desde 1880. Fuente: Data and Stories Library http://lib.stat.cmu.edu/DASL/. En 1929, Edwin Hubble investigó la relación entre la distancia de una galaxia a la tierra y la velocidad con la que está alejándose. En efecto se piensa que las galaxias se alejan como consecuencia del “Big Bang”. Hubble pensó que disponiendo de un modelo que relacionara la velocidad de recesión con la distancia a la tierra proporcionarı́a información sobre la formación del universo y sobre lo que podrı́a pasar en el futuro. Los datos recogidos incluyen distancias en megaparsecs (1 megaparsec= 3.26 años luz) y velocidad de recesión en km/s. Fuente: Data and Stories Library, http://lib.stat.cmu.edu/DASL. Figura III.1: Cuatro ejemplos de conjuntos de datos III.2 Criterio de mı́nimos cuadrados III.2. 23 Criterio de mı́nimos cuadrados Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta que llamaremos Y y una variable explicativa que llamaremos X. Disponemos de n pares de datos X Y x1 y1 x2 y2 ··· ··· xn yn Para visualizar el conjunto recurrimos a la nube de puntos, también llamada diagrama de dispersión, en el que representamos los pares (xi , yi ), i = 1, · · · , n, en unos ejes Ox, Oy, ver figura III.2 Figura III.2: Ejemplo de nube de puntos Por conocimientos previos sobre el fenómeno que estudiamos o por la propia nube de puntos, decidimos ajustar a ésta una curva de una determinada forma funcional: podrı́a ser por ejemplo una recta, de ecuación Y = aX + b, o una parábola Y = a0 + a1 X + a2 X 2 . La forma de la curva está fijada pero intervienen en la ecuación constantes, también llamadas parámetros, cuyo valor tenemos que ajustar para obtener el “mejor” ajuste posible: en el caso de la recta, debemos encontrar los valores de la pendiente b y de la ordenada al origen a. En una formulación general, escogemos una familia paramétrica de funciones x 7→ f (θ, x) θ = (θ1 , . . . , θk ), donde θ es el vector de parámetros. Buscar la función de la familia que mejor se ajusta a la nube de puntos es equivalente a encontrar el valor θ̂ de θ, que corresponde a esta función. Debemos ahora dar sentido a la noción de “mejor”; debemos fijarnos un criterio que nos permita decidir que una función de la familia se ajusta mejor a la nube de puntos que otra. El criterio que seguimos en este tema es el de mı́nimos cuadrados. 24 Mathieu Kessler: Estadı́stica industrial Definimos la suma de cuadrados asociada a una función de la familia como la suma de los cuadrados de las distancias verticales entre la curva correspondiente y los datos observados de la nube de puntos. Tal como viene reflejado en la figura III.3, la distancia vertical entre por ejemplo el punto x3 , y3 ) y la curva es y3 − f (θ, x3 ), por lo tanto la suma de cuadrados se escribe SC(θ) = (y1 − f (θ, x1 ))2 + (y2 − f (θ, x2 ))2 + · · · + (yn − f (θ, xn ))2 . Figura III.3: Ajuste de una curva a la nube de puntos. Buscamos el valor θ̂ de θ que minimiza la cantidad θ 7→ θ, en muchos casos, es imposible encontrar este mı́nimo explı́citamente y tenemos que recurrir a algoritmos III.3 Regresión lineal 25 numéricos. Nos centraremos en este tema en el que la forma paramétrica de f es particularmente simple y permite el cálculo explı́cito de θ̂. Supongamos que hemos ajustado la curva, es decir que hemos encontrado el valor θ̂ de θ que minimiza la suma de cuadrados, introduzcamos unos cuantos términos: La curva de ecuación y = f (θ̂, x) se llama la curva ajustada. Los ordenadas de la curva ajustada correspondientes a los datos observados, es decir los valores ŷ1 = f (θ̂, x1 ), . . . , yn = f (θ̂, xn ) se llaman los valores ajustados. Las distancias verticales entre los puntos observados y la curva ajustada se llaman los residuos e1 , . . . , en . Tenemos ei = yi − ŷi , La suma de cuadrados SC(θ̂) = i = 1, . . . , n. n X e2i i=1 se llama suma residual de cuadrados. Para la regresión lineal, el coeficiente Pn (ŷi − ȳ)2 2 R = Pi=1 n 2 i=1 (yi − ȳ) mide la proporción de variabilidad en los datos explicada por el modelo. Se llama coeficiente de determinación múltiple. III.3. Regresión lineal Hablamos de regresión lineal cuando los parámetros intervienen de manera lineal en la especificación de la función y = f (θ, x). Más concretamente, suponemos que tenemos k variables explicativas, X1 , X2 , . . . , Xk , y que la variable respuesta Y es una combinación lineal de X1 , X2 , . . . , Xk : Y = β1 X1 + β2 X2 + · · · + βk Xk , (III.1) donde β1 β2 . . . , βk son números reales. En este caso el parámetro θ es igual a (β1 β2 . . . , βk ). III.3.1. Regresión lineal simple El caso más utilizado de regresión lineal corresponde al ajuste por una recta, es decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo de la forma Y = aX + b. Se trata de un caso particular de la formulación general (III.1), si consideramos b = β1 , X1 = 1, a = β2 y X2 = X. 26 Mathieu Kessler: Estadı́stica industrial a). Obtención de la recta ajustada La suma de cuadrados se escribe SC(θ) = SC(a, b) = n X (yi − (axi + b))2 , i=1 Los candidatos a alcanzar el mı́nimo de esta función satisfacen ∂ SC(a, b) = 0 ∂a ∂ SC(a, b) = 0. ∂b Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este sistema de ecuaciones son â = xy−x̄ȳ x2 −(x̄)2 b̂ = ȳ − âx̄. Introducimos la cantidad n (xy − x̄ȳ), (III.2) n−1 que llamamos la covarianza de X e Y . El coeficiente â se puede escribir como sxy = â = sxy , s2x donde s2x es la varianza de X que introdujimos en el tema 1. Con estas notaciones, se puede escribir la ecuación de la recta ajustada en una forma compacta: y − ȳ = sxy (x − x̄). s2x Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza es positiva, Y y X presentan una asociación positiva: cuando crece X, crece Y y cuando decrece X, decrece Y . En cambio, si la covarianza es negativa Y y X presentan una asociación negativa, es decir que si X crece, Y decrece y vice versa. b). Bondad del ajuste Para la regresión lineal simple se puede demostrar que R2 = r2 donde r= sxy . sx sy (III.3) La cantidad r se llama el coeficiente de correlación entre X e Y . Para cuantificar del ajuste desarrollamos la suma de cuadrados residual, SC(θ̂) = Pn la bondad 2 i=1 (yi − ŷi ) . Podemos demostrar que SC(θ̂) = (n − 1)s2y (1 − R2 ). III.3 Regresión lineal 27 Deducimos que R2 está siempre comprendido entre 0 y 1, y cuanto más cercano esté de 1, mejor es el ajuste, puesto que corresponderá a una suma residual de cuadrados menor. En particular, deducimos que si R2 = 1, SC(θ̂) = 0, y para todo i = 1, . . . , n, yi = ŷi : todos los puntos observados están situados en la curva ajustada: los residuos son nulos y el ajuste es perfecto. Puesto que R2 = r2 y 0 ≤ R2 ≤ 1, deducimos que el coeficiente de correlación r está siempre comprendido entre −1 y 1. Si r = ±1, el ajuste de los puntos observados por una recta es perfecto. El coeficiente de correlación se interpreta en general como una cantidad que cuantifica la asociación lineal que existe entre dos variables: cuanto más cerca de ±1, más se aproxima la nube de puntos a una recta. Además por la definición (III.3), sabemos que r es del mismo signo de la covarianza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia de una asociación lineal positiva entre las dos variables, mientras que si es negativo y cercano a −1, presentan una asociación lineal negativa. Sin embargo, es necesario tener precaución a la hora de interpretar valores del coeficiente de correlación: sólo es un resumen, fiable en el caso en que está próximo a ±1 para indicar que existe una fuerte asociación lineal entre las variables pero mucho menos fiable si toma un valor alejado de ±1. Anscombe (1973), ”Graphs in statistical analysis”, American Statistician, 27, pp 17-21, construyó cuatro conjuntos de datos artificiales que dan lugar al mismo coeficiente de correlación y a las mismas rectas de regresión, pero cuyos aspectos son completamente diferentes. Los datos se presentan en el apéndice, y se deja su estudio en ejercicio. c). Predicción Tal como lo mencionamos en la introducción del tema, si disponemos del modelo ajustado podemos utilizarlo para predecir el valor de la respuesta para valores no observados de X: Si x0 es un valor no observado, nuestra predicción del valor de Y será yx0 = â x0 + b̂. Sin embargo, debemos tener mucho cuidado al extrapolar nuestro modelo fuera del rango de valores de X que hemos observado, al no disponer de valores fuera de este rango, tampoco sabemos si el modelo deducido seguirá valido. Por ejemplo en la introducción hemos visto que un modelo para la evolución de la temperatura media en agosto Y en función del año X está dado por T emperatura = −582,5 + 0,31año. Este modelo se obtuvo a partir de mediciones de la temperatura para los últimos 20 años aproximadamente. El hecho de que la pendiente al origen sea -582.5 implica que si el modelo lineal fuera válido hasta el año 0, la temperatura media en el mes de agosto habrı́a sido de -582 grados! El modelo lineal es una buena aproximación para la evolución de la temperatura en los últimos veinte años, pero no es válido para épocas demasiada alejadas de la actualidad. 28 Mathieu Kessler: Estadı́stica industrial III.3.2. a). Regresión lineal múltiple Presentación La regresión lineal múltiple corresponde al caso general Y = β1 X1 + β2 X2 + · · · + βk Xk . (III.4) Se trata de un modelo bastante general que incluye muchas posibles formas funcionales para f (θ, x). Muy a menudo, se considera un término constante en el modelo, lo que corresponde a imponer que X1 = 1. Los modelos incluidos en esta formulación general comprenden entre otros La regresión lineal simple. Y = b +aX Y = β1 X1 +β2 X2 X1 = 1 X2 = X La parábola Y = a0 + a1 X + a2 X 2 Y = β1 X1 + β2 X2 + β3 X3 X1 = 1, X2 = X, X3 = X 2 Cualquier polinomio de orden q, Y = a0 + a1 X + a2 X 2 + · · · + aq X q Y = β1 X1 + β2 X2 + · · · + βq+1 Xq+1 X1 = 1, X2 = X, . . . Xq+1 = X q Si disponemos de dos variables X y Z y buscamos un modelo para Y en función de éstas, Y pertenece a una superficie, que se puede representar en un eje tridimensional. Tenemos por ejemplo el caso más sencillo Y = a00 + a10 X + a01 Z Y = β1 X1 + β2 X2 + β3 X3 X1 = 1, X2 = X, X3 = Z, en el que la respuesta Y evoluciona en un plano en función de X y Z, o si añadimos términos cuadráticos, Y = a00 + a10 X + a01 Z + a11 XZ + a20 X 2 + a02 Z 2 Y = β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + β6 X6 + X1 = 1, X2 = X, X3 = Z, X4 = XZ, X5 = X 2 , X6 = Z 2 III.3 Regresión lineal 29 obtenemos que la respuesta describe una superficie cuadrática, una paraboloide de revolución por ejemplo. En cuanto a la presentación de los datos, disponemos de n valores y1 , y2 , . . . , yn que corresponden a distintos valores de las explicativas. Se recogen en una tabla de la forma b). Y y1 y2 .. . X1 x11 x21 .. . X2 x12 x22 .. . ... ... ... .. . Xk x1k x2k .. . yn xn1 xn2 ... xnk Cálculo de los coeficientes Introducimos la matriz X, llamada matriz valores de las variables explicativas  x11 x12 . . .  x21 x22 . . .  X= . .. ..  .. . . de diseño que contiene todos los x1k x2k .. .    ,  xn1 xn2 . . . xnk ası́ como el vector de observaciones    Y =  y1 y2 .. .    ,  yn y el vector de coeficientes β = (β1 , β2 , . . . , βk )0 , donde suma de cuadrados SC(β) se puede escribir 0 denota la transpuesta. La SC(β) = kY − Xβk2 , donde k k denota la norma euclı́dea de un vector en Rn . Esta situación es bien conocida en álgebra lineal, buscamos el elemento del espacio vectorial generado por las columnas de X que minimice la distancia a un vector dado: se trata de la proyección ortogonal, y la expresión de los coeficientes β que minimiza SC(β) es      β̂1 β̂2 .. .     = (X 0 X)−1 X 0 Y,  β̂n donde X 0 denota la transpuesta de X. Nota. La expresión anterior presupone que se puede invertir X 0 X, lo que es equivalente a que las columnas de la matriz X vistas como vectores son linealmente independientes. 30 Mathieu Kessler: Estadı́stica industrial c). Ejemplo Se estudia el rendimiento Y de una reacción quı́mica en función de la temperatura T M P a la que se lleva a cabo, la concentración inicial del producto C y el tiempo T que transcurre. Los datos se presentan en la tabla siguiente: Temperatura(C) 10 15 10 15 10 15 10 15 Concentración( %) 40 40 40 40 50 50 50 50 Tiempo(mn) 20 20 25 25 20 20 25 25 Rendimiento 28.27 36.33 26.00 37.00 37.40 42.45 39.42 45.47 Buscamos un modelo de la forma: Y = β1 + β2 T emp + β3 Conc + β4 T iempo Y = β1 X1 + β2 X2 + β3 X3 + β4 X4 X1 = 1, X2 = T emp, donde Y es el rendimiento. Para este modelo la matriz de diseño es  1 10  1 15   1 10   1 15 X=  1 10   1 15   1 10 1 15 X3 = Conc, 40 40 40 40 50 50 50 50 20 20 25 25 20 20 25 25 X4 = T iempo,             y las distintas cantidades que necesitamos para calcular los coeficientes son   8 100 360 180  100 1300 4500 2250   X 0X =   360 4500 16400 8100  180 2250 8100 4100  C = X 0X −1 23,5 −0,25  −0,25 0,02 =  −0,225 0 −0,45 0  −27. 995  1. 509 X 0Y =   0. 9285 0. 173  −0,225 −0,45 0 0   0,005 0  0 0,02     III.4 Inferencia para la regresión 31  −27,96   1,51  β̂ = C · X 0 Y =   0,93  0,17  El modelo ajustado es por lo tanto Rendimiento = −27,96 + 1,51T emp + 0,93Conc + 0,17T iempo. En particular deducimos que un aumento de 1 grado en la temperatura a la que se realiza la reacción induce un aumento de 1.51 puntos en el rendimiento. En la tabla siguiente presentamos los valores observados para la respuesta, los valores ajustados por nuestro modelo y los residuos. y 28.27 36.33 26.00 37.00 37.40 42.45 39.42 45.47 ŷ 27.70 35.24 28.56 36.10 36.98 44.52 37.84 45.38 0.57 1.09 -2.56 0.90 0.42 -2.07 1.58 0.09 residuos III.4. Inferencia para la regresión III.4.1. Introducción Al igual que en los dos primeros temas, conseguiremos sacar información más precisa sobre el fenómeno bajo estudio si disponemos de un modelo para el mecanismo de generación de los datos que hemos observado. Para simplificar, empecemos por el caso en que sólo tenemos una variable explicativa X. Consideramos entonces el experimento que consiste en escoger un valor de X y observar el valor de la respuesta Y resultante. ¿Cómo explicar que, si escogemos varios valores de X, obtenemos una nube de puntos que, por ejemplo, parece globalmente seguir una recta? Los puntos observados sufren desviaciones de la recta, algunas veces se encuentran por abajo, otras por encima. El modelo que explica la relación entre el dato obtenido para Y y el escogido para X puede por lo tanto ser Y = aX + b + ε, donde ε es una variable aleatoria (por lo tanto impredecible) que algunas veces toma valores negativos, lo que implica que el punto observado está por debajo de la recta, y otras veces positivos. La variable ε corresponde a la perturbación aleatoria que sufre la relación lineal entre Y y X. Para completar la especificación del modelo, sólo nos falta escoger un modelo para la distribución de los valores que puede tomar la perturbación ε. La opción más extendida y que suele ser bastante acorde con lo observado en la práctica corresponde a la campana de Gauss: suponemos que, sea cual sea el valor escogido de X, la perturbación ε asociada a la generación del valor de la respuesta sigue una distribución normal con media cero (el centro de los valores de la perturbación corresponde a la situación sin perturbación) y con la misma desviación tı́pica σ, es decir ε ∼ N (0, σ 2 ). En conclusión, el modelo que escogemos para la respuesta Y en el caso en que conocemos el valor de X, es Y ∼ N (aX + b, σ 2 ), 32 Mathieu Kessler: Estadı́stica industrial si pensamos ajustar una recta mientras que, para el caso más general de la regresión lineal múltiple: Y ∼ N (β1 X1 + β2 X2 + · · · + βk Xk , σ 2 ). (III.5) Dos caracterı́sticas fundamentales de nuestro modelo son La respuesta promedio, es decir la esperanza de Y , E[Y ] está dada por E[Y ] = β1 X1 + β2 X2 + · · · + βk Xk , es decir que el centro de los valores que obtenemos corresponde precisamente a un elemento de la familia parámetrica que hemos escogido. La varianza de la perturbación, y por lo tanto de la respuesta, no depende del valor concreto de las variables explicativas: hablamos de homocedasticidad. III.4.2. Algunas distribuciones muestrales Fijado este modelo, nos damos cuenta de que consideramos ahora que los datos que hemos observado son el resultado de un experimento aleatorio, y que si repitiera la toma de las mismas n combinaciones de valores de las explicativas y observara los n valores resultantes de la respuesta, obtendrı́a otra nube de puntos, seguramente con una forma global parecida, pero distinta. En particular, los coeficientes ajustados β̂1 , . . . , β̂k que calcuları́a serı́an distintos. En resumen, las cantidades β̂1 , . . . , β̂k son variables aleatorias, cuya distribución muestral es de sumo interés para poder realizar afirmaciones sobre la relación entre Y y las variables explicativas. La teorı́a estadı́stica determina en el caso de la regresión lineal múltiple las distribuciones muestrales de los coeficientes estimados, si suponemos que los datos han sido generados a partir del modelo (III.5). Puesto que nuestro objetivo aquı́ es llegar a interpretar los principales elementos de la salida de un programa como SPSS, nos limitamos a las distribuciones muestrales de cada β̂i . Estimaremos la varianza σ 2 de la perturbación por la varianza residual σ̃ 2 que definimos a continuación, σ̃ 2 = n 1 X (yi − ŷi )2 . n−k (III.6) i=1 Introduzcamos ahora la matriz C = (X 0 X)−1 , tenemos que, para todo i = 1, . . . , k, β̂i 1/2 σ̃Cii ∼ tn−k , (III.7) donde Cii denota el i-ésimo elemento de la diagonal de C, y tn−k es la distribución 1/2 t de Student con n − k grados de libertad. El denominador σ̃Cii se llama el error estándar del estimador β̂i . III.4 Inferencia para la regresión III.4.3. 33 Contrates de significación La principal utilidad que haremos de la distribución muestral (III.7) consistirá en plantear el contraste para comprobar si un determinado coeficiente en la regresión es significativamente diferente de cero. Para i entre 1 y k, plantearemos las hipótesis H0 : βi = 0 H1 : βi 6= 0. A continuación, obtenemos el valor de β̂i a partir de los datos que hemos observado ası́ como el de la varianza residual (III.6), para acabar calculando el valor concreto t̂ i para nuestra muestra del estadı́stico de prueba β̂1/2 . El p-valor se obtendrá entonces σ̃Cii como P[|tn−k | > |t̂|] donde tn−k representa una variable con distribución t de Student con n − k grados de libertad. Los contrastes H0 : βi = 0 H1 : βi 6= 0, son particularmente importantes a la hora de construir el modelo. Muy a menudo no tenemos muy claro si una determinada variable tiene influencia sobre la respuesta o no, y por lo tanto no sabemos si el modelo que construimos para la respuesta promedio debe incluirla. III.4.4. Ejemplo Volvamos al ejemplo del rendimiento de la reacción quı́mica. El ajuste obtenido era E[Y ] = Rendimiento promedio = −27,96 + 1,51T emp + 0,93Conc + 0,17T iempo, es decir que los coeficientes de cada variable explicativa han sido todos estimados por valores distintos de cero, lo que induce a pensar que tanto la temperatura como la concentración inicial del reactivo como el tiempo de reacción tienen una influencia sobre el rendimiento. Sin embargo ¿son estos coeficientes significativamente diferentes de cero?, ¿o es que su alejamiento del valor nulo se debe solamente a la variabilidad natural de los valores del estimador β̂i correspondiente? A lo mejor si repito el experimento completo, obtendrı́a una ecuación ajustada en la que el coeficiente del tiempo estuviera muy cerca de cero o incluso negativo, lo que cambiarı́a del todo mi conclusión sobre el efecto del tiempo sobre el rendimiento. Los contrastes de significación sobre cada coeficiente nos permiten contestar a estas preguntas. Para los datos descritos en la sección I.3.2 c), un programa estadı́stico como SPSS o Statistix nos proporciona los valores estimados β̂1 , . . . , β̂k , sus errores estándar, el valor de los estadı́sticos de prueba ası́ como los p-valores asociados a los contrastes de significación de los coeficientes. Una salida tı́pica serı́a: 34 Mathieu Kessler: Estadı́stica industrial Variable Constante Conc Tiempo Temperatura β̂i -27.96 0.93 0.17 1.51 Error estándar β̂i 9.65 0.14 0.28 0.28 Est. prueba -2.90 6.6 0.61 5.36 p-valor 0.0442 0.003 0.57 0.006 y nos proporciona un coeficiente de determinación múltiple R2 igual a 0.95. Entre los p-valores asociados a los contrastes de significación de los coeficientes, hay que destacar el correspondiente al coeficiente de la variable tiempo con un valor de 0.57. Un p-valor tan alto para el contraste H0 : β4 = 0 contra H1 : β4 6= 0 evidencia que los datos soportan la hipótesis nula. Deducimos por lo tanto que el tiempo (por lo menos en el rango de valores que hemos experimentado, es decir 20 o 25 minutos) no tiene una influencia significativa sobre el rendimiento. Podemos por lo tanto probar a eliminarlo del modelo y buscar una relación del tipo: E[Y ] = Rendimiento promedio = β1 + β2 T emp + β3 Conc. Obtenemos para este modelo: Variable Constante Conc Temperatura β̂i -24.09 0.93 1.51 Error estándar β̂i 6.81 0.13 0.26 Est. prueba -3.54 7.05 5.73 p-valor 0.016 0.0009 0.002 con un R2 igual a 0.94. La bondad del ajuste medida por el coeficiente de determinación múltiple no ha variado mucho, por otra parte los p-valores correspondientes a los contrastes de significación para los coeficientes β1 , β2 y β3 son ahora todos muy pequeños, lo que nos lleva a rechazar que cualquiera de ellos sean nulos. A falta de un examen de los residuos, que esbozaremos en prácticas, nos quedamos con el modelo para el rendimiento promedio: Rendimiento promedio = −24,09 + 0,93T emp + 1,51Conc. III.4.5. Introducción a la construcción de modelos En situaciones en las que se dispone de un gran número de variables explicativas y pocos conocimientos previos sobre cuáles pueden tener una influencia sobre la respuesta, serı́a útil disponer de un procedimiento que nos permita incorporar o eliminar variables de manera casi automática en el modelo, y nos proporcione al final “un” modelo que dé cuenta de los datos. Empecemos por decir que no existe un procedimiento que funcione de manera satisfactoria en todos los casos, en cambio se han propuesto muchos intentos de solución, ninguno ha conseguido la unanimidad de los especialistas sobre sus virtudes, y es un campo de la estadı́stica en el que se sigue investigando de manera activa. Presentaremos aquı́ dos métodos muy sencillos y intuitivos, pero que tienen limitaciones para conjuntos de muchas variables: el cálculo de todas las posibles regresiones y la eliminación hacia atrás. III.4 Inferencia para la regresión a). 35 Cálculo de R2 para todos los posibles submodelos Un primer método bastante natural consiste en realizar una comparación de todos los modelos que podrı́a construir con combinaciones lineales de las variables explicativas, y calcular el valor de R2 asociado a cada uno. Supongamos que tenemos en total k posibles regresores X1 , . . . , Xk , podemos construir 2k posibles submodelos utilizando algunos de estos regresores. Tenemos submodelos con sólo 1 regresor: E[Y ] = β1 X1 , . . . E[Y ] = βk Xk , submodelos con sólo dos dos regresores: E[Y ] = β1 X1 +β2 X2 , . . . , β1 X1 +βk Xk , . . . , E[Y ] = βk−1 Xk−1 +βk Xk , con sólo tres regresores etc... hasta el modelo completo con los k regresores. Para el ejemplo del rendimiento de la reacción quı́mica, es razonable del punto de vista quı́mico que siempre esté el término constante, nos limitamos entonces a incluir o excluir las tres variables explicativas C, TMP y T . Los submodelos son 23 = 8, los describimos a continuación, junto con el valor de R2 del ajuste asociado: Modelo E[Y ] = β1 E[Y ] = β1 + β2 C E[Y ] = β1 + β3 TMP E[Y ] = β1 + β4 T E[Y ] = β1 + β2 C + β3 TMP E[Y ] = β1 + β2 C + β4 T E[Y ] = β1 + β3 TMP + β4 T E[Y ] = β1 + β2 C + β3 TMP + β4 T R2 0 0,568 0,375 0,375 0,943 0,573 0,38 0,948 Dos modelos aparecen con un alto valor de R2 : el modelo completo y el correspondiente a E[Y ] = β1 + β2 C + β3 TMP , en el que ha desaparecido la variable Tiempo. En los otros submodelos se nota un descenso importante de la calidad de ajuste. Puesto que el valor de R2 apenas difiere, nos quedamos con el modelo más simple: E[Y ] = β1 + β2 C + β3 TMP . Una desventaja evidente de este método es que el número de modelos a comparar puede ser rápidamente muy grande en cuanto tenemos varias variables explicativas. Además el criterio de comparación - cálculo de R2 - es pobre y a menudo no ayuda a seleccionar el modelo más satisfactorio. b). Eliminación hacia atrás. Otro método muy utilizado y implementado en cualquier programa de estadı́stica corresponde a la eliminación hacia atrás. Empezamos con el modelo completo, que incluye todos los regresores. Se trata de un algoritmo recursivo, que empieza con el modelo completo y desarrolla los siguientes pasos a) Realizamos el ajuste, y calculamos el p-valor asociado al contraste de significación para cada coeficiente. b) Nos fijamos en la variable con el p-valor más alto: si éste es mayor que un umbral prefijado (0.1 por ejemplo), eliminamos la variable del modelo y volvemos al paso a). El algoritmo se para cuando todos los p-valores son menores que el umbral. 36 Mathieu Kessler: Estadı́stica industrial Si el umbral se fija en 0.1, el procedimiento de eliminación hacia atrás para el ejemplo del rendimiento quı́mico coincide con los pasos que hemos seguido en la sección III.4.4, la conclusión es la misma que para el cálculo de los todos submodelos posibles: nos quedamos con el modelo en el que aparecen un término constante, la concentración y la temperatura. En todos los casos, sea cual sea el método de construcción de modelo que escogemos, debemos controlar todos los pasos que realiza el algoritmo y no confiar ciegamente en el resultado final proporcionado por el programa. Apéndice A continuación se presentan los datos de Anscombe (1973), ”Graphs in statistical analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de X1 , X2 , X3 , y X4 asi como de Y1 , Y2 , Y3 y Y4 y a continuación calcular las rectas de regresión de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro gráficas de Yi en función de Xi para i=1, 2, 3, 4. X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 X2 10 8 13 9 11 14 6 4 12 7 5 Y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74 X3 10 8 13 9 11 14 6 4 12 7 5 Y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 X4 8 8 8 8 8 8 8 19 8 8 8 Y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 6 TEMA IV Análisis en componentes principales IV.1. Introducción IV.1.1. Presentación En situaciones en las que consideramos un gran número de variables cuantitativas asociadas a cada individuo de un conjunto, es difı́cil tener una visión general de las asociaciones que puedan existir entre ellas. Sin embargo serı́a muy conveniente; en efecto, si detectáramos por ejemplo asociaciones muy fuertes entre algunas variables, podrı́amos omitir en nuestro estudio las variables que se pueden predecir a partir de otras, y conseguir ası́ una descripción del conjunto más sencilla al involucrar menos variables: es el problema importante de la reducción de dimensión en un conjunto de datos con muchas variables. En particular la reducción de dimensión del conjunto puede facilitar la descripción de la estructura de la variabilidad presente en los datos. Un primer paso que nos puede ayudar y que hemos aplicado repetidamente en prácticas de regresión lineal múltiple, consiste en calcular la matriz de correlaciones de las variables presentes, y buscar valores de la correlación próximos a ±1. El análisis en componentes principales que describimos en este tema es una técnica muy relacionada al ser también basada de la matriz de correlación / covarianza de los datos. El objetivo es reducir la dimensión del conjunto de datos, pero perdiendo poca información sobre los individuos. Supongamos que cada individuo está descrito por k variables. Presentaremos los datos en una matriz, que contará tantas columnas como variables - k en nuestro caso - y lı́neas como individuos, por ejemplo n.   x11 x12 · · · x1k  x21 x22 · · · x2k    X= . (IV.1) . .. .. .. .  .  . . . xn1 xn2 · · · xnk Los datos forman una nube de n puntos en un espacio k-dimensional. Por su- 38 Mathieu Kessler: Estadı́stica industrial puesto, si k ≥ 3, es imposible representar esta nube gráficamente. Sin embargo, está claro que descripciones equivalentes del conjunto se pueden obtener con un simple cambio de sistemas de coordenadas. La técnica de componentes principales consiste en determinar el sistema de coordenadas que facilitará la reducción de dimensión. Para entender el tipo de cambio de sistemas de coordenadas que nos proporciona el análisis en componentes principales, dedicamos ahora algo de tiempo al caso sencillo en el que sólo tenemos dos variables, es decir k = 2. IV.1.2. Planteamiento para dos variables 5 10 Observamos dos variables para unos 20 individuos, obteniendo la matriz de datos 20 × 2 recogida en el apéndice, y la nube representada en la figura IV.1. ● ● ● ● ● 0 X2 ● ● ● ● ● ● ● ● ● ● −10 −5 ● ● ● ● −10 −5 0 5 10 X1 Figura IV.1: Nube de puntos, datos originales ¿Cuál serı́a el cambio de ejes que más nos convendrı́a si quisiéramos conseguir una reducción de la dimensión del conjunto? Para reducir la dimensión, una vez realizado el cambio de sistema de coordenadas, nos quedamos sólo con la primera componente para cada individuo. Está claro que la nueva descripción será más pobre que la original, al sustituir un par de números para cada individuo por un único número, pero si tenemos la suerte de que en el nuevo sistema, la segunda componente toma IV.1 Introducción 39 valores parecidos para todos los individuos, la pérdida de información será pequeña, puesto que de todas formas, la componente que omitimos no diferencia mucho a los individuos. Intuitivamente, los ejes que buscamos corresponden a los representados en la figura IV.2. En efecto, si llamamos Z1 y Z2 las coordenadas de los puntos en el X2 Z2 ● ● ● ● Z1 ● x2 ● ● ● ● ● ● ● ● ● ● ● ● X1 ● ● x1 Figura IV.2: Nube de puntos con los nuevos ejes nuevo sistema de coordenadas, observamos que esta elección de los ejes consigue que la primera componente presente la mayor varianza, mientras que la segunda componente la menor varianza posible. La figura IV.3 representa la misma nube de puntos en el nuevo sistema OZ1 OZ2 . Observamos que en esta figura, el eje OZ1 coincide con la recta de regresión ajustada a la nube, por lo tanto, la pendiente de la recta de regresión de Z2 sobre Z1 es nula, lo que implica que la covarianza entre estas dos variables es nula. En resumen, el cambio de coordenadas que buscamos proporciona dos variables Z1 y Z2 cuya matriz de covarianzas es diagonal. Tal como lo desarrollamos en lo que sigue, el análisis en componentes principales determina el cambio de coordenadas en las que las nuevas componentes de la nube de puntos presenten una matriz de covarianzas diagonal. 40 Mathieu Kessler: Estadı́stica industrial Z2 X2 ● z2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Z1 ● ● X1 z1 Figura IV.3: Nube de puntos rotada y representada en el nuevo sistema de coordenadas IV.2. Planteamiento general IV.2.1. Preliminares a). Recordatorios sobre cambio de base Sea x~1 , . . . , ~xk una base de Rk . Consideramos la nube k-dimensional de n puntos que llamamos M1 , M2 , . . . , Mn . (xi1 , xi2 , . . . , xik ) son las coordenadas del punto Mi en la base x~1 , . . . , ~xk . Cada lı́nea de la matriz X definida en (IV.1) corresponde por lo tanto a los componentes de un punto de la nube en el sistema de coordenadas inducido por esta base. Consideramos ahora otra base ~u1 , . . . , ~uk de Rk . Sean (zi1 , zi2 , . . . , zik ) las coordenadas del punto Mi en esta nueva base. Construimos la matriz k × n Z cuyas IV.2 Planteamiento general 41 lı́neas contienen las coordenadas de los  z11  z21  Z= .  .. puntos de la nube en la base u~1 , . . . , ~uk :  z12 · · · z1k z22 · · · z2k   . .. .. ..  . . . zn1 zn2 · · · znk Para relacionar Z con X, consideramos U , la matriz de paso de la base ~x1 , . . . , ~xk a la nueva base. Recordar que la matriz U es una matriz k × k cuyas columnas contienen las coordenadas de los vectores ~u1 , . . . , ~uk en la base inicial, es decir si ~u1 = u11 ~x1 + u21 ~x2 + · · · + uk1 ~xk ~u2 = u12 ~x1 + u22 ~x2 + · · · + uk2 ~xk .. .. . . ~uk = u1k ~x1 + u2k ~x2 + · · · + ukk ~xk , la matriz de paso será    U =  u11 u21 .. . u12 u22 .. . ··· ··· .. . u1k u2k .. .    .  uk1 uk2 · · · ukk La relación entre Z, X y U es X = ZU 0 , (IV.2) donde U 0 denota la matriz transpuesta de U . U es invertible y deducimos que X(U 0 )−1 = Z. (IV.3) Nota: Si los vectores ~u1 , . . . , ~uk forman una base ortonormal, la matriz U satisface U 0 U = Id, y por lo tanto (U 0 )−1 = U . b). Matriz de covarianzas y cambio de bases Volvamos al conjunto de datos representado por la matriz X. La matriz de covarianzas de las variables X1 , . . . , Xk para este conjunto es  2  sX1 sX1 X2 · · · sX1 Xk  sX X s2 · · · sX2 Xk  1 2 X2   SX =  . (IV.4) , . .. .. ..  ..  . . sX1 Xk sX2 Xk · · · s2Xk donde s2Xi representa la varianza de la variable Xi en el conjunto y sXi Xj es la covarianza de Xi y Xj , ver ecuaciones (I.1) y (III.2) de los temas 1 y 3. Supondremos ahora, para simplificar las notaciones y sin perder generalidad, que las variables en X1 , . . . , Xk están centradas, es decir que tienen media cero: 42 Mathieu Kessler: Estadı́stica industrial x¯1 = . . . = x¯k = 0. En este caso, es fácil comprobar que la matriz de covarianzas de X se puede expresar como 1 SX = X 0 X. (IV.5) n−1 Utilizando la relación (IV.2), deducimos que la matriz SZ de covarianzas de las variables Z1 , . . . , Zk , componentes de los puntos en la nueva base ~u1 , . . . , ~uk se relaciona con SX a través de SZ = 1 1 Z 0Z = U −1 X 0 X(U 0 )−1 = U −1 SX (U 0 )−1 . n−1 n−1 En el caso en que U es ortogonal, la relación se escribe SZ = U −1 SX U. IV.2.2. (IV.6) Análisis en componentes principales Tal como lo ilustramos en el ejemplo particular de dos variables, el análisis en componentes principales persigue determinar el cambio de sistema de coordenadas en el que la matriz de covarianzas de las nuevas componentes sea diagonal. Por los preliminares vistos en la sección anterior, y en particular la relación (IV.6), deducimos que los vectores de la nueva base ~u1 , . . . , ~uk que lo consiguen son los vectores propios de la matriz SX .1 Por su forma, una matriz de covarianzas es siempre diagonalizable y además sus valores propios son todos mayores o iguales a cero. Introducimos la definición Sean λ1 ≥ λ2 ≥ · · · ≥ λk ≥ 0 los valores propios ordenados de SX . Llamemos ~u1 , ~u2 , . . . , ~uk los vectores propios de norma 1 asociados. Los componentes Z1 , . . . , Zk de los puntos del conjunto en la base ~u1 , ~u2 , . . . , ~uk son los componentes principales del conjunto de datos descrito por la matriz X. Al calcular los vectores propios de la matriz SX , obtenemos los coeficientes uij de la matriz U de paso (ver (a)). Por la fórmula de cambio de base (IV.3), deducimos que Z1 = u11 X1 + u21 X2 + · · · + uk1 Xk Z2 = u12 X1 + u22 X2 + · · · + uk2 Xk .. .. . . Zk = u1k X1 + u2k X2 + · · · + ukk Xk . Los componentes principales Z1 , . . . , Zk se obtienen por lo tanto como combinaciones lineales de las variables originales X1 , . . . , Xk , cuyos coeficientes se deducen de la expresión de los vectores propios. Volvamos al ejemplo simple visto en la sección IV.1.2 y cuyos datos se pueden encontrar en el apéndice. La matriz de covarianzas de los datos es 11,249135 5,199287 SX = , 5,199287 3,840685 1 Recordar que λ es un valor propio de la matriz A, y ~ u es un vector propio asociado a λ, si se cumple A~ u = λ~ u. IV.3 Propiedades 43 y utilizando un programa como SPSS o Mathematica, obtenemos que los dos valores propios son λ1 ' 13,93 y λ2 ' 1,16. Los vectores propios asociados son ~u1 = (−0,89, −0,46) y ~u2 = (0,46, −0,89). Deducimos que los dos componentes principales son Z1 = −0,89X1 − 0,46X2 Z2 = 0,89X1 − 0,89X2 IV.3. Propiedades Por la definición de los componentes covarianzas SZ es  λ1 0  0 λ2  SZ =  .  .. ... 0 principales, obtenemos que la matriz de ... 0 .. . ... ... .. . 0 0 .. .    ,  . . . . . . . . . λk para todo 1 ≤ i ≤ k, el valor propio λi es por lo tanto la varianza del i-ésimo componente principal Zi . Por otro lado, por construcción, los componentes principales son incorrelados (rZi Zj = 0). Los principales teoremas del álgebra lineal nos permiten deducir las siguientes propiedades de los componentes principales: 1. Cualquier combinación lineal estanderizada de las variables iniciales, es decir a1 X1 + · · · + ak Xk con a21 + · · · + a2k = 1, presenta una varianza menor or igual que la del primer componente Z1 , es decir: V ar(a1 X1 + · · · + ak Xk ) ≤ λ1 . Podemos decirlo de otra manera: sea cual sea el primer vector del nuevo sistema de coordenadas que escojamos, la varianza, para la nube de puntos, de la primera componente en este nuevo sistema será menor o igual que λ1 , es decir que, cuando fijamos este primer vector como u~1 , el vector propio de SX asociado a λ1 , maximizamos la varianza de los valores que toma la primera componente en la nube de puntos. 2. La variabilidad total se preserva. V ar(X1 ) + · · · + V ar(Xk ) = V ar(Z1 ) + · · · + V ar(Zk ) = λ1 + · · · + λk IV.4. Ejemplos IV.4.1. Notas de examenes Consideremos que el examen final de esta asignatura consta de dos partes que contribuyen cada una al 50 % de la nota final: una parte teórica y una parte práctica. 44 Mathieu Kessler: Estadı́stica industrial En la gráfica IV.4 se representa la nube de puntos correspondiente a 30 alumnos (hipotéticos...) Si realizamos un análisis de componentes principales de los datos, obtenemos que los dos componentes principales son Z1 = 0,65X1 + 0,76X2 Z2 = 0,76X1 − 0,65X2 con valores propios λ1 = 1,90 y λ2 = 0,08. Deducimos que la principal fuente de variación presente en los datos, es decir, lo que más diferencia a los alumnos es aproximadamente proporcional a la suma de las dos notas, es decir la nota total. La segunda fuente de variación corresponde a la diferencia entre las dos notas: diferencia entre los alumnos que lo han hecho bien en prácticas y mal en teorı́a y los que lo han hecho al revés. IV.4.2. Encuesta de presupuestos familiares Para ilustrar el método de los componentes principales, utilizaremos el ejemplo de la encuesta de Presupuestos Familiares, estudiado en Peña (2002) Análisis de datos multivariantes, p140. La encuesta de presupuestos familiares en España para el año 1990/1991, recoge los gastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como una provincia). Las variables son: X1 = alimentación, X2 = vestido y calzado, X3 = vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 = transporte, X7 = enseñanza y cultura, X8 = turismo y ocio, X9 12 otros gastos. Por razones de simetrı́a, se trabaja con los logaritmos de los datos, es decir que consideramos las variables Y1 = log(X1 ), . . . , Y9 = log(X9 ). Los valores propios de la matriz SY de covarianzas de Y que encontramos son λ1 = 0,348 λ2 = 0,032 λ3 = 0,027 λ4 = 0,018 λ5 = 0,013 λ6 = 0,011 λ7 = 0,010 λ8 = 0,010 λ9 = 0,005 El vector propio asociado a λ1 nos proporciona el primer componente principal: z1 = 0,12y1 + 0,18y2 + 0,30y3 + 0,31y4 + 0,46y5 + 0,34y6 +0,50y7 + 0,31y8 + 0,31y9 El primer componente, el que mejor permite diferenciar a las distintas provincias en cuanto a presupuestos familiares, es por lo tanto una suma ponderada de todas las variables. Las variables que más peso tienen en esta suma son las que corresponden a los gastos en enseñanza y cultura (Y7 ) y sanitarios (Y5 ). En cambio, los gastos en alimentación (Y1 ) tienen menor peso. Si clasificamos las provincias según su valor para el componente Z1 , que dejamos en ejercio para el lector, observamos que la clasificación refleja los niveles de la renta media por familia en cada provincia. IV.5 Criterio de selección del número de componentes El segundo componente, asociado al valor propio λ2 = 0,032, es z2 = 0,05y1 + 0,16y2 − 0,17y3 + 0,07y4 − 0,21y5 + 0,29y6 −0,40y7 − 0,17y8 + 0,78y9 = (0,05y1 + 0,16y2 + 0,07y4 + 0,29y6 + 0,78y9 ) −(0,17y3 + 0,21y5 + 0,40y7 + 0,17y8 ). Este segundo componente corresponde por lo tanto a la diferencia entre dos sumas ponderadas: la primera incluye las variables Y1 , Y2 , Y4 , Y6 y Y9 y da sobre todo peso a Y9 (otros gastos) y Y6 (transporte). D. Peña conjetura que, al estar incluidas en otros gastos las transferencias fuera de la provincia a miembros de la familia mayores de 14 años que no residan en ella, este componente separa las provincias que reciben transferencias de las que las envian. IV.5. Criterio de selección del número de componentes Recordamos que nuestro objetivo es conseguir una reducción de la dimensión del conjunto de datos, pero ¿cómo seleccionar el número de componentes que permita dar cuenta suficiente de la variabilidad y que a la vez suponga una reducción en el número de variables? Al igual que para otros métodos, se han propuesto un gran número de procedimientos para determinar el número de componentes retenidos, nos limitamos a dos muy sencillos. IV.5.1. Diagrama de codo Se representan los valores propios λi en función de i. Buscamos detectar un punto a partir del cuál los valores propios son próximos y pequeños. El diagrama correspondiente se llama en inglés “Scree plot” que se puede traducir por “diagrama de codo”. Para el ejemplo de la encuesta de presupuestos familiares, el diagrama de codo se representa en la figura IV.5 Se observa que podemos retener la primera o las dos primeras componentes y conseguir una efectiva reducción de la dimensión. IV.5.2. Proporción de variabilidad explicada Puesto que la varianza del componente i-ésimo es λ y que la variabilidad total es la suma de los valores propios (ver propiedad 2 en la sección IV.3), la proporción de la variabilidad total explicada por los p primeros componentes es λ1 + · · · + λp . λ1 + · · · + λp + · · · λk Se suele por lo tanto considerar que nos quedamos con los componentes que explican más del 90 % o 95 % de la variabilidad total. En el ejemplo de la encuesta de presupuestos familiares, tenemos 45 46 Mathieu Kessler: Estadı́stica industrial Valor propio λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9 % Variabilidad 0.734 0.068 0.057 0.038 0.027 0.023 0.021 0.021 0.011 % acumulado variabilidad explicada 0.734 0.802 0.859 0.897 0.924 0.947 0.968 0.989 1.000 Nos deberı́amos quedar con los cuatro ó 6 primeros componentes. Sin embargo, es muy dı́ficil en general interpretar de manera inteligente más de uno o dos componentes, es por lo tanto más razonable quedarse en este ejemplo con los dos primeros. Appéndice Datos del ejemplo, sección IV.1.2.  1,360  −2,115   −2,460   3,235   2,030   5,335   6,120   4,395   1,375    −5,345 X=  −3,020   −0,715   −0,605   2,210   1,840   −4,295   4,000   −0,080   −3,960 −2,270 0,705 −0,720 0,670 0,930 −1,685 4,080 2,660 3,660 0,775 −2,610 −0,535 0,580 −1,915 1,030 2,595 −0,135 1,775 −0,440 −2,605 −1,860                    .                  47 3 2 1 0 Nota prácticas 4 5 IV.5 Criterio de selección del número de componentes 0 1 2 3 4 Nota teoría Figura IV.4: Nube de puntos correspondiente al ejemplo de las notas. 5 Mathieu Kessler: Estadı́stica industrial ● 0.20 0.15 0.10 0.05 ● ● ● 0.00 lambda 0.25 0.30 0.35 48 2 ● 4 ● ● 6 i Figura IV.5: Diagrama de codo, encuesta de presupuestos familiares ● 8 ● TEMA V Análisis de conglomerados V.1. Introducción Al Cesar lo que es del Cesar: este tema está esencialmente inspirado en el capı́tulo correspondiente del excelente libro de Daniel Peña, 2002, Análisis de datos multivariantes, MacGraw Hill. He procedido a una simplificación de su exposición para adaptarla al nivel que pienso adecuado para nuestra asignatura. El objetivo del análisis en conglomerados, o análisis “cluster”, es conseguir agrupar individuos en grupos “similares” acorde a los valores que toman varias variables. Estos métodos tratan tres tipos de problemas: 1. Partición de los datos. Se busca dividir un conjunto de datos en un número G prefijado de grupos de tal manera que a) Los grupos no se solapan. b) Todos los elementos quedan clasificados. c) Los grupos son homogeneos en cuanto a valores de las variables observadas. Un ejemplo consiste en el análisis de las respuestas a una encuesta sobre preferencias televisivas donde se pide que cada encuestado puntue sobre 10 una serie de 30 programas televisivos. Para cada individuo, se dispone de los valores de 30 variables, y se busca clasificar cada individuo en grupos de telespectadores acorde a los valores de estas variables. 2. Construcción de jerarquı́as. Dado un conjunto de datos, se busca construir una jerarquı́a de clasificación, basándose en una medida de distancia o similitud entre individuos, obteniendo una clasificación en grupos - subgrupos - subsubgrupos, etc... Podemos por ejemplo analizar un conjunto de paises según varios indicadores de riqueza. Aparecerán en un primer nivel tres grandes grupos; un grupo 50 Mathieu Kessler: Estadı́stica industrial correspondérá al llamado “Primer mundo” que contendrá en particular Europa, EEUU, Japón y Canada, un segundo grupo contendrá paises en vı́a de desarrollo, mientras que un tercerá contendrá los paises subdesarrollados. En un segundo nivel de jerarquı́a, dentro del primer grupo, distinguiremos subgrupos, en el caso de Europa por ejemplo, estos subgrupos podrı́an corresponder a los paises “de cabeza”, del “pelotón” o de cola... 3. Clasificación de variables. En lugar de clasificar los individuos, buscamos agrupar variables que presenten similitudes, basándose en los valores que toman para un conjunto de individuos, con el objetivo de conseguir una reducción de la dimensión. En las secciones siguientes, trataremos los dos primeros puntos. V.2. Método de partición. El algoritmo de k-medias. V.2.1. Presentación Tenemos un conjunto de n individuos y los valores de k variables X1 , X2 , . . . , Xk para cada individuo; queremos particionar este conjunto en un número G prefijado de grupos. El algoritmo de k-medias es un procedimiento iterativo que parte de una partición inicial y en cada iteración puede cambiar la asignación de un individuo a los grupos para conseguir una “mejor” partición, hasta dar con una partición satisfactoria. El conjunto de datos consiste en n“puntos”del espacio euclideo k-dimensional Rk . A cada individuo asociaremos un “punto” con coordenadas (x1 , x2 , . . . , xk ) que son los valores que toman las variables X1 , X2 , . . . , Xk para este individuo. Procedamos a introducir distintas notaciones asociadas a una partición. Dada una partición en G grupos, denotaremos por n1 , n2 , . . . , nG el número de individuos en el primer grupo, en el segundo,..., en el G-ésimo respectivamente. Tenemos por lo tanto que n1 + · · · + nG = n, donde n es el número total de individuos en el conjunto. Además suponemos que observamos los valores de k variables, X1 , X2 , . . . , Xk . El valor que toma la variable Xj para el individuo número i del grupo g será xijg . La media y la varianza de la variable Xj en el grupo g serán por lo tanto x̄jg = ng 1 X xijg ng i=1 ng s2jg = 1 X (xijg − x̄jg )2 ng − 1 i=1 Definimos el centro del grupo g como el punto de Rk con coordenadas (x̄1g , x̄2g , . . . , x̄kg ), es decir las medias de las variables X1 , X2 , . . . , Xk para este grupo. V.2.2. Criterios para comparar particiones. Para ser capaz de decidir si una partición de un conjunto de individuos es mejor que otra, debemos darnos un criterio para comparar dos particiones. Dada una partición P, buscamos un critero que mida la homogeneidad de los G grupos. Un grupo será homogéneo si la dispersión de las variables X1 , X2 , . . . , Xk V.2 Método de partición. El algoritmo de k-medias. dentro de este grupo será pequeño. Una manera de medir la homogeneidad de la partición se consigue por lo tanto calculando para cada grupo la suma de las varianzas de cada variable y realizar la suma sobre todos los grupos, dando más peso a los grupos más numerosos. Esta cantidad se llama la suma de cuadrados dentro de los grupos asociada a la partición P, y se denota por SCDG(P). Más concretamente SCDG(P) = G X k X s2jg (ng − 1). g=1 j=1 Dadas dos particiones PA y PB , diremos que la partición PA es mejor que la partición PB si SCDG(PA ) ≤ SCDG(PB ), es decir si PA es más homogénea que PB . Este criterio también se llama el criterio de la traza porque la cantidad SCDG(P) se puede escribir como la traza de una matriz. V.2.3. Descripción del algoritmo Al tratarse de un procedimiento iterativo, consta de una etapa inicial, de la iteración, es decir como pasar de la etapa i a la etapa i + 1, y finalmente de un criterio de parada. 1. Etapa inicial. Me doy una partición inicial, P0 . Para ello, tendré que a) elegir G centros para los G grupos iniciales. Puedo hacerlo escogiendolos al azar entre los individuos del conjunto, escoger los puntos más alejados entre sı́, o utilizar algún tipo de información a priori, que me indique donde deberı́an estar estos centros. b) asignar cada individuo del conjunto a un grupo, es decir asociarlo a uno de los G centros escogidos anteriormente. Para ello, asigno cada individuo al grupo cuyo centro está más cercano, en el sentido de la distancia euclı́dea.1 2. Iteración: como pasar de la partición Pi a la partición Pi+1 . Partiendo de la partición Pi , considero el primer individuo y intento moverlo de grupo llamando Q a la nueva partición. Si Q es mejor que Pi (es decir si SCDG(Q) ≤ SCDG(Pi )), hago Pi+1 = Q. En caso contrario, considero el segundo individuo y intento moverlo de grupo, etc... 3. Criterio de parada. Cuando Pi+1 = Pi , es decir, si no consigo mejorar la partición moviendo algún individuo de Pi , el algoritmo se para. V.2.4. Comentarios No se garantiza con este procedimiento que acabemos con la mejor particı́on posible. Notar que un método directo que calcuları́a todas las posibles particiones en G grupos de los n individuos, y se quedarı́a con la particón con menor SCDG, es imposible de llevar a cabo en la práctica, puesto que requerirı́a calcular las SCDG de un número prohibitivo de particiones. 1 Recordar que si X = (x1 , x2 , . . . , xk ) e Y = p (y1 , y2 , . . . , yk ) son dos puntos de Rk , la distancia euclı́dea entre X eY se calcula como d(X, Y ) = (x1 − y1 )2 + · · · + (xk − yk )2 . 51 52 Mathieu Kessler: Estadı́stica industrial El resultado final del algoritmo depende de la partición inicial y del orden de los individuos en la muestra, hay por lo tanto tomar con cautela el resultado proporcionado. V.2.5. Elección del número de grupos El algoritmo que hemos descrito supone que hemos fijado de antemano el número de grupos G que queremos obtener. Sin embargo esta elección no siempre es fácil y varios procedimientos, no siempre bien justificados, han sido propuesto para realizarla. Descrimos ahora uno de estos procedimientos. Supongamos que he ejecutado el algoritmo con G grupos y me pregunto si introduzco otro más, es decir si debo partir el conjunto en G + 1 grupos. LLamemos SCDG(G) y SCDG(G + 1) las sumas de cuadrados finales obtenidas cuando el algoritmo se ejecuta con G grupos y G + 1 grupos respectivamente. Calculamos F = SCDG(G) − SCDG(G + 1) . SCDG(G + 1)/(n − G − 1) Merecerá la pena considerar una partición con G + 1 grupos en lugar de G grupos si se consigue reducir la suma de cuadrados final significativamente. Es decir que, si F es suficientemente grande, consideraré una partición con G + 1 grupos. En caso contrario, me quedaré con la partición con G grupos. Una regla aproximada debida a Hartigan es que si F es mayor de 10, escogeremos una partición con G + 1 grupos. V.2.6. Ejemplos Ver los ejemplos tratados en prácticas. V.3. Métodos jerárquicos V.3.1. Presentación Queremos clasificar en una jerarquı́a los individuos del conjunto. Esta clasificación se hará basándose en los valores de las variables observadas para cada individuo. Recordar que los datos se presentan en la matriz de datos  x11  .. X= . xn1  x1k  .. , . . . . xnk ... .. . donde cada fila representa un individuo, y en cada columna vienen recogidos los valores de una variable. Asimismo, asociamos a cada individuo un punto en el espacio Rk , cuyas coordenadas son los valores de las variables X1 , . . . , Xk . Los grupos, subgrupos, subsubgrupos que construiremos contendrán individuos cuyos puntos asociados estén cercanos basándonos en una medida de su distancia. V.3 Métodos jerárquicos V.3.2. a). 53 Distancia, similaridad Para variables continuas ( que pueden tomar cualquier valor en un intervalo). Si todas las variables X1 , . . . , Xk son de tipo continuo, utilizamos la distancia euclı́dea para medir lo alejado que están dos puntos. Es decir si a dos individuos se asocian los valores observados (x11 , x12 , . . . , x1k ) y (x21 , x22 , . . . , x2k ) respectivamente, la distancia entre estos dos individuos se calcula como p (x11 − x21 )2 + · · · + (x1k − x2k )2 . (V.1) A menudo, para evitar que, si las variables se miden en escalas muy distintas tengan unos pesos muy distintos en el cálculo de la distancia, se procede primero a estanderizarlas. Definición Si X es una variable en un conjunto de datos, estanderizar X consiste en restarle su media y dividir la variable resultante por su desviación tı́pica, es decir considerar X − x̄ ZX = . sX La variable ZX tiene en el conjunto media 0 y desviación tı́pica 1. Al trabajar con las variables estanderizadas, conseguimos que tengan el mismo orden de magnitud y por lo tanto que ninguna domine de manera clara en la expressión (V.1). b). Similaridad. La distancia euclı́dea es válida para variables continuas pero si algunas de las variables, por ejemplo X1 , son binarias (toman valores 0 ó 1, por ejemplo cómo respuesta a una pregunta en la que hay que contestar por sı́ o no) el término correspondiente tendrá en general menor peso que el de variables continuas aún estanderizadas. Para conseguir una mayor homogeneidad en la importancia de cada vaiable a la hora de medir lo alejados que están dos individuos, se introduce el coeficiente de similaridad. Definición El coeficiente de similaridad entre el individuo i y el individuo h según la variable Xj es una cantidad sjih que cumple i) 0 ≤ sjih ≤ 1. ii) sjii = 1. iii) sjih = sjhi . A partir de los coeficientes de similaridad según cada variable del conjunto podemos construir un coeficiente global de similaridad entre el individuo i y el individuo h, que llamaremos sih , realizando una suma ponderada. Se han propuesta varias medidas de similaridad, cabe destacar para Xj , una variable binaria, sjih = xij xhj + (1 − xij )(1 − xhj ), que toma por lo tanto el valor 0 si Xj toma valores distintos para los dos individuos i y h, y el valor 1 si toma valores idénticos. 54 Mathieu Kessler: Estadı́stica industrial para Xj , una variable continua, sjih = 1 − | xij − xhj | , rango(xj ) donde el rango de xj es la diferencia máxima de dos valores de Xj en el conjunto. c). Matriz de distancias Después de haber calculado todas las distancias o similaridades entre los individuos de un conjunto, podemos representarlas en una matriz n × n, A = (aih )1≤i,h≤n . El elemento aih de esta matriz, llamada matriz de distancias, es la distancia entre el individuo i y el individuo h. Deducimos en particular que es una matriz simétrica, cuyos elementos diagonales son todos nulos. De manera similar podemos construir la matriz de similaridades V.3.3. Métodos aglomerativos Son los que parten de los individuos separados y los van agrupando en distintos niveles: a). Algoritmo Tiene una forma iterativa: 1. Empezamos con tantas clases como individuos. 2. Dada una partición en clases, seleccionamos las dos clases más próximas y formamos una nueva que las contenga como subclases. 3. Paramos cuando todos los elementos estén en una única clase. La figura V.1 ilustra en un ejemplo muy simple los pasos del método aglomerativo: se empieza con tantas clases como individuos (en este caso cuatro), y se van agrupando las dos clases más próximas. La matriz de datos que corresponde a esta figura es  0,30  0,35 X=  0,70 0,80  0,6 0,4  , 0,8  0,5 (V.2) y se deja como ejercicio al lector comprobar que la matriz de distancias asociada (distancia euclı́dea) es  0  0,21 D=  0,45 0,51 0,21 0 0,53 0,46 0,45 0,53 0 0,32  0,51 0,46  . 0,32  0 ● C A ● C A D ● 0.4 0.4 ● ● D B 0.0 0.0 0.2 B 0.2 ● ● 0.6 0.6 ● 0.8 0.8 1.0 55 1.0 V.3 Métodos jerárquicos 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 C A C A ● 0.4 0.4 ● D ● D B 0.0 0.0 0.2 B 0.2 ● ● 0.6 ● 0.8 0.8 0.6 ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 Figura V.1: Ilustración del método aglomerativo b). 1.0 1.0 0.2 1.0 0.0 Como definir la distancia entre dos clases Para llevar a cabo el algoritmo anterior, necesitamos ser capaces de calcular la distancia entre dos clases con el objetivo de seleccionar las dos más próximas. Vista la manera en la que el algoritmo va formando clases, es suficiente saber calcular la distancia entre una clase formada por dos subclases A y B, que denotaremos por AB y una tercera clase C. Repitiendo el procedimiento podremos calcular la distancia entre dos clases en cualquier nivel del algoritmo. Para ello, se han propuesto varias reglas: Regla del encadenamiento simple, o del vecino más próximo: d(AB, C) = min(d(A, C), d(B, C)). Regla del encadenamiento completo, o del vecino más lejano: d(AB, C) = max(d(A, C), d(B, C)). Las jerarquı́as que resultan de la aplicación de una o otra regla no tienen por que coincidir. 1.0 56 Mathieu Kessler: Estadı́stica industrial c). Cálculo para el ejemplo (V.2) Recordar que la matriz de distancias para este  0 0,21 0,45  0,21 0 0,53 D=  0,45 0,53 0 0,51 0,46 0,32 ejemplo es  0,51 0,46  . 0,32  0 En el método de encadenamiento simple, los pasos que se siguen son: puesto que d(A, B) = 0,21, d(A, C) = 0,45, d(A, D) = 0,51, d(B, C) = 0,53, d(B, D) = 0,46 y d(C, D) = 0,32 , en el primer paso se agrupan A y B en una clase. Las distancias entre las nuevas clases AB, C y D son d(AB, C) = mı́n(d(A, C), d(B, C)) = 0,45, d(AB, D) = mı́n(d(A, D), d(B, D)) = 0,46 y d(C, D) = 0,32. Por lo tanto se agrupan ahora C y D. Tenemos dos clases: AB y CD que se agrupan en una única clase. En el método de encadenamiento completo, en el primer paso se siguen agrupando A y B, ahora las distancias necesarias son d(AB, C) = máx(d(A, C), d(B, C)) = 0,53, d(AB, D) = máx(d(A, D), d(B, D)) = 0,51 y d(C, D) = 0,32. Agrupamos C y D, y obtenemos dos clases AB y CD como en el método anterior. d). Dendograma El dendograma es una manera gráfica de representar los pasos seguidos en el método iterativo: se colocan en un eje Ox los elementos en su orden de aparición en el algoritmo, y en el eje Oy las distancias. Un agrupamiento de dos clases se representa por un segmento horizontal a la altura correspondiente a la distancia entre estas dos clases. La figura V.2 recoge el dendograma correspondiente al ejemplo (V.2). 0.35 B A Figura V.2: Dendograma para el ejemplo (V.2) D C 0.30 0.25 0.20 distancia 0.40 0.45 0.50 Dendograma TEMA VI Análisis factorial VI.1. Introducción El análisis factorial está asociado con un modelo matemático que pretende explicar las correlaciones en un grupo grande de variables en clave de un número pequeño de factores subyacentes, también llamados variables latentes, que no podemos observar. Frente a las asociaciones que observamos entre distintas variables, buscamos variables aleatorias “ocultas”- factores - comunes a las variables observadas, que son la causa de los patrones de evolución conjunta de éstas. Consideremos por ejemplo, para distintas ciudades de España, el número de iglesias X ası́ como el número de delitos registrados Y . Si representamos la nube de puntos, nos saldrı́a una relación lineal, con un coeficiente de correlación próximo a uno. Es decir que ¡el número de delitos perpetrados en una ciudad está altamente correlado con el número de iglesias en esta ciudad! Dicho de otra manera, ¡cuantas más iglesias en una ciudad, más delitos se cometen! ¿Sorprendente? En realidad, en cuanto pensamos un poco, nos damos cuenta de que no es nada sorprendente: hay un factor oculto, que no hemos mencionado, y que explica la asociación positiva entre X e Y , se trata sencillamente del número de habitantes, f . En efecto podemos esperar que tanto el número de iglesias como el número de delitos cometidos en una ciudad sean proporcionales al número de habitantes: la asociación positiva fuerte que observamos entre X e Y se explica porque ambas dependen linealmente de una tercera variable f . Un ejemplo clásico del análisis factorial corresponde al trabajo pionero de Spearman que estudió a principios del siglo XX las puntuaciones X1 , X2 , y X3 , obtenidas por un grupo de niños en tres examenes de historia, francés, e inglés, respectivamente. La matriz de correlaciones que Spearman obtuvo fue   1 0,83 0,78  . 1 0,67  . . 1 58 Mathieu Kessler: Estadı́stica industrial evidenciando fuertes asociaciones entre las puntuaciones obtenidas en las tres materias. Spearman buscó un factor oculto f que explicara estas asociaciones y que se interpretara como la habilidad global del alumno, tentadoramente llamado también la “inteligencia” del alumno. Las relaciones entre X1 , X2 , X3 y este factor f serı́an: X1 = a1 f + ε1 X2 = a2 f + ε2 X3 = a3 f + ε3 , donde ε1 , ε2 , y ε3 representan perturbaciones aleatorias de las relaciones lineales. Estos métodos tuvieron de hecho su origen en psicometrı́a, es decir el análisis de datos aplicados a la psicologı́a, pero se aplicaron posteriormente con mucho éxito a otras ciencias. VI.2. El modelo VI.2.1. Primera formulación Observamos para muchos individuos el valor de una variable k-dimensional X = (X1 , X2 , . . . , Xk )0 . Existen m factores aleatorios (variables latentes) comunes f1 , f2 , . . . , fk , tal que cada Xi está asociado con los m factores ocultos a través de una regresión lineal múltiple: X1 = a11 f1 + a12 f2 + · · · + a1m fm + ε1 X2 = a21 f1 + a22 f2 + · · · + a2m fm + ε2 .. .. . . Xk = ak1 f1 + ak2 f2 + · · · + akm fm + εk 2 , . . . , σ 2 las varianzas de X , . . . , X respectivamente. A parte Denotamos por σ11 1 k kk de los factores, los otros ingredientes del modelo son los coeficientes aij , i = 1, . . . , k, j = 1, . . . m que recogemos en una matriz A = (aij ) de dimensiones k × m, que llamamos la matriz de cargas factoriales. Las perturbaciones ε1 , . . . , εk , que son variables aleatorias que suponemos independientes, centradas E[εi ] = 0, i = 1, . . . k, y de varianza V ar(εi ) = ψi2 i = 1, . . . k. Introduciendo los vectores   X1 .  ~ = X  ..  , Xk   f1   f~ =  ...  , fm   ε1   ~ε =  ...  , εk podemos formular las ecuaciones del modelo en forma compacta: ~ = Af~ + ~ε. X (VI.1) ~ para n individuos, buscaremos, en el marco de una Dados los valores de X representación de la forma (VI.1), estimar las cargas factoriales A, con el fin de identificar e interpretar los factores. VI.2 El modelo VI.2.2. 59 No unicidad de los factores Consideremos la ecuación (VI.1), y sea H una matriz invertible m × m, podemos escribir ~ = AH H −1 f~ + ~ε. X (VI.2) Llamando Ã = AH y ~g 0 = H −1 f~, hemos obtenido una nueva descomposición ~ = Ã~g + ~ε, X con una nueva matriz de cargas, y unos nuevos factores ~g . Es decir que, en cuanto existe una descomposición en factores del tipo (VI.1), existe una infinidad de otras descomposiciones de este tipo. El modelo (VI.1) tal como lo hemos introducido no proporciona una descripción única de las variables observadas en términos de un número m de factores. Debemos restringir los modelos que consideramos para obtener una descomposición única. VI.2.3. Hacia el modelo definitivo En nuestra formulación general del modelo a través de la relación (VI.1), no hemos hecho ninguna hipótesis sobre los factores que buscamos identificar, y ésta es precisamente la causa de la no unicidad del modelo. Una primera restricción muy razonable consiste en buscar una descomposición en la que los factores sean incorrelados: no hay que olvidar que pretendemos explicar las asociaciones entre variables en términos de un cierto número de factores; dejar que estos factores sean correlados no ayudarı́a a la interpretación, y serı́a como quedarse a medio camino de la explicación de la estructura de correlación... Podemos además suponer que las varianzas de los factores son iguales a 1, puesto que sólo cambia el valor de las cargas factoriales. Consideramos por lo tanto el modelo ~ = Af~ + ~ε, X con f1 , . . . , fk , incorrelados y de varianza unidad. (VI.3) Una primera consecuencia importante de esta restricción adicional es la relación σii2 = n X a2ij + ψi2 , i = 1, . . . , k, (VI.4) j=1 donde recordamos que, para i = 1, . . . , k, σii2 es la varianza de Xi . La varianza individual de la variable Xi se puede por lo tanto descomponer en dos partes: P la comunalidad hi = nj=1 a2ij , que corresponde a la parte de σii2 explicada por los factores. la especificidad ψi2 , parte de σii2 especı́fica de la variable Xi . Imponiendo la restrición de incorrelación de los factores, hemos reducido las posibles descomposiciones (VI.3), sin embargo todavı́a no hemos conseguido la unicidad de la descomposición. En efecto, si G es una matriz m × m ortogonal, es decir que cumple G0 G = Id, podemos escribir, a partir de cualquier descomposición del tipo (VI.3), ~ = AG G0 f~ + ~ε, X 60 Mathieu Kessler: Estadı́stica industrial obteniendo una descomposición nueva, con Ã = AG y ~g = G0 f~. Si G es ortogonal, y los factores f~ son incorrelados y de varianza 1, podemos demostrar que los nuevos factores G0 f~ son también incorrelados y de varianza unidad. La nueva descomposición es por lo tanto también del tipo (VI.3). En conclusión una restricción adicional es necesaria para conseguir una descomposición única. Varias posibilidades existen, veremos la que lleva a una simplificación en la obtención de estimadores de las cargas factoriales. Supondremos que la matriz de cargas factoriales A es tal que sus vectores columnas son ortogonales, es decir que la matriz m × m A0 A es diagonal. El tipo definitivo de descomposición que consideraremos es por lo tanto Tipo definitivo de descomposición: ~ = Af~ + ~ε, X (VI.5) donde los factores f1 , . . . , fk son incorrelados y de varianza unidad, y además los vectores columnas de la matriz de cargas factoriales son ortogonales, es decir A0 A es diagonal ~ admite una descomposición de este tipo, ésta es única. Si X VI.3. Estimación de las cargas factoriales VI.3.1. Método del factor principal Deducimos de la ecuación (VI.5) algo más que la descomposición (VI.4) de cada varianza individual en comunalidad y especificidad, deducimos que la matriz de ~ satisface covarianzas Σ del vector X  2  ψ1 0   .. Σ = AA0 +  (VI.6) . . ψk2 0 ~ = (X1 , . . . , Xk )0 Disponemos ahora de la observación de los valores que toma el vector X para n individuos y buscamos estimar los coefficientes de la matriz A. Calculamos a partir de estos datos la matriz de covarianzas de las variables X1 , . . . , Xk , que llamamos S. Esta matriz satisfacerá aproximadamente la relación (VI.6) puesto que estima Σ. Por lo tanto, si disponemos de estimadores ψ̂12 , . . . , ψ̂k2 de las especificidades ψ12 , . . . , ψk2 con los cuales formamos la matriz diagonal  2  ψ̂1 0   .. ψ̂ =  , . 0 ψ̂k2 se cumplirá S − ψ̂ ' AA0 , (VI.7) sabiendo además que la matriz k×m A es tal que A0 A es diagonal. El método del factor principal resuelve este sistema de ecuaciones con incognitas aij , i = 1, . . . , k, j = 1 . . . , m. Una solución explı́cita de este sistema se puede obtener utilizando los valores propios y los vectores propios de la matriz simétrica S − ψ̂. Concretamente, sean VI.4 Rotación de los factores 61 λ1 ≥ λ2 ≥ · · · λk los valores propios de S − ψ̂ clasificados por orden decreciente de magnitud, formamos la matriz diagonal con los m valores propios más grandes   λ1 0   .. D̂1 =  , . 0 λm y sea G1 la matriz k × m cuyas columnas están formadas por los vectores propios asociados a λ1 , . . . , λm . La matriz 1/2 Â = G1 D1 , (VI.8) cumple que S − ψ̂ ' ÂÂ0 . Para llevar a cabo el cálculo de Â, necesitamos una estimación preliminar ψ̂ de las especifidades. Una primera opción consiste sencillamente en considerar ψ̂i = 0, para todo i = 1, . . . , k. En este caso, los valores propios y los vectores propios requeridos para el cálculo de Â en (VI.8) son los de la matriz S, es decir los mismos que se utilizan para el cálculo de los componentes principales. En SPSS esta opción corresponde a escoger como método de extracción “Componentes principales”. Una segunda opción consiste en especificar un estimador ψ̂i2 de la especificidad ψi a partir de un estimador ĥi de la comunalidad hi utilizando la relación s2ii = ĥi + ψ̂i2 , que aproxima (VI.4). En particular una opción de las más utilizadas consiste en escoger ĥi = s2ii Ri2 , donde Ri2 es el coeficiente de determinación múltiple correspondiente a la regresión de la variable Xi sobre todas las demás variables. En SPSS esta opción corresponde a escoger como método de extracción “Ejes principales”. VI.4. Rotación de los factores No olvidemos que uno de los principales objetivos del análisis factorial es conseguir identificar los factores que subyacen y originan la variación común de las variables observadas. Sin embargo la interpretación de los factores es precisamente la tarea más delicada del análisis. Para conseguir una descripción única, hemos realizado dos restricciones adicionales al modelo (VI.1), la primera - suponer los factores incorrelados y de varianza unidades natural en cuanto a interpretación. En cambio, la segunda, que consiste en imponer que la matriz A0 A sea diagonal, está principalmente destinada a simplificar la estimación de A, ver sección anterior, y no tiene una justificación muy fundamentada para la interpretación. De hecho, los factores identificados correspondientes al modelo definitivo no tienen una interpretación fácil en general. Para paliar esta dificultad, se suelen “rotar” los factores obtenidos en la sección anterior: se considera una matriz ortogonal G y se calcula la matriz de cargas correspondiente a la nueva 62 Mathieu Kessler: Estadı́stica industrial ~ = AGG0 f~ + ~ε, los factores rotados son G0 f~ y la nueva matriz de descomposición X cargas factoriales AG. Muchas rotaciones especı́ficas fueron propuestas, cada una corresponde a una elección particular de la matriz de rotación G. Una de las más populares es la rotación Varimax, que persigue que cada factor esté asociado con unas pocas variables, y que no tenga apenas influencia en las demás, con la esperanza de que aparezca ası́ una interpretación más clara. Más concretamente, la rotación Varimax busca factores con unas pocas cargas factoriales fuertes y las demás casi nulas. Para ello, maximiza la varianza de las cargas de cada columna. TEMA VII Introducción a las series temporales VII.1. Introducción Empezamos con este tema el estudio de las series temporales: una serie temporal o serie cronológica está formada por la observación del valor de una variable en distintos intantes de tiempo. Los ejemplos abundan, estudiaremos por ejemplo en prácticas las series siguientes Evolución de la temperatura media mensual en San Javier desde 1981. Evolución de la tasa de paro por trimestres en España desde el tercer trimestre 1976. Producción diaria de una empresa. Demanda mensual de energı́a eléctrica en España desde 1998 hasta 2002, Sea Y la cantidad de interés, observamos los valores Y1 , Y2 , . . . , Yt , donde t representa el indice de tiempo. Al estudiar una serie temporal, podremos estar interesados en dos aspectos: 1. La comprensión del fenómeno que describe, buscando contestar por ejemplo a las preguntas siguientes ¿aparece un patrón de evolución?¿una tendencia global?, ¿una periodicidad?, ¿una ruptura de tendencia? 2. La predicción de valores futuros. Se trata a lo mejor del aspecto más deseado: basándonos en la serie de datos observados Y1 , Y2 , . . . , Yt , ¿podemos predecir el valor de Yt+1 ?, ¿y los de Yt+2 , Yt+3 o en general Yt+m ? Este tema presenta los términos, conceptos y herramientas básicas asociadas a series temporales. En el tema siguiente veremos como abordar el punto 1) arriba mencionado, es decir detectar tendencias, periodicidad etc..., mientras que el tercer y último tema de este bloque estará dedicado a la predicción. 64 Mathieu Kessler: Estadı́stica industrial VII.2. Primer paso: exploración gráfica Al igual que en todos los procedimientos vistos hasta ahora, el primer paso fundamental consiste en realizar gráficas de la serie temporal. Una primera gráfica asociada a una serie temporal consiste por supuesto en representar Yt en función de t, lo que permite en una primera exploración detectar datos atı́picos, la presencia de una tendencia o el carácter periódico del fenómeno que estudiamos. En la figura VII.1, se ha representado la serie temporal de las temperaturas mensuales medias en San Javier desde enero de 1981 (fuente: http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro). Una periodicidad clara aparece, y por otra parte serı́a interesante conseguir decidir si existe o no una tendencia al alza, ¿se comprueba con estos datos el calentamiento global? 20 10 15 Temperatura 25 Temperaturas mensuales medias en San Javier, 1991−1990 1982 1984 1986 1988 1990 t Figura VII.1: Evolución de las temperaturas mensuales medias en San Javier En el caso en una periodicidad natural es evidente, también es útil realizar una gráfica estacional: en una misma gráfica representamos todos los periodos presentes en la serie. En el caso de las temperaturas mensuales medias en San Javier por ejemplo, la periodicidad natural es 12 (cada 12 meses el comportamiento de la temperatura es parecido), representamos en una misma gráfica las series anuales de 12 temperaturas, ver figura (VII.2). La forma muy parecida que tienen las series de VII.3 Descomposición en patrones de una serie temporal 65 temperaturas mensuales para los distintos años confirma la periodicidad de 12. 20 5 10 15 Temperatura 25 30 Temperaturas mensuales medias en San Javier, 1991−1990 2 4 6 8 10 12 mes Figura VII.2: Gráfica estacional para las temperaturas mensuales medias en San Javier VII.3. Descomposición en patrones de una serie temporal VII.3.1. Presentación Al examinar la gráfica cronológica, cuatro tipo de patrones pueden aparecer 1. H: un patrón horizontal: los datos fluctuan alrededor de una media constante. 2. S: un patrón estacional: el comportamiento de la variable está influida por periodos como estaciones, dı́as, trimestres, años, etc... Vimos un ejemplo de este tipo de patrón en la serie de las temperaturas mensuales en San Javier. 3. C: Un patrón cı́clico: hablamos de patrón cı́clico cuando los datos presentan subidas y bajadas que no son de duración fija. Aparecen en series de datos 66 Mathieu Kessler: Estadı́stica industrial económicos por ejemplo con periodos de recesión o de bonanza, o en series de datos climáticos con ciclos de sequı́a. 4. T : una tendencia: cuando hay un incremento o decrecimiento a largo plazo en los datos. Los datos de temperatura en San Javier ¿presentan por ejemplo una tendencia creciente? Muchas de las series temporales incluyen en realidad combinaciones de los distintos patrones. VII.3.2. El modelo La descomposición supone que los datos que observamos están formados de la siguiente manera datos = patrones + errores = f (tendencia − ciclo, estacin, error) A parte de los patrones se incluye en la descomposición un término de error, también llamado componente irregular. Un método de descomposición busca identificar el patrón de tendencia-ciclo, ası́ como el patrón estacional. La parte no explicada por estos dos patrones se denomina el residuo y se asume ruido. Su predicción es por lo tanto imposible. La formulación matemática es Yt = f (Tt , St , Et ), (VII.1) donde Tt : St : Et : componente de tendencia-ciclo. componente estacional componente irregular - error. Dados los datos Y1 , Y1 , . . . , YT , buscaremos por lo tanto estimar T1 , T2 , . . . , TT y S1 , S2 , . . . , ST , es decir los componentes de tendencia-ciclo y estacional en cada instante. La relación funcional f depende del contexto. Mencionaremos dos tipos 1. Modelo aditivo Yt = Tt + St + Et . 2. Modelo multiplicativo Yt = Tt × St + Et . Un modelo aditivo es adecuado cuando la variación del componente estacional es más o menos constante y no depende del nivel de la serie. En cambio para datos donde el efecto de la estacı́on aumenta a medida que aumenta la serie (podemos pensar en series de precios por ejemplo, en las que el componente estacional se expresa como un porcentaje del precio), se suele utilizar un modelo multiplicativo. Aplicaremos un método de descomposición a la serie de datos correspondientes a la demanda mensual en energı́a eléctrica en España desde 1998 hasta 2002 (fuente VII.4 Autocorrelación 67 Demanda de energa elØctrica, 1998−2002 19000 ● ● ● 18000 ● ● ● ● ● ● 17000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16000 demanda ● ● ● ● ● ● ● ● ● ● ● ● ● 15000 ● ● ● ● ● ● ● ● ● ● ● 14000 ● ● ● ● ● ● 1 ● ● 2 3 4 5 6 tiempo Figura VII.3: Demanda mensual de energı́a eléctrica en España, 1998-2002. Red Eléctrica Española, www.ree.es). La gráfica cronológica aparece en la figura VII.3. La periodicidad de 12 es clara. Después de haber conseguido una descomposición - veremos métodos para hacerlo en el tema siguiente - representaremos los distintos componentes en gráficas apiladas. La figura VII.4 presenta el resultado de la descomposición para los datos de demanda en energı́a eléctrica, suponiendo un modelo aditivo. VII.4. Autocorrelación Dada una serie temporal podemos preguntarnos si el valor de la variable Y en eun instante tiene mucha influencia sobre su valor, por ejemplo, 10 instantes de tiempo más tarde, es decir, si el fenómeno que estudiamos tiene memoria larga o memoria corta (va olvidando pronto los valores que toma). Para contestar a este tipo de preguntas que sin duda son de importancia en particular para realizar predicciones, calculamos las autocorrelaciones, que nos permitirán deducir información sobre la estructura de dependencia temporal que presenta el fenómeno. Vimos en el tema de regresión como la covarianza y la correlación son cantidades que miden el grado de asociación lineal entre dos variables. La autocorrelación de orden 1 es la correlación de la serie de valores Y1 , Y2 , . . . , YT con los mismos datos translatados de un instante de tiempo, es decir con la serie Y2 , Y3 , . . . , YT . La tabla siguiente presenta los primeros datos de las temperaturas en San Javier, ası́ como las series formadas al realizar traslaciones de una, dos etc... unidades de tiempo. 68 Mathieu Kessler: Estadı́stica industrial 1500 Descomposicin de la demanda ● 1000 ● ● ● ● ● ● ● ● ● ● ● ● St 500 ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● −500 ● ● ● ● ● 17000 −1000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16000 Tt 15000 40014000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 200 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● −200 residuos ● ● ● ● ● ● ● ● ● ● ● −400 ● ● ● ● 0 10 20 30 40 50 Time Figura VII.4: Descomposición para la demanda mensual de energı́a eléctrica en España, 1998-2002 Y• 10.3 10.8 15.8 18 21.8 22.6 23.6 Y•+1 10.8 15.8 18 21.8 22.6 23.6 22.5 22.5 19.3 .. . .. . 19.3 .. . Y•+2 15.8 18 21.8 22.6 23.6 22.5 19.3 .. . .. . .. . ... ... ... ... ... ... ... ... ... ... ... Si observamos la serie Y1 , . . . , YT , la serie trasladada de una unidad de tiempo es Y2 , . . . , YT y contiene una observación menos. La autocovarianza c1 y la autocorrelación r1 de orden 1 se calculan como la covarianza y la correlación respectivamente de los valores Y1 , Y2 , . . . , YT −1 con los valores Y2 , Y3 , . . . , YT , es decir de las dos primeras columnas de la tabla. Se calculan 60 VII.4 Autocorrelación 69 con T − 1 valores. La autocovarianza c2 y la autocorrelación r2 de orden 2 se calculan como la covarianza y la correlación respectivamente de los valores Y1 , Y2 , . . . , YT −2 con los valores Y3 , Y4 , . . . , YT . Se calculan con T − 2 valores. En general, definimos la autocovarianza ck y la autocorrelación rk de orden k como la covarianza y la correlación de la serie con la misma serie trasladada de k unidades de tiempo. En el ejemplo de las temperaturas de San Javier, obtenemos r1 = 0,82, r2 = 0,463, r3 = 0,003, r4 = −0,44, etc... Se presentan los valores de las autocorrelaciones en una gráfica, en la que en el eje Ox aparecen k el número de unidades de la traslación y en el eje Oy el valor de rk . En la figura VII.5 aparece el autocorrelograma correspondiente a las series de temperaturas en San Javier. Detectamos en este autocorrelograma el patrón de es- 0.0 −0.5 ACF 0.5 1.0 Autocorrelacion, temperaturas en San Javier 0 5 10 15 20 Lag Figura VII.5: Autocorrelograma para las temperaturas medias mensuales en San Javier, 1981-1990 tacionalidad: los datos presentan una periodicidad de 12. La temperatura en un mes está muy poco asociada con la temperatura tres meses más tarde. 70 Mathieu Kessler: Estadı́stica industrial El autocorrelograma permite saber si el proceso es de tipo memoria larga o memoria corta y en particular nos da indicios sobre nuestra capacidad predictiva. TEMA VIII Descomposición de una serie temporal Nuestro objetivo en este tema es, basándose en los datos Y1 , . . . , YT de una serie temporal, identificar y aislar los componentes Tt , St y Et que la constituyen. VIII.1. Filtrado Consideramos dos señales (Yt )t≥1 y (Xt )t≥1 relacionadas por Yt = Xt + Et , para todo t, donde Et representa un error aleatorio, (ruido, perturbación). ¿Cómo, observando Y1 , . . . , YN , reconstruir los valores X1 , . . . , XN ? Es decir, ¿cómo filtrar las observaciones Y1 , . . . , YN y eliminar el ruido E? Una primera idea sencilla consiste en promediar la señal observada por bloques de k observaciones consecutivas. Pongamos k = 3 por ejemplo, construimos una nueva señal (Ȳt,3 , t = 2, . . . , N − 1) como t 1 2 3 4 .. . Señal Y1 Y2 Y3 Y4 .. . Señal promediada . Ȳ2,3 = Y1 +Y32 +Y3 Ȳ3,3 = Y2 +Y33 +Y4 Ȳ4,3 = Y3 +Y34 +Y5 .. . N −1 N YN −1 YN ȲN −1,3 = . YN −2 +YN −1 +YN 3 Al promediar tres observaciones consecutivas, perdemos dos observaciones, la primera y la última. 72 Mathieu Kessler: Estadı́stica industrial ¿Cuál es el efecto de promediar la señal? Puesto que Yt = Xt + Et , obtenemos que Ȳt,3 = Yt−1 + Yt + Yt+1 3 Xt−1 + Xt + Xt+1 Et−1 + Et + Et+1 + . 3 3 = X̄t,3 + Ēt,3 = Hemos obtenido una nueva señal Ȳt,3 , t = 2, . . . , N − 1 que es la suma de la señal X promediada y de un nuevo término de error Ēt,3 . a) Consideremos primero el nuevo término de error, Ēt,3 = Et−1 +E3t +Et+1 , para t = 2, . . . , N − 1. Al promediar tres errores, se obtiene un error de menor magnitud, recordar de hecho que, si ε1 , ε2 y ε3 son tres variables independientes 2 con la misma varianza σ 2 , tenemos V ar( ε1 +ε32 +ε3 ) = σ3 , es decir que la dis√ persión del promedio de tres errores de misma dispersión es 3 más pequeña que la dispersión de cada uno. El término de error correspondiente a la señal promediada será por lo tanto en general de menor magnitud que el error de la señal original. b) Consideremos ahora el término X̄t,3 . Supongamos para empezar que X es una señal lineal, es decir que Xt = at + b. En este caso, Xt−1 + Xt + Xt+1 3 = = a(t − 1) + b + at + b + a(t + 1) + b 3 3at + 3b = Xt 3 Por lo tanto, si X es una señal lineal, deducimos que Ȳt,3 = Xt + Ēt,3 , siendo el nuevo error de menor magnitud que para la señal original: el proceso de medias móviles de orden 3 Ȳ•,3 es una aproximación - estimación de la señal X• . En el caso en que la señal X no es lineal pero presenta una evolución suave, sin cambios bruscos, tres observaciones consecutivas presentarán aproximadamente una relación lineal, aunque X no sea globalmente lineal y X̄•,3 será una buena aproximación de X• , lo que implica que Ȳ•,3 también. Podrı́amos hacerlo con más de tres observaciones: k−1 Definición. Sea k un número impar, el proceso Ȳt,k , t = k−1 2 ,...,N − 2 se llama el proceso de medias móviles de orden k. Este proceso representa un suavizado del proceso Yt , t = 1, . . . , N . Cuanto mayor sea k, más suave será la aproximación, tal como está ilustrado en la figura VIII.1. VIII.2. Medias móviles y componente estacional Supongamos ahora que Xt esté constituida por una tendencia-ciclo y un componente estacional de periodo p, X t = T t + St . VIII.2 Medias móviles y componente estacional 73 Medias mobiles, k= 3 ● ● ● ● 5 ● 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 t Medias mobiles, k= 7 ● ● ● ● 5 ● ● 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 t Medias mobiles, k= 15 ● ● ● ● 5 ● ● 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● 2 4 6 ● 8 t Figura VIII.1: Influencia de k sobre el suavizado a través del proceso de medias móviles LLamamos S̄p el promedio de los efectos del componente estacional en un periodo: S̄p = S1 + S2 + · · · + Sp . p Podemos escribir Xt = (Tt + S̄p ) + (St − S̄p ) = Tt0 + St0 , donde Tt0 = Tt + S̄p es un nuevo componente de tendencia-ciclo y St0 = St − S̄p es un nuevo componente estacional ahora de media cero. Es decir, que partiendo de una descomposición Xt = Tt + St , siempre podemos reescribirla de tal manera que el componente estacional tenga media cero en un periodo. A partir de ahora, cuando escribamos Xt = Tt + St , siempre consideraremos que St es de promedio nulo sobre un periodo. Para fijar ideas, supongamos por ejemplo que el periodo es p = 3, ¿cuál es el 10 74 Mathieu Kessler: Estadı́stica industrial efecto de considerar el proceso de medias móviles? Ȳt,3 = X̄t,3 + S̄t,3 = T̄t,3 + S̄t,3 + Ēt,3 . Pero al ser S periódica de periodo 3, tenemos que S̄t,3 = S1 + S2 + S3 St−1 + St + St+1 = = 0. 3 3 por lo tanto, si el componente de tendencia-ciclo es de evolución suave (ver sección anterior), y aunque haya una componente estacional el proceso de medias móviles Ȳ•,3 aproxima T• . Por lo tanto, cuando estemos en presencia de una señal que presenta una componente estacional de periodo p impar, calcularemos el proceso de medias móviles de orden p, Ȳ•,p , para aproximar la tendencia-ciclo. Sin embargo, muchas de las series temporales están formadas por datos trimestrales, donde el periodo natural es 4, o datos mensuales donde el periodo p es 12. ¿Cómo en este caso, calcular el proceso de medias móviles de orden p puesto que p es par? Supongamos por ejemplo que estamos estudiando datos trimestrales, queremos calcular las medias móviles de orden 4. Para el instante 3, ¿qué medias calculamos? 4 +Y5 3 +Y4 ó Ȳ2:5 = Y2 +Y3 +Y , pero ninguno de estos Podemos calcular Ȳ1:4 = Y1 +Y2 +Y 4 4 dos promedios está centrado en el instante 3: el primero da más peso a las observaciones anteriores a t = 3, mientras que el segundo más peso a las observaciones posteriores. Una manera de recuperar la simetrı́a es volver a calcular la media de estos dos promedios. Para el instante t = 3, el promedio final será por lo tanto Ȳ1:4 + Ȳ2:5 Y1 + 2Y2 + 2Y3 + 3Y4 + Y5 = . 2 8 Se trata de una media móvil con una ventana de anchura 5 (el número de observaciones que intervienen en el cálculo) y con pesos ( 18 , 82 , 82 , 28 , 81 ). En general si p es par, el proceso de medias móviles de orden p se calcula como Yt−p/2 + 2Yt−p/2+1 + · · · + 2Yt+p/2−1 + Yt+p/2 , y se denota por 2 × p M A(Y ). En la figura VIII.2 se presenta el resultado de calcular para varios valores de k el proceso de medias móviles asociado a la serie de temperaturas en San Javier (ver tema 7). Cuando estamos próximos a la periodicidad de la serie, el proceso de medias móviles estima la tendencia de la serie. VIII.3. Procedimiento para la descomposición clásica Si la periodicidad natural es p, y Yt = Tt + St + Et . VIII.3 Procedimiento para la descomposición clásica 75 Medias mobiles, k= 3 25 ● ● ● ●●● ● ● ● ● 15 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● 10 ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● 20 ● ysj ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● 1982 1984 1986 1988 1990 xmes Medias mobiles, k= 7 25 ● ● ● ● ● ●●● ● ● ● ● 15 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● 10 ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● 20 ● ysj ● ●● ● ●● ●● ● ●● ● ● ● ● 1982 1984 1986 1988 1990 xmes Medias mobiles, k= 13 25 ● 20 ● ● ● ● ●●● ● ● ● ● 10 ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1982 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● 15 ysj ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● 1984 1986 1988 1990 xmes Figura VIII.2: Suavizado de la serie de temperaturas en San Javier para varios valores de k Calculamos el proceso de medias móviles de orden p, obteniendo ası́ una aproximación T̂t de Tt . Restamos T̂t a Yt para obtener una estimación de St + Et . Calculamos los p valores de la componente estacional calculando el promedio de los datos separados de p instantes de tiempo: Ŝ1 = promedio(S1 , S1+p , S1+2p , . . .) Ŝ2 = promedio(S2 , S2+p , S2+2p , . . .) .. .. . . Obtenemos el componente irregular como Êt = Yt − Ŝt − T̂t . Muchos otros métodos de descomposición de una serie temporal han sido desarrollados.

Apuntes de Estad´ıstica Industrial

Documentos relacionados

Productos

Apoyo

Apuntes de Estad´ıstica Industrial

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib