Apuntes de Estadı́stica Industrial Mathieu Kessler Departamento de Matemática Aplicada y Estadı́stica Universidad Politécnica de Cartagena [email protected] Ésta es una versión preliminar, comentarios bienvenidos, 2003 Todos los gráficos de estos apuntes han sido realizados con el programa estadı́stico freeware R, (http://cran.r-project.org) Índice general I. Exploración de datos I.1. Introducción . . . . . . . . . . . . . I.2. Estudio de una variable . . . . . . . I.2.1. Unos cuantos términos . . . . I.2.2. Tabulación y representaciones I.2.3. Medidas numéricas . . . . . . I.3. Extensión al experimento aleatorio . I.3.1. Introducción . . . . . . . . . I.3.2. Medidas numéricas asociadas I.3.3. Modelos más utilizados . . . . . . . . . . . . . . . . . . gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 1 1 2 4 7 7 9 9 II. Distribuciones muestrales - contrastes de hipótesis II.1. Distribuciones muestrales . . . . . . . . . . . . . . . II.2. Contrastes de hipótesis . . . . . . . . . . . . . . . . . II.2.1. Ejemplo ilustrativo . . . . . . . . . . . . . . . II.2.2. Procedimiento global . . . . . . . . . . . . . . II.2.3. Los contrastes más utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 17 17 18 19 III.Regresión lineal III.1. Introducción . . . . . . . . . . . . . . . . . . . . III.2. Criterio de mı́nimos cuadrados . . . . . . . . . . III.3. Regresión lineal . . . . . . . . . . . . . . . . . . . III.3.1. Regresión lineal simple . . . . . . . . . . . III.3.2. Regresión lineal múltiple . . . . . . . . . . III.4. Inferencia para la regresión . . . . . . . . . . . . III.4.1. Introducción . . . . . . . . . . . . . . . . III.4.2. Algunas distribuciones muestrales . . . . III.4.3. Contrates de significación . . . . . . . . . III.4.4. Ejemplo . . . . . . . . . . . . . . . . . . . III.4.5. Introducción a la construcción de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 21 23 25 25 28 31 31 32 33 33 34 . . . . . . . . . . . . . . . . . . . . . . ÍNDICE GENERAL iv IV.Análisis en componentes principales IV.1. Introducción . . . . . . . . . . . . . . . . . . . . IV.1.1. Presentación . . . . . . . . . . . . . . . . IV.1.2. Planteamiento para dos variables . . . . . IV.2. Planteamiento general . . . . . . . . . . . . . . . IV.2.1. Preliminares . . . . . . . . . . . . . . . . IV.2.2. Análisis en componentes principales . . . IV.3. Propiedades . . . . . . . . . . . . . . . . . . . . . IV.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . . IV.4.1. Notas de examenes . . . . . . . . . . . . . IV.4.2. Encuesta de presupuestos familiares . . . IV.5. Criterio de selección del número de componentes IV.5.1. Diagrama de codo . . . . . . . . . . . . . IV.5.2. Proporción de variabilidad explicada . . . V. Análisis de conglomerados V.1. Introducción . . . . . . . . . . . . . . . . . . . V.2. Método de partición. El algoritmo de k-medias. V.2.1. Presentación . . . . . . . . . . . . . . . V.2.2. Criterios para comparar particiones. . . V.2.3. Descripción del algoritmo . . . . . . . . V.2.4. Comentarios . . . . . . . . . . . . . . . V.2.5. Elección del número de grupos . . . . . V.2.6. Ejemplos . . . . . . . . . . . . . . . . . V.3. Métodos jerárquicos . . . . . . . . . . . . . . . V.3.1. Presentación . . . . . . . . . . . . . . . V.3.2. Distancia, similaridad . . . . . . . . . . V.3.3. Métodos aglomerativos . . . . . . . . . . VI.Análisis factorial VI.1. Introducción . . . . . . . . . . . . VI.2. El modelo . . . . . . . . . . . . . . VI.2.1. Primera formulación . . . . VI.2.2. No unicidad de los factores VI.2.3. Hacia el modelo definitivo . VI.3. Estimación de las cargas factoriales VI.3.1. Método del factor principal VI.4. Rotación de los factores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII. Introducción a las series temporales VII.1.Introducción . . . . . . . . . . . . . . . VII.2.Primer paso: exploración gráfica . . . . VII.3.Descomposición en patrones de una serie VII.3.1.Presentación . . . . . . . . . . . VII.3.2.El modelo . . . . . . . . . . . . . VII.4.Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 37 38 40 40 42 43 43 43 44 45 45 45 . . . . . . . . . . . . 49 49 50 50 50 51 52 52 52 52 52 53 54 . . . . . . . . 57 57 58 58 59 59 60 60 61 . . . . . . 63 63 64 65 65 66 67 ÍNDICE GENERAL VIII. Descomposición de una serie temporal VIII.1. Filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VIII.2. Medias móviles y componente estacional . . . . . . . . . . . . . . . . VIII.3. Procedimiento para la descomposición clásica . . . . . . . . . . . . . v 71 71 72 74 CAPÍTULO I Exploración de datos I.1. Introducción La estadı́stica utiliza datos para conseguir comprensión sobre un fenómeno. Básicamente, esta comprensión es una consecuencia de la combinación entre conocimientos previos sobre el fenómeno y nuestra capacidad a utilizar gráficos y cálculos para extraer información de los datos. En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran número de variables. Un efecto contradictorio aparece: por una parte, cuanto más datos, más información podemos extraer sobre las variables de interés, pero a la vez es más difı́cil su extracción. En este contexto aparece una primera etapa fundamental frente a un conjunto de datos: la exploración, que se realiza a través de representaciones gráficas y del cálculo de unas cuantas medidas numéricas bien escogidas. Para tener las ideas claras, unos cuantos gráficos pueden proporcionarnos información más valiosa que procedimientos sofisticados que no dominamos. En esta asignatura, veremos en temas posteriores métodos sofisticados de análisis para conjuntos con varias variables (el llamado análisis multivariante) pero dedicamos ahora un capı́tulo a recordar las técnicas elementales con el objetivo de fomentar reacciones sanas frente a un conjunto de datos. I.2. Estudio de una variable Aun cuando el conjunto de datos presenta varias variables, se debe empezar por el estudio individual de cada una. I.2.1. Unos cuantos términos Un conjunto de datos describe individuos, que pueden ser personas pero también objetos. Por ejemplo, asociados a esta clase, podemos considerar que 2 Exploración de datos los individuos son los alumnos. Consideramos variables asociadas a este conjunto de datos, distinguiremos entre variable cuantitativa, que asocia un número a cada individuo, o variable cualitativa, que coloca cada individua en una categorı́a. Ejemplos de variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el grupo sanguı́neo son en cambio variables cualitativas. Un concepto fundamental que utilizaremos con frecuencia corresponde a la distribución de una variable X asociada a un conjunto de datos. Describir la distribución de X corresponde a establecer la lista de los valores que toma X junto con la frecuencia con la que toma cada valor. En particular nos interesa saber si el conjunto presenta mucha o poca variabilidad. I.2.2. Tabulación y representaciones gráficas Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos se presentarán o bien en forma bruta: un fichero con una columna para cada variable, donde cada fila representa un individuo, o bien en forma ya tabulada, es decir donde los datos están agrupados. Para datos agrupados, consideramos por ejemplo mediciones del contenido en nitrato en una muestra de agua: Valor 0.45 0.46 0.47 0.48 Frecuencia 1 2 4 8 Valor 0.49 0.50 0.51 0.51 Frecuencia 8 10 5 8 En el caso en que el conjunto presente muchas valores próximos pero distintos, agrupamos los datos por clases. Consideramos por ejemplo el conjunto de datos de Newcomb (http://www.dmae.upct.es/∼mathieu) Newcomb fue el primero en conseguir ¡en 1882! una estimación de la velocidad de la luz. Las mediciones recogidas en el apéndice corresponden a los tiempos codificados que tardó un rayo de luz en recorrer el camino de ida-vuelta desde el laboratorio de Simon Newcomb situado en el Rı́o Potomac hasta un espejo situado en la base del “Washington Monument”, en total una distancia de 7400m. Para obtener los tiempos en nano segundos (10−9 s) no codificados, hay que añadir 24800 a cada dato.1 Agrupando los datos en clases obtenemos: Frecuencia Clase Frecuencia Clase Frecuencia Clase ] − 45, −40] 1 ] − 15, −10] 0 ]15, 20] 4 ] − 40, −35] 0 ] − 10, −5] 0 ]20, 25] 17 ] − 35, −30] 0 ] − 5, 0] 1 ]25, 30] 26 ] − 30, −25] 0 ]0, 5] 0 ]30, 35] 10 ]5, 10] 0 ]35, 40] 7 ] − 25, −20] 0 ] − 20, −15] 0 ]10, 15] 0 Los datos tabulados se examinan con más comodidad a través de representaciones gráficas. En el eje Ox aparecen los valores de la variables, o en su caso las clases y 1 Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statistics, W. H. Freeman and Company: New York, NY, pp 3-16. I.2 Estudio de una variable 3 6 2 4 Frecuencias 8 10 en el eje Oy las frecuencias. Obtenemos ası́ un diagrama de barras en el ejemplo de las mediciones de la concentración en nitrato, ver figura I.1. 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 Mediciones de la concentracin Figura I.1: Diagrama de barras para las concentraciones de nitrato En el caso en que los datos están agrupados por clase, el diagrama resultante se llama histograma. En la figura I.2, aparece el histograma para las mediciones de Newcomb. 15 10 5 0 Frecuencias 20 25 Histograma, mediciones de Newcomb −40 −20 0 20 40 Mediciones Figura I.2: Histograma para las mediciones de Newcomb 4 Exploración de datos Las representaciones gráficas describen la distribución de la variable en el conjunto. Al examinarlos hay que que intentar contestar a las siguientes preguntas 1. ¿ Es el histograma simétrico? 2. ¿Posee la distribución colas largas? 3. ¿Posee el histograma un máximo claro único? En este caso hablamos de histograma unimodal. 4. ¿Aparecen datos atı́picos?, es decir datos que se alejan del patrón global de los datos. 5. ¿Donde localizamos el centro aproximado de los datos? 6. ¿Presentan los datos mucha dispersión?, lo que se traduce en la forma puntiaguda o chata del histograma. I.2.3. Medidas numéricas Se suele acompañar las representaciones gráficas de las distribuciones con medidas numéricas que proporcionen un resumen de sus caracterı́sticas principales. Existen medidas numéricas para contestar a cada pregunta (y alguna más...) planteadas en el apartado anterior a la hora de examinar el histograma. Nos limitaremos a las medidas de centro y de dispersión, es decir las que proporcionen una respuesta a las preguntas 5 y 6. a). Medidas de centro La media: Si x1 , . . . , xn son los datos, sabemos todos que la media es x̄ = x1 + · · · + xn . n Representa el centro de gravedad de los datos. Cuidado: Es muy sensible a datos atı́picos en el conjunto de datos, y es poco representativa del centro en el caso en que la distribución es asimétrica. Para paliar estos inconvenientes, se considera también la mediana: La mediana: La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 % a su derecha. Es una medida de centralización más adecuada que la media en el caso en que la distribución de los datos es asimétrica ( lo que se ve en el histograma) o si hay datos atı́picos. Si la distribución es simétrica, la media y la mediana coinciden. Para calcular la mediana de un conjunto de n datos, x1 , x2 , . . . , xn . Empiezo por ordenar los datos por orden creciente. La mediana es el dato ordenado no (n + 1)/2. Ejemplo: 125, 129, 134, 185, 200. La mediana es el dato ordenado no 3, y es igual a 134. 11, 15, 20, 23: la mediana es el dato ordenado no 2.5, que tomamos por convención igual al punto medio entre el dato no 2 y el dato no 3. En este caso, la mediana es igual a 17.5. I.2 Estudio de una variable b). 5 Medidas de dispersión La desviación tı́pica Mide lo lejos que están situados los datos respecto a su centro de gravedad, la media. Empezamos por definir la varianza: s2 = (x1 − x̄)2 + · · · + (xn − x̄)2 , n−1 (I.1) que representa aproximadamente el promedio de las distancias al cuadrado entre los datos y su media. La desviación tı́pica s es la raı́z cuadrada de s2 . Naturalmente, la desviación tı́pica es representativa de la dispersión del conjunto de datos solo si la media es representativa de su centro. Una medida alternativa de dispersión que puede ser más representativa en el caso en que la distribución es asimétrica o en presencia de datos atı́picos, es el rango intercuartı́lico. El rango intercuartı́lico (RIC). Hemos definido la mediana como el punto que separa el conjunto en dos partes de mismo tamaño. Definimos de la misma manera los cuartiles como los puntos que separan el conjunto en cuatro partes de mismo tamaño. El primer cuartil Q1 deja el 25 % de los datos ordenados a su izquierda, y el otro 75 % a su derecha, mientras que el tercer cuartil Q3 deja el 75 % de los datos ordenados a su izquierda, y el otro 25 % a su derecha. Por lo tanto el par (Q1 , Q3 ) nos proporciona información sobre la dispersión presente en los datos: cuanto más alejados estén los cuartiles, más dispersos están los datos. Por ello, calculamos el rango intercuartı́lico RIC como la diferencia entre Q3 y Q1 . Para calcular los cuartiles, empezamos por calcular la mediana M e de los datos. El primer cuartil es la mediana del grupo de datos que queda a la izquierda de M e (M e excluida), mientras que el tercer cuartil se calcula como la mediana del grupo que queda a su derecha (M e excluida). El RIC también se utiliza para detectar datos atı́picos: Regla: Se consideran como atı́picos los datos que son menores de Q1 − 1,5 × RIC, o mayores de Q3 + 1,5 × RIC. c). Un resumen gráfico: el diagrama de caja-bigotes El diagrama de caja-bigotes es un resumen gráfico que permite visualizar, para un conjunto de datos, la tendencia central, la dispersión y la presencia posible de datos atı́picos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el tercer cuartil de los datos: El diagrama de caja-bigotes presenta de manera gráfica estas informaciones, tal como está recogida en la figura I.3. Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta : el dato del conjunto inmediatamente superior a Q1 − 1,5 × RIC para el bigote inferior, y el dato inmediatamente inferior a Q3 + 1,5 × RIC, para el bigote superior. La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más conjuntos de datos. Ejemplo La puntuación de los equipos de la liga española al final de las temporadas 01/02 y 02/03 en primera división se pueden comparar con un diagrama caja-bigotes, como aparece en la figura I.4 Exploración de datos 12 6 ● 11 Dato atpico Bigote 10 Q3 Me 9 Q1 ● 8 ● 40 50 60 70 Figura I.3: Componentes del diagrama caja-bigotes 102 203 Figura I.4: Comparación puntuación final, temporadas 01/02 y 02/03 Comentarios: No hay datos atı́picos, es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos. Hay más diferencia de puntos entre el primer y el último clasificado para la liga 02/03 que en la liga anterior. Los equipos del tercer cuarto de la clasificación están muy apelotonados en la liga 02/03. I.3 Extensión al experimento aleatorio I.3. I.3.1. 7 Extensión al experimento aleatorio Introducción Las técnicas descriptivas son muy útiles pero tienen su limitación, se puede llegar a conclusiones mucho más precisas si estamos dispuestos a formular un modelo para el mecanismo de generación de los datos que observamos: no nos limitamos a los datos que tenemos sino que los consideramos generados a partir de un experimento que formalizamos. En el ejemplo de Newcomb, podemos considerar el experimento: “Llevar a cabo, con el procedimiento de Newcomb, una medición del tiempo que tarda la luz en recorrer los 7400m”. Los datos de los que disponemos fueron generados a partir de las 66 realizaciones que realizó Newcomb de este experimento. Formular un modelo consiste en traducir nuestras creencias sobre las posibilidades que tienen de ocurrir los resultados del experimento. Para ello, utilizaremos el concepto de probabilidad: asignaremos a cada resultado posible del experimento un número entre 0 y 1, según nuestra visión de cuales son las posibilidades de que ocurra. Si pensamos que ocurrirá con toda seguridad le asignamos la probilidad 1 mientras que si pensamos que no tiene posibilidades de ocurrir, le asignamos la probabilidad 0. Merece la pena resaltar que la formulación de un modelo es un decisión subjetiva: dos personas distintas pueden escoger modelos diferentes para modelizar el mismo experimento. Si consideramos el experimento de tirar una moneda no trucada, asignaremos la probabilidad 1/2 a cada de los posibles resultados, cara o cruz. En cambio, si pensamos que la moneda está trucada, y que es tres veces más probable de que ocurra cara que cruz, asignaremos la probabilidad 0.75 al resultado cara, y 0.25 al resultado cruz. Existe una formulación axiomática del concepto de probabilidad que da lugar a una teorı́a coherente y muy estudiada. En esta asignatura nos limitaremos a utilizar el concepto intuitivo de probabilidad. En el caso en que consideramos una variable X asociada a un experimento, al formular un modelo para su distribución, tendré que ser capaz de asignar una probabilidad a cada resultado asociado con X. Si X sólo puede tomar un número finito de valores (o infinito pero numerable), describir su distribución consistirá en realizar la lista de los valores que puede tomar junto con la probabilidad que asignamos a cada valor. En cambio, si X puede tomar cualquier valor real por ejemplo, tendré que definir qué probabilidad asigno a cualquier intervalo. Este último supuesto se consigue definiendo una función de densidad f : La función de densidad f de una variable X es una función positiva que integra R 1, es decir tal que f (x)dx = 1 y que permite calcular la probabilidad de que X pertenezca a un intervalo ]a, b] como Z P[a < X ≤ b] = b f (x)dx. a Deducimos que la probabilidad de que X esté entre a y b corresponde al área debajo de la curva de f comprendida entre a y b, tal como está ilustrado en la figura I.5. Si disponemos de un conjunto de datos con una variable X, generados a partir de realizaciones de un experimento, y si nuestra descripción del mecanismo de generación de los datos a través de un modelo para X, es adecuada, la función de Exploración de datos f 0.0 0.1 0.2 0.3 0.4 8 b a Valores de X Figura I.5: Función de densidad y su interpretación densidad de X tiene mucha relación con el histograma. En efecto, la probabilidad de que X pertenezca a una clase debe explicar la frecuencia de datos que aparecen en esta clase, y por lo tanto la forma del histograma debe corresponder a la forma de la densidad, tal como viene reflejado en la figura I.6. 0.2 0.1 0.0 Densidad 0.3 0.4 Densidad y histograma −2 −1 0 1 x Figura I.6: Densidad y histograma 2 I.3 Extensión al experimento aleatorio I.3.2. 9 Medidas numéricas asociadas De la misma manera que para distribuciones de variables en un conjunto de datos, se pueden resumir algunas caracterı́sticas de las distribuciones de variables asociadas a experimentos aleatorios. a) Media - Esperanza Sea X una variable con densidad f , definimos la media de X, también llamada esperanza o valor esperado, como Z µX = E[X] = xf (x)dx. Es una medida de centro de la distribución si ésta es relativamente simétrica, se interpreta como el centro de gravedad de la distribución, ver figura I.7. E[X] E[X] Figura I.7: La esperanza es el centro de gravedad b) Desviación tı́pica La varianza se define como el promedio de la distancia al cuadrado entre X y su media: Z 2 σX = V ar(X) = (x − µX )2 f (x)dx, y la desviación tı́pica es σX = I.3.3. q 2 . σX Modelos más utilizados Resulta que existen situaciones comunes en las que unos pocos modelos “estandar” sirven para describir los experimentos considerados. a) El modelo normal Es el modelo más utilizado en la práctica. Su densidad depende de dos parámetros µ y σ 2 , que representan parámetros de localización y de dispersión respectivamente. Su expresión es f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 , 10 Exploración de datos cuya representación gráfica es la famosa “campana de Gauss”. Si la densidad de X es la función f arriba descrita, se dice que X sigue una distribución normal de parámetros µ y σ 2 . Se puede demostrar que, si X admite la densidad f descrita arriba, la esperanza de X es µ, mientras que su varianza es σ 2 . Bastará por lo tanto para escoger un modelo normal para una variable fijar el valor de µ y el valor de σ como reflejando el centro y la dispersión de la distribución. En la figura I.8, se ha ajustado una curva normal al histograma de los datos recogidos por Newcomb, después de omitir los dos datos atı́picos −44 y −2. Se observa que el ajuste es bastante bueno. 0.04 0.00 0.02 Frecuencias 0.06 0.08 Histograma, mediciones de Newcomb −40 −20 0 20 40 Mediciones Figura I.8: Ajuste de una densidad normal al histograma de Newcomb Además puesto que la función f no admite primitiva en una forma cerrada, no hay expresión simple para calcular la probabilidad de que una variable normal pertenezca a un intervalo dado. Se recurre por lo tanto a aproximaciones numéricas de la integral Z b (x−µ)2 1 √ e− 2σ2 dx, 2πσ 2 a para obtener P(a < X ≤ b). Los programas informáticos de análisis de datos como SPSS o Statistix disponen de algoritmos que permitan calcular para cualquier t la probabilidad P(X ≤ t). También existe un calculadora estadı́stica freeware NCSScalc, que se puede bajar de mi página web. (http://www.dmae.upct.es/∼mathieu) A pesar de que no exista una expresión simple para las probabilidades asociadas a una distribución normal, es muy útil conocer la regla siguiente: si X es una normal N (µ, σ 2 ), tenemos I.3 Extensión al experimento aleatorio 11 P(µ − σ ≤ X ≤ µ + σ) ' 0,68 P(µ − 2σ ≤ X ≤ µ + 2σ) ' 0,95 P(µ − 3σ ≤ X ≤ µ + 3σ) ' 0,997, lo que queda reflejado en la figura I.9: el 68 % del área debajo de la curva normal está comprendida entre µ − σ y µ + σ, el 94 % entre µ − 2σ y µ + 2σ, y el 99.7 % entre µ − 3σ y µ + 3σ. µ 68% µ−σ µ+σ 95% µ − 2σ µ + 2σ 99.7% µ − 3σ µ + 3σ Figura I.9: Regla del 68 % - 95 % - 99.7 % b) El modelo exponencial Este modelo ha resultado adecuado para modelizar el tiempo discurrido entre dos apariciones de un suceso dado, como por ejemplo el tiempo que pasa entre dos emisiones de partı́culas por un material radiactivo o el tiempo que pasa entre dos llegadas de clientes a una cola. Decimos que X es una variable exponencial con parámetro λ si su función de densidad de λe−λx si x > 0 f (x) = 0 en otro caso. Es fácil demostrar que la media de X es 1/λ y su varianza 1/λ2 . Apéndice Datos: la velocidad de la luz, por S. Newcomb Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30, 12 Exploración de datos 22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28, 29, 16, 23 TEMA II Distribuciones muestrales - contrastes de hipótesis II.1. Distribuciones muestrales Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo, posiblemente con uno o varios parámetros que tendremos que ajustar. Ejemplos Me interesa una moneda para tirar a cara o cruz. El experimento es “Tirar la moneda” y la variable X corresponde al resultado, su distribución se describe como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. p es por lo tanto la probabilidad de que salga cara, y es un parámetro de nuestro modelo. En el caso en que confiamos en que la moneda no está trucada, nuestro modelo considerará que p = 1/2. Para sacar información sobre p y comprobar en particular que la moneda no está trucada, repetiremos un cierto número de veces el experimento. Para las próximas elecciones generales, queremos determinar la proporción de gente que tiene intención de ir a votar, es decir queremos estimar la tasa de participación. El censo electoral para España tiene unos 32 millones de personas. Es claramente imposible entrevistar a todas las personas del censo. En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas 3000 personas entre el censo y preguntándoles si tienen intención de ir a votar. El ı́ndice de audiencias manda en la programación de televisión. Pero ¿cómo saben cuántos espectadores vieron un partido dado o un programa determinado? A mı́ nunca me han preguntado... En realidad, una encuesta se realiza de manera automática y continua: una empresa especializada llamada SOFRES (http://www.sofresam.com) ha escogido al azar unos 3300 hogares que representan unas 10000 personas de entre un total de aprox. 39 500 000 espectadores potenciales. En cada uno de estos hogares, instala un aparato llamado “audı́metro” que graba cuál es el programa que se está viendo en cada momento. 14 Mathieu Kessler: Estadı́stica industrial Quiero conocer la concentración de un determinado producto en una solución. Pienso que es razonable que la distribución de los valores proporcionados por mi aparato de medición sea una normal con media µ y desviación tı́pica σ desconocidas. El centro de esta distribución, es decir µ, será por lo tanto lo más representativo de la concentración que intento determinar. Para estimar µ, repetiré la medición varias veces. Pero surge una pregunta evidente: Pregunta: ¿Cómo sabemos que nuestra estimación es fiable? ¿Por qué limitándose a unas 3000 personas, se puede extropolar el resultado con confianza a una población de 30 millones? Además está claro que el resultado que obtengo depende de la muestra particular que haya escogido, si escojo otra muestra me sale otro resultado. Este hecho se llama la variabilidad muestral. Intento de respuesta: Consideremos el caso del sondeo en él que se busca estimar la tasa de participación antes de unas elecciones. Para intentar convencer al lector de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas a la población de 32 millones no es excesivo, llevo a cabo un estudio de simulación: Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que representará el censo electoral. Los unos representarán a las personas que sı́ tienen la intención de ir a votar, mientras que los ceros a los que no piensan ir a votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos, mientras que el 30 % son ceros. (70 % es una tasa razonable de participación en unas elecciones) Extraigo al azar una muestra de 3000 datos del fichero completo, hago el recuento de los unos, y encuentro que la proporción de unos en esta muestra es de 0.71. Por lo tanto, en este caso, mi estimación es muy buena: estimo la tasa de participación en 71 % mientras que la auténtica, es decir, la de la población (el fichero) es de 70 %. ¿Os he convencido? Seguro que algún lector desconfiado dirá: “ no demuestra nada, ha tenido suerte de que en la muestra que ha escogido, la proporción de unos sea próxima a la proporción poblacional, pero con otra muestra podrı́a salir otro resultado peor.” De acuerdo, el argumento es válido... Pero para convencerle, voy a coger otra muestra al azar de 3000 datos, y encuentro que la proporción muestral de unos es 0.72. Sigue estando muy bien, ¿no? ¿Sigue sin convencerle? Bueno, puedo repetir la extracción de muestras hasta 10 000 veces por ejemplo, y guardo los valores que encuentro para la proporción de 1 en cada una de estas 10000 muestras en una variable llamada p̂. Realizo un histograma de los 10000 valores de p̂, el resultado aparece en la figura II.1. Una primera conclusión se impone: la gran mayorı́a de las muestras han proporcionado un valor de p̂ entre 0.68 y 0.72, lo que corresponde a una muy buena estimación del valor de la proporción poblacional. Por lo tanto este estudio simulado demuestra que al escoger una muestra de 3000 personas, es muy probable que el valor de la proporción de 1 en la muestra esté bastante próxima (menos de dos puntos) de la proporción de 1 en la población, aunque ésta sea muchı́simo más grande que la muestra. Podemos dar un paso más en la utilización de este estudio simulado: si considero ahora el experimento “extraer una muestra de tamaño 3000 en la población”, p̂ es la 15 1000 0 500 Frecuencias 1500 2000 II.1 Distribuciones muestrales 0.67 0.68 0.69 0.70 0.71 0.72 0.73 ^ p Figura II.1: Histograma de los valores de p̂ para 10000 muestras extraidas variable “proporción de 1 en la muestra extraida”. Quiero formular un modelo para su distribución. El histograma en la figura II.1 me sugiere que puedo escoger una distribución normal para p̂. De hecho en la figura II.2, se aprecia que el ajuste por una normal con media µ = 0,70 y desviación tı́pica σ = 0,008 es muy bueno. Utilizando entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar en la población una muestra de tamaño 3000, la probabilidad de que la proporción muestral p̂ se encuentre entre 0,7 − 2 × 0,008 = 0,694 y 0,07 + 2 × 0,008 = 0,716 es del 95 %. Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado, podrı́amos preguntarnos si podrı́amos ahorrarnos algo y extraer una muestra más pequeña. Repitamos por ejemplo el estudio simulado con muestras de sólo 100 personas. El histograma que obtenemos aparece en la figura II.3. Observamos que en este caso el histograma es muchı́simo más chato, y que la dispersión de los valores de p̂ es mucho mayor: es más probable, al escoger una muestra de 100, que la proporción muestral esté bastante alejado del objetivo 0.7. Toda la teorı́a desarrollada acerca de los sondeos utiliza de manera crucial el hecho de que antes de extraer la muestra, se dispone de un modelo para la distribución de p̂ por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este Mathieu Kessler: Estadı́stica industrial Densidad 0 10 20 30 40 16 0.67 0.68 0.69 0.70 0.71 0.72 0.73 phat 1000 0 500 Frecuencias 1500 Figura II.2: Ajuste de una normal al histograma de los valores de p̂ 0.6 0.7 0.8 0.9 ^ p Figura II.3: Histograma de los valores de p̂ para 10000 muestras de tamaño 100 extraidas modelo permite en particular decidir si, fijado el error máximo que se está dispuesto a cometer respecto a la proporción poblacional, el tamaño de la muestra es suficiente como para que el riesgo de cometer un error mayor es lo suficientemente pequeño. Introducimos dos términos fundamentales en estadı́stica: II.2 Contrastes de hipótesis 17 Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadı́stico. La distribución de los valores que puede tomar un estadı́stico respecto a todas las muestras de tamaño n que se podrı́a extraer se llama distribución muestral de este estadı́stico. II.2. Contrastes de hipótesis II.2.1. Ejemplo ilustrativo Supongamos que dispongo de una moneda y quiero saber si está trucada. Formalizo el modelo tal como lo hemos visto en la sección anterior: X es la variable “resultado obtenido al tirar la moneda”, X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. Me pregunto si p = 1/2 o p 6= 1/2. Formulo por lo tanto dos hipótesis: una hipótesis nula: una hipótesis alternativa H0 H1 p = 1/2 p 6= 1/2 0 2 4 6 8 Para decidir cuál de las dos hipótesis es cierta, pienso tirar la moneda 100 veces y calcular la proporción muestral p̂ de caras. Por la teoria de probabilidad y de las variables aleatorias, se sabe que, si p = 1/2, la distribución muestral de p̂ se puede modelizar por una normal con media 0.5 y desviación tı́pica 0.05. Es decir que, antes de realizar el experimento de tirar 100 veces la moneda y calcular la proporción p̂ de caras entre estas 100 tiradas, sé que, si la moneda no está trucada, puedo esperar que la distribución de los valores que podrá tomar p̂ será tal como en la figura II.4. 0.0 0.2 0.4 0.6 0.8 1.0 ^ p Figura II.4: Distribución muestral de p̂ para 100 tiradas de una moneda no trucada ¿Entre qué valores se encontrará con gran confianza p̂? Supongamos ahora que efectivamente, tiro 100 veces la moneda y obtengo 61 caras y 39 cruces. Por lo tanto p̂ = 0,61. ¿Está la moneda trucada? En principio, 18 Mathieu Kessler: Estadı́stica industrial parece que sı́, pero por otra parte, ¿cómo sabemos que este resultado, alejado del 0.5 esperado si la moneda no fuera trucada, no se deba sencillamente al azar, y no provenga de la variabilidad natural inevitable al tirar 100 veces la moneda? Podemos contestar a esta pregunta porque, precisamente, disponemos de un modelo para la distribución de los valores de p̂ si en realidad p = 1/2. Observamos que el valor p̂ = 0,61 es un valor bastante extremo para su distribución. De hecho, ¿qué porcentaje de las muestras de tamaño 100, proporcionan un valor tan o más alejado del 0.5 esperado que 0.61? Para saberlo calculo con una calculadora estadı́stica y utilizando el modelo que tengo para p̂, la probabilidad P[p̂ ≤ 0,39 ∪ p̂ ≥ 0,61], que es aproximadamente igual a 0.028. Deduzco que, si en efecto p = 1/2 sólo el 2.8 % de las muestras de tamaño 100 proporcionarı́an un valor tan o más alejado de 0.5 como el valor que me ha salido. En este sentido, el valor que he obtenido es extremo, suponiendo que la hipótesis nula es cierta... En este caso, los datos tienden a refutar la hipótesis nula, y basándonos en la muestra extraida, afirmamos que la moneda está trucada. El porcentaje de muestras de tamaño 100 que proporcionarı́an un valor igual o más alejado que el valor encontrado en nuestra muestra es una medida de la “fuerza” de los datos contra la hipótesis nula y a favor de la hipótesis alternativa. II.2.2. Procedimiento global De manera repetida en la asignatura, los procedimientos que veremos incluirán contrastes de hipótesis: Llamando θ un parámetro del modelo, formularemos una hipótesis nula y una alternativa respecto al valor de θ. H0 H1 θ = θ0 θ 6= θ0 En el ejemplo ilustrativo, θ era p y θ0 era 1/2. En algunos casos, sólo nos interesará incluir en la hipótesis alternativa valores del parámetro mayores que θ0 . En este caso formularemos las hipótesis como H0 H1 θ = θ0 θ > θ0 . Por supuesto también podrı́amos considerar en la alternativa valores menores que θ0 : H0 H1 θ = θ0 θ < θ0 . Para la primera formulación hablamos de hipótesis alternativa bilateral mientras que para las dos últimas hablamos de hipótesis alternativa unilateral. Planificamos nuestra toma de muestra: escogemos el tamaño de la muestra que extraeremos. En función del parámetro que queremos, escogeremos un estadı́stico y un modelo para su distribución muestral bajo el supuesto que la hipótesis nula es cierta. II.2 Contrastes de hipótesis 19 Extraemos una muestra, calculamos, para esta muestra, el valor del estadı́stico, y situamos este valor en la distribución muestral del estadı́stico cuando H0 es cierta. Cuantificamos la fuerza de los datos en contra de la hipótesis nula y a favor de la hipótesis alternativa a través del p-valor: el p-valor es el porcentaje de muestras del tamaño escogido que proporcionan un valor del estadı́stico tan o más extremo en la distribución muestral que el obtenido para nuestra muestra. En el ejemplo ilustrativo de la sección anterior, habı́amos encontrado un p-valor del orden de 2.8 %. Nota: conforme a la filosofı́a de estos temas recordatorios, hemos escogido una presentación intuitiva obviando algunas sutilezas y/o dificultades. Nuestro objetivo es que el lector haya asimilado el concepto de estadı́stico y de distribución muestral, ası́ como la idea de un contraste de hipótesis, sabiendo interpretar un p-valor. Se suele considerar que un p-valor menor que 0.05 indica una gran fuerza en los datos en contra de la hipótesis nula y a favor de la alternativa, mientras que cuando el p-valor es mayor de 0.2, se considera que los datos no contradicen la hipótesis nula. II.2.3. Los contrastes más utilizados Existe un gran número de contrastes, y nos limitaremos a recordar aquı́ los más sencillos. En el caso en que el modelo escogido para la variable X en la población sea N (µ, σ 2 ), los contrastes sobre la media se formulan como H0 H1 µ = µ0 µ 6= µ0 , en su versión bilateral, o sustituyendo H1 por H1 : µ > µ0 , o H1 : µ < µ0 en su versión unilateral. Para muestras de tamaño n, el estadı́stico de prueba depende de si el valor de σ 2 es conocido o no, es decir si el modelo para X especifica un valor concreto para la varianza, o si ésta se considera desconocida. Si σ 2 es conocido, el estadı́stico de √ 0 , y su distribución muestral en el supuesto de que H0 es cierta prueba es Z0 = X̄−µ σ/ n es Z0 ∼ N (0, 1) si H0 es cierta. Extraemos una muestra concreta, denotamos por ẑ el valor tomado para esta muestra por el estadı́stico Z0 . El p-valor se calcula como 2 × P[Z0 ≥ |ẑ|] en el caso de una hipótesis alternativa bilateral, y como P[Z0 ≥ |ẑ|] en el caso en que H1 sea unilateral. Si en cambio no se especifica ningún valor con el modelo para la varianza de X, se estima σ 2 por s2 la varianza calculada a partir de la muestra. El estadı́stico de √ 0 , y su distribución muestral si H0 es cierta, es una distribución prueba es T0 = X̄−µ s/ n llamada t de student con n − 1 grados de libertad. Su forma es parecida a la Normal pero tiene unas colas más gruesas, debido a la variabilidad adicional que se introduce en el denominador al estimar la desviación tı́pica. TEMA III Regresión lineal III.1. Introducción Es muy normal considerar más de una variable asociada a un experimento. En este caso, más que la distribución de cada variable por separado, nos puede interesar en particular las relaciones que existan entre ellas. Nos centraremos aquı́ en el caso en que distinguimos una variable llamada “respuesta”, cuya amplitud depende de los valores de otras variables llamadas “explicativas”, y aprenderemos cómo deducir un modelo para la evolución de la primera en función de estas últimas. Hay dos utilidades principales al disponer de un modelo: podemos primero explicar la manera en la que cambios en los valores de una variable explicativa induce cambios en el valor de la variable respuesta. Por ejemplo, si pienso que la temperatura media Y en agosto en San Javier evoluciona en función del año según el modelo: T emperatura = −582,5 + 0,31año, deduciré que en promedio, la temperatura media en agosto aumenta de 0.3 grados cada año. Por otra parte, si dispongo de un modelo para la evolución de la variable respuesta, me permite también realizar predicciones del valor que tomará para valores de las explicativas que no hemos observado. Acabamos esta sección de presentación con cuatro ejemplos con datos reales tomados de campos diferentes. Las nubes de puntos correspondientes están presentadas en la figura III.1 Estudio de la resistencia del cemento en función del tiempo de fraguado en dı́as. Fuente: Hald, A. (1952) Statistical theory for engineering applications, Wiley & Sons New-York, pág 541. ¿Cómo evoluciona la resistencia de piezas de cemento en función del tiempo de fraguado? ¿Cuánto tiempo hay que esperar para conseguir el 90 % de la resistencia máxima? Este es el tipo de preguntas a las que podemos contestar con el estudio de este conjunto de datos. 22 Mathieu Kessler: Estadı́stica industrial Todos los años Venecia se inunda durante las “acqua alta”. Sin embargo, parece que el nivel máximo al que llega el mar está cada año más alto, haciendo temer por la conservación de la ciudad y de sus monumentos. Es por lo tanto de interés estudiar la evolución del nivel máximo del mar en función del año. Fuente: Smith, R.L (1986) “Extreme value theory based on the r largest annual events”, Journal of Hydrology, 86. Evolución de la producción mundial de petróleo desde 1880. Fuente: Data and Stories Library http://lib.stat.cmu.edu/DASL/. En 1929, Edwin Hubble investigó la relación entre la distancia de una galaxia a la tierra y la velocidad con la que está alejándose. En efecto se piensa que las galaxias se alejan como consecuencia del “Big Bang”. Hubble pensó que disponiendo de un modelo que relacionara la velocidad de recesión con la distancia a la tierra proporcionarı́a información sobre la formación del universo y sobre lo que podrı́a pasar en el futuro. Los datos recogidos incluyen distancias en megaparsecs (1 megaparsec= 3.26 años luz) y velocidad de recesión en km/s. Fuente: Data and Stories Library, http://lib.stat.cmu.edu/DASL. Figura III.1: Cuatro ejemplos de conjuntos de datos III.2 Criterio de mı́nimos cuadrados III.2. 23 Criterio de mı́nimos cuadrados Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta que llamaremos Y y una variable explicativa que llamaremos X. Disponemos de n pares de datos X Y x1 y1 x2 y2 ··· ··· xn yn Para visualizar el conjunto recurrimos a la nube de puntos, también llamada diagrama de dispersión, en el que representamos los pares (xi , yi ), i = 1, · · · , n, en unos ejes Ox, Oy, ver figura III.2 Figura III.2: Ejemplo de nube de puntos Por conocimientos previos sobre el fenómeno que estudiamos o por la propia nube de puntos, decidimos ajustar a ésta una curva de una determinada forma funcional: podrı́a ser por ejemplo una recta, de ecuación Y = aX + b, o una parábola Y = a0 + a1 X + a2 X 2 . La forma de la curva está fijada pero intervienen en la ecuación constantes, también llamadas parámetros, cuyo valor tenemos que ajustar para obtener el “mejor” ajuste posible: en el caso de la recta, debemos encontrar los valores de la pendiente b y de la ordenada al origen a. En una formulación general, escogemos una familia paramétrica de funciones x 7→ f (θ, x) θ = (θ1 , . . . , θk ), donde θ es el vector de parámetros. Buscar la función de la familia que mejor se ajusta a la nube de puntos es equivalente a encontrar el valor θ̂ de θ, que corresponde a esta función. Debemos ahora dar sentido a la noción de “mejor”; debemos fijarnos un criterio que nos permita decidir que una función de la familia se ajusta mejor a la nube de puntos que otra. El criterio que seguimos en este tema es el de mı́nimos cuadrados. 24 Mathieu Kessler: Estadı́stica industrial Definimos la suma de cuadrados asociada a una función de la familia como la suma de los cuadrados de las distancias verticales entre la curva correspondiente y los datos observados de la nube de puntos. Tal como viene reflejado en la figura III.3, la distancia vertical entre por ejemplo el punto x3 , y3 ) y la curva es y3 − f (θ, x3 ), por lo tanto la suma de cuadrados se escribe SC(θ) = (y1 − f (θ, x1 ))2 + (y2 − f (θ, x2 ))2 + · · · + (yn − f (θ, xn ))2 . Figura III.3: Ajuste de una curva a la nube de puntos. Buscamos el valor θ̂ de θ que minimiza la cantidad θ 7→ θ, en muchos casos, es imposible encontrar este mı́nimo explı́citamente y tenemos que recurrir a algoritmos III.3 Regresión lineal 25 numéricos. Nos centraremos en este tema en el que la forma paramétrica de f es particularmente simple y permite el cálculo explı́cito de θ̂. Supongamos que hemos ajustado la curva, es decir que hemos encontrado el valor θ̂ de θ que minimiza la suma de cuadrados, introduzcamos unos cuantos términos: La curva de ecuación y = f (θ̂, x) se llama la curva ajustada. Los ordenadas de la curva ajustada correspondientes a los datos observados, es decir los valores ŷ1 = f (θ̂, x1 ), . . . , yn = f (θ̂, xn ) se llaman los valores ajustados. Las distancias verticales entre los puntos observados y la curva ajustada se llaman los residuos e1 , . . . , en . Tenemos ei = yi − ŷi , La suma de cuadrados SC(θ̂) = i = 1, . . . , n. n X e2i i=1 se llama suma residual de cuadrados. Para la regresión lineal, el coeficiente Pn (ŷi − ȳ)2 2 R = Pi=1 n 2 i=1 (yi − ȳ) mide la proporción de variabilidad en los datos explicada por el modelo. Se llama coeficiente de determinación múltiple. III.3. Regresión lineal Hablamos de regresión lineal cuando los parámetros intervienen de manera lineal en la especificación de la función y = f (θ, x). Más concretamente, suponemos que tenemos k variables explicativas, X1 , X2 , . . . , Xk , y que la variable respuesta Y es una combinación lineal de X1 , X2 , . . . , Xk : Y = β1 X1 + β2 X2 + · · · + βk Xk , (III.1) donde β1 β2 . . . , βk son números reales. En este caso el parámetro θ es igual a (β1 β2 . . . , βk ). III.3.1. Regresión lineal simple El caso más utilizado de regresión lineal corresponde al ajuste por una recta, es decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo de la forma Y = aX + b. Se trata de un caso particular de la formulación general (III.1), si consideramos b = β1 , X1 = 1, a = β2 y X2 = X. 26 Mathieu Kessler: Estadı́stica industrial a). Obtención de la recta ajustada La suma de cuadrados se escribe SC(θ) = SC(a, b) = n X (yi − (axi + b))2 , i=1 Los candidatos a alcanzar el mı́nimo de esta función satisfacen ∂ SC(a, b) = 0 ∂a ∂ SC(a, b) = 0. ∂b Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este sistema de ecuaciones son â = xy−x̄ȳ x2 −(x̄)2 b̂ = ȳ − âx̄. Introducimos la cantidad n (xy − x̄ȳ), (III.2) n−1 que llamamos la covarianza de X e Y . El coeficiente â se puede escribir como sxy = â = sxy , s2x donde s2x es la varianza de X que introdujimos en el tema 1. Con estas notaciones, se puede escribir la ecuación de la recta ajustada en una forma compacta: y − ȳ = sxy (x − x̄). s2x Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza es positiva, Y y X presentan una asociación positiva: cuando crece X, crece Y y cuando decrece X, decrece Y . En cambio, si la covarianza es negativa Y y X presentan una asociación negativa, es decir que si X crece, Y decrece y vice versa. b). Bondad del ajuste Para la regresión lineal simple se puede demostrar que R2 = r2 donde r= sxy . sx sy (III.3) La cantidad r se llama el coeficiente de correlación entre X e Y . Para cuantificar del ajuste desarrollamos la suma de cuadrados residual, SC(θ̂) = Pn la bondad 2 i=1 (yi − ŷi ) . Podemos demostrar que SC(θ̂) = (n − 1)s2y (1 − R2 ). III.3 Regresión lineal 27 Deducimos que R2 está siempre comprendido entre 0 y 1, y cuanto más cercano esté de 1, mejor es el ajuste, puesto que corresponderá a una suma residual de cuadrados menor. En particular, deducimos que si R2 = 1, SC(θ̂) = 0, y para todo i = 1, . . . , n, yi = ŷi : todos los puntos observados están situados en la curva ajustada: los residuos son nulos y el ajuste es perfecto. Puesto que R2 = r2 y 0 ≤ R2 ≤ 1, deducimos que el coeficiente de correlación r está siempre comprendido entre −1 y 1. Si r = ±1, el ajuste de los puntos observados por una recta es perfecto. El coeficiente de correlación se interpreta en general como una cantidad que cuantifica la asociación lineal que existe entre dos variables: cuanto más cerca de ±1, más se aproxima la nube de puntos a una recta. Además por la definición (III.3), sabemos que r es del mismo signo de la covarianza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia de una asociación lineal positiva entre las dos variables, mientras que si es negativo y cercano a −1, presentan una asociación lineal negativa. Sin embargo, es necesario tener precaución a la hora de interpretar valores del coeficiente de correlación: sólo es un resumen, fiable en el caso en que está próximo a ±1 para indicar que existe una fuerte asociación lineal entre las variables pero mucho menos fiable si toma un valor alejado de ±1. Anscombe (1973), ”Graphs in statistical analysis”, American Statistician, 27, pp 17-21, construyó cuatro conjuntos de datos artificiales que dan lugar al mismo coeficiente de correlación y a las mismas rectas de regresión, pero cuyos aspectos son completamente diferentes. Los datos se presentan en el apéndice, y se deja su estudio en ejercicio. c). Predicción Tal como lo mencionamos en la introducción del tema, si disponemos del modelo ajustado podemos utilizarlo para predecir el valor de la respuesta para valores no observados de X: Si x0 es un valor no observado, nuestra predicción del valor de Y será yx0 = â x0 + b̂. Sin embargo, debemos tener mucho cuidado al extrapolar nuestro modelo fuera del rango de valores de X que hemos observado, al no disponer de valores fuera de este rango, tampoco sabemos si el modelo deducido seguirá valido. Por ejemplo en la introducción hemos visto que un modelo para la evolución de la temperatura media en agosto Y en función del año X está dado por T emperatura = −582,5 + 0,31año. Este modelo se obtuvo a partir de mediciones de la temperatura para los últimos 20 años aproximadamente. El hecho de que la pendiente al origen sea -582.5 implica que si el modelo lineal fuera válido hasta el año 0, la temperatura media en el mes de agosto habrı́a sido de -582 grados! El modelo lineal es una buena aproximación para la evolución de la temperatura en los últimos veinte años, pero no es válido para épocas demasiada alejadas de la actualidad. 28 Mathieu Kessler: Estadı́stica industrial III.3.2. a). Regresión lineal múltiple Presentación La regresión lineal múltiple corresponde al caso general Y = β1 X1 + β2 X2 + · · · + βk Xk . (III.4) Se trata de un modelo bastante general que incluye muchas posibles formas funcionales para f (θ, x). Muy a menudo, se considera un término constante en el modelo, lo que corresponde a imponer que X1 = 1. Los modelos incluidos en esta formulación general comprenden entre otros La regresión lineal simple. Y = b +aX Y = β1 X1 +β2 X2 X1 = 1 X2 = X La parábola Y = a0 + a1 X + a2 X 2 Y = β1 X1 + β2 X2 + β3 X3 X1 = 1, X2 = X, X3 = X 2 Cualquier polinomio de orden q, Y = a0 + a1 X + a2 X 2 + · · · + aq X q Y = β1 X1 + β2 X2 + · · · + βq+1 Xq+1 X1 = 1, X2 = X, . . . Xq+1 = X q Si disponemos de dos variables X y Z y buscamos un modelo para Y en función de éstas, Y pertenece a una superficie, que se puede representar en un eje tridimensional. Tenemos por ejemplo el caso más sencillo Y = a00 + a10 X + a01 Z Y = β1 X1 + β2 X2 + β3 X3 X1 = 1, X2 = X, X3 = Z, en el que la respuesta Y evoluciona en un plano en función de X y Z, o si añadimos términos cuadráticos, Y = a00 + a10 X + a01 Z + a11 XZ + a20 X 2 + a02 Z 2 Y = β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + β6 X6 + X1 = 1, X2 = X, X3 = Z, X4 = XZ, X5 = X 2 , X6 = Z 2 III.3 Regresión lineal 29 obtenemos que la respuesta describe una superficie cuadrática, una paraboloide de revolución por ejemplo. En cuanto a la presentación de los datos, disponemos de n valores y1 , y2 , . . . , yn que corresponden a distintos valores de las explicativas. Se recogen en una tabla de la forma b). Y y1 y2 .. . X1 x11 x21 .. . X2 x12 x22 .. . ... ... ... .. . Xk x1k x2k .. . yn xn1 xn2 ... xnk Cálculo de los coeficientes Introducimos la matriz X, llamada matriz valores de las variables explicativas x11 x12 . . . x21 x22 . . . X= . .. .. .. . . de diseño que contiene todos los x1k x2k .. . , xn1 xn2 . . . xnk ası́ como el vector de observaciones Y = y1 y2 .. . , yn y el vector de coeficientes β = (β1 , β2 , . . . , βk )0 , donde suma de cuadrados SC(β) se puede escribir 0 denota la transpuesta. La SC(β) = kY − Xβk2 , donde k k denota la norma euclı́dea de un vector en Rn . Esta situación es bien conocida en álgebra lineal, buscamos el elemento del espacio vectorial generado por las columnas de X que minimice la distancia a un vector dado: se trata de la proyección ortogonal, y la expresión de los coeficientes β que minimiza SC(β) es β̂1 β̂2 .. . = (X 0 X)−1 X 0 Y, β̂n donde X 0 denota la transpuesta de X. Nota. La expresión anterior presupone que se puede invertir X 0 X, lo que es equivalente a que las columnas de la matriz X vistas como vectores son linealmente independientes. 30 Mathieu Kessler: Estadı́stica industrial c). Ejemplo Se estudia el rendimiento Y de una reacción quı́mica en función de la temperatura T M P a la que se lleva a cabo, la concentración inicial del producto C y el tiempo T que transcurre. Los datos se presentan en la tabla siguiente: Temperatura(C) 10 15 10 15 10 15 10 15 Concentración( %) 40 40 40 40 50 50 50 50 Tiempo(mn) 20 20 25 25 20 20 25 25 Rendimiento 28.27 36.33 26.00 37.00 37.40 42.45 39.42 45.47 Buscamos un modelo de la forma: Y = β1 + β2 T emp + β3 Conc + β4 T iempo Y = β1 X1 + β2 X2 + β3 X3 + β4 X4 X1 = 1, X2 = T emp, donde Y es el rendimiento. Para este modelo la matriz de diseño es 1 10 1 15 1 10 1 15 X= 1 10 1 15 1 10 1 15 X3 = Conc, 40 40 40 40 50 50 50 50 20 20 25 25 20 20 25 25 X4 = T iempo, y las distintas cantidades que necesitamos para calcular los coeficientes son 8 100 360 180 100 1300 4500 2250 X 0X = 360 4500 16400 8100 180 2250 8100 4100 C = X 0X −1 23,5 −0,25 −0,25 0,02 = −0,225 0 −0,45 0 −27. 995 1. 509 X 0Y = 0. 9285 0. 173 −0,225 −0,45 0 0 0,005 0 0 0,02 III.4 Inferencia para la regresión 31 −27,96 1,51 β̂ = C · X 0 Y = 0,93 0,17 El modelo ajustado es por lo tanto Rendimiento = −27,96 + 1,51T emp + 0,93Conc + 0,17T iempo. En particular deducimos que un aumento de 1 grado en la temperatura a la que se realiza la reacción induce un aumento de 1.51 puntos en el rendimiento. En la tabla siguiente presentamos los valores observados para la respuesta, los valores ajustados por nuestro modelo y los residuos. y 28.27 36.33 26.00 37.00 37.40 42.45 39.42 45.47 ŷ 27.70 35.24 28.56 36.10 36.98 44.52 37.84 45.38 0.57 1.09 -2.56 0.90 0.42 -2.07 1.58 0.09 residuos III.4. Inferencia para la regresión III.4.1. Introducción Al igual que en los dos primeros temas, conseguiremos sacar información más precisa sobre el fenómeno bajo estudio si disponemos de un modelo para el mecanismo de generación de los datos que hemos observado. Para simplificar, empecemos por el caso en que sólo tenemos una variable explicativa X. Consideramos entonces el experimento que consiste en escoger un valor de X y observar el valor de la respuesta Y resultante. ¿Cómo explicar que, si escogemos varios valores de X, obtenemos una nube de puntos que, por ejemplo, parece globalmente seguir una recta? Los puntos observados sufren desviaciones de la recta, algunas veces se encuentran por abajo, otras por encima. El modelo que explica la relación entre el dato obtenido para Y y el escogido para X puede por lo tanto ser Y = aX + b + ε, donde ε es una variable aleatoria (por lo tanto impredecible) que algunas veces toma valores negativos, lo que implica que el punto observado está por debajo de la recta, y otras veces positivos. La variable ε corresponde a la perturbación aleatoria que sufre la relación lineal entre Y y X. Para completar la especificación del modelo, sólo nos falta escoger un modelo para la distribución de los valores que puede tomar la perturbación ε. La opción más extendida y que suele ser bastante acorde con lo observado en la práctica corresponde a la campana de Gauss: suponemos que, sea cual sea el valor escogido de X, la perturbación ε asociada a la generación del valor de la respuesta sigue una distribución normal con media cero (el centro de los valores de la perturbación corresponde a la situación sin perturbación) y con la misma desviación tı́pica σ, es decir ε ∼ N (0, σ 2 ). En conclusión, el modelo que escogemos para la respuesta Y en el caso en que conocemos el valor de X, es Y ∼ N (aX + b, σ 2 ), 32 Mathieu Kessler: Estadı́stica industrial si pensamos ajustar una recta mientras que, para el caso más general de la regresión lineal múltiple: Y ∼ N (β1 X1 + β2 X2 + · · · + βk Xk , σ 2 ). (III.5) Dos caracterı́sticas fundamentales de nuestro modelo son La respuesta promedio, es decir la esperanza de Y , E[Y ] está dada por E[Y ] = β1 X1 + β2 X2 + · · · + βk Xk , es decir que el centro de los valores que obtenemos corresponde precisamente a un elemento de la familia parámetrica que hemos escogido. La varianza de la perturbación, y por lo tanto de la respuesta, no depende del valor concreto de las variables explicativas: hablamos de homocedasticidad. III.4.2. Algunas distribuciones muestrales Fijado este modelo, nos damos cuenta de que consideramos ahora que los datos que hemos observado son el resultado de un experimento aleatorio, y que si repitiera la toma de las mismas n combinaciones de valores de las explicativas y observara los n valores resultantes de la respuesta, obtendrı́a otra nube de puntos, seguramente con una forma global parecida, pero distinta. En particular, los coeficientes ajustados β̂1 , . . . , β̂k que calcuları́a serı́an distintos. En resumen, las cantidades β̂1 , . . . , β̂k son variables aleatorias, cuya distribución muestral es de sumo interés para poder realizar afirmaciones sobre la relación entre Y y las variables explicativas. La teorı́a estadı́stica determina en el caso de la regresión lineal múltiple las distribuciones muestrales de los coeficientes estimados, si suponemos que los datos han sido generados a partir del modelo (III.5). Puesto que nuestro objetivo aquı́ es llegar a interpretar los principales elementos de la salida de un programa como SPSS, nos limitamos a las distribuciones muestrales de cada β̂i . Estimaremos la varianza σ 2 de la perturbación por la varianza residual σ̃ 2 que definimos a continuación, σ̃ 2 = n 1 X (yi − ŷi )2 . n−k (III.6) i=1 Introduzcamos ahora la matriz C = (X 0 X)−1 , tenemos que, para todo i = 1, . . . , k, β̂i 1/2 σ̃Cii ∼ tn−k , (III.7) donde Cii denota el i-ésimo elemento de la diagonal de C, y tn−k es la distribución 1/2 t de Student con n − k grados de libertad. El denominador σ̃Cii se llama el error estándar del estimador β̂i . III.4 Inferencia para la regresión III.4.3. 33 Contrates de significación La principal utilidad que haremos de la distribución muestral (III.7) consistirá en plantear el contraste para comprobar si un determinado coeficiente en la regresión es significativamente diferente de cero. Para i entre 1 y k, plantearemos las hipótesis H0 : βi = 0 H1 : βi 6= 0. A continuación, obtenemos el valor de β̂i a partir de los datos que hemos observado ası́ como el de la varianza residual (III.6), para acabar calculando el valor concreto t̂ i para nuestra muestra del estadı́stico de prueba β̂1/2 . El p-valor se obtendrá entonces σ̃Cii como P[|tn−k | > |t̂|] donde tn−k representa una variable con distribución t de Student con n − k grados de libertad. Los contrastes H0 : βi = 0 H1 : βi 6= 0, son particularmente importantes a la hora de construir el modelo. Muy a menudo no tenemos muy claro si una determinada variable tiene influencia sobre la respuesta o no, y por lo tanto no sabemos si el modelo que construimos para la respuesta promedio debe incluirla. III.4.4. Ejemplo Volvamos al ejemplo del rendimiento de la reacción quı́mica. El ajuste obtenido era E[Y ] = Rendimiento promedio = −27,96 + 1,51T emp + 0,93Conc + 0,17T iempo, es decir que los coeficientes de cada variable explicativa han sido todos estimados por valores distintos de cero, lo que induce a pensar que tanto la temperatura como la concentración inicial del reactivo como el tiempo de reacción tienen una influencia sobre el rendimiento. Sin embargo ¿son estos coeficientes significativamente diferentes de cero?, ¿o es que su alejamiento del valor nulo se debe solamente a la variabilidad natural de los valores del estimador β̂i correspondiente? A lo mejor si repito el experimento completo, obtendrı́a una ecuación ajustada en la que el coeficiente del tiempo estuviera muy cerca de cero o incluso negativo, lo que cambiarı́a del todo mi conclusión sobre el efecto del tiempo sobre el rendimiento. Los contrastes de significación sobre cada coeficiente nos permiten contestar a estas preguntas. Para los datos descritos en la sección I.3.2 c), un programa estadı́stico como SPSS o Statistix nos proporciona los valores estimados β̂1 , . . . , β̂k , sus errores estándar, el valor de los estadı́sticos de prueba ası́ como los p-valores asociados a los contrastes de significación de los coeficientes. Una salida tı́pica serı́a: 34 Mathieu Kessler: Estadı́stica industrial Variable Constante Conc Tiempo Temperatura β̂i -27.96 0.93 0.17 1.51 Error estándar β̂i 9.65 0.14 0.28 0.28 Est. prueba -2.90 6.6 0.61 5.36 p-valor 0.0442 0.003 0.57 0.006 y nos proporciona un coeficiente de determinación múltiple R2 igual a 0.95. Entre los p-valores asociados a los contrastes de significación de los coeficientes, hay que destacar el correspondiente al coeficiente de la variable tiempo con un valor de 0.57. Un p-valor tan alto para el contraste H0 : β4 = 0 contra H1 : β4 6= 0 evidencia que los datos soportan la hipótesis nula. Deducimos por lo tanto que el tiempo (por lo menos en el rango de valores que hemos experimentado, es decir 20 o 25 minutos) no tiene una influencia significativa sobre el rendimiento. Podemos por lo tanto probar a eliminarlo del modelo y buscar una relación del tipo: E[Y ] = Rendimiento promedio = β1 + β2 T emp + β3 Conc. Obtenemos para este modelo: Variable Constante Conc Temperatura β̂i -24.09 0.93 1.51 Error estándar β̂i 6.81 0.13 0.26 Est. prueba -3.54 7.05 5.73 p-valor 0.016 0.0009 0.002 con un R2 igual a 0.94. La bondad del ajuste medida por el coeficiente de determinación múltiple no ha variado mucho, por otra parte los p-valores correspondientes a los contrastes de significación para los coeficientes β1 , β2 y β3 son ahora todos muy pequeños, lo que nos lleva a rechazar que cualquiera de ellos sean nulos. A falta de un examen de los residuos, que esbozaremos en prácticas, nos quedamos con el modelo para el rendimiento promedio: Rendimiento promedio = −24,09 + 0,93T emp + 1,51Conc. III.4.5. Introducción a la construcción de modelos En situaciones en las que se dispone de un gran número de variables explicativas y pocos conocimientos previos sobre cuáles pueden tener una influencia sobre la respuesta, serı́a útil disponer de un procedimiento que nos permita incorporar o eliminar variables de manera casi automática en el modelo, y nos proporcione al final “un” modelo que dé cuenta de los datos. Empecemos por decir que no existe un procedimiento que funcione de manera satisfactoria en todos los casos, en cambio se han propuesto muchos intentos de solución, ninguno ha conseguido la unanimidad de los especialistas sobre sus virtudes, y es un campo de la estadı́stica en el que se sigue investigando de manera activa. Presentaremos aquı́ dos métodos muy sencillos y intuitivos, pero que tienen limitaciones para conjuntos de muchas variables: el cálculo de todas las posibles regresiones y la eliminación hacia atrás. III.4 Inferencia para la regresión a). 35 Cálculo de R2 para todos los posibles submodelos Un primer método bastante natural consiste en realizar una comparación de todos los modelos que podrı́a construir con combinaciones lineales de las variables explicativas, y calcular el valor de R2 asociado a cada uno. Supongamos que tenemos en total k posibles regresores X1 , . . . , Xk , podemos construir 2k posibles submodelos utilizando algunos de estos regresores. Tenemos submodelos con sólo 1 regresor: E[Y ] = β1 X1 , . . . E[Y ] = βk Xk , submodelos con sólo dos dos regresores: E[Y ] = β1 X1 +β2 X2 , . . . , β1 X1 +βk Xk , . . . , E[Y ] = βk−1 Xk−1 +βk Xk , con sólo tres regresores etc... hasta el modelo completo con los k regresores. Para el ejemplo del rendimiento de la reacción quı́mica, es razonable del punto de vista quı́mico que siempre esté el término constante, nos limitamos entonces a incluir o excluir las tres variables explicativas C, TMP y T . Los submodelos son 23 = 8, los describimos a continuación, junto con el valor de R2 del ajuste asociado: Modelo E[Y ] = β1 E[Y ] = β1 + β2 C E[Y ] = β1 + β3 TMP E[Y ] = β1 + β4 T E[Y ] = β1 + β2 C + β3 TMP E[Y ] = β1 + β2 C + β4 T E[Y ] = β1 + β3 TMP + β4 T E[Y ] = β1 + β2 C + β3 TMP + β4 T R2 0 0,568 0,375 0,375 0,943 0,573 0,38 0,948 Dos modelos aparecen con un alto valor de R2 : el modelo completo y el correspondiente a E[Y ] = β1 + β2 C + β3 TMP , en el que ha desaparecido la variable Tiempo. En los otros submodelos se nota un descenso importante de la calidad de ajuste. Puesto que el valor de R2 apenas difiere, nos quedamos con el modelo más simple: E[Y ] = β1 + β2 C + β3 TMP . Una desventaja evidente de este método es que el número de modelos a comparar puede ser rápidamente muy grande en cuanto tenemos varias variables explicativas. Además el criterio de comparación - cálculo de R2 - es pobre y a menudo no ayuda a seleccionar el modelo más satisfactorio. b). Eliminación hacia atrás. Otro método muy utilizado y implementado en cualquier programa de estadı́stica corresponde a la eliminación hacia atrás. Empezamos con el modelo completo, que incluye todos los regresores. Se trata de un algoritmo recursivo, que empieza con el modelo completo y desarrolla los siguientes pasos a) Realizamos el ajuste, y calculamos el p-valor asociado al contraste de significación para cada coeficiente. b) Nos fijamos en la variable con el p-valor más alto: si éste es mayor que un umbral prefijado (0.1 por ejemplo), eliminamos la variable del modelo y volvemos al paso a). El algoritmo se para cuando todos los p-valores son menores que el umbral. 36 Mathieu Kessler: Estadı́stica industrial Si el umbral se fija en 0.1, el procedimiento de eliminación hacia atrás para el ejemplo del rendimiento quı́mico coincide con los pasos que hemos seguido en la sección III.4.4, la conclusión es la misma que para el cálculo de los todos submodelos posibles: nos quedamos con el modelo en el que aparecen un término constante, la concentración y la temperatura. En todos los casos, sea cual sea el método de construcción de modelo que escogemos, debemos controlar todos los pasos que realiza el algoritmo y no confiar ciegamente en el resultado final proporcionado por el programa. Apéndice A continuación se presentan los datos de Anscombe (1973), ”Graphs in statistical analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de X1 , X2 , X3 , y X4 asi como de Y1 , Y2 , Y3 y Y4 y a continuación calcular las rectas de regresión de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro gráficas de Yi en función de Xi para i=1, 2, 3, 4. X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 X2 10 8 13 9 11 14 6 4 12 7 5 Y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74 X3 10 8 13 9 11 14 6 4 12 7 5 Y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 X4 8 8 8 8 8 8 8 19 8 8 8 Y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 6 TEMA IV Análisis en componentes principales IV.1. Introducción IV.1.1. Presentación En situaciones en las que consideramos un gran número de variables cuantitativas asociadas a cada individuo de un conjunto, es difı́cil tener una visión general de las asociaciones que puedan existir entre ellas. Sin embargo serı́a muy conveniente; en efecto, si detectáramos por ejemplo asociaciones muy fuertes entre algunas variables, podrı́amos omitir en nuestro estudio las variables que se pueden predecir a partir de otras, y conseguir ası́ una descripción del conjunto más sencilla al involucrar menos variables: es el problema importante de la reducción de dimensión en un conjunto de datos con muchas variables. En particular la reducción de dimensión del conjunto puede facilitar la descripción de la estructura de la variabilidad presente en los datos. Un primer paso que nos puede ayudar y que hemos aplicado repetidamente en prácticas de regresión lineal múltiple, consiste en calcular la matriz de correlaciones de las variables presentes, y buscar valores de la correlación próximos a ±1. El análisis en componentes principales que describimos en este tema es una técnica muy relacionada al ser también basada de la matriz de correlación / covarianza de los datos. El objetivo es reducir la dimensión del conjunto de datos, pero perdiendo poca información sobre los individuos. Supongamos que cada individuo está descrito por k variables. Presentaremos los datos en una matriz, que contará tantas columnas como variables - k en nuestro caso - y lı́neas como individuos, por ejemplo n. x11 x12 · · · x1k x21 x22 · · · x2k X= . (IV.1) . .. .. .. . . . . . xn1 xn2 · · · xnk Los datos forman una nube de n puntos en un espacio k-dimensional. Por su- 38 Mathieu Kessler: Estadı́stica industrial puesto, si k ≥ 3, es imposible representar esta nube gráficamente. Sin embargo, está claro que descripciones equivalentes del conjunto se pueden obtener con un simple cambio de sistemas de coordenadas. La técnica de componentes principales consiste en determinar el sistema de coordenadas que facilitará la reducción de dimensión. Para entender el tipo de cambio de sistemas de coordenadas que nos proporciona el análisis en componentes principales, dedicamos ahora algo de tiempo al caso sencillo en el que sólo tenemos dos variables, es decir k = 2. IV.1.2. Planteamiento para dos variables 5 10 Observamos dos variables para unos 20 individuos, obteniendo la matriz de datos 20 × 2 recogida en el apéndice, y la nube representada en la figura IV.1. ● ● ● ● ● 0 X2 ● ● ● ● ● ● ● ● ● ● −10 −5 ● ● ● ● −10 −5 0 5 10 X1 Figura IV.1: Nube de puntos, datos originales ¿Cuál serı́a el cambio de ejes que más nos convendrı́a si quisiéramos conseguir una reducción de la dimensión del conjunto? Para reducir la dimensión, una vez realizado el cambio de sistema de coordenadas, nos quedamos sólo con la primera componente para cada individuo. Está claro que la nueva descripción será más pobre que la original, al sustituir un par de números para cada individuo por un único número, pero si tenemos la suerte de que en el nuevo sistema, la segunda componente toma IV.1 Introducción 39 valores parecidos para todos los individuos, la pérdida de información será pequeña, puesto que de todas formas, la componente que omitimos no diferencia mucho a los individuos. Intuitivamente, los ejes que buscamos corresponden a los representados en la figura IV.2. En efecto, si llamamos Z1 y Z2 las coordenadas de los puntos en el X2 Z2 ● ● ● ● Z1 ● x2 ● ● ● ● ● ● ● ● ● ● ● ● X1 ● ● x1 Figura IV.2: Nube de puntos con los nuevos ejes nuevo sistema de coordenadas, observamos que esta elección de los ejes consigue que la primera componente presente la mayor varianza, mientras que la segunda componente la menor varianza posible. La figura IV.3 representa la misma nube de puntos en el nuevo sistema OZ1 OZ2 . Observamos que en esta figura, el eje OZ1 coincide con la recta de regresión ajustada a la nube, por lo tanto, la pendiente de la recta de regresión de Z2 sobre Z1 es nula, lo que implica que la covarianza entre estas dos variables es nula. En resumen, el cambio de coordenadas que buscamos proporciona dos variables Z1 y Z2 cuya matriz de covarianzas es diagonal. Tal como lo desarrollamos en lo que sigue, el análisis en componentes principales determina el cambio de coordenadas en las que las nuevas componentes de la nube de puntos presenten una matriz de covarianzas diagonal. 40 Mathieu Kessler: Estadı́stica industrial Z2 X2 ● z2 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Z1 ● ● X1 z1 Figura IV.3: Nube de puntos rotada y representada en el nuevo sistema de coordenadas IV.2. Planteamiento general IV.2.1. Preliminares a). Recordatorios sobre cambio de base Sea x~1 , . . . , ~xk una base de Rk . Consideramos la nube k-dimensional de n puntos que llamamos M1 , M2 , . . . , Mn . (xi1 , xi2 , . . . , xik ) son las coordenadas del punto Mi en la base x~1 , . . . , ~xk . Cada lı́nea de la matriz X definida en (IV.1) corresponde por lo tanto a los componentes de un punto de la nube en el sistema de coordenadas inducido por esta base. Consideramos ahora otra base ~u1 , . . . , ~uk de Rk . Sean (zi1 , zi2 , . . . , zik ) las coordenadas del punto Mi en esta nueva base. Construimos la matriz k × n Z cuyas IV.2 Planteamiento general 41 lı́neas contienen las coordenadas de los z11 z21 Z= . .. puntos de la nube en la base u~1 , . . . , ~uk : z12 · · · z1k z22 · · · z2k . .. .. .. . . . zn1 zn2 · · · znk Para relacionar Z con X, consideramos U , la matriz de paso de la base ~x1 , . . . , ~xk a la nueva base. Recordar que la matriz U es una matriz k × k cuyas columnas contienen las coordenadas de los vectores ~u1 , . . . , ~uk en la base inicial, es decir si ~u1 = u11 ~x1 + u21 ~x2 + · · · + uk1 ~xk ~u2 = u12 ~x1 + u22 ~x2 + · · · + uk2 ~xk .. .. . . ~uk = u1k ~x1 + u2k ~x2 + · · · + ukk ~xk , la matriz de paso será U = u11 u21 .. . u12 u22 .. . ··· ··· .. . u1k u2k .. . . uk1 uk2 · · · ukk La relación entre Z, X y U es X = ZU 0 , (IV.2) donde U 0 denota la matriz transpuesta de U . U es invertible y deducimos que X(U 0 )−1 = Z. (IV.3) Nota: Si los vectores ~u1 , . . . , ~uk forman una base ortonormal, la matriz U satisface U 0 U = Id, y por lo tanto (U 0 )−1 = U . b). Matriz de covarianzas y cambio de bases Volvamos al conjunto de datos representado por la matriz X. La matriz de covarianzas de las variables X1 , . . . , Xk para este conjunto es 2 sX1 sX1 X2 · · · sX1 Xk sX X s2 · · · sX2 Xk 1 2 X2 SX = . (IV.4) , . .. .. .. .. . . sX1 Xk sX2 Xk · · · s2Xk donde s2Xi representa la varianza de la variable Xi en el conjunto y sXi Xj es la covarianza de Xi y Xj , ver ecuaciones (I.1) y (III.2) de los temas 1 y 3. Supondremos ahora, para simplificar las notaciones y sin perder generalidad, que las variables en X1 , . . . , Xk están centradas, es decir que tienen media cero: 42 Mathieu Kessler: Estadı́stica industrial x¯1 = . . . = x¯k = 0. En este caso, es fácil comprobar que la matriz de covarianzas de X se puede expresar como 1 SX = X 0 X. (IV.5) n−1 Utilizando la relación (IV.2), deducimos que la matriz SZ de covarianzas de las variables Z1 , . . . , Zk , componentes de los puntos en la nueva base ~u1 , . . . , ~uk se relaciona con SX a través de SZ = 1 1 Z 0Z = U −1 X 0 X(U 0 )−1 = U −1 SX (U 0 )−1 . n−1 n−1 En el caso en que U es ortogonal, la relación se escribe SZ = U −1 SX U. IV.2.2. (IV.6) Análisis en componentes principales Tal como lo ilustramos en el ejemplo particular de dos variables, el análisis en componentes principales persigue determinar el cambio de sistema de coordenadas en el que la matriz de covarianzas de las nuevas componentes sea diagonal. Por los preliminares vistos en la sección anterior, y en particular la relación (IV.6), deducimos que los vectores de la nueva base ~u1 , . . . , ~uk que lo consiguen son los vectores propios de la matriz SX .1 Por su forma, una matriz de covarianzas es siempre diagonalizable y además sus valores propios son todos mayores o iguales a cero. Introducimos la definición Sean λ1 ≥ λ2 ≥ · · · ≥ λk ≥ 0 los valores propios ordenados de SX . Llamemos ~u1 , ~u2 , . . . , ~uk los vectores propios de norma 1 asociados. Los componentes Z1 , . . . , Zk de los puntos del conjunto en la base ~u1 , ~u2 , . . . , ~uk son los componentes principales del conjunto de datos descrito por la matriz X. Al calcular los vectores propios de la matriz SX , obtenemos los coeficientes uij de la matriz U de paso (ver (a)). Por la fórmula de cambio de base (IV.3), deducimos que Z1 = u11 X1 + u21 X2 + · · · + uk1 Xk Z2 = u12 X1 + u22 X2 + · · · + uk2 Xk .. .. . . Zk = u1k X1 + u2k X2 + · · · + ukk Xk . Los componentes principales Z1 , . . . , Zk se obtienen por lo tanto como combinaciones lineales de las variables originales X1 , . . . , Xk , cuyos coeficientes se deducen de la expresión de los vectores propios. Volvamos al ejemplo simple visto en la sección IV.1.2 y cuyos datos se pueden encontrar en el apéndice. La matriz de covarianzas de los datos es 11,249135 5,199287 SX = , 5,199287 3,840685 1 Recordar que λ es un valor propio de la matriz A, y ~ u es un vector propio asociado a λ, si se cumple A~ u = λ~ u. IV.3 Propiedades 43 y utilizando un programa como SPSS o Mathematica, obtenemos que los dos valores propios son λ1 ' 13,93 y λ2 ' 1,16. Los vectores propios asociados son ~u1 = (−0,89, −0,46) y ~u2 = (0,46, −0,89). Deducimos que los dos componentes principales son Z1 = −0,89X1 − 0,46X2 Z2 = 0,89X1 − 0,89X2 IV.3. Propiedades Por la definición de los componentes covarianzas SZ es λ1 0 0 λ2 SZ = . .. ... 0 principales, obtenemos que la matriz de ... 0 .. . ... ... .. . 0 0 .. . , . . . . . . . . . λk para todo 1 ≤ i ≤ k, el valor propio λi es por lo tanto la varianza del i-ésimo componente principal Zi . Por otro lado, por construcción, los componentes principales son incorrelados (rZi Zj = 0). Los principales teoremas del álgebra lineal nos permiten deducir las siguientes propiedades de los componentes principales: 1. Cualquier combinación lineal estanderizada de las variables iniciales, es decir a1 X1 + · · · + ak Xk con a21 + · · · + a2k = 1, presenta una varianza menor or igual que la del primer componente Z1 , es decir: V ar(a1 X1 + · · · + ak Xk ) ≤ λ1 . Podemos decirlo de otra manera: sea cual sea el primer vector del nuevo sistema de coordenadas que escojamos, la varianza, para la nube de puntos, de la primera componente en este nuevo sistema será menor o igual que λ1 , es decir que, cuando fijamos este primer vector como u~1 , el vector propio de SX asociado a λ1 , maximizamos la varianza de los valores que toma la primera componente en la nube de puntos. 2. La variabilidad total se preserva. V ar(X1 ) + · · · + V ar(Xk ) = V ar(Z1 ) + · · · + V ar(Zk ) = λ1 + · · · + λk IV.4. Ejemplos IV.4.1. Notas de examenes Consideremos que el examen final de esta asignatura consta de dos partes que contribuyen cada una al 50 % de la nota final: una parte teórica y una parte práctica. 44 Mathieu Kessler: Estadı́stica industrial En la gráfica IV.4 se representa la nube de puntos correspondiente a 30 alumnos (hipotéticos...) Si realizamos un análisis de componentes principales de los datos, obtenemos que los dos componentes principales son Z1 = 0,65X1 + 0,76X2 Z2 = 0,76X1 − 0,65X2 con valores propios λ1 = 1,90 y λ2 = 0,08. Deducimos que la principal fuente de variación presente en los datos, es decir, lo que más diferencia a los alumnos es aproximadamente proporcional a la suma de las dos notas, es decir la nota total. La segunda fuente de variación corresponde a la diferencia entre las dos notas: diferencia entre los alumnos que lo han hecho bien en prácticas y mal en teorı́a y los que lo han hecho al revés. IV.4.2. Encuesta de presupuestos familiares Para ilustrar el método de los componentes principales, utilizaremos el ejemplo de la encuesta de Presupuestos Familiares, estudiado en Peña (2002) Análisis de datos multivariantes, p140. La encuesta de presupuestos familiares en España para el año 1990/1991, recoge los gastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como una provincia). Las variables son: X1 = alimentación, X2 = vestido y calzado, X3 = vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 = transporte, X7 = enseñanza y cultura, X8 = turismo y ocio, X9 12 otros gastos. Por razones de simetrı́a, se trabaja con los logaritmos de los datos, es decir que consideramos las variables Y1 = log(X1 ), . . . , Y9 = log(X9 ). Los valores propios de la matriz SY de covarianzas de Y que encontramos son λ1 = 0,348 λ2 = 0,032 λ3 = 0,027 λ4 = 0,018 λ5 = 0,013 λ6 = 0,011 λ7 = 0,010 λ8 = 0,010 λ9 = 0,005 El vector propio asociado a λ1 nos proporciona el primer componente principal: z1 = 0,12y1 + 0,18y2 + 0,30y3 + 0,31y4 + 0,46y5 + 0,34y6 +0,50y7 + 0,31y8 + 0,31y9 El primer componente, el que mejor permite diferenciar a las distintas provincias en cuanto a presupuestos familiares, es por lo tanto una suma ponderada de todas las variables. Las variables que más peso tienen en esta suma son las que corresponden a los gastos en enseñanza y cultura (Y7 ) y sanitarios (Y5 ). En cambio, los gastos en alimentación (Y1 ) tienen menor peso. Si clasificamos las provincias según su valor para el componente Z1 , que dejamos en ejercio para el lector, observamos que la clasificación refleja los niveles de la renta media por familia en cada provincia. IV.5 Criterio de selección del número de componentes El segundo componente, asociado al valor propio λ2 = 0,032, es z2 = 0,05y1 + 0,16y2 − 0,17y3 + 0,07y4 − 0,21y5 + 0,29y6 −0,40y7 − 0,17y8 + 0,78y9 = (0,05y1 + 0,16y2 + 0,07y4 + 0,29y6 + 0,78y9 ) −(0,17y3 + 0,21y5 + 0,40y7 + 0,17y8 ). Este segundo componente corresponde por lo tanto a la diferencia entre dos sumas ponderadas: la primera incluye las variables Y1 , Y2 , Y4 , Y6 y Y9 y da sobre todo peso a Y9 (otros gastos) y Y6 (transporte). D. Peña conjetura que, al estar incluidas en otros gastos las transferencias fuera de la provincia a miembros de la familia mayores de 14 años que no residan en ella, este componente separa las provincias que reciben transferencias de las que las envian. IV.5. Criterio de selección del número de componentes Recordamos que nuestro objetivo es conseguir una reducción de la dimensión del conjunto de datos, pero ¿cómo seleccionar el número de componentes que permita dar cuenta suficiente de la variabilidad y que a la vez suponga una reducción en el número de variables? Al igual que para otros métodos, se han propuesto un gran número de procedimientos para determinar el número de componentes retenidos, nos limitamos a dos muy sencillos. IV.5.1. Diagrama de codo Se representan los valores propios λi en función de i. Buscamos detectar un punto a partir del cuál los valores propios son próximos y pequeños. El diagrama correspondiente se llama en inglés “Scree plot” que se puede traducir por “diagrama de codo”. Para el ejemplo de la encuesta de presupuestos familiares, el diagrama de codo se representa en la figura IV.5 Se observa que podemos retener la primera o las dos primeras componentes y conseguir una efectiva reducción de la dimensión. IV.5.2. Proporción de variabilidad explicada Puesto que la varianza del componente i-ésimo es λ y que la variabilidad total es la suma de los valores propios (ver propiedad 2 en la sección IV.3), la proporción de la variabilidad total explicada por los p primeros componentes es λ1 + · · · + λp . λ1 + · · · + λp + · · · λk Se suele por lo tanto considerar que nos quedamos con los componentes que explican más del 90 % o 95 % de la variabilidad total. En el ejemplo de la encuesta de presupuestos familiares, tenemos 45 46 Mathieu Kessler: Estadı́stica industrial Valor propio λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9 % Variabilidad 0.734 0.068 0.057 0.038 0.027 0.023 0.021 0.021 0.011 % acumulado variabilidad explicada 0.734 0.802 0.859 0.897 0.924 0.947 0.968 0.989 1.000 Nos deberı́amos quedar con los cuatro ó 6 primeros componentes. Sin embargo, es muy dı́ficil en general interpretar de manera inteligente más de uno o dos componentes, es por lo tanto más razonable quedarse en este ejemplo con los dos primeros. Appéndice Datos del ejemplo, sección IV.1.2. 1,360 −2,115 −2,460 3,235 2,030 5,335 6,120 4,395 1,375 −5,345 X= −3,020 −0,715 −0,605 2,210 1,840 −4,295 4,000 −0,080 −3,960 −2,270 0,705 −0,720 0,670 0,930 −1,685 4,080 2,660 3,660 0,775 −2,610 −0,535 0,580 −1,915 1,030 2,595 −0,135 1,775 −0,440 −2,605 −1,860 . 47 3 2 1 0 Nota prácticas 4 5 IV.5 Criterio de selección del número de componentes 0 1 2 3 4 Nota teoría Figura IV.4: Nube de puntos correspondiente al ejemplo de las notas. 5 Mathieu Kessler: Estadı́stica industrial ● 0.20 0.15 0.10 0.05 ● ● ● 0.00 lambda 0.25 0.30 0.35 48 2 ● 4 ● ● 6 i Figura IV.5: Diagrama de codo, encuesta de presupuestos familiares ● 8 ● TEMA V Análisis de conglomerados V.1. Introducción Al Cesar lo que es del Cesar: este tema está esencialmente inspirado en el capı́tulo correspondiente del excelente libro de Daniel Peña, 2002, Análisis de datos multivariantes, MacGraw Hill. He procedido a una simplificación de su exposición para adaptarla al nivel que pienso adecuado para nuestra asignatura. El objetivo del análisis en conglomerados, o análisis “cluster”, es conseguir agrupar individuos en grupos “similares” acorde a los valores que toman varias variables. Estos métodos tratan tres tipos de problemas: 1. Partición de los datos. Se busca dividir un conjunto de datos en un número G prefijado de grupos de tal manera que a) Los grupos no se solapan. b) Todos los elementos quedan clasificados. c) Los grupos son homogeneos en cuanto a valores de las variables observadas. Un ejemplo consiste en el análisis de las respuestas a una encuesta sobre preferencias televisivas donde se pide que cada encuestado puntue sobre 10 una serie de 30 programas televisivos. Para cada individuo, se dispone de los valores de 30 variables, y se busca clasificar cada individuo en grupos de telespectadores acorde a los valores de estas variables. 2. Construcción de jerarquı́as. Dado un conjunto de datos, se busca construir una jerarquı́a de clasificación, basándose en una medida de distancia o similitud entre individuos, obteniendo una clasificación en grupos - subgrupos - subsubgrupos, etc... Podemos por ejemplo analizar un conjunto de paises según varios indicadores de riqueza. Aparecerán en un primer nivel tres grandes grupos; un grupo 50 Mathieu Kessler: Estadı́stica industrial correspondérá al llamado “Primer mundo” que contendrá en particular Europa, EEUU, Japón y Canada, un segundo grupo contendrá paises en vı́a de desarrollo, mientras que un tercerá contendrá los paises subdesarrollados. En un segundo nivel de jerarquı́a, dentro del primer grupo, distinguiremos subgrupos, en el caso de Europa por ejemplo, estos subgrupos podrı́an corresponder a los paises “de cabeza”, del “pelotón” o de cola... 3. Clasificación de variables. En lugar de clasificar los individuos, buscamos agrupar variables que presenten similitudes, basándose en los valores que toman para un conjunto de individuos, con el objetivo de conseguir una reducción de la dimensión. En las secciones siguientes, trataremos los dos primeros puntos. V.2. Método de partición. El algoritmo de k-medias. V.2.1. Presentación Tenemos un conjunto de n individuos y los valores de k variables X1 , X2 , . . . , Xk para cada individuo; queremos particionar este conjunto en un número G prefijado de grupos. El algoritmo de k-medias es un procedimiento iterativo que parte de una partición inicial y en cada iteración puede cambiar la asignación de un individuo a los grupos para conseguir una “mejor” partición, hasta dar con una partición satisfactoria. El conjunto de datos consiste en n“puntos”del espacio euclideo k-dimensional Rk . A cada individuo asociaremos un “punto” con coordenadas (x1 , x2 , . . . , xk ) que son los valores que toman las variables X1 , X2 , . . . , Xk para este individuo. Procedamos a introducir distintas notaciones asociadas a una partición. Dada una partición en G grupos, denotaremos por n1 , n2 , . . . , nG el número de individuos en el primer grupo, en el segundo,..., en el G-ésimo respectivamente. Tenemos por lo tanto que n1 + · · · + nG = n, donde n es el número total de individuos en el conjunto. Además suponemos que observamos los valores de k variables, X1 , X2 , . . . , Xk . El valor que toma la variable Xj para el individuo número i del grupo g será xijg . La media y la varianza de la variable Xj en el grupo g serán por lo tanto x̄jg = ng 1 X xijg ng i=1 ng s2jg = 1 X (xijg − x̄jg )2 ng − 1 i=1 Definimos el centro del grupo g como el punto de Rk con coordenadas (x̄1g , x̄2g , . . . , x̄kg ), es decir las medias de las variables X1 , X2 , . . . , Xk para este grupo. V.2.2. Criterios para comparar particiones. Para ser capaz de decidir si una partición de un conjunto de individuos es mejor que otra, debemos darnos un criterio para comparar dos particiones. Dada una partición P, buscamos un critero que mida la homogeneidad de los G grupos. Un grupo será homogéneo si la dispersión de las variables X1 , X2 , . . . , Xk V.2 Método de partición. El algoritmo de k-medias. dentro de este grupo será pequeño. Una manera de medir la homogeneidad de la partición se consigue por lo tanto calculando para cada grupo la suma de las varianzas de cada variable y realizar la suma sobre todos los grupos, dando más peso a los grupos más numerosos. Esta cantidad se llama la suma de cuadrados dentro de los grupos asociada a la partición P, y se denota por SCDG(P). Más concretamente SCDG(P) = G X k X s2jg (ng − 1). g=1 j=1 Dadas dos particiones PA y PB , diremos que la partición PA es mejor que la partición PB si SCDG(PA ) ≤ SCDG(PB ), es decir si PA es más homogénea que PB . Este criterio también se llama el criterio de la traza porque la cantidad SCDG(P) se puede escribir como la traza de una matriz. V.2.3. Descripción del algoritmo Al tratarse de un procedimiento iterativo, consta de una etapa inicial, de la iteración, es decir como pasar de la etapa i a la etapa i + 1, y finalmente de un criterio de parada. 1. Etapa inicial. Me doy una partición inicial, P0 . Para ello, tendré que a) elegir G centros para los G grupos iniciales. Puedo hacerlo escogiendolos al azar entre los individuos del conjunto, escoger los puntos más alejados entre sı́, o utilizar algún tipo de información a priori, que me indique donde deberı́an estar estos centros. b) asignar cada individuo del conjunto a un grupo, es decir asociarlo a uno de los G centros escogidos anteriormente. Para ello, asigno cada individuo al grupo cuyo centro está más cercano, en el sentido de la distancia euclı́dea.1 2. Iteración: como pasar de la partición Pi a la partición Pi+1 . Partiendo de la partición Pi , considero el primer individuo y intento moverlo de grupo llamando Q a la nueva partición. Si Q es mejor que Pi (es decir si SCDG(Q) ≤ SCDG(Pi )), hago Pi+1 = Q. En caso contrario, considero el segundo individuo y intento moverlo de grupo, etc... 3. Criterio de parada. Cuando Pi+1 = Pi , es decir, si no consigo mejorar la partición moviendo algún individuo de Pi , el algoritmo se para. V.2.4. Comentarios No se garantiza con este procedimiento que acabemos con la mejor particı́on posible. Notar que un método directo que calcuları́a todas las posibles particiones en G grupos de los n individuos, y se quedarı́a con la particón con menor SCDG, es imposible de llevar a cabo en la práctica, puesto que requerirı́a calcular las SCDG de un número prohibitivo de particiones. 1 Recordar que si X = (x1 , x2 , . . . , xk ) e Y = p (y1 , y2 , . . . , yk ) son dos puntos de Rk , la distancia euclı́dea entre X eY se calcula como d(X, Y ) = (x1 − y1 )2 + · · · + (xk − yk )2 . 51 52 Mathieu Kessler: Estadı́stica industrial El resultado final del algoritmo depende de la partición inicial y del orden de los individuos en la muestra, hay por lo tanto tomar con cautela el resultado proporcionado. V.2.5. Elección del número de grupos El algoritmo que hemos descrito supone que hemos fijado de antemano el número de grupos G que queremos obtener. Sin embargo esta elección no siempre es fácil y varios procedimientos, no siempre bien justificados, han sido propuesto para realizarla. Descrimos ahora uno de estos procedimientos. Supongamos que he ejecutado el algoritmo con G grupos y me pregunto si introduzco otro más, es decir si debo partir el conjunto en G + 1 grupos. LLamemos SCDG(G) y SCDG(G + 1) las sumas de cuadrados finales obtenidas cuando el algoritmo se ejecuta con G grupos y G + 1 grupos respectivamente. Calculamos F = SCDG(G) − SCDG(G + 1) . SCDG(G + 1)/(n − G − 1) Merecerá la pena considerar una partición con G + 1 grupos en lugar de G grupos si se consigue reducir la suma de cuadrados final significativamente. Es decir que, si F es suficientemente grande, consideraré una partición con G + 1 grupos. En caso contrario, me quedaré con la partición con G grupos. Una regla aproximada debida a Hartigan es que si F es mayor de 10, escogeremos una partición con G + 1 grupos. V.2.6. Ejemplos Ver los ejemplos tratados en prácticas. V.3. Métodos jerárquicos V.3.1. Presentación Queremos clasificar en una jerarquı́a los individuos del conjunto. Esta clasificación se hará basándose en los valores de las variables observadas para cada individuo. Recordar que los datos se presentan en la matriz de datos x11 .. X= . xn1 x1k .. , . . . . xnk ... .. . donde cada fila representa un individuo, y en cada columna vienen recogidos los valores de una variable. Asimismo, asociamos a cada individuo un punto en el espacio Rk , cuyas coordenadas son los valores de las variables X1 , . . . , Xk . Los grupos, subgrupos, subsubgrupos que construiremos contendrán individuos cuyos puntos asociados estén cercanos basándonos en una medida de su distancia. V.3 Métodos jerárquicos V.3.2. a). 53 Distancia, similaridad Para variables continuas ( que pueden tomar cualquier valor en un intervalo). Si todas las variables X1 , . . . , Xk son de tipo continuo, utilizamos la distancia euclı́dea para medir lo alejado que están dos puntos. Es decir si a dos individuos se asocian los valores observados (x11 , x12 , . . . , x1k ) y (x21 , x22 , . . . , x2k ) respectivamente, la distancia entre estos dos individuos se calcula como p (x11 − x21 )2 + · · · + (x1k − x2k )2 . (V.1) A menudo, para evitar que, si las variables se miden en escalas muy distintas tengan unos pesos muy distintos en el cálculo de la distancia, se procede primero a estanderizarlas. Definición Si X es una variable en un conjunto de datos, estanderizar X consiste en restarle su media y dividir la variable resultante por su desviación tı́pica, es decir considerar X − x̄ ZX = . sX La variable ZX tiene en el conjunto media 0 y desviación tı́pica 1. Al trabajar con las variables estanderizadas, conseguimos que tengan el mismo orden de magnitud y por lo tanto que ninguna domine de manera clara en la expressión (V.1). b). Similaridad. La distancia euclı́dea es válida para variables continuas pero si algunas de las variables, por ejemplo X1 , son binarias (toman valores 0 ó 1, por ejemplo cómo respuesta a una pregunta en la que hay que contestar por sı́ o no) el término correspondiente tendrá en general menor peso que el de variables continuas aún estanderizadas. Para conseguir una mayor homogeneidad en la importancia de cada vaiable a la hora de medir lo alejados que están dos individuos, se introduce el coeficiente de similaridad. Definición El coeficiente de similaridad entre el individuo i y el individuo h según la variable Xj es una cantidad sjih que cumple i) 0 ≤ sjih ≤ 1. ii) sjii = 1. iii) sjih = sjhi . A partir de los coeficientes de similaridad según cada variable del conjunto podemos construir un coeficiente global de similaridad entre el individuo i y el individuo h, que llamaremos sih , realizando una suma ponderada. Se han propuesta varias medidas de similaridad, cabe destacar para Xj , una variable binaria, sjih = xij xhj + (1 − xij )(1 − xhj ), que toma por lo tanto el valor 0 si Xj toma valores distintos para los dos individuos i y h, y el valor 1 si toma valores idénticos. 54 Mathieu Kessler: Estadı́stica industrial para Xj , una variable continua, sjih = 1 − | xij − xhj | , rango(xj ) donde el rango de xj es la diferencia máxima de dos valores de Xj en el conjunto. c). Matriz de distancias Después de haber calculado todas las distancias o similaridades entre los individuos de un conjunto, podemos representarlas en una matriz n × n, A = (aih )1≤i,h≤n . El elemento aih de esta matriz, llamada matriz de distancias, es la distancia entre el individuo i y el individuo h. Deducimos en particular que es una matriz simétrica, cuyos elementos diagonales son todos nulos. De manera similar podemos construir la matriz de similaridades V.3.3. Métodos aglomerativos Son los que parten de los individuos separados y los van agrupando en distintos niveles: a). Algoritmo Tiene una forma iterativa: 1. Empezamos con tantas clases como individuos. 2. Dada una partición en clases, seleccionamos las dos clases más próximas y formamos una nueva que las contenga como subclases. 3. Paramos cuando todos los elementos estén en una única clase. La figura V.1 ilustra en un ejemplo muy simple los pasos del método aglomerativo: se empieza con tantas clases como individuos (en este caso cuatro), y se van agrupando las dos clases más próximas. La matriz de datos que corresponde a esta figura es 0,30 0,35 X= 0,70 0,80 0,6 0,4 , 0,8 0,5 (V.2) y se deja como ejercicio al lector comprobar que la matriz de distancias asociada (distancia euclı́dea) es 0 0,21 D= 0,45 0,51 0,21 0 0,53 0,46 0,45 0,53 0 0,32 0,51 0,46 . 0,32 0 ● C A ● C A D ● 0.4 0.4 ● ● D B 0.0 0.0 0.2 B 0.2 ● ● 0.6 0.6 ● 0.8 0.8 1.0 55 1.0 V.3 Métodos jerárquicos 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 C A C A ● 0.4 0.4 ● D ● D B 0.0 0.0 0.2 B 0.2 ● ● 0.6 ● 0.8 0.8 0.6 ● ● 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 Figura V.1: Ilustración del método aglomerativo b). 1.0 1.0 0.2 1.0 0.0 Como definir la distancia entre dos clases Para llevar a cabo el algoritmo anterior, necesitamos ser capaces de calcular la distancia entre dos clases con el objetivo de seleccionar las dos más próximas. Vista la manera en la que el algoritmo va formando clases, es suficiente saber calcular la distancia entre una clase formada por dos subclases A y B, que denotaremos por AB y una tercera clase C. Repitiendo el procedimiento podremos calcular la distancia entre dos clases en cualquier nivel del algoritmo. Para ello, se han propuesto varias reglas: Regla del encadenamiento simple, o del vecino más próximo: d(AB, C) = min(d(A, C), d(B, C)). Regla del encadenamiento completo, o del vecino más lejano: d(AB, C) = max(d(A, C), d(B, C)). Las jerarquı́as que resultan de la aplicación de una o otra regla no tienen por que coincidir. 1.0 56 Mathieu Kessler: Estadı́stica industrial c). Cálculo para el ejemplo (V.2) Recordar que la matriz de distancias para este 0 0,21 0,45 0,21 0 0,53 D= 0,45 0,53 0 0,51 0,46 0,32 ejemplo es 0,51 0,46 . 0,32 0 En el método de encadenamiento simple, los pasos que se siguen son: puesto que d(A, B) = 0,21, d(A, C) = 0,45, d(A, D) = 0,51, d(B, C) = 0,53, d(B, D) = 0,46 y d(C, D) = 0,32 , en el primer paso se agrupan A y B en una clase. Las distancias entre las nuevas clases AB, C y D son d(AB, C) = mı́n(d(A, C), d(B, C)) = 0,45, d(AB, D) = mı́n(d(A, D), d(B, D)) = 0,46 y d(C, D) = 0,32. Por lo tanto se agrupan ahora C y D. Tenemos dos clases: AB y CD que se agrupan en una única clase. En el método de encadenamiento completo, en el primer paso se siguen agrupando A y B, ahora las distancias necesarias son d(AB, C) = máx(d(A, C), d(B, C)) = 0,53, d(AB, D) = máx(d(A, D), d(B, D)) = 0,51 y d(C, D) = 0,32. Agrupamos C y D, y obtenemos dos clases AB y CD como en el método anterior. d). Dendograma El dendograma es una manera gráfica de representar los pasos seguidos en el método iterativo: se colocan en un eje Ox los elementos en su orden de aparición en el algoritmo, y en el eje Oy las distancias. Un agrupamiento de dos clases se representa por un segmento horizontal a la altura correspondiente a la distancia entre estas dos clases. La figura V.2 recoge el dendograma correspondiente al ejemplo (V.2). 0.35 B A Figura V.2: Dendograma para el ejemplo (V.2) D C 0.30 0.25 0.20 distancia 0.40 0.45 0.50 Dendograma TEMA VI Análisis factorial VI.1. Introducción El análisis factorial está asociado con un modelo matemático que pretende explicar las correlaciones en un grupo grande de variables en clave de un número pequeño de factores subyacentes, también llamados variables latentes, que no podemos observar. Frente a las asociaciones que observamos entre distintas variables, buscamos variables aleatorias “ocultas”- factores - comunes a las variables observadas, que son la causa de los patrones de evolución conjunta de éstas. Consideremos por ejemplo, para distintas ciudades de España, el número de iglesias X ası́ como el número de delitos registrados Y . Si representamos la nube de puntos, nos saldrı́a una relación lineal, con un coeficiente de correlación próximo a uno. Es decir que ¡el número de delitos perpetrados en una ciudad está altamente correlado con el número de iglesias en esta ciudad! Dicho de otra manera, ¡cuantas más iglesias en una ciudad, más delitos se cometen! ¿Sorprendente? En realidad, en cuanto pensamos un poco, nos damos cuenta de que no es nada sorprendente: hay un factor oculto, que no hemos mencionado, y que explica la asociación positiva entre X e Y , se trata sencillamente del número de habitantes, f . En efecto podemos esperar que tanto el número de iglesias como el número de delitos cometidos en una ciudad sean proporcionales al número de habitantes: la asociación positiva fuerte que observamos entre X e Y se explica porque ambas dependen linealmente de una tercera variable f . Un ejemplo clásico del análisis factorial corresponde al trabajo pionero de Spearman que estudió a principios del siglo XX las puntuaciones X1 , X2 , y X3 , obtenidas por un grupo de niños en tres examenes de historia, francés, e inglés, respectivamente. La matriz de correlaciones que Spearman obtuvo fue 1 0,83 0,78 . 1 0,67 . . 1 58 Mathieu Kessler: Estadı́stica industrial evidenciando fuertes asociaciones entre las puntuaciones obtenidas en las tres materias. Spearman buscó un factor oculto f que explicara estas asociaciones y que se interpretara como la habilidad global del alumno, tentadoramente llamado también la “inteligencia” del alumno. Las relaciones entre X1 , X2 , X3 y este factor f serı́an: X1 = a1 f + ε1 X2 = a2 f + ε2 X3 = a3 f + ε3 , donde ε1 , ε2 , y ε3 representan perturbaciones aleatorias de las relaciones lineales. Estos métodos tuvieron de hecho su origen en psicometrı́a, es decir el análisis de datos aplicados a la psicologı́a, pero se aplicaron posteriormente con mucho éxito a otras ciencias. VI.2. El modelo VI.2.1. Primera formulación Observamos para muchos individuos el valor de una variable k-dimensional X = (X1 , X2 , . . . , Xk )0 . Existen m factores aleatorios (variables latentes) comunes f1 , f2 , . . . , fk , tal que cada Xi está asociado con los m factores ocultos a través de una regresión lineal múltiple: X1 = a11 f1 + a12 f2 + · · · + a1m fm + ε1 X2 = a21 f1 + a22 f2 + · · · + a2m fm + ε2 .. .. . . Xk = ak1 f1 + ak2 f2 + · · · + akm fm + εk 2 , . . . , σ 2 las varianzas de X , . . . , X respectivamente. A parte Denotamos por σ11 1 k kk de los factores, los otros ingredientes del modelo son los coeficientes aij , i = 1, . . . , k, j = 1, . . . m que recogemos en una matriz A = (aij ) de dimensiones k × m, que llamamos la matriz de cargas factoriales. Las perturbaciones ε1 , . . . , εk , que son variables aleatorias que suponemos independientes, centradas E[εi ] = 0, i = 1, . . . k, y de varianza V ar(εi ) = ψi2 i = 1, . . . k. Introduciendo los vectores X1 . ~ = X .. , Xk f1 f~ = ... , fm ε1 ~ε = ... , εk podemos formular las ecuaciones del modelo en forma compacta: ~ = Af~ + ~ε. X (VI.1) ~ para n individuos, buscaremos, en el marco de una Dados los valores de X representación de la forma (VI.1), estimar las cargas factoriales A, con el fin de identificar e interpretar los factores. VI.2 El modelo VI.2.2. 59 No unicidad de los factores Consideremos la ecuación (VI.1), y sea H una matriz invertible m × m, podemos escribir ~ = AH H −1 f~ + ~ε. X (VI.2) Llamando à = AH y ~g 0 = H −1 f~, hemos obtenido una nueva descomposición ~ = Ã~g + ~ε, X con una nueva matriz de cargas, y unos nuevos factores ~g . Es decir que, en cuanto existe una descomposición en factores del tipo (VI.1), existe una infinidad de otras descomposiciones de este tipo. El modelo (VI.1) tal como lo hemos introducido no proporciona una descripción única de las variables observadas en términos de un número m de factores. Debemos restringir los modelos que consideramos para obtener una descomposición única. VI.2.3. Hacia el modelo definitivo En nuestra formulación general del modelo a través de la relación (VI.1), no hemos hecho ninguna hipótesis sobre los factores que buscamos identificar, y ésta es precisamente la causa de la no unicidad del modelo. Una primera restricción muy razonable consiste en buscar una descomposición en la que los factores sean incorrelados: no hay que olvidar que pretendemos explicar las asociaciones entre variables en términos de un cierto número de factores; dejar que estos factores sean correlados no ayudarı́a a la interpretación, y serı́a como quedarse a medio camino de la explicación de la estructura de correlación... Podemos además suponer que las varianzas de los factores son iguales a 1, puesto que sólo cambia el valor de las cargas factoriales. Consideramos por lo tanto el modelo ~ = Af~ + ~ε, X con f1 , . . . , fk , incorrelados y de varianza unidad. (VI.3) Una primera consecuencia importante de esta restricción adicional es la relación σii2 = n X a2ij + ψi2 , i = 1, . . . , k, (VI.4) j=1 donde recordamos que, para i = 1, . . . , k, σii2 es la varianza de Xi . La varianza individual de la variable Xi se puede por lo tanto descomponer en dos partes: P la comunalidad hi = nj=1 a2ij , que corresponde a la parte de σii2 explicada por los factores. la especificidad ψi2 , parte de σii2 especı́fica de la variable Xi . Imponiendo la restrición de incorrelación de los factores, hemos reducido las posibles descomposiciones (VI.3), sin embargo todavı́a no hemos conseguido la unicidad de la descomposición. En efecto, si G es una matriz m × m ortogonal, es decir que cumple G0 G = Id, podemos escribir, a partir de cualquier descomposición del tipo (VI.3), ~ = AG G0 f~ + ~ε, X 60 Mathieu Kessler: Estadı́stica industrial obteniendo una descomposición nueva, con à = AG y ~g = G0 f~. Si G es ortogonal, y los factores f~ son incorrelados y de varianza 1, podemos demostrar que los nuevos factores G0 f~ son también incorrelados y de varianza unidad. La nueva descomposición es por lo tanto también del tipo (VI.3). En conclusión una restricción adicional es necesaria para conseguir una descomposición única. Varias posibilidades existen, veremos la que lleva a una simplificación en la obtención de estimadores de las cargas factoriales. Supondremos que la matriz de cargas factoriales A es tal que sus vectores columnas son ortogonales, es decir que la matriz m × m A0 A es diagonal. El tipo definitivo de descomposición que consideraremos es por lo tanto Tipo definitivo de descomposición: ~ = Af~ + ~ε, X (VI.5) donde los factores f1 , . . . , fk son incorrelados y de varianza unidad, y además los vectores columnas de la matriz de cargas factoriales son ortogonales, es decir A0 A es diagonal ~ admite una descomposición de este tipo, ésta es única. Si X VI.3. Estimación de las cargas factoriales VI.3.1. Método del factor principal Deducimos de la ecuación (VI.5) algo más que la descomposición (VI.4) de cada varianza individual en comunalidad y especificidad, deducimos que la matriz de ~ satisface covarianzas Σ del vector X 2 ψ1 0 .. Σ = AA0 + (VI.6) . . ψk2 0 ~ = (X1 , . . . , Xk )0 Disponemos ahora de la observación de los valores que toma el vector X para n individuos y buscamos estimar los coefficientes de la matriz A. Calculamos a partir de estos datos la matriz de covarianzas de las variables X1 , . . . , Xk , que llamamos S. Esta matriz satisfacerá aproximadamente la relación (VI.6) puesto que estima Σ. Por lo tanto, si disponemos de estimadores ψ̂12 , . . . , ψ̂k2 de las especificidades ψ12 , . . . , ψk2 con los cuales formamos la matriz diagonal 2 ψ̂1 0 .. ψ̂ = , . 0 ψ̂k2 se cumplirá S − ψ̂ ' AA0 , (VI.7) sabiendo además que la matriz k×m A es tal que A0 A es diagonal. El método del factor principal resuelve este sistema de ecuaciones con incognitas aij , i = 1, . . . , k, j = 1 . . . , m. Una solución explı́cita de este sistema se puede obtener utilizando los valores propios y los vectores propios de la matriz simétrica S − ψ̂. Concretamente, sean VI.4 Rotación de los factores 61 λ1 ≥ λ2 ≥ · · · λk los valores propios de S − ψ̂ clasificados por orden decreciente de magnitud, formamos la matriz diagonal con los m valores propios más grandes λ1 0 .. D̂1 = , . 0 λm y sea G1 la matriz k × m cuyas columnas están formadas por los vectores propios asociados a λ1 , . . . , λm . La matriz 1/2  = G1 D1 , (VI.8) cumple que S − ψ̂ ' ÂÂ0 . Para llevar a cabo el cálculo de Â, necesitamos una estimación preliminar ψ̂ de las especifidades. Una primera opción consiste sencillamente en considerar ψ̂i = 0, para todo i = 1, . . . , k. En este caso, los valores propios y los vectores propios requeridos para el cálculo de  en (VI.8) son los de la matriz S, es decir los mismos que se utilizan para el cálculo de los componentes principales. En SPSS esta opción corresponde a escoger como método de extracción “Componentes principales”. Una segunda opción consiste en especificar un estimador ψ̂i2 de la especificidad ψi a partir de un estimador ĥi de la comunalidad hi utilizando la relación s2ii = ĥi + ψ̂i2 , que aproxima (VI.4). En particular una opción de las más utilizadas consiste en escoger ĥi = s2ii Ri2 , donde Ri2 es el coeficiente de determinación múltiple correspondiente a la regresión de la variable Xi sobre todas las demás variables. En SPSS esta opción corresponde a escoger como método de extracción “Ejes principales”. VI.4. Rotación de los factores No olvidemos que uno de los principales objetivos del análisis factorial es conseguir identificar los factores que subyacen y originan la variación común de las variables observadas. Sin embargo la interpretación de los factores es precisamente la tarea más delicada del análisis. Para conseguir una descripción única, hemos realizado dos restricciones adicionales al modelo (VI.1), la primera - suponer los factores incorrelados y de varianza unidad- es natural en cuanto a interpretación. En cambio, la segunda, que consiste en imponer que la matriz A0 A sea diagonal, está principalmente destinada a simplificar la estimación de A, ver sección anterior, y no tiene una justificación muy fundamentada para la interpretación. De hecho, los factores identificados correspondientes al modelo definitivo no tienen una interpretación fácil en general. Para paliar esta dificultad, se suelen “rotar” los factores obtenidos en la sección anterior: se considera una matriz ortogonal G y se calcula la matriz de cargas correspondiente a la nueva 62 Mathieu Kessler: Estadı́stica industrial ~ = AGG0 f~ + ~ε, los factores rotados son G0 f~ y la nueva matriz de descomposición X cargas factoriales AG. Muchas rotaciones especı́ficas fueron propuestas, cada una corresponde a una elección particular de la matriz de rotación G. Una de las más populares es la rotación Varimax, que persigue que cada factor esté asociado con unas pocas variables, y que no tenga apenas influencia en las demás, con la esperanza de que aparezca ası́ una interpretación más clara. Más concretamente, la rotación Varimax busca factores con unas pocas cargas factoriales fuertes y las demás casi nulas. Para ello, maximiza la varianza de las cargas de cada columna. TEMA VII Introducción a las series temporales VII.1. Introducción Empezamos con este tema el estudio de las series temporales: una serie temporal o serie cronológica está formada por la observación del valor de una variable en distintos intantes de tiempo. Los ejemplos abundan, estudiaremos por ejemplo en prácticas las series siguientes Evolución de la temperatura media mensual en San Javier desde 1981. Evolución de la tasa de paro por trimestres en España desde el tercer trimestre 1976. Producción diaria de una empresa. Demanda mensual de energı́a eléctrica en España desde 1998 hasta 2002, Sea Y la cantidad de interés, observamos los valores Y1 , Y2 , . . . , Yt , donde t representa el indice de tiempo. Al estudiar una serie temporal, podremos estar interesados en dos aspectos: 1. La comprensión del fenómeno que describe, buscando contestar por ejemplo a las preguntas siguientes ¿aparece un patrón de evolución?¿una tendencia global?, ¿una periodicidad?, ¿una ruptura de tendencia? 2. La predicción de valores futuros. Se trata a lo mejor del aspecto más deseado: basándonos en la serie de datos observados Y1 , Y2 , . . . , Yt , ¿podemos predecir el valor de Yt+1 ?, ¿y los de Yt+2 , Yt+3 o en general Yt+m ? Este tema presenta los términos, conceptos y herramientas básicas asociadas a series temporales. En el tema siguiente veremos como abordar el punto 1) arriba mencionado, es decir detectar tendencias, periodicidad etc..., mientras que el tercer y último tema de este bloque estará dedicado a la predicción. 64 Mathieu Kessler: Estadı́stica industrial VII.2. Primer paso: exploración gráfica Al igual que en todos los procedimientos vistos hasta ahora, el primer paso fundamental consiste en realizar gráficas de la serie temporal. Una primera gráfica asociada a una serie temporal consiste por supuesto en representar Yt en función de t, lo que permite en una primera exploración detectar datos atı́picos, la presencia de una tendencia o el carácter periódico del fenómeno que estudiamos. En la figura VII.1, se ha representado la serie temporal de las temperaturas mensuales medias en San Javier desde enero de 1981 (fuente: http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro). Una periodicidad clara aparece, y por otra parte serı́a interesante conseguir decidir si existe o no una tendencia al alza, ¿se comprueba con estos datos el calentamiento global? 20 10 15 Temperatura 25 Temperaturas mensuales medias en San Javier, 1991−1990 1982 1984 1986 1988 1990 t Figura VII.1: Evolución de las temperaturas mensuales medias en San Javier En el caso en una periodicidad natural es evidente, también es útil realizar una gráfica estacional: en una misma gráfica representamos todos los periodos presentes en la serie. En el caso de las temperaturas mensuales medias en San Javier por ejemplo, la periodicidad natural es 12 (cada 12 meses el comportamiento de la temperatura es parecido), representamos en una misma gráfica las series anuales de 12 temperaturas, ver figura (VII.2). La forma muy parecida que tienen las series de VII.3 Descomposición en patrones de una serie temporal 65 temperaturas mensuales para los distintos años confirma la periodicidad de 12. 20 5 10 15 Temperatura 25 30 Temperaturas mensuales medias en San Javier, 1991−1990 2 4 6 8 10 12 mes Figura VII.2: Gráfica estacional para las temperaturas mensuales medias en San Javier VII.3. Descomposición en patrones de una serie temporal VII.3.1. Presentación Al examinar la gráfica cronológica, cuatro tipo de patrones pueden aparecer 1. H: un patrón horizontal: los datos fluctuan alrededor de una media constante. 2. S: un patrón estacional: el comportamiento de la variable está influida por periodos como estaciones, dı́as, trimestres, años, etc... Vimos un ejemplo de este tipo de patrón en la serie de las temperaturas mensuales en San Javier. 3. C: Un patrón cı́clico: hablamos de patrón cı́clico cuando los datos presentan subidas y bajadas que no son de duración fija. Aparecen en series de datos 66 Mathieu Kessler: Estadı́stica industrial económicos por ejemplo con periodos de recesión o de bonanza, o en series de datos climáticos con ciclos de sequı́a. 4. T : una tendencia: cuando hay un incremento o decrecimiento a largo plazo en los datos. Los datos de temperatura en San Javier ¿presentan por ejemplo una tendencia creciente? Muchas de las series temporales incluyen en realidad combinaciones de los distintos patrones. VII.3.2. El modelo La descomposición supone que los datos que observamos están formados de la siguiente manera datos = patrones + errores = f (tendencia − ciclo, estacin, error) A parte de los patrones se incluye en la descomposición un término de error, también llamado componente irregular. Un método de descomposición busca identificar el patrón de tendencia-ciclo, ası́ como el patrón estacional. La parte no explicada por estos dos patrones se denomina el residuo y se asume ruido. Su predicción es por lo tanto imposible. La formulación matemática es Yt = f (Tt , St , Et ), (VII.1) donde Tt : St : Et : componente de tendencia-ciclo. componente estacional componente irregular - error. Dados los datos Y1 , Y1 , . . . , YT , buscaremos por lo tanto estimar T1 , T2 , . . . , TT y S1 , S2 , . . . , ST , es decir los componentes de tendencia-ciclo y estacional en cada instante. La relación funcional f depende del contexto. Mencionaremos dos tipos 1. Modelo aditivo Yt = Tt + St + Et . 2. Modelo multiplicativo Yt = Tt × St + Et . Un modelo aditivo es adecuado cuando la variación del componente estacional es más o menos constante y no depende del nivel de la serie. En cambio para datos donde el efecto de la estacı́on aumenta a medida que aumenta la serie (podemos pensar en series de precios por ejemplo, en las que el componente estacional se expresa como un porcentaje del precio), se suele utilizar un modelo multiplicativo. Aplicaremos un método de descomposición a la serie de datos correspondientes a la demanda mensual en energı́a eléctrica en España desde 1998 hasta 2002 (fuente VII.4 Autocorrelación 67 Demanda de energa elØctrica, 1998−2002 19000 ● ● ● 18000 ● ● ● ● ● ● 17000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16000 demanda ● ● ● ● ● ● ● ● ● ● ● ● ● 15000 ● ● ● ● ● ● ● ● ● ● ● 14000 ● ● ● ● ● ● 1 ● ● 2 3 4 5 6 tiempo Figura VII.3: Demanda mensual de energı́a eléctrica en España, 1998-2002. Red Eléctrica Española, www.ree.es). La gráfica cronológica aparece en la figura VII.3. La periodicidad de 12 es clara. Después de haber conseguido una descomposición - veremos métodos para hacerlo en el tema siguiente - representaremos los distintos componentes en gráficas apiladas. La figura VII.4 presenta el resultado de la descomposición para los datos de demanda en energı́a eléctrica, suponiendo un modelo aditivo. VII.4. Autocorrelación Dada una serie temporal podemos preguntarnos si el valor de la variable Y en eun instante tiene mucha influencia sobre su valor, por ejemplo, 10 instantes de tiempo más tarde, es decir, si el fenómeno que estudiamos tiene memoria larga o memoria corta (va olvidando pronto los valores que toma). Para contestar a este tipo de preguntas que sin duda son de importancia en particular para realizar predicciones, calculamos las autocorrelaciones, que nos permitirán deducir información sobre la estructura de dependencia temporal que presenta el fenómeno. Vimos en el tema de regresión como la covarianza y la correlación son cantidades que miden el grado de asociación lineal entre dos variables. La autocorrelación de orden 1 es la correlación de la serie de valores Y1 , Y2 , . . . , YT con los mismos datos translatados de un instante de tiempo, es decir con la serie Y2 , Y3 , . . . , YT . La tabla siguiente presenta los primeros datos de las temperaturas en San Javier, ası́ como las series formadas al realizar traslaciones de una, dos etc... unidades de tiempo. 68 Mathieu Kessler: Estadı́stica industrial 1500 Descomposicin de la demanda ● 1000 ● ● ● ● ● ● ● ● ● ● ● ● St 500 ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● −500 ● ● ● ● ● 17000 −1000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 16000 Tt 15000 40014000 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 200 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 ● ● ● ● ● ● ● ● ● ● ● −200 residuos ● ● ● ● ● ● ● ● ● ● ● −400 ● ● ● ● 0 10 20 30 40 50 Time Figura VII.4: Descomposición para la demanda mensual de energı́a eléctrica en España, 1998-2002 Y• 10.3 10.8 15.8 18 21.8 22.6 23.6 Y•+1 10.8 15.8 18 21.8 22.6 23.6 22.5 22.5 19.3 .. . .. . 19.3 .. . Y•+2 15.8 18 21.8 22.6 23.6 22.5 19.3 .. . .. . .. . ... ... ... ... ... ... ... ... ... ... ... Si observamos la serie Y1 , . . . , YT , la serie trasladada de una unidad de tiempo es Y2 , . . . , YT y contiene una observación menos. La autocovarianza c1 y la autocorrelación r1 de orden 1 se calculan como la covarianza y la correlación respectivamente de los valores Y1 , Y2 , . . . , YT −1 con los valores Y2 , Y3 , . . . , YT , es decir de las dos primeras columnas de la tabla. Se calculan 60 VII.4 Autocorrelación 69 con T − 1 valores. La autocovarianza c2 y la autocorrelación r2 de orden 2 se calculan como la covarianza y la correlación respectivamente de los valores Y1 , Y2 , . . . , YT −2 con los valores Y3 , Y4 , . . . , YT . Se calculan con T − 2 valores. En general, definimos la autocovarianza ck y la autocorrelación rk de orden k como la covarianza y la correlación de la serie con la misma serie trasladada de k unidades de tiempo. En el ejemplo de las temperaturas de San Javier, obtenemos r1 = 0,82, r2 = 0,463, r3 = 0,003, r4 = −0,44, etc... Se presentan los valores de las autocorrelaciones en una gráfica, en la que en el eje Ox aparecen k el número de unidades de la traslación y en el eje Oy el valor de rk . En la figura VII.5 aparece el autocorrelograma correspondiente a las series de temperaturas en San Javier. Detectamos en este autocorrelograma el patrón de es- 0.0 −0.5 ACF 0.5 1.0 Autocorrelacion, temperaturas en San Javier 0 5 10 15 20 Lag Figura VII.5: Autocorrelograma para las temperaturas medias mensuales en San Javier, 1981-1990 tacionalidad: los datos presentan una periodicidad de 12. La temperatura en un mes está muy poco asociada con la temperatura tres meses más tarde. 70 Mathieu Kessler: Estadı́stica industrial El autocorrelograma permite saber si el proceso es de tipo memoria larga o memoria corta y en particular nos da indicios sobre nuestra capacidad predictiva. TEMA VIII Descomposición de una serie temporal Nuestro objetivo en este tema es, basándose en los datos Y1 , . . . , YT de una serie temporal, identificar y aislar los componentes Tt , St y Et que la constituyen. VIII.1. Filtrado Consideramos dos señales (Yt )t≥1 y (Xt )t≥1 relacionadas por Yt = Xt + Et , para todo t, donde Et representa un error aleatorio, (ruido, perturbación). ¿Cómo, observando Y1 , . . . , YN , reconstruir los valores X1 , . . . , XN ? Es decir, ¿cómo filtrar las observaciones Y1 , . . . , YN y eliminar el ruido E? Una primera idea sencilla consiste en promediar la señal observada por bloques de k observaciones consecutivas. Pongamos k = 3 por ejemplo, construimos una nueva señal (Ȳt,3 , t = 2, . . . , N − 1) como t 1 2 3 4 .. . Señal Y1 Y2 Y3 Y4 .. . Señal promediada . Ȳ2,3 = Y1 +Y32 +Y3 Ȳ3,3 = Y2 +Y33 +Y4 Ȳ4,3 = Y3 +Y34 +Y5 .. . N −1 N YN −1 YN ȲN −1,3 = . YN −2 +YN −1 +YN 3 Al promediar tres observaciones consecutivas, perdemos dos observaciones, la primera y la última. 72 Mathieu Kessler: Estadı́stica industrial ¿Cuál es el efecto de promediar la señal? Puesto que Yt = Xt + Et , obtenemos que Ȳt,3 = Yt−1 + Yt + Yt+1 3 Xt−1 + Xt + Xt+1 Et−1 + Et + Et+1 + . 3 3 = X̄t,3 + Ēt,3 = Hemos obtenido una nueva señal Ȳt,3 , t = 2, . . . , N − 1 que es la suma de la señal X promediada y de un nuevo término de error Ēt,3 . a) Consideremos primero el nuevo término de error, Ēt,3 = Et−1 +E3t +Et+1 , para t = 2, . . . , N − 1. Al promediar tres errores, se obtiene un error de menor magnitud, recordar de hecho que, si ε1 , ε2 y ε3 son tres variables independientes 2 con la misma varianza σ 2 , tenemos V ar( ε1 +ε32 +ε3 ) = σ3 , es decir que la dis√ persión del promedio de tres errores de misma dispersión es 3 más pequeña que la dispersión de cada uno. El término de error correspondiente a la señal promediada será por lo tanto en general de menor magnitud que el error de la señal original. b) Consideremos ahora el término X̄t,3 . Supongamos para empezar que X es una señal lineal, es decir que Xt = at + b. En este caso, Xt−1 + Xt + Xt+1 3 = = a(t − 1) + b + at + b + a(t + 1) + b 3 3at + 3b = Xt 3 Por lo tanto, si X es una señal lineal, deducimos que Ȳt,3 = Xt + Ēt,3 , siendo el nuevo error de menor magnitud que para la señal original: el proceso de medias móviles de orden 3 Ȳ•,3 es una aproximación - estimación de la señal X• . En el caso en que la señal X no es lineal pero presenta una evolución suave, sin cambios bruscos, tres observaciones consecutivas presentarán aproximadamente una relación lineal, aunque X no sea globalmente lineal y X̄•,3 será una buena aproximación de X• , lo que implica que Ȳ•,3 también. Podrı́amos hacerlo con más de tres observaciones: k−1 Definición. Sea k un número impar, el proceso Ȳt,k , t = k−1 2 ,...,N − 2 se llama el proceso de medias móviles de orden k. Este proceso representa un suavizado del proceso Yt , t = 1, . . . , N . Cuanto mayor sea k, más suave será la aproximación, tal como está ilustrado en la figura VIII.1. VIII.2. Medias móviles y componente estacional Supongamos ahora que Xt esté constituida por una tendencia-ciclo y un componente estacional de periodo p, X t = T t + St . VIII.2 Medias móviles y componente estacional 73 Medias mobiles, k= 3 ● ● ● ● 5 ● 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 t Medias mobiles, k= 7 ● ● ● ● 5 ● ● 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● ● 2 4 6 8 10 t Medias mobiles, k= 15 ● ● ● ● 5 ● ● 0 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● −5 ● ● ● ● ● ● ● ● ● ● ● 2 4 6 ● 8 t Figura VIII.1: Influencia de k sobre el suavizado a través del proceso de medias móviles LLamamos S̄p el promedio de los efectos del componente estacional en un periodo: S̄p = S1 + S2 + · · · + Sp . p Podemos escribir Xt = (Tt + S̄p ) + (St − S̄p ) = Tt0 + St0 , donde Tt0 = Tt + S̄p es un nuevo componente de tendencia-ciclo y St0 = St − S̄p es un nuevo componente estacional ahora de media cero. Es decir, que partiendo de una descomposición Xt = Tt + St , siempre podemos reescribirla de tal manera que el componente estacional tenga media cero en un periodo. A partir de ahora, cuando escribamos Xt = Tt + St , siempre consideraremos que St es de promedio nulo sobre un periodo. Para fijar ideas, supongamos por ejemplo que el periodo es p = 3, ¿cuál es el 10 74 Mathieu Kessler: Estadı́stica industrial efecto de considerar el proceso de medias móviles? Ȳt,3 = X̄t,3 + S̄t,3 = T̄t,3 + S̄t,3 + Ēt,3 . Pero al ser S periódica de periodo 3, tenemos que S̄t,3 = S1 + S2 + S3 St−1 + St + St+1 = = 0. 3 3 por lo tanto, si el componente de tendencia-ciclo es de evolución suave (ver sección anterior), y aunque haya una componente estacional el proceso de medias móviles Ȳ•,3 aproxima T• . Por lo tanto, cuando estemos en presencia de una señal que presenta una componente estacional de periodo p impar, calcularemos el proceso de medias móviles de orden p, Ȳ•,p , para aproximar la tendencia-ciclo. Sin embargo, muchas de las series temporales están formadas por datos trimestrales, donde el periodo natural es 4, o datos mensuales donde el periodo p es 12. ¿Cómo en este caso, calcular el proceso de medias móviles de orden p puesto que p es par? Supongamos por ejemplo que estamos estudiando datos trimestrales, queremos calcular las medias móviles de orden 4. Para el instante 3, ¿qué medias calculamos? 4 +Y5 3 +Y4 ó Ȳ2:5 = Y2 +Y3 +Y , pero ninguno de estos Podemos calcular Ȳ1:4 = Y1 +Y2 +Y 4 4 dos promedios está centrado en el instante 3: el primero da más peso a las observaciones anteriores a t = 3, mientras que el segundo más peso a las observaciones posteriores. Una manera de recuperar la simetrı́a es volver a calcular la media de estos dos promedios. Para el instante t = 3, el promedio final será por lo tanto Ȳ1:4 + Ȳ2:5 Y1 + 2Y2 + 2Y3 + 3Y4 + Y5 = . 2 8 Se trata de una media móvil con una ventana de anchura 5 (el número de observaciones que intervienen en el cálculo) y con pesos ( 18 , 82 , 82 , 28 , 81 ). En general si p es par, el proceso de medias móviles de orden p se calcula como Yt−p/2 + 2Yt−p/2+1 + · · · + 2Yt+p/2−1 + Yt+p/2 , y se denota por 2 × p M A(Y ). En la figura VIII.2 se presenta el resultado de calcular para varios valores de k el proceso de medias móviles asociado a la serie de temperaturas en San Javier (ver tema 7). Cuando estamos próximos a la periodicidad de la serie, el proceso de medias móviles estima la tendencia de la serie. VIII.3. Procedimiento para la descomposición clásica Si la periodicidad natural es p, y Yt = Tt + St + Et . VIII.3 Procedimiento para la descomposición clásica 75 Medias mobiles, k= 3 25 ● ● ● ●●● ● ● ● ● 15 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● 10 ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● 20 ● ysj ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● 1982 1984 1986 1988 1990 xmes Medias mobiles, k= 7 25 ● ● ● ● ● ●●● ● ● ● ● 15 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● 10 ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● 20 ● ysj ● ●● ● ●● ●● ● ●● ● ● ● ● 1982 1984 1986 1988 1990 xmes Medias mobiles, k= 13 25 ● 20 ● ● ● ● ●●● ● ● ● ● 10 ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1982 ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● 15 ysj ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● 1984 1986 1988 1990 xmes Figura VIII.2: Suavizado de la serie de temperaturas en San Javier para varios valores de k Calculamos el proceso de medias móviles de orden p, obteniendo ası́ una aproximación T̂t de Tt . Restamos T̂t a Yt para obtener una estimación de St + Et . Calculamos los p valores de la componente estacional calculando el promedio de los datos separados de p instantes de tiempo: Ŝ1 = promedio(S1 , S1+p , S1+2p , . . .) Ŝ2 = promedio(S2 , S2+p , S2+2p , . . .) .. .. . . Obtenemos el componente irregular como Êt = Yt − Ŝt − T̂t . Muchos otros métodos de descomposición de una serie temporal han sido desarrollados.