Apuntes de Estad´ıstica Industrial

Anuncio
Apuntes de Estadı́stica Industrial
Mathieu Kessler
Departamento de Matemática Aplicada y Estadı́stica
Universidad Politécnica de Cartagena
[email protected]
Ésta es una versión preliminar, comentarios bienvenidos, 2003
Todos los gráficos de estos apuntes han sido realizados con el programa
estadı́stico freeware R, (http://cran.r-project.org)
Índice general
I. Exploración de datos
I.1. Introducción . . . . . . . . . . . . .
I.2. Estudio de una variable . . . . . . .
I.2.1. Unos cuantos términos . . . .
I.2.2. Tabulación y representaciones
I.2.3. Medidas numéricas . . . . . .
I.3. Extensión al experimento aleatorio .
I.3.1. Introducción . . . . . . . . .
I.3.2. Medidas numéricas asociadas
I.3.3. Modelos más utilizados . . .
. . . . .
. . . . .
. . . . .
gráficas
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
1
2
4
7
7
9
9
II. Distribuciones muestrales - contrastes de hipótesis
II.1. Distribuciones muestrales . . . . . . . . . . . . . . .
II.2. Contrastes de hipótesis . . . . . . . . . . . . . . . . .
II.2.1. Ejemplo ilustrativo . . . . . . . . . . . . . . .
II.2.2. Procedimiento global . . . . . . . . . . . . . .
II.2.3. Los contrastes más utilizados . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
13
13
17
17
18
19
III.Regresión lineal
III.1. Introducción . . . . . . . . . . . . . . . . . . . .
III.2. Criterio de mı́nimos cuadrados . . . . . . . . . .
III.3. Regresión lineal . . . . . . . . . . . . . . . . . . .
III.3.1. Regresión lineal simple . . . . . . . . . . .
III.3.2. Regresión lineal múltiple . . . . . . . . . .
III.4. Inferencia para la regresión . . . . . . . . . . . .
III.4.1. Introducción . . . . . . . . . . . . . . . .
III.4.2. Algunas distribuciones muestrales . . . .
III.4.3. Contrates de significación . . . . . . . . .
III.4.4. Ejemplo . . . . . . . . . . . . . . . . . . .
III.4.5. Introducción a la construcción de modelos
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
23
25
25
28
31
31
32
33
33
34
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ÍNDICE GENERAL
iv
IV.Análisis en componentes principales
IV.1. Introducción . . . . . . . . . . . . . . . . . . . .
IV.1.1. Presentación . . . . . . . . . . . . . . . .
IV.1.2. Planteamiento para dos variables . . . . .
IV.2. Planteamiento general . . . . . . . . . . . . . . .
IV.2.1. Preliminares . . . . . . . . . . . . . . . .
IV.2.2. Análisis en componentes principales . . .
IV.3. Propiedades . . . . . . . . . . . . . . . . . . . . .
IV.4. Ejemplos . . . . . . . . . . . . . . . . . . . . . .
IV.4.1. Notas de examenes . . . . . . . . . . . . .
IV.4.2. Encuesta de presupuestos familiares . . .
IV.5. Criterio de selección del número de componentes
IV.5.1. Diagrama de codo . . . . . . . . . . . . .
IV.5.2. Proporción de variabilidad explicada . . .
V. Análisis de conglomerados
V.1. Introducción . . . . . . . . . . . . . . . . . . .
V.2. Método de partición. El algoritmo de k-medias.
V.2.1. Presentación . . . . . . . . . . . . . . .
V.2.2. Criterios para comparar particiones. . .
V.2.3. Descripción del algoritmo . . . . . . . .
V.2.4. Comentarios . . . . . . . . . . . . . . .
V.2.5. Elección del número de grupos . . . . .
V.2.6. Ejemplos . . . . . . . . . . . . . . . . .
V.3. Métodos jerárquicos . . . . . . . . . . . . . . .
V.3.1. Presentación . . . . . . . . . . . . . . .
V.3.2. Distancia, similaridad . . . . . . . . . .
V.3.3. Métodos aglomerativos . . . . . . . . . .
VI.Análisis factorial
VI.1. Introducción . . . . . . . . . . . .
VI.2. El modelo . . . . . . . . . . . . . .
VI.2.1. Primera formulación . . . .
VI.2.2. No unicidad de los factores
VI.2.3. Hacia el modelo definitivo .
VI.3. Estimación de las cargas factoriales
VI.3.1. Método del factor principal
VI.4. Rotación de los factores . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
VII.
Introducción a las series temporales
VII.1.Introducción . . . . . . . . . . . . . . .
VII.2.Primer paso: exploración gráfica . . . .
VII.3.Descomposición en patrones de una serie
VII.3.1.Presentación . . . . . . . . . . .
VII.3.2.El modelo . . . . . . . . . . . . .
VII.4.Autocorrelación . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . .
. . . . . .
temporal
. . . . . .
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
37
38
40
40
42
43
43
43
44
45
45
45
.
.
.
.
.
.
.
.
.
.
.
.
49
49
50
50
50
51
52
52
52
52
52
53
54
.
.
.
.
.
.
.
.
57
57
58
58
59
59
60
60
61
.
.
.
.
.
.
63
63
64
65
65
66
67
ÍNDICE GENERAL
VIII.
Descomposición de una serie temporal
VIII.1.
Filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VIII.2.
Medias móviles y componente estacional . . . . . . . . . . . . . . . .
VIII.3.
Procedimiento para la descomposición clásica . . . . . . . . . . . . .
v
71
71
72
74
CAPÍTULO
I
Exploración de datos
I.1.
Introducción
La estadı́stica utiliza datos para conseguir comprensión sobre un fenómeno. Básicamente, esta comprensión es una consecuencia de la combinación entre conocimientos previos sobre el fenómeno y nuestra capacidad a utilizar gráficos y cálculos
para extraer información de los datos.
En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran número de variables. Un efecto contradictorio aparece: por una
parte, cuanto más datos, más información podemos extraer sobre las variables de
interés, pero a la vez es más difı́cil su extracción.
En este contexto aparece una primera etapa fundamental frente a un conjunto
de datos: la exploración, que se realiza a través de representaciones gráficas y del
cálculo de unas cuantas medidas numéricas bien escogidas.
Para tener las ideas claras, unos cuantos gráficos pueden proporcionarnos información más valiosa que procedimientos sofisticados que no dominamos. En esta
asignatura, veremos en temas posteriores métodos sofisticados de análisis para conjuntos con varias variables (el llamado análisis multivariante) pero dedicamos ahora
un capı́tulo a recordar las técnicas elementales con el objetivo de fomentar reacciones
sanas frente a un conjunto de datos.
I.2.
Estudio de una variable
Aun cuando el conjunto de datos presenta varias variables, se debe empezar por
el estudio individual de cada una.
I.2.1.
Unos cuantos términos
Un conjunto de datos describe individuos, que pueden ser personas pero
también objetos. Por ejemplo, asociados a esta clase, podemos considerar que
2
Exploración de datos
los individuos son los alumnos.
Consideramos variables asociadas a este conjunto de datos, distinguiremos entre variable cuantitativa, que asocia un número a cada individuo, o variable
cualitativa, que coloca cada individua en una categorı́a. Ejemplos de variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el grupo
sanguı́neo son en cambio variables cualitativas.
Un concepto fundamental que utilizaremos con frecuencia corresponde a la
distribución de una variable X asociada a un conjunto de datos. Describir la
distribución de X corresponde a establecer la lista de los valores que toma X
junto con la frecuencia con la que toma cada valor. En particular nos interesa
saber si el conjunto presenta mucha o poca variabilidad.
I.2.2.
Tabulación y representaciones gráficas
Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos
se presentarán o bien en forma bruta: un fichero con una columna para cada variable,
donde cada fila representa un individuo, o bien en forma ya tabulada, es decir donde
los datos están agrupados.
Para datos agrupados, consideramos por ejemplo mediciones del contenido en
nitrato en una muestra de agua:
Valor
0.45
0.46
0.47
0.48
Frecuencia
1
2
4
8
Valor
0.49
0.50
0.51
0.51
Frecuencia
8
10
5
8
En el caso en que el conjunto presente muchas valores próximos pero distintos,
agrupamos los datos por clases. Consideramos por ejemplo el conjunto de datos de
Newcomb (http://www.dmae.upct.es/∼mathieu) Newcomb fue el primero en conseguir ¡en 1882! una estimación de la velocidad de la luz. Las mediciones recogidas
en el apéndice corresponden a los tiempos codificados que tardó un rayo de luz en
recorrer el camino de ida-vuelta desde el laboratorio de Simon Newcomb situado en
el Rı́o Potomac hasta un espejo situado en la base del “Washington Monument”, en
total una distancia de 7400m. Para obtener los tiempos en nano segundos (10−9 s)
no codificados, hay que añadir 24800 a cada dato.1
Agrupando los datos en clases obtenemos:
Frecuencia Clase
Frecuencia Clase
Frecuencia
Clase
] − 45, −40] 1
] − 15, −10] 0
]15, 20] 4
] − 40, −35] 0
] − 10, −5]
0
]20, 25] 17
] − 35, −30] 0
] − 5, 0]
1
]25, 30] 26
] − 30, −25] 0
]0, 5]
0
]30, 35] 10
]5, 10]
0
]35, 40] 7
] − 25, −20] 0
] − 20, −15] 0
]10, 15]
0
Los datos tabulados se examinan con más comodidad a través de representaciones
gráficas. En el eje Ox aparecen los valores de la variables, o en su caso las clases y
1
Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statistics, W. H. Freeman and Company: New York, NY, pp 3-16.
I.2 Estudio de una variable
3
6
2
4
Frecuencias
8
10
en el eje Oy las frecuencias. Obtenemos ası́ un diagrama de barras en el ejemplo de
las mediciones de la concentración en nitrato, ver figura I.1.
0.45
0.46
0.47
0.48
0.49
0.50
0.51
0.52
Mediciones de la concentracin
Figura I.1: Diagrama de barras para las concentraciones de nitrato
En el caso en que los datos están agrupados por clase, el diagrama resultante
se llama histograma. En la figura I.2, aparece el histograma para las mediciones de
Newcomb.
15
10
5
0
Frecuencias
20
25
Histograma, mediciones de Newcomb
−40
−20
0
20
40
Mediciones
Figura I.2: Histograma para las mediciones de Newcomb
4
Exploración de datos
Las representaciones gráficas describen la distribución de la variable en el conjunto. Al examinarlos hay que que intentar contestar a las siguientes preguntas
1. ¿ Es el histograma simétrico?
2. ¿Posee la distribución colas largas?
3. ¿Posee el histograma un máximo claro único? En este caso hablamos de histograma unimodal.
4. ¿Aparecen datos atı́picos?, es decir datos que se alejan del patrón global de los
datos.
5. ¿Donde localizamos el centro aproximado de los datos?
6. ¿Presentan los datos mucha dispersión?, lo que se traduce en la forma puntiaguda o chata del histograma.
I.2.3.
Medidas numéricas
Se suele acompañar las representaciones gráficas de las distribuciones con medidas numéricas que proporcionen un resumen de sus caracterı́sticas principales.
Existen medidas numéricas para contestar a cada pregunta (y alguna más...) planteadas en el apartado anterior a la hora de examinar el histograma. Nos limitaremos
a las medidas de centro y de dispersión, es decir las que proporcionen una respuesta
a las preguntas 5 y 6.
a).
Medidas de centro
La media: Si x1 , . . . , xn son los datos, sabemos todos que la media es
x̄ =
x1 + · · · + xn
.
n
Representa el centro de gravedad de los datos.
Cuidado: Es muy sensible a datos atı́picos en el conjunto de datos, y es poco
representativa del centro en el caso en que la distribución es asimétrica.
Para paliar estos inconvenientes, se considera también la mediana:
La mediana:
La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 %
a su derecha. Es una medida de centralización más adecuada que la media en el caso
en que la distribución de los datos es asimétrica ( lo que se ve en el histograma) o si
hay datos atı́picos. Si la distribución es simétrica, la media y la mediana coinciden.
Para calcular la mediana de un conjunto de n datos, x1 , x2 , . . . , xn . Empiezo por
ordenar los datos por orden creciente. La mediana es el dato ordenado no (n + 1)/2.
Ejemplo: 125, 129, 134, 185, 200. La mediana es el dato ordenado no 3, y es igual
a 134.
11, 15, 20, 23: la mediana es el dato ordenado no 2.5, que tomamos por convención
igual al punto medio entre el dato no 2 y el dato no 3. En este caso, la mediana es
igual a 17.5.
I.2 Estudio de una variable
b).
5
Medidas de dispersión
La desviación tı́pica Mide lo lejos que están situados los datos respecto a su centro
de gravedad, la media. Empezamos por definir la varianza:
s2 =
(x1 − x̄)2 + · · · + (xn − x̄)2
,
n−1
(I.1)
que representa aproximadamente el promedio de las distancias al cuadrado entre los
datos y su media. La desviación tı́pica s es la raı́z cuadrada de s2 .
Naturalmente, la desviación tı́pica es representativa de la dispersión del conjunto de
datos solo si la media es representativa de su centro.
Una medida alternativa de dispersión que puede ser más representativa en el caso
en que la distribución es asimétrica o en presencia de datos atı́picos, es el rango
intercuartı́lico.
El rango intercuartı́lico (RIC). Hemos definido la mediana como el punto que
separa el conjunto en dos partes de mismo tamaño. Definimos de la misma manera
los cuartiles como los puntos que separan el conjunto en cuatro partes de mismo
tamaño. El primer cuartil Q1 deja el 25 % de los datos ordenados a su izquierda, y
el otro 75 % a su derecha, mientras que el tercer cuartil Q3 deja el 75 % de los datos
ordenados a su izquierda, y el otro 25 % a su derecha. Por lo tanto el par (Q1 , Q3 )
nos proporciona información sobre la dispersión presente en los datos: cuanto más
alejados estén los cuartiles, más dispersos están los datos. Por ello, calculamos el
rango intercuartı́lico RIC como la diferencia entre Q3 y Q1 .
Para calcular los cuartiles, empezamos por calcular la mediana M e de los datos.
El primer cuartil es la mediana del grupo de datos que queda a la izquierda de M e
(M e excluida), mientras que el tercer cuartil se calcula como la mediana del grupo
que queda a su derecha (M e excluida).
El RIC también se utiliza para detectar datos atı́picos:
Regla: Se consideran como atı́picos los datos que son menores de Q1 − 1,5 × RIC,
o mayores de Q3 + 1,5 × RIC.
c).
Un resumen gráfico: el diagrama de caja-bigotes
El diagrama de caja-bigotes es un resumen gráfico que permite visualizar, para
un conjunto de datos, la tendencia central, la dispersión y la presencia posible de
datos atı́picos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el
tercer cuartil de los datos:
El diagrama de caja-bigotes presenta de manera gráfica estas informaciones, tal
como está recogida en la figura I.3.
Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta : el dato del conjunto inmediatamente superior a Q1 − 1,5 × RIC para el bigote inferior, y el dato
inmediatamente inferior a Q3 + 1,5 × RIC, para el bigote superior.
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o más
conjuntos de datos.
Ejemplo
La puntuación de los equipos de la liga española al final de las temporadas 01/02
y 02/03 en primera división se pueden comparar con un diagrama caja-bigotes, como
aparece en la figura I.4
Exploración de datos
12
6
●
11
Dato atpico
Bigote
10
Q3
Me
9
Q1
●
8
●
40
50
60
70
Figura I.3: Componentes del diagrama caja-bigotes
102
203
Figura I.4: Comparación puntuación final, temporadas 01/02 y 02/03
Comentarios: No hay datos atı́picos, es decir que no hay equipo que se haya
destacado por arriba o por abajo del resto de los equipos. Hay más diferencia de
puntos entre el primer y el último clasificado para la liga 02/03 que en la liga anterior.
Los equipos del tercer cuarto de la clasificación están muy apelotonados en la liga
02/03.
I.3 Extensión al experimento aleatorio
I.3.
I.3.1.
7
Extensión al experimento aleatorio
Introducción
Las técnicas descriptivas son muy útiles pero tienen su limitación, se puede llegar
a conclusiones mucho más precisas si estamos dispuestos a formular un modelo para
el mecanismo de generación de los datos que observamos: no nos limitamos a los
datos que tenemos sino que los consideramos generados a partir de un experimento
que formalizamos. En el ejemplo de Newcomb, podemos considerar el experimento:
“Llevar a cabo, con el procedimiento de Newcomb, una medición del tiempo que tarda
la luz en recorrer los 7400m”. Los datos de los que disponemos fueron generados a
partir de las 66 realizaciones que realizó Newcomb de este experimento.
Formular un modelo consiste en traducir nuestras creencias sobre las posibilidades que tienen de ocurrir los resultados del experimento. Para ello, utilizaremos
el concepto de probabilidad: asignaremos a cada resultado posible del experimento
un número entre 0 y 1, según nuestra visión de cuales son las posibilidades de que
ocurra. Si pensamos que ocurrirá con toda seguridad le asignamos la probilidad 1
mientras que si pensamos que no tiene posibilidades de ocurrir, le asignamos la probabilidad 0. Merece la pena resaltar que la formulación de un modelo es un decisión
subjetiva: dos personas distintas pueden escoger modelos diferentes para modelizar
el mismo experimento.
Si consideramos el experimento de tirar una moneda no trucada, asignaremos
la probabilidad 1/2 a cada de los posibles resultados, cara o cruz. En cambio, si
pensamos que la moneda está trucada, y que es tres veces más probable de que
ocurra cara que cruz, asignaremos la probabilidad 0.75 al resultado cara, y 0.25 al
resultado cruz.
Existe una formulación axiomática del concepto de probabilidad que da lugar a
una teorı́a coherente y muy estudiada. En esta asignatura nos limitaremos a utilizar
el concepto intuitivo de probabilidad.
En el caso en que consideramos una variable X asociada a un experimento, al
formular un modelo para su distribución, tendré que ser capaz de asignar una probabilidad a cada resultado asociado con X. Si X sólo puede tomar un número finito
de valores (o infinito pero numerable), describir su distribución consistirá en realizar
la lista de los valores que puede tomar junto con la probabilidad que asignamos a
cada valor. En cambio, si X puede tomar cualquier valor real por ejemplo, tendré
que definir qué probabilidad asigno a cualquier intervalo. Este último supuesto se
consigue definiendo una función de densidad f :
La función de densidad
f de una variable X es una función positiva que integra
R
1, es decir tal que f (x)dx = 1 y que permite calcular la probabilidad de que X
pertenezca a un intervalo ]a, b] como
Z
P[a < X ≤ b] =
b
f (x)dx.
a
Deducimos que la probabilidad de que X esté entre a y b corresponde al área debajo
de la curva de f comprendida entre a y b, tal como está ilustrado en la figura I.5.
Si disponemos de un conjunto de datos con una variable X, generados a partir de realizaciones de un experimento, y si nuestra descripción del mecanismo de
generación de los datos a través de un modelo para X, es adecuada, la función de
Exploración de datos
f
0.0
0.1
0.2
0.3
0.4
8
b
a
Valores de X
Figura I.5: Función de densidad y su interpretación
densidad de X tiene mucha relación con el histograma. En efecto, la probabilidad
de que X pertenezca a una clase debe explicar la frecuencia de datos que aparecen
en esta clase, y por lo tanto la forma del histograma debe corresponder a la forma
de la densidad, tal como viene reflejado en la figura I.6.
0.2
0.1
0.0
Densidad
0.3
0.4
Densidad y histograma
−2
−1
0
1
x
Figura I.6: Densidad y histograma
2
I.3 Extensión al experimento aleatorio
I.3.2.
9
Medidas numéricas asociadas
De la misma manera que para distribuciones de variables en un conjunto de
datos, se pueden resumir algunas caracterı́sticas de las distribuciones de variables
asociadas a experimentos aleatorios.
a) Media - Esperanza Sea X una variable con densidad f , definimos la media de
X, también llamada esperanza o valor esperado, como
Z
µX = E[X] = xf (x)dx.
Es una medida de centro de la distribución si ésta es relativamente simétrica, se
interpreta como el centro de gravedad de la distribución, ver figura I.7.
E[X]
E[X]
Figura I.7: La esperanza es el centro de gravedad
b) Desviación tı́pica La varianza se define como el promedio de la distancia al
cuadrado entre X y su media:
Z
2
σX
= V ar(X) = (x − µX )2 f (x)dx,
y la desviación tı́pica es σX =
I.3.3.
q
2 .
σX
Modelos más utilizados
Resulta que existen situaciones comunes en las que unos pocos modelos “estandar” sirven para describir los experimentos considerados.
a) El modelo normal Es el modelo más utilizado en la práctica. Su densidad
depende de dos parámetros µ y σ 2 , que representan parámetros de localización y de
dispersión respectivamente. Su expresión es
f (x) = √
1
2πσ 2
e−
(x−µ)2
2σ 2
,
10
Exploración de datos
cuya representación gráfica es la famosa “campana de Gauss”. Si la densidad de
X es la función f arriba descrita, se dice que X sigue una distribución normal de
parámetros µ y σ 2 .
Se puede demostrar que, si X admite la densidad f descrita arriba, la esperanza
de X es µ, mientras que su varianza es σ 2 .
Bastará por lo tanto para escoger un modelo normal para una variable fijar el
valor de µ y el valor de σ como reflejando el centro y la dispersión de la distribución.
En la figura I.8, se ha ajustado una curva normal al histograma de los datos recogidos
por Newcomb, después de omitir los dos datos atı́picos −44 y −2. Se observa que el
ajuste es bastante bueno.
0.04
0.00
0.02
Frecuencias
0.06
0.08
Histograma, mediciones de Newcomb
−40
−20
0
20
40
Mediciones
Figura I.8: Ajuste de una densidad normal al histograma de Newcomb
Además puesto que la función f no admite primitiva en una forma cerrada,
no hay expresión simple para calcular la probabilidad de que una variable normal
pertenezca a un intervalo dado. Se recurre por lo tanto a aproximaciones numéricas
de la integral
Z b
(x−µ)2
1
√
e− 2σ2 dx,
2πσ 2
a
para obtener P(a < X ≤ b). Los programas informáticos de análisis de datos como
SPSS o Statistix disponen de algoritmos que permitan calcular para cualquier t la
probabilidad P(X ≤ t). También existe un calculadora estadı́stica freeware NCSScalc, que se puede bajar de mi página web. (http://www.dmae.upct.es/∼mathieu)
A pesar de que no exista una expresión simple para las probabilidades asociadas
a una distribución normal, es muy útil conocer la regla siguiente: si X es una normal
N (µ, σ 2 ), tenemos
I.3 Extensión al experimento aleatorio
11
P(µ − σ ≤ X ≤ µ + σ) '
0,68
P(µ − 2σ ≤ X ≤ µ + 2σ) '
0,95
P(µ − 3σ ≤ X ≤ µ + 3σ) ' 0,997,
lo que queda reflejado en la figura I.9: el 68 % del área debajo de la curva normal
está comprendida entre µ − σ y µ + σ, el 94 % entre µ − 2σ y µ + 2σ, y el 99.7 %
entre µ − 3σ y µ + 3σ.
µ
68%
µ−σ
µ+σ
95%
µ − 2σ
µ + 2σ
99.7%
µ − 3σ
µ + 3σ
Figura I.9: Regla del 68 % - 95 % - 99.7 %
b) El modelo exponencial Este modelo ha resultado adecuado para modelizar
el tiempo discurrido entre dos apariciones de un suceso dado, como por ejemplo el
tiempo que pasa entre dos emisiones de partı́culas por un material radiactivo o el
tiempo que pasa entre dos llegadas de clientes a una cola.
Decimos que X es una variable exponencial con parámetro λ si su función de
densidad de
λe−λx si x > 0
f (x) =
0
en otro caso.
Es fácil demostrar que la media de X es 1/λ y su varianza 1/λ2 .
Apéndice
Datos: la velocidad de la luz, por S. Newcomb
Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30,
23, 29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30,
12
Exploración de datos
22, 36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27,
28, 29, 16, 23
TEMA
II
Distribuciones muestrales - contrastes de hipótesis
II.1.
Distribuciones muestrales
Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger
un modelo, posiblemente con uno o varios parámetros que tendremos que ajustar.
Ejemplos
Me interesa una moneda para tirar a cara o cruz. El experimento es “Tirar la
moneda” y la variable X corresponde al resultado, su distribución se describe
como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades:
P[X = c] = p y P[X = +] = 1 − p. p es por lo tanto la probabilidad de que
salga cara, y es un parámetro de nuestro modelo. En el caso en que confiamos
en que la moneda no está trucada, nuestro modelo considerará que p = 1/2.
Para sacar información sobre p y comprobar en particular que la moneda no
está trucada, repetiremos un cierto número de veces el experimento.
Para las próximas elecciones generales, queremos determinar la proporción
de gente que tiene intención de ir a votar, es decir queremos estimar la tasa
de participación. El censo electoral para España tiene unos 32 millones de
personas. Es claramente imposible entrevistar a todas las personas del censo.
En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas
3000 personas entre el censo y preguntándoles si tienen intención de ir a votar.
El ı́ndice de audiencias manda en la programación de televisión. Pero ¿cómo
saben cuántos espectadores vieron un partido dado o un programa determinado? A mı́ nunca me han preguntado... En realidad, una encuesta se realiza de
manera automática y continua: una empresa especializada llamada SOFRES
(http://www.sofresam.com) ha escogido al azar unos 3300 hogares que representan unas 10000 personas de entre un total de aprox. 39 500 000 espectadores
potenciales. En cada uno de estos hogares, instala un aparato llamado “audı́metro” que graba cuál es el programa que se está viendo en cada momento.
14
Mathieu Kessler: Estadı́stica industrial
Quiero conocer la concentración de un determinado producto en una solución.
Pienso que es razonable que la distribución de los valores proporcionados por
mi aparato de medición sea una normal con media µ y desviación tı́pica σ
desconocidas. El centro de esta distribución, es decir µ, será por lo tanto lo
más representativo de la concentración que intento determinar. Para estimar
µ, repetiré la medición varias veces.
Pero surge una pregunta evidente:
Pregunta: ¿Cómo sabemos que nuestra estimación es fiable? ¿Por qué limitándose
a unas 3000 personas, se puede extropolar el resultado con confianza a una población
de 30 millones? Además está claro que el resultado que obtengo depende de la
muestra particular que haya escogido, si escojo otra muestra me sale otro resultado.
Este hecho se llama la variabilidad muestral.
Intento de respuesta: Consideremos el caso del sondeo en él que se busca estimar
la tasa de participación antes de unas elecciones. Para intentar convencer al lector
de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas
a la población de 32 millones no es excesivo, llevo a cabo un estudio de simulación:
Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que
representará el censo electoral. Los unos representarán a las personas que sı́
tienen la intención de ir a votar, mientras que los ceros a los que no piensan ir a
votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos,
mientras que el 30 % son ceros. (70 % es una tasa razonable de participación
en unas elecciones)
Extraigo al azar una muestra de 3000 datos del fichero completo, hago el
recuento de los unos, y encuentro que la proporción de unos en esta muestra
es de 0.71. Por lo tanto, en este caso, mi estimación es muy buena: estimo
la tasa de participación en 71 % mientras que la auténtica, es decir, la de
la población (el fichero) es de 70 %. ¿Os he convencido? Seguro que algún
lector desconfiado dirá: “ no demuestra nada, ha tenido suerte de que en la
muestra que ha escogido, la proporción de unos sea próxima a la proporción
poblacional, pero con otra muestra podrı́a salir otro resultado peor.” De acuerdo,
el argumento es válido... Pero para convencerle, voy a coger otra muestra al
azar de 3000 datos, y encuentro que la proporción muestral de unos es 0.72.
Sigue estando muy bien, ¿no? ¿Sigue sin convencerle? Bueno, puedo repetir la
extracción de muestras hasta 10 000 veces por ejemplo, y guardo los valores
que encuentro para la proporción de 1 en cada una de estas 10000 muestras
en una variable llamada p̂.
Realizo un histograma de los 10000 valores de p̂, el resultado aparece en la
figura II.1. Una primera conclusión se impone: la gran mayorı́a de las muestras
han proporcionado un valor de p̂ entre 0.68 y 0.72, lo que corresponde a una
muy buena estimación del valor de la proporción poblacional. Por lo tanto este
estudio simulado demuestra que al escoger una muestra de 3000 personas, es
muy probable que el valor de la proporción de 1 en la muestra esté bastante
próxima (menos de dos puntos) de la proporción de 1 en la población, aunque
ésta sea muchı́simo más grande que la muestra.
Podemos dar un paso más en la utilización de este estudio simulado: si considero
ahora el experimento “extraer una muestra de tamaño 3000 en la población”, p̂ es la
15
1000
0
500
Frecuencias
1500
2000
II.1 Distribuciones muestrales
0.67
0.68
0.69
0.70
0.71
0.72
0.73
^
p
Figura II.1: Histograma de los valores de p̂ para 10000 muestras extraidas
variable “proporción de 1 en la muestra extraida”. Quiero formular un modelo para
su distribución. El histograma en la figura II.1 me sugiere que puedo escoger una
distribución normal para p̂. De hecho en la figura II.2, se aprecia que el ajuste por una
normal con media µ = 0,70 y desviación tı́pica σ = 0,008 es muy bueno. Utilizando
entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar
en la población una muestra de tamaño 3000, la probabilidad de que la proporción
muestral p̂ se encuentre entre 0,7 − 2 × 0,008 = 0,694 y 0,07 + 2 × 0,008 = 0,716 es
del 95 %.
Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado,
podrı́amos preguntarnos si podrı́amos ahorrarnos algo y extraer una muestra más
pequeña. Repitamos por ejemplo el estudio simulado con muestras de sólo 100 personas. El histograma que obtenemos aparece en la figura II.3. Observamos que en este
caso el histograma es muchı́simo más chato, y que la dispersión de los valores de p̂
es mucho mayor: es más probable, al escoger una muestra de 100, que la proporción
muestral esté bastante alejado del objetivo 0.7.
Toda la teorı́a desarrollada acerca de los sondeos utiliza de manera crucial el hecho de que antes de extraer la muestra, se dispone de un modelo para la distribución
de p̂ por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este
Mathieu Kessler: Estadı́stica industrial
Densidad
0
10
20
30
40
16
0.67
0.68
0.69
0.70
0.71
0.72
0.73
phat
1000
0
500
Frecuencias
1500
Figura II.2: Ajuste de una normal al histograma de los valores de p̂
0.6
0.7
0.8
0.9
^
p
Figura II.3: Histograma de los valores de p̂ para 10000 muestras de tamaño 100
extraidas
modelo permite en particular decidir si, fijado el error máximo que se está dispuesto
a cometer respecto a la proporción poblacional, el tamaño de la muestra es suficiente
como para que el riesgo de cometer un error mayor es lo suficientemente pequeño.
Introducimos dos términos fundamentales en estadı́stica:
II.2 Contrastes de hipótesis
17
Definición. Cualquier cantidad calculada a partir de las observaciones de una muestra se llama estadı́stico. La distribución de los valores que puede tomar un estadı́stico respecto a todas las muestras de tamaño n que se podrı́a extraer se llama
distribución muestral de este estadı́stico.
II.2.
Contrastes de hipótesis
II.2.1.
Ejemplo ilustrativo
Supongamos que dispongo de una moneda y quiero saber si está trucada. Formalizo el modelo tal como lo hemos visto en la sección anterior: X es la variable
“resultado obtenido al tirar la moneda”, X puede tomar dos valores c (Cara) o +
(Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. Me pregunto si
p = 1/2 o p 6= 1/2. Formulo por lo tanto dos hipótesis:
una hipótesis nula:
una hipótesis alternativa
H0
H1
p = 1/2
p 6= 1/2
0
2
4
6
8
Para decidir cuál de las dos hipótesis es cierta, pienso tirar la moneda 100 veces y
calcular la proporción muestral p̂ de caras. Por la teoria de probabilidad y de las
variables aleatorias, se sabe que, si p = 1/2, la distribución muestral de p̂ se puede
modelizar por una normal con media 0.5 y desviación tı́pica 0.05. Es decir que, antes
de realizar el experimento de tirar 100 veces la moneda y calcular la proporción p̂
de caras entre estas 100 tiradas, sé que, si la moneda no está trucada, puedo esperar
que la distribución de los valores que podrá tomar p̂ será tal como en la figura II.4.
0.0
0.2
0.4
0.6
0.8
1.0
^
p
Figura II.4: Distribución muestral de p̂ para 100 tiradas de una moneda no trucada
¿Entre qué valores se encontrará con gran confianza p̂?
Supongamos ahora que efectivamente, tiro 100 veces la moneda y obtengo 61
caras y 39 cruces. Por lo tanto p̂ = 0,61. ¿Está la moneda trucada? En principio,
18
Mathieu Kessler: Estadı́stica industrial
parece que sı́, pero por otra parte, ¿cómo sabemos que este resultado, alejado del
0.5 esperado si la moneda no fuera trucada, no se deba sencillamente al azar, y no
provenga de la variabilidad natural inevitable al tirar 100 veces la moneda? Podemos
contestar a esta pregunta porque, precisamente, disponemos de un modelo para la
distribución de los valores de p̂ si en realidad p = 1/2.
Observamos que el valor p̂ = 0,61 es un valor bastante extremo para su distribución. De hecho, ¿qué porcentaje de las muestras de tamaño 100, proporcionan
un valor tan o más alejado del 0.5 esperado que 0.61? Para saberlo calculo con
una calculadora estadı́stica y utilizando el modelo que tengo para p̂, la probabilidad
P[p̂ ≤ 0,39 ∪ p̂ ≥ 0,61], que es aproximadamente igual a 0.028. Deduzco que, si en
efecto p = 1/2 sólo el 2.8 % de las muestras de tamaño 100 proporcionarı́an un valor
tan o más alejado de 0.5 como el valor que me ha salido. En este sentido, el valor que
he obtenido es extremo, suponiendo que la hipótesis nula es cierta... En este caso,
los datos tienden a refutar la hipótesis nula, y basándonos en la muestra extraida,
afirmamos que la moneda está trucada.
El porcentaje de muestras de tamaño 100 que proporcionarı́an un valor igual o
más alejado que el valor encontrado en nuestra muestra es una medida de la “fuerza”
de los datos contra la hipótesis nula y a favor de la hipótesis alternativa.
II.2.2.
Procedimiento global
De manera repetida en la asignatura, los procedimientos que veremos incluirán
contrastes de hipótesis:
Llamando θ un parámetro del modelo,
formularemos una hipótesis nula y una alternativa respecto al valor de θ.
H0
H1
θ = θ0
θ 6= θ0
En el ejemplo ilustrativo, θ era p y θ0 era 1/2. En algunos casos, sólo nos
interesará incluir en la hipótesis alternativa valores del parámetro mayores que
θ0 . En este caso formularemos las hipótesis como
H0
H1
θ = θ0
θ > θ0 .
Por supuesto también podrı́amos considerar en la alternativa valores menores
que θ0 :
H0
H1
θ = θ0
θ < θ0 .
Para la primera formulación hablamos de hipótesis alternativa bilateral mientras que para las dos últimas hablamos de hipótesis alternativa unilateral.
Planificamos nuestra toma de muestra: escogemos el tamaño de la muestra
que extraeremos. En función del parámetro que queremos, escogeremos un
estadı́stico y un modelo para su distribución muestral bajo el supuesto que la
hipótesis nula es cierta.
II.2 Contrastes de hipótesis
19
Extraemos una muestra, calculamos, para esta muestra, el valor del estadı́stico,
y situamos este valor en la distribución muestral del estadı́stico cuando H0 es
cierta.
Cuantificamos la fuerza de los datos en contra de la hipótesis nula y a favor
de la hipótesis alternativa a través del p-valor: el p-valor es el porcentaje
de muestras del tamaño escogido que proporcionan un valor del estadı́stico
tan o más extremo en la distribución muestral que el obtenido para nuestra
muestra. En el ejemplo ilustrativo de la sección anterior, habı́amos encontrado
un p-valor del orden de 2.8 %.
Nota: conforme a la filosofı́a de estos temas recordatorios, hemos escogido una
presentación intuitiva obviando algunas sutilezas y/o dificultades. Nuestro objetivo es que el lector haya asimilado el concepto de estadı́stico y de distribución
muestral, ası́ como la idea de un contraste de hipótesis, sabiendo interpretar
un p-valor.
Se suele considerar que un p-valor menor que 0.05 indica una gran fuerza en los
datos en contra de la hipótesis nula y a favor de la alternativa, mientras que cuando
el p-valor es mayor de 0.2, se considera que los datos no contradicen la hipótesis
nula.
II.2.3.
Los contrastes más utilizados
Existe un gran número de contrastes, y nos limitaremos a recordar aquı́ los más
sencillos.
En el caso en que el modelo escogido para la variable X en la población sea
N (µ, σ 2 ), los contrastes sobre la media se formulan como
H0
H1
µ = µ0
µ 6= µ0 ,
en su versión bilateral, o sustituyendo H1 por H1 : µ > µ0 , o H1 : µ < µ0 en su
versión unilateral.
Para muestras de tamaño n, el estadı́stico de prueba depende de si el valor de
σ 2 es conocido o no, es decir si el modelo para X especifica un valor concreto para
la varianza, o si ésta se considera desconocida. Si σ 2 es conocido, el estadı́stico de
√ 0 , y su distribución muestral en el supuesto de que H0 es cierta
prueba es Z0 = X̄−µ
σ/ n
es
Z0 ∼ N (0, 1) si H0 es cierta.
Extraemos una muestra concreta, denotamos por ẑ el valor tomado para esta muestra
por el estadı́stico Z0 .
El p-valor se calcula como 2 × P[Z0 ≥ |ẑ|] en el caso de una hipótesis alternativa
bilateral, y como P[Z0 ≥ |ẑ|] en el caso en que H1 sea unilateral.
Si en cambio no se especifica ningún valor con el modelo para la varianza de X,
se estima σ 2 por s2 la varianza calculada a partir de la muestra. El estadı́stico de
√ 0 , y su distribución muestral si H0 es cierta, es una distribución
prueba es T0 = X̄−µ
s/ n
llamada t de student con n − 1 grados de libertad. Su forma es parecida a la Normal
pero tiene unas colas más gruesas, debido a la variabilidad adicional que se introduce
en el denominador al estimar la desviación tı́pica.
TEMA
III
Regresión lineal
III.1.
Introducción
Es muy normal considerar más de una variable asociada a un experimento. En
este caso, más que la distribución de cada variable por separado, nos puede interesar
en particular las relaciones que existan entre ellas. Nos centraremos aquı́ en el caso
en que distinguimos una variable llamada “respuesta”, cuya amplitud depende de los
valores de otras variables llamadas “explicativas”, y aprenderemos cómo deducir un
modelo para la evolución de la primera en función de estas últimas.
Hay dos utilidades principales al disponer de un modelo: podemos primero explicar la manera en la que cambios en los valores de una variable explicativa induce
cambios en el valor de la variable respuesta. Por ejemplo, si pienso que la temperatura media Y en agosto en San Javier evoluciona en función del año según el
modelo:
T emperatura = −582,5 + 0,31año,
deduciré que en promedio, la temperatura media en agosto aumenta de 0.3 grados
cada año.
Por otra parte, si dispongo de un modelo para la evolución de la variable respuesta, me permite también realizar predicciones del valor que tomará para valores
de las explicativas que no hemos observado.
Acabamos esta sección de presentación con cuatro ejemplos con datos reales tomados de campos diferentes. Las nubes de puntos correspondientes están presentadas
en la figura III.1
Estudio de la resistencia del cemento en función del tiempo de fraguado en
dı́as. Fuente: Hald, A. (1952) Statistical theory for engineering applications,
Wiley & Sons New-York, pág 541. ¿Cómo evoluciona la resistencia de piezas de
cemento en función del tiempo de fraguado? ¿Cuánto tiempo hay que esperar
para conseguir el 90 % de la resistencia máxima? Este es el tipo de preguntas
a las que podemos contestar con el estudio de este conjunto de datos.
22
Mathieu Kessler: Estadı́stica industrial
Todos los años Venecia se inunda durante las “acqua alta”. Sin embargo, parece
que el nivel máximo al que llega el mar está cada año más alto, haciendo
temer por la conservación de la ciudad y de sus monumentos. Es por lo tanto
de interés estudiar la evolución del nivel máximo del mar en función del año.
Fuente: Smith, R.L (1986) “Extreme value theory based on the r largest annual
events”, Journal of Hydrology, 86.
Evolución de la producción mundial de petróleo desde 1880. Fuente: Data and
Stories Library http://lib.stat.cmu.edu/DASL/.
En 1929, Edwin Hubble investigó la relación entre la distancia de una galaxia
a la tierra y la velocidad con la que está alejándose. En efecto se piensa que las
galaxias se alejan como consecuencia del “Big Bang”. Hubble pensó que disponiendo de un modelo que relacionara la velocidad de recesión con la distancia
a la tierra proporcionarı́a información sobre la formación del universo y sobre
lo que podrı́a pasar en el futuro. Los datos recogidos incluyen distancias en
megaparsecs (1 megaparsec= 3.26 años luz) y velocidad de recesión en km/s.
Fuente: Data and Stories Library, http://lib.stat.cmu.edu/DASL.
Figura III.1: Cuatro ejemplos de conjuntos de datos
III.2 Criterio de mı́nimos cuadrados
III.2.
23
Criterio de mı́nimos cuadrados
Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta
que llamaremos Y y una variable explicativa que llamaremos X.
Disponemos de n pares de datos
X
Y
x1
y1
x2
y2
···
···
xn
yn
Para visualizar el conjunto recurrimos a la nube de puntos, también llamada diagrama de dispersión, en el que representamos los pares (xi , yi ), i = 1, · · · , n, en unos
ejes Ox, Oy, ver figura III.2
Figura III.2: Ejemplo de nube de puntos
Por conocimientos previos sobre el fenómeno que estudiamos o por la propia
nube de puntos, decidimos ajustar a ésta una curva de una determinada forma
funcional: podrı́a ser por ejemplo una recta, de ecuación Y = aX + b, o una parábola
Y = a0 + a1 X + a2 X 2 . La forma de la curva está fijada pero intervienen en la
ecuación constantes, también llamadas parámetros, cuyo valor tenemos que ajustar
para obtener el “mejor” ajuste posible: en el caso de la recta, debemos encontrar los
valores de la pendiente b y de la ordenada al origen a.
En una formulación general, escogemos una familia paramétrica de funciones
x 7→ f (θ, x) θ = (θ1 , . . . , θk ),
donde θ es el vector de parámetros. Buscar la función de la familia que mejor se ajusta
a la nube de puntos es equivalente a encontrar el valor θ̂ de θ, que corresponde a
esta función.
Debemos ahora dar sentido a la noción de “mejor”; debemos fijarnos un criterio
que nos permita decidir que una función de la familia se ajusta mejor a la nube de
puntos que otra. El criterio que seguimos en este tema es el de mı́nimos cuadrados.
24
Mathieu Kessler: Estadı́stica industrial
Definimos la suma de cuadrados asociada a una función de la familia como la
suma de los cuadrados de las distancias verticales entre la curva correspondiente y
los datos observados de la nube de puntos. Tal como viene reflejado en la figura III.3,
la distancia vertical entre por ejemplo el punto x3 , y3 ) y la curva es y3 − f (θ, x3 ),
por lo tanto la suma de cuadrados se escribe
SC(θ) = (y1 − f (θ, x1 ))2 + (y2 − f (θ, x2 ))2 + · · · + (yn − f (θ, xn ))2 .
Figura III.3: Ajuste de una curva a la nube de puntos.
Buscamos el valor θ̂ de θ que minimiza la cantidad θ 7→ θ, en muchos casos, es
imposible encontrar este mı́nimo explı́citamente y tenemos que recurrir a algoritmos
III.3 Regresión lineal
25
numéricos. Nos centraremos en este tema en el que la forma paramétrica de f es
particularmente simple y permite el cálculo explı́cito de θ̂.
Supongamos que hemos ajustado la curva, es decir que hemos encontrado el valor
θ̂ de θ que minimiza la suma de cuadrados, introduzcamos unos cuantos términos:
La curva de ecuación y = f (θ̂, x) se llama la curva ajustada.
Los ordenadas de la curva ajustada correspondientes a los datos observados,
es decir los valores ŷ1 = f (θ̂, x1 ), . . . , yn = f (θ̂, xn ) se llaman los valores
ajustados.
Las distancias verticales entre los puntos observados y la curva ajustada se
llaman los residuos e1 , . . . , en . Tenemos
ei = yi − ŷi ,
La suma de cuadrados
SC(θ̂) =
i = 1, . . . , n.
n
X
e2i
i=1
se llama suma residual de cuadrados.
Para la regresión lineal, el coeficiente
Pn
(ŷi − ȳ)2
2
R = Pi=1
n
2
i=1 (yi − ȳ)
mide la proporción de variabilidad en los datos explicada por el modelo. Se
llama coeficiente de determinación múltiple.
III.3.
Regresión lineal
Hablamos de regresión lineal cuando los parámetros intervienen de manera lineal
en la especificación de la función y = f (θ, x). Más concretamente, suponemos que
tenemos k variables explicativas, X1 , X2 , . . . , Xk , y que la variable respuesta Y es
una combinación lineal de X1 , X2 , . . . , Xk :
Y = β1 X1 + β2 X2 + · · · + βk Xk ,
(III.1)
donde β1 β2 . . . , βk son números reales. En este caso el parámetro θ es igual a
(β1 β2 . . . , βk ).
III.3.1.
Regresión lineal simple
El caso más utilizado de regresión lineal corresponde al ajuste por una recta, es
decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo
de la forma
Y = aX + b.
Se trata de un caso particular de la formulación general (III.1), si consideramos
b = β1 , X1 = 1, a = β2 y X2 = X.
26
Mathieu Kessler: Estadı́stica industrial
a).
Obtención de la recta ajustada
La suma de cuadrados se escribe
SC(θ) = SC(a, b) =
n
X
(yi − (axi + b))2 ,
i=1
Los candidatos a alcanzar el mı́nimo de esta función satisfacen
∂
SC(a, b) = 0
∂a
∂
SC(a, b) = 0.
∂b
Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este
sistema de ecuaciones son
â =
xy−x̄ȳ
x2 −(x̄)2
b̂ = ȳ − âx̄.
Introducimos la cantidad
n
(xy − x̄ȳ),
(III.2)
n−1
que llamamos la covarianza de X e Y . El coeficiente â se puede escribir como
sxy =
â =
sxy
,
s2x
donde s2x es la varianza de X que introdujimos en el tema 1. Con estas notaciones,
se puede escribir la ecuación de la recta ajustada en una forma compacta:
y − ȳ =
sxy
(x − x̄).
s2x
Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene
el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza es
positiva, Y y X presentan una asociación positiva: cuando crece X, crece Y y cuando
decrece X, decrece Y . En cambio, si la covarianza es negativa Y y X presentan una
asociación negativa, es decir que si X crece, Y decrece y vice versa.
b).
Bondad del ajuste
Para la regresión lineal simple se puede demostrar que R2 = r2 donde
r=
sxy
.
sx sy
(III.3)
La cantidad r se llama el coeficiente de correlación entre X e Y . Para cuantificar
del ajuste desarrollamos la suma de cuadrados residual, SC(θ̂) =
Pn la bondad
2
i=1 (yi − ŷi ) . Podemos demostrar que
SC(θ̂) = (n − 1)s2y (1 − R2 ).
III.3 Regresión lineal
27
Deducimos que R2 está siempre comprendido entre 0 y 1, y cuanto más cercano esté
de 1, mejor es el ajuste, puesto que corresponderá a una suma residual de cuadrados
menor. En particular, deducimos que si R2 = 1, SC(θ̂) = 0, y para todo i = 1, . . . , n,
yi = ŷi : todos los puntos observados están situados en la curva ajustada: los residuos
son nulos y el ajuste es perfecto.
Puesto que R2 = r2 y 0 ≤ R2 ≤ 1, deducimos que el coeficiente de correlación r
está siempre comprendido entre −1 y 1. Si r = ±1, el ajuste de los puntos observados
por una recta es perfecto. El coeficiente de correlación se interpreta en general como
una cantidad que cuantifica la asociación lineal que existe entre dos variables: cuanto
más cerca de ±1, más se aproxima la nube de puntos a una recta.
Además por la definición (III.3), sabemos que r es del mismo signo de la covarianza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia de
una asociación lineal positiva entre las dos variables, mientras que si es negativo y
cercano a −1, presentan una asociación lineal negativa.
Sin embargo, es necesario tener precaución a la hora de interpretar valores del
coeficiente de correlación: sólo es un resumen, fiable en el caso en que está próximo
a ±1 para indicar que existe una fuerte asociación lineal entre las variables pero
mucho menos fiable si toma un valor alejado de ±1. Anscombe (1973), ”Graphs in
statistical analysis”, American Statistician, 27, pp 17-21, construyó cuatro conjuntos
de datos artificiales que dan lugar al mismo coeficiente de correlación y a las mismas
rectas de regresión, pero cuyos aspectos son completamente diferentes. Los datos se
presentan en el apéndice, y se deja su estudio en ejercicio.
c).
Predicción
Tal como lo mencionamos en la introducción del tema, si disponemos del modelo
ajustado podemos utilizarlo para predecir el valor de la respuesta para valores no
observados de X:
Si x0 es un valor no observado, nuestra predicción del valor de Y será
yx0 = â x0 + b̂.
Sin embargo, debemos tener mucho cuidado al extrapolar nuestro modelo fuera del
rango de valores de X que hemos observado, al no disponer de valores fuera de este
rango, tampoco sabemos si el modelo deducido seguirá valido. Por ejemplo en la
introducción hemos visto que un modelo para la evolución de la temperatura media
en agosto Y en función del año X está dado por
T emperatura = −582,5 + 0,31año.
Este modelo se obtuvo a partir de mediciones de la temperatura para los últimos
20 años aproximadamente. El hecho de que la pendiente al origen sea -582.5 implica
que si el modelo lineal fuera válido hasta el año 0, la temperatura media en el mes
de agosto habrı́a sido de -582 grados! El modelo lineal es una buena aproximación
para la evolución de la temperatura en los últimos veinte años, pero no es válido
para épocas demasiada alejadas de la actualidad.
28
Mathieu Kessler: Estadı́stica industrial
III.3.2.
a).
Regresión lineal múltiple
Presentación
La regresión lineal múltiple corresponde al caso general
Y = β1 X1 + β2 X2 + · · · + βk Xk .
(III.4)
Se trata de un modelo bastante general que incluye muchas posibles formas funcionales para f (θ, x).
Muy a menudo, se considera un término constante en el modelo, lo que corresponde a imponer que X1 = 1.
Los modelos incluidos en esta formulación general comprenden entre otros
La regresión lineal simple.
Y =
b
+aX
Y =
β1 X1
+β2 X2
X1 = 1 X2 = X
La parábola
Y
= a0 + a1 X + a2 X 2
Y
= β1 X1 + β2 X2 + β3 X3
X1 = 1,
X2 = X,
X3 = X 2
Cualquier polinomio de orden q,
Y
= a0 + a1 X + a2 X 2 + · · · + aq X q
Y
= β1 X1 + β2 X2 + · · · + βq+1 Xq+1
X1 = 1,
X2 = X, . . .
Xq+1 = X q
Si disponemos de dos variables X y Z y buscamos un modelo para Y en
función de éstas, Y pertenece a una superficie, que se puede representar en un
eje tridimensional. Tenemos por ejemplo el caso más sencillo
Y
= a00 + a10 X + a01 Z
Y
= β1 X1 + β2 X2 + β3 X3
X1 = 1,
X2 = X,
X3 = Z,
en el que la respuesta Y evoluciona en un plano en función de X y Z, o si
añadimos términos cuadráticos,
Y
= a00 + a10 X + a01 Z + a11 XZ + a20 X 2 + a02 Z 2
Y
= β1 X1 + β2 X2 + β3 X3 + β4 X4 + β5 X5 + β6 X6 +
X1 = 1,
X2 = X,
X3 = Z,
X4 = XZ,
X5 = X 2 ,
X6 = Z 2
III.3 Regresión lineal
29
obtenemos que la respuesta describe una superficie cuadrática, una paraboloide
de revolución por ejemplo.
En cuanto a la presentación de los datos, disponemos de n valores y1 , y2 , . . . , yn
que corresponden a distintos valores de las explicativas. Se recogen en una tabla de
la forma
b).
Y
y1
y2
..
.
X1
x11
x21
..
.
X2
x12
x22
..
.
...
...
...
..
.
Xk
x1k
x2k
..
.
yn
xn1
xn2
...
xnk
Cálculo de los coeficientes
Introducimos la matriz X, llamada matriz
valores de las variables explicativas

x11 x12 . . .
 x21 x22 . . .

X= .
..
..
 ..
.
.
de diseño que contiene todos los
x1k
x2k
..
.



,

xn1 xn2 . . . xnk
ası́ como el vector de observaciones



Y =

y1
y2
..
.



,

yn
y el vector de coeficientes β = (β1 , β2 , . . . , βk )0 , donde
suma de cuadrados SC(β) se puede escribir
0
denota la transpuesta. La
SC(β) = kY − Xβk2 ,
donde k k denota la norma euclı́dea de un vector en Rn . Esta situación es bien conocida en álgebra lineal, buscamos el elemento del espacio vectorial generado por las
columnas de X que minimice la distancia a un vector dado: se trata de la proyección
ortogonal, y la expresión de los coeficientes β que minimiza SC(β) es





β̂1
β̂2
..
.



 = (X 0 X)−1 X 0 Y,

β̂n
donde X 0 denota la transpuesta de X.
Nota. La expresión anterior presupone que se puede invertir X 0 X, lo que es equivalente a que las columnas de la matriz X vistas como vectores son linealmente
independientes.
30
Mathieu Kessler: Estadı́stica industrial
c).
Ejemplo
Se estudia el rendimiento Y de una reacción quı́mica en función de la temperatura
T M P a la que se lleva a cabo, la concentración inicial del producto C y el tiempo
T que transcurre.
Los datos se presentan en la tabla siguiente:
Temperatura(C)
10
15
10
15
10
15
10
15
Concentración( %)
40
40
40
40
50
50
50
50
Tiempo(mn)
20
20
25
25
20
20
25
25
Rendimiento
28.27
36.33
26.00
37.00
37.40
42.45
39.42
45.47
Buscamos un modelo de la forma:
Y
= β1 + β2 T emp + β3 Conc + β4 T iempo
Y
= β1 X1 + β2 X2 + β3 X3 + β4 X4
X1 = 1,
X2 = T emp,
donde Y es el rendimiento.
Para este modelo la matriz de diseño es

1 10
 1 15

 1 10

 1 15
X=
 1 10

 1 15

 1 10
1 15
X3 = Conc,
40
40
40
40
50
50
50
50
20
20
25
25
20
20
25
25
X4 = T iempo,












y las distintas cantidades que necesitamos para calcular los coeficientes son


8
100
360
180
 100 1300 4500 2250 

X 0X = 
 360 4500 16400 8100 
180 2250 8100 4100

C = X 0X
−1
23,5
−0,25
 −0,25
0,02
=
 −0,225
0
−0,45
0

−27. 995

1. 509
X 0Y = 
 0. 9285
0. 173

−0,225 −0,45
0
0 

0,005
0 
0
0,02




III.4 Inferencia para la regresión
31

−27,96

 1,51

β̂ = C · X 0 Y = 
 0,93

0,17

El modelo ajustado es por lo tanto
Rendimiento = −27,96 + 1,51T emp + 0,93Conc + 0,17T iempo.
En particular deducimos que un aumento de 1 grado en la temperatura a la que se
realiza la reacción induce un aumento de 1.51 puntos en el rendimiento.
En la tabla siguiente presentamos los valores observados para la respuesta, los
valores ajustados por nuestro modelo y los residuos.
y
28.27 36.33 26.00 37.00 37.40 42.45 39.42 45.47
ŷ
27.70 35.24 28.56 36.10 36.98 44.52 37.84 45.38
0.57
1.09 -2.56
0.90
0.42 -2.07
1.58
0.09
residuos
III.4.
Inferencia para la regresión
III.4.1.
Introducción
Al igual que en los dos primeros temas, conseguiremos sacar información más precisa sobre el fenómeno bajo estudio si disponemos de un modelo para el mecanismo
de generación de los datos que hemos observado.
Para simplificar, empecemos por el caso en que sólo tenemos una variable explicativa X. Consideramos entonces el experimento que consiste en escoger un valor de
X y observar el valor de la respuesta Y resultante. ¿Cómo explicar que, si escogemos varios valores de X, obtenemos una nube de puntos que, por ejemplo, parece
globalmente seguir una recta? Los puntos observados sufren desviaciones de la recta,
algunas veces se encuentran por abajo, otras por encima. El modelo que explica la
relación entre el dato obtenido para Y y el escogido para X puede por lo tanto ser
Y = aX + b + ε,
donde ε es una variable aleatoria (por lo tanto impredecible) que algunas veces toma
valores negativos, lo que implica que el punto observado está por debajo de la recta,
y otras veces positivos. La variable ε corresponde a la perturbación aleatoria que
sufre la relación lineal entre Y y X.
Para completar la especificación del modelo, sólo nos falta escoger un modelo para la distribución de los valores que puede tomar la perturbación ε. La opción más
extendida y que suele ser bastante acorde con lo observado en la práctica corresponde a la campana de Gauss: suponemos que, sea cual sea el valor escogido de X, la
perturbación ε asociada a la generación del valor de la respuesta sigue una distribución normal con media cero (el centro de los valores de la perturbación corresponde
a la situación sin perturbación) y con la misma desviación tı́pica σ, es decir
ε ∼ N (0, σ 2 ).
En conclusión, el modelo que escogemos para la respuesta Y en el caso en que
conocemos el valor de X, es
Y ∼ N (aX + b, σ 2 ),
32
Mathieu Kessler: Estadı́stica industrial
si pensamos ajustar una recta mientras que, para el caso más general de la regresión
lineal múltiple:
Y ∼ N (β1 X1 + β2 X2 + · · · + βk Xk , σ 2 ).
(III.5)
Dos caracterı́sticas fundamentales de nuestro modelo son
La respuesta promedio, es decir la esperanza de Y , E[Y ] está dada por
E[Y ] = β1 X1 + β2 X2 + · · · + βk Xk ,
es decir que el centro de los valores que obtenemos corresponde precisamente
a un elemento de la familia parámetrica que hemos escogido.
La varianza de la perturbación, y por lo tanto de la respuesta, no depende del
valor concreto de las variables explicativas: hablamos de homocedasticidad.
III.4.2.
Algunas distribuciones muestrales
Fijado este modelo, nos damos cuenta de que consideramos ahora que los datos
que hemos observado son el resultado de un experimento aleatorio, y que si repitiera
la toma de las mismas n combinaciones de valores de las explicativas y observara los
n valores resultantes de la respuesta, obtendrı́a otra nube de puntos, seguramente
con una forma global parecida, pero distinta. En particular, los coeficientes ajustados
β̂1 , . . . , β̂k que calcuları́a serı́an distintos. En resumen, las cantidades β̂1 , . . . , β̂k son
variables aleatorias, cuya distribución muestral es de sumo interés para poder realizar
afirmaciones sobre la relación entre Y y las variables explicativas.
La teorı́a estadı́stica determina en el caso de la regresión lineal múltiple las
distribuciones muestrales de los coeficientes estimados, si suponemos que los datos
han sido generados a partir del modelo (III.5).
Puesto que nuestro objetivo aquı́ es llegar a interpretar los principales elementos
de la salida de un programa como SPSS, nos limitamos a las distribuciones muestrales
de cada β̂i .
Estimaremos la varianza σ 2 de la perturbación por la varianza residual σ̃ 2 que
definimos a continuación,
σ̃ 2 =
n
1 X
(yi − ŷi )2 .
n−k
(III.6)
i=1
Introduzcamos ahora la matriz C = (X 0 X)−1 , tenemos que, para todo i = 1, . . . , k,
β̂i
1/2
σ̃Cii
∼ tn−k ,
(III.7)
donde Cii denota el i-ésimo elemento de la diagonal de C, y tn−k es la distribución
1/2
t de Student con n − k grados de libertad. El denominador σ̃Cii se llama el error
estándar del estimador β̂i .
III.4 Inferencia para la regresión
III.4.3.
33
Contrates de significación
La principal utilidad que haremos de la distribución muestral (III.7) consistirá en
plantear el contraste para comprobar si un determinado coeficiente en la regresión
es significativamente diferente de cero. Para i entre 1 y k, plantearemos las hipótesis
H0 : βi = 0
H1 : βi 6= 0.
A continuación, obtenemos el valor de β̂i a partir de los datos que hemos observado
ası́ como el de la varianza residual (III.6), para acabar calculando el valor concreto t̂
i
para nuestra muestra del estadı́stico de prueba β̂1/2
. El p-valor se obtendrá entonces
σ̃Cii
como P[|tn−k | > |t̂|] donde tn−k representa una variable con distribución t de Student
con n − k grados de libertad.
Los contrastes
H0 : βi = 0
H1 : βi 6= 0,
son particularmente importantes a la hora de construir el modelo. Muy a menudo no
tenemos muy claro si una determinada variable tiene influencia sobre la respuesta
o no, y por lo tanto no sabemos si el modelo que construimos para la respuesta
promedio debe incluirla.
III.4.4.
Ejemplo
Volvamos al ejemplo del rendimiento de la reacción quı́mica. El ajuste obtenido
era
E[Y ] = Rendimiento promedio = −27,96 + 1,51T emp + 0,93Conc + 0,17T iempo,
es decir que los coeficientes de cada variable explicativa han sido todos estimados por
valores distintos de cero, lo que induce a pensar que tanto la temperatura como la
concentración inicial del reactivo como el tiempo de reacción tienen una influencia sobre el rendimiento. Sin embargo ¿son estos coeficientes significativamente diferentes
de cero?, ¿o es que su alejamiento del valor nulo se debe solamente a la variabilidad natural de los valores del estimador β̂i correspondiente? A lo mejor si repito el
experimento completo, obtendrı́a una ecuación ajustada en la que el coeficiente del
tiempo estuviera muy cerca de cero o incluso negativo, lo que cambiarı́a del todo
mi conclusión sobre el efecto del tiempo sobre el rendimiento. Los contrastes de significación sobre cada coeficiente nos permiten contestar a estas preguntas. Para los
datos descritos en la sección I.3.2 c), un programa estadı́stico como SPSS o Statistix nos proporciona los valores estimados β̂1 , . . . , β̂k , sus errores estándar, el valor
de los estadı́sticos de prueba ası́ como los p-valores asociados a los contrastes de
significación de los coeficientes. Una salida tı́pica serı́a:
34
Mathieu Kessler: Estadı́stica industrial
Variable
Constante
Conc
Tiempo
Temperatura
β̂i
-27.96
0.93
0.17
1.51
Error estándar β̂i
9.65
0.14
0.28
0.28
Est. prueba
-2.90
6.6
0.61
5.36
p-valor
0.0442
0.003
0.57
0.006
y nos proporciona un coeficiente de determinación múltiple R2 igual a 0.95. Entre
los p-valores asociados a los contrastes de significación de los coeficientes, hay que
destacar el correspondiente al coeficiente de la variable tiempo con un valor de 0.57.
Un p-valor tan alto para el contraste H0 : β4 = 0 contra H1 : β4 6= 0 evidencia que
los datos soportan la hipótesis nula. Deducimos por lo tanto que el tiempo (por lo
menos en el rango de valores que hemos experimentado, es decir 20 o 25 minutos) no
tiene una influencia significativa sobre el rendimiento. Podemos por lo tanto probar
a eliminarlo del modelo y buscar una relación del tipo:
E[Y ] = Rendimiento promedio = β1 + β2 T emp + β3 Conc.
Obtenemos para este modelo:
Variable
Constante
Conc
Temperatura
β̂i
-24.09
0.93
1.51
Error estándar β̂i
6.81
0.13
0.26
Est. prueba
-3.54
7.05
5.73
p-valor
0.016
0.0009
0.002
con un R2 igual a 0.94. La bondad del ajuste medida por el coeficiente de determinación múltiple no ha variado mucho, por otra parte los p-valores correspondientes
a los contrastes de significación para los coeficientes β1 , β2 y β3 son ahora todos muy
pequeños, lo que nos lleva a rechazar que cualquiera de ellos sean nulos. A falta
de un examen de los residuos, que esbozaremos en prácticas, nos quedamos con el
modelo para el rendimiento promedio:
Rendimiento promedio = −24,09 + 0,93T emp + 1,51Conc.
III.4.5.
Introducción a la construcción de modelos
En situaciones en las que se dispone de un gran número de variables explicativas
y pocos conocimientos previos sobre cuáles pueden tener una influencia sobre la
respuesta, serı́a útil disponer de un procedimiento que nos permita incorporar o
eliminar variables de manera casi automática en el modelo, y nos proporcione al
final “un” modelo que dé cuenta de los datos. Empecemos por decir que no existe un
procedimiento que funcione de manera satisfactoria en todos los casos, en cambio se
han propuesto muchos intentos de solución, ninguno ha conseguido la unanimidad
de los especialistas sobre sus virtudes, y es un campo de la estadı́stica en el que se
sigue investigando de manera activa.
Presentaremos aquı́ dos métodos muy sencillos y intuitivos, pero que tienen limitaciones para conjuntos de muchas variables: el cálculo de todas las posibles regresiones y la eliminación hacia atrás.
III.4 Inferencia para la regresión
a).
35
Cálculo de R2 para todos los posibles submodelos
Un primer método bastante natural consiste en realizar una comparación de
todos los modelos que podrı́a construir con combinaciones lineales de las variables
explicativas, y calcular el valor de R2 asociado a cada uno. Supongamos que tenemos
en total k posibles regresores X1 , . . . , Xk , podemos construir 2k posibles submodelos
utilizando algunos de estos regresores. Tenemos submodelos con sólo 1 regresor:
E[Y ] = β1 X1 , . . . E[Y ] = βk Xk , submodelos con sólo dos dos regresores: E[Y ] =
β1 X1 +β2 X2 , . . . , β1 X1 +βk Xk , . . . , E[Y ] = βk−1 Xk−1 +βk Xk , con sólo tres regresores
etc... hasta el modelo completo con los k regresores.
Para el ejemplo del rendimiento de la reacción quı́mica, es razonable del punto
de vista quı́mico que siempre esté el término constante, nos limitamos entonces a
incluir o excluir las tres variables explicativas C, TMP y T . Los submodelos son
23 = 8, los describimos a continuación, junto con el valor de R2 del ajuste asociado:
Modelo
E[Y ] = β1
E[Y ] = β1 + β2 C
E[Y ] = β1 + β3 TMP
E[Y ] = β1 + β4 T
E[Y ] = β1 + β2 C + β3 TMP
E[Y ] = β1 + β2 C + β4 T
E[Y ] = β1 + β3 TMP + β4 T
E[Y ] = β1 + β2 C + β3 TMP + β4 T
R2
0
0,568
0,375
0,375
0,943
0,573
0,38
0,948
Dos modelos aparecen con un alto valor de R2 : el modelo completo y el correspondiente a E[Y ] = β1 + β2 C + β3 TMP , en el que ha desaparecido la variable Tiempo.
En los otros submodelos se nota un descenso importante de la calidad de ajuste.
Puesto que el valor de R2 apenas difiere, nos quedamos con el modelo más simple:
E[Y ] = β1 + β2 C + β3 TMP .
Una desventaja evidente de este método es que el número de modelos a comparar
puede ser rápidamente muy grande en cuanto tenemos varias variables explicativas.
Además el criterio de comparación - cálculo de R2 - es pobre y a menudo no ayuda
a seleccionar el modelo más satisfactorio.
b).
Eliminación hacia atrás.
Otro método muy utilizado y implementado en cualquier programa de estadı́stica
corresponde a la eliminación hacia atrás. Empezamos con el modelo completo, que
incluye todos los regresores. Se trata de un algoritmo recursivo, que empieza con el
modelo completo y desarrolla los siguientes pasos
a) Realizamos el ajuste, y calculamos el p-valor asociado al contraste de significación para cada coeficiente.
b) Nos fijamos en la variable con el p-valor más alto: si éste es mayor que un umbral prefijado (0.1 por ejemplo), eliminamos la variable del modelo y volvemos
al paso a).
El algoritmo se para cuando todos los p-valores son menores que el umbral.
36
Mathieu Kessler: Estadı́stica industrial
Si el umbral se fija en 0.1, el procedimiento de eliminación hacia atrás para
el ejemplo del rendimiento quı́mico coincide con los pasos que hemos seguido en la
sección III.4.4, la conclusión es la misma que para el cálculo de los todos submodelos
posibles: nos quedamos con el modelo en el que aparecen un término constante, la
concentración y la temperatura.
En todos los casos, sea cual sea el método de construcción de modelo que escogemos, debemos controlar todos los pasos que realiza el algoritmo y no confiar
ciegamente en el resultado final proporcionado por el programa.
Apéndice
A continuación se presentan los datos de Anscombe (1973), ”Graphs in statistical
analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de
X1 , X2 , X3 , y X4 asi como de Y1 , Y2 , Y3 y Y4 y a continuación calcular las rectas de
regresión de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro gráficas
de Yi en función de Xi para i=1, 2, 3, 4.
X1
10
8
13
9
11
14
6
4
12
7
5
Y1
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
X2
10
8
13
9
11
14
6
4
12
7
5
Y2
9.14
8.14
8.74
8.77
9.26
8.1
6.13
3.1
9.13
7.26
4.74
X3
10
8
13
9
11
14
6
4
12
7
5
Y3
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
X4
8
8
8
8
8
8
8
19
8
8
8
Y4
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.5
5.56
7.91
6
TEMA
IV
Análisis en componentes principales
IV.1.
Introducción
IV.1.1.
Presentación
En situaciones en las que consideramos un gran número de variables cuantitativas
asociadas a cada individuo de un conjunto, es difı́cil tener una visión general de las
asociaciones que puedan existir entre ellas. Sin embargo serı́a muy conveniente; en
efecto, si detectáramos por ejemplo asociaciones muy fuertes entre algunas variables,
podrı́amos omitir en nuestro estudio las variables que se pueden predecir a partir de
otras, y conseguir ası́ una descripción del conjunto más sencilla al involucrar menos
variables: es el problema importante de la reducción de dimensión en un conjunto
de datos con muchas variables. En particular la reducción de dimensión del conjunto
puede facilitar la descripción de la estructura de la variabilidad presente en los datos.
Un primer paso que nos puede ayudar y que hemos aplicado repetidamente en
prácticas de regresión lineal múltiple, consiste en calcular la matriz de correlaciones
de las variables presentes, y buscar valores de la correlación próximos a ±1. El
análisis en componentes principales que describimos en este tema es una técnica
muy relacionada al ser también basada de la matriz de correlación / covarianza de
los datos.
El objetivo es reducir la dimensión del conjunto de datos, pero perdiendo poca
información sobre los individuos. Supongamos que cada individuo está descrito por
k variables. Presentaremos los datos en una matriz, que contará tantas columnas
como variables - k en nuestro caso - y lı́neas como individuos, por ejemplo n.


x11 x12 · · · x1k
 x21 x22 · · · x2k 


X= .
(IV.1)
.
..
..
..
.
 .

.
.
.
xn1 xn2 · · · xnk
Los datos forman una nube de n puntos en un espacio k-dimensional. Por su-
38
Mathieu Kessler: Estadı́stica industrial
puesto, si k ≥ 3, es imposible representar esta nube gráficamente. Sin embargo, está
claro que descripciones equivalentes del conjunto se pueden obtener con un simple
cambio de sistemas de coordenadas. La técnica de componentes principales consiste
en determinar el sistema de coordenadas que facilitará la reducción de dimensión.
Para entender el tipo de cambio de sistemas de coordenadas que nos proporciona el
análisis en componentes principales, dedicamos ahora algo de tiempo al caso sencillo
en el que sólo tenemos dos variables, es decir k = 2.
IV.1.2.
Planteamiento para dos variables
5
10
Observamos dos variables para unos 20 individuos, obteniendo la matriz de datos
20 × 2 recogida en el apéndice, y la nube representada en la figura IV.1.
●
●
●
●
●
0
X2
●
●
●
●
● ●
●
●
●
●
−10
−5
●
●
●
●
−10
−5
0
5
10
X1
Figura IV.1: Nube de puntos, datos originales
¿Cuál serı́a el cambio de ejes que más nos convendrı́a si quisiéramos conseguir una
reducción de la dimensión del conjunto? Para reducir la dimensión, una vez realizado
el cambio de sistema de coordenadas, nos quedamos sólo con la primera componente
para cada individuo. Está claro que la nueva descripción será más pobre que la
original, al sustituir un par de números para cada individuo por un único número,
pero si tenemos la suerte de que en el nuevo sistema, la segunda componente toma
IV.1 Introducción
39
valores parecidos para todos los individuos, la pérdida de información será pequeña,
puesto que de todas formas, la componente que omitimos no diferencia mucho a los
individuos.
Intuitivamente, los ejes que buscamos corresponden a los representados en la
figura IV.2. En efecto, si llamamos Z1 y Z2 las coordenadas de los puntos en el
X2
Z2
●
●
●
●
Z1
●
x2
●
●
●
●
● ●
●
●
●
●
●
●
X1
●
●
x1
Figura IV.2: Nube de puntos con los nuevos ejes
nuevo sistema de coordenadas, observamos que esta elección de los ejes consigue
que la primera componente presente la mayor varianza, mientras que la segunda
componente la menor varianza posible. La figura IV.3 representa la misma nube de
puntos en el nuevo sistema OZ1 OZ2 . Observamos que en esta figura, el eje OZ1
coincide con la recta de regresión ajustada a la nube, por lo tanto, la pendiente de
la recta de regresión de Z2 sobre Z1 es nula, lo que implica que la covarianza entre
estas dos variables es nula. En resumen, el cambio de coordenadas que buscamos
proporciona dos variables Z1 y Z2 cuya matriz de covarianzas es diagonal.
Tal como lo desarrollamos en lo que sigue, el análisis en componentes principales
determina el cambio de coordenadas en las que las nuevas componentes de la nube
de puntos presenten una matriz de covarianzas diagonal.
40
Mathieu Kessler: Estadı́stica industrial
Z2
X2
●
z2
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
Z1
● ●
X1
z1
Figura IV.3: Nube de puntos rotada y representada en el nuevo sistema de coordenadas
IV.2.
Planteamiento general
IV.2.1.
Preliminares
a).
Recordatorios sobre cambio de base
Sea x~1 , . . . , ~xk una base de Rk . Consideramos la nube k-dimensional de n puntos
que llamamos M1 , M2 , . . . , Mn . (xi1 , xi2 , . . . , xik ) son las coordenadas del punto Mi
en la base x~1 , . . . , ~xk . Cada lı́nea de la matriz X definida en (IV.1) corresponde por
lo tanto a los componentes de un punto de la nube en el sistema de coordenadas
inducido por esta base.
Consideramos ahora otra base ~u1 , . . . , ~uk de Rk . Sean (zi1 , zi2 , . . . , zik ) las coordenadas del punto Mi en esta nueva base. Construimos la matriz k × n Z cuyas
IV.2 Planteamiento general
41
lı́neas contienen las coordenadas de los

z11
 z21

Z= .
 ..
puntos de la nube en la base u~1 , . . . , ~uk :

z12 · · · z1k
z22 · · · z2k 

.
..
..
..

.
.
.
zn1 zn2 · · · znk
Para relacionar Z con X, consideramos U , la matriz de paso de la base ~x1 , . . . , ~xk
a la nueva base. Recordar que la matriz U es una matriz k × k cuyas columnas
contienen las coordenadas de los vectores ~u1 , . . . , ~uk en la base inicial, es decir si
~u1 = u11 ~x1 + u21 ~x2 + · · · + uk1 ~xk
~u2 = u12 ~x1 + u22 ~x2 + · · · + uk2 ~xk
.. ..
. .
~uk = u1k ~x1 + u2k ~x2 + · · · + ukk ~xk ,
la matriz de paso será



U =

u11
u21
..
.
u12
u22
..
.
···
···
..
.
u1k
u2k
..
.



.

uk1 uk2 · · · ukk
La relación entre Z, X y U es
X = ZU 0 ,
(IV.2)
donde U 0 denota la matriz transpuesta de U . U es invertible y deducimos que
X(U 0 )−1 = Z.
(IV.3)
Nota: Si los vectores ~u1 , . . . , ~uk forman una base ortonormal, la matriz U satisface
U 0 U = Id, y por lo tanto (U 0 )−1 = U .
b).
Matriz de covarianzas y cambio de bases
Volvamos al conjunto de datos representado por la matriz X. La matriz de covarianzas de las variables X1 , . . . , Xk para este conjunto es
 2

sX1
sX1 X2 · · · sX1 Xk
 sX X s2
· · · sX2 Xk 
1 2
X2


SX =  .
(IV.4)
,
.
..
..
..
 ..

.
.
sX1 Xk
sX2 Xk
· · · s2Xk
donde s2Xi representa la varianza de la variable Xi en el conjunto y sXi Xj es la
covarianza de Xi y Xj , ver ecuaciones (I.1) y (III.2) de los temas 1 y 3.
Supondremos ahora, para simplificar las notaciones y sin perder generalidad,
que las variables en X1 , . . . , Xk están centradas, es decir que tienen media cero:
42
Mathieu Kessler: Estadı́stica industrial
x¯1 = . . . = x¯k = 0. En este caso, es fácil comprobar que la matriz de covarianzas de
X se puede expresar como
1
SX =
X 0 X.
(IV.5)
n−1
Utilizando la relación (IV.2), deducimos que la matriz SZ de covarianzas de las variables Z1 , . . . , Zk , componentes de los puntos en la nueva base ~u1 , . . . , ~uk se relaciona
con SX a través de
SZ =
1
1
Z 0Z =
U −1 X 0 X(U 0 )−1 = U −1 SX (U 0 )−1 .
n−1
n−1
En el caso en que U es ortogonal, la relación se escribe
SZ = U −1 SX U.
IV.2.2.
(IV.6)
Análisis en componentes principales
Tal como lo ilustramos en el ejemplo particular de dos variables, el análisis en
componentes principales persigue determinar el cambio de sistema de coordenadas
en el que la matriz de covarianzas de las nuevas componentes sea diagonal. Por
los preliminares vistos en la sección anterior, y en particular la relación (IV.6),
deducimos que los vectores de la nueva base ~u1 , . . . , ~uk que lo consiguen son los
vectores propios de la matriz SX .1
Por su forma, una matriz de covarianzas es siempre diagonalizable y además sus
valores propios son todos mayores o iguales a cero. Introducimos la definición
Sean λ1 ≥ λ2 ≥ · · · ≥ λk ≥ 0 los valores propios ordenados de SX . Llamemos
~u1 , ~u2 , . . . , ~uk los vectores propios de norma 1 asociados. Los componentes Z1 , . . . , Zk
de los puntos del conjunto en la base ~u1 , ~u2 , . . . , ~uk son los componentes principales
del conjunto de datos descrito por la matriz X. Al calcular los vectores propios de
la matriz SX , obtenemos los coeficientes uij de la matriz U de paso (ver (a)). Por la
fórmula de cambio de base (IV.3), deducimos que
Z1 = u11 X1 + u21 X2 + · · · + uk1 Xk
Z2 = u12 X1 + u22 X2 + · · · + uk2 Xk
.. ..
. .
Zk = u1k X1 + u2k X2 + · · · + ukk Xk .
Los componentes principales Z1 , . . . , Zk se obtienen por lo tanto como combinaciones
lineales de las variables originales X1 , . . . , Xk , cuyos coeficientes se deducen de la
expresión de los vectores propios.
Volvamos al ejemplo simple visto en la sección IV.1.2 y cuyos datos se pueden
encontrar en el apéndice. La matriz de covarianzas de los datos es
11,249135 5,199287
SX =
,
5,199287 3,840685
1
Recordar que λ es un valor propio de la matriz A, y ~
u es un vector propio asociado a λ, si se
cumple A~
u = λ~
u.
IV.3 Propiedades
43
y utilizando un programa como SPSS o Mathematica, obtenemos que los dos valores propios son λ1 ' 13,93 y λ2 ' 1,16. Los vectores propios asociados son
~u1 = (−0,89, −0,46) y ~u2 = (0,46, −0,89). Deducimos que los dos componentes
principales son
Z1 = −0,89X1 − 0,46X2
Z2 = 0,89X1 − 0,89X2
IV.3.
Propiedades
Por la definición de los componentes
covarianzas SZ es

λ1 0
 0 λ2

SZ =  .
 ..
...
0
principales, obtenemos que la matriz de
...
0
..
.
...
...
..
.
0
0
..
.



,

. . . . . . . . . λk
para todo 1 ≤ i ≤ k, el valor propio λi es por lo tanto la varianza del i-ésimo componente principal Zi . Por otro lado, por construcción, los componentes principales
son incorrelados (rZi Zj = 0).
Los principales teoremas del álgebra lineal nos permiten deducir las siguientes
propiedades de los componentes principales:
1. Cualquier combinación lineal estanderizada de las variables iniciales, es decir
a1 X1 + · · · + ak Xk con a21 + · · · + a2k = 1, presenta una varianza menor or igual
que la del primer componente Z1 , es decir:
V ar(a1 X1 + · · · + ak Xk ) ≤ λ1 .
Podemos decirlo de otra manera: sea cual sea el primer vector del nuevo sistema de coordenadas que escojamos, la varianza, para la nube de puntos, de
la primera componente en este nuevo sistema será menor o igual que λ1 , es
decir que, cuando fijamos este primer vector como u~1 , el vector propio de SX
asociado a λ1 , maximizamos la varianza de los valores que toma la primera
componente en la nube de puntos.
2. La variabilidad total se preserva.
V ar(X1 ) + · · · + V ar(Xk ) = V ar(Z1 ) + · · · + V ar(Zk )
= λ1 + · · · + λk
IV.4.
Ejemplos
IV.4.1.
Notas de examenes
Consideremos que el examen final de esta asignatura consta de dos partes que
contribuyen cada una al 50 % de la nota final: una parte teórica y una parte práctica.
44
Mathieu Kessler: Estadı́stica industrial
En la gráfica IV.4 se representa la nube de puntos correspondiente a 30 alumnos
(hipotéticos...)
Si realizamos un análisis de componentes principales de los datos, obtenemos que
los dos componentes principales son
Z1 = 0,65X1 + 0,76X2
Z2 = 0,76X1 − 0,65X2
con valores propios λ1 = 1,90 y λ2 = 0,08. Deducimos que la principal fuente
de variación presente en los datos, es decir, lo que más diferencia a los alumnos es
aproximadamente proporcional a la suma de las dos notas, es decir la nota total. La
segunda fuente de variación corresponde a la diferencia entre las dos notas: diferencia
entre los alumnos que lo han hecho bien en prácticas y mal en teorı́a y los que lo
han hecho al revés.
IV.4.2.
Encuesta de presupuestos familiares
Para ilustrar el método de los componentes principales, utilizaremos el ejemplo
de la encuesta de Presupuestos Familiares, estudiado en Peña (2002) Análisis de
datos multivariantes, p140.
La encuesta de presupuestos familiares en España para el año 1990/1991, recoge
los gastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla
aparecen unidas como una provincia). Las variables son: X1 = alimentación, X2 =
vestido y calzado, X3 = vivienda, X4 = mobiliario doméstico, X5 = gastos sanitarios, X6 = transporte, X7 = enseñanza y cultura, X8 = turismo y ocio, X9 12 otros
gastos.
Por razones de simetrı́a, se trabaja con los logaritmos de los datos, es decir que
consideramos las variables Y1 = log(X1 ), . . . , Y9 = log(X9 ).
Los valores propios de la matriz SY de covarianzas de Y que encontramos son
λ1 = 0,348 λ2 = 0,032 λ3 = 0,027 λ4 = 0,018 λ5 = 0,013 λ6 = 0,011
λ7 = 0,010 λ8 = 0,010 λ9 = 0,005
El vector propio asociado a λ1 nos proporciona el primer componente principal:
z1 = 0,12y1 + 0,18y2 + 0,30y3 + 0,31y4 + 0,46y5 + 0,34y6
+0,50y7 + 0,31y8 + 0,31y9
El primer componente, el que mejor permite diferenciar a las distintas provincias en
cuanto a presupuestos familiares, es por lo tanto una suma ponderada de todas las
variables. Las variables que más peso tienen en esta suma son las que corresponden
a los gastos en enseñanza y cultura (Y7 ) y sanitarios (Y5 ). En cambio, los gastos en
alimentación (Y1 ) tienen menor peso. Si clasificamos las provincias según su valor
para el componente Z1 , que dejamos en ejercio para el lector, observamos que la
clasificación refleja los niveles de la renta media por familia en cada provincia.
IV.5 Criterio de selección del número de componentes
El segundo componente, asociado al valor propio λ2 = 0,032, es
z2 = 0,05y1 + 0,16y2 − 0,17y3 + 0,07y4 − 0,21y5 + 0,29y6
−0,40y7 − 0,17y8 + 0,78y9
= (0,05y1 + 0,16y2 + 0,07y4 + 0,29y6 + 0,78y9 )
−(0,17y3 + 0,21y5 + 0,40y7 + 0,17y8 ).
Este segundo componente corresponde por lo tanto a la diferencia entre dos sumas
ponderadas: la primera incluye las variables Y1 , Y2 , Y4 , Y6 y Y9 y da sobre todo peso
a Y9 (otros gastos) y Y6 (transporte). D. Peña conjetura que, al estar incluidas en
otros gastos las transferencias fuera de la provincia a miembros de la familia mayores
de 14 años que no residan en ella, este componente separa las provincias que reciben
transferencias de las que las envian.
IV.5.
Criterio de selección del número de componentes
Recordamos que nuestro objetivo es conseguir una reducción de la dimensión del
conjunto de datos, pero ¿cómo seleccionar el número de componentes que permita
dar cuenta suficiente de la variabilidad y que a la vez suponga una reducción en el
número de variables? Al igual que para otros métodos, se han propuesto un gran
número de procedimientos para determinar el número de componentes retenidos,
nos limitamos a dos muy sencillos.
IV.5.1.
Diagrama de codo
Se representan los valores propios λi en función de i. Buscamos detectar un
punto a partir del cuál los valores propios son próximos y pequeños. El diagrama
correspondiente se llama en inglés “Scree plot” que se puede traducir por “diagrama
de codo”. Para el ejemplo de la encuesta de presupuestos familiares, el diagrama de
codo se representa en la figura IV.5 Se observa que podemos retener la primera o
las dos primeras componentes y conseguir una efectiva reducción de la dimensión.
IV.5.2.
Proporción de variabilidad explicada
Puesto que la varianza del componente i-ésimo es λ y que la variabilidad total
es la suma de los valores propios (ver propiedad 2 en la sección IV.3), la proporción
de la variabilidad total explicada por los p primeros componentes es
λ1 + · · · + λp
.
λ1 + · · · + λp + · · · λk
Se suele por lo tanto considerar que nos quedamos con los componentes que explican más del 90 % o 95 % de la variabilidad total. En el ejemplo de la encuesta de
presupuestos familiares, tenemos
45
46
Mathieu Kessler: Estadı́stica industrial
Valor propio
λ1
λ2
λ3
λ4
λ5
λ6
λ7
λ8
λ9
% Variabilidad
0.734
0.068
0.057
0.038
0.027
0.023
0.021
0.021
0.011
% acumulado variabilidad explicada
0.734
0.802
0.859
0.897
0.924
0.947
0.968
0.989
1.000
Nos deberı́amos quedar con los cuatro ó 6 primeros componentes. Sin embargo, es
muy dı́ficil en general interpretar de manera inteligente más de uno o dos componentes, es por lo tanto más razonable quedarse en este ejemplo con los dos primeros.
Appéndice
Datos del ejemplo, sección IV.1.2.

1,360
 −2,115

 −2,460

 3,235

 2,030

 5,335

 6,120

 4,395

 1,375


 −5,345
X=
 −3,020

 −0,715

 −0,605

 2,210

 1,840

 −4,295

 4,000

 −0,080

 −3,960
−2,270
0,705
−0,720
0,670
0,930
−1,685
4,080
2,660
3,660
0,775
−2,610
−0,535
0,580
−1,915
1,030
2,595
−0,135
1,775
−0,440
−2,605
−1,860



















.

















47
3
2
1
0
Nota prácticas
4
5
IV.5 Criterio de selección del número de componentes
0
1
2
3
4
Nota teoría
Figura IV.4: Nube de puntos correspondiente al ejemplo de las notas.
5
Mathieu Kessler: Estadı́stica industrial
●
0.20
0.15
0.10
0.05
●
●
●
0.00
lambda
0.25
0.30
0.35
48
2
●
4
●
●
6
i
Figura IV.5: Diagrama de codo, encuesta de presupuestos familiares
●
8
●
TEMA
V
Análisis de conglomerados
V.1.
Introducción
Al Cesar lo que es del Cesar: este tema está esencialmente inspirado en el capı́tulo correspondiente del excelente libro de Daniel Peña, 2002, Análisis de datos
multivariantes, MacGraw Hill. He procedido a una simplificación de su exposición
para adaptarla al nivel que pienso adecuado para nuestra asignatura.
El objetivo del análisis en conglomerados, o análisis “cluster”, es conseguir agrupar individuos en grupos “similares” acorde a los valores que toman varias variables.
Estos métodos tratan tres tipos de problemas:
1. Partición de los datos. Se busca dividir un conjunto de datos en un número
G prefijado de grupos de tal manera que
a) Los grupos no se solapan.
b) Todos los elementos quedan clasificados.
c) Los grupos son homogeneos en cuanto a valores de las variables observadas.
Un ejemplo consiste en el análisis de las respuestas a una encuesta sobre preferencias televisivas donde se pide que cada encuestado puntue sobre 10 una serie
de 30 programas televisivos. Para cada individuo, se dispone de los valores de
30 variables, y se busca clasificar cada individuo en grupos de telespectadores
acorde a los valores de estas variables.
2. Construcción de jerarquı́as. Dado un conjunto de datos, se busca construir una jerarquı́a de clasificación, basándose en una medida de distancia o
similitud entre individuos, obteniendo una clasificación en grupos - subgrupos
- subsubgrupos, etc...
Podemos por ejemplo analizar un conjunto de paises según varios indicadores de riqueza. Aparecerán en un primer nivel tres grandes grupos; un grupo
50
Mathieu Kessler: Estadı́stica industrial
correspondérá al llamado “Primer mundo” que contendrá en particular Europa,
EEUU, Japón y Canada, un segundo grupo contendrá paises en vı́a de desarrollo, mientras que un tercerá contendrá los paises subdesarrollados. En un
segundo nivel de jerarquı́a, dentro del primer grupo, distinguiremos subgrupos,
en el caso de Europa por ejemplo, estos subgrupos podrı́an corresponder a los
paises “de cabeza”, del “pelotón” o de cola...
3. Clasificación de variables. En lugar de clasificar los individuos, buscamos
agrupar variables que presenten similitudes, basándose en los valores que toman para un conjunto de individuos, con el objetivo de conseguir una reducción
de la dimensión.
En las secciones siguientes, trataremos los dos primeros puntos.
V.2.
Método de partición. El algoritmo de k-medias.
V.2.1.
Presentación
Tenemos un conjunto de n individuos y los valores de k variables X1 , X2 , . . . , Xk
para cada individuo; queremos particionar este conjunto en un número G prefijado
de grupos.
El algoritmo de k-medias es un procedimiento iterativo que parte de una partición
inicial y en cada iteración puede cambiar la asignación de un individuo a los grupos
para conseguir una “mejor” partición, hasta dar con una partición satisfactoria.
El conjunto de datos consiste en n“puntos”del espacio euclideo k-dimensional Rk .
A cada individuo asociaremos un “punto” con coordenadas (x1 , x2 , . . . , xk ) que son
los valores que toman las variables X1 , X2 , . . . , Xk para este individuo. Procedamos
a introducir distintas notaciones asociadas a una partición. Dada una partición en
G grupos, denotaremos por n1 , n2 , . . . , nG el número de individuos en el primer
grupo, en el segundo,..., en el G-ésimo respectivamente. Tenemos por lo tanto que
n1 + · · · + nG = n, donde n es el número total de individuos en el conjunto. Además
suponemos que observamos los valores de k variables, X1 , X2 , . . . , Xk . El valor que
toma la variable Xj para el individuo número i del grupo g será xijg . La media y la
varianza de la variable Xj en el grupo g serán por lo tanto
x̄jg =
ng
1 X
xijg
ng
i=1
ng
s2jg
=
1 X
(xijg − x̄jg )2
ng − 1
i=1
Definimos el centro del grupo g como el punto de Rk con coordenadas (x̄1g , x̄2g , . . . , x̄kg ),
es decir las medias de las variables X1 , X2 , . . . , Xk para este grupo.
V.2.2.
Criterios para comparar particiones.
Para ser capaz de decidir si una partición de un conjunto de individuos es mejor
que otra, debemos darnos un criterio para comparar dos particiones.
Dada una partición P, buscamos un critero que mida la homogeneidad de los G
grupos. Un grupo será homogéneo si la dispersión de las variables X1 , X2 , . . . , Xk
V.2 Método de partición. El algoritmo de k-medias.
dentro de este grupo será pequeño. Una manera de medir la homogeneidad de la partición se consigue por lo tanto calculando para cada grupo la suma de las varianzas
de cada variable y realizar la suma sobre todos los grupos, dando más peso a los grupos más numerosos. Esta cantidad se llama la suma de cuadrados dentro de los
grupos asociada a la partición P, y se denota por SCDG(P). Más concretamente
SCDG(P) =
G X
k
X
s2jg (ng − 1).
g=1 j=1
Dadas dos particiones PA y PB , diremos que la partición PA es mejor que la
partición PB si SCDG(PA ) ≤ SCDG(PB ), es decir si PA es más homogénea que
PB .
Este criterio también se llama el criterio de la traza porque la cantidad SCDG(P)
se puede escribir como la traza de una matriz.
V.2.3.
Descripción del algoritmo
Al tratarse de un procedimiento iterativo, consta de una etapa inicial, de la
iteración, es decir como pasar de la etapa i a la etapa i + 1, y finalmente de un
criterio de parada.
1. Etapa inicial. Me doy una partición inicial, P0 .
Para ello, tendré que
a) elegir G centros para los G grupos iniciales. Puedo hacerlo escogiendolos
al azar entre los individuos del conjunto, escoger los puntos más alejados
entre sı́, o utilizar algún tipo de información a priori, que me indique
donde deberı́an estar estos centros.
b) asignar cada individuo del conjunto a un grupo, es decir asociarlo a uno de
los G centros escogidos anteriormente. Para ello, asigno cada individuo al
grupo cuyo centro está más cercano, en el sentido de la distancia euclı́dea.1
2. Iteración: como pasar de la partición Pi a la partición Pi+1 .
Partiendo de la partición Pi , considero el primer individuo y intento moverlo
de grupo llamando Q a la nueva partición. Si Q es mejor que Pi (es decir si
SCDG(Q) ≤ SCDG(Pi )), hago Pi+1 = Q. En caso contrario, considero el
segundo individuo y intento moverlo de grupo, etc...
3. Criterio de parada. Cuando Pi+1 = Pi , es decir, si no consigo mejorar la
partición moviendo algún individuo de Pi , el algoritmo se para.
V.2.4.
Comentarios
No se garantiza con este procedimiento que acabemos con la mejor particı́on
posible. Notar que un método directo que calcuları́a todas las posibles particiones en G grupos de los n individuos, y se quedarı́a con la particón con menor
SCDG, es imposible de llevar a cabo en la práctica, puesto que requerirı́a
calcular las SCDG de un número prohibitivo de particiones.
1
Recordar que si X = (x1 , x2 , . . . , xk ) e Y = p
(y1 , y2 , . . . , yk ) son dos puntos de Rk , la distancia
euclı́dea entre X eY se calcula como d(X, Y ) = (x1 − y1 )2 + · · · + (xk − yk )2 .
51
52
Mathieu Kessler: Estadı́stica industrial
El resultado final del algoritmo depende de la partición inicial y del orden de
los individuos en la muestra, hay por lo tanto tomar con cautela el resultado
proporcionado.
V.2.5.
Elección del número de grupos
El algoritmo que hemos descrito supone que hemos fijado de antemano el número de grupos G que queremos obtener. Sin embargo esta elección no siempre es
fácil y varios procedimientos, no siempre bien justificados, han sido propuesto para
realizarla. Descrimos ahora uno de estos procedimientos.
Supongamos que he ejecutado el algoritmo con G grupos y me pregunto si introduzco otro más, es decir si debo partir el conjunto en G + 1 grupos. LLamemos
SCDG(G) y SCDG(G + 1) las sumas de cuadrados finales obtenidas cuando el
algoritmo se ejecuta con G grupos y G + 1 grupos respectivamente. Calculamos
F =
SCDG(G) − SCDG(G + 1)
.
SCDG(G + 1)/(n − G − 1)
Merecerá la pena considerar una partición con G + 1 grupos en lugar de G grupos
si se consigue reducir la suma de cuadrados final significativamente. Es decir que, si
F es suficientemente grande, consideraré una partición con G + 1 grupos. En caso
contrario, me quedaré con la partición con G grupos. Una regla aproximada debida
a Hartigan es que si F es mayor de 10, escogeremos una partición con G + 1 grupos.
V.2.6.
Ejemplos
Ver los ejemplos tratados en prácticas.
V.3.
Métodos jerárquicos
V.3.1.
Presentación
Queremos clasificar en una jerarquı́a los individuos del conjunto. Esta clasificación se hará basándose en los valores de las variables observadas para cada individuo.
Recordar que los datos se presentan en la matriz de datos

x11
 ..
X= .
xn1

x1k

..
,
.
. . . xnk
...
..
.
donde cada fila representa un individuo, y en cada columna vienen recogidos los
valores de una variable.
Asimismo, asociamos a cada individuo un punto en el espacio Rk , cuyas coordenadas son los valores de las variables X1 , . . . , Xk . Los grupos, subgrupos, subsubgrupos que construiremos contendrán individuos cuyos puntos asociados estén cercanos
basándonos en una medida de su distancia.
V.3 Métodos jerárquicos
V.3.2.
a).
53
Distancia, similaridad
Para variables continuas ( que pueden tomar cualquier valor en un
intervalo).
Si todas las variables X1 , . . . , Xk son de tipo continuo, utilizamos la distancia
euclı́dea para medir lo alejado que están dos puntos. Es decir si a dos individuos se
asocian los valores observados (x11 , x12 , . . . , x1k ) y (x21 , x22 , . . . , x2k ) respectivamente, la distancia entre estos dos individuos se calcula como
p
(x11 − x21 )2 + · · · + (x1k − x2k )2 .
(V.1)
A menudo, para evitar que, si las variables se miden en escalas muy distintas
tengan unos pesos muy distintos en el cálculo de la distancia, se procede primero a
estanderizarlas.
Definición Si X es una variable en un conjunto de datos, estanderizar X consiste
en restarle su media y dividir la variable resultante por su desviación tı́pica, es decir
considerar
X − x̄
ZX =
.
sX
La variable ZX tiene en el conjunto media 0 y desviación tı́pica 1.
Al trabajar con las variables estanderizadas, conseguimos que tengan el mismo orden de magnitud y por lo tanto que ninguna domine de manera clara en la
expressión (V.1).
b).
Similaridad.
La distancia euclı́dea es válida para variables continuas pero si algunas de las
variables, por ejemplo X1 , son binarias (toman valores 0 ó 1, por ejemplo cómo
respuesta a una pregunta en la que hay que contestar por sı́ o no) el término correspondiente tendrá en general menor peso que el de variables continuas aún estanderizadas. Para conseguir una mayor homogeneidad en la importancia de cada vaiable
a la hora de medir lo alejados que están dos individuos, se introduce el coeficiente
de similaridad.
Definición El coeficiente de similaridad entre el individuo i y el individuo h según
la variable Xj es una cantidad sjih que cumple
i) 0 ≤ sjih ≤ 1.
ii) sjii = 1.
iii) sjih = sjhi .
A partir de los coeficientes de similaridad según cada variable del conjunto podemos
construir un coeficiente global de similaridad entre el individuo i y el individuo h,
que llamaremos sih , realizando una suma ponderada.
Se han propuesta varias medidas de similaridad, cabe destacar
para Xj , una variable binaria,
sjih = xij xhj + (1 − xij )(1 − xhj ),
que toma por lo tanto el valor 0 si Xj toma valores distintos para los dos
individuos i y h, y el valor 1 si toma valores idénticos.
54
Mathieu Kessler: Estadı́stica industrial
para Xj , una variable continua,
sjih = 1 −
| xij − xhj |
,
rango(xj )
donde el rango de xj es la diferencia máxima de dos valores de Xj en el
conjunto.
c).
Matriz de distancias
Después de haber calculado todas las distancias o similaridades entre los individuos de un conjunto, podemos representarlas en una matriz n × n, A = (aih )1≤i,h≤n .
El elemento aih de esta matriz, llamada matriz de distancias, es la distancia entre el
individuo i y el individuo h. Deducimos en particular que es una matriz simétrica,
cuyos elementos diagonales son todos nulos.
De manera similar podemos construir la matriz de similaridades
V.3.3.
Métodos aglomerativos
Son los que parten de los individuos separados y los van agrupando en distintos
niveles:
a).
Algoritmo
Tiene una forma iterativa:
1. Empezamos con tantas clases como individuos.
2. Dada una partición en clases, seleccionamos las dos clases más próximas y
formamos una nueva que las contenga como subclases.
3. Paramos cuando todos los elementos estén en una única clase.
La figura V.1 ilustra en un ejemplo muy simple los pasos del método aglomerativo: se
empieza con tantas clases como individuos (en este caso cuatro), y se van agrupando
las dos clases más próximas. La matriz de datos que corresponde a esta figura es

0,30
 0,35
X=
 0,70
0,80

0,6
0,4 
,
0,8 
0,5
(V.2)
y se deja como ejercicio al lector comprobar que la matriz de distancias asociada
(distancia euclı́dea) es

0
 0,21
D=
 0,45
0,51
0,21
0
0,53
0,46
0,45
0,53
0
0,32

0,51
0,46 
.
0,32 
0
●
C
A
●
C
A
D
●
0.4
0.4
●
●
D
B
0.0
0.0
0.2
B
0.2
●
●
0.6
0.6
●
0.8
0.8
1.0
55
1.0
V.3 Métodos jerárquicos
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
C
A
C
A
●
0.4
0.4
●
D
●
D
B
0.0
0.0
0.2
B
0.2
●
●
0.6
●
0.8
0.8
0.6
●
●
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
Figura V.1: Ilustración del método aglomerativo
b).
1.0
1.0
0.2
1.0
0.0
Como definir la distancia entre dos clases
Para llevar a cabo el algoritmo anterior, necesitamos ser capaces de calcular la
distancia entre dos clases con el objetivo de seleccionar las dos más próximas. Vista
la manera en la que el algoritmo va formando clases, es suficiente saber calcular la
distancia entre una clase formada por dos subclases A y B, que denotaremos por AB
y una tercera clase C. Repitiendo el procedimiento podremos calcular la distancia
entre dos clases en cualquier nivel del algoritmo. Para ello, se han propuesto varias
reglas:
Regla del encadenamiento simple, o del vecino más próximo:
d(AB, C) = min(d(A, C), d(B, C)).
Regla del encadenamiento completo, o del vecino más lejano:
d(AB, C) = max(d(A, C), d(B, C)).
Las jerarquı́as que resultan de la aplicación de una o otra regla no tienen por que
coincidir.
1.0
56
Mathieu Kessler: Estadı́stica industrial
c).
Cálculo para el ejemplo (V.2)
Recordar que la matriz de distancias para este

0
0,21 0,45
 0,21 0
0,53
D=
 0,45 0,53 0
0,51 0,46 0,32
ejemplo es

0,51
0,46 
.
0,32 
0
En el método de encadenamiento simple, los pasos que se siguen son: puesto que
d(A, B) = 0,21, d(A, C) = 0,45, d(A, D) = 0,51, d(B, C) = 0,53, d(B, D) = 0,46 y
d(C, D) = 0,32 , en el primer paso se agrupan A y B en una clase. Las distancias
entre las nuevas clases AB, C y D son d(AB, C) = mı́n(d(A, C), d(B, C)) = 0,45,
d(AB, D) = mı́n(d(A, D), d(B, D)) = 0,46 y d(C, D) = 0,32. Por lo tanto se agrupan
ahora C y D. Tenemos dos clases: AB y CD que se agrupan en una única clase.
En el método de encadenamiento completo, en el primer paso se siguen agrupando
A y B, ahora las distancias necesarias son d(AB, C) = máx(d(A, C), d(B, C)) = 0,53,
d(AB, D) = máx(d(A, D), d(B, D)) = 0,51 y d(C, D) = 0,32. Agrupamos C y D, y
obtenemos dos clases AB y CD como en el método anterior.
d).
Dendograma
El dendograma es una manera gráfica de representar los pasos seguidos en el
método iterativo: se colocan en un eje Ox los elementos en su orden de aparición en el
algoritmo, y en el eje Oy las distancias. Un agrupamiento de dos clases se representa
por un segmento horizontal a la altura correspondiente a la distancia entre estas dos
clases. La figura V.2 recoge el dendograma correspondiente al ejemplo (V.2).
0.35
B
A
Figura V.2: Dendograma para el ejemplo (V.2)
D
C
0.30
0.25
0.20
distancia
0.40
0.45
0.50
Dendograma
TEMA
VI
Análisis factorial
VI.1.
Introducción
El análisis factorial está asociado con un modelo matemático que pretende explicar las correlaciones en un grupo grande de variables en clave de un número pequeño
de factores subyacentes, también llamados variables latentes, que no podemos observar. Frente a las asociaciones que observamos entre distintas variables, buscamos
variables aleatorias “ocultas”- factores - comunes a las variables observadas, que son
la causa de los patrones de evolución conjunta de éstas.
Consideremos por ejemplo, para distintas ciudades de España, el número de
iglesias X ası́ como el número de delitos registrados Y . Si representamos la nube de
puntos, nos saldrı́a una relación lineal, con un coeficiente de correlación próximo a
uno. Es decir que ¡el número de delitos perpetrados en una ciudad está altamente
correlado con el número de iglesias en esta ciudad! Dicho de otra manera, ¡cuantas
más iglesias en una ciudad, más delitos se cometen! ¿Sorprendente? En realidad,
en cuanto pensamos un poco, nos damos cuenta de que no es nada sorprendente:
hay un factor oculto, que no hemos mencionado, y que explica la asociación positiva
entre X e Y , se trata sencillamente del número de habitantes, f . En efecto podemos
esperar que tanto el número de iglesias como el número de delitos cometidos en una
ciudad sean proporcionales al número de habitantes: la asociación positiva fuerte
que observamos entre X e Y se explica porque ambas dependen linealmente de una
tercera variable f .
Un ejemplo clásico del análisis factorial corresponde al trabajo pionero de Spearman que estudió a principios del siglo XX las puntuaciones X1 , X2 , y X3 , obtenidas
por un grupo de niños en tres examenes de historia, francés, e inglés, respectivamente. La matriz de correlaciones que Spearman obtuvo fue


1 0,83 0,78
 .
1
0,67 
.
.
1
58
Mathieu Kessler: Estadı́stica industrial
evidenciando fuertes asociaciones entre las puntuaciones obtenidas en las tres materias. Spearman buscó un factor oculto f que explicara estas asociaciones y que se
interpretara como la habilidad global del alumno, tentadoramente llamado también
la “inteligencia” del alumno. Las relaciones entre X1 , X2 , X3 y este factor f serı́an:
X1
= a1 f + ε1
X2
= a2 f + ε2
X3 = a3 f + ε3 ,
donde ε1 , ε2 , y ε3 representan perturbaciones aleatorias de las relaciones lineales.
Estos métodos tuvieron de hecho su origen en psicometrı́a, es decir el análisis de
datos aplicados a la psicologı́a, pero se aplicaron posteriormente con mucho éxito a
otras ciencias.
VI.2.
El modelo
VI.2.1.
Primera formulación
Observamos para muchos individuos el valor de una variable k-dimensional X =
(X1 , X2 , . . . , Xk )0 . Existen m factores aleatorios (variables latentes) comunes f1 , f2 , . . . , fk ,
tal que cada Xi está asociado con los m factores ocultos a través de una regresión
lineal múltiple:
X1
= a11 f1 + a12 f2 + · · · + a1m fm + ε1
X2 = a21 f1 + a22 f2 + · · · + a2m fm + ε2
..
..
.
.
Xk = ak1 f1 + ak2 f2 + · · · + akm fm + εk
2 , . . . , σ 2 las varianzas de X , . . . , X respectivamente. A parte
Denotamos por σ11
1
k
kk
de los factores, los otros ingredientes del modelo son
los coeficientes aij , i = 1, . . . , k, j = 1, . . . m que recogemos en una matriz
A = (aij ) de dimensiones k × m, que llamamos la matriz de cargas factoriales.
Las perturbaciones ε1 , . . . , εk , que son variables aleatorias que suponemos independientes, centradas E[εi ] = 0, i = 1, . . . k, y de varianza V ar(εi ) = ψi2 i =
1, . . . k.
Introduciendo los vectores


X1
. 
~ =
X
 ..  ,
Xk


f1


f~ =  ...  ,
fm


ε1


~ε =  ...  ,
εk
podemos formular las ecuaciones del modelo en forma compacta:
~ = Af~ + ~ε.
X
(VI.1)
~ para n individuos, buscaremos, en el marco de una
Dados los valores de X
representación de la forma (VI.1), estimar las cargas factoriales A, con el fin de
identificar e interpretar los factores.
VI.2 El modelo
VI.2.2.
59
No unicidad de los factores
Consideremos la ecuación (VI.1), y sea H una matriz invertible m × m, podemos
escribir
~ = AH H −1 f~ + ~ε.
X
(VI.2)
Llamando à = AH y ~g 0 = H −1 f~, hemos obtenido una nueva descomposición
~ = Ã~g + ~ε,
X
con una nueva matriz de cargas, y unos nuevos factores ~g . Es decir que, en cuanto
existe una descomposición en factores del tipo (VI.1), existe una infinidad de otras
descomposiciones de este tipo. El modelo (VI.1) tal como lo hemos introducido
no proporciona una descripción única de las variables observadas en términos de
un número m de factores. Debemos restringir los modelos que consideramos para
obtener una descomposición única.
VI.2.3.
Hacia el modelo definitivo
En nuestra formulación general del modelo a través de la relación (VI.1), no
hemos hecho ninguna hipótesis sobre los factores que buscamos identificar, y ésta
es precisamente la causa de la no unicidad del modelo. Una primera restricción
muy razonable consiste en buscar una descomposición en la que los factores sean
incorrelados: no hay que olvidar que pretendemos explicar las asociaciones entre
variables en términos de un cierto número de factores; dejar que estos factores sean
correlados no ayudarı́a a la interpretación, y serı́a como quedarse a medio camino
de la explicación de la estructura de correlación... Podemos además suponer que las
varianzas de los factores son iguales a 1, puesto que sólo cambia el valor de las cargas
factoriales.
Consideramos por lo tanto el modelo
~ = Af~ + ~ε,
X
con f1 , . . . , fk , incorrelados y de varianza unidad.
(VI.3)
Una primera consecuencia importante de esta restricción adicional es la relación
σii2
=
n
X
a2ij + ψi2 ,
i = 1, . . . , k,
(VI.4)
j=1
donde recordamos que, para i = 1, . . . , k, σii2 es la varianza de Xi . La varianza
individual de la variable Xi se puede por lo tanto descomponer en dos partes:
P
la comunalidad hi = nj=1 a2ij , que corresponde a la parte de σii2 explicada
por los factores.
la especificidad ψi2 , parte de σii2 especı́fica de la variable Xi .
Imponiendo la restrición de incorrelación de los factores, hemos reducido las posibles descomposiciones (VI.3), sin embargo todavı́a no hemos conseguido la unicidad
de la descomposición. En efecto, si G es una matriz m × m ortogonal, es decir que
cumple G0 G = Id, podemos escribir, a partir de cualquier descomposición del tipo
(VI.3),
~ = AG G0 f~ + ~ε,
X
60
Mathieu Kessler: Estadı́stica industrial
obteniendo una descomposición nueva, con à = AG y ~g = G0 f~. Si G es ortogonal, y
los factores f~ son incorrelados y de varianza 1, podemos demostrar que los nuevos
factores G0 f~ son también incorrelados y de varianza unidad. La nueva descomposición es por lo tanto también del tipo (VI.3).
En conclusión una restricción adicional es necesaria para conseguir una descomposición única. Varias posibilidades existen, veremos la que lleva a una simplificación
en la obtención de estimadores de las cargas factoriales.
Supondremos que la matriz de cargas factoriales A es tal que sus vectores columnas son ortogonales, es decir que la matriz m × m A0 A es diagonal.
El tipo definitivo de descomposición que consideraremos es por lo tanto
Tipo definitivo de descomposición:
~ = Af~ + ~ε,
X
(VI.5)
donde los factores f1 , . . . , fk son incorrelados y de varianza unidad, y además los vectores columnas de la matriz de cargas factoriales son ortogonales, es decir A0 A es diagonal
~ admite una descomposición de este tipo, ésta es única.
Si X
VI.3.
Estimación de las cargas factoriales
VI.3.1.
Método del factor principal
Deducimos de la ecuación (VI.5) algo más que la descomposición (VI.4) de cada
varianza individual en comunalidad y especificidad, deducimos que la matriz de
~ satisface
covarianzas Σ del vector X
 2

ψ1
0


..
Σ = AA0 + 
(VI.6)
.
.
ψk2
0
~ = (X1 , . . . , Xk )0
Disponemos ahora de la observación de los valores que toma el vector X
para n individuos y buscamos estimar los coefficientes de la matriz A. Calculamos
a partir de estos datos la matriz de covarianzas de las variables X1 , . . . , Xk , que
llamamos S. Esta matriz satisfacerá aproximadamente la relación (VI.6) puesto que
estima Σ. Por lo tanto, si disponemos de estimadores ψ̂12 , . . . , ψ̂k2 de las especificidades
ψ12 , . . . , ψk2 con los cuales formamos la matriz diagonal
 2

ψ̂1
0


..
ψ̂ = 
,
.
0
ψ̂k2
se cumplirá
S − ψ̂ ' AA0 ,
(VI.7)
sabiendo además que la matriz k×m A es tal que A0 A es diagonal. El método del factor principal resuelve este sistema de ecuaciones con incognitas aij , i = 1, . . . , k, j =
1 . . . , m.
Una solución explı́cita de este sistema se puede obtener utilizando los valores
propios y los vectores propios de la matriz simétrica S − ψ̂. Concretamente, sean
VI.4 Rotación de los factores
61
λ1 ≥ λ2 ≥ · · · λk los valores propios de S − ψ̂ clasificados por orden decreciente de
magnitud, formamos la matriz diagonal con los m valores propios más grandes


λ1
0


..
D̂1 = 
,
.
0
λm
y sea G1 la matriz k × m cuyas columnas están formadas por los vectores propios
asociados a λ1 , . . . , λm . La matriz
1/2
 = G1 D1 ,
(VI.8)
cumple que
S − ψ̂ ' ÂÂ0 .
Para llevar a cabo el cálculo de Â, necesitamos una estimación preliminar ψ̂ de las
especifidades.
Una primera opción consiste sencillamente en considerar ψ̂i = 0, para todo
i = 1, . . . , k. En este caso, los valores propios y los vectores propios requeridos
para el cálculo de  en (VI.8) son los de la matriz S, es decir los mismos que se
utilizan para el cálculo de los componentes principales. En SPSS esta opción
corresponde a escoger como método de extracción “Componentes principales”.
Una segunda opción consiste en especificar un estimador ψ̂i2 de la especificidad
ψi a partir de un estimador ĥi de la comunalidad hi utilizando la relación
s2ii = ĥi + ψ̂i2 , que aproxima (VI.4). En particular una opción de las más
utilizadas consiste en escoger
ĥi = s2ii Ri2 ,
donde Ri2 es el coeficiente de determinación múltiple correspondiente a la regresión de la variable Xi sobre todas las demás variables. En SPSS esta opción
corresponde a escoger como método de extracción “Ejes principales”.
VI.4.
Rotación de los factores
No olvidemos que uno de los principales objetivos del análisis factorial es conseguir identificar los factores que subyacen y originan la variación común de las
variables observadas. Sin embargo la interpretación de los factores es precisamente
la tarea más delicada del análisis.
Para conseguir una descripción única, hemos realizado dos restricciones adicionales al modelo (VI.1), la primera - suponer los factores incorrelados y de varianza
unidad- es natural en cuanto a interpretación. En cambio, la segunda, que consiste en
imponer que la matriz A0 A sea diagonal, está principalmente destinada a simplificar
la estimación de A, ver sección anterior, y no tiene una justificación muy fundamentada para la interpretación. De hecho, los factores identificados correspondientes al
modelo definitivo no tienen una interpretación fácil en general. Para paliar esta dificultad, se suelen “rotar” los factores obtenidos en la sección anterior: se considera
una matriz ortogonal G y se calcula la matriz de cargas correspondiente a la nueva
62
Mathieu Kessler: Estadı́stica industrial
~ = AGG0 f~ + ~ε, los factores rotados son G0 f~ y la nueva matriz de
descomposición X
cargas factoriales AG.
Muchas rotaciones especı́ficas fueron propuestas, cada una corresponde a una
elección particular de la matriz de rotación G. Una de las más populares es la rotación
Varimax, que persigue que cada factor esté asociado con unas pocas variables, y que
no tenga apenas influencia en las demás, con la esperanza de que aparezca ası́ una
interpretación más clara. Más concretamente, la rotación Varimax busca factores
con unas pocas cargas factoriales fuertes y las demás casi nulas. Para ello, maximiza
la varianza de las cargas de cada columna.
TEMA
VII
Introducción a las series temporales
VII.1.
Introducción
Empezamos con este tema el estudio de las series temporales: una serie temporal
o serie cronológica está formada por la observación del valor de una variable en
distintos intantes de tiempo. Los ejemplos abundan, estudiaremos por ejemplo en
prácticas las series siguientes
Evolución de la temperatura media mensual en San Javier desde 1981.
Evolución de la tasa de paro por trimestres en España desde el tercer trimestre
1976.
Producción diaria de una empresa.
Demanda mensual de energı́a eléctrica en España desde 1998 hasta 2002,
Sea Y la cantidad de interés, observamos los valores Y1 , Y2 , . . . , Yt , donde t representa
el indice de tiempo.
Al estudiar una serie temporal, podremos estar interesados en dos aspectos:
1. La comprensión del fenómeno que describe, buscando contestar por ejemplo
a las preguntas siguientes ¿aparece un patrón de evolución?¿una tendencia
global?, ¿una periodicidad?, ¿una ruptura de tendencia?
2. La predicción de valores futuros. Se trata a lo mejor del aspecto más deseado:
basándonos en la serie de datos observados Y1 , Y2 , . . . , Yt , ¿podemos predecir
el valor de Yt+1 ?, ¿y los de Yt+2 , Yt+3 o en general Yt+m ?
Este tema presenta los términos, conceptos y herramientas básicas asociadas a series
temporales. En el tema siguiente veremos como abordar el punto 1) arriba mencionado, es decir detectar tendencias, periodicidad etc..., mientras que el tercer y último
tema de este bloque estará dedicado a la predicción.
64
Mathieu Kessler: Estadı́stica industrial
VII.2.
Primer paso: exploración gráfica
Al igual que en todos los procedimientos vistos hasta ahora, el primer paso fundamental consiste en realizar gráficas de la serie temporal. Una primera gráfica asociada
a una serie temporal consiste por supuesto en representar Yt en función de t, lo que
permite en una primera exploración detectar datos atı́picos, la presencia de una tendencia o el carácter periódico del fenómeno que estudiamos. En la figura VII.1, se ha
representado la serie temporal de las temperaturas mensuales medias en San Javier
desde enero de 1981 (fuente: http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro).
Una periodicidad clara aparece, y por otra parte serı́a interesante conseguir decidir
si existe o no una tendencia al alza, ¿se comprueba con estos datos el calentamiento
global?
20
10
15
Temperatura
25
Temperaturas mensuales medias en San Javier, 1991−1990
1982
1984
1986
1988
1990
t
Figura VII.1: Evolución de las temperaturas mensuales medias en San Javier
En el caso en una periodicidad natural es evidente, también es útil realizar una
gráfica estacional: en una misma gráfica representamos todos los periodos presentes en la serie. En el caso de las temperaturas mensuales medias en San Javier por
ejemplo, la periodicidad natural es 12 (cada 12 meses el comportamiento de la temperatura es parecido), representamos en una misma gráfica las series anuales de 12
temperaturas, ver figura (VII.2). La forma muy parecida que tienen las series de
VII.3 Descomposición en patrones de una serie temporal
65
temperaturas mensuales para los distintos años confirma la periodicidad de 12.
20
5
10
15
Temperatura
25
30
Temperaturas mensuales medias en San Javier, 1991−1990
2
4
6
8
10
12
mes
Figura VII.2: Gráfica estacional para las temperaturas mensuales medias en San
Javier
VII.3.
Descomposición en patrones de una serie temporal
VII.3.1.
Presentación
Al examinar la gráfica cronológica, cuatro tipo de patrones pueden aparecer
1. H: un patrón horizontal: los datos fluctuan alrededor de una media constante.
2. S: un patrón estacional: el comportamiento de la variable está influida por
periodos como estaciones, dı́as, trimestres, años, etc... Vimos un ejemplo de
este tipo de patrón en la serie de las temperaturas mensuales en San Javier.
3. C: Un patrón cı́clico: hablamos de patrón cı́clico cuando los datos presentan
subidas y bajadas que no son de duración fija. Aparecen en series de datos
66
Mathieu Kessler: Estadı́stica industrial
económicos por ejemplo con periodos de recesión o de bonanza, o en series de
datos climáticos con ciclos de sequı́a.
4. T : una tendencia: cuando hay un incremento o decrecimiento a largo plazo en
los datos. Los datos de temperatura en San Javier ¿presentan por ejemplo una
tendencia creciente?
Muchas de las series temporales incluyen en realidad combinaciones de los distintos
patrones.
VII.3.2.
El modelo
La descomposición supone que los datos que observamos están formados de la
siguiente manera
datos =
patrones + errores
= f (tendencia − ciclo, estacin, error)
A parte de los patrones se incluye en la descomposición un término de error, también
llamado componente irregular. Un método de descomposición busca identificar el
patrón de tendencia-ciclo, ası́ como el patrón estacional. La parte no explicada por
estos dos patrones se denomina el residuo y se asume ruido. Su predicción es por lo
tanto imposible.
La formulación matemática es
Yt = f (Tt , St , Et ),
(VII.1)
donde
Tt :
St :
Et :
componente de tendencia-ciclo.
componente estacional
componente irregular - error.
Dados los datos Y1 , Y1 , . . . , YT , buscaremos por lo tanto estimar T1 , T2 , . . . , TT y
S1 , S2 , . . . , ST , es decir los componentes de tendencia-ciclo y estacional en cada instante.
La relación funcional f depende del contexto. Mencionaremos dos tipos
1. Modelo aditivo
Yt = Tt + St + Et .
2. Modelo multiplicativo
Yt = Tt × St + Et .
Un modelo aditivo es adecuado cuando la variación del componente estacional es más
o menos constante y no depende del nivel de la serie. En cambio para datos donde
el efecto de la estacı́on aumenta a medida que aumenta la serie (podemos pensar en
series de precios por ejemplo, en las que el componente estacional se expresa como
un porcentaje del precio), se suele utilizar un modelo multiplicativo.
Aplicaremos un método de descomposición a la serie de datos correspondientes
a la demanda mensual en energı́a eléctrica en España desde 1998 hasta 2002 (fuente
VII.4 Autocorrelación
67
Demanda de energa elØctrica, 1998−2002
19000
●
●
●
18000
●
●
●
●
●
●
17000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16000
demanda
●
●
●
●
●
●
●
●
● ●
●
●
●
15000
●
●
●
●
●
●
●
●
● ●
●
14000
●
●
●
●
●
●
1
● ●
2
3
4
5
6
tiempo
Figura VII.3: Demanda mensual de energı́a eléctrica en España, 1998-2002.
Red Eléctrica Española, www.ree.es). La gráfica cronológica aparece en la figura
VII.3. La periodicidad de 12 es clara.
Después de haber conseguido una descomposición - veremos métodos para hacerlo
en el tema siguiente - representaremos los distintos componentes en gráficas apiladas.
La figura VII.4 presenta el resultado de la descomposición para los datos de demanda
en energı́a eléctrica, suponiendo un modelo aditivo.
VII.4.
Autocorrelación
Dada una serie temporal podemos preguntarnos si el valor de la variable Y en eun
instante tiene mucha influencia sobre su valor, por ejemplo, 10 instantes de tiempo
más tarde, es decir, si el fenómeno que estudiamos tiene memoria larga o memoria
corta (va olvidando pronto los valores que toma). Para contestar a este tipo de
preguntas que sin duda son de importancia en particular para realizar predicciones,
calculamos las autocorrelaciones, que nos permitirán deducir información sobre la
estructura de dependencia temporal que presenta el fenómeno. Vimos en el tema de
regresión como la covarianza y la correlación son cantidades que miden el grado de
asociación lineal entre dos variables. La autocorrelación de orden 1 es la correlación
de la serie de valores Y1 , Y2 , . . . , YT con los mismos datos translatados de un instante
de tiempo, es decir con la serie Y2 , Y3 , . . . , YT . La tabla siguiente presenta los primeros
datos de las temperaturas en San Javier, ası́ como las series formadas al realizar
traslaciones de una, dos etc... unidades de tiempo.
68
Mathieu Kessler: Estadı́stica industrial
1500
Descomposicin de la demanda
●
1000
●
●
●
●
●
●
●
●
●
●
●
●
St
500
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
−500
●
●
●
●
●
17000 −1000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
16000
Tt
15000
40014000
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
200
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
0
●
●
●
●
●
●
●
●
●
●
●
−200
residuos
●
●
●
●
●
●
●
●
●
●
●
−400
●
●
●
●
0
10
20
30
40
50
Time
Figura VII.4: Descomposición para la demanda mensual de energı́a eléctrica en España, 1998-2002
Y•
10.3
10.8
15.8
18
21.8
22.6
23.6
Y•+1
10.8
15.8
18
21.8
22.6
23.6
22.5
22.5
19.3
..
.
..
.
19.3
..
.
Y•+2
15.8
18
21.8
22.6
23.6
22.5
19.3
..
.
..
.
..
.
...
...
...
...
...
...
...
...
...
...
...
Si observamos la serie Y1 , . . . , YT , la serie trasladada de una unidad de tiempo es
Y2 , . . . , YT y contiene una observación menos.
La autocovarianza c1 y la autocorrelación r1 de orden 1 se calculan como la
covarianza y la correlación respectivamente de los valores Y1 , Y2 , . . . , YT −1 con los
valores Y2 , Y3 , . . . , YT , es decir de las dos primeras columnas de la tabla. Se calculan
60
VII.4 Autocorrelación
69
con T − 1 valores.
La autocovarianza c2 y la autocorrelación r2 de orden 2 se calculan como la covarianza y la correlación respectivamente de los valores Y1 , Y2 , . . . , YT −2 con los valores
Y3 , Y4 , . . . , YT . Se calculan con T − 2 valores.
En general, definimos la autocovarianza ck y la autocorrelación rk de orden k como
la covarianza y la correlación de la serie con la misma serie trasladada de k unidades
de tiempo.
En el ejemplo de las temperaturas de San Javier, obtenemos r1 = 0,82, r2 =
0,463, r3 = 0,003, r4 = −0,44, etc...
Se presentan los valores de las autocorrelaciones en una gráfica, en la que en el
eje Ox aparecen k el número de unidades de la traslación y en el eje Oy el valor de
rk .
En la figura VII.5 aparece el autocorrelograma correspondiente a las series de
temperaturas en San Javier. Detectamos en este autocorrelograma el patrón de es-
0.0
−0.5
ACF
0.5
1.0
Autocorrelacion, temperaturas en San Javier
0
5
10
15
20
Lag
Figura VII.5: Autocorrelograma para las temperaturas medias mensuales en San
Javier, 1981-1990
tacionalidad: los datos presentan una periodicidad de 12. La temperatura en un mes
está muy poco asociada con la temperatura tres meses más tarde.
70
Mathieu Kessler: Estadı́stica industrial
El autocorrelograma permite saber si el proceso es de tipo memoria larga o
memoria corta y en particular nos da indicios sobre nuestra capacidad predictiva.
TEMA
VIII
Descomposición de una serie temporal
Nuestro objetivo en este tema es, basándose en los datos Y1 , . . . , YT de una serie
temporal, identificar y aislar los componentes Tt , St y Et que la constituyen.
VIII.1.
Filtrado
Consideramos dos señales (Yt )t≥1 y (Xt )t≥1 relacionadas por
Yt = Xt + Et ,
para todo t,
donde Et representa un error aleatorio, (ruido, perturbación).
¿Cómo, observando Y1 , . . . , YN , reconstruir los valores X1 , . . . , XN ? Es decir,
¿cómo filtrar las observaciones Y1 , . . . , YN y eliminar el ruido E?
Una primera idea sencilla consiste en promediar la señal observada por bloques
de k observaciones consecutivas. Pongamos k = 3 por ejemplo, construimos una
nueva señal (Ȳt,3 , t = 2, . . . , N − 1) como
t
1
2
3
4
..
.
Señal
Y1
Y2
Y3
Y4
..
.
Señal promediada
.
Ȳ2,3 = Y1 +Y32 +Y3
Ȳ3,3 = Y2 +Y33 +Y4
Ȳ4,3 = Y3 +Y34 +Y5
..
.
N −1
N
YN −1
YN
ȲN −1,3 =
.
YN −2 +YN −1 +YN
3
Al promediar tres observaciones consecutivas, perdemos dos observaciones, la primera y la última.
72
Mathieu Kessler: Estadı́stica industrial
¿Cuál es el efecto de promediar la señal? Puesto que Yt = Xt + Et , obtenemos
que
Ȳt,3 =
Yt−1 + Yt + Yt+1
3
Xt−1 + Xt + Xt+1 Et−1 + Et + Et+1
+
.
3
3
= X̄t,3 + Ēt,3
=
Hemos obtenido una nueva señal Ȳt,3 , t = 2, . . . , N − 1 que es la suma de la señal X
promediada y de un nuevo término de error Ēt,3 .
a) Consideremos primero el nuevo término de error, Ēt,3 = Et−1 +E3t +Et+1 , para
t = 2, . . . , N − 1. Al promediar tres errores, se obtiene un error de menor magnitud, recordar de hecho que, si ε1 , ε2 y ε3 son tres variables independientes
2
con la misma varianza σ 2 , tenemos V ar( ε1 +ε32 +ε3 ) = σ3 , es decir que la dis√
persión del promedio de tres errores de misma dispersión es 3 más pequeña
que la dispersión de cada uno. El término de error correspondiente a la señal
promediada será por lo tanto en general de menor magnitud que el error de la
señal original.
b) Consideremos ahora el término X̄t,3 . Supongamos para empezar que X es una
señal lineal, es decir que Xt = at + b. En este caso,
Xt−1 + Xt + Xt+1
3
=
=
a(t − 1) + b + at + b + a(t + 1) + b
3
3at + 3b
= Xt
3
Por lo tanto, si X es una señal lineal, deducimos que Ȳt,3 = Xt + Ēt,3 , siendo
el nuevo error de menor magnitud que para la señal original: el proceso de
medias móviles de orden 3 Ȳ•,3 es una aproximación - estimación de la señal
X• .
En el caso en que la señal X no es lineal pero presenta una evolución suave,
sin cambios bruscos, tres observaciones consecutivas presentarán aproximadamente una relación lineal, aunque X no sea globalmente lineal y X̄•,3 será una
buena aproximación de X• , lo que implica que Ȳ•,3 también.
Podrı́amos hacerlo con más de tres observaciones:
k−1
Definición. Sea k un número impar, el proceso Ȳt,k , t = k−1
2 ,...,N − 2
se llama el proceso de medias móviles de orden k. Este proceso representa un
suavizado del proceso Yt , t = 1, . . . , N .
Cuanto mayor sea k, más suave será la aproximación, tal como está ilustrado
en la figura VIII.1.
VIII.2.
Medias móviles y componente estacional
Supongamos ahora que Xt esté constituida por una tendencia-ciclo y un componente estacional de periodo p,
X t = T t + St .
VIII.2 Medias móviles y componente estacional
73
Medias mobiles, k= 3
●
●
●
●
5
●
0
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−5
●
●
●
●
●
●
●
●
●
●
●
●
●
2
4
6
8
10
t
Medias mobiles, k= 7
●
●
●
●
5
●
●
0
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−5
●
●
●
●
●
●
●
●
●
●
●
●
2
4
6
8
10
t
Medias mobiles, k= 15
●
●
●
●
5
●
●
0
y
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
−5
●
●
●
●
●
●
●
●
●
●
●
2
4
6
●
8
t
Figura VIII.1: Influencia de k sobre el suavizado a través del proceso de medias
móviles
LLamamos S̄p el promedio de los efectos del componente estacional en un periodo:
S̄p =
S1 + S2 + · · · + Sp
.
p
Podemos escribir
Xt = (Tt + S̄p ) + (St − S̄p )
= Tt0 + St0 ,
donde Tt0 = Tt + S̄p es un nuevo componente de tendencia-ciclo y St0 = St − S̄p es un
nuevo componente estacional ahora de media cero. Es decir, que partiendo de una
descomposición Xt = Tt + St , siempre podemos reescribirla de tal manera que el
componente estacional tenga media cero en un periodo. A partir de ahora, cuando
escribamos Xt = Tt + St , siempre consideraremos que St es de promedio nulo sobre
un periodo.
Para fijar ideas, supongamos por ejemplo que el periodo es p = 3, ¿cuál es el
10
74
Mathieu Kessler: Estadı́stica industrial
efecto de considerar el proceso de medias móviles?
Ȳt,3 = X̄t,3 + S̄t,3
= T̄t,3 + S̄t,3 + Ēt,3 .
Pero al ser S periódica de periodo 3, tenemos que
S̄t,3 =
S1 + S2 + S3
St−1 + St + St+1
=
= 0.
3
3
por lo tanto, si el componente de tendencia-ciclo es de evolución suave (ver sección
anterior), y aunque haya una componente estacional el proceso de medias móviles
Ȳ•,3 aproxima T• .
Por lo tanto, cuando estemos en presencia de una señal que presenta una componente estacional de periodo p impar, calcularemos el proceso de medias móviles
de orden p, Ȳ•,p , para aproximar la tendencia-ciclo.
Sin embargo, muchas de las series temporales están formadas por datos trimestrales, donde el periodo natural es 4, o datos mensuales donde el periodo p es 12.
¿Cómo en este caso, calcular el proceso de medias móviles de orden p puesto que p
es par?
Supongamos por ejemplo que estamos estudiando datos trimestrales, queremos
calcular las medias móviles de orden 4. Para el instante 3, ¿qué medias calculamos?
4 +Y5
3 +Y4
ó Ȳ2:5 = Y2 +Y3 +Y
, pero ninguno de estos
Podemos calcular Ȳ1:4 = Y1 +Y2 +Y
4
4
dos promedios está centrado en el instante 3: el primero da más peso a las observaciones anteriores a t = 3, mientras que el segundo más peso a las observaciones
posteriores. Una manera de recuperar la simetrı́a es volver a calcular la media de
estos dos promedios. Para el instante t = 3, el promedio final será por lo tanto
Ȳ1:4 + Ȳ2:5
Y1 + 2Y2 + 2Y3 + 3Y4 + Y5
=
.
2
8
Se trata de una media móvil con una ventana de anchura 5 (el número de observaciones que intervienen en el cálculo) y con pesos ( 18 , 82 , 82 , 28 , 81 ).
En general si p es par, el proceso de medias móviles de orden p se calcula como
Yt−p/2 + 2Yt−p/2+1 + · · · + 2Yt+p/2−1 + Yt+p/2 ,
y se denota por 2 × p M A(Y ).
En la figura VIII.2 se presenta el resultado de calcular para varios valores de
k el proceso de medias móviles asociado a la serie de temperaturas en San Javier
(ver tema 7). Cuando estamos próximos a la periodicidad de la serie, el proceso de
medias móviles estima la tendencia de la serie.
VIII.3.
Procedimiento para la descomposición clásica
Si la periodicidad natural es p, y
Yt = Tt + St + Et .
VIII.3 Procedimiento para la descomposición clásica
75
Medias mobiles, k= 3
25
●
●
●
●●●
●
●
●
●
15
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
10
●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●
●
●
20
●
ysj
●
●●
●
●
●
●●
●●
●
●●
●
●
●
●
1982
1984
1986
1988
1990
xmes
Medias mobiles, k= 7
25
●
●
●
●
●
●●●
●
●
●
●
15
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●
●
●
●●
10
●
●
●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●
20
●
ysj
●
●●
●
●●
●●
●
●●
●
●
●
●
1982
1984
1986
1988
1990
xmes
Medias mobiles, k= 13
25
●
20
●
●
●
●
●●●
●
●
●
●
10
●
●
●
●
●●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1982
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●●
●
●
●●
15
ysj
●
●●
●
●●
●
●
●●
●
●●
●
●
●
●
1984
1986
1988
1990
xmes
Figura VIII.2: Suavizado de la serie de temperaturas en San Javier para varios valores
de k
Calculamos el proceso de medias móviles de orden p, obteniendo ası́ una aproximación T̂t de Tt .
Restamos T̂t a Yt para obtener una estimación de St + Et .
Calculamos los p valores de la componente estacional calculando el promedio
de los datos separados de p instantes de tiempo:
Ŝ1 = promedio(S1 , S1+p , S1+2p , . . .)
Ŝ2 = promedio(S2 , S2+p , S2+2p , . . .)
..
..
.
.
Obtenemos el componente irregular como
Êt = Yt − Ŝt − T̂t .
Muchos otros métodos de descomposición de una serie temporal han sido desarrollados.
Descargar