Capítulo 1 Estadística Descriptiva

Anuncio
Capítulo 1
Estadística Descriptiva
ni
8
7
6
5
4
3
2
1
10 11 12 13 14 15 16 17 18 19
xi
El primer paso para el estudio de una o varias características de una población es la recogida
de datos. Se realiza esta sobre una muestra de la población, lo suficientemente significativa para
que las conclusiones a las que lleguemos, sobre las características objeto de estudio, sean bastante
plausibles (tengan una alta fiabilidad). En este capítulo nos ocupamos de la primera, aunque no
menos importante, etapa de la descripción de los datos tomados.
1.1
Variables estadísticas
Los datos numéricos, o serie estadística, de las observaciones realizadas en una población deben
presentarse ordenados y clasificados, siguiendo un criterio prefijado, que dependerá del estudio que
estemos realizando. Por lo general, estos se presentan agrupados en una tabla estadística, aunque
para una mejor lectura de los mismos se acompañan de una representación gráfica (ver §1.3.1).
1.2
Tipos, muestras
Entre las series estadísticas podemos encontrarnos con series temporales, en las que se toman datos
referidos a una magnitud en diferentes instantes de un período de tiempo. Ejemplos de series temporales son: las cotizaciones de un valor a lo largo del año; la renta per cápita de una población en
un periodo de tiempo; las precipitaciones mensuales de un año; . . . . La tabla estadística de una serie
temporal es la de una variable bidimensional, con el tiempo como una de las variables.
Por contra, si las observaciones se han efectuado en un momento fijo, nos encontramos ante una
serie atemporal, y estas pueden ser espaciales y de frecuencias. Las primeras tratan de comparar los
valores de una variable en distintos espacios geográficos, como la tasa de natalidad en las distintas
provincias españolas. Las de frecuencias estudian la repetición de un determinado hecho o fenómeno;
son las más usuales y a ellas nos dedicaremos.
Una variable
1.3
1.3.1
Una variable
Diagramas (cualitativas: de barras y de sectores; cuantitativas:
de tallos y hojas e histogramas)
Las distribuciones de frecuencias tratan de observar, clasificar y ordenar las repeticiones de ciertos
valores de una variable. Pueden ser cualitativas o cuantitativas, pudiendo ser las últimas
de carácter discreto o continuo, según la variable. Los datos se presentan mediante tablas de
frecuencias.
En una tabla de frecuencias se llama frecuencia absoluta al número de veces que se repite
un valor de la variable; se representa por ni , y significa que el valor xi aparece ni veces. La suma de
todas las frecuencias absolutas debe coincidir, obviamente, con el número total de elementos de la
muestra, y se denomina tamaño muestral, representado por N .
Llamamos frecuencia relativa a la razón entre la frecuencia absoluta y el tamaño muestral,
y mide la proporción de cada valor dentro de la muestra. Se representa por fi y, según se ha definido,
es:
ni
fi =
.
N
P
Es claro que fi ≤ 1, así como que
fi = 1.
i
Por último, llamamos frecuencias acumuladas, a las sumas de las frecuencias hasta un
determinado valor de la variable. Las denotaremos por Ni o Fi según se refieran a frecuencias absolutas
o relativas, respectivamente. Para calcularlas se ordenan previamente los valores observados de la
variable, y se puede hacer de menor a mayor (frecuencias acumuladas crecientes: Ni ↑, Fi ↑ ), o de
mayor a menor (frecuencias acumuladas decrecientes: Ni ↓, Fi ↓).
Si los datos observados corresponden a una variable continua, o hay poca repetición de datos, es
común agrupar estos en intervalos de clase, de la forma: [Li−1 , Li ) (cerrados por la derecha y abiertos
por la izquierda). En estos casos se define, además, la marca de clase, xi , como el punto medio
de cada intervalo:
Li + Li−1
xi =
.
2
De este modo, los valores del intervalo [Li−1 , Li ) pueden tratarse como si fueran todos iguales a su
marca de clase, xi , con la consiguiente pérdida de información o error de agrupamiento.
Ejemplos
Ejemplo 1 Encuestadas cincuenta parejas respecto a su número de hijos, se obtuvieron los siguientes
datos:
2; 4; 2; 3; 1; 2; 4; 2; 3; 0; 2; 2; 2; 3; 2; 6; 2; 3; 2; 2; 3; 2; 3; 3; 4; 1; 3;
3; 4; 5; 2; 0; 3; 2; 1; 2; 3 ; 2; 2; 3; 1; 4; 2; 3; 2; 4; 3; 3; 2; 2 .
Constrúyase una tabla estadística que represente dichos datos, indicando frecuencias absolutas,
relativas y acumuladas relativas crecientes.
8
Estadística Descriptiva
Solución:
xi
ni
fi
Fi ↑
0
2
1
4
2
21
3
15
4
6
5
1
1
25
3
25
27
50
42
50
48
50
49
50
6
1
1
25
2
25
21
50
3
10
3
25
1
50
1
50
1
N = 50
Ejemplo 2 Los datos que se dan a
personas:
60; 66; 77; 70; 66; 68; 57; 70;
69; 80; 59; 66; 70; 67; 78; 75;
67; 54; 65; 65; 69; 61; 67; 73;
76; 61; 67; 67; 64; 72; 64; 73;
continuación corresponden a los pesos en kilogramos de 80
66;
64;
57;
79;
52;
71;
62;
58;
75;
81;
67;
67;
65;
62;
68;
71;
69;
64;
63;
68;
71;
69;
67;
59;
58;
68;
71;
69;
66;
72;
68;
70;
67;
83;
76;
66;
74;
56;
61;
62;
61;
65;
62;
63;
63;
74;
63;
66.
(a) Obténgase una distribución de datos en intervalos de amplitud 5, empezando en [50, 55).
(b) Calcúlese el porcentaje de personas de peso menor que 65 Kg.
(c) ¿Cuántas personas tienen peso mayor o igual que 70 Kg pero menor que 85?
Solución:
(a) Como queremos efectuar una distribución de datos agrupados, debemos obtener primero los
intervalos correspondientes, quedando la siguiente tabla, donde hemos añadido una columna
correspondiente a la marca de clase:
[Li−1 , Li ]
xi
ni
Ni ↑
fi
Fi ↑
[50, 55)
52.5
2
2
[55, 60)
57.5
7
9
[60, 65)
62.5 17
26
[65, 70)
67.5 30
56
[70, 75)
72.5 14
70
[75, 80)
77.5
7
77
1
40
9
80
13
40
7
10
7
8
77
80
[80, 85)
82.5
3
80
1
40
7
80
17
80
3
8
7
40
7
80
3
80
N = 80
9
1
Una variable
(b) Observando la columna de frecuencias acumuladas (absolutas), se deduce que existen N3 = 26
individuos cuyo peso es menor que 65 Kg, que, en términos de porcentajes corresponden a:
F3 · 100 =
13
· 100 = 32.5 % .
40
(c) El número de individuos con peso comprendido entre 70 y 85 Kg es:
n5 + n6 + n7 = 14 + 7 + 3 = 24 ,
equivalentemente:
N7 − N4 = 80 − 56 = 24 .
Representaciones gráficas
Puede resultar laboriosa la “lectura” de una tabla estadística. Para facilitar esta tarea se suele acompañar de una gráfica, que proporciona una visión rápida del aspecto que se estudia. Estas representaciones gráficas deben tomarse como una ayuda a la interpretación, y las conclusiones han de
obtenerse de la tabla.
Presentamos, mediante ejemplos, las representaciones gráficas más usuales.
Ejemplo 3 (Diagrama de barras) Se utiliza para distribuciones con poca variedad de datos. Se colocan sobre un eje horizontal los valores de la variable y sobre cada uno una barra cuya altura sea
igual a su frecuencia absoluta. Las escalas de los ejes horizontal y vertical se pueden tomar distintas,
con el objetivo de que el diagrama quede proporcionado.
Las temperaturas medias registradas en el mes de mayo de 2002 en Madrid, en grados centígrados,
están dadas por la siguiente tabla:
Temperatura
Núm. de días
13
1
14
1
15
2
16
3
17
6
18
8
19
4
20
3
21
2
22
1
La representación gráfica es el siguiente diagrama de barras:
ni
8
7
6
5
4
3
2
1
13 14 15 16 17 18 19 20 21 22
xi
Ejemplo 4 (Histograma) Si hemos agrupado los datos en intervalos, utilizamos un histograma
de frecuencias. Se colocan los intervalos que definen las clases sobre un eje horizontal, y sobre cada
uno de ellos se coloca un rectángulo cuya área sea igual a la frecuencia absoluta. Así, la altura del
rectángulo sobre un intervalo [Li−1 , Li ), de amplitud ai = Li − Li−1 , con frecuencia absoluta ni será:
hi =
10
ni
.
ai
Estadística Descriptiva
Cuando todos los intervalos son de la misma amplitud, es más cómodo colocar como alturas las
frecuencias absolutas, ni . En este caso las áreas no coincidirán con las frecuencias, pero serán proporcionales, y el aspecto de la gráfica será el mismo.
El histograma de frecuencias del ejemplo 2 sería:
30
25
20
15
10
5
50
55
60
65
70
75
80
85
Ejemplo 5 (Polígono de frecuencias) Consiste en unir con una línea poligonal:
– los extremos superiores consecutivos de las barras en un diagrama de barras
– o los puntos medios consecutivos de los lados superiores de los rectángulos de un histograma.
Los polígonos de frecuencias se pueden utilizar también para representar las frecuencias acumuladas,
absolutas o relativas, crecientes o decrecientes.
En los casos anteriores quedarían los siguientes polígonos de frecuencias:
ni
30
8
7
6
5
4
3
2
1
25
20
15
10
5
13 14 15 16 17 18 19 20 21 22
xi
50
55
60
65
70
75
80
85
Nota: Se acostumbra a prolongar la poligonal hasta el eje horizontal. Para ello tomamos valores
a ambos lados de los datos observados con frecuencia cero. Para no modificar el aspecto visual, los
nuevos puntos del eje horizontal se toman a una distancia igual a la mitad del intervalo adyacente.
Haciéndolo, así, en el caso de un histograma, el área bajo la poligonal coincide con la del histograma.
Ejemplo 6 (Diagrama de sectores) Si la variable que estamos considerando es cualitativa, se
suele usar este tipo de diagramas. Se divide un círculo en sectores, uno por cada atributo observado,
cuyas áreas respectivas sean proporcionales a las frecuencias.
11
Una variable
Clasificada una muestra de 100 personas según su grupo sanguíneo, obtuvimos los siguientes
datos:
Grupo sanguíneo
Núm. de personas
A
42
B
12
El siguiente sería un diagrama de sectores para los datos de esta muestra:
AB
5
O
41
Aunque podemos adaptar un diagrama
de barras para la misma:
40
30
A
O
20
B
10
AB
0
A
B
AB
O
Ejemplo 7 (Diagramas de tallos y hojas) Para variables cuantitativas continuas, los diagramas
de tallos y hojas constituyen una sencilla representación. El procedimiento es como sigue:
1. Se redondean los datos a un número conveniente de cifras significativas.
2. Se colocan en una tabla de dos columnas separadas por una línea vertical, escribiendo:
todas las cifras, salvo la última, a la izquierda (forman el tallo);
la última cifra a la derecha (forma la hoja).
3. Cada tallo define una clase y se escribe sólo una vez. El número de hojas representa la frecuencia
de dicha clase.
Representemos por un diagrama de tallos y hojas, los siguientes datos, expresados en cm.:
11.357; 12.542; 11.384; 12.431; 14.212; 15.213; 13.300; 11.300; 17.206; 12.710;
13.455; 16.143; 12.162; 12.721; 13.420; 14.698.
Primero los redondeamos a tres cifras significativas, expresándolos en mm.:
114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147.
Nos quedaría el siguiente diagrama de tallos y hojas:
11
12
13
14
15
16
17
443
54727
354
27
2
1
2
y los propios datos nos dan una idea visual de la zona con mayor frecuencia de observaciones. Es fácil,
a partir del diagrama de tallos y hojas, construir la tabla de frecuencias:
12
Estadística Descriptiva
[Li−1 , Li ]
xi
ni
Ni ↑
fi
Fi ↑
[110, 120)
115
3
3
[120, 130)
125
5
8
[130, 140)
135
3
11
[140, 150)
145
2
13
[150, 160)
155
1
14
[160, 170)
165
1
15
3
16
1
2
11
16
13
16
7
8
15
16
[170, 180)
175
1
16
3
16
5
16
3
16
1
8
1
16
1
16
1
16
1
N = 16
1.4
Medidas numéricas
El objeto de todo estudio estadístico es obtener información cuantitativa sobre alguna característica
de una población, lo que obligaría a manejar una gran cantidad de datos. Para simplificar el estudio se
utilizan ciertas medidas que tratan de darnos la información precisa sobre la característica estudiada
a partir de la tabla. Distinguimos entre estas las medidas de centralización y las medidas de
dispersión.
1.4.1
Medidas de centralización
Su pretensión es dar una idea del valor central, alrededor del cual se reparten los valores de la muestra.
Definimos las más habituales e interesantes.
Definición 1.4.1. La media muestral se define como:
n
n
X
1 X
x̄ =
n i xi =
f i xi .
N i=1
i=1
Definición 1.4.2. La idea de la mediana muestral es la siguiente:
Es el valor de la muestra que deja a izquierda y derecha el mismo número de observaciones (una
vez ordenadas).
Para hallar la mediana muestral hemos de fijarnos en la columna de frecuencias absolutas acumuladas
crecientes, Ni ↑. Si el número de observaciones, N , es impar, digamos N = 2k + 1 = k + 1 + k, la
mediana es el valor central, es decir, xi tal que su índice i es el primero que cumple k < Ni ↑. Si el
número de observaciones es par, digamos N = 2k, se toma como mediana el punto medio de los dos
valores centrales.
Para variables continuas con los datos agrupados, lo más que se puede hallar es el intervalo
mediana; es decir la clase que contiene a la mediana.
Definición 1.4.3. La moda de una muestra de una variable estadística discreta es el valor que
aparece más veces repetido.
13
Medidas numéricas
Esta última medida no tiene mucho interés como medida de centralización, por varios motivos:
no tiene sentido para variables continuas al tener que agrupar; puede no ser un valor central; puede
haber más de una moda, incluso estar en los extremos; . . . .
1.4.2
Medidas de dispersión
Para complementar la información de las medidas de centralización se definen las medidas de dispersión. Es evidente que las primeras son insuficientes como muestra el siguiente ejemplo:
•
•
en el que ambas muestras tienen iguales tanto la media como la mediana muestrales. Las medidas
de dispersión diferenciarán estas muestras al medir la “separación” de los datos.
Definición 1.4.4. La varianza muestral se define como:
n
1 X
Vx =
ni (xi − x̄)2 .
N i=1
Se define la desviación típica (o desviación
estándar) de la muestra como la raíz cuadrada
√
positiva de la varianza muestral: σx = + Vx .
Con la desviación típica se mide la dispersión de la muestra en las unidades originales, ya que la
varianza nos da la media de los cuadrados de las desviaciones a la media muestral.
Es cómodo utilizar la siguiente fórmula en el cálculo de la varianza:
n
n
X
¢
1 ¡X
Vx =
ni x2i − x̄2 =
fi x2i − x̄2 .
N i=1
i=1
Ejercicio 1 Demostrar la identidad anterior para la varianza.
Solución: : Basta desarrollar el cuadrado y sustituir la media muestral:
Vx
n
1 X
=
ni (xi − x̄)2
N i=1
n
n
n
2x̄ X
1 X
x̄2 X
2
=
n i xi −
ni xi +
ni
N i=1
N i=1
N i=1
=
n
n
1 X
1 X
ni x2i − 2x̄2 + x̄2 =
ni x2i − x̄2
N i=1
N i=1
Ejemplo 8 Apliquemos los conceptos anteriores a la siguiente muestra de estaturas de 24 personas,
expresadas en metros:
1.62; 1.75; 1.60; 1.41; 1.93; 2.00; 1.71; 1.68; 1.60; 1.67; 1.85; 1.83; 1.57; 1.54;
1.62; 1.93; 1.84; 2.01; 1.70; 1.85; 2.05; 1.66; 1.90; 1.65 .
14
Estadística Descriptiva
Redondeando a tres cifras significativas, expresándolos en cm., nos quedaría el siguiente diagrama
de tallos y hojas:
14 1
15 74
16 20807265
17 510
18 5345
19 330
20 015
Apuntamos ahora estos datos en una tabla, añadiendo, a las ya vistas, algunas columnas útiles
para el cálculo de la media y la varianza:
xi
ni
Ni ↑
n i xi
x2i
ni x2i
141
154
157
160
162
165
166
167
168
170
171
175
183
184
185
190
193
200
201
205
1
1
1
2
2
1
1
1
1
1
1
1
1
1
2
1
2
1
1
1
1
2
3
5
7
8
9
10
11
12
13
14
15
16
18
19
21
22
23
24
141
154
157
320
324
165
166
167
168
170
171
175
183
184
379
190
386
200
201
205
19881
23716
24649
25600
26244
27225
27556
27889
28224
28900
29241
30625
33489
33856
34225
36100
37249
40000
40401
42025
19881
23716
24649
51200
52488
27225
27556
27889
28224
28900
29241
30625
33489
33856
68450
36100
74498
40000
40401
42025
Así para calcular la media muestral sumaremos las entradas de la cuarta columna (con cabecera ni xi )
y dividiremos por N = 24:
4197
≈ 175 cm.
x̄ =
24
La mediana muestral, al haber 24 datos, será el valor medio entre el valor en lugar 12 y el 13:
mediana muestral =
170 + 171
= 170.5 .
2
Para la varianza, sumamos las entradas de la sexta columna (ni x2i ), dividimos por N = 24, y
restamos el cuadrado de la media:
740413
Vx =
− 1752 ≈ 30851 − 30625 = 226 .
24
15
Medidas numéricas
La desviación estándar será σx ≈ 15.
Al haber poca repetición de datos la tabla ha quedado bastante grande, con lo que hemos tenido
que realizar muchos cálculos. Vamos a ver cómo, al agrupar los datos en intervalos, los cálculos se
simplifican, pero, a cambio, perdemos en precisión.
Supongamos que los datos los agrupamos en intervalos de amplitud 10, empezando en [140, 150).
Obtendríamos la siguiente tabla de frecuencias:
[Li−1 , Li ]
xi
ni
Ni ↑
n i xi
x2i
ni x2i
[140, 150)
[150, 160)
[160, 170)
[170, 180)
[180, 190)
[190, 200)
[200, 210)
145
155
165
175
185
195
205
1
2
8
3
4
3
3
1
3
11
14
18
21
24
145
310
1320
525
740
585
615
21025
24025
27225
30625
34225
38025
42025
21025
48050
217800
91875
136900
114075
126075
4240
530
=
≈ 176.7.
24
3
El intervalo mediana: [170, 180).
755800 5302
94475 280900
283425 − 280900
2525
La varianza muestral: Vx =
−
=
−
=
=
≈ 280.6
3
9
9
9
r 24
√9
2525
2525
50.25
La desviación típica: σx =
=
≈
= 16.75.
9
3
3
Para comparar ambos estudios, mostramos los respectivos diagramas de barras e histograma de
frecuencias (absolutas al tener intervalos de igual amplitud):
La media muestral sería: x̄ =
ni
3
ni
2
1
xi
140 150 160 170 180 190 200 210
8
7
6
5
4
3
2
1
140 150 160 170 180 190 200 210
x̄ ≈ 175
mediana muestral = 170.5
Vx ≈ 226
σx ≈ 15
x̄ ≈ 176.7
intervalo mediana [170, 180)
Vx ≈ 280.6
σx ≈ 16.75
16
xi
Estadística Descriptiva
1.4.3
Cuartiles y diagramas de cajas
Una medida elemental de dispersión, una vez ordenados los datos, es el rango o recorrido, R, que
es la diferencia entre el mayor y el menor de los datos:
R = xn − x1 .
Siguiendo la idea de la definición de la mediana, introducimos los cuartiles. La mediana separa
en dos mitades el conjunto de observaciones. Los 3 cuartiles, Q1 , Q2 y Q3 , lo hacen en 4 partes con
el “mismo” número de elementos. Así, los cuartiles, Q1 , Q2 y Q3 son tales que:
– el 25 % de los datos están a la izquierda del primer cuartil, Q1 , y el 75 % a su derecha;
– el 50 % de los datos están a la izquierda del segundo cuartil, Q2 , y el 50 % a su derecha (es decir
Q2 = mediana );
– el 75 % de los datos están a la izquierda del tercer cuartil, Q3 , y el 25 % a su derecha.
Igual que ocurría con la mediana, hemos de considerar distintos casos según el tamaño muestral
sea o no divisible por 4: N = 4k, N = 4k + 1, N = 4k + 2 ó N = 4k + 3.
Las únicas novedades son el primer y el tercer cuartiles. A partir de estas dos cantidades se define
el rango intercuartílico, RI, que es una medida de dispersión definida por:
rango intercuartílico
RI = Q3 − Q1 .
La misma idea seguida para definir los cuartiles nos llevaría a la definición de los 99 percentiles,
P1 , . . . , P99 . En general el percentil de orden k será el menor valor que supera al k por ciento de los
datos.
1.4.4
Diagramas de cajas. Datos atípicos
El diagrama de caja es un gráfico basado en los cuartiles que contiene además información sobre
la simetría de la distribución y nos permitirá definir el concepto de dato atípico. El siguiente diagrama
muestra la construcción del diagrama de caja de una muestra dada. Se han de calcular los cuartiles,
Q1 , mediana y Q3 , así como el rango intercuartílico RI = Q3 − Q1 .
◦
•
.¾
.
.
barrera exterior
.
.
.
.
.
.
.
.
.
•
•
••
3 RI
barrera interior
.
.
.
.
.¾
.
.
.
.¾
.
.
.
.
. .
.
. .
. . RI .
.¾ .
-..
. .
.
. .
.¾
.
-.
.
. .
.
. .
.
. .
3 RI
-..
1.5 RI
Q1 med.
Q3
17
barrera interior
1.5 RI
.
.
.
.
-.
.
.
.
◦◦
-..
.
.
.
.
.
.
.
.
.
.
barrera exterior
Medidas numéricas
Los segmentos dibujados a ambos lados de la caja, denominados “bigotes”, unen cada lado con los
datos más extremos que aparecen dentro de las barreras interiores. Llamamos datos atípicos a
las observaciones que están fuera de las barreras interiores, es decir, a más de 1.5 veces el rango
intercuartílico del correspondiente cuartil. Si además están a más de 3 veces el rango intercuartílico
(fuera de las barreras exteriores), se denominan datos atípicos extremos. En el gráfico anterior
hemos representado con el símbolo ◦ los datos atípicos extremos, y con • los datos atípicos no
extremos.
Este tipo de observaciones atípicas requiere una atención particular: bien porque responden a
errores en la medida o en el tratamiento de datos; bien porque contienen información relevante sobre
el comportamiento de la variable.
1.4.5
Comparación de media y mediana: robustez
Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atípicos.
Supongamos dada la siguiente muestra de datos:
5.3; 2.8; 3.4; 7.2; 1.7; 6.2; 9.3; 3.2; 5.9 ;
que tiene media 5 y mediana 5.3. Si introducimos un dato más que sea un valor atípico extremo, por
ejemplo 83, la muestra quedaría con la misma mediana, pero la media cambia drásticamente a 12.8.
La resistencia o estabilidad de la mediana frente a la existencia de datos atípicos es un fenómeno
que recibe el nombre de robustez. Todos los estadísticos basados en el orden –mediana, cuartiles,
percentiles, . . . – tienen esta misma propiedad, y se dice que son robustas. Las medidas que se basan
en la suma –como la media y la desviación típica– son más sensibles a los datos atípicos y son, por
tanto, poco robustas.
Esta sensibilidad de la media a las observaciones atípicas explica la posición relativa de la mediana
y media en distribuciones asimétricas, como muestran las siguientes figuras:
Simétrica
x̄
med.
Asimétrica a la dcha.
med. x̄
Asimétrica a la izqda.
x̄ med.
Los datos atípicos a la derecha (izquierda) del diagrama de caja, atraen a la media, desplazándola
hacia la derecha (izquierda), creando los distintos tipos de asimetría.
Conclusión: La media y la desviación típica deben utilizarse para resumir distribuciones homogéneas (simétricas y sin datos atípicos). En otros casos, es preferible utilizar la mediana y el rango
intercuartílico.
18
Estadística Descriptiva
Ejemplo 9 Las ventas de zapatos de caballero en una zapatería, distribuidas por tallas, han sido,
durante cierto mes, las siguientes:
Talla 37
Núm. de pares 3
38
4
39
55
40
234
41
366
42
229
43
57
44
6
45
2
El número total de zapatos vendidos en ese mes es N = 956. Para calcular los cuartiles vemos que:
25 % de 956 = 239
de manera que:
Q1 = 40 ,
Q2 = 41 ,
Q3 = 42 ,
y el rango intercuartílico es:
RI = 2 .
Las barreras interiores del diagrama de caja estarían en 37 y 45, de manera que no tenemos datos
atípicos, y los bigotes tienen la misma longitud, pues existen los datos 37 y 45 en la muestra. Además,
la distribución de datos de la caja es simétrica respecto a la mediana:
Tabla de frecuencias:
xi
37
38
39
40
41
42
43
44
45
ni
3
4
55
234
366
229
57
6
2
Ni ↑
3
7
62
296
662
891
948
954
956
Ni ↓
956
953
949
894
660
294
65
8
2
n i xi
111
152
2145
9360
15006
9618
2451
264
90
x2i
1369
1444
1521
1600
1681
1764
1849
1936
2025
ni x2i
4107
5776
83655
374400
615246
403956
105393
11616
4050
Cálculos:
39197
≈ 41
956
1608199
− x̄2 ≈ 1.131
Vx =
p 956
σx =
Vx ≈ 1.06
moda = 41 .
x̄ =
El dueño de la zapatería decide tomar esta muestra como representativa de su venta de
zapatos. Así, a la vista de estos resultados, si X es la variable “talla de zapato vendido”, decide que
X ∼ N (41 ; 1.06), de manera que:
X − 41
∼ N (0 ; 1) .
1.06
19
Medidas numéricas
Ejemplo 10 La clasificación de 100 familias por el número de hijos es:
Núm. de hijos
Núm. de familias
0
11
1
13
2
20
3
25
4
14
5
10
6
4
7
2
8
1
Vamos a analizar la variable aleatoria X =“número de hijos por familia”. Se tiene:
r
280
14
1098 196
549 − 392
157
157
8.86
x̄ =
=
= 2.8 , Vx =
−
=
=
≈ 3.14 , σx =
≈
= 1.77 .
100
5
100
25
50
50
50
5
De los 100 datos el lugar 50 lo ocupa el 3, y el 51 también; luego la mediana es 3: Q2 = 3. Por su parte
los otros dos cuartiles son Q1 = 2 y Q3 = 4 (¿por qué?), con lo que tenemos rango intercuartílico:
RI = 4 − 2 = 2
y el diagrama de caja queda con un dato atípico, 8, que es no extremo pues no supera la barrera
exterior derecha (la vertical en Q3 + 3RI = 4 + 6 = 10).
La influencia de este dato atípico no puede ser muy grande, pues aparece en el 1 % de la muestra.
De hecho, si lo ignoramos de la muestra quedaría media 2.75. Además la media y la mediana están
muy próximas: si redondeamos a enteros coinciden.
Bajo estas consideraciones podemos tratar la muestra como casi–simétrica, y así tomaremos una
N (2.8; 1.77) como modelo de distribución para la variable X =“número de hijos por familia”.
Ejemplo 11 De una encuesta de la población española en el año 1973 sobre presupuestos familiares,
se obtuvieron los siguientes datos para la variable G =“gasto mensual por familia” (en miles de ptas.),
sobre una muestra de 75 familias:
[Li−1 , Li )
[0, 50)
[50, 100)
[100, 150)
[150, 200)
[200, 250)
[250, 300)
[300, 350)
[350, 400)
[400, 450)
[450, 500)
[500, 550)
[550, 600)
[600, 650)
[650, 700)
[700, 750)
[750, 800)
[800, 850)
[850, 900)
[900, 950)
ni
1
10
9
12
12
10
3
1
6
5
1
0
2
1
1
0
0
1
0
fi
0.01
0.13
0.12
0.16
0.16
0.13
0.04
0.01
0.08
0.07
0.01
0.00
0.03
0.01
0.01
0.00
0.00
0.01
0.00
Fi ↑
0.01
0.15
0.27
0.43
0.59
0.72
0.76
0.77
0.85
0.92
0.93
0.93
0.96
0.97
0.99
0.99
0.99
1.00
1.00
El primer intervalo cuartílico es [100, 150), el intervalo mediana, [200, 250), y el tercer cuartil está
en el intervalo [300, 350). Tendríamos así un rango intercuartílico
150 < RI ≤ 350 − 100 = 250 .
20
Estadística Descriptiva
El diagrama de caja tendría barreras interiores extremas en −275, a la izquierda, y 725 a la
derecha. En concreto, vemos de la tabla que el 76 − 15 = 61 % de los datos se encontraría en la caja,
un 15 % en el segmento izquierdo, y un 24 % en el segmento derecho, del cual el 1 % corresponde a
datos atípicos, que podrían llegar a ser extremos.
Vemos, en cualquier caso, que la distribución es asimétrica a la derecha.
Si tomamos las marcas de clase como representativas de cada intervalo, podemos calcular la media
y la desviación típica de esta muestra, obteniendo: x̄ ≈ 264 miles de pesetas; σx ≈ 170.8 .
1.5
Transformaciones lineales
Supongamos que tenemos una muestra de datos x1 , x2 , . . . , xn con media muestral x̄ y desviación
típica σx . Puede interesar cambiar la escala en la que nos dieron los datos. ¿Cómo influirá este
cambio de escala en x̄ y σx ?
En general, un cambio de escala viene dado por y = kx, que es un caso particular de las transformaciones lineales: y = ax + b. Veamos cómo varían los estadísticos media y desviación típica:
Siendo:
x̄ =
n
X
f i xi
ȳ =
de donde:
ȳ = a x̄ + b ;
i=1
Análogamente si:
n
X
tendríamos:
fi (a xi + b) = a
i=1
Vx =
n
X
n
X
i=1
f i xi + b
n
X
fi
i=1
fi x2i − x̄2
i=1
entonces:
Vy =
n
X
fi (a xi + b)2 − (a x̄ + b)2
i=1
= a
2
= a2
= a2
n
X
i=1
n
X
fi x2i
+ 2ab
n
X
f i xi + b
i=1
2
n
X
fi − a2 x̄2 − 2abx̄ − b2
i=1
fi x2i + 2abx̄ + b2 − a2 x̄2 − 2abx̄ − b2
i=1
n
X
¡
¢
fi x2i − x̄2 = a2 Vx ;
i=1
por tanto:
σy = |a| σx .
Ejercicio 2 ¿Cómo influye una transformación lineal sobre los datos de una muestra en sus cuartiles?
Definición 1.5.1. (Tipificación) Si x̄ y σx son la media y desviación típica muestrales de una
muestra, x1 , . . . , xN , correspondiente a una variable X, la muestra correspondiente a la variable
tipificada
xi − x̄
X − x̄
,
yi =
, i = 1, . . . , N ,
Y =
σx
σx
tiene media muestral ȳ = 0 y desviación típica muestral σy = 1.
21
Dos variables
1.6
Dos variables
En ocasiones estudiaremos varias características de una población. Un problema interesante será
determinar si existe algún tipo de relación entre ellas. Dedicaremos esta sección a este problema.
Como en capítulos anteriores, nos bastará con entender el caso de dos variables aleatorias.
Supongamos, pues, que estamos realizando el estudio conjunto de dos variables aleatorias cuantitativas, X e Y . Dispondremos de una muestra de N pares de observaciones:
(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ) ;
es decir, para el elemento i–ésimo de la muestra, (xi , yi ), se ha observado que X = xi e Y = yi .
Utilizaremos una tabla de doble entrada para la distribución “conjunta”. De ella podemos calcular
las distribuciones marginales y, en particular, calcular los estadísticos de cada variable: x̄, medx ,
modax , Sx , Sx2 , . . . para la muestra marginal de la variable X; y los respectivos para Y .
Las representaciones gráficas de la distribución conjunta, se realizan en 3 dimensiones. Como
alternativa a estos gráficos se introduce la nube de puntos:
Con ella representamos, por ejemplo, los valores observados de X en
el eje horizontal, y los de Y en el vertical. Cada punto es una observación
del vector (X, Y ). La nube de puntos mostrada a la izquierda se ha
realizado a partir de la muestra:
Y
•
••
• • • ••••
•
•
• •••••• • • •
•
•
•
•
(23, 15) ; (43, 16) ; (42, 25) ; (23, 25) ; (28, 17) ; (29, 22) ; (31, 35) ;
X
(32, 28) ; (34, 18) ; (36, 32) ; (40, 38) ; (34, 18) ; (36, 23) ; (38, 28) ;
(45, 25) ; (65, 26) ; (64, 35) ; (45, 35) ; (50, 27) ; (51, 32) ; (53, 45) ;
(54, 38) ; (56, 28) ; (58, 42) ; (65, 48) ; (56, 28) ; (58, 33) ; (60, 38) .
El objetivo marcado en esta sección es encontrar una curva sencilla que exprese (de manera
resumida) una posible relación entre X e Y . Para ello es fundamental dibujar, primero, la nube de
puntos, para decidir si puede existir esta relación. Una medida numérica que recoge esta posible
relación es la covarianza muestral que se define como:
covx,y
N
1 X
=
(xi − x̄)(yi − ȳ) .
N i=1
Para calcularla es más sencillo utilizar la igualdad:
covx,y
N
1 X
=
xi yi − x̄ȳ
N i=1
que se demuestra fácilmente (ejercicio).
La covarianza aparece de manera natural al intentar ajustar una “recta de regresión” a una nube
de datos.
22
Estadística Descriptiva
1.6.1
Recta de regresión y correlación
Si de la nube de puntos decidimos que puede existir una recta, y = ax + b, que se ajuste a la misma,
resumiremos toda la nube con ella. Esta recta trataría de formalizar la idea de que existe una relación
lineal entre los valores de X e Y .
Definición 1.6.1. La recta de regresión de Y sobre X es la recta y = a + bx que minimiza el error
cuadrático medio (en adelante, E.C.M.):
N
1 X
(yi − a − bxi )2 .
E.C.M. =
N i=1
Nota: Con la recta de regresión de Y sobre X, se pretende minimizar el E.C.M., en cuya definición
se promedian las distancias verticales de cada punto de la muestra a la recta. Esta recta se usará
para estimar valores de Y para valores conocidos de X. Podemos, análogamente, calcular la recta
de regresión de X sobre Y , que servirá para estimar valores de X para valores conocidos de Y .
El desarrollo es el mismo, pero partiendo del error cuadrático medio para las distancias horizontales:
N
1 X
(xi − c − dyi )2 ,
N i=1
con x = c + dy. Puesto que los resultados son análogos, para no alargar innecesariamente la sección,
nos centraremos en la primera de las rectas: y = a + bx.
Como viene siendo costumbre, presentamos una identidad para el cálculo de este nuevo número:
µ N
¶
N
N
N
N
X
X
X
X
1 X 2
2
2
2
E.C.M. =
y + Na + b
xi − 2a
yi − 2b
xi yi + 2ab
xi
N i=1 i
i=1
i=1
i=1
i=1
¡
¢
¡
¢ 2
¡
¢
2
2
2
= Vy + ȳ + a + Vx + x̄ b + 2x̄ a b − 2ȳ a − 2 covx,y + x̄ȳ b ;
aunque en esta ocasión para justificar los cálculos posteriores, que resuelven (calculan) los coeficientes
de la recta que minimizan esta cantidad. Diremos que y = a + bx es la recta de regresión de Y sobre
X si a y b son tales que:
∂(E.C.M.)
= 2 a + 2x̄ b − 2ȳ = 0
∂a
∂(E.C.M.)
= 2(Vx + x̄2 ) b + 2x̄ a − 2(covx,y + x̄ȳ) = 0 .
∂b
La solución es inmediata:
covx,y
covx,y
x̄ ; b =
Vx
Vx
aportando, además, esta solución un mínimo de la función E.C.M.. Por tanto, la recta de regresión
de Y sobre X es:
covx,y
y − ȳ =
(x − x̄) .
Vx
a = ȳ −
Obsérvese que la recta de regresión pasa por el punto de medias: (x̄, ȳ).
23
Dos variables
Justificaremos el uso de la recta de regresión por el valor concreto del E.C.M. cometido:
Definición 1.6.2. La varianza residual es el E.C.M. cometido con la recta de regresión de Y
sobre X, es decir:
¶2
N µ
1 X
covx,y
Varianza residual =
yi − ȳ −
(xi − x̄)
N i=1
Vx
Desarrollando y agrupando esta última igualdad, podemos reescribirla como:
covx,y
Varianza residual = Vy (1 − r2 ) ,
siendo: r =
.
σx σy
Al cociente r se le denomina coeficiente de correlación y nos da una medida de la bondad del
ajuste por la recta de regresión. En concreto, r es un número entre −1 y 1, y cuánto más próximo
esté a los valores extremos (|r| ≈ 1), más pequeño será el E.C.M. cometido; en otras palabras, mejor
será el ajuste.
Ejemplo 12 (Frank Anscombe) En la siguiente tabla se presentan tres conjuntos de datos preparados por el estadístico Frank Anscombe para ilustrar los peligros de hacer cálculos sin antes
representar los datos:
Conjunto de datos A:
(10, 8.04); (8, 6.95); (13, 7.58); (9, 8.81); (11, 8.33); (14, 9.96); (6, 7.24); (4, 4.26); (12, 10.84); (7, 4.82); (5, 5.68) .
Conjunto de datos B:
(10, 9.14); (8, 8.14); (13, 8.74); (9, 8.77); (11, 9.26); (14, 8.10); (6, 6.13); (4, 3.10); (12, 9.13); (7, 7.26); (5, 4.74) .
Conjunto de datos C:
(8, 6.58); (8, 5.76); (8, 7.71); (8, 8.84); (8, 8.47); (8, 7.04); (8, 5.25); (8, 5.56); (8, 7.91); (8, 6.89); (19, 12.50) .
Los cálculos correspondientes sobre cada conjunto aportan los siguientes valores, comunes a los
11
tres conjuntos de datos:
1 X
x̄ = 9; σx ≈ 3.16; ȳ ≈ 7.50; σy ≈ 1.94;
xi yi = 72.51;
11 i=1
covx,y
≈ 0.5; r ≈ 0.82;
Varianza residual = Vy (1 − r2 ) ≈ 1.23
covx,y ≈ 5;
Vx
y así la recta de regresión de Y sobre X sería, para los tres:
y − 7.50 = 0.5(x − 9)
⇐⇒
y = 3 + 0.5x .
Las nubes de datos de sendos conjuntos son:
•
• •
•••
•
• •
• •
•
Datos A
••••••
••
•
•
•
•
•
•
•
•
Datos B
Datos C
A la vista de las mismas, tomamos la recta de regresión como buen ajuste sólo para la muestra A.
24
Estadística Descriptiva
1.6.2
Otras dependencias funcionales
En ocasiones intentar resumir la nube de puntos por una recta puede que no tenga mucho sentido.
Podemos pensar en muchos modelos alternativos al modelo lineal. Vamos a dedicar esta sección a
indicar cómo aplicar los resultados del modelo de regresión lineal a otros modelos como el logarítmico
y el exponencial.
La idea es podernos restringir al modelo lineal mediante una sencilla transformación, fácil de
invertir.
En general, si disponemos de observaciones (x1 , y1 ), . . . , (xN , yN ) de dos características X e Y de
una población, y queremos ajustar un modelo de la forma:
y = a + b g(x)
a estos datos, podemos definir una nueva variable T = g(X) y hallar la recta de regresión de Y
sobre T . Esta correspondería a los datos
(t1 , y1 ), . . . , (tN , yN ),
donde:
tj = a + b g(xj ), para cada j = 1, . . . , N .
Una vez obtenida la recta de regresión de Y sobre T , deshacemos el cambio y obtenemos la curva
pedida.
Ejemplo 13 (Regresión logarítmica) Si la nube de puntos recuerda a la gráfica de la función
logaritmo, se ajustará por un modelo de la forma:
y = a + b log x (regresión logarítmica) .
Para ello definimos T = log(X), hallamos la recta de regresión de Y sobre T , con la muestra conveniente modificada. Si obtenemos, por ejemplo, y = 2 + 3t, diremos que y = 2 + 3 log x es nuestro
modelo de regresión logarítmica para la muestra original.
Ejemplo 14 (Regresión exponencial) Cuando la nube de puntos recuerde a una gráfica exponencial (y = ex ó y = e−x ), la intentaremos representar mediante un modelo de la forma:
y = a ebx
(regresión exponencial) .
Tomando logaritmos en este modelo tendríamos:
log y = log a + bx .
Si definimos la variable T = log(Y ), y hallamos la recta de regresión de T sobre X, al deshacer el
cambio obtendríamos los datos de la regresión exponencial. Por ejemplo, si obtenemos t = −2 + 3x,
la curva pedida sería:
y = e−2 e3x ≈ 0.135 e3x .
25
Problemas
Problemas
1. Antes de que los hornos microondas se puedan poner a la venta, el fabricante debe asegurarse
de que la radiación emitida a través de la puerta se encuentra por debajo de un límite de
seguridad. Las cantidades de radiación emitidas por 25 hornos (en mw/cm2 ) con la puerta
cerrada son:
15 9 18 10 5
12 8 5 8 10
7 2 1 5 3
5 15 10 15 9
8 18 1 2 11
(a) Calcula la media, la varianza y la desviación típica.
(b) Calcula la mediana, los cuartiles y el rango intercuartílico.
(c) Dibuja el diagrama de cajas correspondiente a estos datos.
2. Determina razonadamente si las siguientes afirmaciones son verdaderas o falsas:
(a) Si añadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta en 7 unidades
y el rango intercuartílico no cambia.
(b) Si todos los datos de un conjunto se multiplican por -2, la desviación típica se dobla.
(c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla.
(d) Si cambiamos el signo de todos los datos de un conjunto, el coeficiente de asimetría de
Fisher también cambia de signo.
(e) Al multiplicar por tres todos los datos de un conjunto, el coeficiente de asimetría Fisher
no varía.
(f) Si el coeficiente de correlación entre dos variables vale -0.8, los valores por debajo del
promedio de una variable están asociados con valores por debajo del promedio de la otra.
(g) Si para todo i, se cumple yi < xi , el coeficiente de correlación entre x e y es negativo.
(h) Al restar una unidad a cada dato de un conjunto, la desviación típica siempre disminuye.
(i) Si a un conjunto de datos con media x̄ se le añade un nuevo dato que coincide con x̄, la
media no cambia y la desviación típica disminuye.
3. Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso químico proporciona los siguientes resultados:
Temperatura (x)
Rendimiento (y)
-5 -4 -3
1 5 4
-2 -1 0 1
7 10 8 9
2 3 4
13 14 13
5
18
(a) Representa el diagrama de dispersión de los datos anteriores y calcula el coeficiente de
correlación entre las dos variables. ¿Se puede admitir que existe una relación lineal aproximada entre ambas, es decir, yi ≈ a + bxi ?
(b) Calcula el término independiente y la pendiente de la recta de mínimos cuadrados.
(c) ¿Qué rendimiento predecirías para un nuevo proceso realizado a temperatura x = 3.5?
26
Estadística Descriptiva
4. Con el fin de hacer un estudio de aceptación sobre dos modelos de automóviles de reciente
fabricación, se han considerado las ventas efectuadas por un concesionario durante los días no
festivos del último mes de septiembre, que han sido las siguientes:
Mod. A
0
1
2
2
3
3
4
4
Mod. B
2
3
1
2
1
2
0
1
Núm. de días
1
1
3
5
8
4
1
2
Obténganse las distribuciones marginales, dando sus medias y varianzas respectivas. Hállese la
covarianza de la distribución bidimensional, dibujar la nube de puntos de la misma.
5. Comparadas las edades de cien madres con la de su primer hijo, se obtuvo la siguiente distribución bidimensional:
Edad de la madre
Edad del hijo
0–10
10–15
15–20
20–25
25–30
30–40
40–50
20–30
11
30–40
3
18
15
40–50
1
6
12
10
50–60
6
9
60–70
3
6
Hállense la covarianza de la distribución y las varianzas correspondientes, tomando en cada
clase su marca de clase central. A partir de esta muestra estúdiese la edad de una madre al
nacer su primer hijo.
6. Consultando el fichero de un departamento de pediatría, se obtuvieron los siguientes datos
respecto a los pesos y edades de los niños atendidos:
Edad (en años)
Peso (en kg)
0–5
5–10
10–15
15–20
20–25
0
2
4
1
2
3
2
8
1
9
2
7
8
4
Obténgase la recta de regresión de Y (pesos) sobre
X (edades). Con la recta obtenida, decídase cuál es
el peso que debe esperarse para un niño de 5 años.
14
1
27
Problemas
7. Hállense y represéntense las rectas de regresión correspondientes a la distribución estadística:
xi
1
2
3
3
4
4
5
6
yi
5
6
6
7
7
8
8
9
ni,i
2
6
7
6
7
4
5
3
8. Una distribución estadística de variables X e Y es tal que x̄ = 3.5, ȳ = 4 x̄, y Vx = 3 covx,y .
Sabiendo que en una de las observaciones es xi = 5, ¿qué valor debe esperarse para yi en el
supuesto de una dependencia lineal entre las variables?
9. Ajústese una función del tipo y = aebx a la siguiente distribución bidimensional:
xi
yi
1
2.2
1.5
6
2
16
2.5
44.5
3
121
4
895
10. Conocidas la media y varianza muestrales de cada una de las variables asociadas a una distribución bidimensional,
x̄ = 3 , Vx = 6 ,
ȳ = 6 , Vy = 8 ,
de la que se conoce, además, la recta de regresión de Y sobre X
2x + 3y − 12 = 0
obténgase la recta de regresión de X sobre Y .
11. Dadas dos variables X e Y , la recta de regresión de Y sobre X es y = 1.16x + 10.8 mientras que
la de X sobre Y es x = 0.13y − 0.6. Calcula las medias de las variables X e Y y el coeficiente
de correlación entre ambas.
12. Calcúlese la recta de regresión, `1 , de Y sobre X para la muestra:
(1, 3), (3, 4), (5, 2) .
Añadir a la muestra anterior el punto de la recta `1 con coordenada x = 7. Calcular la recta
de regresión, `2 , de Y sobre X para la muestra aumentada.
Repetir lo mismo añadiendo a la muestra original el punto de `1 con primera coordenada x = −9
(obteniendo una tercera recta `3 ).
Dibuja las tres rectas con sus muestras en un mismo gráfico e interpreta el resultado.
28
Descargar