Transparencias temas 2 y 3

Anuncio
1
Grado en Estadı́stica y Empresa
2
Grado en Estadı́stica y Empresa
2
2.1
Descripción estadı́stica de una variable
Ordenación simple de los datos
Consideremos una muestra de tamaño n de una variable X.
Esto significa que se consideran n individuos escogidos al azar de la
población objeto de estudio y que, para cada uno de ellos se registra
el valor de la variable X.
Análisis Exploratorio de Datos
Temas 2 y 3
Sean x1 , x2 , . . . , xk los k ≤ n diferentes valores de X sobre la muestra.
• Si X es cuantitativa o bien categórica ordinal, supondremos que
x1 < x2 < . . . < xk .
Aurea Grané
Dpto. Estadı́stica
Universidad Carlos III de Madrid
Grado en Estadı́stica y Empresa
Sea xi un valor observado de la variable X, i = 1, 2, . . . , k.
• La frecuencia absoluta del valor xi , ni , es el número de veces
que se ha observado este valor en la muestra.
• La frecuencia relativa del valor xi , fi , es la proporción del
valor xi en la muestra, es decir, fi = ni /n. Puede expresarse en
porcentaje.
• La frecuencia absoluta acumulada del valor xi , Ni , es el
número de observaciones menores o iguales que xi , es decir,
i
Ni = j=1 nj .
• La frecuencia relativa acumulada del valor xi , Fi , es la
proporción de observaciones menores o iguales que xi en la
i
muestra, es decir, Fi = Ni /n = j=1 fj . También puede
expresarse en porcentaje.
• Si X es una variable categórica nominal, el orden de valores
observados se establece según el criterio del observador.
3
4
Grado en Estadı́stica y Empresa
Propiedades de las frecuencias (pizarra)
Tabla de frecuencias Permite representar de forma resumida los
valores de X en la muestra.
xi
ni
fi
Ni
Fi
x1
n1
f1
N1
F1
x2
..
.
n2
..
.
f2
..
.
N2
..
.
F2
..
.
xk
nk
fk
Nk = n
Fk = 1
Total
n
1
Observación 1 Las columnas Ni y Fi no tendrán sentido para
variables categóricas nominales.
5
Grado en Estadı́stica y Empresa
Se denomina distribución de frecuencias de X al conjunto de
valores observados de la variable junto con las frecuencias
correspondientes a cada uno de estos valores.
Ejemplo 2.1 Se ha medido el grupo sanguı́neo de 40 individuos y se
han observado las siguientes frecuencias absolutas para cada
categorı́a: 12 para x1 = A, 11 para x2 = B, 8 para x3 = AB y 9 para
x4 = O.
Distribución de frecuencias
absolutas
relativas
xi
ni
xi
fi
x1
n1
x1
f1
x2
..
.
n2
..
.
x2
..
.
f2
..
.
xk
nk
xk
fk
Total
n
Total
1
a) ¿De qué tipo es la variable estudiada? Construir la tabla de
frecuencias correspondiente.
grupo
A
B
AB
O
Total
Análogamente, se obtienen las distribuciones de frecuencias absolutas
acumuladas y absolutas relativas.
7
Grado en Estadı́stica y Empresa
Ejemplo 2.1 (continuación)
grupo
A
B
AB
O
Total
ni
12
11
8
9
40
fi
0.3
0.275
0.2
0.225
1
b) ¿Qué porcentaje de individuos son del grupo A?
c) ¿Qué porcentaje de individuos no son del grupo O?
d) ¿Cuántos individuos no son del grupo B?
6
Grado en Estadı́stica y Empresa
ni
12
11
8
9
40
fi
0.3
0.275
0.2
0.225
1
8
Grado en Estadı́stica y Empresa
Ejemplo 2.2 La siguiente tabla muestra la clasificación de 901
individuos según la variable satisfacción en el trabajo
xi
muy insatisfecho
moderamadente insatisfecho
moderadamente satisfecho
muy satisfecho
Total
ni
62
108
319
412
901
a) ¿De qué tipo es la variable de estudio? Calcular la tabla de
frecuencias correspondiente.
9
Grado en Estadı́stica y Empresa
10
Grado en Estadı́stica y Empresa
Ejemplo 2.2 (continuación)
xi
ni
fi
Ni
Fi
muy insatisfecho
62
0.07
62
0.07
moderamadente insatisfecho
108
0.12
170
0.19
moderadamente satisfecho
319
0.35
489
0.54
muy satisfecho
412
0.46
901
1
Total
901
1
Ejemplo 2.3 Se quiere estudiar la eficacia de un nuevo insecticida
para plantas de interior. Se seleccionan 50 plantas y se cuenta el
número de hojas que han sido atacadas después de haber tratado a la
planta con el nuevo producto. Los resultados son:
Hojas atacadas
0
1
2
3
4
5
6
8
10
ni
6
10
12
8
5
4
3
1
1
b) ¿Qué porcentaje de individuos están moderadamente satisfechos?
a) ¿De qué tipo es la variable de estudio? Construir la tabla de
frecuencias correspondiente.
c) ¿Cuántos individuos están a lo sumo moderadamente
insatisfechos (es decir, a lo sumo, levemente satisfechos)? ¿Qué
porcentaje representan?
d) ¿Cuántos individuos están por lo menos moderadamente
satisfechos? ¿Qué porcentaje representan?
11
Grado en Estadı́stica y Empresa
Ejemplo 2.3 (continuación)
Hojas atacadas
0
1
2
3
4
5
6
8
10
12
Grado en Estadı́stica y Empresa
Ejemplo 2.3 (continuación)
ni
6
10
12
8
5
4
3
1
1
fi
0,12
0,20
0,24
0,16
0,10
0,08
0,06
0,02
0,02
Ni
6
16
28
36
41
45
48
49
50
Fi
0,12
0,32
0,56
0,72
0,82
0,90
0,96
0,98
1
Hojas atacadas
0
1
2
3
4
5
6
8
10
ni
6
10
12
8
5
4
3
1
1
fi
0,12
0,20
0,24
0,16
0,10
0,08
0,06
0,02
0,02
Ni
6
16
28
36
41
45
48
49
50
Fi
0,12
0,32
0,56
0,72
0,82
0,90
0,96
0,98
1
b) ¿Qué porcentaje de plantas tienen sólo 3 hojas atacadas?
e) ¿Qué porcentaje de plantas tienen entre 3 y 5 hojas atacadas?
c) ¿Cuántas plantas tienen como máximo 3 hojas atacadas?
f ) ¿Qué porcentaje de plantas tienen al menos 8 hojas atacadas?
d) ¿Cuántas plantas tienen como mı́nimo 6 hojas atacadas?
g) ¿Qué porcentaje de plantas tienen a lo sumo 2 hojas atacadas?
Grado en Estadı́stica y Empresa
13
14
Grado en Estadı́stica y Empresa
Tabla de frecuencias con intervalos de clase (ordenación agrupada de
los datos)
2.2
Ordenación agrupada de los datos.
Si X es continua o bien discreta con muchos valores diferentes,
resulta conveniente agrupar la muestra en intervalos, que se
denominan intervalos de clase.
Para poder calcular las medidas numéricas (que veremos más
adelante), se toma como representante del intervalo a su punto
medio, que se denomina marca de clase.
Intervalo
Marca de clase: xi
ni
fi
Ni
Fi
[l0 , l1 )
x1 = (l0 + l1 )/2
n1
f1
N1
F1
[l1 , l2 )
..
.
x2 = (l1 + l2 )/2
..
.
n2
..
.
f2
..
.
N2
..
.
F2
..
.
[lk−1 , lk ]
xk = (lk−1 + lk )/2
nk
fk
Nk = n
Fk = 1
n
1
Total
La magnitud Li = li − li−1 se denomina longitud o amplitud del
intervalo [li−1 , li ).
Grado en Estadı́stica y Empresa
15
Grado en Estadı́stica y Empresa
En las tablas de frecuencias con intervalos de clase hay una pérdida
de información, puesto que hay valores diferentes que van a parar
dentro de un mismo intervalo y, por tanto, serán tratados como
iguales.
Se have necesario escoger unos intervalos lo suficientemente pequeños,
de manera que la información que se pierda sea mı́nima, pero a la vez
lo suficientemente grandes, de manera que el número de intervalos no
sea desmesuradamente grande y haga incómodo su manejo.
Como referencia, tomaremos uno de los siguientes valores
aproximados:
⎧
⎨ √n,
si n no es muy grande,
Num. intervalos = k ≈
⎩ 1 + 3.22 log(n), en otro caso.
Ejemplo:
Si el número de observaciones que tenemos es n = 100, un buen
√
criterio es agrupar las observaciones en k = 100 = 10 intervalos.
Sin embargo si tenemos n = 1000000 será más razonable elegir
√
k = 1 + 3.22 log(106 ) ≈ 20 intervalos, ya que k = 106 = 1000 no es
un número cómodo de intervalos para trabajar.
16
17
Grado en Estadı́stica y Empresa
Ejemplo 2.4 (continuación)
Ejemplo 2.4 En veinte vuelos de Barcelona a Madrid se han
contado el número de asientos vacı́os en cada vuelo. Se han agrupado
los datos en intervalos de longitud 4.
intervalos
[0, 4)
[4, 8)
[8, 12)
[12, 16]
Total
ni
9
5
4
2
asientos vacı́os
0−3
4−7
8 − 11
12 − 16
2.3
xi
2
6
10
14
ni
9
5
4
2
20
fi
0,45
0,25
0,20
0,10
1
Ni
9
14
18
20
Fi
0,45
0,70
0,90
1,00
b) ¿En cuántos vuelos hay menos de 8 asientos vacı́os? ¿Qué
porcentaje representan?
a) ¿De qué tipo es la variable estudiada? Construir la tabla de
frecuencias correspondiente.
c) ¿En cuántos vuelos hay como mı́nimo 10 asientos vacı́os? ¿Qué
porcentaje representan?
19
Grado en Estadı́stica y Empresa
18
Grado en Estadı́stica y Empresa
20
Grado en Estadı́stica y Empresa
Representaciones gráficas
Figure 1: Diagrama de barras y polı́gono de frecuencias. Datos del
ejemplo 2.3 (X =“número de hojas atacadas por planta” sobre una
muestra de n = 50 plantas de interior).
polı́gono de frecuencias
diagrama de barras
12
10
Figure 2: Diagrama de sectores. Datos del ejemplo 2.1 (X =“grupo
sanguı́neo de un individuo” sobre una muestra de n = 40 individuos).
23%
30%
A
B
AB
O
8
6
20%
4
2
28%
0
1
2
3
4
5
6
7
8
9 10
21
Grado en Estadı́stica y Empresa
Figure 4: Histograma y polı́gono de frecuencias. Datos del ejemplo 2.4
Figure 3: Gráfico de Pareto. Datos del ejemplo 2.2 (X =“satisfacción
en el trabajo” sobre una muestra de n = 901 individuos).
900
100%
800
89%
700
78%
600
67%
500
55%
400
44%
300
33%
200
22%
100
11%
0
muy satisfecho
mod. satisfecho mod. insatisfecho muy insatisfecho
BCN-MAD).
2.5
11.357, 12.542, 11.384, 12.431, 14.212, 15.213, 13.300, 11.300, 17.206,
12.710, 13.455, 16.143, 12.162, 12.721, 13.420, 14.698.
Datos redondeados y expresados en mm:
114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135, 161, 122, 127, 134,
en mm):
344
24577
345
27
2
1
2
⎫
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎬
⎪
⎪
⎪
⎪
⎪
⎪
⎪
⎭
hojas
polı́gono de frecuencias
histograma
2
1.5
1
0.5
0
23
Ejemplo 2.5 Los datos siguientes corresponden a ciertas longitudes
(en cm). Construir un diagrama de tallo y hojas.
Diagrama de tallo y hojas (datos
⎧
11
⎪
⎪
⎪
⎪
12
⎪
⎪
⎪
⎨ 13
14
tallo
⎪
⎪
15
⎪
⎪
⎪
⎪
16
⎪
⎩
17
(X =“número de asientos vacı́os” en una muestra de n = 20 vuelos de
0%
Grado en Estadı́stica y Empresa
147.
22
Grado en Estadı́stica y Empresa
4
8
12
16
24
Grado en Estadı́stica y Empresa
Ejercicio 2.2 Clasificadas las provincias españolas por su número de
habitantes en 2001, se obtuvieron los siguientes datos:
Num. habitantes
de 1 a 100 000
de 100 000 a 250 000
de 250 000 a 500 000
de 500 000 a 750 000
de 750 000 a 1 000 000
de 1 000 000 a 2 000 000
de 2 000 000 a 3 000 000
de 3 000 000 a 4 000 000
de 4 000 000 a 6 000 000
Num. provincias
3
8
13
10
7
8
1
0
2
a) Constuir una tabla estadı́stica con las marcas de clase, las
frecuencias absolutas y las frecuencias relativas.
25
Grado en Estadı́stica y Empresa
Ejercicio 2.2 (continuación)
intervalos
xi
ni
[0, 100000)
50000
3
[100000, 250000)
175000
8
[250000, 500000)
375000 13
[500000, 750000)
600000 10
[750000, 1000000)
875000
7
[1000000, 2000000) 1500000 8
[2000000, 3000000) 2500000 1
[3000000, 4000000) 3500000 0
[4000000, 6000000] 5000000 2
fi
0.058
0.154
0.250
0.192
0.135
0.154
0.019
0
0.038
Ni
3
11
24
34
41
49
50
50
52
Fi
0.058
0.212
0.462
0.654
0.789
0.943
0.962
0.962
1
26
Grado en Estadı́stica y Empresa
Ejercicio 2.2 (continuación)
Figure 5: Histograma de frecuencias absolutas. Datos del ejercicio 2.2.
ni /Li
3 · 10−5
5.3 · 10−5
5.2 · 10−5
4 · 10−5
2.8 · 10−5
0.8 · 10−5
0.1 · 10−5
0
0.1 · 10−5
5 · 10−5
4 · 10−5
3 · 10−5
2 · 10−5
b) ¿Cuántas provincias tienen menos de 500 000 habitantes? ¿Qué
porcentaje representan?
10−5
c) ¿Cuántas provincias tienen entre 800 000 y 1 300 000 habitantes?
0
d) Construir el histograma de frecuencias absolutas.
Grado en Estadı́stica y Empresa
2.4
Caracterı́sticas numéricas de una distribución
univariante
Supondremos que:
x1 < x2 < . . . < xk son los k valores de X en la muestra (ordenación
simple de los datos), o bien
x1 < x2 < . . . < xk son las marcas de clase de k intervalos construidos
sobre la muestra de X (ordenación agrupada de los datos).
Las caracterı́sticas numéricas de una distribución de se clasifican en:
• Medidas de tendencia central
27
2
3
4
millones de habitantes
5
6
28
Grado en Estadı́stica y Empresa
2.4.1
Medidas de tendencia central
Dan información sobre el “centro” de la distribución. Las más
utilizadas son:
La media aritmética ,x, indica el punto medio de la muestra. Se
calcula:
k
1
x=
x i ni .
n i=1
Proposición 2.1 La suma de las diferencias de la variable con
respecto de la media es nula, es decir,
k
• Medidas de posición
i=1
• Medidas de dispersión (o de variabilidad)
• Medidas de forma (asimetrı́a y curtosis)
1
(Demostración)
(xi − x) ni = 0.
29
Grado en Estadı́stica y Empresa
Proposición 2.2 (Linealidad de la media) Si Y = a + b X,
a, b ∈ R, b = 0, entonces la correspondiente media de Y es
La media artimética ponderada, xP :
y = a + b x,
En determinadas distribuciones estadı́sticas no todos los valores de la
variable tienen la misma influencia, y, por ello, a cada valor se le
asigna un coeficiente diferenciador, llamado peso.
es decir el operador media es una función lineal.
(Demostración)
Si x1 , x2 , . . . , xk son los distintos valores X en la muestra y
p1 , p2 , . . . , pk son los pesos correspondientes, entonces:
k
i=1 xi pi
xP = k
i=1 pi
Inconvenientes de la media.
1. Es muy sensible a valores extremos de la variable: todas las
observaciones intervienen en el cálculo de la media, de manera
que la presencia de una observación extrema hará que la media se
desplace en esa dirección.
Observación 2 La media aritmética x es un caso particular de
media ponderada, donde los pesos pi = ni .
2. No es recomendable utilizarla en distribuciones con fuerte
asimetrı́a.
31
Grado en Estadı́stica y Empresa
Ejemplo 2.6 Un inversor tiene ahorros repartidos en 3 depósitos
con 2000, 5000 y 10000 euros, respectivamente. si el primero le rinde
un 5% anual, el segundo un 4% anual y el tercero un 2% anual, ¿cuál
es el tipo de interés medio que recibe?
La variable de estudio es el interés anual. Los valores que toma esta
variable son 5, 4, 2 con pesos 2000, 5000, 10000, respectivamente. El
interés medio es
xP =
5 · 2000 + 4 · 5000 + 2 · 10000
50000
=
= 2.94%.
2000 + 5000 + 10000
17000
30
Grado en Estadı́stica y Empresa
32
Grado en Estadı́stica y Empresa
Ejercicio 2.3 Una empresa está interesada en seleccionar entre dos
candidatos para un puesto de trabajo. Las valoraciones que han obtenido
estos candidatos en las entrevistas y pruebas a que han sido sometidos son
las siguientes:
Aspecto
experiencia
conocimientos
psicontécnico
Candidato A
8
6
4
Candidato B
7
7
5
Si la empresa da una importancia del 60% a la experiencia, del 25% a los
conocimientos y del 15% a la habilidad psicotécnica, ¿cuál de los dos
candidatos va a escoger?
Calculamos las medias ponderadas para cada candidato, con pesos 60, 25 y
15, respectivamente para cada categorı́a. El candidato que obtenga una
media poderada mayor será el candidato escogido.
xP (A) =
8 · 60 + 6 · 25 + 4 · 15
= 6.9,
100
xP (B) =
7 · 60 + 7 · 25 + 5 · 15
= 6.7
100
33
Grado en Estadı́stica y Empresa
La media geométrica, xG , proporciona una medida precisa de un
cambio porcentual medio en una serie de números. Se calcula como:
La mediana, Me, es aquel valor que divide a la muestra en dos
partes iguales, de manera que el 50% de las observaciones quedan por
debajo de la mediana y el otro 50% por encima de ella.
xG = (xn1 1 xn2 2 . . . xnk k )1/n
Cálculo de la mediana:
Se recomienda su uso cuando se tienen porcentajes, tasas o números
ı́ndice; es decir, cuando una variable presenta variaciones
acumulativas.
a) Ordenación simple de los datos:
⎧
⎨ 1 (x n + x n ),
(2)
( 2 +1)
2
Me =
⎩ x n+1 ,
(
)
Observación 3 Tomando logaritmos:
log(xG ) =
1
1
log(xn1 1 xn2 2 . . . xnk k ) =
n
n
k
i=1
log(xni i ) =
1
n
k
34
Grado en Estadı́stica y Empresa
2
ni log(xi ).
si n es impar,
donde x(j) indica el dato que ocupa la posición j-ésima en la
muestra ordenada.
i=1
35
Grado en Estadı́stica y Empresa
si n es par,
Grado en Estadı́stica y Empresa
Propiedades e inconvenientes de la mediana:
b) Ordenación agrupada de los datos:
En la tabla de frecuencias identificamos al intervalo mediano
como aquél que contiene al individuo que ocupa la posición n/2,
es decir, x(n/2) . Para ello nos ayudaremos de la columna de las
frecuencias absolutas acumuladas (la de las Ni ).
Si [li−1 , li ) es el intervalo mediano, entonces:
(n/2 − Ni−1 )
.
M e = li−1 + (li − li−1 ) ·
Ni − Ni−1
Li
1. La mediana no se ve alterada por la presencia de valores
extremos, puesto que no depende de los valores que toma la
variable, sino del orden de los mismos. Por ello es adecuado su
uso en distribuciones asimétricas.
2. El mayor defecto de la mediana es que tiene unas propiedades
matemáticas complicadas, lo que hace que sea muy difı́cil de
utilizar en Inferencia Estadı́stica.
Ejemplo 2.7 Calcular la mediana de los conjuntos de datos
siguientes:
a) 18, 18, 19, 17, 23, 20, 21, 18
b) 20, 21, 18, 19, 18, 17, 18
36
37
Grado en Estadı́stica y Empresa
Observación 4 La moda puede ser no única, es decir, en una
misma muestra puede haber dos valores con la misma frecuencia (o
dos intervalos que con la misma altura en el histograma de
frecuencias). En ambos casos, la distribución tendrá dos modas y se
denominará bimodal.
La moda, Mo, se define de forma distinta según si los datos se
encuentran o no agrupados en intervalos de clase.
En la ordenación simple de los datos, la moda se define como el
valor que presenta una mayor frecuencia absoluta (o relativa).
En la ordenación agrupada de los datos, la moda se sitúa dentro del
intervalo modal, que es el intervalo con mayor altura en el
histograma de frecuencias absolutas (o relativas), es decir, con mayor
ni /Li (o fi /Li ). (Deberemos prestar especial atención si los
intervalos no tienen la misma amplitud).
Si la distribución tiene tres modas, se denomina trimodal.
Aunque, a veces, cuando hay más de dos modas se dice que la
distribución no tiene moda.
Observación 5 Esta medida de tendencia central es la menos
utilizada para variables cuantitativas, pero en cambio, es una de las
pocas que pueden calcularse para variables cualitativas.
Si [li−1 , li ) es el intervalo modal, entonces:
M o = li−1 + Li
ni+1 /Li+1
.
ni−1 /Li−1 + ni+1 /Li+1
Grado en Estadı́stica y Empresa
Ejemplo 2.8 Con los datos del ejercicio 2.2 (habitantes de las
provincias españolas) calcular la media aritmética, la mediana y la
moda.
intervalos
xi
ni
fi
Ni
Fi
ni /Li
[0, 100000)
50000
3 0.058
3
0.058
3 · 10−5
[100000, 250000)
175000
8 0.154 11 0.212 5.3 · 10−5
[250000, 500000)
375000 13 0.250 24 0.462 5.2 · 10−5
[500000, 750000)
600000 10 0.192 34 0.654
4 · 10−5
[750000, 1000000)
875000
7 0.135 41 0.789 2.8 · 10−5
[1000000, 2000000) 1500000 8 0.154 49 0.943 0.8 · 10−5
[2000000, 3000000) 2500000 1 0.019 50 0.962 0.1 · 10−5
[3000000, 4000000) 3500000 0
0
50 0.962
0
[4000000, 6000000] 5000000 2 0.038 52
1
0.1 · 10−5
total
52
1
k
1
43050000
k = 9 intervalos, x =
x i ni =
= 827884.62,
n i=1
52
38
Grado en Estadı́stica y Empresa
Ejemplo 2.8 Con los datos del ejemplo 2.7, calcular la moda.
39
40
Grado en Estadı́stica y Empresa
Ejemplo 2.8 (continuación)
intervalos
[0, 100000)
[100000, 250000)
[250000, 500000)
[500000, 750000)
[750000, 1000000)
[1000000, 2000000)
[2000000, 3000000)
[3000000, 4000000)
[4000000, 6000000]
total
xi
50000
175000
375000
600000
875000
1500000
2500000
3500000
5000000
ni
3
8
13
10
7
8
1
0
2
52
fi
0.058
0.154
0.250
0.192
0.135
0.154
0.019
0
0.038
1
n/2 = 26 ⇒ M e = 500000 + 250000 ·
Ni
3
11
24
34
41
49
50
50
52
Fi
0.058
0.212
0.462
0.654
0.789
0.943
0.962
0.962
1
ni /Li
3 · 10−5
5.3 · 10−5
5.2 · 10−5
4 · 10−5
2.8 · 10−5
0.8 · 10−5
0.1 · 10−5
0
0.1 · 10−5
26 − 24
= 550000,
34 − 24
esto significa que el 50% de las provincias españolas tienen menos
de 550000 habitantes.
41
Grado en Estadı́stica y Empresa
Ejemplo 2.8 (continuación)
intervalos
xi
[0, 100000)
50000
[100000, 250000)
175000
[250000, 500000)
375000
[500000, 750000)
600000
[750000, 1000000)
875000
[1000000, 2000000) 1500000
[2000000, 3000000) 2500000
[3000000, 4000000) 3500000
[4000000, 6000000] 5000000
total
M o = 100000 + 150000
ni
3
8
13
10
7
8
1
0
2
52
fi
0.058
0.154
0.250
0.192
0.135
0.154
0.019
0
0.038
1
Ni
3
11
24
34
41
49
50
50
52
Fi
0.058
0.212
0.462
0.654
0.789
0.943
0.962
0.962
1
2.4.2
ni /Li
3 · 10−5
5.3 · 10−5
5.2 · 10−5
4 · 10−5
2.8 · 10−5
0.8 · 10−5
0.1 · 10−5
0
0.1 · 10−5
Las más utilizadas son:
Cuartiles: Se denomina cuartil k-ésimo (k = 1, 2, 3) al número Qk
que deja k cuartas partes de la muestra por debajo de él y 4 − k
cuartes partes por encima.
Percentiles: Se denomina percentil k-ésimo (k = 1, 2, . . . , 99) al
número Pk que deja k centésimas partes de la muestra por debajo de
él y 100 − k centésimas partes por encima.
5.2 · 10
= 195121.95,
+ 5.2 · 10−5
10−5
esto significa que el número de habitantes más frecuente en las
provincias españolas es de 195122 hab. aproximadamente.
Grado en Estadı́stica y Empresa
Medidas de posición
El objectivo común de estas medidas es dividir el total de
observaciones en p partes iguales e informar del porcentaje de datos
que hay por encima y por debajo de los valores que separan cada una
de las partes.
−5
3·
42
Grado en Estadı́stica y Empresa
Observación 6 P25 = Q1 ,
43
P50 = Q2 = M e,
P75 = Q3 .
44
Grado en Estadı́stica y Empresa
Ejercicio 2.4 (continuación)
Para calcular los cuartiles y percentiles utilizaremos el mismo
algoritmo de cálculo que para la mediana, pero en lugar de buscar
n/2 habrá que buscar k n/4 para Qk y k n/100 para Pk .
Ejercicio 2.4 Con los datos del ejercicio 2.2 (habitantes de las
provincias españolas) calcular los cuartiles primero y tercero y el
percentil 80.
Para calcular Q1 buscamos en qué intervalo está el individuo que ocupa la
posición n/4 = 52/4 = 13. Para calcular Q3 buscamos en qué intervalo está
el individuo que ocupa la posición 3n/4 = 39. Para calcular P80 buscamos
en qué intervalo está el individuo que ocupa la posición
80n/100 = 41.6 ≈ 42.
intervalos
[0, 100000)
[100000, 250000)
[250000, 500000)
[500000, 750000)
[750000, 1000000)
[1000000, 2000000)
[2000000, 3000000)
[3000000, 4000000)
[4000000, 6000000]
total
xi
50000
175000
375000
600000
875000
1500000
2500000
3500000
5000000
ni
3
8
13
10
7
8
1
0
2
52
fi
0.058
0.154
0.250
0.192
0.135
0.154
0.019
0
0.038
1
Ni
3
11
24
34
41
49
50
50
52
Fi
0.058
0.212
0.462
0.654
0.789
0.943
0.962
0.962
1
ni /Li
3 · 10−5
5.3 · 10−5
5.2 · 10−5
4 · 10−5
2.8 · 10−5
0.8 · 10−5
0.1 · 10−5
0
0.1 · 10−5
45
Grado en Estadı́stica y Empresa
46
Grado en Estadı́stica y Empresa
Comparación entre media y mediana: robustez.
Diagrama de caja
Un rasgo que diferencia a media y mediana es su comportamiento
frente a datos atı́picos.
Es un diagrama muy útil que permite hacerse una idea de la
dispersión y la simetrı́a de la distribución. Sea RI = Q3 − Q1 .
Consideremos las observaciones siguientes
1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2, 8.3, 9.3,
1.5 RI
3 RI
RI
1.5 RI
3 RI
que dan lugar a una media de x = 5.3 y una mediana de M e = 5.6.
Supongamos que, por un error de transcripción, la observación 8.3 se
registra como 83, es decir que el conjunto de datos ordenado queda
como
1.7, 2.8, 3.2, 3.4, 5.3, 5.8, 6.2, 7.2, 9.3, 83.
+
Q1 M e
Esta nueva colección de observaciones contiene un dato atı́pico
extremo, que es 83. A pesar de ello, la mediana sigue siendo
M e = 5.6, mientras que la media ahora vale x = 12.8.
Q3
47
Grado en Estadı́stica y Empresa
48
Grado en Estadı́stica y Empresa
Media y mediana frente a datos atı́picos
simetrı́a
x
Me
asimetrı́a a la derecha
450
asimetrı́a a la izquierda
300
300
250
250
200
200
150
150
100
100
50
50
400
350
300
250
Me
x
200
150
100
50
0
−3
La resistencia o estabilidad de la mediana frente a la existencia de datos
−2
−1
0
1
x = Me
2
3
0
−0.2
0
0.2
0.4
0.6
x > Me
0.8
1
1.2
0
−0.2
0
0.2
0.4
0.6
0.8
x < Me
atı́picos es un fenómeno que, en general, recibe el nombre de robustez.
robustas. Por otra parte, cantidades basadas en la suma, como la media o
En una distribución simétrica, media y mediana coinciden.
En una distribución asimétrica a la derecha, la media (al ser sensible a los
datos atı́picos a la derecha del histograma) es mayor que la mediana.
la desviación tı́pica, se ven más afectadas por las observaciones
En una distribución asimétrica a la izquierda, la media (al ser sensible a los
atı́picas y son, por tanto, poco robustas.
datos atı́picos a la izquierda del histograma) es menor que la mediana.
Las medidas basadas en el orden, como la mediana, los cuartiles, el rango
intercuartı́lico o la MEDA, gozan de esta propiedad y se dice que son
1
1.2
49
Grado en Estadı́stica y Empresa
2.4.3
50
Grado en Estadı́stica y Empresa
El rango intercuartı́lico:
Medidas de dispersión o de variabilidad
RI = Q3 − Q1 .
Informan sobre la concentración de los datos respecto de alguna de
las caracterı́sticas de tendencia central. Las más utilizadas son:
Indica la dispersión del 50% central de los datos de la muestra
(amplitud de la caja del box-plot). Se recomienda su uso cuando hay
presencia de observaciones atı́picas (outliers).
El rango (también llamado recorrido o amplitud) es la diferencia
entre el valor máximo y el valor mı́nimo, es decir,
R = xmax − xmin .
La desviación media:
k
Inconvenientes del rango:
Dm =
1. No utiliza todas las observaciones (sólo dos de ellas).
Mide cuánto se alejan (en promedio) los valores de X de la media
aritmética. La desviación media guarda las mismas dimensiones que
las observaciones, pero no suele utilizarse en inferencia estadı́stica
puesto que el valor absoluto tiene malas propiedades matemáticas.
2. Puede quedar muy afectado por alguna observación extrema.
3. Al aumentar el número de observaciones en la muestra, el rango
nunca disminuye (o se queda igual o aumenta).
51
Grado en Estadı́stica y Empresa
1
|xi − x| ni .
n i=1
52
Grado en Estadı́stica y Empresa
La varianza muestral:
s2n =
k
1
(xi − x)2 ni .
n i=1
Mide cuánto se aleja (en promedio) cada valor de X de la media
aritmética, pero en unidades cuadráticas. A veces, se utiliza la
fórmula equivalente:
s2n
k
1
2
=
x ni −x2 = x2 − x2
n i=1 i
x2
La varianza no guarda la misma dimensión que las observaciones,
pero sı́ su raı́z cuadrada, sn = s2n , que se denomina desviación
tı́pica muestral (o desviación estándar).
Proposición 2.3 Si Y = a X + b, con a, b ∈ R, a > 0, entonces:
s2n (Y ) = a2 s2n (X).
(Demostración)
Este resultado dice que si las observaciones de la muestra sufren un
traslado de una cantidad b, la dispersión de la muestra no aumenta.
Mientras que si estas mismas observaciones sufren un cambio de
escala de factor a entonces la dispersión de la muestra alrededor de la
media será menor si a < 1 o bien será mayor si a > 1.
53
Grado en Estadı́stica y Empresa
Propiedades e inconvenientes de la varianza y la desviación
estándar:
54
Grado en Estadı́stica y Empresa
La cuasivarianza muestral (o varianza muestral corregida) se
utiliza mucho en inferencia estadı́stica y se define como:
1. La desviación estándar tiene la propiedad de que el intervalo
s2n−1 =
(x − 2 sn , x + 2 sn )
contiene por lo menos al 75% de la muestra (teorema de
Chebychev). Más aún, si el tamaño muestral es grande y puede
suponerse que la muestra sigue una distribución normal, el
intervalo puede contener al 95% de la muestra.
La fórmula siguiente permite relacionar la varianza y la cuasivarianza:
n s2n = (n − 1) s2n−1 .
Análogamente, se define la cuasidesviación tı́pica muestral como
la raı́z cuadrada
de la varianza muestral corregida, es decir,
2. Ambas son sensibles a cambios de escala en las observaciones
(cambios en las unidades de medida).
sn−1 =
3. No es recomendable el uso de ellas cuando tampoco lo sea el de
la media como medida de tendencia central. Por ejemplo, si hay
datos atı́picos.
Grado en Estadı́stica y Empresa
La mediana de las desviaciones absolutas, MEDA, es una
medida de la variabilidad de la muestra alrededor de la mediana y se
define como:
M EDA = M e (|x1 − M e(X)|, |x2 − M e(X)|, . . . , |xk − M e(X)|) .
Es una medida robusta.
Ejemplo 2.9 Calcular la MEDA para el conjunto de datos 17, 18,
18, 18, 19, 20, 21.
Indicaciones: Primero obtener la mediana de la muestra. Después
obtener las diferencias (en valor absoluto) entre las observaciones y la
mediana. Finalmente, la MEDA será la mediana de estas diferencias.
k
1 (xi − x)2 ni .
n − 1 i=1
s2n−1 .
Observación 7 El programa Statgraphics llama variance y standard
deviation a la cuasivarianza y cuasidesviación, respectivamente.
55
56
Grado en Estadı́stica y Empresa
El coeficiente de variación de Pearson permite comparar las
variabilidades de dos o más conjuntos de datos, ya sean variables
distintas medidas sobre el mismo conjunto de individuos o bien, una
sola variable medida sobre distintos conjuntos de individuos. Se
define como:
CV = sn /x.
Observación 8 No es invariante frente a traslaciones (cambios de
origen). Es decir, si Y = X + b, b > 0 entonces CV (Y ) < CV (X):
CV (Y ) =
sn (X)
sn (X)
sn (Y )
=
<
= CV (X).
y
x+b
x
Observación 9 Es invariante frente a cambios de escala. Si
Y = a X, a > 0, entonces, CV (Y ) = CV (X).
CV (Y ) =
a sn (X)
sn (Y )
=
= CV (X).
y
ax
57
Grado en Estadı́stica y Empresa
Ejercicio 2.8 (continuación)
Ejercicio 2.8 De los ocho empleados de una oficina, se han
considerado las distribuciones de sus edades y sus años de antigüedad
en la empresa:
Edad
40
22
19
30
62
32
45
51
Antigüedad
15
3
1
8
39
13
17
24
Edad
40
22
19
30
62
32
45
51
Antigüedad
15
3
1
8
39
13
17
24
Llamamos X a la variable “edad” e Y a la variable “antigüedad”.
R(X) = 62 − 19 = 43,
Calcular lor rangos de estas dos distribuciones. ¿Cuál de las dos
tiene mayor grado de dispresión?
R(Y ) = 39 − 1 = 38.
¿Podemos afirmar que X tiene mayor dispersión que Y ?
59
Grado en Estadı́stica y Empresa
58
Grado en Estadı́stica y Empresa
60
Grado en Estadı́stica y Empresa
Ejercicio 2.8 (continuación)
Aunque R(X) > R(Y ), esto no significa que el grado de dispersión de
X sea mayor que el de Y .
Para decidir qué variable tiene un mayor grado de dispersión
debemos calcular el coeficiente de variación.
Para la variable edad es:
n
x
=
s2n (X)
=
sn (X)
=
CV (X)
=
1
301
xi =
= 37.6,
n i=1
8
12839
x2 − x2 =
− (37.6)2 = 189.23,
8
√
189.23 = 13.8,
sn (X)
13.8
× 100 =
× 100 = 36.7%.
x
37.6
Ejercicio 2.8 (continuación)
Mientras que para la variable antigüedad:
n
y
=
s2n (Y )
=
sn (Y )
=
CV (Y )
=
1
120
yi =
= 15,
n i=1
8
2854
y2 − y2 =
− (15)2 = 131.75,
8
√
131.75 = 11.48,
sn (Y )
11.48
× 100 =
× 100 = 76.5%.
y
15
Por tanto, puesto que CV (Y ) = 76.5% > CV (X) = 36.7%, la
variable Y (antigüedad) tiene una mayor dispresión, a pesar de que
su rango es menor.
Grado en Estadı́stica y Empresa
2.4.4
61
62
Grado en Estadı́stica y Empresa
Medidas de forma: asimetrı́a y apuntamiento
Se dice que una distribución de datos es simétrica cuando lo es su
representación gráfica, mientras que si la representación gráfica está
desplazada hacia la izquierda o hacia la derecha se dice que es
asimétrica.
Figure 6: (a) Simetrı́a, (b) Asimetrı́a positiva y (c) Asimetrı́a negativa.
450
300
300
250
250
200
200
150
150
100
100
400
Si el desplazamiento es hacia la derecha, se dice que la distribución
tiene asimetrı́a positiva, y asimetrı́a negativa si el
desplazamiento es hacia la izquierda.
350
300
250
200
150
El coeficiente de asimetrı́a de Fisher permite medir la asimetrı́a
de la muestra:
k
1
(xi − x)3 ni
AsF = n i=1 3
.
sn
AsF > 0 ⇒ asimetrı́a positiva; AsF < 0 ⇒ asimetrı́a negativa.
100
50
50
50
0
−3
−2
−1
0
1
2
3
0
−0.2
0
(a) AsF = 0
0.2
0.4
0.6
0.8
1
1.2
0
−0.2
0
(b) AsF > 0
0.2
0.4
0.6
0.8
1
1.2
(c) AsF < 0
Observación 10 Statgraphics denomina skewness a este coeficiente.
Grado en Estadı́stica y Empresa
Las medidas de apuntamiento, o curtosis, tratan de valorar la
estilización de la representación gráfica de una distribución de datos.
Sólo tienen sentido en el caso de distribucions acampanadas con
simetrı́a o ligera asimetrı́a.
Se define el coeficiente de apuntamiento o de curtosis:
k
1
4
i=1 (xi − x) ni
n
.
Ap =
s4n
Ap ≈ 3 ⇒ distribución normal (mesocúrtica),
Ap > 3 ⇒ distribución apuntada (leptocúrtica),
Ap < 3 ⇒ distribución plana (platicúrtica).
Observación 11 Statgraphics calcula el coeficiente de apuntamiento de
Fisher, Ap − 3, al que denomina kurtosis. De manera que: si Ap − 3 ≈ 0 ⇒
distribución normal (mesocúrtica), si Ap − 3 > 0 ⇒ distribución apuntada
(leptocúrtica), si Ap − 3 < 0 ⇒ distribución plana (platicúrtica).
63
64
Grado en Estadı́stica y Empresa
Figure 7: (a) Mesocúrtica, (b) Leptocúrtica y (c) Platicúrtica.
1000
1000
1000
900
900
900
800
800
800
700
700
700
600
600
600
500
500
500
400
400
400
300
300
300
200
200
200
100
100
0
−6
−4
−2
0
2
(a) Ap = 3
4
6
0
100
−6
−4
−2
0
2
(b) Ap > 3
4
6
0
−6
−4
−2
0
2
(c) Ap < 3
4
6
65
Grado en Estadı́stica y Empresa
Ejemplo 2.10 Con los datos del ejemplo 2.3 calcular la media
aritmética, la mediana y la moda, el primer y tercer cuartiles, el
percentil 95%, la varianza y desviación tı́pica muestrales, el rango, el
rango intercuartı́lico y la MEDA.
hojas atacadas
0
1
2
3
4
5
6
8
10
Total
ni
6
10
12
8
5
4
3
1
1
50
Ni
6
16
28
36
41
45
48
49
50
x i ni
0
10
24
24
20
20
18
8
10
134
Me
134
50 = 2.68,
x
+x
= (25) 2 (26)
Observemos que M e < x, por tanto, esto debe advertirnos que la
distribución tiene asimetrı́a positiva, tal como indican el diagrama de
barras y el polı́gono de frecuencias:
8
= 2,
M o = 2.
6
¿Qué deducimos de la posición
relativa entre media y mediana?
4
2
0
67
Ni
6
16
28
36
41
45
48
49
50
1
2
3
4
5
6
7
8
9 10
68
Grado en Estadı́stica y Empresa
Ejemplo 2.10 (continuación):
Ejemplo 2.10 (continuación):
ni
6
10
12
8
5
4
3
1
1
50
polı́gono de frecuencias
diagrama de barras
12
10
Grado en Estadı́stica y Empresa
hojas atacadas
0
1
2
3
4
5
6
8
10
Total
Ejemplo 2.10 (continuación):
Medidas de tendencia central:
x=
66
Grado en Estadı́stica y Empresa
Medidas de posición:
n/4 = 12.5 ⇒ Q1 = 1,
3n/4 = 37.5 ⇒ Q3 = 4,
95n/100 = 47.5 ⇒ P95 = 6.
¿Qué significa que P95 = 6?
¿Qué intervalo contiene el
50% central de la muestra?
hojas atacadas
0
1
2
3
4
5
6
8
10
Total
ni
6
10
12
8
5
4
3
1
1
50
Ni
6
16
28
36
41
45
48
49
50
x i ni
0
10
24
24
20
20
18
8
10
134
x2i ni
0
10
48
72
80
100
108
64
100
582
Medidas de dispersión:
s2n = 582/50 − 2.682 = 4.46,
√
sn = 4.46 = 2.11,
R = 10 − 0 = 10,
RI = 4 − 1 = 3.
¿Qué significa que sn = 2.11?
69
Grado en Estadı́stica y Empresa
Ejemplo 2.10 (continuación):
Ejemplo 2.11 Con los datos del ejemplo 2.4 calcular la media
aritmética, la mediana y la moda, el primer y tercer cuartiles, el
percentil 30%, la varianza y desviación tı́pica muestrales, el rango y
el rango intercuartı́lico.
¿Cuánto vale la MEDA? Recordemos que M e = 2.
xi
0
1
2
3
4
5
6
8
10
xi − M e(X)
-2
-1
0
1
2
3
4
6
8
ni
6
10
12
8
5
4
3
1
1
yi = |xi − M e(X)|
0
1
2
3
4
6
8
Total
n = 50 ⇒ M EDA =
ni
12
18
11
4
3
1
1
50
Ni
12
30
41
45
48
49
50
Medidas de tendencia central:
intervalo
xi
ni
Ni
ni /Li
x i ni
[0, 4)
2
9
9
9/4
18
x=
[4, 8)
6
5
14
5/4
30
Intervalo mediano: [4, 8),
[8, 12)
10
4
18
4/4
40
M e = 4 + (8 − 4) 10−9
14−9 = 4.8,
[12, 16]
14
2
20
2/4
28
Intervalo modal: [0, 4),
Total
20
116
116
20
= 5.8,
5/4
= 4.
M o = 0 + (4 − 0) 0+5/4
¿Qué significa Mo=4?
y(25) + y(26)
= 1.
2
¿Qué tipo de asimetrı́a presenta esta muestra de datos?
71
Grado en Estadı́stica y Empresa
70
Grado en Estadı́stica y Empresa
72
Grado en Estadı́stica y Empresa
Ejemplo 2.11 (continuación):
Observemos que M e < x, por tanto, esto debe advertirnos de que la
distribución tiene asimetrı́a positiva, tal como indican el histograma
y el polı́gono de frecuencias:
2.5
polı́gono de frecuencias
histograma
2
1.5
1
Ejemplo 2.11 (continuación):
intervalo
xi
ni
Ni
[0, 4)
2
9
9
[4, 8)
6
5
14
Q1 = 0 +
4(5−0)
9−0
[8, 12)
10
4
18
Q3 = 8 +
4(15−14)
18−14
[12, 16]
14
2
20
P30 = 0 +
4(6−0)
9−0
Total
0.5
0
4
8
12
16
20
Medidas de posición:
= 2.22,
= 9,
= 2.67.
73
Grado en Estadı́stica y Empresa
Ejercicio 2.9 Una empresa inmobiliaria ofrece apartamentos en
régimen de alquiler con los siguientes precios (en euors):
Ejemplo 2.11 (continuación):
xi
ni
Ni
x i ni
x2i ni
[0, 4)
2
9
9
18
36
s2n =
[4, 8)
6
5
14
30
180
sn =
[8, 12)
10
4
18
40
400
[12, 16]
14
2
20
28
392
116
1008
20
1008
20
√
Ni
21
48
82
96
104
115
125
21
27
34
14
8
11
10
R = 16 − 0 = 16,
RI = 9 − 2.22 = 6.78.
a) Obtener el alquiler medio por apartamento, el precio más
frecuente y el precio que se situa en medio de la oferta.
Ejercicio 2.9 (continuación):
ni
21
27
34
14
8
11
10
125
700-1000
1000-1100
1100-1300
1300-1500
1500-1800
1800-2000
2000-2100
16.76 = 4.09,
75
xi
850
1050
1200
1400
1650
1900
2050
número de apartamentos
− 5.82 = 16.76,
Grado en Estadı́stica y Empresa
[li−1 , li )
[700, 1000)
[1000, 1100)
[1100, 1300)
[1300, 1500)
[1500, 1800)
[1800, 2000)
[2000, 2100]
Total
precio alquiler (mensual)
Medidas de dispersión:
intervalo
Total
74
Grado en Estadı́stica y Empresa
fi
0.168
0.216
0.272
0.112
0.064
0.088
0.08
1
x i ni
17850
28350
40800
19600
13200
20900
20500
161200
ni /Li
0.07
0.27
0.17
0.07
0.027
0.055
0.1
¿Cuál es el intervalo modal? ¿Y el intervalo mediano?
El alquiler medio por apartamento es ...
El precio más frecuente es ...
El precio que se situa en medio de la oferta es ...
Grado en Estadı́stica y Empresa
Ejercicio 2.9 (continuación):
b) Si una persona está dispuesta a gastarse en alquiler entre 1250 y
1350 euros al mes, a qué porcentaje de apartamentos tiene
opción?
c) Por debajo de qué precio están el 80% de los apartamentos?
d) Entre qué precios están el 50% central de los apartamentos?
Soluciones: a) 1289.6 euros/mes, 1070.83 euros/mes, 1185.29
euros/mes; b) 9.6%; c) 1650 euros/mes; d) entre 1037.96 y 1467.86
euros/mes
76
77
Grado en Estadı́stica y Empresa
Grado en Estadı́stica y Empresa
3.1
3
Si X es la variable original y a, b ∈ R, entonces Y = a + b X es una
transformación lineal de X.
Transformar un conjunto de observaciones de una variable
cuantitativa consiste en modificar cada una de ellas mediante una
misma operación matemática, obteniendo ası́ el conjunto de datos
transformados.
Propiedades: Si x, s2n (X), M e(X) y M EDA(X) son la media, la
varianza, la mediana y la MEDA de X, respectivamente, entonces:
1. La media y varianza de Y son: y = a + b x, s2n (Y ) = b2 s2n (X),
La transformación de datos se realiza con el fin de obtener una nueva
variable cuya distribución sea más simple y con mejores propiedades
(simetrı́a, media igual a cero, desviación tı́pica igual a uno, . . .) que
la variable original.
2. La mediana y MEDA de Y son: M e(Y ) = a + b M e(X),
M EDA(Y ) = |b| M EDA(X).
Una situación habitual donde se utilizan las transformaciones lineales
es cuando se hace un cambio de unidades de medida. Por ejemplo
pasar de habitantes a miles de habitantes, de dólares a euros, . . .
79
Un caso particular de transformación lineal es la tipificación de
una variable. La variable tipificada de X es
Z=
x
X −x
1
=
X−
,
sn (X)
sn (X)
sn (X)
que equivale a decir que Z es una transformación lineal de X, con
a = −x/sn (X) y b = 1/sn (X).
Proposición 3.1 Toda variable tipificada tiene media cero y
varianza unidad.
La variable tipificada expresa el número de desviaciones estándar que
cada observación dista de la media. Se utiliza para comparar la
posición relativa de un mismo individuo respecto de distintas
distribuciones de datos o bien, para comparar la posición relativa de
individuos distintos dentro de la misma distribución de datos.
Transformaciones lineales
Es la forma más sencilla de transformar datos.
Transformaciones
Grado en Estadı́stica y Empresa
78
Grado en Estadı́stica y Empresa
A pesar de las buenas propiedades de las transformaciones lineales,
éstas no son suficientes para modificar rasgos más complejos de una
distribución de datos, como por ejemplo la asimetrı́a. Para ello serán
necesarias las transformaciones no lineales.
3.2
Transformaciones no lineales.
Como regla general, se trata de escoger una transformación que
conduzca a una distribución simétrica y más cercana a la distribución
normal. De este modo, se podrán aplicar numerosas técnicas de
inferencia estadı́stica.
En una distribución simétrica unimodal, la media, la moda y la
mediana coinciden; además el coeficiente de asimetrı́a es cero (ası́
como todos los momentos de orden impar).
80
81
Grado en Estadı́stica y Empresa
Corrección de la asimetrı́a negativa: Cuando se tienen
distribuciones de frecuencias con asimetrı́a negativa (frecuencias altas
hacia el lado derecho de la distribución), es conveniente aplicar la
transformación xk , k ∈ N, k ≥ 2. Esta transformación comprime la
escala para valores pequeños y la expande para valores altos.
Las medidas basadas en el orden de los datos, como la mediana o los
cuartiles se mantienen iguales cuando se hace una transformación
monótona del estilo de las previamente citadas. Por el contrario, el
resto de estadı́sticos cambia.
Corrección de la asimetrı́a positiva: Para distribuciones con
asimetrı́a positiva (frecuencias altas hacia el lado izquierdo de la
√
distribución) se usan las transformaciones x, log x, 1/x, que
comprimen los valores altos y expanden los pequeños. El efecto de
√
estas transformaciones está en orden creciente: menos efecto x, más
efecto log x y aún más 1/x.
Observación 12 Si en lugar del conjunto de observaciones
originales se tiene sólo la distribución de frecuencias en una tabla con
ordenación agrupada, se puede realizar la transformación modificando
los extremos de las clases mediante la función elegida. En general,
esto hace que cambien las longitudes de los intervalos de
clase. Por tanto, si a continuación se dibuja el histograma con las
nuevas clases, habrá que recalcular las alturas de cada intervalo.
La transformación más utilizada es la logarı́tmica. Muchas
distribuciones de datos económicos, o de consumos se convierten en
simétricas al tomar la transformación logarı́tmica.
83
Grado en Estadı́stica y Empresa
82
Grado en Estadı́stica y Empresa
84
Grado en Estadı́stica y Empresa
Ejemplo 3.1 (continuación:)
Ejemplo 3.1 El número de dı́as que 9 trabajadores escogidos al azar
de una empresa han estado de baja son los siguientes:
15
7
8
85
19
12
8
22
14
a) Representa este conjunto de datos mediante un diagrama de caja
(box-plot). ¿Se detecta algún valor atı́pico?
b) ¿Qué se puede decir de la simetrı́a de estos datos?
c) ¿Qué transformaciones conoces que creas que pueden ser útiles
para simetrizar estos datos?
0
20
40
60
80
100
dias de baja
¿Qué se puede decir de la simetrı́a de estos datos?
¿Qué transformaciones conoces que creas que pueden ser útiles para
simetrizar estos datos?
85
Grado en Estadı́stica y Empresa
transformación X 2
transformación
√
86
Grado en Estadı́stica y Empresa
X
Ejemplo 3.2 Se consideran los siguientes datos, correspondientes a
la tasa de incrementos de precios al consumo, en 1985, para 24 paı́ses
de la OCDE:
0
2
4
d d
6
8
(X 1000)
di
2,6
4,6
transformación log(X)
6,6
8,6
10,6
2.2
7.4
5.5
16.3
transformación 1/X
7.6
3.2
32.7
15.9
2.9
5.1
9.1
5.9
4.6
5.3
1.7
6.7
4.1
20.1
3.2
3.4
3.9
2.3
5.8
40.5
Considerar la transformación logarı́tmica y comparar ambas variables.
1,9
2,4
2,9
3,4
3,9
4,4
4,9
0
0,03
0,06
0,09
0,12
0,15
87
Grado en Estadı́stica y Empresa
Ejemplo 3.2 (continuación)
paı́s
1
2
3
4
5
6
7
8
9
10
11
12
x
1.7
2.2
2.3
2.9
3.2
3.2
3.4
3.9
4.1
4.6
5.1
5.3
y = log(x)
0.53
0.79
0.83
1.06
1.16
1.16
1.22
1.36
1.41
1.53
1.63
1.67
88
Grado en Estadı́stica y Empresa
Ejemplo 3.2 (continuación)
paı́s
13
14
15
16
17
18
19
20
21
22
23
24
x
5.5
5.8
5.9
6.7
7.4
7.6
9.1
15.9
16.3
20.1
32.7
40.5
y = log(x)
1.70
1.76
1.77
1.90
2.00
2.03
2.21
2.77
2.79
3.00
3.49
3.70
Figure 8: Histograma de frecuencias absolutas.
18
15
12
10
9
8
6
6
4
3
2
0
8.2
16.4
24.6
X
32.8
41
0
0.8
1.6
2.4
3.2
4
Y = log(X)
X presenta una fuerte asimetrı́a positiva: la mayor parte de los paı́ses
tienen valores por debajo de 10 y, unos pocos, un valor mucho mayor.
Y tiene una distribución más simétrica.
89
Grado en Estadı́stica y Empresa
Ejemplo 3.2 (continuación)
Ejemplo 3.2 (continuación)
media
cuartiles
1as y 2as
barreras
exteriores
90
Grado en Estadı́stica y Empresa
medidas numéricas
x
Q1
M e = Q2
Q3
RI = Q3 − Q1
Q1 − 1.5 RI
Q3 + 1.5 RI
Q3 + 3 RI
mı́nimo(∗)
máximo(∗)
X
8.975
3.2
5.4
7.6
4.4
-3.4
14.2
20.8
1.7
9.1
Y = log(X)
1.812
1.16
1.685
2.03
0.87
-0.145
3.335
4.64
0.53
3.00
Figure 9: Diagramas de caja. En la figura de la izquierda se observa
una fuerte asimetrı́a positiva, mientras que en la figura de la derecha
hay una ligera asimetrı́a positiva.
+
(*) el mı́nimo y el máximo de los datos antes de las primeras barreras exteriores.
0
+
10
20
30
40
50 0
1
X
91
Grado en Estadı́stica y Empresa
2
3
4
Y = log(X)
92
Grado en Estadı́stica y Empresa
Ejemplo 3.1 (continuación)
Puesto que la variable tipificada se obitene mediante la fórmula:
Z=
Ejercicio 3.1 Dada la distribución de edades (medidas en años) en
un colectivo de 100 personas, obtener: la variable tipificada Z, los
valores de la media y varianza de Z, el coeficiente de variación de Z.
edad
2
7
15
30
frecuencia
47
32
17
4
X −x
,
sn
para obtener los valores tipificados de X, necesitamos obtener, en
primer lugar, la media y la desviación tı́pica de X. Para ello nos
ayudamos de la tabla siguiente:
xi
ni
x i ni
x2i ni
2
47
94
188
7
32
224
1568
15
17
255
3825
30
4
120
3600
total
100
693
9181
x=
693
100
= 6.93
2
s2n = x2 − x2 = 9181
100 − (6.93) = 43.79
√
sn = 43.79 = 6.62
93
Grado en Estadı́stica y Empresa
94
Grado en Estadı́stica y Empresa
Ejemplo 3.1 (continuación)
Los valores tipificados de X son:
Ejemplo 3.1 (continuación)
2 − 6.93
7 − 6.93
= −0.745, z2 =
= 0.011,
6.62
6.62
15 − 6.93
30 − 6.93
= 1.220, z4 =
= 3.485.
z3 =
6.62
6.62
z1 =
Calculamos la media y varianza para la variable Z:
zi
ni
zi ni
zi2 ni
-0.745
47
-35.015
26.086
0.011
32
0.352
0.004
1.220
17
20.740
25.303
3.485
4
13.940
48.581
total
100
0.0017
99.974
No tiene ningún sentido calcular el
coeficiente de variación de Z,
puesto que al tratarse de una variable
z=
0.017
100
s2z =
sz =
= 0.00017 ≈ 0
99.974
100
√
tipificada:
− (0.00017)2 = 0.9997 ≈ 1
0.9997 = 0.9999 ≈ 1
¿Cuánto vale el coeficiente de variación de Z?
CV =
sz
1
≈ → ∞!!
z
0
Descargar