Medidas de Posición, Dispersión y de Forma

Anuncio
Estadı́stica
Tema 1: Estadı́stica Descriptiva Unidimensional
Unidad 2: Medidas de Posición,
Dispersión y de Forma
Área de Estadı́stica e Investigación Operativa
Licesio J. Rodrı́guez-Aragón
Septiembre 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Medidas de Posición
Introducción . . . . . . . . . . .
Media Aritmética. . . . . . . .
Media Aritmética con R . . .
Media Ponderada. . . . . . . .
Media Geométrica . . . . . . .
Media Armónica . . . . . . . .
Mediana . . . . . . . . . . . . . .
Moda . . . . . . . . . . . . . . . .
Cuartiles . . . . . . . . . . . . . .
Percentiles. . . . . . . . . . . . .
Observaciones . . . . . . . . . .
Medidas de Posición con R .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
. 4
. 5
. 6
. 7
. 8
. 9
10
11
12
13
14
15
Medidas de Dispersión
Introducción . . . . . . . . . . . .
Recorrido . . . . . . . . . . . . . .
Momentos . . . . . . . . . . . . . .
Momentos con R . . . . . . . . .
Varianza y Desviación Tı́pica
Varianza con R . . . . . . . . . .
Coeficiente de Variación . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
17
18
19
20
21
22
23
.
.
.
.
.
24
25
26
27
28
29
Medidas de Forma
Asimetrı́a . . . . . . . . . . . . .
Curtosis, Kurtosis . . . . . . .
Asimetrı́a y Curtosis con R.
Histograma de Ingresos . . .
Histograma de Ingresos . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Contenidos
Medidas de Posición
– Medias, Mediana, Moda, Cuartiles y Percentiles.
Medidas de Dispersión.
– Absoluta y Relativa.
Medidas de Forma.
– Asimetrı́a y Curtosis.
Las Medidas Estadı́sticas tienen como objetivo sustituir toda la información, por
unos pocos valores que la caractericen.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 2 / 29
3 / 29
Medidas de Posición
Introducción
Las Medidas de Posición tienen por objetivo proporcionar valores en torno al los cuales se
encuentran las observaciones.
Algunas de ellas se denominan “Medidas de Tendencia Central”, porque suelen situarse en torno
al centro de los datos.
Media: Aritmética, Ponderada, Geométrica, Armónica.
Mediana.
Moda.
Cuartiles y Percentiles.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 4 / 29
2
Media Aritmética
Se define como la suma de los datos dividida por el número de ellos.
x=
Pn
i
xi
n
=
m
m
i
i
X
1X
ni · xi =
fi · xi
n
La media es muy sensible a los valores extremos.
Es la medida más utilizada, muchos procedimientos estadı́sticos se basan en ella.
La Media Aritmética representa el centro de gravedad del histograma.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 5 / 29
Media Aritmética con R
>
>
>
>
+
>
library(UsingR)
ingresos<-cfb$INCOME[1:15]
mean(ingresos)
hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE,
main="Histograma de Ingresos",ylab="Densidad de Frecuencia")
points(mean(ingresos),-0.0000005,pch=24,cex=2.8)
1.0e−05
0.0e+00
Densidad de Frecuencia
2.0e−05
Histograma de Ingresos
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
ingresos
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 6 / 29
3
Media Ponderada
La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma
importancia.
Para tener en cuenta la importancia se asigna a cada observación un peso, wi .
Pn
i wi · xi
xw = P
n
i wi
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 7 / 29
Media Geométrica
Cuando trabajamos con valores observados positivos:
v
u n
uY
n
xG = t
xi
i
Tiene una aplicación menos frecuente que la Media Aritmética, pero importante:
Año
1
2
3
Capital
Inicial
10000
10500
12600
Tasa de
Crecimiento
0.05
0.20
0.50
Factor de Expansión = 1, 25
Factor de
Expansión
1.05
1.20
1.50
Capital
Final
10500
12600
18900
Factor de ExpansiónG = 1, 2364
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 8 / 29
4
Media Armónica
Se define:
xA =
1
n
1
Pm
i
ni
xi
Se toman los inversos de los datos, se promedian y por último se toma el inverso de ese promedio.
Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h,
la velocidad media a la que ha realizado el viaje es:
velocidadA =
velocidad media =
1 1
2 ( 100
1
+
1
120 )
= 109.1km/h
Distancia Recorrida
=
Tiempo Empleado
Licesio J. Rodrı́guez-Aragón
d
100
2d
d
+ 120
Tema 1, Unidad 2. – 9 / 29
5
Mediana
Es el valor de la variable estadı́stica que deja igual número de observaciones a su derecha que a su
izquierda. Ordenando los datos de menor a mayor, la mediana será el dato central o el promedio
de los centrales (tamaño par).
0.6
0.4
1/2
0.0
0.2
Frecuencia Acumulada
0.8
1.0
1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
0
2
4
6
8
0.6
0.4
1/2
0.0
0.2
Frecuencia Acumulada
0.8
1.0
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
0
2
4
6
8
0.6
Fi+1
0.4
1/2
Fi
0.0
0.2
Frecuencia Acumulada
0.8
1.0
En el caso de datos agrupados, lo más adecuado es hablar del intervalo mediano. Gráficamente la
mediana se obtendrı́a:
bi
0
2
4
bi+1
Me
6
8
10
Mediante semejanza de triángulos:
Me = bi +
1/2 − Fi
· (bi+1 − bi ).
Fi+1 − Fi
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 10 / 29
6
Moda
Es el valor de la variable estadı́stica que se presenta con mayor frecuencia. No tiene por qué ser
única y puede no poderse calcular.
Ejemplo:
1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2 y 6
En el caso de datos agrupados, se suele hablar de intervalo modal, aquél de mayor frecuencia.
1.0e−05
5.0e−06
Md
0.0e+00
Densidad de Frecuencia
1.5e−05
Histograma de Ingresos
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Ingresos
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 11 / 29
Cuartiles
Qk para k = 1, 2, 3, se define Cuartil k−ésimo como el valor de la variable que deja inferiores o
iguales a él las k/4 partes de las observaciones.
Q2 = Me
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8
n = 16
Q1 deja inferiores o iguales a él, 1/4 de las observaciones, 4.
Q2 deja inferiores o iguales a él, 1/2 de las observaciones, 8.
Q3 deja inferiores o iguales a él, 3/4 de las observaciones,12.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 12 / 29
7
Percentiles
El k−ésimo Percentil Pk , se define como el valor de la variable estadı́stica que deja inferiores o
iguales a él las k/100 observaciones.
P25 = Q1 ,
P50 = Q2 = Me,
P75 = Q3 .
Para datos agrupados el cálculo es análogo al de la mediana:
Pk = bi +
nk
− Ni
k/100 − Fi
· (bi+1 − bi ) = bi + 100
· (bi+1 − bi ).
Fi+1 − Fi
Ni+1 − Ni
Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk .
The kth percentile is that value of X, say xk , which corresponds to a cumulative frequency of
where n is the sample size.
Licesio J. Rodrı́guez-Aragón
nk
100 ,
Tema 1, Unidad 2. – 13 / 29
Observaciones
La Mediana es un estadı́stico basado en propiedades ordinales. Valor de la variable que
ocupa el orden (n + 1)/2.
La Mediana divide al histograma en dos partes de áreas iguales.
La Moda es el valor con mayor frecuencia de aparición.
La Moda corresponde a la mayor altura del histograma.
Cuando trabajemos con distribuciones con valores atı́picos o asimétricas, trabajaremos con
la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media.
Si la distribución es simétrica y unimodal, los tres puntos coinciden, Media, Mediana y
Moda.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 14 / 29
8
Medidas de Posición con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> summary(ingresos)
Min. 1st Qu.
7195
14900
Median
35980
Mean 3rd Qu.
35130
47800
Max.
78120
> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90))
10%
25%
50%
60%
75%
90%
10854.74 14904.70 35976.87 37210.37 47797.85 64758.37
> X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8)
> summary(X)
Min. 1st Qu.
1.000
2.000
Median
3.500
Mean 3rd Qu.
3.857
5.750
Max.
8.000
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 15 / 29
16 / 29
Medidas de Dispersión
Introducción
Las Medidas de Dispersión tienen como objetivo cuantificar la variabilidad de los datos.
Recorrido, Recorrido Intercuartı́lico, Recorrido Semiintercuartilico.
Varianza, Desviación Tı́pica, Cuasivarianza.
Coeficiente de Variación.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 17 / 29
9
Recorrido
Recorrido: es la diferencia entre el máximo y el mı́nimo de los valores de la variable
aleatoria.
R = máx(X) − mı́n(X).
Recorrido Intercuartı́lico: Longitud de un intervalo central que contiene el 50% de las
observaciones. Anchura de la caja en un diagrama Box Plot.
RI = Q3 − Q1 .
Recorrido Semiintercuartı́lico: Corresponde con la mitad del anterior.
RSI = RI /2.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 18 / 29
Momentos
Definiremos la expresión general de un Momento respecto del punto v y de orden r:
m
Mr (v) =
1X
ni (xi − v)r
n
i
Momentos Respecto al Origen, Raw Moment, v = 0:
m
1X
ar =
ni · xri
n
i
Casos particulares:
m
a1 =
1X
ni · xi = x
n
Media Muestral.
i
a2 =
1
n
m
X
i
ni · x2i = x2
Media Muestral de Cuadrados.
Momentos Centrales, Central Moment,v = x:
m
1X
mr =
ni (xi − x)r
n
i
Casos particulares:
m
m1 =
1X
ni (xi − x) = 0
n
i
m2 =
1
n
m
X
i
ni (xi − x)2 = s2
Licesio J. Rodrı́guez-Aragón
Varianza.
Tema 1, Unidad 2. – 19 / 29
10
Momentos con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> sum(ingresos)/length(ingresos)
[1] 35127.13
> mean(ingresos)
[1] 35127.13
> library(e1071)
> moment(ingresos,order=1,center=FALSE)
[1] 35127.13
> moment(ingresos,order=1,center=TRUE)
[1] 3.395447e-12
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 20 / 29
Varianza y Desviación Tı́pica
La Varianza, es una de las medidas de dispersión más usadas.
m
1X
ni (xi − x)2 = x2 − x2 = a2 − a21 .
s =
n
2
i
El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso
habitualmente se trabaja con su raı́z cuadrada, la Desviación Tı́pica:
√
s = s2 .
En estadı́stica se usa con frecuencia la Cuasivarianza muestral:
m
s2c =
1 X
n 2
ni (xi − x)2 =
s .
n−1
n−1
i
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 21 / 29
11
Varianza con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME[1:15]
> sum((ingresos-mean(ingresos))^2)/length(ingresos)
[1] 456585857
> moment(ingresos,order=2,center=TRUE)
[1] 456585857
> var(ingresos)
[1] 489199132
> var(ingresos)*(length(ingresos)-1)/length(ingresos)
[1] 456585857
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 22 / 29
Coeficiente de Variación
Las medidas de dispersión que hemos visto hasta ahora dependen de las unidades de medida de la
variable.
Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos
diferentes se utilizan medidas de dispersión relativas.
Coeficiente de Variación:
CV =
s
.
|x|
Es una cantidad adimensional que mide la dispersión respecto a la media.
También se denomina Variabilidad Relativa y puede expresarse en porcentaje.
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 23 / 29
12
24 / 29
Medidas de Forma
Asimetrı́a
Definiremos Asimetrı́a Positiva cuando Md≤Me≤ x.
Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de
los datos una cola a la derecha.
Definiremos Asimetrı́a Negativa cuando x ≤Me≤Md.
Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de
los datos una cola a la izquierda.
El coeficiente de Asimetrı́a (de Fisher) se define:
1 Pm
3
m3
i ni (xi − x)
n
.
g1 = 3 =
s
s3
Asimetría Positiva
Asimetría Negativa
g1=−1.66
g1 =1.85
Simétrica
g1 = 0.028
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 25 / 29
13
Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviación tı́pica,
aparecen diferentes tipos de distribuciones de frecuencias de los datos.
Definiendo el coeficiente muestral de exceso:
m4
g2 = 4 − 3 =
s
Platicúrtica g2 < 0.
Mesocúrtica g2 = 0.
Leptocúrtica g2 > 0.
1
n
Pm
i
ni (xi − x)4
− 3.
s4
Leptocurtica
0.25
0.25
Platicurtica
0.05
0.10
0.15
0.20
g2 =2.32
0.00
0.00
0.05
0.10
0.15
0.20
g2 =−1.06
−10
−5
0
5
10
−10
−5
0
5
10
0.25
Mesocurtica
0.00
0.05
0.10
0.15
0.20
g2 =0.056
−10
−5
0
Licesio J. Rodrı́guez-Aragón
5
10
Tema 1, Unidad 2. – 26 / 29
14
Asimetrı́a y Curtosis con R
>
>
>
+
library(UsingR,e1071)
ingresos<-cfb$INCOME
moment(ingresos,order=3,center=TRUE)/moment(ingresos,
order=2,center=TRUE)^(3/2)
[1] 8.083549
> skewness(ingresos,type=1)
[1] 8.083549
> help(skewness)
> kurtosis(ingresos,type=1)
[1] 82.83009
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 27 / 29
Histograma de Ingresos
1.2e−05
8.0e−06
4.0e−06
0.0e+00
Densidad de Frecuencia
Histograma de Ingresos
0
500000
1000000
1500000
ingresos
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 28 / 29
15
Histograma de Ingresos
> library(UsingR)
> edad<-cfb$AGE
> skewness(edad)
[1] 0.3639585
> kurtosis(edad)
[1] -0.6366239
Densidad de Frecuencia
0.000 0.005 0.010 0.015 0.020 0.025
Histograma de Edades
0
20
40
60
80
100
edad
Licesio J. Rodrı́guez-Aragón
Tema 1, Unidad 2. – 29 / 29
16
Descargar