Métodos Estad´ısticos de la Ingenier´ıa Tema 3: Medidas Estad

Anuncio
Métodos Estadı́sticos de la Ingenierı́a
Tema 3: Medidas Estadı́sticas
Grupo B
Área de Estadı́stica e Investigación Operativa
Licesio J. Rodrı́guez-Aragón
Enero 2010
Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Medidas de Posición
Introducción . . . . . . . . . . . . . . . . .
Media Aritmética, Arithmetic Mean
Media Aritmética con R . . . . . . . . .
Media Ponderada, Weighted Mean .
Media Geométrica, Geometric Mean
Media Armónica, Harmonic Mean . .
Mediana, Median . . . . . . . . . . . . . .
Moda, Mode . . . . . . . . . . . . . . . . .
Cuartiles, Quartile . . . . . . . . . . . . .
Percentiles, Percentile . . . . . . . . . .
Observaciones . . . . . . . . . . . . . . . .
Medidas de Posición con R . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
4
5
6
7
8
9
10
11
12
13
14
15
Medidas de Dispersión
Introducción . . . . . . . . . . . . . . . . . . . . . . . .
Recorrido . . . . . . . . . . . . . . . . . . . . . . . . . .
Momentos . . . . . . . . . . . . . . . . . . . . . . . . . .
Momentos con R . . . . . . . . . . . . . . . . . . . . .
Varianza y Desviación Tı́pica . . . . . . . . . . . .
Varianza con R . . . . . . . . . . . . . . . . . . . . . .
Coeficiente de Variación, Variation Coefficient
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
16
17
18
19
20
21
22
23
Medidas de Forma
Asimetrı́a, Skewness . . . . . .
Curtosis, Kurtosis . . . . . . .
Asimetrı́a y Curtosis con R.
Histograma de Ingresos . . .
Histograma de Ingresos . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
25
26
27
28
29
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
Contenidos
Medidas de Posición
– Medias, Mediana, Moda, Cuartiles y Percentiles.
– Mean, Median, Mode, Quartile and Percentile.
Medidas de Dispersión, Deviation.
– Absoluta y Relativa.
Medidas de Forma, Shape.
– Asimetrı́a y Curtosis.
– Skewness and Kurtosis.
Las Medidas Estadı́sticas tienen como objetivo sustituir toda la información, por
unos pocos valores que la caractericen.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 2 / 29
3 / 29
Medidas de Posición
Introducción
Las Medidas de Posición tienen por objetivo proporcionar valores en torno al los cuales se
encuentran las observaciones.
Algunas de ellas se denominan “Medidas de Tendencia Central”, porque suelen situarse en torno
al centro de los datos.
Media: Aritmética (Arithmetic), Ponderada (Weighted), Geométrica (Geometric), Armónica
(Harmonic).
Mediana (Median).
Moda (Mode).
Cuartiles y Percentiles (Quartile and Percentile).
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 4 / 29
2
Media Aritmética, Arithmetic Mean
Se define como la suma de los datos dividida por el número de ellos.
x=
Pn
i
xi
n
=
m
m
i
i
X
1X
ni · xi =
fi · xi
n
La media es muy sensible a los valores extremos.
Es la medida más utilizada, muchos procedimientos estadı́sticos se basan en ella.
La Media Aritmética representa el centro de gravedad del histograma.
Arithmetic Mean: The quantity commonly referred to as ”the” mean of a set of values is the
arithmetic mean, also called the average.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 5 / 29
Media Aritmética con R
>
>
>
>
+
>
library(UsingR)
ingresos<-cfb$INCOME[1:15]
mean(ingresos)
hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE,
main="Histograma de Ingresos",ylab="Densidad de Frecuencia")
points(mean(ingresos),-0.0000005,pch=24,cex=2.8)
1.0e−05
0.0e+00
Densidad de Frecuencia
2.0e−05
Histograma de Ingresos
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
ingresos
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 6 / 29
3
Media Ponderada, Weighted Mean
La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma
importancia.
Para tener en cuenta la importancia se asigna a cada observación un peso, wi .
Pn
i wi · xi
xw = P
n
i wi
The Weighted Mean is similar to an Arithmetic Mean (the most common type of average),
where instead of each of the data points contributing equally to the final average, some data
points contribute more than others.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 7 / 29
Media Geométrica, Geometric Mean
Cuando trabajamos con valores observados positivos:
v
u n
uY
n
xG = t
xi
i
Tiene una aplicación menos frecuente que la Media Aritmética, pero importante:
Año
1
2
3
Capital
Inicial
10000
10500
12600
Tasa de
Crecimiento
0.05
0.20
0.50
Factor de Expansión = 1, 25
Factor de
Expansión
1.05
1.20
1.50
Capital
Final
10500
12600
18900
Factor de ExpansiónG = 1, 2364
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 8 / 29
4
Media Armónica, Harmonic Mean
Se define:
xA =
1
n
1
Pm
i
ni
xi
Se toman los inversos de los datos, se promedian y por último se toma el inverso de ese promedio.
Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h,
la velocidad media a la que ha realizado el viaje es:
velocidadA =
velocidad media =
1 1
2 ( 100
1
+
1
120 )
= 109.1km/h
Distancia Recorrida
=
Tiempo Empleado
Licesio J. Rodrı́guez-Aragón
d
100
2d
d
+ 120
Tema 3, M.E.I. – 9 / 29
5
Mediana, Median
Es el valor de la variable estadı́stica que deja igual número de observaciones a su derecha que a su
izquierda. Ordenando los datos de menor a mayor, la mediana será el dato central o el promedio
de los centrales (tamaño par).
0.6
0.4
1/2
0.0
0.2
Frecuencia Acumulada
0.8
1.0
The statistical median is an order statistic that gives the ”middle´´ value of a sample. More
specifically, it is the value such that an equal number of samples are less than and greater than
the value (for an odd sample size), or the average of the two central values (for an even sample
size).
1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
0
2
4
6
8
0.6
0.4
1/2
0.0
0.2
Frecuencia Acumulada
0.8
1.0
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
0
2
4
6
8
0.6
Fi+1
0.4
1/2
Fi
0.0
0.2
Frecuencia Acumulada
0.8
1.0
En el caso de datos agrupados, lo más adecuado es hablar del intervalo mediano. Gráficamente la
mediana se obtendrı́a:
bi
0
2
4
bi+1
Me
6
8
10
Mediante semejanza de triángulos:
Me = bi +
1/2 − Fi
· (bi+1 − bi ).
Fi+1 − Fi
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 10 / 29
6
Moda, Mode
Es el valor de la variable estadı́stica que se presenta con mayor frecuencia. No tiene por qué ser
única y puede no poderse calcular.
The most common value obtained in a set of observations.
Ejemplo:
1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8
Moda = 2 y 6
En el caso de datos agrupados, se suele hablar de intervalo modal, aquél de mayor frecuencia.
1.0e−05
5.0e−06
Md
0.0e+00
Densidad de Frecuencia
1.5e−05
Histograma de Ingresos
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Ingresos
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 11 / 29
7
Cuartiles, Quartile
Qk para k = 1, 2, 3, se define Cuartil k−ésimo como el valor de la variable que deja inferiores o
iguales a él las k/4 partes de las observaciones.
Q2 = Me
Ejemplo:
1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8
n = 16
Q1 deja inferiores o iguales a él, 1/4 de las observaciones, 4.
Q2 deja inferiores o iguales a él, 1/2 de las observaciones, 8.
Q3 deja inferiores o iguales a él, 3/4 de las observaciones,12.
One of the four divisions of observations which have been grouped into four equal-sized sets based
on their statistical rank.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 12 / 29
8
Percentiles, Percentile
El k−ésimo Percentil Pk , se define como el valor de la variable estadı́stica que deja inferiores o
iguales a él las k/100 observaciones.
P25 = Q1 ,
P50 = Q2 = Me,
P75 = Q3 .
Para datos agrupados el cálculo es análogo al de la mediana:
Pk = bi +
nk
− Ni
k/100 − Fi
· (bi+1 − bi ) = bi + 100
· (bi+1 − bi ).
Fi+1 − Fi
Ni+1 − Ni
Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk .
The kth percentile is that value of X, say xk , which corresponds to a cumulative frequency of
where n is the sample size.
Licesio J. Rodrı́guez-Aragón
nk
100 ,
Tema 3, M.E.I. – 13 / 29
Observaciones
La Mediana es un estadı́stico basado en propiedades ordinales. Valor de la variable que
ocupa el orden (n + 1)/2.
La Mediana divide al histograma en dos partes de áreas iguales.
La Moda es el valor con mayor frecuencia de aparición.
La Moda corresponde a la mayor altura del histograma.
Cuando trabajemos con distribuciones con valores atı́picos o asimétricas, trabajaremos con
la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media.
Si la distribución es simétrica y unimodal, los tres puntos coinciden, Media, Mediana y
Moda.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 14 / 29
9
Medidas de Posición con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> summary(ingresos)
Min. 1st Qu.
7195
14900
Median
35980
Mean 3rd Qu.
35130
47800
Max.
78120
> quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90))
10%
25%
50%
60%
75%
90%
10854.74 14904.70 35976.87 37210.37 47797.85 64758.37
> X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8)
> summary(X)
Min. 1st Qu.
1.000
2.000
Median
3.500
Mean 3rd Qu.
3.857
5.750
Max.
8.000
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 15 / 29
16 / 29
Medidas de Dispersión
Introducción
Las Medidas de Dispersión tienen como objetivo cuantificar la variabilidad de los datos.
Recorrido, Recorrido Intercuartı́lico, Recorrido Semiintercuartilico.
Range, Interquartile Range, Quartile Deviation.
Varianza, Desviación Tı́pica, Cuasivarianza.
Variance, Standar Deviation, Quasivariance.
Coeficiente de Variación.
Variation Coefficient.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 17 / 29
10
Recorrido
Recorrido: es la diferencia entre el máximo y el mı́nimo de los valores de la variable
aleatoria.
R = máx(X) − mı́n(X).
Recorrido Intercuartı́lico: Longitud de un intervalo central que contiene el 50% de las
observaciones. Anchura de la caja en un diagrama Box Plot.
RI = Q3 − Q1 .
Recorrido Semiintercuartı́lico: Corresponde con la mitad del anterior.
RSI = RI /2.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 18 / 29
Momentos
Definiremos la expresión general de un Momento respecto del punto v y de orden r:
m
Mr (v) =
1X
ni (xi − v)r
n
i
Momentos Respecto al Origen, Raw Moment, v = 0:
m
1X
ar =
ni · xri
n
i
Casos particulares:
m
a1 =
1X
ni · xi = x
n
Media Muestral.
i
a2 =
1
n
m
X
i
ni · x2i = x2
Media Muestral de Cuadrados.
Momentos Centrales, Central Moment,v = x:
m
1X
mr =
ni (xi − x)r
n
i
Casos particulares:
m
m1 =
1X
ni (xi − x) = 0
n
i
m2 =
1
n
m
X
i
ni (xi − x)2 = s2
Licesio J. Rodrı́guez-Aragón
Varianza.
Tema 3, M.E.I. – 19 / 29
11
Momentos con R
> library(UsingR)
> ingresos<-cfb$INCOME[1:15]
> sum(ingresos)/length(ingresos)
[1] 35127.13
> mean(ingresos)
[1] 35127.13
> library(e1071)
> moment(ingresos,order=1,center=FALSE)
[1] 35127.13
> moment(ingresos,order=1,center=TRUE)
[1] 3.395447e-12
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 20 / 29
Varianza y Desviación Tı́pica
La Varianza, Variance, es una de las medidas de dispersión más usadas.
m
1X
s =
ni (xi − x)2 = x2 − x2 = a2 − a21 .
n
2
i
El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso
habitualmente se trabaja con su raı́z cuadrada, la Desviación Tı́pica, Standar Deviation:
√
s = s2 .
En estadı́stica se usa con frecuencia la Cuasivarianza muestral, Quasivariance:
m
s2c
1 X
n 2
=
ni (xi − x)2 =
s .
n−1
n−1
i
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 21 / 29
12
Varianza con R
> library(UsingR,e1071)
> ingresos<-cfb$INCOME[1:15]
> sum((ingresos-mean(ingresos))^2)/length(ingresos)
[1] 456585857
> moment(ingresos,order=2,center=TRUE)
[1] 456585857
> var(ingresos)
[1] 489199132
> var(ingresos)*(length(ingresos)-1)/length(ingresos)
[1] 456585857
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 22 / 29
Coeficiente de Variación, Variation Coefficient
Las medidas de dispersión que hemos visto hasta ahora dependen de las unidades de medida de la
variable.
Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos
diferentes se utilizan medidas de dispersión relativas.
Coeficiente de Variación:
CV =
s
.
|x|
Es una cantidad adimensional que mide la dispersión respecto a la media.
También se denomina Variabilidad Relativa y puede expresarse en porcentaje.
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 23 / 29
13
24 / 29
Medidas de Forma
Asimetrı́a, Skewness
Definiremos Asimetrı́a Positiva cuando Md≤Me≤ x.
Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de
los datos una cola a la derecha.
Definiremos Asimetrı́a Negativa cuando x ≤Me≤Md.
Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de
los datos una cola a la izquierda.
El coeficiente de Asimetrı́a (de Fisher) se define:
1 Pm
3
m3
i ni (xi − x)
n
.
g1 = 3 =
s
s3
Asimetría Positiva
Asimetría Negativa
g1=−1.66
g1 =1.85
Simétrica
g1 = 0.028
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 25 / 29
14
Curtosis, Kurtosis
Tomando como origen de coordenadas la media x, y como unidad de medida la desviación tı́pica,
aparecen diferentes tipos de distribuciones de frecuencias de los datos.
Definiendo el coeficiente muestral de exceso:
m4
g2 = 4 − 3 =
s
Platicúrtica g2 < 0.
Mesocúrtica g2 = 0.
Leptocúrtica g2 > 0.
1
n
Pm
i
ni (xi − x)4
− 3.
s4
Leptocurtica
0.25
0.25
Platicurtica
0.05
0.10
0.15
0.20
g2 =2.32
0.00
0.00
0.05
0.10
0.15
0.20
g2 =−1.06
−10
−5
0
5
10
−10
−5
0
5
10
0.25
Mesocurtica
0.00
0.05
0.10
0.15
0.20
g2 =0.056
−10
−5
0
Licesio J. Rodrı́guez-Aragón
5
10
Tema 3, M.E.I. – 26 / 29
15
Asimetrı́a y Curtosis con R
>
>
>
+
library(UsingR,e1071)
ingresos<-cfb$INCOME
moment(ingresos,order=3,center=TRUE)/moment(ingresos,
order=2,center=TRUE)^(3/2)
[1] 8.083549
> skewness(ingresos,type=1)
[1] 8.083549
> help(skewness)
> kurtosis(ingresos,type=1)
[1] 82.83009
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 27 / 29
Histograma de Ingresos
1.2e−05
8.0e−06
4.0e−06
0.0e+00
Densidad de Frecuencia
Histograma de Ingresos
0
500000
1000000
1500000
ingresos
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 28 / 29
16
Histograma de Ingresos
> library(UsingR)
> edad<-cfb$AGE
> skewness(edad)
[1] 0.3639585
> kurtosis(edad)
[1] -0.6366239
Densidad de Frecuencia
0.000 0.005 0.010 0.015 0.020 0.025
Histograma de Edades
0
20
40
60
80
100
edad
Licesio J. Rodrı́guez-Aragón
Tema 3, M.E.I. – 29 / 29
17
Descargar