Estadı́stica Tema 1: Estadı́stica Descriptiva Unidimensional Unidad 2: Medidas de Posición, Dispersión y de Forma Área de Estadı́stica e Investigación Operativa Licesio J. Rodrı́guez-Aragón Septiembre 2010 Contenidos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Medidas de Posición Introducción . . . . . . . . . . . Media Aritmética. . . . . . . . Media Aritmética con R . . . Media Ponderada. . . . . . . . Media Geométrica . . . . . . . Media Armónica . . . . . . . . Mediana . . . . . . . . . . . . . . Moda . . . . . . . . . . . . . . . . Cuartiles . . . . . . . . . . . . . . Percentiles. . . . . . . . . . . . . Observaciones . . . . . . . . . . Medidas de Posición con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 . 4 . 5 . 6 . 7 . 8 . 9 10 11 12 13 14 15 Medidas de Dispersión Introducción . . . . . . . . . . . . Recorrido . . . . . . . . . . . . . . Momentos . . . . . . . . . . . . . . Momentos con R . . . . . . . . . Varianza y Desviación Tı́pica Varianza con R . . . . . . . . . . Coeficiente de Variación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 17 18 19 20 21 22 23 . . . . . 24 25 26 27 28 29 Medidas de Forma Asimetrı́a . . . . . . . . . . . . . Curtosis, Kurtosis . . . . . . . Asimetrı́a y Curtosis con R. Histograma de Ingresos . . . Histograma de Ingresos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Contenidos Medidas de Posición – Medias, Mediana, Moda, Cuartiles y Percentiles. Medidas de Dispersión. – Absoluta y Relativa. Medidas de Forma. – Asimetrı́a y Curtosis. Las Medidas Estadı́sticas tienen como objetivo sustituir toda la información, por unos pocos valores que la caractericen. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 2 / 29 3 / 29 Medidas de Posición Introducción Las Medidas de Posición tienen por objetivo proporcionar valores en torno al los cuales se encuentran las observaciones. Algunas de ellas se denominan “Medidas de Tendencia Central”, porque suelen situarse en torno al centro de los datos. Media: Aritmética, Ponderada, Geométrica, Armónica. Mediana. Moda. Cuartiles y Percentiles. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 4 / 29 2 Media Aritmética Se define como la suma de los datos dividida por el número de ellos. x= Pn i xi n = m m i i X 1X ni · xi = fi · xi n La media es muy sensible a los valores extremos. Es la medida más utilizada, muchos procedimientos estadı́sticos se basan en ella. La Media Aritmética representa el centro de gravedad del histograma. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 5 / 29 Media Aritmética con R > > > > + > library(UsingR) ingresos<-cfb$INCOME[1:15] mean(ingresos) hist(ingresos,breaks=seq(0,100000,by=10000),freq=FALSE, main="Histograma de Ingresos",ylab="Densidad de Frecuencia") points(mean(ingresos),-0.0000005,pch=24,cex=2.8) 1.0e−05 0.0e+00 Densidad de Frecuencia 2.0e−05 Histograma de Ingresos 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 ingresos Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 6 / 29 3 Media Ponderada La media ponderada se utiliza en los casos en los que no todas las observaciones tienen la misma importancia. Para tener en cuenta la importancia se asigna a cada observación un peso, wi . Pn i wi · xi xw = P n i wi Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 7 / 29 Media Geométrica Cuando trabajamos con valores observados positivos: v u n uY n xG = t xi i Tiene una aplicación menos frecuente que la Media Aritmética, pero importante: Año 1 2 3 Capital Inicial 10000 10500 12600 Tasa de Crecimiento 0.05 0.20 0.50 Factor de Expansión = 1, 25 Factor de Expansión 1.05 1.20 1.50 Capital Final 10500 12600 18900 Factor de ExpansiónG = 1, 2364 Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 8 / 29 4 Media Armónica Se define: xA = 1 n 1 Pm i ni xi Se toman los inversos de los datos, se promedian y por último se toma el inverso de ese promedio. Si un coche recorre una distancia d a 100km/h y deshace el camino a una velocidad de 120km/h, la velocidad media a la que ha realizado el viaje es: velocidadA = velocidad media = 1 1 2 ( 100 1 + 1 120 ) = 109.1km/h Distancia Recorrida = Tiempo Empleado Licesio J. Rodrı́guez-Aragón d 100 2d d + 120 Tema 1, Unidad 2. – 9 / 29 5 Mediana Es el valor de la variable estadı́stica que deja igual número de observaciones a su derecha que a su izquierda. Ordenando los datos de menor a mayor, la mediana será el dato central o el promedio de los centrales (tamaño par). 0.6 0.4 1/2 0.0 0.2 Frecuencia Acumulada 0.8 1.0 1, 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 0 2 4 6 8 0.6 0.4 1/2 0.0 0.2 Frecuencia Acumulada 0.8 1.0 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 0 2 4 6 8 0.6 Fi+1 0.4 1/2 Fi 0.0 0.2 Frecuencia Acumulada 0.8 1.0 En el caso de datos agrupados, lo más adecuado es hablar del intervalo mediano. Gráficamente la mediana se obtendrı́a: bi 0 2 4 bi+1 Me 6 8 10 Mediante semejanza de triángulos: Me = bi + 1/2 − Fi · (bi+1 − bi ). Fi+1 − Fi Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 10 / 29 6 Moda Es el valor de la variable estadı́stica que se presenta con mayor frecuencia. No tiene por qué ser única y puede no poderse calcular. Ejemplo: 1, 1, 2, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4, 5, 5, 6, 6, 6, 8 Moda = 2 y 6 En el caso de datos agrupados, se suele hablar de intervalo modal, aquél de mayor frecuencia. 1.0e−05 5.0e−06 Md 0.0e+00 Densidad de Frecuencia 1.5e−05 Histograma de Ingresos 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Ingresos Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 11 / 29 Cuartiles Qk para k = 1, 2, 3, se define Cuartil k−ésimo como el valor de la variable que deja inferiores o iguales a él las k/4 partes de las observaciones. Q2 = Me Ejemplo: 1, 1, 2, 2, 2, 3, 3, 4,4, 5, 5, 5, 6, 6, 6, 8 n = 16 Q1 deja inferiores o iguales a él, 1/4 de las observaciones, 4. Q2 deja inferiores o iguales a él, 1/2 de las observaciones, 8. Q3 deja inferiores o iguales a él, 3/4 de las observaciones,12. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 12 / 29 7 Percentiles El k−ésimo Percentil Pk , se define como el valor de la variable estadı́stica que deja inferiores o iguales a él las k/100 observaciones. P25 = Q1 , P50 = Q2 = Me, P75 = Q3 . Para datos agrupados el cálculo es análogo al de la mediana: Pk = bi + nk − Ni k/100 − Fi · (bi+1 − bi ) = bi + 100 · (bi+1 − bi ). Fi+1 − Fi Ni+1 − Ni Siendo (bi , bi+1 ) el intervalo de clase que contiene Pk . The kth percentile is that value of X, say xk , which corresponds to a cumulative frequency of where n is the sample size. Licesio J. Rodrı́guez-Aragón nk 100 , Tema 1, Unidad 2. – 13 / 29 Observaciones La Mediana es un estadı́stico basado en propiedades ordinales. Valor de la variable que ocupa el orden (n + 1)/2. La Mediana divide al histograma en dos partes de áreas iguales. La Moda es el valor con mayor frecuencia de aparición. La Moda corresponde a la mayor altura del histograma. Cuando trabajemos con distribuciones con valores atı́picos o asimétricas, trabajaremos con la Mediana en lugar de con la Media. Los valores extremos influyen gravemente en la Media. Si la distribución es simétrica y unimodal, los tres puntos coinciden, Media, Mediana y Moda. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 14 / 29 8 Medidas de Posición con R > library(UsingR) > ingresos<-cfb$INCOME[1:15] > summary(ingresos) Min. 1st Qu. 7195 14900 Median 35980 Mean 3rd Qu. 35130 47800 Max. 78120 > quantile(ingresos,c(0.1,0.25,0.5,0.6,0.75,0.90)) 10% 25% 50% 60% 75% 90% 10854.74 14904.70 35976.87 37210.37 47797.85 64758.37 > X<-c(1,1,2,2,2,3,3,4,5,5,6,6,6,8) > summary(X) Min. 1st Qu. 1.000 2.000 Median 3.500 Mean 3rd Qu. 3.857 5.750 Max. 8.000 Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 15 / 29 16 / 29 Medidas de Dispersión Introducción Las Medidas de Dispersión tienen como objetivo cuantificar la variabilidad de los datos. Recorrido, Recorrido Intercuartı́lico, Recorrido Semiintercuartilico. Varianza, Desviación Tı́pica, Cuasivarianza. Coeficiente de Variación. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 17 / 29 9 Recorrido Recorrido: es la diferencia entre el máximo y el mı́nimo de los valores de la variable aleatoria. R = máx(X) − mı́n(X). Recorrido Intercuartı́lico: Longitud de un intervalo central que contiene el 50% de las observaciones. Anchura de la caja en un diagrama Box Plot. RI = Q3 − Q1 . Recorrido Semiintercuartı́lico: Corresponde con la mitad del anterior. RSI = RI /2. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 18 / 29 Momentos Definiremos la expresión general de un Momento respecto del punto v y de orden r: m Mr (v) = 1X ni (xi − v)r n i Momentos Respecto al Origen, Raw Moment, v = 0: m 1X ar = ni · xri n i Casos particulares: m a1 = 1X ni · xi = x n Media Muestral. i a2 = 1 n m X i ni · x2i = x2 Media Muestral de Cuadrados. Momentos Centrales, Central Moment,v = x: m 1X mr = ni (xi − x)r n i Casos particulares: m m1 = 1X ni (xi − x) = 0 n i m2 = 1 n m X i ni (xi − x)2 = s2 Licesio J. Rodrı́guez-Aragón Varianza. Tema 1, Unidad 2. – 19 / 29 10 Momentos con R > library(UsingR) > ingresos<-cfb$INCOME[1:15] > sum(ingresos)/length(ingresos) [1] 35127.13 > mean(ingresos) [1] 35127.13 > library(e1071) > moment(ingresos,order=1,center=FALSE) [1] 35127.13 > moment(ingresos,order=1,center=TRUE) [1] 3.395447e-12 Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 20 / 29 Varianza y Desviación Tı́pica La Varianza, es una de las medidas de dispersión más usadas. m 1X ni (xi − x)2 = x2 − x2 = a2 − a21 . s = n 2 i El problema es que sus unidades son el cuadrado de las unidades de los datos. Por eso habitualmente se trabaja con su raı́z cuadrada, la Desviación Tı́pica: √ s = s2 . En estadı́stica se usa con frecuencia la Cuasivarianza muestral: m s2c = 1 X n 2 ni (xi − x)2 = s . n−1 n−1 i Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 21 / 29 11 Varianza con R > library(UsingR,e1071) > ingresos<-cfb$INCOME[1:15] > sum((ingresos-mean(ingresos))^2)/length(ingresos) [1] 456585857 > moment(ingresos,order=2,center=TRUE) [1] 456585857 > var(ingresos) [1] 489199132 > var(ingresos)*(length(ingresos)-1)/length(ingresos) [1] 456585857 Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 22 / 29 Coeficiente de Variación Las medidas de dispersión que hemos visto hasta ahora dependen de las unidades de medida de la variable. Para comparar la variabilidad de grupos o de valores de una misma variable en conjuntos diferentes se utilizan medidas de dispersión relativas. Coeficiente de Variación: CV = s . |x| Es una cantidad adimensional que mide la dispersión respecto a la media. También se denomina Variabilidad Relativa y puede expresarse en porcentaje. Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 23 / 29 12 24 / 29 Medidas de Forma Asimetrı́a Definiremos Asimetrı́a Positiva cuando Md≤Me≤ x. Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de los datos una cola a la derecha. Definiremos Asimetrı́a Negativa cuando x ≤Me≤Md. Esto queda reflejado en el diagrama de barras o en un histograma presentando la distribución de los datos una cola a la izquierda. El coeficiente de Asimetrı́a (de Fisher) se define: 1 Pm 3 m3 i ni (xi − x) n . g1 = 3 = s s3 Asimetría Positiva Asimetría Negativa g1=−1.66 g1 =1.85 Simétrica g1 = 0.028 Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 25 / 29 13 Curtosis, Kurtosis Tomando como origen de coordenadas la media x, y como unidad de medida la desviación tı́pica, aparecen diferentes tipos de distribuciones de frecuencias de los datos. Definiendo el coeficiente muestral de exceso: m4 g2 = 4 − 3 = s Platicúrtica g2 < 0. Mesocúrtica g2 = 0. Leptocúrtica g2 > 0. 1 n Pm i ni (xi − x)4 − 3. s4 Leptocurtica 0.25 0.25 Platicurtica 0.05 0.10 0.15 0.20 g2 =2.32 0.00 0.00 0.05 0.10 0.15 0.20 g2 =−1.06 −10 −5 0 5 10 −10 −5 0 5 10 0.25 Mesocurtica 0.00 0.05 0.10 0.15 0.20 g2 =0.056 −10 −5 0 Licesio J. Rodrı́guez-Aragón 5 10 Tema 1, Unidad 2. – 26 / 29 14 Asimetrı́a y Curtosis con R > > > + library(UsingR,e1071) ingresos<-cfb$INCOME moment(ingresos,order=3,center=TRUE)/moment(ingresos, order=2,center=TRUE)^(3/2) [1] 8.083549 > skewness(ingresos,type=1) [1] 8.083549 > help(skewness) > kurtosis(ingresos,type=1) [1] 82.83009 Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 27 / 29 Histograma de Ingresos 1.2e−05 8.0e−06 4.0e−06 0.0e+00 Densidad de Frecuencia Histograma de Ingresos 0 500000 1000000 1500000 ingresos Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 28 / 29 15 Histograma de Ingresos > library(UsingR) > edad<-cfb$AGE > skewness(edad) [1] 0.3639585 > kurtosis(edad) [1] -0.6366239 Densidad de Frecuencia 0.000 0.005 0.010 0.015 0.020 0.025 Histograma de Edades 0 20 40 60 80 100 edad Licesio J. Rodrı́guez-Aragón Tema 1, Unidad 2. – 29 / 29 16