Tema 3: Estadística Descriptiva Estadística. 4o Curso. Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 1 / 27 Índice 1 Introducción. 2 Tabulación de datos 3 Representación gráfica 4 Medidas de síntesis de la información Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 2 / 27 1 Introducción. Experimentos estadísticos Una vez seleccionada la muestra de la población, medimos en las n unidades experimentales la variable o variables que pretendemos estudiar. Si X es una de estas variables obtendremos que x1 , . . . , xn son los valores que toma la variable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vez muestra de la variable X. Ejemplo de tabla de datos 1 2 3 4 .. . n Licenciatura en Ciencias Ambientales (4o Curso) X x1 x2 x3 x4 .. . xn Y y1 y2 y3 y4 .. . yn Z z1 z2 z3 z4 .. . zn W w1 w2 w3 w4 .. . wn Tema 3: Estadística Descriptiva ... ... ... ... ... ... Curso 2008-2009 3 / 27 2. Tabulación de datos Tablas de frecuencias: Variables cualitativas n (tamaño de la muestra) frecuencia total. M1 , . . . , Mk modalidades distintas de la variable sobre la muestra. ni ≡ frecuencia absoluta de Mi ; es el número de veces que se repite la modalidad Mi (n1 + · · · + nk = n ) ni fi ≡ frecuencia relativa de la modalidad Mi ; fi = n (f1 + · · · + fk = 1) Mod. M1 M2 .. . Mk Licenciatura en Ciencias Ambientales (4o Curso) ni n1 n2 .. . nk n fi f1 f2 .. . fk 1 Tema 3: Estadística Descriptiva Curso 2008-2009 4 / 27 2. Tabulación de datos Ejemplo 1 En una zona contaminada se tomaron una serie de muestras de aire y se midieron los niveles de CO (alto, medio, bajo), obteniéndose los siguientes resultados: dato CO dato CO 1 A 11 B 2 A 12 A 3 M 13 A 4 B 14 M Mod. Alto Medio Bajo Licenciatura en Ciencias Ambientales (4o Curso) 5 A 15 A ni 8 6 6 20 6 M 16 A 7 B 17 B 8 B 18 M 9 A 19 M 10 M 20 B fi 0.4 0.3 0.3 1 Tema 3: Estadística Descriptiva Curso 2008-2009 5 / 27 2. Tabulación de datos Tablas de frecuencias: Variables cuantitativas discretas n (tamaño de la muestra) frecuencia total. x1 , . . . , xk valores distintos de la variable sobre la muestra. (x1 < · · · < xn ) ni ≡ frecuencia absoluta y fi ≡ frecuencia relativa; se definen del mismo modo que para las variables cualitativas. Ni ≡ frecuencia absoluta acumulada de xi ; Ni = n1 + · · · + ni (Nk = n) Fi ≡ frecuencia relativa acumulada de xi ; Fi = f1 + · · · + fi (Fk = n) valor x1 x2 .. . xk Licenciatura en Ciencias Ambientales (4o Curso) ni n1 n2 .. . nk n fi f1 f2 .. . fk 1 Ni N1 N2 .. . Nk = n Tema 3: Estadística Descriptiva Fi F1 F2 .. . Fk = 1 Curso 2008-2009 6 / 27 2. Tabulación de datos Ejemplo 2 Se desea saber el riesgo de extinción de la cigüeña en una cierta región. Se eligen en dicha región 25 nidos mediante un MAS, contando los huevos que hay en cada nido. Resulta que 2 de los nidos no tenían huevos, 3 tenían un huevo, 4 tenían 2 huevos, 8 tenían 3 huevos, 5 tenían 4 huevos y el resto 5 huevos. valor 0 1 2 3 4 5 Licenciatura en Ciencias Ambientales (4o Curso) ni 2 3 4 8 5 3 25 fi 0.08 0.12 0.16 0.32 0.2 0.12 1 Ni 2 5 9 17 22 25 Tema 3: Estadística Descriptiva Fi 0.08 0.2 0.36 0.68 0.88 1 Curso 2008-2009 7 / 27 2. Tabulación de datos Tablas de frecuencias: Variables cuantitativas continuas Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables en intervalos. La forma de hacerlo es la siguiente: Determinar valores máximo (Vmax ) y mínimo (Vmin ) de los datos. Determinar el número (k) de intervalos a construir, que deben ser todos de la misma amplitud. Vmax − Vmin Determinar la amplitud de los intervalos: a ≈ k A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDER NINGÚN DATO EN EL PROCESO. ¿Cómo determinar el número de intervalos? Categorías prefijadas en estudios anteriores. A criterio del investigador. Mediante la Fórmula de Sturges (k ≈ 1 + 3.322 log10 n) u otra similar. Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 8 / 27 2. Tabulación de datos Ejemplo 3 En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultores expuestos a insecticidas agrícolas: 10.6 11.5 14.9 12.2 10.3 11.3 Vmin = 7.8 , 11.8 8.6 11.1 12.5 9.9 12.5 10.8 12.4 12.3 Vmax = 16.5 , a≈ 12.7 8.5 10.2 11.1 11.9 12.5 16.5 9.1 9.7 11.4 10.1 12.3 9.2 11.6 12.0 15.0 7.8 9.3 12.4 k ≈ 1 + 3.322 log10 34 = 6.08 ≈ 6 16.5 − 7.8 = 1.45(≈ 1.5) 6 Sin redondear: [7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5] Redondeando: [7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5] Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 9 / 27 2. Tabulación de datos Tablas de frecuencias: variables cuantitativas continuas I1 = [a0 , a1 ], I2 = (a1 , a2 ], . . . , Ik = (ak−1 , ak ] intervalos en los que se han agrupado los datos. ni ≡ frecuencia absoluta del intervalo Ii ; es el número de valores que pertenecen al intervalo Ii . ni fi ≡ frecuencia relativa del intervalo Ii ; fi = n Ni ≡ frecuencia absoluta acumulada del intervalo Ii ; Ni = n1 + · · · + ni Fi ≡ frecuencia relativa acumulada del intervalo Ii ; Fi = f1 + · · · + fi intervalo I1 I2 .. . Ik Licenciatura en Ciencias Ambientales (4o Curso) ni n1 n2 .. . nk n fi f1 f2 .. . fk 1 Ni N1 N2 .. . Nk = n Tema 3: Estadística Descriptiva Fi F1 F2 .. . Fk = 1 Curso 2008-2009 10 / 27 2. Tabulación de datos Ejemplo 3 (continuación) Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultores expuestos a insecticidas agrícolas: Licenciatura en Ciencias Ambientales (4o Curso) intervalo [7.5, 9] ni 3 fi 0.088 Ni 3 Fi 0.088 (9, 10.5] 8 0.235 11 0.323 (10.5, 12] 11 0.324 22 0.647 (12, 13.5] 9 0.265 31 0.911 (13.5, 15] 2 0.059 33 0.971 (15, 16.5] 1 34 0.029 1 34 1 Tema 3: Estadística Descriptiva Curso 2008-2009 11 / 27 3. Representación gráfica Variables cualitativas: diagrama de sectores Se calculan frecuencias relativas (fi ). A la modalidad Mi se le asigna un ángulo de fi · 360o . No es conveniente que haya un número excesivo de modalidades. Ejemplo 1 (continuación) Alto Mod. Alto Medio Bajo ni 8 6 6 20 fi 0.4 0.3 0.3 1 grados 144 108 108 Bajo Medio Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 12 / 27 3. Representación gráfica Variables cualitativas: diagrama de barras Esta representación consiste en construir tantos rectángulos o barras como modalidades presente el carácter bajo estudio. La altura que alcanza cada barra puede ser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a la que corresponde dicha barra. 0.2 6 0.1 4 0.0 fi 0.4 0.3 0.3 1 2 ni 8 6 6 20 0 Mod. Alto Medio Bajo 0.3 8 0.4 Ejemplo 1 (continuación) Alto Licenciatura en Ciencias Ambientales (4o Curso) Bajo Tema 3: Estadística Descriptiva Medio Alto Bajo Medio Curso 2008-2009 13 / 27 3. Representación gráfica Variables cuantitativas discretas: polígono de frecuencias Se colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valor de la variable se le asocia un punto con la altura correspondiente a su frecuencia absoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos. Este polígono puede representarse de forma superpuesta a un diagrama de barras. Licenciatura en Ciencias Ambientales (4o Curso) 6 4 fi 0.08 0.12 0.16 0.32 0.2 0.12 1 2 ni 2 3 4 8 5 3 25 0 valor 0 1 2 3 4 5 8 Ejemplo 2 (continuación) 0 1 2 Tema 3: Estadística Descriptiva 3 4 5 Curso 2008-2009 14 / 27 3. Representación gráfica Variables cuantitativas continuas: histograma Para construir el histograma partimos de la tabla de frecuencias de los datos. Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos. Sobre cada intervalo construiremos un rectángulo. Para la altura de estos rectángulos tenemos tres opciones: Las frecuencias absolutas. Las frecuencias relativas. Se construyen rectángulos cuyas áreas sean las frecuencias relativas. Si hi es la altura del rectángulo que hay sobre el intervalo Ii y a es la amplitud de todos los intervalos fi fi = hi · a ⇒ hi = a Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 15 / 27 3. Representación gráfica Fi 0.088 (9, 10.5] 8 0.235 11 0.323 (10.5, 12] 11 0.324 22 0.647 (12, 13.5] 9 0.265 31 0.911 (13.5, 15] 2 0.059 33 0.971 (15, 16.5] 1 34 0.029 1 34 1 Licenciatura en Ciencias Ambientales (4o Curso) 0.15 Ni 3 0.10 fi 0.088 0.05 ni 3 0.00 intervalo [7.5, 9] 0.20 Ejemplo 3 (continuación) 8 Tema 3: Estadística Descriptiva 10 12 14 16 Curso 2008-2009 16 / 27 4. Medidas de síntesis de la información ¡¡¡Advertencia!!! SÓLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SIN AGRUPAR Medidas de centralización: moda y media La moda es el dato más repetido. Puede haber más de una. La media (x̄) es el valor central en el sentido aritmético. Viene a ser el “centro de gravedad” de los datos. x1 + · · · + xn x̄ = n Si la variable es discreta y los datos están agrupados en una tabla de frecuencias x̄ = Licenciatura en Ciencias Ambientales (4o Curso) x1 n1 + · · · + xk nk = x1 f1 + · · · + xk fk n Tema 3: Estadística Descriptiva Curso 2008-2009 17 / 27 4. Medidas de síntesis de la información Medidas de centralización: mediana La mediana (x̃) es un valor que deja la mitad de los datos a su izquierda y la otra mitad a su derecha. Ocupa la posición central en el sentido del orden. Para calcularla hay que ordenar los datos de menor a mayor y entonces: Si n impar, x̃ ≡ dato que ocupa la posición n+1 2 Si n par, x̃ ≡ punto medio de los datos que ocupan las posiciones Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva n n y +1 2 2 Curso 2008-2009 18 / 27 4. Medidas de síntesis de la información Ejemplo 2 (continuación) Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias, para calcular la mediana se utilizan las frecuencias absolutas acumuladas: valor 0 1 2 3 4 5 ni 2 3 4 8 5 3 fi 0.08 0.12 0.16 0.32 0.2 0.12 Ni 2 5 9 17 22 25 Licenciatura en Ciencias Ambientales (4o Curso) Fi 0.08 0.2 0.36 0.68 0.88 1 x̄ = 2.8 , Tema 3: Estadística Descriptiva x̃ = 2 Curso 2008-2009 19 / 27 4. Medidas de síntesis de la información 0.15 0.20 Ejemplo 3 (continuación) x̃ = 11.45 0.00 0.05 0.10 x̄ = 11.35294 , 8 10 12 14 Licenciatura en Ciencias Ambientales (4o Curso) 16 Tema 3: Estadística Descriptiva Curso 2008-2009 20 / 27 4. Medidas de síntesis de la información Medidas de posición: cuartiles Primer cuartil (Q1 ) es el valor que deja a su izquierda la cuarta parte de los n+1 datos. Para calcularlo se ordenan los datos de menor a mayor y se toma 2 redondeado por defecto. A este número lo llamamos q. q+1 . 2 q q Si q es par, Q1 es el punto medio de los datos que ocupan las posiciones y + 1. 2 2 Si q es impar, Q1 es el dato que ocupa la posición Segundo cuartil (Q2 ) Es el valor que deja a la izquierda dos cuartas partes de los datos. Por tanto se trata de la mediana, Q2 = x̃. Tercer cuartil (Q3 ) Es el valor que deja a la izquierda las tres cuartas partes de los datos. Su posición es simétrica a la de Q1 . Otras medidas de posición Deciles: El decil i-ésimo deja i/10 de los datos a la izquierda. Percentiles: El percentil p deja el 100p% de los datos a la izquierda. Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 21 / 27 4. Medidas de síntesis de la información Ejemplo 3 (continuación) 7.80 9.90 11.10 12.00 12.50 8.50 10.10 11.30 12.20 12.50 8.60 10.20 11.40 12.30 12.70 Q1 = 10.10 , Licenciatura en Ciencias Ambientales (4o Curso) 9.10 10.30 11.50 12.30 14.90 9.20 10.60 11.60 12.40 15.00 9.30 10.80 11.80 12.40 16.50 Q2 = x̃ = 11.45 , 9.70 11.10 11.90 12.50 Q3 = 12.40 Tema 3: Estadística Descriptiva Curso 2008-2009 22 / 27 4. Medidas de síntesis de la información Medidas de dispersión Rango (R): diferencia entre el máximo y el mínimo. Varianza muestral (s2 ): Mide la variabilidad de los datos respecto de la media muestral x̄. ! n n X 1 X 1 2 2 2 2 (xi − x̄) = xi − nx̄ s = n−1 n−1 i=1 i=1 Desviación típica (s): √ Se define como s = s2 . La raíz cuadrada compensa el hecho de haber elevado los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos. Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 23 / 27 4. Medidas de síntesis de la información Medidas de dispersión Rango intercuartílico (RI ): Distancia entre Q1 y Q3 , RI = Q3 − Q1 . En esta distancia se concentran el 50% de los datos, concretamente los que ocupan posiciones centrales. Coeficiente de variación (C.V.): Mide la dispersión de los datos en relación a su orden de magnitud. Se utiliza para comparar la dispersión de distintos grupos de datos. s C.V. = · 100 x̄ Ejemplo 3 (continuación) R = 8.7 , s2 = 3.514082 , RI = 2.30 , Licenciatura en Ciencias Ambientales (4o Curso) s = 1.874588 C.V. = 16.51% Tema 3: Estadística Descriptiva Curso 2008-2009 24 / 27 4. Medidas de síntesis de la información Diagramas de caja Se trata de una representación gráfica ligada a los cuartiles. Con los datos del Ejemplo 3 podemos dibujar el siguiente: 16 ● 12 Q1 8 Q3 ~ x 10 14 h3 h1 h1 es el dato más próximo a Q1 − 1.5RI mayor que este valor. h3 es el dato más próximo a Q3 + 1.5RI menor que este valor. Los valores menores que h1 ó mayores que h3 son valores atípicos que pueden ser datos influyentes o simplemente mal tomados. Licenciatura en Ciencias Ambientales (4o Curso) Tema 3: Estadística Descriptiva Curso 2008-2009 25 / 27 4. Medidas de síntesis de la información Medidas de forma: coeficiente de asimetría El coeficiente de asimetría (g1 ) se define como: 1 Xn (xi − x̄)3 i=1 n g1 = s3 1 2 3 4 g1=0 Licenciatura en Ciencias Ambientales (4o Curso) 5 6 0.05 0.00 0.0 0.00 0.1 0.05 0.10 0.2 0.10 0.15 0.3 0.15 0.20 0.4 Conforme más próximo esté g1 a 0 más simetría presentan los datos. Si g1 > 0 hay una desviación hacia valores altos y si g1 < 0 hacia valores bajos. 0 2 4 6 8 10 12 g1>0 Tema 3: Estadística Descriptiva 0 2 4 6 8 10 12 g1<0 Curso 2008-2009 26 / 27 4. Medidas de síntesis de la información Medidas de forma: coeficiente de curtosis El coeficiente de aplastamiento o de curtosis (g2 ) Se define como: 1 Xn (xi − x̄)4 i=1 n −3 g2 = s4 Si g2 = 0 el grado de aplastamiento de los datos será similar al de una campana de Gauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana de Gauss y si g2 < 0, los datos aparecen más aplastados que la campana de Gauss. Ejemplo 3 (continuación) g1 = 0.4899285 , Licenciatura en Ciencias Ambientales (4o Curso) g2 = 0.3731027 Tema 3: Estadística Descriptiva Curso 2008-2009 27 / 27