Tema 2: Análisis Descriptivo de Conjuntos de Datos Estadística. 4o Curso Licenciatura en Ciencias Ambientales Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 1 / 28 Índice 1 Objetivos de la Estadística Descriptiva 2 Conceptos Básicos 3 Métodos para la organización de conjuntos de datos 4 Métodos para la representación gráfica de conjuntos de datos 5 Métodos para el resumen de conjuntos de datos Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 2 / 28 Objetivos de la Estadística Descriptiva Estudia los procedimientos apropiados para organizar, representar gráficamente y resumir convenientemente la información contenida en un conjunto de datos. Es la parte de la Estadística más conocida por ser muy frecuentemente utilizada en los medios de comunicación y en la vida cotidiana. Los procedimientos que proporciona la Estadística Descriptiva sólo permiten obtener conclusiones para los conjuntos de datos recogidos y no para las poblaciones de las que han sido extraídos. Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 3 / 28 Conceptos Básicos Experimentos estadísticos Una vez seleccionada la muestra de la población, medimos en las n unidades experimentales la variable o variables que pretendemos estudiar. Si X es una de estas variables obtendremos que x1 , . . . , xn son los valores que toma la variable X en los individuos 1, 2, . . . , n, respectivamente. Se denomina a su vez muestra de la variable X. Ejemplo de tabla de datos 1 2 3 4 .. . n Licenciatura en Ciencias Ambientales (4o Curso) X x1 x2 x3 x4 .. . xn Y y1 y2 y3 y4 .. . yn Z z1 z2 z3 z4 .. . zn W w1 w2 w3 w4 .. . wn ... ... ... ... ... ... Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 4 / 28 Métodos para la organización de conjuntos de datos Tablas de frecuencias: Variables cualitativas n (tamaño de la muestra) frecuencia total. M1 , . . . , Mk modalidades distintas de la variable sobre la muestra. ni ≡ frecuencia absoluta de Mi ; es el número de veces que se repite la modalidad Mi (n1 + · · · + nk = n ) ni fi = fi ≡ frecuencia relativa de la modalidad Mi ; n (f1 + · · · + fk = 1) Mod. M1 M2 .. . Mk Licenciatura en Ciencias Ambientales (4o Curso) ni n1 n2 .. . nk n fi f1 f2 .. . fk 1 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 5 / 28 Métodos para la organización de conjuntos de datos Ejemplo 1 En una zona contaminada se tomaron una serie de muestras de aire y se midieron los niveles de CO (alto, medio, bajo), obteniéndose los siguientes resultados: dato CO dato CO 1 A 11 B 2 A 12 A 3 M 13 A 4 B 14 M Mod. Alto Medio Bajo Licenciatura en Ciencias Ambientales (4o Curso) 5 A 15 A ni 8 6 6 20 6 M 16 A 7 B 17 B 8 B 18 M 9 A 19 M 10 M 20 B fi 0.4 0.3 0.3 1 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 6 / 28 Métodos para la organización de conjuntos de datos Tablas de frecuencias: Variables cuantitativas discretas n (tamaño de la muestra) frecuencia total. x1 , . . . , xk valores distintos de la variable sobre la muestra. (x1 < · · · < xn ) ni ≡ frecuencia absoluta y fi ≡ frecuencia relativa; se definen del mismo modo que para las variables cualitativas. Ni ≡ frecuencia absoluta acumulada de xi ; Ni = n1 + · · · + ni Fi ≡ frecuencia relativa acumulada de xi ; Fi = f1 + · · · + fi valor x1 x2 .. . xk Licenciatura en Ciencias Ambientales (4o Curso) ni n1 n2 .. . nk n fi f1 f2 .. . fk 1 Ni N1 N2 .. . Nk = n (Nk = n) (Fk = n) Fi F1 F2 .. . Fk = 1 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 7 / 28 Métodos para la organización de conjuntos de datos Ejemplo 2 Se desea saber el riesgo de extinción de la cigüeña en una cierta región. Se eligen en dicha región 25 nidos mediante un MAS, contando los huevos que hay en cada nido. Resulta que 2 de los nidos no tenían huevos, 3 tenían un huevo, 4 tenían 2 huevos, 8 tenían 3 huevos, 5 tenían 4 huevos y el resto 5 huevos. valor 0 1 2 3 4 5 Licenciatura en Ciencias Ambientales (4o Curso) ni 2 3 4 8 5 3 25 fi 0.08 0.12 0.16 0.32 0.2 0.12 1 Ni 2 5 9 17 22 25 Fi 0.08 0.2 0.36 0.68 0.88 1 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 8 / 28 Métodos para la organización de conjuntos de datos Tablas de frecuencias: Variables cuantitativas continuas Antes de construir la tabla de frecuencias hay que agrupar los datos de estas variables en intervalos. La forma de hacerlo es la siguiente: Determinar valores máximo (Vmax ) y mínimo (Vmin ) de los datos. Determinar el número (k) de intervalos a construir, que deben ser todos de la misma amplitud. Vmax − Vmin Determinar la amplitud de los intervalos: a ≈ k A veces conviene redondear esta amplitud pero NUNCA DEBEMOS PERDER NINGÚN DATO EN EL PROCESO. ¿Cómo determinar el número de intervalos? Categorías prefijadas en estudios anteriores. A criterio del investigador. Mediante la Fórmula de Sturges (k ≈ 1 + 3.322 log10 n) u otra similar. Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 9 / 28 Métodos para la organización de conjuntos de datos Ejemplo 3 En la siguiente tabla se muestran los niveles de colinesterasa de 34 agricultores expuestos a insecticidas agrícolas: 10.6 11.5 14.9 12.2 10.3 11.3 Vmin = 7.8 , 11.8 8.6 11.1 12.5 9.9 12.5 10.8 12.4 12.3 Vmax = 16.5 , a≈ 12.7 8.5 10.2 11.1 11.9 12.5 16.5 9.1 9.7 11.4 10.1 12.3 9.2 11.6 12.0 15.0 7.8 9.3 12.4 k ≈ 1 + 3.322 log10 34 = 6.08 ≈ 6 16.5 − 7.8 = 1.45(≈ 1.5) 6 Sin redondear: [7.8, 9.25], (9.25, 10.7], (10.7, 12.15], (12.15, 13.6], (13.6, 15.05], (15.05, 16.5] Redondeando: [7.5, 9], (9, 10.5], (10.5, 12], (12, 13.5], (13.5, 15], (15, 16.5] Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 10 / 28 Métodos para la organización de conjuntos de datos Tablas de frecuencias: variables cuantitativas continuas I1 = [a0 , a1 ], I2 = (a1 , a2 ], . . . , Ik = (ak−1 , ak ] intervalos en los que se han agrupado los datos. ni ≡ frecuencia absoluta del intervalo Ii ; es el número de valores que pertenecen al intervalo Ii . ni fi ≡ frecuencia relativa del intervalo Ii ; fi = n Ni ≡ frecuencia absoluta acumulada del intervalo Ii ; Ni = n1 + · · · + ni Fi ≡ frecuencia relativa acumulada del intervalo Ii ; Fi = f1 + · · · + fi intervalo I1 I2 .. . Ik Licenciatura en Ciencias Ambientales (4o Curso) ni n1 n2 .. . nk n fi f1 f2 .. . fk 1 Ni N1 N2 .. . Nk = n Fi F1 F2 .. . Fk = 1 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 11 / 28 Métodos para la organización de conjuntos de datos Ejemplo 3 (continuación) Tabla de frecuencias para los datos de los niveles de colinesterasa de 34 agricultores expuestos a insecticidas agrícolas: Licenciatura en Ciencias Ambientales (4o Curso) intervalo [7.5, 9] ni 3 fi 0.088 Ni 3 Fi 0.088 (9, 10.5] 8 0.235 11 0.323 (10.5, 12] 11 0.324 22 0.647 (12, 13.5] 9 0.265 31 0.911 (13.5, 15] 2 0.059 33 0.971 (15, 16.5] 1 34 0.029 1 34 1 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 12 / 28 Métodos para la representación gráfica de conjuntos de datos Variables cualitativas: diagrama de sectores Se calculan frecuencias relativas (fi ). A la modalidad Mi se le asigna un ángulo de fi · 360o . No es conveniente que haya un número excesivo de modalidades. Ejemplo 1 (continuación) Alto Mod. Alto Medio Bajo ni 8 6 6 20 fi 0.4 0.3 0.3 1 grados 144 108 108 Bajo Medio Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 13 / 28 Métodos para la representación gráfica de conjuntos de datos Variables cualitativas: diagrama de barras Esta representación consiste en construir tantos rectángulos o barras como modalidades presente el carácter bajo estudio. La altura que alcanza cada barra puede ser igual a la frecuencia absoluta o bien a la frecuencia relativa de la modalidad a la que corresponde dicha barra. 0.2 6 0.1 4 0.0 fi 0.4 0.3 0.3 1 2 ni 8 6 6 20 0 Mod. Alto Medio Bajo 0.3 8 0.4 Ejemplo 1 (continuación) Alto Licenciatura en Ciencias Ambientales (4o Curso) Bajo Medio Tema 2: Análisis Descriptivo de Conjuntos de Datos Alto Bajo Medio Curso 2009-2010 14 / 28 Métodos para la representación gráfica de conjuntos de datos Variables cuantitativas discretas: polígono de frecuencias Se colocan los valores ordenados de menor a mayor en el eje horizontal. A cada valor de la variable se le asocia un punto con la altura correspondiente a su frecuencia absoluta o bien a su frecuencia relativa. Los puntos se conectan mediante segmentos. Este polígono puede representarse de forma superpuesta a un diagrama de barras. Licenciatura en Ciencias Ambientales (4o Curso) 6 4 fi 0.08 0.12 0.16 0.32 0.2 0.12 1 2 ni 2 3 4 8 5 3 25 0 valor 0 1 2 3 4 5 8 Ejemplo 2 (continuación) 0 1 2 3 4 Tema 2: Análisis Descriptivo de Conjuntos de Datos 5 Curso 2009-2010 15 / 28 Métodos para la representación gráfica de conjuntos de datos Variables cuantitativas continuas: histograma Para construir el histograma partimos de la tabla de frecuencias de los datos. Dividimos el eje horizontal en los intervalos en que hemos agrupado los datos. Sobre cada intervalo construiremos un rectángulo. Para la altura de estos rectángulos tenemos tres opciones: Las frecuencias absolutas. Las frecuencias relativas. Se construyen rectángulos cuyas áreas sean las frecuencias relativas. Si hi es la altura del rectángulo que hay sobre el intervalo Ii y a es la amplitud de todos los intervalos fi fi = hi · a ⇒ hi = a Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 16 / 28 Métodos para la representación gráfica de conjuntos de datos Fi 0.088 (9, 10.5] 8 0.235 11 0.323 (10.5, 12] 11 0.324 22 0.647 (12, 13.5] 9 0.265 31 0.911 (13.5, 15] 2 0.059 33 0.971 (15, 16.5] 1 34 0.029 1 34 1 Licenciatura en Ciencias Ambientales (4o Curso) 0.15 Ni 3 0.10 fi 0.088 0.05 ni 3 0.00 intervalo [7.5, 9] 0.20 Ejemplo 3 (continuación) 8 10 Tema 2: Análisis Descriptivo de Conjuntos de Datos 12 14 16 Curso 2009-2010 17 / 28 Métodos para el resumen de conjuntos de datos ¡¡¡Advertencia!!! SÓLO PARA VARIABLES CUANTITATIVAS DISCRETAS Y CONTINUAS SIN AGRUPAR Medidas de centralización: moda y media La moda es el dato más repetido. Puede haber más de una. La media (x̄) es el valor central en el sentido aritmético. Viene a ser el “centro de gravedad” de los datos. x1 + · · · + xn x̄ = n Si la variable es discreta y los datos están agrupados en una tabla de frecuencias x̄ = Licenciatura en Ciencias Ambientales (4o Curso) x1 n1 + · · · + xk nk = x1 f1 + · · · + xk fk n Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 18 / 28 4. Medidas de síntesis de la información Medidas de centralización: mediana La mediana (x̃) es un valor que deja la mitad de los datos a su izquierda y la otra mitad a su derecha. Ocupa la posición central en el sentido del orden. Para calcularla hay que ordenar los datos de menor a mayor y entonces: Si n impar, x̃ ≡ dato que ocupa la posición n+1 2 Si n par, x̃ ≡ punto medio de los datos que ocupan las posiciones Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos n n y +1 2 2 Curso 2009-2010 19 / 28 Métodos para el resumen de conjuntos de datos Ejemplo 2 (continuación) Si en una variable discreta nos dan los datos agrupados en una tabla de frecuencias, para calcular la mediana se utilizan las frecuencias absolutas acumuladas: valor 0 1 2 3 4 5 ni 2 3 4 8 5 3 fi 0.08 0.12 0.16 0.32 0.2 0.12 Ni 2 5 9 17 22 25 Licenciatura en Ciencias Ambientales (4o Curso) Fi 0.08 0.2 0.36 0.68 0.88 1 x̄ = 2.8 Tema 2: Análisis Descriptivo de Conjuntos de Datos , x̃ = 3 Curso 2009-2010 20 / 28 Métodos para el resumen de conjuntos de datos 0.15 0.20 Ejemplo 3 (continuación) x̃ = 11.45 0.00 0.05 0.10 x̄ = 11.35294 , 8 10 12 14 Licenciatura en Ciencias Ambientales (4o Curso) 16 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 21 / 28 Métodos para el resumen de conjuntos de datos Medidas de posición: cuartiles Primer cuartil (Q1 ) es el valor que deja a su izquierda la cuarta parte de los n+1 datos. Para calcularlo se ordenan los datos de menor a mayor y se toma 2 redondeado por defecto. A este número lo llamamos q. q+1 . 2 q q Si q es par, Q1 es el punto medio de los datos que ocupan las posiciones y + 1. 2 2 Si q es impar, Q1 es el dato que ocupa la posición Segundo cuartil (Q2 ) Es el valor que deja a la izquierda dos cuartas partes de los datos. Por tanto se trata de la mediana, Q2 = x̃. Tercer cuartil (Q3 ) Es el valor que deja a la izquierda las tres cuartas partes de los datos. Su posición es simétrica a la de Q1 . Otras medidas de posición Deciles: El decil i-ésimo deja i/10 de los datos a la izquierda. Percentiles: El percentil p deja el 100p% de los datos a la izquierda. Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 22 / 28 Métodos para el resumen de conjuntos de datos Ejemplo 3 (continuación) 7.80 9.90 11.10 12.00 12.50 8.50 10.10 11.30 12.20 12.50 8.60 10.20 11.40 12.30 12.70 Q1 = 10.10 , Licenciatura en Ciencias Ambientales (4o Curso) 9.10 10.30 11.50 12.30 14.90 9.20 10.60 11.60 12.40 15.00 9.30 10.80 11.80 12.40 16.50 Q2 = x̃ = 11.45 , 9.70 11.10 11.90 12.50 Q3 = 12.40 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 23 / 28 Métodos para el resumen de conjuntos de datos Medidas de dispersión Rango (R): diferencia entre el máximo y el mínimo. Varianza muestral (s2 ): Mide la variabilidad de los datos respecto de la media muestral x̄. ! n n X 1 X 1 2 2 2 2 (xi − x̄) = xi − nx̄ s = n−1 n−1 i=1 i=1 Desviación típica (s): √ Se define como s = s2 . La raíz cuadrada compensa el hecho de haber elevado los datos al cuadrado. Por tanto se mide en las mismas unidades que los datos. Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 24 / 28 Métodos para el resumen de conjuntos de datos Medidas de dispersión Rango intercuartílico (RI ): Distancia entre Q1 y Q3 , RI = Q3 − Q1 . En esta distancia se concentran el 50% de los datos, concretamente los que ocupan posiciones centrales. Coeficiente de variación (C.V.): Mide la dispersión de los datos en relación a su orden de magnitud. Se utiliza para comparar la dispersión de distintos grupos de datos. s C.V. = · 100 x̄ Ejemplo 3 (continuación) R = 8.7 , s2 = 3.514082 RI = 2.30 Licenciatura en Ciencias Ambientales (4o Curso) , , s = 1.874588 C.V. = 16.51% Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 25 / 28 Métodos para el resumen de conjuntos de datos Diagramas de caja Se trata de una representación gráfica ligada a los cuartiles. Con los datos del Ejemplo 3 podemos dibujar el siguiente: 16 ● 12 Q1 8 Q3 ~ x 10 14 h3 h1 h1 es el dato más próximo a Q1 − 1.5RI mayor que este valor. h3 es el dato más próximo a Q3 + 1.5RI menor que este valor. Los valores menores que h1 ó mayores que h3 son valores atípicos que pueden ser datos influyentes o simplemente mal tomados. Licenciatura en Ciencias Ambientales (4o Curso) Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 26 / 28 Métodos para el resumen de conjuntos de datos Medidas de forma: coeficiente de asimetría El coeficiente de asimetría (g1 ) se define como: 1 Xn (xi − x̄)3 i=1 n g1 = s3 1 2 3 4 g1=0 Licenciatura en Ciencias Ambientales (4o Curso) 5 6 0.05 0.00 0.0 0.00 0.1 0.05 0.10 0.2 0.10 0.15 0.3 0.15 0.20 0.4 Conforme más próximo esté g1 a 0 más simetría presentan los datos. Si g1 > 0 hay una desviación hacia valores altos y si g1 < 0 hacia valores bajos. 0 2 4 6 8 10 12 g1>0 Tema 2: Análisis Descriptivo de Conjuntos de Datos 0 2 4 6 8 10 12 g1<0 Curso 2009-2010 27 / 28 Métodos para el resumen de conjuntos de datos Medidas de forma: coeficiente de curtosis El coeficiente de aplastamiento o de curtosis (g2 ) Se define como: 1 Xn (xi − x̄)4 i=1 n −3 g2 = s4 Si g2 = 0 el grado de aplastamiento de los datos será similar al de una campana de Gauss. Si g2 > 0 los datos presentan un menor aplastamiento que la campana de Gauss y si g2 < 0, los datos aparecen más aplastados que la campana de Gauss. Ejemplo 3 (continuación) g1 = 0.4899285 Licenciatura en Ciencias Ambientales (4o Curso) , g2 = 0.3731027 Tema 2: Análisis Descriptivo de Conjuntos de Datos Curso 2009-2010 28 / 28