Estadística Descriptiva Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Estadística Descriptiva Es una etapa de la metodología estadística, en la que no se involucra la teoría de la probabilidad como herramienta para realizar inferencias a toda la población, sin embargo se construyen indicadores, se hacen gráficos, se realizan comparaciones, siempre con el interés de conocer sobre la población de donde fue tomada la muestra. Permite procesar los datos de una muestra y obtener información que puede ser usada con fines exploratorios, para plantear hipótesis o como materia prima de la etapa de inferencia estadística (Behar and Yepes, 1996) Algunas definiciones La materia prima de la estadística son los datos, los cuales son el resultado de la observación de alguna(s) característica(s) de los elementos de interés en cierto estudio (Variables). La naturaleza de la característica y el instrumento que se dispone para registrar la misma, definirá el tipo de escala de medición que se ajusta. Medición: proceso por el cual asignamos un valor a una variable a determinada unidad de análisis. Variable: Característica medible de la población, la cual es de interés Tipos de Variables Variables cualitativas: Son también llamados atributos, y se refiere a variables no pueden expresarse numéricamente. Ejemplo: El genero o la raza de una persona, estado civil, clasificación de un articulo como defectuosos o no,... Variables cuantitativas: asumen valores numéricos que poseen un orden inherente. Ejemplo: la edad o estatura de un grupo de personas, temperatura, diámetro de un tornillo (mm),... Escalas de medición (Variables cualitativas) Escala Nominal: Hace uso de números para dar nombre a los elementos que han sido clasificados en distintos grupos, clases o categorías de acuerdo con alguna propiedad cualitativa. Ejemplo: Genero (1: Femenino, 2: Masculino), Color (1: Azul, 2: Rojo, 3: Verde, 4: Otro) El número asignado a una clase solo actúa como un rotulo o código para diferenciar los elementos de esa clase con otra. Escalas de medición (Variables cualitativas) Escala Ordinal: Hace uso de números para clasificar los elementos de un conjunto en categorías en las cuales los números no sólo sirven para nombrar sino que el valor de la medida se usa para indicar el orden que ocupa un elemento al comparar el tamaño relativo de su medidas. Ejemplo: Calificación de un producto (1: Excelente, 2: Bueno, 3: Regular, 4: Malo, 5: Pésimo) El número asignado sugiere un orden de las categorías, sin informar sobre la magnitud de sus distancias. Escalas de medición (Variables cuantitativas) Escala intervalo: Hace uso de números no solo para determinar orden entre las categorías sino también distancia entre ellas. Las mediciones por intervalo emplean constantes de medición y el cero es considerado como punto de referencia (no significa ausencia de característica). Ejemplo: Temperatura: 0◦ no significa ausencia de temperatura La escala de intervalo requiere un punto cero, como también, una unidad de distancia, pero no importa cual punto se define como cero ni cual unidad es la unidad de distancia. Escalas de medición (Variables cuantitativas) Escala de razón: Es usad cuando no solamente el orden y la distancia exacta entre categorías son importante, sino también la razón (o el cociente) entre dos medidas. Esta escala tiene un punto cero natural (significa ausencia), a diferencia de la escala de intervalo que éste es arbitrario. Ejemplo: Dinero, peso, velocidad En general puede decirse que la escala de razón es la que tiene a su disposición una mayor cantidad de herramientas estadísticas para su tratamiento. Variables discretas y continuas En las escalas de intervalo y de razón algunas veces es necesario establecer las diferencias de las variables por su naturaleza (variables discretas y continuas). Variable discreta, es aquella cuya naturaleza hace que el conjunto de valores que puede tomar la variable sea finito o infinito numerable, ejemplo: Número de personas por hogar: 1, 2, 3, 4,... Variable continua, es aquella cuya naturaleza hace que exista un intervalo de puntos infinitos entre dos valores de la variable, ejemplo: Estatura de una persona, (entre 1.60 cm y 1.70 cm, hay infinitos valores) Ejemplos Para cada una de las siguientes variables determine su tipo y escala de medición: • Número telefónico • Estrato socioeconómico • Calificación del primer parcial de fundamentos de estadística • Concentración de calcio en la sangre Estadística Descriptiva ¿Cómo hago un análisis de datos? Distribución de datos En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: 4 3 0 2 2 0 2 2 1 2 1 1 3 4 5 2 2 0 2 0 3 1 1 3 3 0 3 4 1 3 2 0 2 2 2 5 3 1 0 0 3 0 5 1 1 1 1 4 3 5 Distribución de datos En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: 4 3 0 2 2 0 2 2 1 2 1 1 3 4 5 2 2 0 2 0 3 1 1 3 3 0 3 4 1 3 2 0 2 2 2 5 3 1 0 0 3 0 5 1 1 1 1 4 3 5 Se comienza organizando la información escribiendo los datos distintos de que consta la muestra y haciendo un conteo para determinar el número de veces que aparece cada dato Distribución de datos En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 Total ni 9 11 12 10 4 4 50 ni : es la frecuencia absoluta del dato xi Distribución de datos En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 Total fi = ni n: ni 9 11 12 10 4 4 50 fi 0.18 0.22 0.24 0.2 0.08 0.08 1 es la frecuencia relativa del dato xi f3 = 12 50 = 0,24 indica que el 24 % de las familias muestreadas presentan 2 personas menores de 12 años Distribución de datos En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 Total ni 9 11 12 10 4 4 50 fi 0.18 0.22 0.24 0.2 0.08 0.08 1 Ni 9 20 32 42 46 50 Ni = n1 + n2 + . . . + ni : es la frecuencia absoluta acumulada hasta el dato xi N3 = 9 + 11 + 12 = 32 Lo que indica que de acuerdo con la muestra, 32 familias presentan 2 o menos personas menores de 12 años Distribución de datos En una población del Cauca se tomó una muestra de 50 familias para observar el número de personas menores de 12 años con el propósito de estimar algunos indicadores sobre demanda potencial de educación escolar. Esta arrojó los siguientes resultados: xi 0 1 2 3 4 5 Total Fi = ni n: ni 9 11 12 10 4 4 50 fi 0.18 0.22 0.24 0.2 0.08 0.08 1 Ni 9 20 32 42 46 50 Fi 0.18 0.4 0.64 0.84 0.92 1 es la frecuencia relativa acumulada hasta el dato xi 32 F3 = 50 = 0,64 Lo que indica que de acuerdo con la muestra, el 64 % de las familias presentan 2 o menos personas menores de 12 años Propiedades y relaciones Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma creciente son x1 , x2 , . . . , xm , entonces: • 0 ≤ ni ≤ n Pm • i=1 ni = n • Nm = n • 0 ≤ fi ≤ 1 Pm • i=1 fi = 1 • • Pj i=1 ni = Nj • n1 = N1 ≤ N2 ≤ . . . ≤ Nm = n Pj i=1 fi = Fj • f1 = F1 ≤ F2 ≤ . . . ≤ Fm = 1 Representación gráfica Cuando se trate de frecuencias absolutas o de frecuencias relativas, se realizará la representación por medio del llamado diagrama de frecuencias. 8 6 4 2 0 Frecuencia absoluta 10 12 Fig: Diagrama de frecuencias absolutas para el número de personas menores de 12 por familia 0 1 2 3 Número de niños menores de 12 años por familia 4 5 Representación gráfica Cuando se trate de frecuencias absolutas o de frecuencias relativas, se realizará la representación por medio del llamado diagrama de frecuencias. 0.15 0.10 0.05 0.00 Frecuencia relativa 0.20 0.25 Fig: Diagrama de frecuencias relativa para el número de personas menores de 12 por familia 0 1 2 3 Número de niños menores de 12 años por familia 4 5 Representación gráfica Las frecuencias acumuladas pueden definirse como funciones sobre todos los números reales. F (x) = fracción (o porcentaje) de los datos que son menores o iguales que x xi 0 1 2 3 4 5 Total ni 9 11 12 10 4 4 50 fi 0.18 0.22 0.24 0.2 0.08 0.08 1 Ni 9 20 32 42 46 50 Fi 0.18 0.4 0.64 0.84 0.92 1 0, 0,18, 0,4, F (x) = 0,64, 0,84, 0,92, 1, si si si si si si si x < 0, 0 ≤ x < 1, 1 ≤ x < 2, 2 ≤ x < 3, 3 ≤ x < 4, 4 ≤ x < 5, x≥5 Representación gráfica Las frecuencias acumuladas pueden definirse como funciones sobre todos los números reales. F (x) = fracción (o porcentaje) de los datos que son menores o iguales que x ● ● 0.6 ● 0.4 Frecuencia relativa acumulada 0.8 ● ● 0.2 x < 0, 0 ≤ x < 1, 1 ≤ x < 2, 2 ≤ x < 3, 3 ≤ x < 4, 4 ≤ x < 5, x≥5 ● 0.0 si si si si si si si 1.0 Fig: Gráfico de frecuencias acumuladas 0, 0,18, 0,4, F (x) = 0,64, 0,84, 0,92, 1, −1 0 1 2 3 4 Número de personas menores de 12 años por familia 5 6 Estadística Descriptiva ¿Qué pasa si los datos son continuos? Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: 295 265 240 212 250 282 253 230 241 268 221 237 312 234 289 240 290 226 226 277 328 251 335 309 283 191 199 232 226 273 275 254 220 221 214 253 217 214 248 269 259 247 272 264 253 206 296 245 268 252 Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: 295 265 240 212 250 282 253 230 241 268 221 237 312 234 289 240 290 226 226 277 328 251 335 309 283 191 199 232 226 273 275 254 220 221 214 253 217 214 248 269 259 247 272 264 253 206 296 245 268 252 En estos casos, es más fácil agrupar la información en los llamados intervalos de clase Construcción de los intervalos de clases 1 Determinar los valores extremos (mínimo y máximo) y el rango de los valores de la muestra: Rango = máx(xi ) − mı́n(xi ) 2 Determinar el número de intervalos de clase (m), la longitud de las clases (C) y sus limites (L0 , L1 , . . . , Lm ) jemplo: m = 6(intervalos de clase Límites de las clases: Longitud de las clases: L1 = L0 + C L2 = L1 + C Rango C≈ ... m Lm = Lm−1 + C Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ni fi 50 1 Ni Fi Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ni 6 11 14 11 5 3 50 fi 0.12 0.22 0.28 0.22 0.10 0.06 1 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ¿Cómo se interpreta f3 ? ni 6 11 14 11 5 3 50 fi 0.12 0.22 0.28 0.22 0.10 0.06 1 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ni 6 11 14 11 5 3 50 fi 0.12 0.22 0.28 0.22 0.10 0.06 1 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 El 28 % de los cilindros de concreto muestreados presentaron una resistencia entre 239 kg/cm2 y 263kg/cm2 Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ¿Cómo se interpreta N4 ? ni 6 11 14 11 5 3 50 fi 0.12 0.22 0.28 0.22 0.10 0.06 1 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 Distribución de datos Una compañía constructora resuelve estudiar la resistencia a la compresión de una mezcla de concreto, con el objetivo de hacer control de calidad. Para ello tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado se encuentran a continuación: Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ni 6 11 14 11 5 3 50 fi 0.12 0.22 0.28 0.22 0.10 0.06 1 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 42 cilindros de concreto presentaron una resistencia inferior o igual a 287kg/cm2 Representación gráfica Cuando se trate de frecuencias relativas, se realizará la representación por medio del llamado Histograma de frecuencias usando la densidad fi0 del i-ésimo intervalo. fi0 = fi Ci Si se expresa la densidad como una función para cualquier número real x, se obtiene la llamada función empírica de densidad, la cual se expresa de forma general como: 0, si x < L0 , 0 f x = Cfii si Li−1 < x ≤ Li 0, si x > Lm , Representación gráfica Para el conjunto de datos se obtuvo: 0, si x < 191, 0,12 si 191 ≤ x ≤ 215 24 0,22 si 215 < x ≤ 239 24 0,28 si 239 < x ≤ 263 24 f 0 x = 0,22 24 si 263 < x ≤ 287 0,10 si 287 < x ≤ 311 24 0,06 si 311 ≤ x ≤ 335 24 0, si x > 335, Representación gráfica Para el conjunto de datos se obtuvo: 0.006 0.004 0.002 0.000 Densidad 0.008 0.010 0.012 Fig: Histograma de frecuencias absolutas para la resistencia de cilindros de concreto 200 220 240 260 Resistencia 280 300 320 340 Distribución de datos Es posible calcular en forma aproximada el porcentaje de datos que hay en un intervalo cualquiera Intervalo [191 - 215] (215 - 239] (239 - 263] (263 - 287] (287 - 311] (311 - 335] Total ni 6 11 14 11 5 3 50 fi 0.12 0.22 0.28 0.22 0.10 0.06 1 Ni 6 17 31 42 47 50 Fi 0.12 0.34 0.62 0.84 0.94 1 ¿Cuál es el porcentaje de cilindros de prueba que obtuvieron una resistencia igual o inferior a 245 kg/cm2 ? ¿Cuál es el porcentaje de cilindros de prueba que obtuvieron una resistencia entre 265kg/cm2 y 300kg/cm2 ? Distribución de datos La función empírica de distribución acumulativa describe de forma general, para cualquier x, el porcentaje de datos que son menores o iguales que x. Se denota por F (x) y se plantea como: 0, F x = F (Li−1 ) + 1, fi Ci (x para x < L0 , − Li−1 ) para Li−1 < x ≤ Li para x > Lm , Distribución de datos La función empírica de distribución acumulativa describe de forma general, para cualquier x, el porcentaje de datos que son menores o iguales que x. Se denota por F (x) y se plantea como: Para el ejemplo se tiene: 0, 0 + 0,12 24 (x − 191) 0,12 + 0,22 (x − 215) 24 0,34 + 0,28 (x − 239) 24 Fx = 0,22 0,62 + 24 (x − 263) 0,10 0,84 + 24 (x − 287) 0,94 + 0,06 24 (x − 311) 1, para para para para para para para para x < 191, 191 < x ≤ 215 215 < x ≤ 239 239 < x ≤ 263 263 < x ≤ 287 287 < x ≤ 311 311 < x ≤ 335 x > 335, Distribución de datos De la función F(x), se observa que en cada intervalo, F(x), representa un segmento de la recta, cuya pendiente es la densidad del intervalo respectivo. Esto da origen al siguiente gráfico con el nombre de ojiva 0.6 0.4 0.2 0.0 % acumulado 0.8 1.0 Fig: Gráfico de frecuencias acumuladas 191 215 239 263 Resistencia 287 311 335 Algunas consideraciones • Cuando los datos se agrupan en intervalos de clase, se produce pérdida de información, puesto que no se dispone de los datos en forma individual. • No deben existir intervalos de clase que no contengan datos. Cuando esto ocurre deberán reagruparse los datos (los intervalos pueden ser de diferente tamaño) • Cuando sea posible debe procurarse que todos los intervalos sean de igual longitud (facilidad de calculo e interpretación) Bibliografía Behar, R. and Yepes, M. (1996). Estadística, un enfoque descriptivo. Oficina de publicaciones de la Facultad de Ingeniería de la Universidad del Valle, Cali, Colombia, vol. 2 edition. Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias. Thomson Paraninfo, México, vol. 7 edition.