Grado en Ingeniería. Asignatura: Estadística. Tema 1: Estadística Descriptiva. Estadística Descriptiva. Índice Introducción. Tipos de datos. Tabla de frecuencias. Análisis gráficos. Variables cualitativas: Diagrama de barras, diagrama de tarta o pastel. Diagrama de Pareto. Variables cuantitativas: Transversales: histograma, diagrama de caja. Temporales: gráfico de la serie. Medidas analíticas: Medidas de centralización: media, mediana. Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico Medidas de forma: coeficiente de asimetría y coeficiente de curtosis. Cuartiles, percentiles. Transformaciones. Dos variables. Número de transparencia: 2 Ingeniería de grado. Estadística. Tema 1 Introducción Fuente Imagen: LA ESTADISTICA EN COMIC de GONICK, LARRY y SMITH, WOOLLCOTT Número de transparencia: 3 Ingeniería de grado. Estadística. Tema 1 Introducción La siguiente tabla presenta la nota de estadística de 400 personas. 7,5 5,1 5,2 6,1 6,6 6,0 3,2 1,6 3,4 3,3 5,9 5,6 7,1 9,2 5,3 4,4 3,9 6,2 4,4 2,9 2,2 5,8 3,1 5,3 4,4 7,4 3,0 6,3 6,3 7,0 5,2 4,7 4,3 5,1 5,1 6,8 3,0 4,1 6,4 5,1 4,5 6,7 5,5 8,3 5,3 2,7 5,5 3,2 5,3 4,6 5,1 3,1 6,4 3,8 4,3 4,4 5,1 3,4 5,7 7,0 6,3 6,0 4,0 2,4 6,1 7,4 2,7 5,4 7,0 5,8 3,3 7,8 4,3 5,5 5,4 3,1 2,7 7,7 5,6 5,6 Número de transparencia: 4 6,6 2,1 6,3 3,8 6,3 6,8 6,0 4,9 6,6 6,1 3,1 3,7 7,1 5,2 6,1 5,3 4,6 6,8 5,6 5,6 7,0 3,0 4,4 5,3 3,4 7,7 4,3 3,3 4,3 4,8 5,9 7,3 7,1 6,3 5,2 5,1 2,7 4,4 5,9 7,5 7,8 6,9 6,3 5,7 5,8 5,9 4,0 3,2 4,1 5,0 4,5 3,1 5,3 3,2 6,6 2,9 5,9 5,8 4,5 3,6 6,4 7,6 6,4 7,5 3,4 4,2 2,9 7,4 3,6 4,0 5,9 2,3 3,3 6,9 5,2 6,4 4,4 4,4 3,8 4,6 3,7 3,9 6,0 6,7 3,8 5,5 7,3 4,8 4,6 4,3 4,7 6,5 3,1 3,7 8,8 5,6 4,9 3,8 5,0 3,0 2,9 5,7 6,0 5,4 4,9 3,5 3,5 7,4 6,7 8,8 7,1 6,6 4,2 4,3 8,4 5,4 5,3 8,0 5,8 6,9 7,6 5,5 4,5 4,6 6,2 5,0 6,7 4,5 4,2 6,3 3,6 5,2 2,7 3,2 4,1 5,6 3,1 6,4 5,5 5,7 3,5 2,4 5,1 5,0 3,8 9,3 4,8 4,5 3,8 5,7 7,1 4,2 2,5 7,0 4,1 6,0 7,5 1,5 4,2 4,0 4,5 5,7 7,2 5,2 5,4 4,0 3,3 5,7 4,5 4,2 3,2 5,2 6,6 2,1 3,2 6,2 5,6 4,2 3,6 4,8 7,1 5,5 5,2 5,2 6,2 6,7 6,8 6,0 5,5 5,1 4,5 3,7 3,9 7,4 4,9 5,0 6,1 3,9 6,7 3,4 5,8 3,3 1,6 5,6 3,6 4,8 3,2 5,7 6,4 3,7 3,8 7,7 2,1 5,1 4,1 3,6 7,6 7,7 5,8 3,9 3,8 4,3 4,6 4,1 6,5 7,1 4,1 2,8 7,8 5,0 6,5 5,5 6,1 5,7 6,7 6,4 5,1 5,8 4,9 3,7 4,0 6,3 6,2 3,5 7,2 4,5 1,9 4,9 4,0 6,5 5,5 5,1 5,7 5,5 4,4 4,2 5,5 7,3 6,5 4,3 3,2 4,8 5,2 4,0 4,0 2,6 5,3 4,6 4,1 7,5 3,3 5,7 3,7 6,3 6,0 6,3 4,5 7,4 5,6 4,9 5,9 4,2 3,7 4,4 5,3 6,1 9,3 6,0 5,3 6,0 5,8 7,4 3,3 6,0 1,8 8,7 5,9 3,0 4,3 2,7 4,5 5,5 2,5 4,7 5,5 4,7 5,9 1,5 6,5 6,4 4,7 5,4 5,3 3,9 5,3 5,7 6,1 5,9 3,8 4,4 La observación de esta lista de datos no permite extraer ninguna información fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de los datos. La Estadística Descriptiva proporciona las herramientas para resumir, analizar y sacar conclusiones de un conjunto de datos. La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes numéricos. Ingeniería de grado. Estadística. Tema 1 Introducción La Estadística Descriptiva utiliza, tablas, gráficos y resúmenes numéricos. Frequency Tabulation for Edades 22 13 50 25 15 48 57 49 38 69 64 41 39 44 4 1 22 52 78 4 14 24 60 17 31 80 19 6 43 29 56 29 61 9 9 37 21 28 48 0 53 72 52 30 34 59 2 6 70 15 62 0 56 81 59 26 29 17 46 36 37 79 3 19 64 5 70 80 80 28 65 70 20 59 32 81 67 29 14 17 1 1 45 59 8 32 61 50 13 5 35 8 39 35 78 27 14 17 71 82 7 49 51 58 15 29 46 23 56 54 18 43 14 38 20 81 52 27 71 12 81 30 72 77 42 18 52 37 77 18 66 63 29 79 22 63 18 13 24 60 12 68 52 70 0 67 42 21 44 22 72 48 17 70 52 16 31 2 48 70 66 1 78 80 19 56 23 80 14 8 73 36 3 60 51 19 33 77 50 57 11 12 79 0 79 69 82 19 44 18 30 75 74 82 44 78 23 59 78 77 38 19 4 55 77 36 63 18 64 10 17 20 81 18 40 50 31 11 56 53 48 20 61 52 6 12 33 56 20 46 71 36 68 12 8 69 4 51 42 78 55 15 56 43 76 14 21 56 46 73 44 40 46 45 52 18 62 56 60 45 7 37 67 41 56 13 1 53 66 76 0 74 16 12 55 42 2 65 2 38 12 75 56 7 75 62 36 70 26 22 77 5 10 46 28 53 63 43 8 47 77 62 60 11 76 9 45 82 45 73 6 44 70 35 4 39 1 30 14 60 75 9 33 0 35 6 16 74 38 31 62 72 60 48 35 34 17 81 42 51 46 30 25 10 26 23 28 65 26 18 74 -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 0,0 0 0,0000 0 0,0000 1 0,0 10,0 5,0 0 0,0000 0 0,0000 2 10,0 20,0 15,0 0 0,0000 0 0,0000 3 20,0 30,0 25,0 1 0,0025 1 0,0025 4 30,0 40,0 35,0 158 0,3950 159 0,3975 5 40,0 50,0 45,0 233 0,5825 392 0,9800 6 50,0 60,0 55,0 8 0,0200 400 1,0000 7 60,0 70,0 65,0 0 0,0000 400 1,0000 8 70,0 80,0 75,0 0 0,0000 400 1,0000 9 80,0 90,0 85,0 0 0,0000 400 1,0000 10 90,0 100,0 95,0 0 0,0000 400 1,0000 above 100,0 0 0,0000 400 1,0000 -------------------------------------------------------------------------------Mean = 41,51 Standard deviation = 4,23908 24 8 24 58 78 30 39 80 32 27 1 50 13 26 59 79 64 5 43 27 64 18 74 43 55 3 82 64 59 3 12 21 69 31 58 46 24 0 24 Summary Statistics for Edades Count = 400 Average = 41,51 Median = 42,0 Variance = 17,9698 Standard deviation = 4,23908 Minimum = 28,0 Maximum = 57,0 Range = 29,0 Lower quartile = 39,0 Upper quartile = 44,0 Interquartile range = 5,0 Skewness = 0,137057 Kurtosis = 0,181614 Resumen numérico Edades 150 Frecuencia 120 Número de transparencia: 5 90 60 30 0 26 36 46 Años Ingeniería de grado. Estadística. Tema 1 56 66 Software Numeroso software a tu disposición para realizarlo de una forma sencilla: Statgraphics, SPSS, R, SAS,... Número de transparencia: 6 Ingeniería de grado. Estadística. Tema 1 Algunas Definiciones A la hora de realizar cualquier estudio estadístico, hay que tener en cuenta: Población: es el conjunto de individuos (personas, animales o cosas) sobre el cual estamos interesados en sacar conclusiones. Normalmente este conjunto es demasiado grande para poder abarcarlo. Muestra: es un subconjunto de la población al que tenemos acceso y sobre el que realmente hacemos las observaciones. Variable: es la característica observable que varía entre los individuos de la población: Tiempo de vida de las piezas. Número de piezas fabricadas en un día. Calidad de las piezas (buena, regular, mala) Datos: valores observados de la variable. Número de transparencia: 7 Ingeniería de grado. Estadística. Tema 1 Tipos de datos Podemos clasificar las variables como: Cualitativas. Si sus valores no son números. Cuantitativas. Sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos): Transversales: Tomadas en el mismo instante de tiempo o en tiempos equivalentes. Temporales: Evolución de una variable a lo largo del tiempo. Necesitamos conocer el tipo de variable para poder utilizar la herramienta estadística adecuada. Número de transparencia: 8 Ingeniería de grado. Estadística. Tema 1 Estadística Descriptiva. Índice Introducción. Tipos de datos. Tabla de frecuencias. Análisis gráficos. Variables cualitativas: Diagrama de barras, diagrama de tarta o pastel. Diagrama de Pareto. Variables cuantitativas: Transversales: histograma, diagrama de caja. Temporales: gráfico de la serie. Medidas analíticas: Medidas de centralización: media, mediana. Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico. Medidas de forma: coeficiente de asimetría y coeficiente de curtosis. Cuartiles, percentiles. Transformaciones. Dos variables. Número de transparencia: 9 Ingeniería de grado. Estadística. Tema 1 Tabla de frecuencias: Variables cualitativas Se pregunta a 1000 clientes de un hotel sobre su grado de satisfacción. Satisfacción Bastante satisfecho Bastante satisfecho Bastante satisfecho Muy Satifecho Bastante satisfecho Muy Satifecho Medianamente satisfecho Bastante satisfecho Bastante satisfecho Medianamente satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Muy Satifecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Descontento Bastante satisfecho Bastante satisfecho Bastante satisfecho Muy Satifecho Bastante satisfecho Bastante satisfecho Bastante satisfecho …. Número de transparencia: 10 Muy Satifecho Bastante satisfecho Medianamente satisfecho Bastante satisfecho Muy Satifecho Descontento Descontento Bastante satisfecho Bastante satisfecho Bastante satisfecho Descontento Muy Satifecho Bastante satisfecho Descontento Bastante satisfecho Bastante satisfecho Muy Satifecho Medianamente satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Medianamente satisfecho Medianamente satisfecho Medianamente satisfecho …. Bastante satisfecho Medianamente satisfecho Medianamente satisfecho Medianamente satisfecho Muy Satifecho Bastante satisfecho Bastante satisfecho Descontento Muy Satifecho Bastante satisfecho Descontento Medianamente satisfecho Descontento Muy Satifecho Descontento Bastante satisfecho Muy Satifecho Bastante satisfecho Medianamente satisfecho Bastante satisfecho Muy Satifecho Medianamente satisfecho Descontento Medianamente satisfecho Bastante satisfecho …. Bastante satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Muy Satifecho Bastante satisfecho Medianamente satisfecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Descontento Bastante satisfecho Bastante satisfecho Descontento Muy Satifecho Bastante satisfecho Bastante satisfecho Bastante satisfecho Muy Satifecho Muy Satifecho Bastante satisfecho Muy Satifecho Bastante satisfecho Bastante satisfecho Medianamente satisfecho …. Ingeniería de grado. Estadística. Tema 1 Variables Cualitativas. Tabla de frecuencias Los valores que puede tomar la variable son denominados clases. La tabla de frecuencia asocia a cada clase o valor de la variable su: Frecuencia absoluta. Número de individuos en la clase. Frecuencia relativa. Es la proporción de individuos que pertenecen a cada clase sobre el total de la muestra. Frequency Table for Satisfaccion ----------------------------------------------------------------------------------------------Relative Cumulative Cum. Rel. Value Frequency Frequency Frequency Frequency ----------------------------------------------------------------------------------------------Descontento 120 0,1200 120 0,1200 Medianamente contento 160 0,1600 280 0,2800 Bastante contento 540 0,5400 820 0,8200 Muy contento 180 0,1800 1000 1,0000 ----------------------------------------------------------------------------------------------- ¿Cuántos individuos están descontentos? ¿Cuál es la clase más observada? Número de transparencia: 11 Ingeniería de grado. Estadística. Tema 1 Tabla de frecuencias. Variables cualitativas Supongamos que se observa el retraso en destino de 219 autobuses, medido en minutos. Retraso autobuses 4,71 4,76 5,08 3,42 1,38 3,53 6,8 6,17 5 5,21 4,54 4,9 5,36 6,58 6,83 5,98 4,7 4,34 4,14 4,74 4,4 5,83 1,86 3,08 4,94 Número de transparencia: 12 6,42 5,48 1,96 6,06 2,33 6,81 6,24 4,26 3,55 4,81 6,07 4,77 2,84 4,89 4,68 5,27 5,41 6,97 4,16 6,05 5,9 8,08 3,55 5,93 6,21 3,45 1,95 5,12 5,53 3,68 5,41 4,12 6,92 5,26 3,19 6,54 4,23 5,41 4,83 6,1 4,19 5,98 4,38 6,05 6,49 5,26 4,58 4,24 6,27 3,4 5,55 3,53 5,08 5,64 3,18 6,32 4,49 3,05 2,48 4,43 4,31 3,6 6,69 8,04 2,84 4,95 4,94 1,04 5,17 1,95 1,99 4,69 3,37 5,86 6,65 14,06 13,68 13,16 16,27 12,57 14,87 14,45 18,05 12,14 18,58 13,57 17,82 17,13 15,66 18,2 16,55 14,57 14,15 18,5 15,02 15,04 21,32 13,85 11,84 17,14 14,5 11,52 11,76 19,25 15,77 13,35 14,81 19,31 15,61 13,65 14,3 14,23 12,84 14,84 15,06 12,61 13,1 14,53 10,6 12,69 14,55 11,73 14,72 20,86 13,63 15,3 20,98 14,84 13,12 14,22 14,57 15,43 13,72 16,91 12,67 16,87 17,35 18,4 20,37 14,32 14,07 20,22 22,4 14,73 13,39 13,33 22,1 17,22 20,26 19,03 14,12 9,07 14,68 12,74 15,71 15,54 11,25 13,46 12 10,71 16,09 15,41 15,95 15,97 16,62 14,66 14,8 15,09 19,04 11,55 15,4 9,46 16,02 8,07 16,69 8,83 9,25 9 8,62 8,49 8,52 8,66 9,05 8,66 8,63 8,7 9,16 9,45 8,68 8,92 9,07 8,39 8,54 8,99 Ingeniería de grado. Estadística. Tema 1 Variables cuantitativas. Tabla de frecuencia Retrasos 4,71 4,76 5,08 3,42 1,38 3,53 6,8 6,17 5 5,21 4,54 4,9 5,36 6,58 6,83 5,98 4,7 4,34 4,14 4,74 4,4 5,83 1,86 3,08 4,94 …. Dividimos el recorrido (valor máximo-valor mínimo) en clases. A cada clase le asociamos frecuencia absoluta y frecuencia relativa. También el orden lógico de las clases permite definir la frecuencia acumulada absoluta y frecuencia acumulada relativa. Clases (0,4] (4,8] (8,12] (12,16] (16,20] (20,24] Número de transparencia: 13 Marca de clase 2 6 10 14 18 22 Frecuencia Frecuencia Frec. Acum. Frec. Acum. Absoluta Relativa Absoluta Relativa 25 0,1142 25 0,1142 73 0,3333 98 0,4475 33 0,1507 131 0,5982 58 0,2648 189 0,863 22 0,1005 211 0,9635 8 0,0365 219 1 219 1 Ingeniería de grado. Estadística. Tema 1 Variables cuantitativas. Tabla de frecuencia ¿Cuántos autobuses se retrasan menos de 8 minutos? Retrasos 4,71 4,76 5,08 3,42 1,38 3,53 6,8 6,17 5 5,21 4,54 4,9 5,36 6,58 6,83 5,98 4,7 4,34 4,14 4,74 4,4 5,83 1,86 3,08 4,94 …. Clases (0,4] (4,8] (8,12] (12,16] (16,20] (20,24] Marca de clase 2 6 10 14 18 22 Frecuencia Frecuencia Frec. Acum. Frec. Acum. Absoluta Relativa Absoluta Relativa 25 0,1142 25 0,1142 73 0,3333 98 0,4475 33 0,1507 131 0,5982 58 0,2648 189 0,863 22 0,1005 211 0,9635 8 0,0365 219 1 219 1 ¿Qué porcentaje de autobuses se retrasa menos de 12 minutos? Clases (0,4] (4,8] (8,12] (12,16] (16,20] (20,24] Número de transparencia: 14 Marca de clase 2 6 10 14 18 22 Frecuencia Frecuencia Frec. Acum. Frec. Acum. Absoluta Relativa Absoluta Relativa 25 0,1142 25 0,1142 73 0,3333 98 0,4475 33 0,1507 131 0,5982 58 0,2648 189 0,863 22 0,1005 211 0,9635 8 0,0365 219 1 219 1 Ingeniería de grado. Estadística. Tema 1 Estadística Descriptiva. Índice Introducción. Tipos de datos. Tabla de frecuencias. Análisis gráficos. Variables cualitativas: Diagrama de barras, diagrama de tarta o pastel. Diagrama de Pareto. Variables cuantitativas: Transversales: histograma, diagrama de caja. Temporales: gráfico de la serie. Medidas analíticas: Medidas de centralización: media, mediana. Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico Medidas de forma: coeficiente asimetría y coeficiente de curtosis Cuartiles, percentiles. Transformaciones. Dos variables. Número de transparencia: 15 Ingeniería de grado. Estadística. Tema 1 Diagrama de pastel y diagrama de barras La idea de la representación gráfica de un conjunto de datos es representar frecuencias mediante áreas: Frequency Table for Satisfaccion --------------------------------------------------------------------------------------------Relative Cumulative Cum. Rel. Value Frequency Frequency Frequency Frequency --------------------------------------------------------------------------------------------Descontento 120 0,1200 120 0,1200 Medianamente contento 160 0,1600 280 0,2800 Bastante contento 540 0,5400 820 0,8200 Muy contento 180 0,1800 1000 1,0000 --------------------------------------------------------------------------------------------- Diagramas de pastel Diagrama de barras Piechart for Satisfaccion Barchart for Satisfaccion 60 12,00% 50 16,00% percentage 18,00% 40 30 20 10 0 54,00% Número de transparencia: 16 Sa tis fa cc ion De sc onte nto M ode ra dam e nte c onte nto Ba sta nte c onte nto M uy c onte nto Descontento M oderadam ente cont. Bastente cont. Si la base de los rectángulos tiene la misma longitud, solo nos tenemos que preocupar de que la altura sea proporcional a la frecuencia Ingeniería de grado. Estadística. Tema 1 M uy contento Análisis gráficos. Variables cualitativas Encuesta en EE.UU. sobre preferencias de la revista semanal. 1056 Time NewSweek U.S. News Frec. Abs Frec. Relativa 1.056 0,51 642 0,31 373 0,18 2.071 642 373 1200 frequency 1000 800 600 400 200 0 1 Número de transparencia: 17 2 3 Ingeniería de grado. Estadística. Tema 1 Diagrama de Pareto Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las causas que los generan. Su fundamento parte de considerar que un pequeño porcentaje de las causas producen la mayoría de los efectos. Se trataría, pues, de identificar ese pequeño porcentaje de causas “vitales” para actuar prioritariamente sobre él. Un fabricante de envases de plástico desea analizar cuáles son las causas que generan los envases defectuosos que se producen. Observa 248 envases defectuosos obteniendo Número de transparencia: 18 Ingeniería de grado. Estadística. Tema 1 Análisis gráficos. Variables cuantitativas Histograma Histograma. La idea es representar frecuencias mediante áreas. A cada clase le asociamos un rectángulo cuya área sea proporcional a la frecuencia. Podemos usar frecuencias o frecuencias acumuladas. Retrasos 4,71 4,76 5,08 3,42 1,38 3,53 6,8 6,17 5 5,21 4,54 4,9 5,36 6,58 6,83 5,98 4,7 4,34 4,14 4,74 4,4 5,83 1,86 3,08 4,94 Marca de clase 2 6 10 14 18 22 Clases (0,4] (4,8] (8,12] (12,16] (16,20] (20,24] Frecuencia Frecuencia Frec. Acum. Frec. Acum. Absoluta Relativa Absoluta Relativa 25 0,1142 25 0,1142 73 0,3333 98 0,4475 33 0,1507 131 0,5982 58 0,2648 189 0,863 22 0,1005 211 0,9635 8 0,0365 219 1 219 1 Histograma Histograma 240 200 60 Frecuencia Frecuencia 80 40 20 160 120 80 40 0 0 0 4 8 12 16 20 0 24 4 8 12 16 20 24 Minutos Minutos Polígono de frecuencias. Se unen los vértices superiores de los rectángulos del histograma mediante líneas. …. Histograma Histograma 80 240 Frecuencia Frecuencia 200 60 40 20 160 120 80 40 0 0 0 4 8 12 Minutos Número de transparencia: 19 16 20 24 0 4 8 12 16 20 24 Minutos Ingeniería de grado. Estadística. Tema 1 Interpretación histogramas Interpretación de histogramas. ¿Cuál es la distribución de los datos? altura Histograma 80 40 60 Frecu encia frecuencia 50 30 20 40 20 10 0 0 160 163 166 169 172 0 175 4 8 12 16 20 24 20 24 Minutos simétrico Bimodal población resistencia 400 120 frecuencia frecuencia 150 90 60 30 300 200 100 0 0 0 300 600 900 1200 Asimétrico 1500 0 4 8 12 16 Con datos atípicos ¿Forma; simétrico, asimétrico?, ¿modas?, ¿hay datos atípicos?,… Número de transparencia: 20 Ingeniería de grado. Estadística. Tema 1 Histograma bimodal Distribución bimodal. El motivo por el cual aparece una distribución multimodal (bimodal, trimodal,…) suele se porque se están mezclando datos de diferentes poblaciones Ejemplo: retraso de los autobuses, se están mezclando autobuses de corto y largo recorrido. Para comprender mejor el fenómeno conviene separar los datos y estudiarlos por separado. Histograma 80 Frecuencia 60 40 20 0 0 4 8 12 16 20 24 Minutos Histograma retraso - largo recorrido Histograma retraso - corto recorrido 40 30 frequency frequency 25 20 15 10 30 20 10 5 0 0 0 2 4 6 8 10 12 14 16 retraso Autobuses de corto recorrido Número de transparencia: 21 18 20 22 24 0 3 6 9 12 15 18 21 24 retraso Autobuses de largo recorrido Ingeniería de grado. Estadística. Tema 1 Datos atípicos Los datos atípicos en ocasiones son de gran importancia, pues pueden aportar mucha información sobre el fenómeno estudiado. resistencia frecuencia 400 300 200 100 0 0 4 8 12 16 20 24 Supongamos que el diagrama de caja representa la duración de un tipo de bombillas. El dato atípico, si comprobamos que no se trata de un error de medida o de trascripción de los datos, representa la SUPERBOMBILLA. Número de transparencia: 22 Ingeniería de grado. Estadística. Tema 1 Análisis gráficos. Variables cuantitativas Diagrama de caja (Box Plot) Los cuartiles son tres valores que dividen el conjunto de datos en cuatro grupos con el mismo número de individuos. Se define el Rango Intercuartílico: RI = Q3-Q1 Número de transparencia: 23 Ingeniería de grado. Estadística. Tema 1 Análisis gráficos. Diagrama de caja Realizamos 20 mediciones del caudal de agua que pasa por una tubería en una central térmica (media = 2.52; mediana =2.5; cuartil inferior =2.25; cuartil superior=2.6). Pasos para realizar el diagrama de caja: Caudal 2,2 2,5 2,6 2,2 2,3 2,6 2,7 2,8 2,3 2,4 2,5 2,4 2,5 2,6 2,2 2,1 2,9 3,9 2,2 2,5 1. Se representa con líneas verticales los cuartiles. Se cierra la caja. 2. A una distancia de 1.5 veces el RI desde el cuartil inferior y superior se representa con una línea vertical discontinua la barrera interior. 3. A una distancia de 3 veces el RI desde el cuartil inferior y superior se representa con una línea vertical discontinua la barrera interior. 4. Se representan los bigotes de la caja, que llegarán hasta el último dato dentro de la barrera interior. 5. Los datos que quedan fuera de las barreras son datos atípicos, se representan mediante estrellas. 1.5 RI Número de transparencia: 24 1.5 RI 2 RI 1.5 RI 1.5 RI 3Ingeniería de grado. Estadística. Tema 1 4 Diagrama de caja e histograma Histograma - Caudal 6 frequency 5 Caudal 2,2 2,5 2,6 2,2 2,3 2,6 2,7 2,8 2,3 2,4 2,5 2,4 2,5 2,6 2,2 2,1 2,9 3,9 2,2 2,5 Número de transparencia: 25 4 3 2 1 0 2 2,4 2,8 3,2 3,6 4 Diagrama de caja - caudal 2,1 2,4 2,7 3 3,3 3,6 3,9 Ingeniería de grado. Estadística. Tema 1 Interpretación diagrama de caja Diagrama de caja, ingresos 0 2 4 Diagrama de caja, extensión 6 8 (X 100000) ITOTAL Diagrama de caja, ahorro 0 0.4 0.8 1.2 AHRR Número de transparencia: 26 0 3 6 9 12 15 Col_4 18 (X 1000) Diagrama de caja, notas 1.6 2 (X 100000) 0 0.2 0.4 0.6 Col_4 0.8 1 (X 1000) Ingeniería de grado. Estadística. Tema 1 Análisis gráfico de series temporales Datos de evolución de variables en el tiempo: Periodicidad: frecuencia de recogida de datos (anual, mensual,…). Tendencia: si aumenta o disminuye con el tiempo. Variabilidad - volatilidad: su variación (grosor). Ciclo estacional: se observa un ciclo ligado al momento del año en que se ha recogido el dato. Número de transparencia: 27 Ingeniería de grado. Estadística. Tema 1 Interpretación series temporales Periodicidad mensual – Ciclo estacional Periodicidad mensual -Tendencia – Ciclo estacional Número de transparencia: 28 Ingeniería de grado. Estadística. Tema 1 Estadística Descriptiva. Índice Introducción. Tipos de datos. Tabla de frecuencias. Análisis gráficos. Variables cualitativas: Diagrama de barras, diagrama de tarta o pastel. Diagrama de Pareto. Variables cuantitativas: Transversales: histograma, diagrama de caja. Temporales: gráfico de la serie. Medidas analíticas: Medidas de centralización: media, mediana. Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico. Medidas de forma: coeficiente de asimetría y coeficiente de curtosis. Cuartiles, percentiles. Transformaciones. Dos variables. Número de transparencia: 29 Ingeniería de grado. Estadística. Tema 1 Medidas analíticas. Variables cuantitativas Parámetro: es un cantidad numérica calculada sobre la población. La idea es resumir la información que hay en la población en unos pocos números (parámetros). La media de las bombillas de 60 W. La mediana de los niños de 3 meses. Estadístico: es una cantidad numérica calculada sobre la muestra. La vida media de las bombillas de 60 W de mi casa. La mediana de los niños de 3 meses observados en un estudio clínico. Normalmente, nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar TODA la población, calculamos un estimador sobre la muestra y “confiamos” en que sean próximos. Número de transparencia: 30 Ingeniería de grado. Estadística. Tema 1 Medidas analíticas Medidas de centralización. Indican valores respecto a los que los datos parecen agruparse: media, mediana. Medidas de dispersión. Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización: varianza, desviación típica, rango intercuartílico. Medidas de forma. Indican la forma de la distribución de los datos: Medidas de asimetría: coeficiente de asimetría. Medidas de apuntamiento: coeficiente de apuntamiento o curtosis. Cuartiles, Percentiles. Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos: cuartiles, percentiles,… Número de transparencia: 31 Ingeniería de grado. Estadística. Tema 1 Medidas de centralización Proporcionan un valor simple y representativo, que resume un gran volumen de información. Media: es la media aritmética de los valores de una variable. Mediana: es un valor que divide a los datos en dos grupos con el mismo número de individuos. Número de transparencia: 32 Ingeniería de grado. Estadística. Tema 1 La media Interpretación: la media es el centro de gravedad de la distribución de los datos. Histograma Frecuencia 80 60 40 20 0 0 4 8 12 16 20 24 Minutos Cálculo: 4,71 4,76 5,08 3,42 1,38 3,53 Retrasos 5,21 4,54 4,9 5,36 6,58 6,83 … 4,14 4,74 4,4 5,83 1,86 n X Número de transparencia: 33 x i 1 n i 4.71 4.76 ... 9.86 219 Ingeniería de grado. Estadística. Tema 1 La mediana Divide el conjunto de datos en dos con el mismo número de datos. Una vez ordenados los datos de mayor a menor: Si n es impar. Dato que ocupa el lugar central. Si n es par. Es la media de los datos centrales . Número de transparencia: 34 Ingeniería de grado. Estadística. Tema 1 Media ponderada En un hotel se pregunta a los clientes por su valoración de : Limpieza de la habitación, Rapidez en los trámites de la entrada, Iluminación del Bar. Variable – atributo de calidad Valor medio- Hotel 1 Valor Medio – Hotel 2 Limpieza habitación 3 8 Rapidez tramites entrada 5 7 Iluminación Bar media: Valoración 10 3 Satisfacción media: Hotel 1= 6. Hotel 2= 6. Número de transparencia: 35 Ingeniería de grado. Estadística. Tema 1 Media ponderada Si pensáramos que la importancia es: Limpieza habitación: 50%. Recepción: 40%. Iluminación del Bar:10%. La media de la satisfacción ponderada por la importancia es: Hotel 1: 0.5 x 3 + 0.4 x 5 + 0.1 x 10 = 4.5. Hotel 2: 0.5 x 8 + 0.4 x 7 + 0.1 x 3 = 7.1. Número de transparencia: 36 Ingeniería de grado. Estadística. Tema 1 Medidas de dispersión Supongamos dos grupos de alumnos, cuyas notas son: 1º grupo: 5,5,5,5,5,5. 2º grupo: 2,2,2,8,8,8. Los dos grupos tienen la misma media, pero parece evidente que los grupos son muy distintos. Conviene acompañar la medida de centralización con otros valores que aporten más información sobre el conjunto de datos: medidas de dispersión y medidas de forma. Número de transparencia: 37 Ingeniería de grado. Estadística. Tema 1 Medidas de dispersión Para cada medida de centralización se define una medida de dispersión, que indica lo agrupado que están los datos entorno a la medida de centralización. Acompañando a la media definimos la varianza o la desviación típica o el coeficiente de variación. Acompañando a la mediana definimos el rango intercuartílico. 300 250 200 X 0 ; S2 4.2 150 100 50 0 -8 -4 0 4 8 600 500 400 X 0 ; S2 0.89 300 200 100 0 -8 Número de transparencia: 38 -4 0 4 8 Ingeniería de grado. Estadística. Tema 1 Medidas de dispersión: asociadas a la media Miden la “dispersión” de los datos respecto de la media. Varianza (S2): mide el promedio de las desviaciones (al cuadrado) de las observaciones respecto de la media. n n 1 1 2 S 2 ( xi x ) 2 xi x 2 n i 1 n i 1 Es muy sensible a datos atípicos. Datos no agrupados I S 2 f i ( xi x ) 2 i 1 Datos agrupados Desviación típica (S): es la raíz cuadrada de la varianza. S Coeficiente de variación (CV): Número de transparencia: 39 CV S x S2 Es una medida adimensional. Ingeniería de grado. Estadística. Tema 1 Medidas de dispersión: asociadas a la media Ejemplo La siguiente tabla contiene la altura y el peso de 13 individuos. Altura 1 (150 162 ... 167) 166.6 cm 13 1 1 (150 166.6) 2 ... (167 166.6) 2 150 2 ... 167 2 166.6 2 131.7 cm 2 13 13 xA altura Peso 150 56 162 65 159 48 185 79 156 61 186 80 175 76 156 50 180 85 162 65 165 63 163 59 167 74 SA 2 Peso 1 (56 65 ... 74) 66.2 Kg 13 1 1 (56 66.2) 2 ... (74 66.2) 2 56 2 ... 74 2 66.2 2 137.8 Kg 2 13 13 xP SP 2 ¿Qué conjunto está más disperso en torno a la media? No podemos comparar las varianzas puesto que están dadas en unidades distintas. Por ello necesitamos una medida adimensional: el coeficiente de variación. CVA 0.06 Número de transparencia: 40 CVP 0.17 Ingeniería de grado. Estadística. Tema 1 Medidas de dispersión asociadas a la mediana Rango Intercuartílico (RI): la diferencia entre el cuartil superior y el cuartil inferior. RI=Q3-Q1 Box-and-Whisker Plot 8 11 14 17 20 23 retraso Número de transparencia: 41 Ingeniería de grado. Estadística. Tema 1 Medidas de forma – coeficiente de simetría Coeficiente de asimetría (x x) CA nS 3 i 3 4 0,4 0,16 3 0,3 0,12 2 0,2 0,08 1 0,1 0,04 0 0 0 0,2 0,4 0,6 CA<0 Número de transparencia: 42 0,8 1 0 -5 -3 -1 1 CA=0 3 5 0 4 8 12 16 20 CA>0 Ingeniería de grado. Estadística. Tema 1 24 Medidas de forma – coeficiente de apuntamiento Coeficiente de Apuntamiento o curtosis (x x) CAp i nS 4 4 3 0,8 C. Ap = 0 C. Ap < 0 C. Ap > 0 0,6 0,4 0,2 0 -10 Número de transparencia: 43 -6 -2 2 x 6 10 Ingeniería de grado. Estadística. Tema 1 Robustez ¿Qué medida de centralización representa mejor los datos: la media o la mediana? 4 0,4 0,16 3 0,3 0,12 2 0,2 0,08 1 0,1 0,04 x 0 0 0 0,2 0,4 0,6 x 0,8 me 1 -5 -3 -1 x me 0 1 3 5 0 4 me 8 12 16 20 x Cuando la distribución de los datos es simétrica, la media y la mediana coinciden. Cuando la distribución de los datos es asimétrica, la media tiende a desplazarse hacia los datos extremos de las colas. No representa adecuadamente el conjunto de datos. En caso de distribuciones asimétricas, la mediana representa mejor el conjunto de datos. Número de transparencia: 44 Ingeniería de grado. Estadística. Tema 1 24 Robustez A continuación se observan el histograma y diagrama de caja de los ingresos anuales de 1000 individuos que trabajan en la cadena de producción de una organización. Summary Statistics par ingresos Box-and-Whisker Plot Count = 100 Average = 17750,3 Median = 17773,1 Variance = 899548,0 Standard deviation = 948,445 Minimum = 15287,9 Maximum = 20634,1 Range = 5346,2 Lower quartile = 17130,1 Upper quartile = 18377,7 Interquartile range = 1247,6 fr equency 40 30 20 10 0 15 16 17 18 19 20 21 (X 10 00) 15 16 17 18 19 20 RAND1 21 (X 1000) Supongamos que introducimos un dato más: los ingresos del director general de la compañía (250000€). Summary Statistics for Ingresos - con director influenciada, pasando a ser un valor poco significativo Box-and-Whisker Plot 100 80 frequency Count = 101 Average = 20049,8 Median = 17785,9 Variance = 5,34949E8 Standard deviation = 23129,0 Minimum = 15287,9 Maximum = 250000,0 Range = 234712,0 Lower quartile = 17132,6 Upper quartile = 18396,2 Interquartile range45= 1263,6 Número de transparencia: La mediana no ha variado. La media se ha visto muy 60 40 20 0 0 0,4 0,8 1,2 1,6 2 (X 100000) Ingeniería 0 5 10 15 de grado. Estadística. Tema 1 20 25 (X 10 000 ) Robustez La media representa adecuadamente el conjunto de datos cuando la distribución es homogénea (simétrica y sin datos atípicos). 0,4 0,3 0,2 0,1 0 -5 Número de transparencia: 46 -3 -1 1 3 5 Ingeniería de grado. Estadística. Tema 1 Percentil Percentil de orden X, se define como el valor que divide un conjunto ordenado de datos estadísticos de forma que el porcentaje de tales datos inferior a dicho valor es del X%. Ejemplo: En el caso de los bebés, el percentil se utiliza para hacer una valoración del crecimiento del recién nacido. Cuando nos dicen que nuestro hijo está en el percentil 25 del peso significa que, de cada 100 bebés, 75 pesan más que nuestro hijo. Número de transparencia: 47 Ingeniería de grado. Estadística. Tema 1 Estadística Descriptiva. Índice Introducción. Tipos de datos. Tabla de frecuencias. Análisis gráficos. Variables cualitativas: Diagrama de barras, diagrama de tarta o pastel. Diagrama de Pareto. Variables cuantitativas: Transversales: histograma, diagrama de caja. Temporales: gráfico de la serie. Medidas analíticas: Medidas de centralización: media, mediana. Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico. Medidas de forma: coeficiente de asimetría y coeficiente de curtosis. Cuartiles, percentiles. Transformaciones. Dos variables. Número de transparencia: 48 Ingeniería de grado. Estadística. Tema 1 Transformaciones En algunas ocasiones, es útil transformar los datos o expresarlos en otras unidades: Transformaciones lineales: Y=a+bX. Transformaciones no lineales: Y=Log X. Y=Xa . … Número de transparencia: 49 Ingeniería de grado. Estadística. Tema 1 Transformaciones lineales Y= a + b X Box-and-Whisker Plot 700 1100 1500 Celsius Número de transparencia: 50 Box-and-Whisker Plot 1900 2300 1300 1800 2300 2800 3300 3800 4300 Fahrenheit= 32 + 1.8*Celsius Ingeniería de grado. Estadística. Tema 1 Transformaciones lineales La transformación lineal más importante es la tipificación: xi x yi sX Expresa el número de desviaciones que cada dato dista de la media. Es útil para comparar individuos de poblaciones diferentes, por ejemplo: Se observa un perro que pesa 18 kgs. Y un gato que pesa 5. ¿Cuál pesa más dentro de los de su especie? Los perros en media pesan 15 kgs, con una desviación típica de 3 kgs, y los gatos pesan en media 3 kilos, con una desviación típica de 0.5 kilos. Número de transparencia: 51 Ingeniería de grado. Estadística. Tema 1 Transformaciones no lineales Dentro de las transformaciones no lineales, destacan las transformaciones utilizadas para conseguir simetría. Y = log X ó Y=Xa. 30 40 fr equency fr equency 25 30 20 20 15 10 10 5 0 0 0 4 8 X Número de transparencia: 52 12 16 20 24 1,1 1,5 1,9 2,3 2,7 3,1 3,5 Y = log X Ingeniería de grado. Estadística. Tema 1 Estadística Descriptiva. Índice Introducción. Tipos de datos. Tabla de frecuencias. Análisis gráficos. Variables cualitativas: Diagrama de barras, diagrama de tarta o pastel. Diagrama de Pareto. Variables cuantitativas: Transversales: histograma, diagrama de caja. Temporales: gráfico de la serie. Medidas analíticas: Medidas de centralización: media, mediana. Medidas de dispersión: varianza, desviación típica, coeficiente de variación, rango intercuartílico. Medidas de forma: coeficiente de asimetría y coeficiente de curtosis. Cuartiles, percentiles. Transformaciones. Dos variables. Número de transparencia: 53 Ingeniería de grado. Estadística. Tema 1 Diagrama de dispersión La representación gráfica más útil para dos variables continuas es el diagrama de dispersión. Se representa cada individuo mediante un punto en el plano cartesiano. Ejemplo: se quiere estudiar la relación entre la velocidad del viento y la energía producida por una central eólica. 5 6 3,4 2,7 10 9,7 9,55 3,05 8,15 6,2 2,9 6,35 4,6 5,8 7,4 3,6 7,85 8,8 7 5,45 9,1 10,2 4,1 3,95 2,45 Energia 1,582 1,822 1,057 0,5 2,236 2,386 2,294 0,558 2,16 1,866 0,653 1,93 1,562 1,737 2,088 1,137 2,179 2,112 1,8 1,501 2,303 2,31 1,194 1,144 0,123 Número de transparencia: 54 2,4 2 energi a Velocidad 1,6 1,2 0,8 Energía = 0.5 0,4 Velocidad = 2.7 0 0 2 4 6 8 10 12 Velocidad_viento Ingeniería de grado. Estadística. Tema 1 Diagrama de dispersión Número de transparencia: 55 Ingeniería de grado. Estadística. Tema 1 Medidas de dependencia lineal Las medidas más utilizadas para cuantificar el grado y el sentido de la dependencia lineal son: Covarianza. Correlación. Covarianza: S XY 1 n ( xi x )( yi y ) n i 1 Correlación: rXY Número de transparencia: 56 S XY SY SY Ingeniería de grado. Estadística. Tema 1 Correlación Propiedades de la correlación: -1≤ rxy ≤1. Se dice que las variables son incorreladas si rxy=0. Si existe relación lineal perfecta (Y=a+bX): rxy=1 (si b>0) o rxy=-1 (si b<0). Cuanto más cerca esté rxy de 1 ó -1, mayor será el grado de relación lineal. Observación: rxy=0 no implica independencia. Número de transparencia: 57 Ingeniería de grado. Estadística. Tema 1 Correlación Correlation Coefficient = -0,889122 Correlation Coefficient = 0,340985 Número de transparencia: 58 Correlation Coefficient = 0,994278 Correlation Coefficient = 0,0417867 Ingeniería de grado. Estadística. Tema 1 Diagrama de dispersión múltiple Cuando tenemos muchas variables es latoso realizar todos los diagramas de dispersión necesarios para ver la relación entre cada par de variables. Los gráficos de dispersión múltiple hacen de golpe todos los gráficos. Ejemplo: gráfico de dispersión múltiple de 7 variables observadas en países del mundo. Número de transparencia: 59 Ingeniería de grado. Estadística. Tema 1 Estudio conjunto: cualitativa / cuantitativa Se realiza el análisis de la variable cuantitativa en cada una de las poblaciones definidas por la variable cuantitativa. Y se comparan ambos análisis. El grafico más útil para realizar este análisis es el diagrama de caja múltiple. Ejemplo: en 1000 amortiguadores se observa: la resistencia, el proveedor. Número de transparencia: 60 Box-and-Whisker Plot Tipo_a mortigua dor=0 Tipo_a mortigua dor=1 21 23 25 27 29 resistencia Summary Statistics for resistencia Tipo_amortiguador=0 Tipo_amortiguador=1 -----------------------------------------------------------Count 497 503 Average 24,9763 24,9461 Median 24,9626 24,9081 Variance 0,988781 1,02343 Standard deviation 0,994375 1,01165 Minimum 22,0217 21,8718 Maximum 28,1087 28,2504 Range 6,087 6,3786 Lower quartile 24,3536 24,2126 Upper quartile 25,6517 25,6126 Interquartile range 1,2981 1,4 Coeff. of variation 3,98128% 4,05534% ------------------------------------------------------------ Ingeniería de grado. Estadística. Tema 1 Estudio conjunto de cualitativa-cuantitativa Gasto anual en educación. Box-and-Whisker Plot 0 Summary Statistics for GTINE 2 4 6 GTINE 8 10 (X 100000) Count = 105 Average = 284658,0 Median = 255807,0 Standard deviation = 161675,0 Minimum = 33713,2 Maximum = 930000,0 Lower quartile = 178112,0 Upper quartile = 350043,0 Skewness = 1,83719 Kurtosis = 4,84436 Coeff. of variation = 56,7962% Número de transparencia: 61 Ingeniería de grado. Estadística. Tema 1 Estudio conjunto cualitativa-cuantitativa Gasto anual en educación según el nivel de estudio (estudios primarios, estudios secundarios, estudios superiores). Box-and-Whisker Plot Estudios 1 2 3 0 2 4 6 GTINE 8 10 (X 100000) Summary Statistics for GTINE Estudios Count Average Median Standard deviation ---------------------------------------------------------------------------------------------------1 20 148929,0 151376,0 78300,3 2 50 237291,0 248045,0 62997,3 3 35 429884,0 381672,0 186979,0 ----------------------------------------------------------------------------------------------------Total 105 284658,0 255807,0 161675,0 Número de transparencia: 62 Ingeniería de grado. Estadística. Tema 1