Contenido Unidad 1 ESTADÍSTICA DESCRIPTIVA .......................................................................... 1 1.1 INTRODUCCIÓN, NOTACIÓN SUMATORIA. .......................................................................... 1 Introducción. ............................................................................................................................. 1 Estadística Descriptiva. ............................................................................................................ 2 Notación Sumatoria. ................................................................................................................. 4 1.2 DATOS NO AGRUPADOS. ....................................................................................................... 7 1.2.1 MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN. ........................................... 8 Media aritmética. ...................................................................................................................... 8 Media ponderada. ..................................................................................................................... 9 Media armónica. ..................................................................................................................... 10 Media geométrica. .................................................................................................................. 10 1.2.2 MEDIDAS DE DISPERSIÓN. ..................................................................................... 11 Varianza.................................................................................................................................. 11 Desviación Estándar. .............................................................................................................. 11 1.3 DATOS AGRUPADOS. ........................................................................................................... 12 Media Aritmética. .................................................................................................................... 12 Moda. ...................................................................................................................................... 12 Mediana. ................................................................................................................................. 12 Percentil. ................................................................................................................................. 14 Cuartiles.................................................................................................................................. 15 1.3.1 TABLA DE FRECUENCIA. ........................................................................................ 15 Tallo de Hojas. ........................................................................................................................ 15 Histograma. ............................................................................................................................ 16 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. ESTADÍSTICA DESCRIPTIVA 1.1 INTRODUCCIÓN, NOTACIÓN SUMATORIA. Introducción. La estadística descriptiva se ocupa de la organización y resumen de datos estadísticos. Esto incluye el cálculo y la interpretación de medidas numéricas como la media, la mediana y la desviación estándar, al igual que la elaboración y empleo de representaciones gráficas, como las distribuciones de frecuencia. “La probabilidad es utilizada con estas técnicas como una forma de saber cuán posible es que ocurra un evento. Estos métodos descriptivos se emplean de dos maneras; ya sea como un fin en sí mismas – en cuyo caso el propósito es aclarar, visualizar o comunicar un concepto o idea -, o como una etapa inicial en el proceso de inferencia.”1 “ESTADÍSTICA: Es el arte de reunir, analizar, presentar e interpretar datos.”2 La estadística se divide en tres ramas: 3 Estadística descriptiva ESTADÍSTICA Teoría de probabilidad Estadística inferencial 1 STEVENSON William J. Estadística para Administración y Economía. Pág. 523 ANDERSON David R. Estadística para Administración y Economía. Pág. 16. 3 STEVENSON, William J. Op. Cit. Pág. 5. 2 1 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. Estadística Descriptiva. “Estadística descriptiva: Cualquier tratamiento de datos que esté diseñado para resumir o describir algunas de sus características más importantes sin intentar deducir nada que escape al alcance de los datos.”4 Proceso de la estadística descriptiva: Recolección de datos Estadísticos. Procesamiento de datos Organizar y resumir en: - Gráficos - Tablas Continuos Discretos DATOS 5 Nominales Jerarquizados “Datos: “Se debe aprender a identificar y manejar cuatro tipos de datos: continuos, discretos, nominales y jerarquizados.”6 De este modo, también se emplean variables en estadística, las cuales pueden asumir virtualmente cualquiera o determinado tipo de datos (valores); por lo que en estadística se manejarán 2 tipos de variables: variables discretas y variables continuas. “Variables continuas: pueden asumir cualquier valor en un intervalo continuo de valores o datos. Características que se miden: altura, peso, longitud, espesor, velocidad, viscosidad y temperatura, por mencionar algunas .”7 “Variables discretas: “adquieren valores enteros. Básicamente surgen al contar un número de elementos u objetos.”8 4 Ibíd.; Pág. 7. Ibíd.; Pág. 15. 6 Ídem. 7 Ídem. 8 Ibíd.; Pág. 16. 5 2 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. “Datos nominales: se obtienen cuando se defienden las categorías y se cuenta el número de observaciones que quedan en cada una; tales como sexo, color de ojos, campo de estudios, calificaciones. Estos datos se cuentan y pueden pasar a ser datos discretos.”9 Datos jerarquizados: “constan de valores relativos asignados para denotar orden: 1º, 2º, 3º, 4º… y así sucesivamente.”10 Ejemplos de jerarquías: aceptable o no aceptable, muy desordenado, poco desordenado. Por lo regular pueden ser rangos un tanto subjetivos. EJERCICIOS: Identifique los siguientes en términos del tipo de datos: a. 17 gramos b. 25 segundos c. 3 canastas d. 3 incorrectas, 7 correctas e. Tallas de camisas f. Kilómetros por litro g. Más lento h. 2 helados i. El más encantador RESPUESTAS: Contínuos: a. b, f; 9 Discretos: c, h; Nominales: d, e; Jerarquizados: g, i. Ídem Ibíd.; Pág. 17. 10 3 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. Notación Sumatoria.11 CASO 1: La mayor parte de los procedimientos en estadística emplean sumas de datos y estas se representan por la letra griega sigma ∑. De aquí que ciertas operaciones sean representadas como sumatorias o también conocidas como "notación sumatoria". Ejemplo: 1. La letra sigma denota una suma y "x" es una variable de cualquier tipo. 2. Los siguientes datos pertenecen a la variable "x": 1, 5, 6 y 9. Obtenga la =21 3. Si los valores de y son 2, 4 5, y 9, encuentre CASO 2: Si sólo se van a sumar algunos de los valores, se utilizan subíndices para indicar dichos valores del siguiente modo: Lo anterior indica la suma de los valores de la variable x, empezando con el primer dato (i=1) y terminando con el quinto (i=5). Ejemplo: Utilizando los datos que se indican, calcule a) 11 Ibíd.; P. P. 18-20. 4 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. CASO 3: Cuando cada valor de una variable va a ser multiplicada o dividida por una constante; dicha constante se puede aplicar después de que los valores se hayan sumado. Ejemplo: Hallar la sumatoria siguiente usando los datos de la tabla del CASO 2. CASO 4: La adición de una suma (o diferencia) de dos variables es igual a la suma (o diferencia) de sumatorias individuales de las dos variables. Ejemplo: a) Realizar la sumatoria con los siguientes datos: CASO 5: Los subíndices i y j se emplean para designar la fila, (i) y la columna (j), y la letra se utiliza para simbolizar el de filas y k para el de columnas. Ejemplo: Se requiere examinar datos acerca del kilometraje por unidad de consumo de Gasolina según diferentes combinaciones de autos y conductores. Automóvil 1 2 3 sumas Conductor 1 22.3 20.4 23.4 66.1 2 23.5 20.1 25.6 69.2 3 20.5 19.0 19.6 59.1 4 19.8 20.8 21.7 62.3 sumas 86.1 80.3 90.3 256.7 5 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. La notación general para esta tabla de muestra a continuación: 1. a) b) c) d) Escriba las siguientes sumas con la notación sumatoria: x, + x2 + ... + xn (x, + X2+- ... + xn)2 Xi + X2 + X3 + X4 + X5 +X6+ X7 [(o, - e,)2 / e,] +[(o2 – e2)2 e2] + [(o3 - e3)2 / e3] + [(o* - e4)a / e4] 2. Calcule cada una de las siguientes cantidades sirviéndose de los datos proporcionados. (Nota: n es el de datos). y = 15, 10, 5, 9, 14, 20, 6, 17 3. Calcule las siguientes cantidades, utilizando la información de la tabla que se presenta. 6 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. 1.2 DATOS NO AGRUPADOS. Cuando los datos estadísticos se recolectan, estos se encuentran desordenados y por tanto deberán ser asociados de tal forma que puedan interpretarse. Los datos estadísticos se van a identificar en dos formas, como población y como muestra. POBLACIÓN: El conjunto de todos los elementos de interés en determinado estudio.12 MUESTRA: Un subconjunto de la población.13 Con lo anterior se va a clasificar la forma de medir los datos: 12 13 ANDERSON, David R. Op. Cit. Pág. 16. Idem. 7 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Medidas de tendencia central Probabilidad y estadística. 2011. Media de la Población. Varianza. Población Medidas de dispersión Desviación Estándar. Error estándar. Datos Estadísticos Medidas de tendencia central Muestra Media de la muestra. Varianza de la muestra. Medidas de dispersión Desviación estándar de la muestra. Error estándar de la muestra. 1.2.1 MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN. Media aritmética. La media aritmética también llamada media de la muestra, esperanza matemática o tan conocida por todos como promedio: esta es la suma de los datos y dividida entre la cantidad de datos que se estén sumando.14 La fórmula de esta es: Para la Población: 14 STEVENSON, William J. Op. Cit. Pág. 23. 8 Ingeniería Industrial Ing. Alejandro Rosete Notario Probabilidad y estadística. 2011. I.T.S. de Tepeaca Para la Muestra: EJEMPLO: Se tienen las siguientes calificaciones de alumnos, obtenga la media aritmética: Matemáticas Física Dibujo Ética Taller de H. Fundamentos de investigación. 70 95 90 71 85 83 La media aritmética es: 82.33 NOTA: Ya sea media de la población y media de la muestra, el procedimiento sigue siendo el mismo para obtener el resultado. Media ponderada. La media ponderada es muy similar a la anterior con la diferencia de que se maneja un grado de importancia o ponderación para cada dato.15 La fórmula es la siguiente: En este caso w es la ponderación i-èsima. Que se le aplica a cada dato. EJEMPLO: Con las siguientes calificaciones obtenga un promedio ponderado: 15 ANDERSON, Sweeney William. Op. Cit. Pág. 66. 9 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. Media armónica. Esta se define como n divida entre la suma de los recíprocos de los n s; o n.16 Bien: Ejemplo: Si un avión Millas/hora. La media armónica tiene una utilidad limitada, pero es adecuada. vuela 100 millas a 300 millas/hora y las siguientes 100 millas a 600 Ha recorrido 400 millas/hora en promedio Media geométrica. Se aplica a un conjunto de n s positivos y es la raíz n-ésima de su producto. Si todos los s son iguales, la media geométrica es igual a la media aritmética; pero, en caso contrario, la media geométrica es siempre menor que la aritmética.17 La fórmula es: Ejemplo: Obtenga la media geométrica de las siguientes calificaciones: Examen (n) Calificación (x,) No. 1 80 16 17 Ídem STEVENSON, William J. Op. Cit. Pág. 34. 10 Ingeniería Industrial Ing. Alejandro Rosete Notario No. 2 Final Probabilidad y estadística. 2011. I.T.S. de Tepeaca 90 96 1.2.2 MEDIDAS DE DISPERSIÓN. Varianza. La varianza o también conocida como variancia, es la desviación promedio de valores obtenidos a partir de la media, elevada al cuadrado y calculada mediante n-1 en lugar de n.18 Las fórmulas que se emplean son las siguientes: Para la Población: ó Para la Muestra: ó Desviación Estándar. La desviación estándar de un conjunto de s se define como la raíz cuadrada positiva de la variancia.19 Es simplemente la raíz cuadrada positiva de la variancia. De este modo si la variancia es 81, la desviación estándar es 9; si la variancia es √10, la desviación estándar es √10= 3.16. Para obtener la desviación estándar, se debe calcular la variancia y hallar su raíz cuadrada. 18 19 Ídem Ibíd.; Pág. 36. 11 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. Las fórmulas para la desviación estándar son: (x S i x) 2 n 1 Como se hizo anteriormente, sustituir (n-1) por n las convierte en fórmulas para calcular la desviación estándar de la población. 1.3 DATOS AGRUPADOS. Las medidas fundamentales en lo que a datos agrupados se refieren, son las mismas que para los pequeños conjuntos de datos, principalmente la media, mediana y moda como medidas de tendencia central y la desviación estándar, variancia y amplitud de variación como medidas de dispersión. Media Aritmética. La media aritmética es lo que viene a la mente de las personas cuando se menciona la palabra “promedio”. Como este término tiene ciertas características matemáticas deseables, es la más importante de las tres medidas. La media aritmética se calcula al sumar los valores de un conjunto y al dividir el producto de esta suma entre el de valores del mismo. 20 Ejemplo: 70 80 120 270 90 3 3 Moda. Es el valor que con más frecuencia se presenta en un conjunto. 21 Ejemplo: En el conjunto 10, 10, 8, 6 y 10, el 10 se presenta tres veces en tanto que uno de los otros valores, solo una vez. El valor más frecuente, la moda, es 10. Mediana. Es el valor intermedio, cuando los valores de los datos se ordenan en forma ascendente. Si hay una cantidad impar de elementos, la mediana es el valor del 20 21 Ibíd. Pág. 23. Ídem. 12 Ingeniería Industrial Ing. Alejandro Rosete Notario Probabilidad y estadística. 2011. I.T.S. de Tepeaca elemento intermedio, cuando todos los elementos están ordenados de manera ascendente. Si hay una cantidad par de elementos, la mediana es el valor promedio de los dos elementos intermedios, cuando todos se ordenan en forma ascendente.22 Ejemplo: Sueldos mensuales iniciales para una muestra de 12 egresados de una escuela de administración. Egresado Sueldo mensual ($) Egresado Sueldo mensual ($) 1 2 3 4 5 6 2350 2450 2550 2380 2255 2210 7 8 9 10 11 12 2390 2630 2440 2825 2420 2380 Al disponer los cinco valores de datos en orden ascendente, se obtiene la siguiente lista ordenada. 32 42 46 46 54 Como n = 5 es impar, la mediana es el elemento intermedio de la lista ordenada. Así, la mediana del tamaño de clase es 46 alumnos. Aun cuando hay dos valores 46, cada uno se maneja como artículo. Calculemos la mediana del salario inicial de los egresados de la escuela de administración. Ordenamos los 12 elementos de la tabla 2210 2255 2350 2280 2380 2390 2420 2440 2450 2550 2630 2825 Dos valores intermedios Como n = 12 es par, identificamos los dos elementos intermedios. La mediana es la media de esos dos valores. Mediana 22 2390 2420 2405 2 ANDERSON, Sweeney William. Op. Cit. Pág. 66. 13 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. Percentil. El p-ésimo percentil es un valor tal que por lo menos un p por ciento de los elementos tienen dicho valor o menos y. al menos, un (100—p) por ciento de los elementos tienen este valor o más.23 Para calcular el p-ésimo percentil se aplica el siguiente método. Paso 1. Ordenar los datos de manera ascendente. Paso 2. Calcular un índice i P i = n 100 En donde: p es el percentil de interés n es la cantidad de elementos. Paso 3. (a) Si i no es entero, se redondea. El valor entero inmediato mayor que i indica la posición del p-ésimo percentil. (b) Si i seis entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i + 1. Como ejemplo de este procedimiento, determinemos el 85o percentil de los datos de salario inicial en la tabla Paso 1. Disponer los 12 valores de los datos en orden ascendente. 2210 2255 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 Paso 2. P 85 i n 12 10.2 100 100 23 ANDERSON, Sweeney William. Estadística para Administración y Economía. Pág. 65. 14 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. Paso 3. Como i no es entera, redondeamos. El lugar del 85o percentil es el siguiente entero mayor que 10.2, o sea el lugar 11. Regresando a los datos, vemos que el 85o percentil corresponde al 1 lo lugar en los datos, que es 2630. Cuartiles. La mediana (ya sea de una población o de una muestra) divide los datos en dos partes iguales. También es posible dividir los datos en más de dos partes. Cuando se divide un conjunto ordenado de datasen cuatro partes iguales, los puntos de división se conocen como cuartiles24. El primer cuartil o cuartil inferior, q1, es un valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por debajo de él, y el 75% restante, por encima de él. El segundo cuartil, q2, tiene aproximadamente la mitad (50%) de las observaciones por debajo de él. Es segundo cuartil es exactamente igual a la mediana. El tercer cuartil, o cuartil superior, q3, tiene aproximadamente las tres cuartas partes (75%) de las observaciones por debajo de él. Al igual que en el caso de la mediana, es posible que los cuartiles no sean únicos. Por simplicidad, si más de una observación satisface la definición de un cuartil, entonces se utiliza el promedio de ellas como cuartil. 1.3.1 TABLA DE FRECUENCIA. Tallo de Hojas. Las técnicas del análisis exploratorio de datos consisten en operaciones aritméticas sencillas y representaciones fáciles de trazar, que pueden emplearse para resumir con rapidez los datos. 25 Sin embargo, hay una que se llama diagrama de tallo y hojas, que todavía se usa mucho para mostrar tanto el orden de rangos como La forma de un conjunto de datos, en forma simultánea. Ejemplo: La información es resultado de un examen de aptitudes de 150 preguntas, aplicado a 50 personas durante un proceso de selección de personal en Haskens Manufacturíng. Los datos indican el de respuestas correctas. A) Ordenamos, de acuerdo con los dígitos iniciales de cada uno, en el lado izquierdo de una línea vertical. 24 25 MONTGOMERY, Douglas C. Probabilidad y Estadística aplicadas a la ingeniería. Pág. 20 ANDERSON, Sweeney William. Op. Cit. Pág. 40. 15 Ingeniería Industrial Ing. Alejandro Rosete Notario I.T.S. de Tepeaca Probabilidad y estadística. 2011. B) A la derecha de esa recta se anota el último dígito de cada dato, conforme se recorren las calificaciones en el orden en que fueron anotadas. C) El último dígito de cada dato se coloca en el renglón de los primeros dígitos del correspondiente. 6 7 9 2 8 3 6 3 6 5 8 6 2 3 1 1 0 4 5 9 7 2 2 6 2 1 5 8 854 10 7 4 8 0 2 6 6 0 6 11 2 8 5 9 3 5 9 12 6 8 7 4 13 2 4 14 1 D) Con esta organización de los datos, es fácil clasificar los dígitos de cada renglón en su rango (magnitud) correspondiente. Al hacerlo se llega al diagrama de tallo y hojas que vemos a continuación: 6 7 8 9 10 11 12 13 14 8 2 0 1 0 2 4 2 1 9 3 1 2 0 3 6 4 3 1 2 2 5 7 5 2 2 4 5 8 6 3 4 6 8 6 4 5 6 9 5 6 5 6 7 6 7 8 9 E) Cada línea de este diagrama se denomina como tallo, y cada dígito en el tallo es una hoja. Histograma. Es la representación gráfica común de datos cuantitativos este resume grafico se puede preparar con datos que sean resumido anteriormente en una distribución de frecuencia porcentual. 26 Se traza colocando la variable de interés sobre el eje horizontal y la 26 Idem. Pág. 33 16 Ingeniería Industrial Ing. Alejandro Rosete Notario Probabilidad y estadística. 2011. I.T.S. de Tepeaca frecuencia porcentual de cada clase trazando un rectángulo, cuya base es el intervalo de la clase sobre el eje horizontal y cuya altura es la frecuencia correspondiente. Pasos para la elaboración de un histograma. 1.- La raíz de todos los s cualitativos. K= n Nota: Los rangos deben de ser de 5 ≤ k ≥ 15. 2.- De ¿cuántos valores va a constar cada clase? Amplitud de clase = (valor máximo – valor mínimo ) o rango k 3.- Crear las clases o rangos. 4.- Contabilizar las frecuencias de cada clase. 5.- Con los datos obtenidos al contabilizar las frecuencias el histograma. elaboraremos Ejemplo: Los siguientes datos son resultado de una encuesta realizada a alumnos de segundo año de secundaria. Obtendremos su histograma. Calificaciones 70 80 90 75 84 96 85 75 96 72 88 90 90 95 76 72 92 83 73 77 94 95 85 90 70 80 85 77 72 85 88 90 72 83 96 75 82 90 70 96 88 92 80 70 77 70 70 72 90 75 96 85 72 78 80 82 84 86 88 90 84 82 80 78 76 74 90 75 86 90 92 94 96 80 72 94 92 90 88 86 Clases Frecuencia Frecuencia (Calificaciones) (Absoluta) (Relativa) 50 - 54 55 - 59 60 - 64 65 - 69 14 6 11 11 14% 6% 11% 11% 90 86 70 86 70 70 75 80 70 75 90 80 85 85 80 80 90 90 75 80 Frecuencia Absoluta Acumulada (ascendente) z 14 20 31 42 Frecuencia Absoluta Acumulada (descendente) 100 86 80 69 58 17 Ingeniería Industrial Ing. Alejandro Rosete Notario 70 - 74 75 - 79 80 - 84 85 - 89 90 - 94 95 - 99 Probabilidad y estadística. 2011. I.T.S. de Tepeaca 6 11 7 14 6% 11% 7% 14% 9% 11% 9 11 48 59 66 52 41 34 20 11 0 80 89 100 HISTOGRAMA DE CALIFICACIONES (2º AÑO DE SECUNDARIA, 2002) 50 - 54 = 14 12 10 FRECUENCIA 8 ABSOLUTA 6 4 2 0 55 - 59 = 60 - 64 = 14 14 11 11 11 6 6 65 - 69 = 9 11 70 - 74 = 7 75 - 79 = 80 - 84 = 1 85 - 89 = CLASE [Calificacion %] 90 - 94 = 95 - 99 = HISTOGRAMA DE CALIFICACIONES (2º AÑO DE SECUNDARIA, 2002) 1,4 1,4 1,4 1,2 1,1 1,1 50 - 54 = 1,1 1,1 1 0,9 FRECUENCIA 0,8 RELATIVA 0,6 0,6 0,6 0,7 55 - 59 = 60 - 64 = 65 - 69 = 70 - 74 = 0,4 75 - 79 = 0,2 80 - 84 = 0 1 CLASE [calificacion %] 85 - 89 = 90 - 94 = 95 - 99 = ACUMULADA DE LAS CALIFICACIONES DE 2º AÑO DE PRIMARIA 2002 frecuencia absoluta acumulada 120 100 100 86 80 80 69 60 58 66 59 52 48 42 40 41 34 31 20 20 14 89 80 20 11 0 0 = = = = = = = = = = 50 54 55 59 60 64 65 69 70 74 75 79 80 84 85 89 90 94 95 99 CLASE [calificacion % ] FRECUENCIA ABSOLUTA ACUMULADA FRECUENCIA ABSOLUTA ACOMULADA DESENDENTE 18