UNIVERSIDAD DE ATACAMA FACULTAD DE INGENIERÍA Departamento de Matemática ESTADÍSTICA DESCRIPTIVA por Dr. David Jorge Elal Olivero COPIAPÓ - CHILE 2006 c 2006 by David Jorge Elal Olivero Copyright Índice general 1. Introducción 1 1.1. Panorama General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Distribución de la información y tipos de datos 1 3 2.1. Introducción a las tablas de frecuencias . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. La naturaleza de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.3. Tabla de distribución y gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3.1. Determinación del número de clases . . . . . . . . . . . . . . . . . . . . . 9 2.3.2. Determinación de la amplitud de cada clase . . . . . . . . . . . . . . . . 9 2.3.3. Construcción de la tabla de distribución de frecuencia . . . . . . . . . . 11 2.3.4. Gráfico, histograma y polı́gono de frecuencia . . . . . . . . . . . . . . . . 13 2.3.5. Construcción de la tabla de distribución de frecuencia acumulada . . . . 16 2.3.6. Gráfico, Ojiva porcentual . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.7. Cálculo de percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3. Estudio de Parámetros de una Población 19 3.1. Medidas de tendencia central:promedio . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.1. Propiedades del promedio y la varianza . . . . . . . . . . . . . . . . . . . 23 3.2. Medidas de tendencia central: mediana y otras cuantiles . . . . . . . . . . . . . . 26 3.3. Medidas de tendencia central: moda . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.4. Medidas de variabilidad: desviación estándar . . . . . . . . . . . . . . . . . . . . 29 3.5. Estandarización y coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . 32 3.5.1. Estandarización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.5.2. Coeficiente de variación . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.6. Introducción a los números ı́ndices . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.6.1. Indices de frecuencia y gravedad en prevención de riesgo . . . . . . . . . 38 4. Estadı́stica descriptiva bivariada 42 4.0.2. Distribución condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.0.3. Marca de clase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.0.4. Distribución marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.0.5. Covarianza Bibliografı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 49 Capı́tulo 1 Introducción 1.1. Panorama General Definición 1.1 Estadı́stica es la ciencia que trata de los métodos y medios para recopilar, organizar, presentar, analizar e interpretar datos estadı́sticos, con el objeto de tomar decisiones mas eficaces. El problema de describir, resumir y analizar datos de censos condujo a la creación de métodos que, hasta hace poco, constituı́an casi todo lo que habı́a sobre el tema de la estadı́stica. Estos métodos, que en un principio consistı́an sobre todo en la presentación de datos en forma de tablas y diagramas, constituyen lo que ahora se denomina la estadı́stica descriptiva. Esta comprende cualquier cosa que se haga con los datos y que este diseñada para resumirlos o describirlos, sin tener que ir mas lejos, o sea, sin intentar deducir nada que escape de los datos mismos. Por ejemplo un anuario informa que los accidentes en faenas mineras en chile, durante el año 2004, fueron de 21.567 mientras que en el año 2005 fueron de 25.469 y se realizan los cálculos necesarios para demostrar que hubo un incremento de los accidentes, en dicho perı́odo, de un 18,09 %, este trabajo pertenece al campo de la estadı́stica descriptiva. Sin embargo, éste no serı́a el caso si se utilizaran los datos para predecir el número de accidente, por ejemplo, para el 2006. A pesar que la estadı́stica descriptiva es una rama importante de la estadı́stica y se sigue utilizando ampliamente, la informacion estadı́stica suele emanar de muestras (de observaciones hechas sólo en parte de un conjunto grande de elementos), y esto quiere decir que su análisis requerirá generalizaciones que van mas allá de los datos mismos. Como resultado, una CAPÍTULO 1. INTRODUCCIÓN caracterı́stica importante del reciente desarrollo de la estadı́stica ha sido el paso de métodos meramente descriptivos a métodos que sirven para hacer generalizaciones, es decir el paso de la estadı́stica descriptiva a los métodos de la estadı́stica inferencial . En estos apuntes nos ocuparemos de desarrollar solamente aspectos de la estadı́stica descriptiva Capı́tulo 2 Distribución de la información y tipos de datos 2.1. Introducción a las tablas de frecuencias El poder resumir una gran masa de datos en forma utilizable siempre ha sido importante, pero se ha multiplicado considerablemente en las últimas décadas. Esto se ha debido en parte al desarrollo computacional que han hecho posible realizar en minutos lo que antes se tenı́a que dejar de hacer debido a que se llevarı́a meses o años, y en parte por el torrente de datos generados por el enfoque cada vez mas cuantitativo de las ciencias. El método mas común de resumir datos consiste en presentarlos en forma condensada en tablas o gráficas, y aquı́ la palabra clave es: Distribución Definición 2.1 Una tabla compuesta de filas y columnas donde todos los datos de la población en estudio se distribuyen según un criterio definido en las celdas generadas por la intersección de las filas y culumnas se conoce con el nombre de Tabla de Frecuencias. Para ilustrar la importancia de presentar una gran masa de datos en una tabla de frecuencia analicemos los siguientes ejemplos Ejemplo 2.1 Un sociólogo esta interesado en estudiar las edades de las personas de un determinado Pais que tienen un ingreso menor al mı́nimo. No nos pongamos en el caso de las grandes dificultades que tendrı́a para recolectar la información, y para simplificar la situación, CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS supongamos que logra que un organismo gubernamental generosamente lo provea de gran información. Con respecto a grandes conjuntos de datos, con frecuencia se pueden transmitir a menudo una buena representación total y la información suficiente mediante la clasificación de los datos en una tabla de fecuencia y el sociólogo descubre que la información que busca se presenta como se indica para el año 2005 Cuadro 2.1: Personas con ingreso menor que el mı́nimo. Edad Número de personas (en años) (en miles) Menores de 16 1.233 de 16 a 21 932 de 22 a 44 779 de 45 a 64 175 de 65 y mas P 863 3.982 Esta tabla de frecuencia muestra como se distribuyen, aproximadamente, 4 millones de personas de acuerdo a su edad. Observe que la clasificación se hace bajo un criterio (Edad) que es una magnitud numérica, y por ejemplo la clase ”de 16 a 21 ” comprende los valores 16,17,18,19,20 y 21. Cada clase también puede abarcar un solo valor; como se ilustra en el siguiente ejemplo. Ejemplo 2.2 La tabla siguiente muestra la distribución del número de accidentes laborales de un pais Z entre los años 2001 hasta 2005. Observe que cada clase considera solo un valor asi la primera es solo el valor 2001, la segunda 2002, la tercera 2003, la cuarta 20004 y por último la quinta clase contempla solo el valor 2005 Por otra parte observe que el número de accidentes en el año 2005 disminuyó en un 4.17 % respecto al año 2004, sin embargo El número de accidentes In Itinere aumentó en un 2,87 % en el mismo perı́odo. ¿Cómo se calculan los ı́ndices (porcentajes) 4.17 % y 2,87 %? Desarróllelo CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS Cuadro 2.2: Accidentabilidad laboral Año N◦ de accidentes Accidentes Totales Itinere 2001 2002 2003 486.109 671.004 801.416 5.196 5.933 6.918 2004 2005 P 821.458 787.182 7.339 7.550 3.567.169 32.936 En el siguiente ejemplo los datos se distribuyen, en la tabla de frecuencia, según un criterio de acuerdo a si cumple o no ciertas condiciones dadas por una cualidad. Ejemplo 2.3 La tabla de distribución siguiente muestra como se movilizan al trabajo los obreros de la empresa XY Cuadro 2.3: Medios de transporte de los obreros de la empresa XY Medios de Porcentaje Transporte % En auto propio 42 Solo en tren 14 Solo en bus 32 Combina bus y tren 8 Caminando (generalmente) P 4 100 % Ejemplo 2.4 La siguiente tabla de frecuencia ilustra el nivel de colesterol en la sangre de ciudadanos de la ciudad de Calama entre 25 a 34 años de edad, registrados durante el primer semestre del año 2006. . CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS Cuadro 2.4: Distribución de ciudadanos de La Serena según nivel de colesterol en la sangre. Nivel de frecuencia mg Colesterol( 100ml ) f 80 - 119 13 120 - 159 150 160 - 199 442 200 - 239 299 240 - 279 115 280 - 319 34 320 - 359 9 360 - 399 P 5 1067 Convencidos de la importancia de distribuir la información en una tabla de frecuencia amerita una construcción y análisis más detallada, situación que hemos reservado para tratarla mas adelante. Sin embargo podemos rescatar, que en el análisis hecho de las tablas de frecuencia, nos hemos enfrentado a diferentes tipos de datos (que representan números o cualidades) que pasamos a precisar en la siguiente sección. 2.2. La naturaleza de los datos Algunos conjuntos de datos consisten en números y otros son no numéricos. Suelen utilizarse los términos datos cuantitativos y datos cualitativos para distinguir entre estos dos tipos. Definición 2.2 Los datos cuantitativos consisten en números que representan conteo o mediciones. Los datos cualitativos (o categóricos o de atributos) se caracterizan por ser reconocidos por una cualidad y son no numéricos Ejemplo 2.5 De datos cuantitativos: 1. Número de hijos en familias 2. Número de accidentes ocurridos durante un determinado mes, en una empresa X CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 3. Sueldos de funcionarios de una determinada organización 4. Tiempo de vida útil de una maquinaria 5. Distancia recorrida por un móvil Ejemplo 2.6 De datos cualitativas: 1. Estado Civil (soltero, casado, divorciado, viudo) 2. Género (masculino o femenino) 3. Religión 4. Color de los ojos 5. Marca de cigarrillos Podemos describir con mayor detalle los datos cuantitativo distinguiendo entre los tipos discretos y continuos Definición 2.3 Los datos discretos se obtienen de un número finito de posibles valores o bien de un número de posibles valores que puede contarse. (Esto es el número de posible valores es 0, 1, 2, etc.) Los datos continuos se obtienen de un número infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya hueco e interrupciones Ejemplo: Considerando el ejemplo de datos continuos, antes mencionado, se puede apreciar que los casos 1 y 2 son datos discretos mientras que los casos 3,4 y 5 son datos continuos. Hasta ahora hemos aprendido a distinguir las diferentes formas en que podrı́amos enfrentar a un conjunto de datos. Para realizar un análisis o estudio descriptivo acusioso de ellos aprenderemos a continuación a construir tablas de distribuciones. 2.3. Tabla de distribución y gráficos En esta sección se analizará la forma de organizar un conjunto de datos, sin procesar, en una tabla de distribución de frecuencia y como representar esta distribución de manera gráfica CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS en un histograma, un polı́gono de frecuencia, y una ojiva porcentual. Luego se resumirán y presentarán otros tipos de información numérica en forma de gráfica de linea, de barras o de algún otro tipo. Cuando las observaciones se agrupan o condensan en tablas de distribución de frecuencia, el proceso de análisis e interpretación de los datos se hace mucho más manejable y significativo. Al clasificar la información en clases o intervalos la información inicial referente a las observaciones que se disponı́a se pierde a través del proceso de agrupamiento, es decir, se está perdiendo precisión de la información pero se está ganando en interpretación y comprobaremos que bien vale la pena, ya que lo que se gana, es mucho mas de lo que se pierde. Los pasos a seguir para elaborar una tabla de distribución de frecuencia se explican mejor utilizando un ejemplo. Ejemplo 2.7 La siguiente tabla muestra los sueldos lı́quidos (en miles)de 120 ejecutivos de la empresa X 1170 1207 1581 1277 1305 1472 1077 1319 1537 1849 1332 1418 1949 1403 1744 1532 1219 1471 1399 1041 1379 821 896 1558 1118 1533 1510 1760 1826 1309 1426 1288 1394 1545 1032 1289 1440 1421 1329 1407 718 1500 1671 695 803 1457 1449 1455 2051 1677 1119 1020 1400 1442 1593 1962 1263 1788 1501 1668 1352 1340 1459 1823 1451 1138 1592 982 1981 1091 1428 1603 1699 1237 1325 1590 1142 1425 1550 1470 1783 1618 1431 1557 896 913 1662 1591 1551 1612 1249 1419 2162 1373 1542 1631 1567 1221 1972 1714 949 1539 1634 1637 1649 1607 1640 1739 1540 2187 1752 1648 1978 640 1736 1222 1790 1188 2091 1829 Es importante tener presente los siguientes consideraciones para confeccionar una tabla de frecuencia: 1. Seleccionar el número apropiado de clases o intervalo 2. Obtener la amplitud de cada clase o intervalo CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 3. Establecer los lı́mites de cada clase o intervalo para evitar los traslapes y asi impedir que un dato pueda ser clasificado en dos o mas clases. . 2.3.1. Determinación del número de clases Nos proponemos clasificar la información en una tabla de distribución de frecuencia, para ello debemos primeramente ponernos de acuerdo en el número de clases o intervalos a utilizar. Sobre este punto es importante que exista acuerdo entre el equipo que está realizando la investigación y prevalecerá, por supuesto, las razones técnicas para decidirlo. Dado que este es un ejemplo académico resolveremos esta situación recurriendo a la regla de Sturges que nos dice lo siguiente: Si N representa el número de intervalos a encontrar, entonces la regla de Sturges propone calcularlo ası́: N = 1 + 3, 3 × log n donde n es el número total de datos. En nuestro caso n=120, luego N = 1 + 3, 3 × log120 = 1 + 3, 3 × 2, 0792 = 7, 86 ≈ 8 Ası́ el número de intervalos (o clases) es N = 8. 2.3.2. Determinación de la amplitud de cada clase Siguiendo las recomendaciones para confeccionar una tabla de frecuencia y en relación a la amplitud que debe tener cada intervalo también es tratado entre el grupo interesado en la investigación aunque es recomendable que todos tengan la misma amplitud. Siguiendo este último argumento la amplitud de un intervalos, que sera igual para todos, se obtiene de la siguiente manera: 1. Se selecciona el dato mayor y el dato menor 2. Si denotamos por a la amplitud del intervalo, entonces, a se calcula ası́: a= dato mayor - datos menor 8 CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS En nuestro caso se tiene que el dato mayor es 2187 y el menor es 640, por lo tanto a= 2187 − 640 = 193, 375 8 Observación 2.1 La verdad es que el valor 193, 375 es muy feo para considerarlo como una amplitud de intervalo(aunque se puede trabajar con él), ya que se va a usar mucho para realizar cálculos y sumarı́a bastante complejidad al problema. ¿Cómo resolver la situación? Pareciera que una amplitud de 194, 195 ó 196, que están por sobre 193, 375, serı́an bastante cómodo ya que son número entero y muy próximo a 193, 375. Es importante destacar, que cualquiera de ellos que usemos, sus efectos serı́an realmente insignificante tanto en las diferencias de los resultados como sus interpretaciones, recuerde que estamos perdiendo precisión pero ganando en interpretación, aún ası́ es recomendable considerar el entero, superior, mas próximo que en nuestro caso es 194. Veamos gráficamente la situación: Se observa que la amplitud de cada clase se obtiene al dividir por 8 la diferencia “2187−640 = 1547” lo que resulta el número feo 193, 375 (observe que esta diferencia representa la longitud del intervalo [640 2187]). Pero lo que queremos es que la amplitud sea el número bonito 194, esto obliga a que la diferencia “?−? = 1552”. Esto nos lleva a aumentar en 5 unidades la diferencia “2187 − 640 = 1547”. y por consiguente a ampliar en 5 unidades la longitud del intervalo [640 2187]). Observación 2.2 1. Si el aumento de la longitud del intervalo hubiese sido un número par, por ejemplo 4, entonces se resta 2 unidades al lado izquierdo (640) y se suman 2 unidades al lado derecho (2187) 2. En nuestro caso hay que aumentar en un número impar, que es 5, la longitud del intervalo - en tal caso - se elige en forma arbitraria la distribución de 2 unidades a la izquierda y 3 a la derecha o viceversa. Si la elección es restar 3 unidades a la izquierda y sumar CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 2 unidades a la derecha, el intervalo quedarı́a [637 2189]). y en tal caso se confirma la amplitud a = 194, es decir: a= 2.3.3. 2189 − 637 1552 = = 194 8 8 Construcción de la tabla de distribución de frecuencia Una vez que hemos determinado el número de clases ó intervalos y la amplitud de cada uno de ellos la tabla de distribución de frecuencia quedarı́a: Intervalos frecuencia - (f) 637 − 831 831 − 1025 1025 − 1219 1219 − 1413 1413 − 1607 1607 − 1801 1801 − 1995 1995 − 2189 Para seleccionar los datos dentro de la tabla de distribución, ya confeccionada, podrı́amos tener el problema de que un dato pueda estar en dos intervalos, por ejemplo ¿Dónde clasificarı́a usted el dato 1219? como respuesta podrı́amos decir que estarı́a en el 3er intervalos ó en el 4to intervalo. Para evitar esta ambigüedad consideraremos el intervalo [1025 1219[ es decir cerrado en 1025 y abierto 1219 lo que implica que el extremo derecho no se considera en dicho intervalo. Con esta aclaración la respuesta a la pregunta serı́a “El dato 1219 estarı́a en el 4to intervalo”. Con esta consideración la tabla de distribución la podrı́amos presentar ası́: CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS Intervalos frecuencia - (f) [637 831[ [831 1025[ [1025 1219[ [1219 1413[ [1413 1607[ [1607 1801[ [1801 1995[ [1995 2189] Ahora estamos en condiciones de completar la tabla de distribución de frecuencia clasificando los datos en los respectivos intervalos y no estarı́amos expuestos a ningún tipo de problema. Clasificados los datos la tabla quedarı́a: Intervalos frecuencia - (f) 637 − 831 5 831 − 1025 6 1025 − 1219 11 1219 − 1413 24 1413 − 1607 38 1607 − 1801 23 1801 − 1995 9 1995 − 2189 4 Observación 2.3 Haremos algunas interpretaciones de algunos datos de la tabla de frecuencia como también combinando alguno de ellos. 1. El datos 24 significa que: “24 ejecutivos de la empresa tienen un sueldo lı́quido entre $1.219.000 y $1.413.000”. CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 2. “11 ejecutivos de la empresa tienen un sueldo entre $1.2025.000 y $1.219.000”. Observe también que el mismo número, es decir 11, de los ejecutivos tienen un sueldo inferior $1.025.000 3. observe que 36 ejecutivos de la empresa tienen un sueldo lı́quido superior (o igual) a $1.607.000 2.3.4. Gráfico, histograma y polı́gono de frecuencia Considerando la tabla de distribución de frecuencia, recién construı́da, podemos tener un efecto visual de ella a través de un gráfico denominado histograma, que pasamos a mostrar: La altura de los rectángulos del histograma muestran la frecuencia de ejecutivos mientras que los extremos de la base de los rectángulos muestran donde flutúan los sueldos lı́quidos de ellos. Uniendo los puntos medios de las alturas de cada reactángulo se consigue un nuevo gráfico que se denomina Polı́gono de frecuencia quedando como se muestra: CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS Observación 2.4 Para graficar el polı́gono de frecuencia se tomaron las siguientes consideraciones 1. Las lı́neas que unen los puntos de los techos de los rectángulos dan una aspecto tosco y se ha preferido suavizarla dándole una forma mas acampanada. 2. Para cerrar la campana(polı́gono de frecuencia) se han considerados los puntos medios de los intervalos (imaginarios) que no están contemplados en la tabla de frecuencia y que son [443 637[ a la izquierda y [2189 2383[ a la derecha, siendo los puntos medios de cada uno de ellos 540 y 2286 respectivamente. La tabla de distribución de frecuencia se puede complementar agregando una nueva columna que no es otra cosa que la columna de frecuencia pero expresada en porcentaje. Considerando esta nueva columna se puede mostrar un histograma y su polı́gono de frecuencia y los gráficos serı́an practicamente los mismos que hemos visto sólo que sufrirı́an un cambio de escala. La tabla quedarı́a como se muestra a continuación: CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS Intervalos frecuencia frecuencia ( %) - (f) relativa h 637 − 831 5 4,2 831 − 1025 6 5 1025 − 1219 11 9,1 1219 − 1413 24 20 1413 − 1607 38 31,7 1607 − 1801 23 19,2 1801 − 1995 9 7,5 1995 − 2189 P 4 3,3 120 100 % El histograma con el polı́gono de frecuencia relativa quedarı́an ası́ CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 2.3.5. Construcción de la tabla de distribución de frecuencia acumulada Ahora completaremos la tabla de distribución agregando dos nuevas columnas que se logran acumulando las frecuencias y frecuencias relativas como se muestra a continuación: Intervalos frecuencia - frecuencia frecuencia frecuencia relativa acumulada acumulada - f h F relativa( %) H 637 − 831 5 4,2 5 4,2 831 − 1025 6 5 11 9,2 1025 − 1219 11 9,1 22 18,3 1219 − 1413 24 20 46 38,3 1413 − 1607 38 31,7 84 70 1607 − 1801 23 19,2 107 89,2 1801 − 1995 9 7,5 116 96,7 1995 − 2189 P 4 3,3 120 100 120 100 % - - Observación 2.5 A continuación interpretaremos algunos datos de esta última tabla 1. El valor 46 ubicado en la 4a columna se interpreta como: “46 ejecutivos de la empresa tienen un sueldo inferior a $1.413.000”. 2. El valor 89,2 ubicado en la 5a columna se interpreta como: “El 89,2 % de los ejecutivos, de la empresa, tienen un sueldo inferior a $1.801.000”. 3. El valor 38,3 ubicado en la 5a columna se interpreta como: “El 38, 3 % de los ejecutivos de la empresa tienen un sueldo inferior a inferior a $1.413.000 4. Observe que: “El 60, 8 % (obtenido de 70 % - 9, 2 %)de los ejecutivos de la empresa tienen un sueldo entre $1.025.000 y $1.607.000 CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 2.3.6. Gráfico, Ojiva porcentual La ojiva porcentual es un gráfico que se construye uniendo los puntos (831; 4,2), (1025; 9,2), (1219; 18,3), (1413; 38,3), (1607;70), (1801; 89,2), (1995; 96,7), (2189; 100) y queda asi: 2.3.7. Cálculo de percentiles Aprovechando el gráfico de la ojiva porcentual creemos oportuno introducir el concepto de percentil y sus derivados, aprovechamos, a la vez, de realizar algunos cálculos de ellos. Definición 2.4 Dado un conjunto de datos perteneciente a una población y suponiendo ordenada de menor a mayor, se define el percentil(k), y se denota por Pk a aquel valor que deja a su izquierda el k % de los datos y a su derecha (100-k) % Ejemplo 2.8 Una vez ordenado los datos, P30 es el valor que deja a su izquierda el 30 % de los datos y a su derecha el 70 %. Resuelva el siguiente ejercicio 1. Encuentre P70 de los datos correspondientes a los sueldos de los 120 ejecutivos de la empresa X (con solo observar la ojiva porcentual) CAPÍTULO 2. DISTRIBUCIÓN DE LA INFORMACIÓN Y TIPOS DE DATOS 2. Encuentre P80 y P50 de los datos correspondientes a los sueldos de los 120 ejecutivos de la empresa X, utilizando la siguiente fórmula: Pk = liminf + k n 100 − Fa− a f donde a) liminf : corresponde al extremo izquierdo del intervalo donde se encuentra el percentil buscado Pk b) Fa− : corresponde a la frecuencia acumulada hasta antes del intervalo donde se encuentra el percentil buscado Pk c) f: corresponde a la frecuencia del intervalo donde se encuentra el percentil buscado Pk d ) a: representa la amplitud del intervalo donde se encuentra el percentil buscado Pk Observación 2.6 ¿Cómo saber en que intervalo se encuentra Pk ? Primero se calcula la siguiente expresión k n 100 como resultado nos dará un número que debemos ir comparándolo con la columna de la frecuencia acumulada y con el primer valor que supere al número nos detenemos en dicho valor y observamos en que intervalo se encuentra el que nos dará precisamente el intervalo que andamos buscando. Ası́ por ejemplo ¿ Dónde se encuentra el percentil P40 ?. Primero calculamos: 40 120 = 48 100 Recorriendo la columna de frecuencia acumulada vemos que el primer valor que supera al número 48 es 84 el que se encuentra precisamente en el intervalo 1413 − 1607. Capı́tulo 3 Estudio de Parámetros de una Población En estadı́stica es común usar los términos población y muestra. Estos términos son un centro de atención en la estadı́stica, asi que los pasamos a precisar en la siguiente definición. Definición 3.1 Una población es la colección completa de todos los elementos (puntajes, personas, mediciones, etc.)que se van a estudiar Un Censo es la colección de datos de cada elemento de la población. Una muestra es una porción, o parte de una población. El estudio de una muestra de la población para proyectar resultados confiables a toda ella, como hemos visto, corresponde a la estadı́stica inferencial. Intimamente relacionado con los conceptos de población y muestra está el de parámetro Definición 3.2 Un parámetro es una medición numérica que describe alguna caracterı́stica de una población Observación 3.1 Cuando la medición numérica describe alguna caracterı́stica de una muestra de la población el parámetro toma el nombre de estadı́stico Consideremos algunos ejemplos. Ejemplo 3.1 1. Una encuesta aplicada a 348 dueñas de casa, en la ciudad de La Serena, arrojó que 75 (21,55 %) de ellas tienen mas de dos hijos. Dado que la cifra 21,55 % se basa en una muestra(no en toda la población) es un estadı́stico(no un parámetro) CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 2. Una encuesta aplicada a los 120 diputados de Chile muestra que 75 (62,5 %) de ellos superan los 65 años de edad. La cifra 62,5 % serı́a un parámetro porque se basa en la población de todos los diputados. 3. Una encuesta aplicada a los 258 funcionarios de la empresa XYZ arrojó que el sueldo promedio imponible era de $458.650. La cifra promedio serı́a entonces también un parámetro. 4. Una encuesta aplicada a la cadena de empresas ABC entregó la siguiente información: ”De los 53.576 accidentes ocurridos durante el año 2005; 86 resultaron fatales”. Si definimos un indicador que mida la gravedad de los accidentes podrı́amos pensar en la expresión: IL = N◦ de Fallecidos × 100000 Total de Accidentes En tal caso tenemos que: IL = Observación 3.2 86 × 100000 = 162, 39 53.576 1. El ı́ndice IL: Se conoce como ı́ndice de letalidad y es un parámetro ya que se calcula sobre el total de accidentados y por otra parte nos indica el número de accidentes fatales por cada 100000 accidentados. En nuestro caso la cadena de empresas ABC registra 162 accidentes fatales por cada 100000 accidentados. El ı́ndice de letalidad es muy útil cuando se quiere conocer globalmente la gravedad (letalidad) que tienen los accidentes en una determinada área. 86 por el factor 1000, por 10000, o por 2. Podrı́amos haber multiplicado la proporción 53.576 1000000 etc. y la interpretación seria fácilmente adaptable. Para fines comparativos con el comportamiento de otras empresas es conveniente establecer acuerdos, para definir el factor a utilizar. 3.1. Medidas de tendencia central:promedio Las medidas de tendencia central pueden describirse rı́gidamente como “promedios” en el sentido de que son indicativas del “centro o alrededor del centro”. En realidad uno de los parámetros, con esta caracterı́stica, que goza de mayor popularidad en la estadı́stica es la media o Promedio CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Definición 3.3 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio de los n datos, y se denota por X, como X= P xi n Observación: El promedio tiende a ubicarse alrededor del centro de los datos por lo que se le conoce como una medida de tendencia central Ejemplo 3.2 Considere el siguiente conjunto de datos x1 = 2, x2 = 6, x3 = 4, x4 = 2, x5 = 2, x6 = 3, x7 = 4, x8 = 3, x9 = 2, x10 = 4 entonces X= P xi x1 + x2 + x3 + ... + x10 2 + 6 + 4 + ... + 4 32 = = = = 3, 2 n 10 10 10 Observación 3.3 En ejemplo anterior se puede observar que realmente hay cuatro datos que son el 2,3,4 y 6: ocurre que el 2 se repite 4 veces, el 3 se repite 2 veces, el 4 se repite 3 veces y por último el 6 aparece solo una vez. Podriamos mostar mejor esta observación disponiendo los datos en una tabla de frecuencia como se ilustra a continuación: Tabla de frecuencia para cálculo del promedio P x f fx 2 4 8 3 2 6 4 3 12 6 1 6 10 32 Si sumamos los datos de la columna encabezada por fx nos da 32 Si sumamos los datos de la columna encabezada por f nos da 10 Ahora si realizamos el cuociente 32 10 = 3, 2 nos da el promedio ya conocido, situación que podemos formalizar mediante la siguiente fórmula: P fx 32 X= P = = 3, 2 f 10 CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Esta fórmula se conoce como Promedio para datos tabulados Existe un concepto que generaliza al del promedio que se conoce como promedio ponderado y en ocasiones es muy útil recurrir a él para realizar cálculos mas realistas. Definición 3.4 Sean x1 , x2 , x3 , ..., xn n datos reales, se define el promedio ponderado de los n datos, y se denota por Xp , como Xp = donde P pi = 1 X xi ∗ pi Ejemplo Un estudiante tiene las siguientes cuatro calificaciones en la asignatura de Estadı́stica 63, 39, 40 y un 50 en la escala de 1 a 100 y la nota de aprobación es un 50. La importancia de los tópicos contemplado en cada prueba son distintos y el profesor, conciente de esto, tiene la duda en elegir entre tres alternativas de ponderación que se ilustran en la siguiente tabla: Tres alternativas de ponderación para cuatro notas en la asignatura de Estadı́stica - Alternativa1 Alternativa2 Alternativa3 Nota1 0, 25 0, 2 0, 3 Nota2 0, 25 0, 3 0, 2 Nota3 0, 25 0, 2 0, 2 Nota4 P 0, 25 0, 3 0, 3 1 1 1 Observe que la Alternativa1 corresponde al promedio normal en que cada nota tiene el mismo peso o ponderación y el alumno estarı́a reprobando la asignatura con nota 48 como se ilustra: X xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 25 + 39 ∗ 0, 25 + 40 ∗ 0, 25 + 50 ∗ 0, 25 = 48 Bajo la Alternativa2 el estudiante también reprueba la asignatura con nota 47 y la pon- deración dada le perjudica en relación a la alternativa1 (Promedio normal). X xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 2 + 39 ∗ 0, 3 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 47 y por último bajo la alternativa3 el estudiante estarı́a aprobando la asignatura con nota 50, ponderación que obviamente le favorecerı́a X xi ∗ pi = x1 ∗ p1 + x2 ∗ p2 + x3 ∗ p3 + x4 ∗ p4 = 63 ∗ 0, 3 + 39 ∗ 0, 2 + 40 ∗ 0, 2 + 50 ∗ 0, 3 = 50 CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Estrechamente relacionado con el promedio está el importante parámetro que se denomina desviación estándar. Aunque no es una medida de tendencia central lo veremos a continuación en un modo superficial dado el grado de acercamiento mencionado, sin embargo lo veremos con mucho detalle cuando abordemos, mas adelante, las medidas de variabilidad. Tenemos, por obligación, que pasar previamente por el concepto de varianza para comprender el de desviación estándar. Definición 3.5 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Varianza de los datos, y se denota por S 2 , como: P (xi − X)2 S = n 2 Definición 3.6 Sean x1 , x2 , x3 , ..., xn n datos reales. Se define la Desviación estándar de los datos como la raiz cuadrada de la varianza, y se denota por S: ası́ s P √ (xi − X)2 2 S= S = n 3.1.1. Propiedades del promedio y la varianza Dado el acercamiento entre promedio y varianza mostraremos a continuación algunas propiedades que los relacionan. 2 1. SX = X2 − X 2 con X 2 = x2i n P 2. x1 = k, x2 = k, x3 = k, ..., xn = k, k ∈ ℜ entonces 2 X = k y SX =0 3. Si yi = axi + b, a ∈ ℜ, b ∈ ℜ entonces: Y = aX + b y 2 SY2 = a2 SX Demostración: CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 1. S 2 = = = = = = = P (xi − X)2 n 1X (xi − X)2 n 1X 2 2 (xi − 2xi X + X ) n X 2 i 1 hX 2 X xi − 2xi X + X ) n P 2 P 2 xi xi nX − 2X + n n Pn 2 xi 2 2 − 2X + X Pn 2 xi 2 −X n definiendo X2 se tiene la propiedad señalada = x2i n P S2 = X 2 − X 2. X = 1 n P xi = 1 n por otra parte: P 2 X 2 = n1 xi = 2 P 1 n 2 k = n1 nk = k P k 2 = n1 nk 2 = k 2 S 2 = X 2 − X = k2 − k2 = 0 3. 2 S2 = Y 2 − Y 1X 2 = yi − (aX + b)2 n 1X = (axi + b)2 − (aX + b)2 n 1X 2 2 = (a xi + 2abxi + b2 ) − (aX + b)2 nP P x2i xi nb2 2 = a + 2ab + − (aX + b)2 n n n 2 2 2 2 2 = a X + 2abX + b − (a X + 2abX + b2 ) = a2 X 2 − a2 X 2 = a2 SX 2 CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN En el siguiente ejemplo ocuparemos esta importante propiedad para calcular la desviación estándar y aprovecharemos también de calcular este parámetro tabulando la información Ejemplo 3.3 Considerando los datos del ejemplo 3.2 en la página 21 podemos calcular la desviación estándar sabiendo que 2 X = 3, 2 y entonces X = 10, 24 por otra parte: X2 = 1 x2i = (22 + 62 + 42 + 22 + 22 + 32 + 42 + 32 + 22 + 42 ) = 11, 8 10 10 P de esta manera 2 S 2 = X 2 − X = 11, 8 − 10, 24 = 1, 56 Por lo que la desviación estándar queda como: q p 2 S = X 2 − X = 1, 56 ≈ 1, 25 Aprovecharemos ahora el hecho de que muchos datos se repiten para calcular la desviación estándar recurriendo a una tabla de frecuencia: Observe que: Tabla de frecuencia para cálculo de la desviación estándar P 2 S = X2 x f fx x2 f x2 2 4 8 4 16 3 2 6 9 18 4 3 12 16 48 6 1 6 36 36 - 10 32 - 118 P 2 P 2 2 fx fx 118 32 −X = P − P = − = 11, 8 − 3, 22 = 11, 8 − 10, 24 = 1, 56 f f 10 10 2 por lo que S= p 1, 56 ≈ 1, 25 CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Vamos a continuar con el estudio de otros parámetros, pero para seguir un orden vamos a seguir con parámetros que tienen una caracterı́stica común y en particular aquellos conocidos como de tendencia central como lo es el promedio (o media). Cabe hacer notar que la desviación estándar no es una medida de tendencia central pero como tiene una gran relación con el promedio se aprovechó la oportunidad para mostarlo, sin embargo, se volverá a retomar esta medidad para estudiarla con mayor profundidad mas adelante por la importancia que ella tiene. 3.2. Medidas de tendencia central: mediana y otras cuantiles Asi como el promedio tiende a ubicarse alrededor del centro de la información también existe otro parámetro que tiene esta misma caracterı́stica y se llama mediana que pasamos a definir. Definición 3.7 La mediana de un conjunto de datos es aquel valor (no necesariamente pertenece al conjunto de los datos) que una vez ordenada la información se ubica de tal manera que deja a su izquierda el 50 % de los datos y el otro 50 % a su derecha Esta definición adolece de algunas debilidades y precisamente se presenta en el caso discreto, que ha sido nuestro principal foco de atención, por lo que la reforzaremos con algunos ejemplos para dicipar ambigüedades. Antes de ejemplificar tomaremos en cuenta el siguiente consejo, teniendo presente que previamente se han ordenado los datos (ya sea de menor a mayor o viceversa) Çuando el número de datos es impar (n impar), la mediana, es el valor del dato que está en la mitad Çuando el número de datos es par (n par), la mediana, es el valor que toma el promedio de los dos datos centrales Ejemplo 3.4 El número de accidentes, de la empresa Royal & Anderson, en los primeros 5 meses del año 2005 fueron respectivamente: 12,8,15,9,12. La mediana no es 15, ya que previamente se debe ordenar la muestra (de menor → a mayor o CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN de mayor → a menor). Si se considera como criterio ordenarlo de menor a mayor se tiene: 8 9 12 12 15 y se puede apreciar que la mediana es 12. Observe que en este ejemplo hay dos datos 12, pero como la mediana es un valor y no un dato, hay que tomar al 12 como un valor que toma la mediana Ejemplo 3.5 Si la información, dada en ejemplo anterior, es mas completa y se obtiene el número total de accidentes por mes, del año 2005, de la empresa Royal & Anderson, la que se ilustra en la siguiente tyabla Distribución del número de accidentes de la empresa Royal & Anderson, durante el año 2005 Ene Feb Mar 12 8 15 Abr May 9 12 Jun Jul 16 10 Ago Sep 9 7 Oct 8 Nov Dic 15 17 que al ordenar la información se tiene: 7 8 8 9 9 10 12 12 15 15 16 17 donde se observa que 10 y 12 son los datos centrales y asi le mediana serı́a Mediana = 10 + 12 = 11 2 La mediana no es sino uno de los muchos cuantiles diferentes que dividen un conjunto de datos en dos o mas partes iguales. También de importancia en la estadı́stica son los cuartiles, quintiles y percentiles, pero como estos últimos se utilizan principalmente con respecto a grandes masas de datos, los analizaremos en detalle en el próximo capı́tulo. Por tanto, mostraremos aqui los tres cuartiles Q1 , Q2 , y Q3 . Para comprender mejor el concepto ordenamos la información ( de menor → a mayor) e imaginemos que se disponen en la siguiente recta Observación 3.4 Considerando la ilustración anterior se tiene que: 1. El primer cuartil Q1 deja a su izquierda el 25 % de los datos y a su derecha el 75 %. 2. El segundo cuartil Q2 coincide con la mediana y deja a ambos lados el 50 % de los datos CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 3. El tercer cuartil Q3 deja a su izquierda el 75 % de los datos y a su derecha el 25 % Ejemplo 3.6 Los que siguen son los números de minutos que una persona, en su camino al trabajo, tuvo que esperar el bus en 14 dı́as de trabajo. 10, 2, 17, 6, 8, 3, 10, 2, 9, 5, 9 13, 1 y 10 Para encontrar los valores de Q1 , Q2 y Q3 debemos de ordenar los datos quedando asi: 1, 2, 2, 3, 5, 6, 8, 9, 9, 10, 10 10, 13 17 y se tiene que: Mediana = Q2 = 3.3. 8+9 = 8, 5 Q1 = 3 y Q3 = 10 2 Medidas de tendencia central: moda La moda es otra medida de tendencia central que a veces se utiliza para describir la “mitad” de un conjunto de datos. Se define de la manera siguiente: Definición 3.8 La moda es el valor que aparec con la mas alta frecuencia En este sentido es el “mas común”de un conjunto de datos; sus dos ventajas principales son que no requieren cálculos y que se puede determinar para datos cualitativos y cuantitativos. Por otra parte al igual que la mediana, la moda no se encuentra afectada por los valores extremos Ejemplo 3.7 Las temperatura, en grados celsius, durante las dos primeras semanas del mes de marzo del 2006 en la ciudad de La Serena fueron: 25◦ , 28◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 26◦ , 27◦ , 25◦ , 27◦ , 22◦ , 27◦ y 27◦ Claramente la medición de mas alta frecuencia (se repite seis veces) es 27◦ y por lo tanto corresponde a la moda. Observación 3.5 No deja de ser importante la frecuencia presentada por la medición 25◦ que se repite 4 veces como agregando una nueva moda en un segundo lugar de preferencia. En el vaso de variables continuas no es extraño encontrar comportamiento bimodal (dos modas). CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Ejemplo 3.8 Cuando se les pidió mencionaran al mejor equipo del futbol Chileno, 20 periodistas deportivos nombraron a los siguientes clubes: Dep. La Serena, U. de Chile, Colo Colo, Dep. La Serena, U. Católica, Dep. La Serena, U. de Chile, U. Católica, Dep. La Serena, Huachipato, Colo Colo, Dep. La Serena, Colo Colo, Colo Colo, U. Católica, U. de Chile, U. de Chile, Dep. La Serena, Dep. La Serena, Colo Colo. Dado que Cobrelos se repite con mayor frecuencia, 7 veces, entonces Cobreloa corresponde a la moda. Observación 3.6 La información dada por los 20 periodista del ejemplo anterior puede presentarse en una tabla de distribución como sigue: Clubes frecuencia U. de Chile 4 U. Católica 3 Dep. La Serena 7 Colo Colo 5 Huachipato 1 20 3.4. Medidas de variabilidad: desviación estándar Una caracterı́stica importante de casi todos los tipos de datos es que los valores no son todos iguales, y el grado al cual sean desiguales o varı́en entre ellos mismos es de importancia básica en la estadı́stica. Una de las medidas mas populares e importante que miden variabilidad es la desviación estándar, ya definida con anterioridad y lo que aprendimos solo fue calcularla sin tener una clara interpretación de ella. Para conocer mejor la desviación estándar, observe que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en forma cerrada junto a us media, y que es grande si los valores se dispersan ampliamente en torno a su media. Para comprender mejor lo anterior consideremos la siguiente tabla, donde se consideran las calificaciones de 4 alumnos en una determinada asignatura y donde cada uno tiene 4 evaluaciones. Para simplificar la interpretación de la CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Alumnos A1 A2 A3 A4 nota1 50 60 90 100 nota2 50 40 10 0 nota3 50 40 80 100 nota4 P 50 60 20 0 200 200 200 200 desviación estándar hemos considerado que el promedio de los 4 alumnos es de 50 (verifı́quelo) Si calculamos la desviación estándar de las calificaciones de los 4 alumnos, y las denotamos por SA1 , SA2 , SA3 , SA4 tenemos que: 2 X A1 = 502 = 2500 y 2 X A1 = 502 + 502 + 502 + 502 = 2500 4 asi se tiene que la desviación estándar para las calificaciones del alumnoA1 está dada por: q 2 2 SA1 = XA1 − X A1 = 0 Como era de esperar, al coincidir las cuatro calificaciones del alumno A1, las desviaciones de cada una de ellas respecto al promedio es nula y es la razón por la cual la desviación estándar es cero, podemos asegurar en este caso entonces que el promedio es un muy buen representante de las 4 calificaciones por estar muy cerca de cada una de ellas. Por otra parte, se tiene que: 2 XA2 602 + 402 + 402 + 602 10400 = = = 2600 4 4 por lo que la desviación estándar de las calificaciones del alumno A2 es: q √ √ 2 2 SA2 = XA2 − X A2 = 2600 − 2500 = 100 = 10 Ahora 2 XA3 902 + 102 + 802 + 202 15000 = = = 3750 4 4 por lo que la desviación estándar de las calificaciones del alumno A3 es: q √ √ 2 2 SA3 = XA3 − X A3 = 3750 − 2500 = 1250 ≈ 34,35 y por último 2 XA4 = 1002 + 02 + 1002 + 02 20000 = = 5000 4 4 CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN asi la desviación estándar de las calificaciones del alumno A4 es: q √ √ 2 2 SA4 = XA4 − X A4 = 5000 − 2500 = 2500 = 50 En resumen podemos apreciar que en la medida en que las calificaciones de los alumnos se alejan mas del promedio la desviación estándar aumenta y en consecuencia el promedio pierde representatividad del conjunto de notas. Observación 3.7 Lo anterior se resume en: 1. Mientras mas se alejan los datos del promedio mas aumenta la desviación estándar 2. Mientras mas aumenta la desviación estándar menos representativo es el promedio del conjunto de datos Para tener una una noción mas exacta de lo que mide en realidad una desviación estándar, dedicaremos esta sección a algunas aplicaciones. En el argumento que nos llevó a la definición de la desviación estándar, se observó que la dispersión de un conjunto de datos es pequeña si los valores se agrupan en torno al promedio y que es grande si los se dispersan ampliamente en torno al promedio. En forma correspondiente, ahora podemos decir que si la desviación estándar de un conjunto de datos es pequeña, los valores se concentran en la proximidad del promedio y si es grande los valores se dispersan ampliamente en torno al promedio. Esta idea es expresada de manera formal por el siguiente teorema, llamado teorema de Chebyshev en honor al matemático ruso P. L. Chevyshev (1821 - 1894) Teorema 3.1 teorema de Chebyshev Para un conjunto de datos cualquiera y una constante k cualquiera pero mayor que uno, cuando menos 1− k12 de los datos están dentro de k desviaciones estándar en uno u otro lado del promedio Observación 3.8 Aplicaremos el teorema de Chevyshev para el caso en que k = 2 y k = 3 1. si k=2 se tiene que: 1− 1 1 1 3 = 1 − 2 = 1 − = = 0,75 2 x 2 4 4 La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 75 %, de los datos se encuentran dentro de dos desviaciones estándar en torno al promedio, es decir se encuentran en el intervalo [X − 2S X + 2S] CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 2. si k = 3 se tiene que: 1− 1 1 8 1 = 1 − 2 = 1 − = ≈ 0,89 2 x 3 9 9 La interpretación es la siguiente: “Podemos estar seguro de que aproximadamente el 89 %, de los datos se encuentran dentro de tres desviaciones estándar en torno al promedio, es decir se encuentran en el intervalo [X − 3S X + 3S] Observación 3.9 El teorema de chevyshev es válido para cualquier conjunto de datos, pero si los datos tienden a distribuirse en forma simétrica alrededor del promedio, entonces la distribución de los porcentajes de dichos datos considerando una, dos y tres desviaciones estándar quedan como muestra el siguiente gráfico: 3.5. Estandarización y coeficiente de variación Comenzaremos esta sección con un ilustrativo ejemplo que nos reforzará la importancia que tienen los parámetros: Promedio y desviación estándar para luego presentar la estandarización y finalizar con el coeficiente de variación. Ejemplo 3.9 Supongamos que un estudiante es sometido a tres axámenes, en tres asignaturas diferentes, y obtiene las siguientes calificaciones. Notas(x) Inglés Matemática Psicologı́a 80 65 75 Aparentemente podrı́a parecer que la mejor calificación del estudiante es la de inglés y la más CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN pobre la de matemáticas. Sin embrago, serı́a póco inteligente apresurarse a tal conclusión, pués existen varias razones por la que las calificaciones puras pueden no ser comparables. Por ejemplo, puede que el examen de inglés haya sido muy fácil, con abundancia de calificaciones abultadas, mientras que el de matemática resultó demasiado difı́cil. O bien, que el examen de inglés se ha calificado sobre un total de 100 puntos y el de matemática sobre 80 puntos etc. Las calificaciones en sı́ suministran información sobre el número absoluto de puntos obtenidos, pero ninguna indicación acerca de la bondad del rendimiento en comparación con el de los demás. Supongamos que ahora se nos agrega una nueva información y nos dan el promedio de las calificaciones de cada asignatura las que se reflejan en la siguiente tabla: Inglés Matemática Psicologı́a Notas(x) 80 65 75 Promedio 85 55 60 Esta información adicional cambia considerablemente el panorama. Si observamos los promedios, podemos ver que las calificaciones en inglés fueron muy elevadas, pues los 80 puntos son inferiores a la media. Es decir, el resultado mas pobre del estudiante es precisamente en inglés. Un observador poco reflexivo podrı́a ahora deducir que la mejor calificación del estudiante es ls de psicologı́a, puesto que está 15 puntos por encima del promedio, mientras que en matemática sólo la ha superado en 10 puntos. Ahora se nos agrega una nueva información que tiene que ver con la desviación estándar, la que se exhibe en la siguiente tabla: Graficaremos la situación del alumno considerando la asignatura Inglés Matemática Psicologı́a Notas(x) 80 65 75 Promedio 85 55 60 Desviación estándar 10 5 15 de matemática y sociologı́a para confrontarlo y para ello vamos a anlizar toda la información, es decir, consideraremos la nota, el promedio y la desviación estándar: CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN La desviación estándar muestra que la dispersión de los datos en las notas de psicologı́a fue de 15 puntos por lo que la calificación 75 se encuentra a una distancia de una desviación estándar respecto al promedio y se puede deducir que aproximadamente existe un 16 % de alumnos sobre dicha nota. Por otra parte la desviación estándar de las notas de matemática es de 5 y la calificación 65 se encuentra a dos desviaciones estándar respecto al promedio por lo que sobre ella sólo hay aproximadamente un 2,5 %, lo que habla de que debe ser una de las mejores notas del curso. Podemos resumir enfatizando la importancia que tiene hacer un análisis considerando el comportamiento del promedio y la desviación estándar. Hemos cambiado radicalmente de opinión al conocer los parámetros mencionados y la asignatura de matemática pasó a ser la mejor calificación del alumno y la de inglés la peor y antes de este conocimiento la opinión era todo lo contrario. CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 3.5.1. Estandarización Hemos aprendido que las calificaciones, por si sola, no son comparables y todo pasa por considerar el comportamiento del promedio y la desviación estándar. Una forma de establecer un mecanismo que permita la comparación directa de las calificaciones, pasa por el concepto de estandarización, que consiste en convertir las calificaciones originales en unas nuevas con la importante propiedad de que éstas tienen promedio igual a cero y desviación estándar igual a uno. Al estandarizar todas las calificaciones de cada asignatura entonces quedan en iguales condiciones (igual promedio e igual desviación estándar) para ser comparadas. Definición 3.9 Estandarizar el siguiente conjunto de datos reales x1 , x2 , x3 , ..., xn , consiste en generar nuevos números reales z1 , z2 , z3 , ..., zn donde: zi = donde X y S xi − X S es el promedio y la desviación estándar, de los datos x1 , x2 , x3 , ..., xn , respectivamente. Ejemplo 3.10 Considerando el ejemplo de las calificaciones del estudiante en las asignaturas de inglés, matemática y psicologı́a y procediendo a la estandarización de cada una de sus notas se tiene lo siguiente: . Inglés Matemática Psicologı́a Notas(x) 80 65 75 Promedio 85 55 60 Desviación estándar 10 5 15 Nota estandarizada z 80−85 10 = −0,5 65−55 5 =2 75−60 15 =1 Ahora se pueden comparar los datos estandarizados(z) y observamos que la mejor es matemática(z = 2) luego psicologı́a(z = 1) y último inglés(z = −0,5) 3.5.2. Coeficiente de variación El coeficiente de variación es una medición relativa de variación: Se expresa como un porcentaje antes que en términos de las unidades de los datos particulares. CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN El coeficiente de variación mide la dispersión en los datos relativo al promedio y se define de la siguiente manera: Definición 3.10 El coeficiente de variación se denota por CV , y se define como: CV = S 100 % X Como una medución relativa, el coeficiente de variación es particularmente útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición. Ejemplo 3.11 Durante los meses pasados, un corredor promedió 12 km. por semana con una desviación estándar de 2 km., mientras que otro corredor promedió 25 km. por semana con una desviación estándar de 3 km.¿Cuál de los dos corredores es relativamente mas consistente en sus hábitos de correr todas las semanas? Solución Sea CV1 y CV2 los coeficientes de variación del primer y segundo corredor rspectivamente, entonces: CV1 = 3 2 100 % = 16, 7 % y CV2 = 100 % = 12 % 12 25 Por lo tanto el segundo corredor es relativamente mas consistente en sus hábitos de correr todas las semanas 3.6. Introducción a los números ı́ndices En esta sección se examinará, a nivel introductorio, un medio estadı́stico muy útil denominado ı́ndice. Muchos ı́ndices, tales como el indice de precios al consumidor, el de una bolsa de valores y uno de indicadores económicos avanzados, compilados y publicados por gobiernos reciben considerable atención en los noticiarios de televisión y en las primeras planas de periódicos. Todos los paı́ses están preocupados por la variación de ciertos ı́ndices y la consideración de ellos son determinantes, de una u otra manera, en tomas de decisiones. Definición 3.11 Un número ı́ndice es una relación en porcentaje que mide el cambio de un tiempo a otro en precio, cantidad, valor o algún otro elemento de interés CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN Observación 3.10 Ası́ como el promedio o cualquier otro promedio resume un conjunto de valores, un número ı́ndice se utiliza para determinar la variación en porcentaje (o en 1000, 10000, 100000 ó 1000000 etc.) en una sola cifra, del precio, valor o cantidad de un conjunto de datos estadı́sticos de un perı́odo a otro. . Es importante destacar que existe una gran variedad de ı́ndices y muchos de ellos obedecen a una estructura general y otros tienen un tratado especial. En estos apuntes veremos una forma muy elemental, de este concepto, y que obedecen a una patrón de comportamiento y luego veremos algunos ı́ndices especiales que están ya estandarizados y normados por el Sernageomin basados en estándares internacionales. Ejemplo 3.12 Suponga que el precio de un artı́culo cualquiera entre 1990 1995 fue como sigue: . Año Precio 1990 400 1991 600 1992 550 1993 275 1994 350 1995 700 Para el cálculo de un ı́ndice se debe considerar un perı́odo base para fines comparativos. En el caso del ejemplo consideraremos, como perı́odo base, el año 1990 y luego procederemos a calcular el ı́ndice de variación de los años siguientes y finalemente estableceremos la comparaciones e interpretación. precio 1990 400 × 100 = × 100 = 100 precio 1990 400 precio 1991 600 I91 = × 100 = × 100 = 150 precio 1990 400 precio 1995 550 I92 = × 100 = × 100 = 137,5 precio 1990 400 precio 1993 275 I93 = × 100 = × 100 = 68,75 precio 1990 400 precio 1994 350 I94 = × 100 = × 100 = 87,5 precio 1990 400 I90 = CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 700 precio 1995 × 100 = × 100 = 175 precio 1990 400 Podemos resumir los cálculos hechos en una tabla como sigue: . I95 = Año Precio Indice 1990 400 100 1991 600 150 1992 550 137.5 1993 275 68.8 1994 350 87.5 1995 700 175 Observación 3.11 Podemos realizar la siguientes interpretaciones de los ı́ndices calculados en el ejemplo: Ası́ para el perı́odo 1991 el ı́ndice 150 significa que el precio del artı́culo en estudio, en este perı́odo, es el 50 % mayor que en el perı́odo 1990. El ı́ndice de precios para 1992 de 137.5 indica que el precio, en este perı́odo, es de 37.5 % mas alto que en el perı́odo 1990. Para los perı́odos 1993 y 1994 los ı́ndices son respectivamente 68.8 y 87.5 quiere decir que el precio del año 1993 fue el 31.2 % menor que el perı́odo base (1990) y que en el perı́odo 1994 fue el 12.5 % menor que en 1990. Cuando se calcula un número ı́ndice la base puede permanecer fija, como en el caso del ejemplo, en éste, el precio de cada perı́odo de la serie se comparó con el precio del perı́odo 1990 (base fija).Otra forma de calcular los ı́ndices consiste en variar la base de un perı́odo a otro, cuando este es el caso, se dice que los ı́ndices se calcularon con base variable. Lo que hemos visto sobre, números ı́ndices, ha sido a nivel introductorio sin profundizar en otras forma de generar indicadores. Nos proponemos ahora analizar, en particular, algunos ı́ndices que han sido estandarizados y reconocidos por Sernageomin para establecer comparaciones con estándares tanto nacionales como internacionales. 3.6.1. Indices de frecuencia y gravedad en prevención de riesgo Indice de frecuencia Definición 3.12 LLamamos ı́ndice de frecuencia al número de accidentes con tiempo perdido por millón de horas hombres de exposición al riesgo, entendiendo por CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN 1. Accidente con tiempo perdido Aquella lesión que hace perder al trabajador mas de una jornada de trabajo y los fatales. 2. Horas hombre de exposición al riesgo Es el número total de hombres trabajando multiplicado por el número total de horas en trabajo de todo el personal en el perı́odo considerado. 3. Factor 1000000 Es una constante para facilitar los cálculos. Podemos resumir lo anterior en la siguiente fórmula: IF = N◦ accidentes con tiempo perdido × 1000000 Total horas hombres donde IF es el ı́ndice de frecuencia Observación 3.12 En el análisis de este ı́ndice se debe dejar constancia que el cálculo de las horas hombres debe ser lo mas exacto posible y regirse por las normas emanadas por el Sernageomin. Ejemplo 3.13 En una faena minera laboran 1000 trabajadores en jornadas de trabajo de 5 × 2 con 9 horas de trabajo diario. En un mes ocurrieron 150 accidentes que se descomponen como sigue: Tipo de accidentes frecuencia (f) con incapacidad laboral 1 con incapacidad parcial temporal 56 con incapacidad permanente parcial 9 sin tiempo perdido P 84 150 Se pide calcular el ı́ndice de frecuencia Solución Cada trabajador está expuesto al riesgo 9 horas diarias y dado que labora en turnos de 5 × 2, entonces hay 2 dı́as a la semana que descansa pr lo tanto en el mes no trabaja 8 dı́as, lo que CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN se desprende que durante el mes trabaja 22dı́as. Por lo anterior podrı́amos asegurar que el número total de horas expuestas al riesgo por trabajador es de: N◦ horas expuestas al riesgo por trabajador = 9 × 22 = 198 horas Ahora si consideramos los 1000 trabajadores se tiene que: N◦ total de horas expuestas al riesgo = 1000 × 198 = 198000 horas Por otra parte el número total de accidentes con tiempo perdido es de 66. De esta manera el ı́ndice de frecuencia es de: IF = 66 × 1000000 = 333,33 ≈ 333 198000 Significa que por cada millón de horas hombres con exposición al riesgo, ocurrirán 333 accidentes con tiempo perdido. Indice de gravedad La importancia del ı́ndice de gravedad radica no solo en las consecuencias de las lesiones, sino en el tiempo perdido y el mayor o menor costo que éstas acarrean. La forma mas práctica de obtener el ı́ndice de gravedad es relacionar los dı́as perdidos debido a accidentes, con el número total de horas hombres expuestas al riesgo. Definición 3.13 El ı́ndice de gravedad es la relación que existe entre el total de dı́as perdidos debido a los accidentes del trabajo y el total de horas hombres de exposición al riesgo, multiplicado por 1000000. Si llamamos IG al ı́ndice de gravedad se tiene que: IG = N◦ de dı́as perdidos × 1000000 Total horas hombres Ejemplo 3.14 En una industria de 1500 trabajadores con jornada completa, se produjeron en un mes 50 accidentes distribuidos como se muestra en la siguiente tabla: CAPÍTULO 3. ESTUDIO DE PARÁMETROS DE UNA POBLACIÓN N◦ de accidentes incapacidad dı́as perdidos 43 parcial temporal 500 6 permanente parcial 500 1 permanente total 6000 50 - 7000 P Se pide calcular el ı́ndice de gravedad Solución Cada trabajador trabaja a tiempo completo y en la semana debe cumplir con 45 horas por lo que el número de horas mensuales expuesto al riesgo es de: N◦ horas expuestas al riesgo por trabajador = 45 × 4 = 180 horas asi el total de horas hombres expuestas al riesgo es de N◦ total de horas expuestas al riesgo = 180 × 1500 = 270000 horas se tiene entonces que el ı́ndice de gravedad es de: IG = 7000 × 1000000 = 25925, 925 ≈ 25926 270000 Significa que por cada millón de horas hombres expuestas al riesgo se pierden 25926 dı́as de trabajo. Capı́tulo 4 Estadı́stica descriptiva bivariada Cuando los datos de una determinada población están relacionados con dos variables es muy útil recurrir a una tabla de doble entrada para distribuir en ella todos los datos que cumplan obviamente con los dos criterios definidos por las variables mencionadas. En general, una tabla de doble entrada tiene la siguiente forma. Tabla de doble entrada Y y1 y2 · · · yj ··· yn P X x1 f11 f12 ··· f1j ··· f1n f1• x2 .. . f21 .. . f22 .. . ··· .. . f2j .. . ··· .. . f2n .. . f2• .. . xi .. . fi1 .. . fi2 .. . ··· .. . fij .. . ··· .. . fin .. . fi• .. . xm P fm1 fm2 ··· fmi ··· fmn fm• f•1 f•2 ··· f•i ··· f•n f•• donde fij representa el número de observaciones (frecuencia) que cumplen la condición de pertenecer a la clase xi y también a la clase yj fi• = n X fij = fi1 + fi2 = · · · + fin m X fij = f1j + f2j + · · · + fmj j=1 f•j = i=1 CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA f•• = m X n X f ij = i=1 j=1 m X fi• + i=1 n X f•j j=1 Recurriremos a un ejemplo para interpretar los valores que se encuentran en las celdas de una tabla de doble entrada. Aprovecharemos, al mismo tiempo, de definir conceptos como: Distribuciones marginales, distribuciones condicionales y covarianza: Ejemplo 4.1 Considere la siguiente tabla de doble entrada que muestra a trabajadores de la empresa W distribuidos según sus edades y años de experiencia. Distribución de trabajadores de acuerdo a su edad (X) y años de experiencia(Y). Años Exp. Y 0-5 5 - 10 10 - 15 15 - 20 20 - 25 Edad X 20 − 25 1 25 − 30 2 4 30 − 35 5 10 15 35 − 40 1 20 30 6 5 40 − 45 10 15 Responderemos las siguientes preguntas como una manera de ilustrar diferente definiciones como también apreciar las bondades que tiene una tabla de doble entrada 1. Interpretar los siguientes valores f33 , f4• y f•3 2. Calcular la edad promedio y la desviación estándar de los trabajadores con una experiencia entre 5 y 10 años. 3. El 25 % de los trabajadores con mas años de servicios recibirán un bono extra de $180000 pesos. Si Juan Pérez tiene 14 años de servicio. ¿Tiene derecho el Sr. Pérez al bono?. Respuestas 1. f33 = 15; Significa que 15 trabajadores tienen entre 30 y 35 años de edad y entre 10 y 15 años de experiencia. f4• = 51;Significa que 51 trabajadores tienen entre 35 y 40 años. f•3 = 50; Significa que 50 trabajadores tienen entre 10 y 15 años de experiencia. CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA 4.0.2. Distribución condicional Vamos a introducir el concepto de distribución condicional, observe que la pregunta, del ejercicio 2, condiciona la respuesta a aquellos trabajadores que tienen una experiencia entre 5 y 10 años. Esto nos lleva a extraer la información de la siguiente tabla condicionada: Distribución condicional de la edad de los trabajadores con años de experiencia entre 5 y 10 años. 4.0.3. Edad N◦ de trabajadores X fi2 20 − 25 1 25 − 30 4 30 − 35 10 35 − 40 20 40 − 45 P 6 41 Marca de clase Para calcular el promedio y la desviación estándar debemos incorporar una nueva columna con las marcas de clase que corresponden a los puntos medios de las clases (o intervalos), quedando de la siguiente manera: Edad Marca de clase N◦ de trabajadores X xi fi2 20 − 25 22, 5 1 25 − 30 27, 5 4 30 − 35 32, 5 10 35 − 40 37, 5 20 40 − 45 P 42, 5 6 41 CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA Edad Marca de clase N◦ de trabajadores X xi fi2 xi fi2 20 − 25 22, 5 1 22, 5 25 − 30 27, 5 4 110 30 − 35 32, 5 10 325 35 − 40 37, 5 20 750 40 − 45 P 42, 5 6 255 41 1462, 5 Hemos introducido la columna marca de clase con la finalidad de calcular un promedio (aproximado) para datos tabulados. Con el objeto de aclarar esto interpretaremos la marca de clase 37, 5 (que corresponde al intervalo 35 − 40) diciendo que: 20 trabajadores tienen una edad de 37, 5 años. Lo que quiere decir que la edad 37, 5 años se repite 20 veces. Asi, tenemos que: P5 j=1 xi fi2 X/y ∈ [5, 10] = P5 j=1 fi = 1462, 5 = 35, 67 41 donde la notación X/y ∈ [5, 10] se interpreta como el promedio de edad condicionado a los valores de y entre 5 y 10, es decir a los trabajadores que tienen entre 5 y 10 años de servicio. Buscaremos ahora la deviación estándar(datos tabulados), para ello completaremos la tabla para realizar los cálculos necesarios: Edad M. de clase N◦ de trab. X xi fi2 xi fi2 x2i x2i fi2 20 − 25 22, 5 1 22, 5 506, 25 506, 25 25 − 30 27, 5 4 110 756, 25 3025 30 − 35 32, 5 10 325 1056, 25 10562, 5 35 − 40 37, 5 20 750 1406, 25 28125 40 − 45 P 42, 5 6 255 1806, 25 10837, 5 41 1462, 5 53056, 25 Recuerde que: 2 S = X2 P 2 P 2 2 fx fx 53056, 25 1462, 5 −X = P − P = − = 21, 706 f f 41 41 2 CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA Ası́, la desviación estándar será: S= 4.0.4. p 21, 706 = 4, 66 Distribución marginal Observe que nos están preguntando por el percentil 75 (P75 )y la variable que se está considerando son los años de servicio de los trabajadores. Por esta razón vamos a construir una tabla que se llama Tabla marginal, que pasamos a mostrar. Distribución marginal de los años de servicio de los trabajadores Años Exp. N◦ de trabajadores Frec. Acumulada Y f•j F•j 0−5 8 8 5 − 10 41 49 10 − 15 50 99 15 − 20 10 109 20 − 25 P 15 124 124 calculamos la expresión 75 124 = 93 100 comparamos el valor 93 con la columna de la frecuencia acumulada(F•j ), partiendo de la primera celda, y con el primer valor que lo supere nos detenemos en dicho valor e inspeccionamos en que intervalo se encuentra y concluimos que corresponde a 10 − 15. Conocido el intervalo donde se encuentra el P75 , podemos aplicar la fórmula: P75 = liminf + 75 n 100 − Fa− a f reemplazando los datos liminf = 10, n = 124, Fa− = 49, a = 5 y f = 50 tenemos que: 75 124 − 49 5 100 P75 = 10 + = 14, 4 50 El señor Pérez por tener 14 años de servicio no logra ser beneficiado por el bono. CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA 4.0.5. Covarianza Cuando se trabaja con dos variables, un parámetro que permite decidir que tipo de asociación existe entre ellas, es la covarianza que se denota por Cov(X, Y ) y que pasamos a definir: Definición 4.1 Cov(X, Y ) = XY − X Y donde XY = P xy n y P P x y XY = n n n representa el total de casos (suma de las frecuencias) Observación 4.1 De acuerdo al signo de Cov(X,Y) se distingue lo siguiente: 1. Si Cov(X, Y ) > 0, X e Y se relacionan en forma directamente proporcional 2. Si Cov(X, Y ) < 0, X e Y se relacionan en forma inversamente proporcional 3. Si Cov(X, Y ) = 0, No existe relación entre X e Y. Ejemplo 4.2 Al calcular la Cov(X,Y) de la tabla de doble entrada del ejercicio en que la variable X representa la edad de los trabajadores y la variable Y representa los años de experiencia de ellos, se tiene que: La siguiente tabla marginal permite calcular X Edad M. de clase N◦ de trab. X xi fi• xi fi• 20 − 25 22, 5 1 22, 5 25 − 30 27, 5 6 165 30 − 35 32, 5 30 975 35 − 40 37, 5 51 1912,5 40 − 45 P 42, 5 36 1530 124 4605 P P fx xi fi• 4605 X= P = P = = 37, 137 f fi• 124 CAPÍTULO 4. ESTADÍSTICA DESCRIPTIVA BIVARIADA La siguiente tabla permite calcular Y Años Exp. M. de clase N◦ de trabajadores Y yj f•j f•j yj 0−5 2,5 8 20 5 − 10 7,5 41 307,5 10 − 15 12,5 50 625 15 − 20 17,5 10 175 20 − 25 P 22,5 15 337,5 124 1465 P P fy f•j yj 1465 Y = P = P = = 11, 814 f f•j 124 La siguiente tabla permite calcular XY yj 2,5 7,5 12,5 17,5 22,5 xi 22,5 0 1 0 0 0 27,5 2 4 0 0 0 32,5 5 10 15 0 0 37,5 1 20 30 0 0 42,5 0 6 5 10 15 XY = Ası́: P xy = n P xyf 56200 Pi j ij = = 453, 225 fij 124 Cov(X, Y ) = XY − X Y = 453, 225 − 37, 137 ∗ 11, 814 = 14, 488 > 0 Podemos decir, que existe una relación directamente proporcional entre los años de experiencia y la edad de los trabajadores. Bibliografı́a [1] MASON y LIND. “Estadı́stica para Administración y Economı́a”. [2] TRIOLA, M. “Estadı́stica elemental”. [3] BERENSON y LEVINE. “Estadı́stica básica en administración”. [4] RUBILAR CORTES R. “Estadı́stica aplicada a la accidentabilidad”. [5] AGUIRRE VERGARA, C. “Estadı́stica aplicada”. [6] LEVIN Y RUBIN “Estadı́stica para administradores”. [7] FREUND SMITH “Estadı́stica”.