DOCUMENTO DE TRABAJO Nº. 6 Estadistica ASIGNATURA CÓDIGO REQUISITO(S) OBLIGATORIA/LECTIVA ANUAL/SEMESTRAL DIURNA/VESPERTINA TEÓRICO-PRÁCTICA/PRÁCTICA CARÁCTER PLAN DE ESTUDIO HORAS SEMANALES II. Aprendizajes Esperados: Calcular Percentiles, cuartiles, deciles Interpretar Percentiles, cuartiles, deciles Definir Medidas de dispersión: varianza, desviación estándar, coeficiente de variación Calcular Medidas de dispersión: varianza, desviación estándar, coeficiente de variación Interpretar Medidas de dispersión: varianza, desviación estándar, coeficiente de variación III. Síntesis esquemática de Contenidos calcula aprende la noción de percentil, decil, cuartil y varianza, reconoce e desciación interpreta estandar y coeficiente de percentil dichos elementos variación IV. Actividades ( individuales o grupales) Ejercicios: 1. Determine el tercer cuartil, la amplitud intercuartilica el Decil 6 para los datos: 25 15 28 29 25 26 21 26 2. Se registran la cantidad de cigarros mensuales que consumen un grupo de alumnos de l liceo Supremo: 15 16 19 15 14 16 20 15 17 a) Será cierto que el percentil 60 corresponde a 20 b) La diferencia entre el Decil 8 y el Decil 3 es de 10 c) Cuál es el segundo cuartil 3. En un estudio que se realizó en un asilo de ancianos, se tomó las edades de los ancianos que pueden caminar sin dificultades 69 73 65 70 71 74 65 69 60 62. Sé pierde: a) Calcular la mediana a través de los Cuartiles b) Las diferencia entre P50 la Q 3 es 4. Se escogió un salón de clases de cuarto grado, con un total de 25 estudiantes, y se les pidió que calificaran del 1 al 5 un programa televisivo. (5 = Excelente 4 = Bueno 3 = Regular 4 = No muy bueno 1 = Fatal) Estos fueron los resultados: x f 1 4 2 8 3 3 4 5 5 3 Se pide a) Calcule los Deciles 3, 6, 9 b) El percentil 55. c) La semisuma entre el segundo cuartil y el percentil 80 5. Se registran las notas de un grupo de estudiante en la asignatura de matemáticas obteniéndose los resultados: notas (x) nº de alumnos 1-3 3-5 5-7 3 10 8 Se pide a) El Q3 y el P30 b) P85 – Q2 6. Dada la siguiente distribución de frecuencias: x 0 10 20 30 40 f 2 4 7 5 2 Se pide: a. Recorrido y recorrido intercuartílico. b. Coeficiente de variación. 7. Las recaudaciones obtenidas en los últimos proyectos publicitarios vienen reflejadas en la siguiente tabla: Ingresos 0–100 100–250 250–500 500-1000 nº de proyectos 12 15 20 15 Se pide: a) Calcula el ingreso medio y la desviación típica. b) Qué puede decir de la variación en la muestra de los ingresos. c) Si para el año siguiente el ingreso aumenta un 5% sobre el valor inicial, manteniéndose el criterio del reparto, ¿cuál será ahora el ingreso medio y la desviación típica? d) Cual es valor de la Varianza. acciones accio nistas 0-50 23 50-100 72 100-150 62 150-200 48 200-250 19 250-300 8 300-350 14 350-400 7 400-500 7 8. La distribución de acciones de una sociedad es: a) Calcular Desviación típica y el rango intercuartilico. b) El coeficiente de variación de la muestra será del orden de: c) La Varianza tiene un valor de I Problemas relacionados con cuartiles, deciles y percentiles Resuelva los siguientes problemas relacionados con fractiles La siguiente información corresponde al consumo mensual en combustible destinado a calefacción, expresado en miles de $, en una muestra aleatoria de hogares de un barrio de Santiago, durante los meses de invierno: Consumo ($miles) Nº de casos 4–6 17 6–8 26 8– 10 14 10 – 12 9 12 –14 11 1. ¿Qué consumo deja bajo sí al 25% de los consumos más bajos? 2. ¿Qué consumo deja sobre sí al 15% de los consumos más altos? La siguiente distribución corresponde a la recaudación de impuestos de 40 contribuyentes. (Recaudación de impuestos en miles de pesos). x ' i 1 x 'i 50- 70 70- 90 90 - 110 110 - 130 130 150 a) b) c) d) e) xi ni 60 80 100 120 140 2 15 8 12 3 ¿Cuál es la recaudación correspondiente a cuartil 1? Interprétela. ¿Cuál es la recaudación correspondiente al Percentil 65? Interprétela. ¿Bajo qué recaudación están el 20% de las recaudaciones menores? ¿Sobre qué recaudación está el 20% de las recaudaciones mayores? ¿Qué orden de percentil representa la recaudación $ 108.000? Grafican e interpretan cuartiles mediante gráfico de caja II Problemas relacionados con gráfico de caja e interpretación de cuartiles Resuelva los siguientes problemas relacionados con gráfico de caja. 8. Considere el siguiente gráfico de caja: Deuda morosa de 5.400 clientes de la empresa Aguas Andina residentes en la comuna de Conchalí (Miles de $) Se pide: construir 5 afirmaciones respecto del caso. 9. La tabla de distribución de frecuencias adjunta indica el número de años de experiencia de una muestra de expertos en el área de Administración y Finanzas Experiencia (años) Nº de casos 0- 3 años 12 3-6 años 37 6- 9 años 22 9 – 12 años 8 12 – 15 años 5 Con la información anterior construya un gráfico de cajas 10. De acuerdo con los datos de un censo, las proporciones de adultos en USA, clasificados en cinco categorías de edad, son las siguientes: Edad (años) 18 – 24 25 – 34 35 – 44 45 – 64 65 - 100 Proporción 0,18 0,23 0,16 0,27 0,16 Con estos datos trace un gráfico de caja III Problemas relacionados con Estadígrafos de Dispersión Calcule Estadígrafos de Dispersión 11. Se dispone de la siguiente información sobre el consumo de un producto envasado en latas. Se encuestó a un grupo de 20 familias y se interrogó: ¿cuántas unidades de este producto, mensualmente consume su grupo familiar? 0 1 2 1 2 3 2 5 2 2 0 3 4 5 1 3 4 1 0 5 Calcule los siguientes estadígrafos: Media Aritmética, Varianza y Desviación Típica 12. La siguiente tabla muestra las horas de trabajo transcurridas hasta que un trabajador sufre un accidente de trabajo, investigación realizada a una muestra de 27 accidentes de trabajo. Tiempo (horas) Nº de casos 0–2 2–4 4–6 6–8 8 – 10 6 11 5 2 3 Total 27 Calcule a. La variabilidad del número de horas b. La dispersión del número de horas c. El coeficiente de dispersión del número de horas Resuelven problemas aplicando las diferentes medidas de dispersión iv problemas relacionados con estadígrafos de dispersión resuelva los siguientes problemas relacionados con estadígrafos de dispersión 13. En una empresa del rubro textil, donde laboran 350 empleados, se ha estudiado el ingreso mensual (miles de pesos) obteniéndose los siguientes datos separados por sexo: Ingreso ( miles de pesos) 120 – 140 140 – 160 160 – 180 180 - 200 Hombres 40 85 85 40 Mujeres 40 10 10 40 ¿En cuál grupo de empleados, el ingreso presenta una confiabilidad más completa en torno al Ingreso Medio? 14. Un experto en administración ha presentado sus antecedentes con el objeto de obtener un empleo en varias empresas. Pasado los procesos de selección de éstas queda aceptado en tres empresas y dispone de una semana para decidir en cuál de ellas se quedará. El factor en base al cual tomará la decisión es el nivel de rentas que obtienen profesionales equivalentes al suyo y además que presenten un comportamiento más estable. Para esto consulta los sueldos a un grupo de profesionales cada empresa obteniendo la siguiente información EMPRESA A 90 100 B 94 97 C 98 93 110 112 115 SUELDOS DE LOS PROFESIONALES (miles de pesos) 98 97 98 103 94 102 101 106 98 106 113 92 95 96 106 95 97 99 82 103 101 100 96 105 04 101 102 105 96 102 99 110 105 ¿En cuál de estas empresas decide quedarse? Justifique su decisión y respáldelo con las medidas adecuadas. 15. A continuación se presenta la información tabulada sobre las ventas de pasajes (en dólares) en dos agencias. Estrato 1 x x x n 400- 500 500 -600 Estrato 2 x i 1 x i 1.000 – 1.300 1.300 – 1.600 1.600 – 1.900 6 15 xi ni 25 12 8 ¿En qué estrato la dispersión de las ventas es menor? 16. Se conoce la información respecto de los ingresos de los trabajadores de dos secciones de una empresa, A y B. El ingreso promedio de los trabajadores de la sección A es de $950.000 con una desviación típica de $98.000. Los trabajadores de la sección B tienen un ingreso promedio de $1.2000.000 con una desviación típica de $180.000 ¿En cual de las dos secciones existe una dispersión relativa mayor? Justifique su respuesta. V. Evaluación de la actividades Los alumnos deberán desarrollara cada uno de lso ejercicios 97 96 90 102 96 105 VI. Síntesis de los contenidos : OBJETIVOS: Calcular Percentiles, cuartiles, deciles Interpretar Percentiles, cuartiles, deciles Definir Medidas de dispersión: varianza, desviación estándar, coeficiente de variación Calcular Medidas de dispersión: varianza, desviación estándar, coeficiente de variación Interpretar Medidas de dispersión: varianza, desviación estándar, coeficiente de variación Percentiles: Medida de posición localización que divide la muestra en 100 partes iguales, Se utiliza para variables continuas y discretas. Pk = Percentil k-ésimo es aquel valor de la variable que deja a su izquierda el k % de la distribución. Para datos no tabulados: 1. Se ordenan los datos de menor a mayor 2. Calcular la posición del percentil k-ésimo a través de: n 100% kn k 100 3. Luego Pk = x Para datos tabulados Caso tabla simple: 1. Calcular la posición del percentil k-ésimo a través de: Fi 1 nk Fi 100 2. Luego Pk = xi Caso tabla con intervalo: Criterio: FI 1 xi-xi+1 x’i fi Fi x1-x2 x’1 f1 F1 x3-x4 x’2 f2 F2 : : : : xi-xi+1 x’i fi Fi : : : : xp-xp+1 x’p fp Fp nk FI para determinar el intervalo donde se encuentra el percentil k100 ésimo, Luego el percentil buscado será: nk Fi 1 Pk xi 100 ( xi 1 xi ) fi Donde xi : limite inferior del intervalo donde esta Pk n : tamaño de muestra Fi-1: frecuencia absoluta acumulada del intervalo anterior al intervalo de Pk fi : frecuencia absoluta del intervalo donde está Pk Cuartiles: Medida de posición que divide la población o muestra en cuatro partes iguales donde Q1= Valor de la variable que deja a la izquierda el 25% de la distribución. Q2= Valor de la variable que deja a la izquierda el 50% de la distribución = mediana. Q3= Valor de la variable que deja a la izquierda el 75% de la distribución. Para calcular los Cuartiles usamos Q1= P25 Q2= P50 Q3= P75 Q4= P100 Luego se sigue de igual manera que en los percentiles tanto para los datos no tabulados como datos tabulados Deciles: Medida de localización que divide la población o muestra en 10 partes iguales Dk = Decil k-simo es aquel valor de la variable que deja a su izquierda el k·10 % de la distribución. Para calcular los Deciles hacemos: D1= P10 D2= P20 D3= P30 : D9= P90 D10= P100 Relaciones importantes: Existen relaciones que pueden tenerse a la hora del calculo Recorrido intercuartílico: Q3 Q1 Semirecorrido intercuartílico: Q3 Q1 2 Recorrido interdecílico: P9 P1 Recorrido intercentilico: C99 C1 EJEMPLO: 1) Para la siguiente muestra {25, 24, 10, 15, 15, 20, 18, 21, 22} calcule: P20, D8 Para P26 como son datos no tabulados se debe hacer: Para datos no tabulados: 1. Se ordenan los datos de menor a mayor 10, 15, 15, 18, 20, 21, 22, 24, 25 donde n = 9 2. Calcular la posición del percentil k-ésimo a través de: 9 100% 9 20 1,8 20 100 3. Luego Pk = x 1,8 = x 2 = 15 Para el Decil 8 se hace D8 = P80, luego 9 100% 9 80 7,2 80 100 Entonces P80 = x 7,2 = x 7 = 22 2) Complete la tabla y determine P40 y Q3 Xi fi 1 Fi Xi fi Fi 16 1 17 17 2 20 2 19 36 3 9 3 9 45 4 5 4 5 50 Total 50 Total Calcular la posición del percentil 40 hacemos: Fi 1 50 40 Fi F1 20 F2 x20 2 100 Luego P20 = 2 Para el Q3 hacemos Q3= P75 entonces Fi 1 50 75 Fi F1 37,5 F2 x37 ,5 3 100 Luego P75 = 3 por lo tanto el Q3 = 3 3) Se encuesta a un grupo de personas (con ingresos en miles de pesos9, para saber cuánto dinero destinan para diversión según su sueldo, el cual se expresa en la tabla Se pide: xi-xi+1 fi Fi Calcular Q1,Q3, D3, y P45 45-55 6 6 55-65 10 16 65-75 19 35 75-85 11 46 85-95 4 50 Total 50 Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2º intervalo. (50/4=12.5) 50 25 6 100 Q1 P25 55 10 615 10 Análogamente calculemos Q3, Buscamos ahora en la misma columna el correspondiente al 75 %de N que en este caso es el 4º intervalo (3.50/4=37.5) 50 75 35 100 Q3 P75 75 10 77.27 11 Para el Decil 3. (corresponde al 30 % 3 · 50 / 10 = 15) sería el 2º intervalo. 50 30 6 100 D3 P30 55 10 64 10 Por último el percentil 45 (45·50/100 = 22.5) Corresponde al intervalo 3º. 50 45 16 P45 65 100 10 68,421 11 1.6. Medidas de dispersión: Las medidas de tendencia central permiten determinar el centro de la distribución, sin embargo, no son capaces de describir el comportamiento de algunas muestras en donde la variabilidad de los esta muy presente para esto se hace uso de la medida de variabilidad. 1.6.1 Recorrido: Se ha definido como la diferencia entre el mayor valor y el menor valor Rango o Recorrido = Rango mayor – Rango menor 1.6.2 Recorrido intercuartilica: Se ha definido como la diferencia entre el tercer y primer cuartil Recorrido intercuartilico = Q1 - Q3 1.6.3 Varianza: Es la media de los cuadrados de las desviaciones, y la denotaremos por V ( x) s x2 cuando es una muestra pero como 2 para la población: Para datos no tabulados: ( x1 x) 2 ( x2 x) 2 .. ( xn x) 2 V ( x) s n 2 x Para datos tabulados Caso tabla simple p V ( x) s 2 x i 1 f i ( xi x) 2 n Caso tabla con intervalos n V ( x) s 2 x i 1 f i ( xi, x) 2 n 1.6.4 Desviación estándar o Desviación típica: Es la raíz cuadrada de la Varianza, se denota por Sx si es muestral, pero como σ en el caso de la población Para datos no tabulados: ( xi x)2 ( xi x)2 .. ( xi x)2 sx n Para datos tabulados Caso tabla simple sx p i 1 f i ( xi x) 2 n Caso tabla con intervalos sx p i 1 f i ( xi, x) 2 n 1.6.5 Coeficiente de variación: Es un estadístico de dispersión que entrega el porcentaje de variación en la muestra además es adimensional, es decir, no lleva asociada ninguna unidad, por lo que nos permitirá comparar entre dos muestras y determinar cual es la que presenta mayor dispersión. Se denota por CV(x) CV ( x) sx .100 x Ejemplo: 1) Un estudio sobre la influencia que el peso de los atletas en un equipo de football afecta su habilidad de correr, produce los siguientes datos: 180, 195, 203, 175, 195, 250, 212, 165, 215, 220. Determina el recorrido del conjunto de datos. Calculamos Rango mayor = 250 Rango menor = 180 Luego la Recorrido será 250 - 165 = 85 2) En la distribución 2.1 3.4 4.2 5.6 7.8 9.0 determine el recorrido de la muestra Calculamos Q1 = 3,4 Q3 = 7,8 Luego la amplitud intercuartila es (7,8 – 3,4) = 4,4 3) La ultima campaña de marketing aumento la venta del producto como se indica en la tabla. Se afirma por parte de la Empresa que la variación de la cantidad de productos vendidos debido a la nueva campaña de marketing, esta sobre el 15% xi xi1 fi x i, f i xi, xi, x ( xi, x) 2 f i ( xi, x) 2 45 – 55 6 50 300 -19,4 376,36 2258,16 55 – 65 10 60 600 -9,4 88,36 883,6 65 – 75 19 70 1330 0,6 0,36 6,84 75 – 85 11 80 880 10,6 112,36 1235,96 85 – 95 4 90 360 20,6 424,36 1697,44 n = 50 3470 6082 3470 694 50 6082 V ( x) 121,64 50 s x 121,64 11,029 x CV ( x) 11,029 100 15,892% 69,4 Por lo tanto la afirmación de la Empresa es correcta 4) Hallar el coeficiente de variación de una serie de datos cuya desviación típica es 2 y media igual a 16. CV(x) = 2 / 16 * (100)= 12.5% VII. Glosario Links de interés