Estadística Descriptiva PROBABILIDAD Y ESTADÍSTICA Profesor: Sr. Patricio Videla Jiménez. GUIA Nº1 – ESTADISTICA DESCRIPTIVA 1. El Departamento de Transporte Urbano del Ministerio ha elegido a la ciudad de Valparaíso para recabar información sobre accidentes de tránsito ocurridos al virar hacia la izquierda en intersecciones. La recolección de los datos se realizará durante un período de dos años. Entre otros aspectos, se quiere comparar el promedio de accidentes en intersecciones con y sin pista central para el viraje a la izquierda, a fin de decidir sobre la posible instalación de dichas pistas en las principales ciudades del país a) b) c) Identifique la población de interés. Identifique la muestra. Mencione a lo menos dos variables observables en los elementos de la población que sean relevantes en la comparación señalada. Indique para cada variable si es cualitativa o cuantitativa y la escala de medición más razonable. 2. Se desea estudiar la composición del agua de un lago para lo cual se divide este en dos zonas: Costa y Centro del lago. El lago se cuadricula en 2800 cuadrículas de igual tamaño de las cuales se escogen aleatoriamente 80 en la zona Costa y 60 en la zona Centro. En cada una de las cuadrículas escogidas se mide el contenido de cierta sustancia tóxica (en ppm), el contenido de oxígeno (en ml/100ml) y el número de larvas de peces. Además se anota el color y calidad de trasparencia del agua en la cuadrícula. a) b) c) Indique cual es la población en estudio y cuáles y cuántos son los elementos de esta población. ¿Qué tipo de Muestreo se usó?. ¿Cuál(es) es (son) la(s) variable(s) en estudio y de que tipo es (son)?. 3. En un programa de mejoramiento continuo, que se ha implementado en una empresa, se ha diseñado un plan para controlar el proceso de fabricación de un horno de microondas de alta fidelidad. Desde la línea de despacho, donde los productos egresan uno a uno, se selecciona cada dos horas una muestra aleatoria de diez equipos los cuales son enviados a distintas áreas donde son calificados, entre otras características, el estado de las bisagras de las puertas, las dimensiones del eje del plato de montaje al interior del horno, el voltaje de salida, la temperatura al interior del equipo después de dos minutos de trabajo, la radiación emitida, tanto con la puerta abierta como con la puerta cerrada y el color del horno. Se le pide que a) b) c) Determine la población y la unidad estadística correspondiente. Indique el plan de muestreo utilizado. Justifique brevemente su respuesta. Defina y clasifique, completamente, las variables involucradas. Probabilidad y Estadística Estadística Descriptiva 4. En un estudio de mercado se ordena encuestas a 20 personas de determinada población. Se medirá un conjunto de variables entre las cuales figura el ingreso mensual (I) en miles de pesos y el nivel socioeconómico (NSE) que se supone fuertemente relacionado con la variable anterior. Los datos obtenidos se muestran en la siguiente tabla: Encuesta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 a) b) Sexo M M F F F F M F M M M F M F F F F F F M Edad 24 46 24 35 45 89 58 25 64 34 72 37 59 45 46 45 63 59 60 34 Ingreso 123.5 678.8 539.0 234.5 149.9 56.8 889.3 361.5 548.7 154.5 2630.4 129.5 162.9 516.5 250.6 850.8 57.3 409.2 135.0 159.9 NSE C4 C2 C2 C3 C4 E C1 C3 C2 C4 AB C4 C4 C2 C3 C1 E C2 C4 E Clasifique las variables del estudio. En que subpoblación, mujeres u hombres, los datos de ingreso mensual son más homogéneos. 5. Se conocen los puntajes que un grupo de postulantes, no así las identificaciones de los mismos. Uno de ellos, Andrés quiere conocer su puntaje y le han dicho que es mayor que el promedio y menor que el percentil 75 Los puntajes son los siguientes 851 684 a) b) 344 491 591 618 513 750 744 739 526 527 522 765 590 Obtenga los posibles puntajes de Andrés. De entre los valores calculados en a), el puntaje de Andrés es aquel que al calcular la desviación estándar de los 14 restantes, produce la mayor variabilidad ¿Cuál es el puntaje de Andrés? 6. Si se conoce que el salario medio mensual de 5 hermanos, es de $120.000, y la mediana es de $100.000. a) b) ¿Cuánto dinero llevan mensualmente a la casa los cinco hermanos? Si Juan, el mejor pagado de los cinco recibe un aumento de $10.000; cuál es la nueva media y cuál es la nueva mediana. Probabilidad y Estadística Estadística Descriptiva 7. Un grupo de 80 estudiantes se compone de 35 hombres. En un test, el puntaje medio de las mujeres fue de 70 puntos y del grupo completo fue 66.5 puntos. a) b) Determine el puntaje medio de los hombres. Si se cambia la escala de puntajes mediante la transformación Yi = c) ( X i : puntaje antiguo, Yi puntaje nuevo), determine el nuevo puntaje medio de hombres, mujeres y el grupo completo. Compruebe que si se aplica la transformación al puntaje medio del grupo total (66.5) se obtiene el mismo resultado que si se calcula el puntaje medio del grupo total transformado, como promedio ponderado de los puntajes transformados de hombres y mujeres (trate de comprobar esta propiedad en forma general). 2 Xi − 5 8. En una distribución simétrica de 7 intervalos de igual amplitud se conocen los siguientes datos: a = 10 ; n1 = 8 ; m 3 ⋅ n 3 = 1260 ; n 2 + n 5 = 62 ; f 3 = 0.21 ; F6 = 0.96 . a) b) Complete la información. Calcule el promedio bajo la transformación lineal y = 3x + 7 . 9. En un banco comercial se desea estudiar el tiempo de atención necesario para que un cliente realice una transacción entre las 12:00 horas y las 14:00 horas. Durante una semana se tomaron los tiempos de atención de 10 clientes diariamente, obteniéndose los siguientes datos tabulados: Tiempo de atención (min.) 0.25 - 1.65 1.65 - 3.05 3.05 - 4.45 4.45 - 5.85 5.85 - 7.25 7.25 - 8.65 8.65 - 10.05 Total a) b) c) Cantidad de Clientes 17 11 7 7 4 2 2 50 Determine qué porcentaje de clientes demoraron a lo más 3 minutos en su atención. Determine cuántas horas a lo más demorará en su transacción el 84% de los clientes. Construya un gráfico adecuado que permita mostrar (aproximadamente) la ubicación de la Mediana y el Percentil 75. 10. Las cinco primeras desviaciones respecto a la media muestral de un conjunto de datos de seis observaciones de medición de resistencia son: -2 ; 3 ; 7 ; 4 ; -1 a) b) ¿Cuál es la desviación de la sexta observación respecto de la media? ¿Cuál es el valor de la media muestral si se sabe que el coeficiente de variación es, en términos de proporción igual a 0.125? Probabilidad y Estadística Estadística Descriptiva 11. La distribución de frecuencias observadas, de los sueldos para los trabajadores del departamento de producción de dos empresas, A y B, para dos muestras se da a conocer la siguiente tabla: Sueldo (UF) 10.5 – 15.5 15.5 – 20.5 20.5 – 25.5 25.5 – 30.5 30.5 – 35.5 35.5 – 40.5 40.5 – 45.5 45.5 – 50.5 50.5 – 55.5 Total a) b) c) nA 4 9 12 15 20 17 10 8 5 100 nB 5 8 7 12 18 23 18 17 12 120 Calcular en cada muestra la medida de tendencia central más adecuada. Justifique estadísticamente su elección y explique el significado estadístico de los valores obtenidos. Compare la homogeneidad de los datos a partir de los sueldos de la empresa. Construir un gráfico adecuado que permita compara dichas muestras. 12. Se realizó una encuesta, en una población de la ciudad de Viña del Mar. En dicha encuesta, entre las cosas que se consultaron, se les preguntó: ¿Cuántas personas habitan la casa?, ¿Cuántos T.V. tenían? Dicha encuesta arrojó los siguientes resultados: Casa Nº 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nº de Hab. 3 4 6 1 7 10 4 5 3 8 6 2 7 3 4 5 3 2 3 2 Nº de TV 1 1 2 0 3 4 2 1 1 3 3 1 3 1 2 2 2 1 0 1 a) b) c) Construya tablas apropiadas para analizar en forma separada los datos. ¿Cuál es la cantidad promedio de habitantes y TV por casa? Calcular el P55 para los TV y P45 para el número de habitantes por casa. 13. La cantidad de destrozos por día en un laboratorio, fue registrada para 500 días, obteniéndose: Cant. de destrozos 0 1 2 3 4 5 6 7 8 Cant. de días 98 122 108 82 57 26 5 0 2 a) b) Determine e interprete; Promedio Aritmético y Mediana. ¿Por qué una de estas estadísticas es mayor que la otra? Determine e interprete Moda y Percentil 37. Probabilidad y Estadística Estadística Descriptiva 14. Los siguientes datos corresponden a los tiempos (en minutos) que duran 40 llamadas telefónicas recibidas por una central: 2.2 1.1 1.4 1.3 a) b) c) 0.8 1.1 2.4 1.1 1.5 1.3 2.1 1.5 1.9 1.7 1.7 1.4 1.3 1.1 1.2 2.3 1.0 1.6 2.3 2.1 1.5 0.9 0.7 1.4 0.5 1.9 2.1 1.3 2.6 2.0 2.0 1.7 1.0 1.7 2.3 2.8 Construya una tabla de frecuencias con seis intervalos de igual amplitud. Construya un histograma de frecuencias relativas porcentuales. ¿Qué porcentaje de llamadas se encuentran en el intervalo x − s; x + s ? [ ] 15. Una empresa, con el fin de contratar a un grupo de obreros, aplicó una prueba a todos los postulantes, consiste en un trabajo que debían realizar; se registraron los tiempos de ejecución, obteniéndose la siguiente tabla: Tiempo (horas) 1.45 2.15 2.85 3.55 4.25 4.95 5.65 a) b) c) d) - 2.15 2.85 3.55 4.25 4.95 5.65 6.35 Cant. de Postulantes 3 9 15 22 10 6 3 Calcule la desviación estándar ¿Cuál es el tiempo de ejecución más común entre los postulantes? La empresa contratará a todos los postulantes que tengan un tiempo de ejecución menor o igual a 4.5 horas. ¿Cuál es el porcentaje aproximado de postulantes no contratados? La empresa asignará a otras labores a los postulantes contratados cuyos tiempos de ejecución sean mayores o iguales a 3.3 horas. ¿Cuál es el porcentaje aproximado- de ellos, sobre los contratados, en esta situación? 16. Una central termoeléctrica consta de una turbina, la cual hasta la fecha ha tenido que ser reparada, reemplazando algunas piezas en mal estado. La siguiente distribución de frecuencias presenta información acerca de los costos de los repuestos importados Costos (US $) 401 a 452 452 a 503 503 a 554 554 a 605 605 a 656 656 a 707 a) b) c) Número de Repuestos 12 10 7 5 3 1 Calcule e interprete el costo mediano de esta distribución. Calcule e interprete el costo del repuesto, tal que sobre el existe un 15% de los datos. Calcule e interprete el porcentaje aproximado de repuestos que tienen un costo entre 430 (US $) y 588 (US $). Probabilidad y Estadística Estadística Descriptiva 17. Con el objeto de determinar la variedad de tomates con mejor rendimiento, se ha tomado una muestra aleatoria de 100 tomates de la variedad Ramy y 120 de la variedad F-A-144. Para ello se ha pesado cada tomate y los datos obtenidos de esta medición se han resumido en la siguiente tabla: Ramy Peso (grs.) mi ni FA-144 Ni ni 25 17 95 50 Ni 5 10 50 Total a) b) c) d) e) 58 100 120 Reconozca y clasifique la variable de estudio e indique la unidad de la muestra. Complete la tabla si la amplitud común es de 50 grs. sabiendo que la mediana de la variedad FA-144 es de 200.5 grs. Calcule un estadístico de centralidad apropiado para cada variedad, apoyando su conclusión con gráficos adecuados. Si la correspondiente producción de tomates en esta temporada fue de 10.000 y 12.000 unidades para la variedad Ramy. y FA-144 respectivamente y dado que se ha determinado que aquellos tomates que pesen entre 225 y 275 grs. tienen calidad extra y pueden ser exportados, estime la cantidad de tomates de cada variedad que podrían exportarse. ¿En qué variedad los pesos de los tomates son más homogéneos? 18. En estudios de corrosión de tubería enterrada se usa la resistencia específica del suelo. Por ejemplo una resistencia específica de 0 a 400 ohms/cm representa condiciones de corrosión extremadamente severas; de 400 a 900, muy severa; de 900 a 1500 ohms/cm, severas; de 1500 a 3500 moderadas; de 3500 a 8000, medias; y de 8000 a 20000, riesgo ligero. En el lugar para una futura construcción se tomaron 32 medidas de resistencia específica del suelo. Lugar Resistencia [ohms/cm] Lugar Resistencia [ohms/cm] Lugar Resistencia [ohms/cm] a) b) 1 2 3 4 5 1750 960 740 1030 530 12 13 14 15 16 840 23 6 7 8 9 1170 5770 2300 1240 17 18 19 20 10 11 510 910 21 22 1340 1240 1370 1260 1490 1610 1110 1340 2180 1340 24 25 26 27 28 29 30 21 32 1680 1550 2500 2300 1240 3060 1880 6550 1180 2760 ¿Qué porcentaje de los lugares presenta una resistencia al menos moderada? Considerando la estratificación propuesta en el encabezado. ¿En qué porcentaje influye la dispersión propia de la estratificación en la variabilidad total? Probabilidad y Estadística Estadística Descriptiva 19. La siguiente tabla de frecuencia resume los datos de las precipitaciones, anuales en mm * m 2 , de agua lluvia caída, por año, en los primeros cincuenta años del siglo pasado (1901-1950) sobre la ciudad de Valparaíso. Precipitación mm * m 2 Marca de clase Número de años 67.75 - 460.95 Porcentaje de años Número acumulado de años Porcentaje acumulado de años 6 48 84 45 1 Total a) Asumiendo que los intervalos son de igual amplitud, se pide completar la tabla anterior. En las siguientes preguntas, referidas a la tabla anterior, debe completar la frase de modo que resulte una proposición verdadera. b) i. ii. iii. iv. 2 El ............... de los años precipitó a lo más 460,95 mm * m . 2 Se afirma si la cantidad de precipitación está entre 460,95 y 657,55 mm * m el año se puede considerar “pluviométricamente normal”. Entonces ............... de los años observados tiene esa clasificación. Una medida de tendencia central que puede representar la precipitación anual, en los cincuenta años iniciales del siglo XX es la ......................... y su valor es ................ La medida que entrega una idea general de la magnitud de la desviación estándar en relación con la magnitud del promedio se llama.............................. y su valor es ............ 20. Se realizó una encuesta para determinar la incidencia del alcoholismo en diferentes profesionales. Se tomaron muestras aleatorias entre sacerdotes, profesores, ejecutivos y comerciantes. Obteniéndose los siguientes resultados Alcoholismo v/s profesión Sacerdotes Profesores Ejecutivos Comerciantes a) b) Alcohólico 32 51 67 83 No Alcohólico 268 199 233 267 Tamaño de la Muestra 300 250 300 350 Determinar todas las frecuencias relativas marginales. Determinar todas las frecuencias relativas condicionales. Probabilidad y Estadística Estadística Descriptiva 21. Deportistas fueron clasificados según: “Consumo de vitaminas”: Bajo, Medio, Alto y “Pérdida de Peso” (en gramos) después de la práctica de deporte. La siguiente tabla resume la información Clasificación 400 – 600 600 – 800 800 – 1000 1000 - 1200 a) b) Bajo 12 5 1 0 Medio 4 5 4 5 Alto 1 2 4 7 Determine las distribuciones marginales de las variables “Consumo de Vitaminas” y “Pérdida de Peso”, y luego, proponga y calcule una medida de tendencia central para cada caso. Encuentre la distribución de la variable “Pérdida de Peso” para aquellos deportistas que contienen un “Consumo de Vitaminas Alto”. ¿Cuál es su pérdida promedio? ¿Cuál es su desviación estándar? 22. Se clasifica a los contadores de acuerdo al grado de responsabilidad obteniéndose los siguientes resultados de su sueldo promedio anual: Grado I II III IV V a) b) c) Número 4000 8500 18000 13000 5500 Sueldo Medio (Anual) 6250 7000 8000 9500 11500 Desviación Estándar 1000 1200 800 950 1100 Calcule el promedio y desviación estándar del sueldo de todos los contadores ¿Que grupo es más homogéneo? ¿Qué porcentaje de variabilidad total es explicada por el grado? Justifique. 23. El estrógeno es una hormona que se utiliza en métodos anticonceptivos y otras aplicaciones. La siguiente tabla muestra a 60 pacientes en las que se les aplicó una cierta cantidad ( C en mg) versus su edad ( E en años). E \C 20 30 40 50 60 15 7 1 8 a) b) 20 2 10 0 12 25 1 4 9 2 0 16 30 3 2 8 2 15 35 1 2 6 9 10 18 12 12 8 60 Encuentre el coeficiente de variación de la Edad dado que la cantidad de hormona es 25. Comente la siguiente afirmación: “La cantidad de estrógeno aumenta con la edad”. PVJ/pvj. Probabilidad y Estadística