Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Métodos estadı́sticos de la ingenierı́a Ingenierı́a Técnica Industrial, todas especialidades Estadı́stica Ingenierı́a Técnica Telecomunicaciones, Telemática Problemas de examenes Estadı́stica descriptiva 1 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Estadı́stica descriptiva Problema 1 I.1 Un ingeniero estudia la relación entre dos variables X e Y . Dispone de los valores de Y para 15 valores de X, y sabe que la media y la varianza de los valores de X valen x = 20, s2x = 4. Decide ajustar una recta de regresión y encuentra la ecuación siguiente: y = 32 − x 1. ¿Cuál es el signo de la correlación entre X e Y ? Justifica tu respuesta. 2. Calcular la covarianza de X e Y. 3. ¿Cuánto vale y? I.2 La siguiente tabla muestra la puntuación de los 20 equipos de segunda división B (después de 25 partidos jugados). Construir un diagrama de caja y bigotes para las puntuaciones de los equipos y comentar sus aspectos más relevantes: 16 23 24 24 27 28 28 29 30 31 31 34 39 40 42 43 45 45 48 49 Problema 2 I.1 El Instituto Nacional de Estadı́stica proporciona los datos siguientes sobre el crecimiento vegetativo, es decir la diferencia entre el número de nacimientos y defunciones, en las comunidades autónomas: Comunidad crecimiento Galicia -9865 Castilla y León -8825 Asturias -5915 Aragón -3853 Paı́s Vasco -2040 Cantabria -1332 Cast.-La Mancha -837 Extremadura -553 La Rioja -384 Navarra 136 Comunidad Ceuta Valencia Melilla Cataluña Baleares Murcia Canarias Madrid Andalucı́a 1. Calcular la mediana y los cuartiles de estos datos. crecimiento 455 543 599 779 1230 3730 5668 11152 15489 2 Estadı́stica descriptiva 2. Realizar el diagrama de cajas y bigotes para estos datos. ¿Para qué sirve este diagrama? ¿Hay datos atı́picos? ¿Qué representan estos últimos? I.2 Se ha comprobado que las aleaciones amorfas tienen una excelente resistencia a la corrosión. En un estudio se recocieron cinco especı́menes de la aleación a 7000 cada uno durante un intervalo de tiempo distinto (x, en minutos). Despueés se midió el potencial de pasivación (y, en mV)- una medida de resistividad de la aleación cristalizada- para cada especimen. Los datos experimentales son los siguientes: x 10 20 45 90 120 y -408 -400 -392 -379 -385 1. Suponiendo que la mejor forma de describir la relación entre las variables es lineal, ajustar una recta de regresión a los datos. Calcular r2 e interpretar el resultado. 2. ¿Cuál es el potencial de pasivación cuando el tiempo de recocido es de 30 minutos? Problema 3 1. Con el fin de determinar la profundidad de un lago subterráneo, se midió el contenido de oxı́geno, en miligramos/litro, a distintas profundidades, en metros, obteniéndose los siguientes resultados: profundidad ( m ) 15 20 30 40 50 60 70 oxı́geno ( mg/l ) 6.5 5.6 5.4 6.0 4.6 1.4 0.1 Se pide: (a) Ajustar una recta a los datos obtenidos por el método de los mı́nimos cuadrados. (b) Estudiar la bondad del ajuste. (c) ¿A qué profundidad es previsible que nos encontremos si el contenido en oxı́geno medido es de 3.2 mg/l?. Problema 4 I.1 En la dirección http://dataservice.eea.eu.int/dataservice/, se pueden encontrar los datos de emisión de CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997. Se indican a continuación los datos de emisión total de este contaminante para España entre los años 1990 y 1997. Año (X) 90 91 92 93 94 95 96 97 Emisión total (Y ) 203.8 215.5 225.1 211.5 222.8 237.5 226.6 242.8 ( Megatoneladas) Se pueden utilizar las cantidades numéricas siguientes: X X X X X xi = 748; x2i = 69980; yi = 1785.6; yi2 = 399722; xi yi = 167142 1. Realizar el ajuste lineal de la emisión total en función del año. Calcular el valor de R2 y comentar la bondad del ajuste. Estadı́stica descriptiva 3 2. Según nuestro modelo, ¿se está produciendo un aumento o un descenso de la emisión de CO2? 3. Según nuestro modelo, ¿cuál serı́a la cantidad de CO2 emitida en 1998 por España? I.2 A continuación se presentan los diagramas de caja-bigotes para la emisión total de cuatro paises de la Unión europea entre 1990 y 1997. ( ES=”España”, FR=”Francia”, GB=”Gran Bretaña”, y IT=”Italia”). 1. ¿Cómo se construye un diagrama de caja-bigotes? 2. ¿Cómo clasificarı́a estos cuatro paises en cuanto a contaminación por CO2? 3. ¿Cuál es el paı́s que presenta mayor dispersión entre sus datos de contaminación? ¿Qué quiere decir? 4. Si se realiza un ajuste lineal de la emisión de CO2 en función del año para cada uno de los paises, obtenemos las rectas siguientes: España Emisión= −196.4 + 4.48 año Francia Emisión= 403.2 − 0.51 año Gran Bretaña Emisión= 1126.2 − 6.15 año Italia Emisión= 192.9 + 2.143 año ¿Qué paises han ido reduciendo sus emisiones entre 1990 y 1997? ¿Qué paises las han incrementado? Cuál es el paı́s que más ha reducido sus emisiones de CO2? ¿Cuál es el paı́s que más las han incrementado? Problema 5 4 Estadı́stica descriptiva I.1 En la siguiente tabla están representados los datos referidos al alquiler pagado mensualmente por 45 familias que habitan pisos de alquiler en una determinada ciudad: Alquiler en miles de ptas. Número de familias (0 − 15] 5 (15 − 30] 12 (30 − 60] 16 (60 − 90] 10 (90 − 120] 2 Se pide: 1. Representar gráficamente la variable mediante un histograma. ¿Cuáles son las caracterı́sticas de dicho histograma? ¿Qué medidas de centralización y dispersión son más adecuadas para resumir los datos? Razonar la respuesta. 2. Calcular el alquiler medio pagado por las familias analizadas. ¿En qué intervalo se sitúa la mediana? ¿Cuál es el intervalo modal? 3. ¿Cuál es la proporción de familias que pagan un alquiler menor o igual a sesenta mil ptas.? I.2. Los siguientes datos se refieren al crecimiento de una colonia de bacterias en un medio de cultivo: x 3 y 115000 6 147000 9 12 15 239000 356000 579000 18 864000 siendo x los dı́as desde la inoculación e y el número de bacterias. 1. Representar y en función de x para verificar que es razonable ajustar una curva exponencial. 2. Ajustar una curva exponencial a los datos. 3. Estimar, usando el modelo ajustado en el apartado anterior, el número de bacterias al término de 20 dı́as. Problema 6 I.1- Según el principio de la termodinámica, la presión P y el volumen V de una determinada masa de gas están relacionados por la siguiente fórmula : PV γ = C donde γ y C son dos constantes. Supongamos que disponemos de n mediciones de la presión y del volumen, (p1 , v1 ), . . . , (pn , vn ) ¿cuál es la manera de obtener valores de las dos constantes γ y C? (pensar en una transformación de los datos). Estadı́stica descriptiva 5 I.2- La comisión de comercio federal americana midió el número de miligramos de tar (X) y monoxido de carbono (C0) (Y ) por cigarrillo en las distintas marcas comerciales disponibles. Se tomo una muestra de 12 marcas, obteniendo para cada una: X Y 9 6 4 14 12 6 14 12 10 12 5 3 7 4 17 6 18 8 7 8 8 13 15 13 a) Calcula el porcentaje de marcas con un nivel de C0 inferior a 8. Calcula los cuartiles de la distribución de X. b) Ajusta una recta de regresión de Y sobre X y discute la bondad del ajuste. P P P P 2 P 2 (Ayuda: x = 110; y = 121; xy = 1294 x = 1234; y = 1411) I.3- Se realizaron investigaciones con el fin de estudiar la relación entre la elevación de la temperatura de las celdas solares en Co por encima de la temperatura ambiente (y) y la cantidad de aislamiento en megawatts por centimetro cuadrado (x), obteniéndose los siguientes datos: x y 9 25 25 20 12 70 50 30 15 45 22 60 14 28 16 24 25 50 68 68 15 20 12 21 10 20 1. Se quiere desarrollar un modelo que explique la evolución de y en función de la variable x. LLevar a cabo el ajuste correspondiente y comentar su bondad. 2. Para un aislamiento de 62 ¿qué temperatura cabe esperar? Problema 7 I.1.- Describir las caracterı́sticas globales del histograma siguiente. En tu opinión, para ese conjunto de datos, ¿cuáles son las medidas de centralización y de dispersión más representativas? Justifica tu respuesta. 6 Estadı́stica descriptiva I.2- Una fábrica de refrescos ha tomado aleatoriamente 6 semanas del año observando la Temperatura media correspondiente a cada una de ellas, y la Cantidad de refrescos pedidos durante cada una de estas semanas. Los datos obtenidos son los siguientes: Temperatura media (o C ) 28 12 30 24 5 15 Cantidad de refrescos pedidos (miles de litros) 65 19 75 67 11 24 (a) Calcular la media y la varianza de cada variable. (b) Realizar un ajuste por mı́nimos cuadrados de la Cantidad de refrescos pedidos respecto de la Temperatura media. Comentar la bondad del ajuste. (c) Si el modelo lineal es correcto, ¿cuál serı́a la cantidad de refrescos pedidos para una semana donde la temperatura media sea igual a 20o C? Problema 8 I.2.- En un estudio sobre la rapidez de combustión del grafito artificial en un flujo de aire húmedo, se llevó a cabo un experimento para investigar la difusividad del Oxı́geno a través de una mezcla de vapor de agua. Para ello se prepararon muestras de Nitrógeno y Oxı́geno con una fracción molar de agua de 0.017 a 9 temperaturas distintas, midiéndose la difusividad del Oxı́geno en cada una, obteniéndose: T emperatura 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Dif usividadO2 1.69 1.99 2.31 2.65 3.01 3.39 3.79 4.21 4.64 (a) Realice el diagrama de dispersión correspondiente. ¿Es posible el ajuste de un modelo de regresión lineal simple, que relacione la difusividad del O2 en función de la temperatura? ¿Cómo debe salir el coeficiente de correlación? (¿positivo, negativo, cerca de 0?). (b) En caso afirmativo, obtener la correspondiente recta de regresión utilizando la técnica de los mı́nimos cuadrados. (c) Hallar el coeficiente de determinación r2 e interpretar su valor. (d) ¿Cuál serı́a la predicción sobre la difusividad del O2 , para una temperatura de 3o a partir del modelo construido?. Problema 9 I.3 La tabla siguiente representa los datos correspondientes a 9 pruebas donde se ha estudiado el volumen de desgaste de una pieza (Y ) dependiendo de la viscosidad del aceite (X) X(aceite) 1.6 9.4 15.5 20.0 22.0 35.5 43.0 40.5 33.0 Y (desg.) 240 181 193 155 172 110 113 75 94 (a) Construye un gráfico de dispersión ( es decir nube de puntos) de los datos. ¿Parece plausible el uso de un modelo de regresión lineal simple? ¿Cómo debe salir el coeficiente de correlación?. Estadı́stica descriptiva 7 (b) Ajusta una recta de regresión utilizando la técnica de los mı́nimos cuadrados. Comentar la bondad del ajuste. (c) ¿Cuál serı́a la predicción sobre el desgaste para una viscosidad de 45?. Obtener el valor ajustado de y para x = 22 y calcular el residuo correspondiente. Problema 10 I.3.- Con el fin de estudiar la relación existente entre la densidad de tráf ico, representada en número de automóviles por kilómetro, y la velocidad a la que se circula en una determinada avenida de una ciudad, el ayuntamiento decide tomar una muestra durante un mes seleccionando aleatoriamente 10 dı́as laborables del mismo. Los resultados que se obtuvieron vienen reflejados en la siguiente tabla: Densidad de tráf ico 69 V elocidad 25.4 56 32.5 62 28.6 119 11.3 84 21.3 74 22.1 73 22.3 90 38 18.56 37.2 22 44.6 (a) Calcular la media y varianza asociada a cada una de las variables. (b) Calcular la covarianza existente entre ambas variables ası́ como el coeficiente de correlación. (c) Realizar un ajuste por mı́nimos cuadrados de la Densidad de tráf ico respeto a la V elocidad. (d) Deducir, suponiendo que la relación proporcionada por las rectas de regresión es válida, (d.1) ¿A qué velocidad se estima que se circulará, si la densidad de tráfico es de 85 automóviles/km?. (d.2) Si se desea regular la velocidad modificando los semáforos que dan acceso a la avenida, calcular a partir de la recta de regresión correspondiente, cual debe de ser la densidad de tráfico para que la velocidad sea de 30 Km/h. Problema 11 1. Una empresa encarga a su departamento de recursos humanos un estudio con el fin de determinar si existe relación entre el tiempo que llevan en la empresa sus empleados y el absentismo laboral (faltas al trabajo). Con el fin de realizar dicho estudio se seleccionan al azar 10 empleados obteniéndose los siguientes resultados: Antigüedad en la empresa Dı́as perdidos (año) 25 1 13 19 12 6 33 6 6 9 12 4 4 40 4 2 16 5 20 3 (a) ¿Puede afirmarse que los empleados de mayor antigüedad faltan con mas frecuencia al trabajo?. Razona tu respuesta utilizando el coeficiente de correlación. (b) ¿Que podemos afirmar de un empleado con una antigüedad de 15 años? 8 Estadı́stica descriptiva Problema 12 1. En un lago, se ha medido, para diversos valores de la profundidad, el contenido en oxı́geno, en miligramos/litro, obteniéndose los siguientes datos . P rof undidad Contenido. O 15 20 30 6.5 5.6 5.4 40 6.0 50 4.6 60 1.4 70 0.1 (a) Calcular la media y la varianza asociada a cada variable. (b) Calcular la covarianza de las dos variables ası́ como el coeficiente de correlación. Interpretar los resultados obtenidos. (c) Realizar el ajuste de mı́nimos cuadrados del contenido respecto de la Profundidad ası́ como el ajuste de la profundidad respecto del contenido. Si la relación proporcionada por las rectas de regresión es válida, ¿cuál serı́a el valor del contenido de oxı́geno a una profundidad de 45m. Problema 13 I.3.- Con el fin de determinar si existe relación entre la cantidad de polı́meros de látex incluida durante el proceso de mezclado de cemento Portland y su resistencia adhesiva a tensión, una empresa encargada de realizar certificaciones de obras toma una muestra de tamaño 10, obteniendo los siguientes resultados: P olı́meros latex (mgr/kg) 13.5 11.0 13.0 11.2 12.0 13.2 12.0 13.5 11.2 13.0 Resistencia (kgf /cm2 ) 17.5 16.6 17.2 16.6 17.0 17.3 16.9 17.3 16.8 17.1 (a) Calcular la media y varianza asociada a cada una de las variables. (b) Calcular la covarianza existente entre ambas variables ası́ como el coeficiente de correlación. (c) Realizar un ajuste por mı́nimos cuadrados de la resistencia respeto a la cantidad de polı́meros añadida en la mezcla. (d) Deducir, suponiendo que la relación proporcionada por las rectas de regresión es válida, (d.1) El valor estimado para la resistencia si la cantidad de polı́mero agregado es de 11.5mgr/kg. (d.2) Si un determinado constructor desea que la argamasa tenga una resistencia de 16.5kgf /cm2 , calcular a partir de la recta de regresión correspondiente, cual debe de ser la cantidad de polı́mero de látex que se debe añadir. Problema 14 Estadı́stica descriptiva 9 1. Se quiere estudiar la relación entre la proliferación de una cierta especie de planta silvestre y la cantidad de lluvia caı́da. Para ello, se define en varias comunidades autónomas un coto de prueba de 1 hectárea y se realiza el recuento de ejemplares en el coto. En la tabla siguiente se han recogido los resultados obtenidos junto con la precipitación acuosa registrada ese año. Comunidad Madrid Extremadura Andalucı́a Castilla-León Murcia Precipitación (mm) 429.8 628.6 224.7 484.9 320.5 No de ejemplares: 1250 1702 720 1301 830 (a) Calcular, para esos datos, la media, la varianza ası́ como el coeficiente de variación asociada a cada variable. (b) Calcular la covarianza existente entre ambas variables ası́ como el coeficiente de correlación. Interpretar los resultados obtenidos. (c) Realizar un ajuste por mı́nimos cuadrados del número de ejemplares respecto a la precipitación, y de la precipitación respecto al número de ejemplares. Comentar la calidad del ajuste. Si las relaciones proporcionadas por las rectas de regresión son válidas, ¿qué número de ejemplares se asociarı́a a una precipitación de 500mm? Problema 15 1. Con el fin de estudiar la relación existente entre la fuerza de torsión aplicada a un tipo de acero (en miles de libras) y su alargamiento medido en milésimas de pulgadas, se seleccionaron aleatoriamente 6 probetas de prueba de longitud dada y se sometieron a distintas cargas. Los resultados que se obtuvieron vienen reflejados en la siguiente tabla: Torsión aplicada 1 2 3 Alargamiento 14 33 40 4 63 5 76 6 85 (a) A la vista de los resultados, resulta evidente que una mayor Fuerza de Torsión produce un mayor alargamiento de la probeta. Desde un punto de vista estadı́stico, ¿en qué se traduce esta información? (b) Realizar un ajuste por mı́nimos cuadrados que nos permita predecir el alargamiento de la probeta para distintas Fuerzas de Torsión aplicables. (c) Deducir, a partir del ajuste que nos proporciona el criterio de mı́nimos correspondiente, el alargamiento que debe producirse al aplicar una fuerza de torsión de 3500 libras. ¿Podrı́amos predecir el alargamiento si aplicamos 10000 libras?. Razona tu respuesta. Problema 16 1. Con el fin de estudiar la congestión de tráfico que se produce en una determinada vı́a, se decide tomar una muestra seleccionando 10 dı́as laborables en una determinada hora y se anotan tanto el número de vehı́culos que se encuentran en la vı́a en ese momento como la velocidad promedio de los vehı́culos que se encuentran en ese momento en la vı́a. Los resultados que se obtuvieron vienen reflejados en la siguiente tabla: Num vehı́culos 69 56 Velocidad (km/h) 25.4 32.5 62 26.8 119 84 74 11.3 21.3 22.1 73 22.3 90 18.6 38 22 37.2 44.6 10 Estadı́stica descriptiva (a) Deducir, en función de los valores que se presentan, el signo de la covarianza entre estas caracterı́sticas.¿Cómo podemos interpretar esta información? (b) Si llamamos X=”Núm. de vehı́culos” y Y=”Velocidad promedio”, sabiendo que: P P 2 P P 2 P xi = 687 xi = 53791 yi = 262.1 yi = 7705.7 xi yi = 15700 realizar un ajuste por mı́nimos cuadrados de la ”Velocidad promedio” en función del ”Número de vehı́culos” y comentar la bondad del ajuste. (c) Deducir, a partir del ajuste que nos proporciona el criterio de mı́nimos correspondiente: i. ¿Cuál será la velocidad promedio estimada si nos encontramos con 80 vehı́culos en la avenida? ii. Si deseamos regular la velocidad promedio modificando la secuencia de los semáforos, ¿cuántos vehı́culos deben encontrarse en la avenida para que la velocidad promedio sea de 30 km/h.? Problema 17 1. Con el fin de analizar el tiempo de respuesta de una base de datos de consulta se tomaron 15 datos correspondientes a 3 semanas consecutivas obteniéndose los siguientes resultados: Lun Mart Miérc Juev Viern Semana 1 4.32 7.14 9.21 9.71 15.39 Semana 2 5.2 8.37 9.34 10.46 18.9 Semana 3 6.39 8.97 9.51 10.53 21.25 (a) Calcular la media, mediana, cuartiles y desviación tı́pica correspondiente a estos datos. (b) En función de los valores observados, ¿entre que valores podemos decir que se encuentran los datos no atı́picos?, ¿existen datos que puedan considerarse atı́picos? (c) ¿Qué medida de dispersión utilizarı́as? Razona tu respuesta. (d) Con el fin de determinar la relación entre el tiempo de respuesta de la base de datos y el número de usuarios se midieron simultáneamente a la obtención del tiempo de respuesta, el número de usuarios activos en ese instante, obteniéndose un conjunto de 15 datos cuyo valor medio era 30.73 y cuya varianza era 79.40. El estudio concluyó con la siguiente relación lineal entre ambas caracterı́sticas: T iempo = 0.51 · U suarios − 5.42 i. Determinar el coeficiente de determinación asociado al ajuste. ii. Determinar el número de usuarios activos, si el tiempo de respuesta de servidor es de 32. Problema 18 Estadı́stica descriptiva 11 I.1 Sea x1 , x2 , ......, xn una realización muestral de una M.A.S. de tamaño n. Justifica como queda afectada la media y la varianza muestral en los siguientes casos: (a) A todas las observaciones se les suma una constante k. (b) Todas las observaciones se multiplican por una constante k. Problema 19 1. Después de la jornada 22 en la liga 02/03, los puntos de la clasificación quedan como sigue: Puntos 44 42 42 39 36 36 32 29 28 28 27 27 27 27 27 26 26 22 22 15 (a) Calcular la mediana y los dos cuartiles asociados a este conjunto de datos. (b) Realizar un diagrama de caja-bigotes de los datos. ¿Aparecen datos atı́picos? (c) ¿Cómo interpreta el hecho de que el primer cuartil está muy próximo a la mediana? ¿Quien va a ganar la liga? 2. Un ingeniero estudia la relación entre una variable Y y otra variable X. Para ello dispone de los valores de Y para 15 valores de X y sabe que la varianza de X vale 3.4. Decide ajustar una recta de regresión y encuentra la ecuación siguiente: y = 2.3x + 5. (a) ¿Cuál es el signo de la correlación entre X e Y ? Justifica tu respuesta. (b) ¿Cuánto vale la covarianza de X y de Y ? (c) Si x̄ = 5.3, ¿cuanto vale ȳ? (d) ¿Qué medida debe el ingeniero calcular para cuantificar la bondad del ajuste? Cuando se considera que el ajuste es bueno? Problema 20 Se mide el tiempo que tienen que esperar los usuarios para que llegue el ascensor B en la planta baja del hospital de Marina. Después de varios dı́as de recogida de datos, los resultados obtenidos (en segundos) se presentan en la tabla siguiente: Tiempos de espera No de usuarios [0, 125] 66 [125, 250] 21 [250, 375] 10 [375, 500] 3 I.1 1. ¿De cuántos datos disponemos? Representar gráficamente la variable mediante un histograma. 12 Estadı́stica descriptiva 2. De los modelos de variables aleatorias vistos en clase, escoge uno que pueda describir aproximadamente la distribución de los valores de esta tabla. Justificar la respuesta. 3. Utilizando las marcas de clases (es decir el punto medio de cada intervalo en la tabla de frecuencias) calcula la media y la varianza del conjunto de datos. Problema 21 I.1 Para tener una buena imagen de la pantalla del ordenador es necesario que la tensión de la rejilla metálica situada detrás de la pantalla no sea ni demasiado alta ni demasiado baja. Por este motivo, durante la producción el fabricante controla la tensión de dicha rejilla. Los siguientes resultados corresponden a estas mediciones sobre 20 rejillas: M ediciones de la tensión N o de rejillas 257 ≤ X < 277 2 277 ≤ X < 297 7 297 ≤ X < 317 5 317 ≤ X < 337 3 337 ≤ X < 357 2 357 ≤ X < 377 1 Se pide: I.1 1. Representar gráficamente la variable mediante un histograma. Comentar las caracterı́sticas más relevantes de dicho histograma. ¿Qué medidas de centralización y dispersión son más adecuadas para resumir los datos? Razonar la respuesta. 2. Calcular la tensión media de las rejillas analizadas. ¿En qué intervalo se sitúa la mediana? ¿Cuál es el intervalo modal? 3. Para que una rejilla sea apta para su ensamblaje en la pantalla de un ordenador su tensión media debe de situarse en el intervalo [306,328]. ¿Debe el fabricante iniciar una investigación del proceso productivo? Razonar la respuesta. I.2 Con el fin de determinar la relación existente entre la resistencia de una determinada pieza de plástico y uno de sus componentes (componente A) se fabrican 10 piezas de prueba, cada una con una concentración distinta y se obtienen los siguientes resultados: P ieza 1 2 3 4 5 6 7 8 9 10 X (% A) 1.5 1.2 1.1 1.0 4.5 5.2 8.7 9.0 9.2 9.5 Y (Rotura) 3.04 2.96 2.66 3.17 9.82 9.68 17.71 18.18 18.32 19.30 donde la variable rotura indica la fuerza empleada a tracción en el instante de su rotura. A partir de los datos anteriores se obtienen las siguientes cantidades: X X X X X xi = 50.9; x2i = 384.77; yi = 104.84; yi2 = 1577.53; xi yi = 778.33 1. Realizar un ajuste lineal de la rotura en función del contenido en el componente A. Calcular el valor de r2 y comentar la bondad del ajuste. Estadı́stica descriptiva 13 2. Según nuestro modelo, ¿cuál serı́a la resistencia para un 3% de contenido de componente A? 3. Un determinado comprador nos pide que le fabriquemos piezas con un 6% de componente A y nos exige que tengan una resistencia de 10 Nwt a tracción. ¿Podemos afirmar que somos capaces de cumplir las especificaciones? Razonar la respuesta. Problema 22 I.1 ¿Qué densidad de siembra de maı́z debe utilizar un agricultor para obtener el máximo rendimiento? Si crecen pocas plantas obtendrá un rendimiento bajo. Por otro lado, si hay demasiadas plantas, éstas competirán entre sı́ por el agua y los nutrientes, y en consecuencia el rendimiento bajará. Para averiguar cuál es la mejor densidad de siembra, se planta maı́z con distintas densidades de siembra en 32 parcelas de idénticas caracterı́sticas y se obtienen los siguientes datos: Y X 1 2 3 4 [130, 218) [218, 306) [306, 394) 3 2 0 0 3 5 7 5 0 0 4 3 X: No de plantas por hectárea (×104 ), Y : Rendimiento (Tm. por Ha.). 1. ¿Cuál es el número de plantas por hectárea más habitual? ¿Y el número medio de plantas por Ha.? 2. Obtener el rendimiento medio por Ha.. Determinar el porcentaje de parcelas cuyo rendimiento es mayor o igual que el rendimiento medio. 3. Calcular el porcentaje de parcelas, en las que se plantaron más de 20000 plantas, cuyo rendimiento por Ha es mayor a 262 Tm/Ha. 4. Con el fin de determinar la relación entre la rentabilidad por Ha. y el número de plantas de maı́z plantadas por Ha., un ingeniero agrónomo analiza los anteriores datos y decide ajustar el siguiente modelo lineal entre las caracterı́sticas X e Y : Y = 186.56 + 33.2X con r2 = 0.83 4.1. ¿Cuál es el signo del coeficiente de correlación entre X e Y ? Razona tu respuesta. 4.2. Para una densidad de siembra de 35000 plantas por Ha., ¿cuál serı́a la rentabilidad por Ha. estimada con el modelo? ¿Es fiable esta estimación? Razona tu respuesta. 5. ¿Cuál serı́a tu conclusión sobre la densidad de siembra para obtener el máximo rendimiento? Problema 23 14 Estadı́stica descriptiva I.1 Los datos que a continuación se detallan corresponden a la producción (en miles de toneladas) de hortalizas y frutales en España durante una campaña agrı́cola: Hortalizas Espárrago Guisantes verdes Habas verdes Ajos Judı́as verdes Alcachofa Fresa y Fresón Col repollo Coliflor 103 T m. 62.8 63.2 69.5 160 261.3 283.7 317.3 332.8 353 Hortalizas 103 T m. Sandı́a 815.9 Pimiento 882.8 Cebolla 981.2 Melón 993.1 Lechuga 1041.8 Tomate 3560.4 Frutales Avellana Cereza Ciruela Albaricoque Almendra Plátano Pera Manzana Melocotón 103 T m. 16.2 54.4 136.1 149.8 202.6 385.2 599.8 719 896.8 El diagrama de caja y bigotes realizado con Statistix es el siguiente: 1. Colocar en cada lı́nea del gráfico su valor numérico. 2. Comentar las caracterı́sticas más relevantes del gráfico. En ambos diagramas las cajas aparecen divididas en dos partes desiguales, ¿cómo interpretas esta situación? 3. ¿Existen datos atı́picos en algunas de las producciones? ¿Qué representan? I.2 En una determinada región se sabe que las precipitaciones caı́das dependen de la cantidad de vegetación en la zona. Se dispone de los siguientes datos: X Y 50 100 20 70 150 100 200 300 150 200 X: número de árboles por Ha., Y : número de litros caı́dos por m2 . 1. Realizar un ajuste por mı́nimos cuadrados del volumen de agua caı́da por m2 en función del número de árboles por Ha. Calcular una medida de la bondad del ajuste realizado. 2. Utilizando la recta ajustada en el apartado anterior, predecir el volumen de agua caı́do cuando el número de árboles por Ha. en la zona es 175. ¿Es fiable esta predicción? Razona tu respuesta. Problema 24 I.1 La edad de un árbol se estudia atendiendo al número de anillos en la sección transversal del tronco. Con el fin de analizar la edad de los árboles de un determinado bosque, mediante un proceso de simulación por ordenador se determina el número aproximado de anillos en la sección transversal del tronco según el diámetro de éste. Para una muestra de 40 árboles se obtienen los siguientes resultados: No de anillos No de árboles (0,10] 3 (10,20] 10 (20,30] 18 (30,40] 8 (40,50] 1 Estadı́stica descriptiva 15 1. Calcular la media y la desviación tı́pica correspondiente al número de anillos en la sección transversal del tronco. ¿Qué tipo de información proporcionan acerca del conjunto de datos? 2. Representar gráficamente la variable mediante un histograma. De los modelos de variables aleatorias que hemos visto, escoge uno que pueda describir aproximadamente el número de anillos en la sección transversal de un árbol. Razona tu respuesta. 3. Un árbol se considera anciano si el número de anillos en su sección transversal es superior a 30. Determinar la proporción de árboles no ancianos obtenidos en la muestra. 4. El estudio concluyó con la siguiente relación entre la edad, en años, de un árbol y el número de anillos en la sección transversal de su tronco: Edad = 0.51 × N o de anillos + 5.8 (a) Determinar razonadamente el signo de la covarianza entre la edad de un árbol y el número de anillos de su tronco. ¿Podrı́as dar un valor numérico para ella? (b) Determinar la edad aproximada para un árbol que se le han contado 24 anillos en su tronco? Problema 25 I.2 Se quiere estudiar la relación entre la rentabilidad del trigo respecto del nivel de nitrógeno (N). Para ello, se plantó trigo en 7 parcelas de tierra de idénticas caracterı́sticas y se les suministraron diferentes niveles de nitrógeno. Los resultados aparecen en la tabla siguiente: Unidades (N/acre) (x) 40 60 80 100 120 140 160 Rentabilidad (Tm/acre) (y) 15.9 18.8 21.6 25.2 28.7 30.4 30.7 Se pueden utilizar las cantidades numéricas siguientes: P P P 2 P 2 P xi = 700 yi = 171.3 xi = 81200 yi = 4398.2 xi · yi = 18624 1. Ajustar una recta para predecir la rentabilidad del trigo en función del nivel de nitrógeno. Calcular r2 e interpretar su valor. 2. Estimar, utilizando el modelo ajustado en el apartado anterior, la rentabilidad del trigo cuando el nivel de nitrógeno es de 60 unidades. ¿Es fiable esta predicción? Razona tu respuesta. Problema 26 I.1 Describir las caracterı́sticas globales del siguiente histograma. Indicar de manera razonada cuáles serı́an las medidas de centralización y dispersión más adecuadas para resumir dicho conjunto de datos: 16 Estadı́stica descriptiva I.2 En julio, las cepas producen racimos de pequeñas bayas, y se quiere utilizar un recuento de esos racimos para predecir la cantidad de uva que se recogerá. En la tabla siguiente aparece, para varios años, la cosecha de uva en toneladas por acre y la cantidad de racimos contabilizados en julio: Año 1976 1977 1978 1979 1980 1981 1982 No racimos (x) 116 80 125 116 117 93 107 Producción (y) 4.9 3.9 4.8 4.6 4.7 4.1 4.4 Se pueden utilizar las cantidades numéricas siguientes: P P P 2 P 2 P xi = 754 yi = 31.4 xi = 82724 yi = 141.68 xi · yi = 3416 1. Se quiere desarrollar un modelo que explique la producción de uva respecto del número de racimos contabilizados en julio. Llevar a cabo el ajuste correspondiente y comentar su bondad. 2. Si en julio se contabilizaron 122 racimos, ¿cuál será el ingreso esperado de la producción de uva si en dicho año el precio de venta del kilo de la uva es de 1.40 euros? Problema 27 I.1 Una empresa vitivinı́cola desea realizar un estudio sobre la influencia de las campañas publicitarias en sus cifras de ventas. Para ello dispone del gasto destinado a publicidad y sus ventas en los últimos cinco años. AÑ OS GAST OS EN P U BLICIDAD(∗) V EN T AS(∗) 1996 2.5 200 1997 2.8 221 1998 2.9 230 1999 3.1 239 2000 3.5 248 (∗) Los gastos en publicidad y las ventas vienen en millones de pesetas. Se pide: 1. Se quiere desarrollar un modelo que explique la evolución de las ventas en función de los gastos en publicidad. Llevar a cabo el ajuste correspondiente y comentar su bondad. 2. Predecir las ventas para este año 2001, si se tiene previsto invertir en publicidad 4 millones de pesetas. I.2 Se ha aplicado un test sobre capacitación laboral a 90 empleados de una industria, obteniéndose los siguientes resultados: P U N T U ACION ES N o de EM P LEADOS [38, 44) 7 [44, 50) 8 [50, 56) 15 [56, 62) 27 [62, 68) 18 [68, 74) 9 [74, 80] 6 Estadı́stica descriptiva 17 Se pide: 1. Representar gráficamente la variable mediante un histograma. Comentar las caracterı́sticas más relevantes de dicho histograma. ¿Qué medidas de centralización y dispersión son más adecuadas para resumir los datos? Razona tu respuesta. 2. Calcular la puntuación media obtenida en el test. ¿En qué intervalo se sitúa la mediana? ¿Cuál es el intervalo modal? 3. ¿Qué proporción de empleados tiene una puntuación mayor o igual a 62? Problema 28 I.1 Una empresa productora de cı́tricos constata que las producciones de dos fincas son de calidad distinta aunque utilizan la misma especie de árboles. Después de notar que los dos tipos de suelo son distintos (la finca A está constituida de suelo fino y homogéneo mientras que la finca B tiene una mezcla de suelo fino y suelo más grueso) decide hacer mediciones de la densidad del suelo en las dos fincas: FINCA A FINCA B 85.9 88.2 90.4 91.1 92.7 92.8 86.8 87.5 90.3 91.4 92.4 92.6 93.8 94.1 94.3 96.5 98.5 103.8 93.5 93.9 94.8 94.9 95.0 97.5 1. Realiza en un mismo gráfico un diagrama de caja y bigotes de la densidad de la finca A y la finca B. Comentar las caracterı́sticas más relevantes. 2. ¿Te parece que la densidad se distribuye sensiblemente de la misma manera para las dos fincas? I.2 Una empresa de productos lácteos quiere estudiar la relación entre el contenido en materia grasa de la leche de vaca y la cantidad de lluvia caida (a mayor precipitación acuosa mejor será el forraje para la alimentación del ganado). Los siguientes datos se refieren al porcentaje de contenido en grasa junto con la precipitación acuosa registrada durante el primer semestre del año: contenido de grasa % precipitación (l/m2 ) 4.2 524 4.13 502 4.14 4.08 3.98 3.92 464 484 310 320 1. Realizar el diagrama de dispersión correspondiente. ¿Cuál es el tipo de relación entre las dos variables? ¿Se trata de una relación positiva o negativa? 2. Realizar un ajuste por mı́nimos cuadrados del contenido de materia grasa respecto de la precipitación. Hallar el coeficiente de correlación e interpretar su valor. 3. Estimar, usando el modelo ajustado en el apartado anterior, el contenido de materia grasa para un mes con una precipitación de 450 l/m2 . Problema 29 La mejora de la tecnologı́a (mecanización, fertilizantes, nuevas variedades de plantones, etc,) ha dado lugar que la productividad (P ) y el tiempo (t) estén relacionados por la fórmula P = β · eα·t donde α y β son dos constantes. Supongamos que tenemos n datos de la productividad y el tiempo, ¿qué transformación de los datos nos lleva a obtener las constantes α y β? Realiza dicha transformación y propón las fórmulas para obtener las citadas constantes. (1 pto) 18 Estadı́stica descriptiva Probabilidad 19 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Probabilidad Problema 1 La elaboración de un determinado tipo de piezas puede realizarse con dos máquinas, siendo la producción de piezas diaria de ambas máquinas la misma. Las proporciones de piezas defectuosas fabricadas por las dos máquinas M1 y M2 son 0.04 y 0.01, respectivamente. a) Si se selecciona al azar una pieza de la producción total y resulta detectuosa ¿Cuál es la probabilidad de que provenga de M2 ? b) Si se toman independientemente dos piezas al azar y resultan aceptables ¿Cuál es la probabilidad de que ambas piezas provengan de M1 ? Nota: Indicar claramente los sucesos que intervienen ası́ como las probabilidades asociadas. Problema 2 Una empresa fabrica chips con un porcentaje de defectuosos del 5%, poniéndolos a la venta en paquetes de 5 unidades. Una empresa ilegal vende imitaciones indistinguibles del mismo chip con un porcentaje de defectuosos del 50% y los comercializa en el mismo envase de 5 unidades. a) ¿Cuál es la probabilidad de que un paquete legal contenga exactamente dos chips defectuosos? ¿Y si el paquete es ilegal? Teniendo en cuenta que el 10% de los paquetes vendidos en el mercado son ilegales, responder a las siguientes cuestiones: b) Si adquirimos un paquete de chips, ¿cuál es la probabilidad de que contenga exactamente dos chips defectuosos? c) ¿Cuál es la probabilidad de que un paquete que contiene dos defectuosos sea ilegal? Nota: Indicar claramente los sucesos que intervienen ası́ como las probabilidades asociadas. Problema 3 Una avioneta cayó en una región que se puede clasificar como: el 50% de montaña, el 30% de prado y el 20% de mar. Dependiendo de dónde haya caı́do, su localización para el equipo de rescate es más o menos fácil, de forma que la probabilidad de que no se localice si ha caı́do en la zona de montaña es de 0.3 y si ha caı́do en los prados de 0.2, pero si ha caı́do en el mar la probabilidad de no localizarla es de 0.9. 20 Probabilidad Como el piloto no llevaba equipo para sobrevivir en la montaña, inicialmente el rescate se hizo en esta zona y no se encontró. ¿Cuál es la probabilidad de que realmente la avioneta haya caı́do en la montaña? Al no encontrarla en las montañas, se continuó buscando en las otras dos zonas y tampoco se encontró. ¿Cuál es la probabilidad de que realmente la avioneta haya caı́do en la montaña? Comparar este valor con el del apartado anterior. ¿Por qué no son los mismos? Problema 4 II.1 En la construcción de unas determinadas obras pueden aparecer anomalı́as debidas a dos causas que son independientes: fallos de cimentación y mala calidad de los materiales. La primera ocurre con probabilidad del 4% y la segunda con probabilidad del 3%. 1. Calcular la probabilidad de que en una determinada obra no aparezca ninguna anomalı́a. 2. Calcular la probabilidad de que aparezcan fallos de cimentación y no mala calidad de los materiales. 3. Si se detecta la presencia de anomalı́as, la construcción puede verse afectada con un desplome en un plazo de tiempo determinado con las siguientes probabilidades: 0.1, cuando no aparece ninguna de las anomalı́as. 0.8, cuando aparece alguna de las anomalı́as. Interpretar esta información adicional en términos de sucesos y probabilidades. Calcular la probabilidad de que el edificio se desplome. Si el edificio se ha desplomado, ¿cuál es la probabilidad de que se haya producido alguna de las anomalı́as?. 4. Una determinada empresa realiza 5 obras cada año. ¿Cuál es la probabilidad de que en 5 años al menos tres obras sufran anomalı́as? 5. ¿Y la de que en 20 años más del 90% de las obras realizadas no tengan anomalı́as? Problema 5 1. En la producción de un artı́culo se aplica soldadura y para eso se usan tres diferentes robots. La probabilidad de que la soldadura sea defectuosa varı́a para cada uno de los robots, ası́ como la proporción de artı́culos que cada uno procesa, de acuerdo a la siguiente tabla: robot % art. procesados Probabilidad soldadura defectuosa A 18 % 0.002 B 42 % 0.005 C 40 % 0.001 (a) Definir de manara adecuada los sucesos que intervienen ası́ como las probabilidades asociadas a cada uno de ellos. (b) Determinar cuál es la proporción global de defectos producida por las tres máquinas. Probabilidad 21 (c) Si tomamos un artı́culo al azar y resulta con soldadura defectuosa, determinar la probabilidad de que haya sido soldado por el robot C. Problema 6 Una empresa consta de tres factorı́as dedicadas a la elaboración de ladrillos para la construcción, producción que se reparte de la siguiente manera: la factorı́a A elabora un 25% y la B un 40%. Además, la factorı́a A elabora un 5% de ladrillos defectuosos, la B un 2% y la C un 3%. a) Indicar el experimento aleatorio y los sucesos que intervienen, ası́ como las probabilidades asociadas a dichos sucesos. b) Si seleccionamos un ladrillo elaborado en la factorı́a C, ¿cuál es la probabilidad de que sea defectuoso? c) Si seleccionamos un ladrillo de la producción total, ¿cuál es la probabilidad de que sea defectuoso? d) Si el ladrillo seleccionado de la producción total resulta defectuoso, ¿cuál es la probabilidad de que no se fabricara en C? Problema 7 II.1 Sean dos sucesos A y B que cumplen P(B|A) = 0.3, P(B|AC ) = 0.7, y P(B) = 0.6. Indicar si es verdadera o falsa cada una de las afirmaciones siguientes, razonando la respuesta, a) A y B son independientes. b) P(A) = 0.25. c) A y AC son independientes d) A y B son incompatibles. II.2 Una empresa de materiales de construcción está probando un nuevo pavimento. Para ello, instala muestras del material en tres zonas donde las condiciones climáticas son diferentes, repartidas de la siguiente forma: 45% en la zona A, 30% en la zona B y 25% en la zona C. Con una lluvia abundante el pavimento se derrumba totalmente. La probabilidad de que haya tormenta en la zona A es P[|X| < 2], siendo X una variable aleatoria con distribución normal de media µ = 1 y varianza σ 2 = 4), en la zona B es P[Y ≥ 6], donde Y tiene una distribución binomial de parámetros n = 8 y p = 0.8 y en la zona C es P[U = 3], con U una variable con distribución de Poisson de parámetro λ = 1. 1. Calcular la probabilidad de que el pavimento se derrumbe en cada una de las zonas donde se instalaron muestras de material. 2. Si el pavimento no sufre ningún derrumbamiento, ¿cuál es la probabilidad de que se haya construido en la zona A? 3. ¿Cuál es la probabilidad de que no se produzca derrumbamiento si el pavimento no se construyó en la zona B? Problema 8 22 Probabilidad II.1- Cierto artı́culo se manufactura en tres fábricas, digamos 1, 2 y 3. Se sabe que la primera produce el doble de artı́culos que la segunda y que ésta y la tercera producen el mismo número de artı́culos (durante el periodo de producción especificado). Se sabe también que el 2% de artı́culos producidos por las dos primeras es defectuosos, mientras que el 4% de los manufacturados por la tercera es defectuoso. Todos los artı́culos producidos se colocan en una fila y se escoge uno al azar. a) Traducir los datos del enunciado, introduciendo los sucesos convenientes b)¿Cuál es la probabilidad de que este artı́culo sea defectuoso? Problema 9 I.2- Sean A, B y C tres sucesos, tales que P (A) = 0.2, P (B) = 0.8 y P (A|B) = 0.5. Entre las siguientes afirmaciones, indica cuáles son corresctas.(puede haber más de una respuesta correcta). Razona tu respuesta. T T T S a) P (A SB) = 0.4 b) P (A B) = 0.16 c) P (A B) = 0.1 d) P (A B) = 0.6 e) P (A B) = 1 II.2- En un laboratorio, se diseña un test para detectar la presencia de una bacteria en el agua. Para probar el test, se considera un grán número de probetas con agua que pueden, o no, contener la bacteria. La probabilidad de que una probeta escogida al azar contenga la bacteria es de 0.2. Por otra parte, si una probeta contiene la bacteria, el test da positivo en el 90% de los casos. En cambio, si una probeta no contiene la bacteria, el test da positivo en el 5% de los casos. (a) Traducir los datos del enunciado, introduciendo los sucesos convenientes. (b) Al escoger al azar una probeta, ¿cuál es la probabilidad de que de positivo en el test? (c) Si una probeta ha dado positivo en el test, ¿cuál es la probabilidad de que contenga la bacteria? (d) Entre las probetas que han dado negativo en el test, ¿cuál es la proporción de probetas que contienen la bacteria? Problema 10 II.1- Sean A y B dos sucesos cualesquiera tales que 1 1 2 p(A) = , p(B) = , p(A/B) + p(B/A) = 3 5 3 Calcular: (a) p(A ∩ B) (b) p(A ∪ B) (c) p(AC ∪ B C ), siendo AC el conjunto complementario de A. Probabilidad 23 II.2- Las mujeres de una universidad constituyen el 60% de los estudiantes de primer curso, el 40% de los de segundo y el 40% de los de tercero. Los estudiantes de dicha universidad son en un 40% de primero, en un 30% de segundo y en un 30% de tercero. (a) Introducir los sucesos convenientes y traducir los datos del enunciado. (b) Si se escoge un estudiante de dicha universidad al azar, hallar la probabilidad de que sea mujer. (c) Si el estudiante escogido es mujer ¿Cuál es la probabilidad de que sea de segundo curso? Problema 11 I.2.- El 10% de los chips informáticos vendidos en el mercado son producidos por una empresa ”pirata”. Para un chip ”pirata” la probabilidad de que sea defectuosos es del 50% mientras que si el chip no es ”pirata” la probabilidad de que sea defectuoso desciende al 5%. (a) Definir los sucesos convenientes, junto con sus probabilidades. (b) Determinar el porcentaje total de chips defectuosos que salen al mercado. (c) Compras un chip y resulta ser defectuoso. Calcular la probabilidad de que proceda de la empresa ”pirata”. Problema 12 1. Un avión realiza diariamente el mismo servicio. En un año hubo 50 dı́as con niebla y 315 dı́as sin niebla. Consideramos el experimento aleatoria ”se escoge un dı́a al azar en el año”. Se ha comprobado que si el dı́a es con niebla, la probabilidad de que ocurra un accidente ese dı́a es de 0.04 mientras que si el dı́a es sin niebla, la probabilidad de un accidente es de 0.003. Calcular la probabilidad de que: (a) al escoger al azar un dı́a en el año, haya ocurrido un accidente. (b) Si un dı́a ha ocurrido un accidente, el dı́a haya sido sin niebla. Problema 13 I.2.- Una pieza producida en una empresa puede tener dos tipos de defectos. El 8% de la producción presenta el defecto de tipo A, el 5% de la producción presenta el defecto de tipo B, y se supone que no hay piezas que tengan los dos tipos de defectos. Después de ser producida cada pieza es sometida de manera automática a un test de ruptura, con las siguientes posibilidades: Si la pieza tiene el defecto de tipo A, tiene una probabilidad de 0.9 de romperse. Si la pieza tiene el defecto de tipo B, tiene una probabilidad de 0.95 de romperse. Finalmente, si la pieza no tiene ningún tipo de defecto, tiene una probabilidad de 0.01 de romperse. (a) Si el experimento aleatorio consiste en escoger al azar un pieza de la producción, traducir los datos del enunciado, después de haber introducido los sucesos convenientes. 24 Probabilidad (b) ¿Cuál es la probabilidad de que una pieza escogida al azar en la producción se vaya a romper durante el test? (c) Si una pieza escogida al azar se ha roto durante el test, ¿cuál es la probabilidad de que no fuese defectuosa? Problema 14 1. En una empresa conservera, se dispone de dos máquinas que envasan en botes el mismo producto. La máquina A es la más antigua, y produce el 30% de la producción total, mientras que la máquina B, de adquisición más reciente, produce el 70% de la producción total. Si un bote ha sido producido por A, la probabilidad de que sea defectuoso es de 0.08, mientras que, si ha sido producido por B, la probabilidad de que sea defectuoso es de 0.04. (a) Si el experimento aleatorio consiste en escoger un bote al azar de la producción, traducir los datos del enunciado, introduciendo los sucesos convenientes. (b) ¿Cuál es la probabilidad de que, al escoger un bote al azar, sea defectuoso? (c) ¿Cuál es la probabilidad de que, si un bote escogido al azar es defectuoso, haya sido producido por la máquina A? Problema 15 1. En una determinada ciudad se pueden sintonizar de manera gratuita 4 canales de TV, el Canal 1, Canal 2, Canal 3 y Canal 5 (el Canal 4 es de pago). Según un estudio realizado, la probabilidad de que a las 22:00 la programación emitida ”merezca la pena” es del 0’25, 0’30, 0’15 y 0’10 para cada uno de los canales respectivamente. Supongamos que a las 22:00 encendemos un televisor de esa ciudad y se sintoniza un canal de manera aleatoria. Se pide: (a) Definir de manera adecuada los sucesos que intervienen ası́ como sus probabilidades asociadas. (b) Determinar la probabilidad de que ”merezca la pena” el programa obtenido al encender un televisor de esa ciudad a las 22:00 y sintonizar un canal de manera aleatoria. (c) Supongamos que la programación obtenida ”no merece la pena”, determinar la probabilidad de que estemos sintonizando el Canal 5. Problema 16 1. Un determinado prefabricado de hormigón puede presentar dos tipos de defectos de manera independiente, que lo hacen inutilizable. El primero de ellos es no cumplir con la norma en lo referente a las dimensiones del objeto y otro no cumplir la norma en relación a la resistencia del mismo, pudiendo presentarse ambos defectos en una misma pieza. Se sabe que el 10% de los prefabricados tienen unas dimensiones incorrectas, mientras que sólo el 5% no cumple las exigencias en cuanto a resistencia. A partir de esta información, determinar: (a) El porcentaje de prefabricados que son correctos, es decir, no presentan defecto alguno. Probabilidad 25 (b) El porcentaje de prefabricados que tendrán que ser eliminados por presentar algún tipo de defecto. (c) Determinar, dentro del conjunto de las piezas defectuosas, el porcentaje de piezas que cumplen la norma de resistencia. Problema 17 1. Con el fin de verificar un determinado procedimiento no destructivo para testar la calidad de una componente electrónica se probó con 50 piezas correctas y 50 defectuosas obteniéndose los siguientes resultados: P ieza Defectuosa Correcta 1 Incorrecta 48 No Defectuosa 49 2 Test (a) Calcular el error asociado al test, esto es, calcular la probabilidad de que el test dé negativo sabiendo que la pieza es correcta y la probabilidad de que el test de positivo sobre una pieza defectuosa. (b) Sabiendo que el porcentaje de piezas defectuosas del proceso de fabricación es del 5% determinar la probabilidad de que realmente sea defectuosa una pieza que dio ”defectuosa” al aplicar el test. Problema 18 I.2 Una multinacional realiza operaciones comerciales en tres mercados A, B y C. El 20% de las operaciones de la multinacional corresponden al mercado A y en los mercados B y C realiza exactamente el mismo número de operaciones. El porcentaje de operaciones en los que se producen retrasos en el pago es del 10%, 15% y 5% en los mercados A, B y C, respectivamente. Se pide: (a) Describir los sucesos correspondientes y sus probabilidades asociadas. (b) ¿En qué porcentaje de operaciones de la multinacional no se producen retrasos en el pago?. (c) ¿Qué porcentaje de las operaciones en las que se ha retrasado el pago han sido realizadas en el mercado B?. (d) Elegida una operación al azar, ¿qué probabilidad hay de que no tenga retraso en el pago y corresponda al mercado A o C? (e) Entre las operaciones que no han sufrido retraso en el pago, ¿cuál es el porcentaje de las que corresponden a los mercados A o C? Problema 19 Una empresa fabrica bombillas en tres factorı́as A, B y C. En A se producen el 20% del total de bombillas, en B el 40% y en C el resto. El 2% de las bombillas fabricadas en A son defectuosas, mientras que el porcentaje de defectuosas en B y C es del 3% y 4%, respectivamente. 26 Probabilidad I.1 Se decide escoger al azar una bombilla de la producción total: 1. Después de introducir los sucesos convenientes, traducir los datos del enunciado. 2. Calcular la probabilidad de que la bombilla seleccionada sea defectuosa. 3. Si se sabe que la bombilla seleccionada funciona correctamente, determinar dónde es más probable que se fabricara y con qué probabilidad. I.2 Ahora se decide elegir una factorı́a al azar entre las tres, y una vez escogida la factorı́a, escoger al azar una bombilla entre su producción. 1. Reasignar las probabilidades a los sucesos introducidos anteriormente teniendo en cuenta esta nueva situación. 2. Calcular la probabilidad de que la bombilla seleccionada no sea defectuosa. 3. Si la bombilla seleccionada es defectuosa, ¿cuál es la probabilidad de que se fabricara en B? 4. ¿Qué diferencia esencial existe entre las dos situaciones descritas en I.1 y en I.2 respectivamente? Problema 20 1. Un método empleado para distinguir entre rocas granı́ticas y basálticas consiste en examinar desde el aire una porción del espectro infrarrojo de la energı́a solar reflejada por la roca. Los resultados de estas observaciones los podemos catalogar en tres clases que denotaremos por C1 , C2 C3 . El grado de detección del procedimiento viene reflejado en la siguiente tabla: Observación C1 C2 C3 Granito 60% 25% 15% Basalto 20% 50% 45% es decir, la probabilidad de que la superficie sea granı́tica cuando se recibe la señal C1 es de 0.6, etc. Entonces, sabiendo que en una determinada región se han detectado señales C1 en el 45% de las pruebas, C2 en el 20% y C3 en el resto: (a) Definir de manera adecuada los sucesos que intervienen ası́ como las probabilidades asociadas a cada uno de ellos. (b) Determinar la proporción de granito y basalto de la zona. (c) Si la piedra observada no es basáltica ni granı́tica, determinar la probabilidad de que la señal recibida sea C1 . Problema 21 1. El 15% de los tomates recolectados en cierta región presenta en la piel una sustancia tóxica A, el 10% la sustancia tóxica B y el 2% las sustancias tóxicas A y B. Se selecciona una muestra al azar. (a) Calcular la probabilidad de que la muestra presente la sustancia tóxica A si presenta la sustancia tóxica B. Probabilidad 27 (b) Calcular la probabilidad de que la muestra presente la sustancia tóxica A si no presenta la sustancia tóxica B. (c) Se sabe que el 20% de las muestras presentan en su piel una sustancia C, incompatible con B y el 5% de las muestras las sustancias A y C. Calcular la probabilidad de que la muestra presente la sustancia B o C si presenta la sustancia A. Problema 22 1. Un proceso de fabricación puede estar ajustado o desajustado. Cuando está ajustado produce un 1% de piezas defectuosas y cuando está desajustado un 10%. La probabilidad de desajuste es 0.3. (a) Traducir los datos del enunciado indicando claramente el experimento aleatorio, los sucesos que intervienen y sus probabilidades asociadas. (b) Se toma una pieza de la producción total y resulta ser aceptable. Calcular la probabilidad de que el proceso esté desajustado. (c) Se toman 5 piezas de manera indepedientes y todas son buenas. Calcular la probabilidad de que el proceso esté desajustado. Problema 23 IV Sabeis que hay dos ascensores (A y B) en cada ala del hospital de Marina, supongamos que, al llamar un usuario en la planta baja a los dos ascensores de manera simultánea, la probabilidad de que llegue primero el ascensor A es de 0.75. Además la probabilidad de que el ascensor se quede bloqueado, con el usuario dentro, es de 0.005 para el ascensor A, y de 0.01 para el ascensor B, 1. ¿Cuál es la probabilidad de que el usuario que ha llamado a los dos ascensores desde la planta baja se quede bloqueado? 2. Si un usuario se ha quedado bloqueado, ¿cuál es la probabilidad de que sea en el ascensor A? Problema 24 I.2 Una cooperativa contrata a 3 ingenieros agrónomos, A, B y C, para realizar diferentes trabajos. El 25% de los trabajos son realizados por el ingeniero A, el 35% por el ingeniero B y el resto por el ingeniero C. La probabilidad de que el trabajo se entregue en la fecha impuesta por la cooperativa es de 0.97 si lo ha realizado A, de 0.89 si lo ha realizado B y de 0.92 si lo ha realizado C. Si el experimento aleatorio consiste en seleccionar al azar uno de los trabajos contratados, se pide: 1. Si se sabe que el trabajo seleccionado ha sido presentado en la fecha convenida, ¿cuál de los tres ingenieros es más probable que haya sido contratado para realizar dicho trabajo? 2. Calcular la probabilidad de que el trabajo no se entregue en la fecha impuesta por la cooperativa y no haya sido realizado por el ingeniero C. 28 Probabilidad Problema 25 II.1 En una granja avı́cola se utilizan 2 tipos de pienso, A y B, para alimentar a las aves. El 25% de las aves son alimentadas exclusivamente con el pienso A, el 35% son alimentadas exclusivamente con el pienso B y el resto de las aves son alimentadas con una mezcla de ambos tipos de pienso. Se sabe que la probabilidad de que el engorde de las aves sea superior a 1 Kg. cuando se utiliza solamente el tipo A es de 0.86, cuando se utiliza solamente el pienso B es de 0.58 y cuando se utilizan ambos tipos de pienso es del 0.92. Se decide escoger al azar una de las aves de la granja: 1. Después de introducir los sucesos convenientes, traducir los datos del enunciado. 2. Determinar la probabilidad de que el engorde del ave sea superior a 1 Kg. 3. Si se comprueba que el engorde del ave ha superado 1 Kg., determinar qué tipo de alimentación es más probable que haya seguido y con qué probabilidad. Problema 26 II.1 Dos cazadores A y B disparan a la misma pieza. La precisión de ambos no es la misma, pues la probabilidad de que A acierte es 9/10 y la de B es 7/10. Sabiendo que ambos disparan a la pieza una única vez, hallar la probabilidad de que: 1. el cazador A no acierte. 2. ambos alcancen la pieza. 3. exactamente uno de ellos alcance la pieza. 4. ninguno de ellos alcance la pieza. Problema 27 Un dado tiene dos caras con el número UNO, dos caras con el número TRES, una cara con el número DOS y una cara con el número CUATRO. Consideremos el siguiente juego: un jugador lanza el dado, si sale un número PAR, el jugador recibe tantas pesetas como puntos indica el resultado; si sale un número IMPAR, el jugador paga tantas pesetas como puntos indica el dado. Calcular: (a) El rango y la función puntual de probabilidad de la ganancia obtenida en cada lanzamiento. (b) ¿Qué ganancia espera obtener el jugador en cada lanzamiento? (c) La desviación tı́pica de la ganancia obtenida. Variables Aleatorias. 29 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Variables Aleatorias. Problema 1 Consideremos una variable aleatoria bidimensional (X, Y ) con función de densidad conjunta: si − 1 ≤ x ≤ 1 y si 0 < y < 1 k · x · (1 − y 2 ) f(X,Y ) (x, y) = 0 en otro caso. a) Determinar el valor de la constante k para que f(X,Y ) (x, y) sea una función de densidad. b) Calcular la función de densidad marginal de X y de Y. ¿Son X e Y independientes? c) Calcular la siguiente probabilidad condicionada Pr(0 < Y < 1|X ≤ 0.8). Problema 2 II.3. La longitud, en metros, de los radios que fabrica una máquina es una variable aleatoria X cuya función de densidad viene dada por ( 1/3 si 1/2 ≤ x < 2 f (x) = kx si 2 ≤ x ≤ 6 0 resto Se pide: 1. Obtener el valor de la constante k. 2. Calcular la longitud media de los radios que fabrica dicha máquina. 3. ¿Cuál es la probabilidad de que los radios midan menos de 3 metros? Problema 3 II.2- Consideramos un dado de tal manera que, con el experimento aleatorio ” tirar el dado”, la función puntual de probabilidad de la variable aleatoria X = ”número obtenido”, es 1 (x − 3)2 , para x = 1, 2, 3, 4, 5, 6 38 y 0 en otro caso. fX (x) = k − a) Calcular el valor de k. b)¿ Está el dado trucado? c) Represente gráficamente fX . Si tienes que apostar por un número, ¿cuál elegirı́as? d) Se propone el juego siguiente: se apuesta 500 pts, se tira el dado y si sale par, se recupera la apuesta más 100 pts, mientras que si sale impar, se pierde la cantidad apostada. ¿Merece la pena jugar? 30 Variables Aleatorias. Problema 4 II.1- Con objeto de establecer un plan de producción, una empresa ha estimado que la demanda semanal es una variable aleatoria X cuya función de densidad viene dada por: k(4x − 2x2 ) si 0 ≤ x ≤ 2 f (x) = 0 en otro caso donde x viene expresada en millones de unidades. Calcular: (a) El valor de la constante k. (b) La demanda esperada en una semana. (c) El coste de producir x millones de unidades viene dada por C = 5X + 40 unidades monetarias, ¿cuál será el coste semanal esperado? (d) La probabilidad de que la demanda semanal supere el millón y medio de unidades. Problema 5 II.2.- La distribución de estudiantes de secundaria en una comunidad autónoma es la siguiente: sexo \ estudios Opción B Opción C Opción A Opción D alumnos 12% 8% 21% 9% alumnas 19% 9% 15% 7% (a) ¿Cuál es la proporción de alumnas entre los estudiantes de secundaria? (b) Se escoge al azar un estudiante de secundaria en la comunidad y resulta ser alumna, ¿Cuál es la probabilidad de que estudie la opción C?. (c) Introducimos las variables : X = ” sexo” e Y = ”opción escogida”. Determinar las distribuciones marginales de X y de Y. ¿Son independientes las dos variables ?. Problema 6 II.1.- La función de densidad de una variable aleatoria X, viene dada por la siguiente expresión: ( kx 0 < x < 6 fx (x) = 0 en caso contrario (a) ¿Para qué valor de k es fx (x) una función de densidad?. Hallar E[X] (b) Calcular la función de densidad de la v. a. Y = 1/X,ası́ como E[Y ]. II.2.- Sea (X, Y ) una variable aleatoria bidimensional discreta, cuya función puntual de probabilidad conjunta, viene dada por la tabla siguiente: Y = −1 Y =0 Y =1 X = −1 X = 0 X = 1 1/8 1/8 1/8 1/8 0 1/8 1/8 1/8 1/8 Variables Aleatorias. 31 (a) Hallar las funciones puntuales de probabilidad marginal de X y de Y. (b) Calcular el coeficiente de correlación lineal entre X e Y. ¿Se puede afirmar que son independientes?. Justifica la respuesta. (c) Determinar P (Y > −1/X > −1). Problema 7 1. Una determinada empresa quı́mica está interesada en comprar un dispositivo que mida la concentración de sosa en el producto y su PH. Los errores asociados a las mediciones de dicho dispositivo pueden ser consideradas como dos variables aleatorias X e Y (X =”Error al medir la concentración de sosa” e Y =”Error en la determinación del PH”) cuya distribución conjunta viene dada por: si y ∈ [−1, 1] k[1 + xy(x2 − y 2 )] si x ∈ [−1, 1] f (x, y) = 0 en caso contrario (a) (b) (c) (d) Calcular el valor de la constante k. Calcular las distribuciones marginales de ambas variables. ¿Se pueden considerar independientes ambas variables? Sabiendo que en un determinado producto el error que se comete al medir la concentración de sosa es inferior a 0.5, calcular la probabilidad de que el error cometido al medir su PH sea inferior a 0.5 (±0.5). Problema 8 II.2.- La función puntual de probabilidad de una variable aleatoria bidimensional discreta (X, Y ) viene dado por: Y 2 3 X 1 1/9 0 2 0 6/9 3 2/9 0 Obtener: (a) Las funciones puntuales de probabilidad marginal de la X y la Y . (b) Pr(X = 1/X + Y ≤ 4) y Pr(Y > 2/X > 1). (c) E(X) y V ar(X). Problema 9 1. Sea X una variable aleatoria continua con función de distribución: 1 − e−x si x > 0 F (x) = 0 si x ≤ 0 32 Variables Aleatorias. (a) Calcular, la función de densidad asociada a dicha variable, su media y Pr(X > 2). (b) Consideremos una nueva variable aleatoria Y de manera que la función de densidad conjunta de ambas variables es: y · e−(x+y) si x > 0, y > 0 fX,Y (x, y) = 0 en otro caso. Indicar de forma razonada si se puede considerar que ambas variables son independientes. En cualquier caso, calcular Pr(Y < 1|X > 2). Problema 10 I.1.- Supóngase que X e Y son variables aleatorias para las que: • E(X 2 ) = 5 • V ar(X) = 4 • V ar(X + Y ) = 10 • Cov(X, Y ) = 2 (a) Calcular E(X) y V ar(Y ). (b) Sea Z = 5X − 3. Calcular E(Z) y V ar(Z). Problema 11 1. La resistencia de un tornillo en gr/mm2 es una variable aleatoria con densidad: 1 − kx 0 ≤ x ≤ 2 f (x) = 0 en otro caso (a) Determinar el valor de la constante k ası́ como la resistencia esperada. (b) Calcular y representar su función de distribución. (c) Determinar la probabilidad de que un tornillo aguante más de 1.5 gr/mm2 si para 1.0 gr/mm2 aún resiste. Problema 12 II.2 El porcentaje de contaminante presente en una muestra de aire es una variable aleatoria con función de densidad dada por f (x) = a + bx2 0 < x < 1 0 en otro caso 1. Si E(X) = 3/5. Calcular el valor de a y b para que f sea función de densidad. 2. Calcular la probabilidad de que el porcentaje de contaminante en una muestra de aire sea superior a 0.6. Problema 13 Variables Aleatorias. 33 La resistencia de ciertos componentes eléctricos tiene una distribución de probabilidad desconocida de media 200 Ohmios y desviación tı́pica 1 Ohmio. Un tipo de circuitos está formado por tres de estos componentes independientes, de manera que la resistencia del circuito viene dada por la suma de las resistencias de los componentes. a) ¿Cuál serı́a la media y desviación tı́pica de la resistencia del circuito? b) Se consideran válidos aquellos circuitos cuya resistencia se encuentre en el intervalo (590,610). ¿Qué porcentaje máximo de circuitos defectuosos se fabrica? Problema 14 La función de densidad de la variable aleatoria bidimensional (X, Y ) viene dada por: kxy si 0 < x < y < 1 f (x, y) = 0 resto a) Calcular el valor de k. b) Calcular la probabilidad P (X < 0.5| Y = 0.5). c) ¿Son independientes X e Y ? Razona tu respuesta. Problema 15 II.2 El tiempo de espera, en horas, entre corredores sucesivos detectados por un radar es una variable aleatoria con función de distribución: F (x) = 0 x≤0 −x/8 1−e x>0 1. Calcular la probabilidad de esperar menos de 12 minutos entre corredores sucesivos. 2. Calcular la función de densidad. 3. Un canal de televisión local se conecta en directo cada vez que un corredor pasa por el puesto de control. Si el tiempo entre corredores sucesivos se rellena con publicidad y supone una ganancia para el canal de 100000 ptas el minuto. ¿Cuál es la ganancia que espera el canal entre las llegadas de dos corredores sucesivos? Problema 16 II.1 Consideremos un dado que tiene dos caras con el número uno, dos caras con el número dos y dos caras con el número tres, de manera que, con el experimento aleatorio ”tirar el dado”, la función puntual de probabilidad de la variable aleatoria X =”Número obtenido”, es k − 81 (x − 1)2 , para x = 1, 2, 3 fX (x) = 0, resto 1. Calcular el valor de k. 34 Variables Aleatorias. 2. ¿Está el dado trucado? 3. Si tienes que apostar por un número, ¿cuál elegirı́as? 4. Se propone el juego siguiente: se apuesta 3 euros, se tira el dado y si sale impar, se recupera la apuesta más 2 euros, mientras que si sale par, se pierde la cantidad apostada. ¿Merece la pena jugar? Problema 17 II.2 El rendimiento de un sistema informático es una variable aleatoria X con función de densidad ( 2 ax + b si 0 < x < 2 f (x) = 0 resto 1. Calcular el valor de las constantes a y b para que f (x) sea verdaderamente una 1 función de densidad sabiendo que la P r(1/2 < X < 1) = . 24 2. Calcular el rendimiento esperado del sistema informático. Problema 18 II.2 Sea X una variable aleatoria cuya función de densidad viene dada por X 1 kx + si 0 < x < 2 6 f (x) = 0 resto Se pide: 1. El valor de la constante k para que f (x) sea una función de densidad. 2. La función de distribución de la variable aleatoria X. 3. El valor esperado de la variable aleatoria X. Problema 19 II.2 La producción de trigo por parte de una determinada región es una variable aleatoria X cuya función de densidad viene dada por ( k(x + 3)(2 − x) si 0 < x < 2 f (x) = 0 resto donde x se expresa en miles de toneladas. Se pide: 1. El valor de la constante k. 2. La probabilidad de que la producción de trigo sea mayor de mil toneladas. 3. Si el beneficio B por cada mil toneladas producidas se obtiene como función de la cantidad producida: B = −1000 + 5000X, ¿cuál será el beneficio esperado? Algunos modelos discretos y continuos. 35 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Algunos modelos discretos y continuos. Problema 1 II.3 Después de ser producida una señal s, con distribución normal de media 12 y desviación tı́pica 0.5, entra en un dispositivo que la transforma en una señal saliente con sólo tres estados: −1, 0, y 1. La señal saliente sout toma el valor −1 si la señal entrante es menor que 11.5, toma el valor 0 si la señal entrante está comprendida entre 11.5 y 12.5, y toma el valor 1 si la señal entrante es mayor que 12.5. (a) Calcular la función puntual de probabilidad de la variable sout y su función de distribución acumulada. (b) Si se observan 1124 valores de la variable sout , ¿cuál es la probabilidad de que haya más de 800 ceros? (c) ¿Cuál es en promedio el número de valores no nulos en 1124 valores de sout ? Problema 2 Una máquina consta de 3 componentes y el tiempo de vida de cada componente sigue una distribución exponencial de media 500 horas. La máquina funciona sólo si funcionan sus 3 componentes (sistema en serie) y se supone que las componentes funcionan independientemente. La polı́tica de mantenimiento consiste en sustituir todos los componentes simultáneamente cada 700 horas. a) ¿Cuál es la probabilidad de que la máquina se averı́e en el intervalo comprendido entre dos renovaciones? b) Si han transcurrido 500 horas desde la última sustitución de todos los componentes y la máquina sigue funcionando, ¿cuál es la probabilidad de que la máquina se averı́e antes de la siguiente renovación? La máquina de la que hablamos, fabrica piezas cuyas longitudes se distribuyen según una Normal de media 32 y desviación tı́pica 0.3 milı́metros, considerándose aceptables aquellas cuya medida se encuentra dentro del intervalo (31.1, 32.6). c) ¿Cuántas unidades hay que inspeccionar por término medio hasta encontrar 5 defectuosas? d) Calcular la probabilidad de que un lote de 500 piezas contenga más de 15 defectuosas. 36 Algunos modelos discretos y continuos. Problema 3 1. La operatividad (en dı́as) de un determinado tipo de explosivos tiene la siguiente función de densidad: x − 0.3 e k si x > 0 f (x) = 0 en caso contrario (a) Calcular el valor de k para que f (x) sea función de densidad. (b) Calcular la probabilidad de que un explosivo deje de ser operativo antes de una semana. 2. La capacidad de unos determinados envases sigue una distribución Normal de media 100 cl y desviación tı́pica 0.4 cl. Según una norma de calidad, se consideran aceptables todas aquellos envases cuya capacidad esté comprendida dentro del intervalo (99, 101). (a) Determinar el porcentaje de envases que cumplen la norma. (b) Supongamos que los envases se empaquetan en lotes de 12 unidades, y un lote se rechaza si contiene más de 2 envases defectuosos. Determinar la proporción de lotes que se rechazarán. (c) Un comprador decide comprar los envases a granel en cajas de 1000 unidades, pero no aceptará aquellas cajas con más de 50 envases defectuosos. Obtener la probabilidad de que el comprador acepte una determinada caja. Problema 4 El tiempo de operatividad (en dı́as) de un determinado tipo de explosivos tiene la siguiente función de densidad: x − f (x) = 3 · k · e 7 si x > 0 a) Definir la variable aleatoria en estudio. Por la forma de su función de densidad, ¿qué modelo de distribución sigue? b) Calcular el valor de k para que f (x) sea función de densidad. c) Determinar la función de distribución de la variable en estudio. d) Calcular la probabilidad de que un explosivo deje de ser operativo antes de una semana. e) Si han transcurrido 5 dı́as desde su elaboración y el explosivo está operativo, ¿cuál es la probabilidad de que el explosivo llegue operativo al dı́a 12? ··············· La empresa encargada de fabricar dichos explosivos tiene una producción mensual de 1000 unidades, proporcionando un 5% de explosivos defectuosos. f ) ¿Cuál es el número medio de explosivos defectuosos fabricados en un mes? Algunos modelos discretos y continuos. 37 g) Determinar la probabilidad de que en un mes se fabriquen más de 30 unidades defectuosas. Problema 5 III.1 La resistencia de ciertos componenetes eléctricos fabricados en un proceso es una v.a. que sigue una distribución Normal de media 36 ohmios y varianza 0.64 ohmios2 . Dicho componente es defectuoso para montarlo en cualquier sistema cuando su resistencia es menor de 35 ohmios. Se pide: (a) Proporción de componentes defectuosos. (b) Se toma una muestra aleatoria de 400 de dichos componentes, ¿probabilidad de que hayan al menos 350 componentes no defectuosos? (c) Un sistema acopla 2 componentes en serie, calcular la probabilidad de que el sistema funcione. ¿Y si se acoplan en paralelo? Problema 6 III.1- Una empresa dispone de una envasadora automática para su producto estrella : el zumo de tomate. En la etiqueta del bote, el volumen especificado es 375ml. Si X denota el volumen real de zumo contenido de un bote escogido al azar, lo deseable es (escoger de manera razonada la opción correcta) 2 a) µX = 375, y σX lo más grande posible 2 b) µX = 375, y σX lo más pequeño posible. 2 c)µX = 375, y σX negativo. 2 d) Da igual el valor de σX , lo importante es µX = 375 III.2- En la elaboración de un determinado medicamento en forma de comprimido intervienen 1 producto quı́mico cuya cantidad sigue aproximadamente una distribución Normal de media 3 grs. de desviación tı́pica 0.05 grs. (a) Calcular la probabilidad de que un comprimido pese más de 3.025 grs. (b) Un comprimido se considera defectuoso cuando su peso difiere de la media en más de 0.075 grs. Calcular la proporción de comprimidos defectuosos que se fabrican. (c) Estos comprimidos se envasan en cajas de 10 unidades. Si un envase contiene 2 o más comprimidos defectuosos se elimina del mercado. Determinar el porcentaje de cajas que se retiran del mercado. (d) Una farmacia hace un pedido de 100 cajas de dicho medicamento. Calcular la probabilidad de que en el pedido haya más de 40 cajas no aptas para la venta. Problema 7 III.- Estamos considerando interruptores eléctricos fabricados por dos marcas A y B. 38 Algunos modelos discretos y continuos. (a) El tiempo de vida de un interruptor eléctrico de la marca A sigue una distribución exponencial de vida media 2 años. Calcular la probabilidad de que falle a lo largo del primer año. (b) La probabilidad de que falle durante el primer año un interruptor de la marca B es 0.25. Si se instalan 10 interruptores de esta marca en diferentes sistemas (no conectados), calcula la probabilidad de que a lo sumo 2 de ellos fallen a lo largo el primer año. (c) Si instalamos ahora 100 interruptores de la marca B en diferentes sistemas (no conectados), calcula la probabilidad de que a lo sumo 30 de ellos fallen durante el primer año. Problema 8 III.1.- Una máquina A fabrica teclas cuadradas estándar de teclados de PCs, siguiendo la longitud de los lados una distribución con media 12.5 mm y desviación tı́pica 0.0025 mm. Si alguna de las piezas difiere en más de 0.005 mm de la media es rechazada, ya que provocarı́a un fallo en la cadena de montaje del teclado. (a) ¿Cuál es, como máximo, el porcentaje de piezas defectuosas que fabrica la máquina A.? (b) Suponemos ahora que la distribución de la longitud de los lados sigue una distribución normal, hallar la probabilidad de que elegida una tecla al azar, fabricada por la máquina A, ésta sea defectuosa. En la empresa, hay otra máquina B que también fabrica teclas similares, pero para esta máquina, la proporción de teclas defectuosas es igual a 1%. Cada máquina produce la mitad de la producción total. (c) ¿Cuál es la probabilidad de que, escogiendo una tecla al azar entre la producción, resulte defectuosa? (d) Se elige una tecla de cualquiera de las dos máquinas y resulta ser defectuosa ¿Qué probabilidad tiene de haber sido producida por la máquina A?. (e) Se sabe que los teclados contienen 100 de éstas piezas que se escogen al azar entre la producción total. Son rechazados cuándo alguna tecla es defectuosa, ¿qué probabilidad tiene un teclado de ser rechazado?. Problema 9 II.1.- La resistencia de ciertos componentes electrónicos tienen una distribución de probabilidad desconocida, con µ = 200 Ω y σ = 2 Ω.Por motivos técnicos se consideran válidos solo aquéllos circuitos cuya resistencia se encuentre en el intervalo [195, 205] . (a) ¿Qué porcentaje máximo de componentes defectuosos se fabrica?. (b) Si suponemos ahora que la resistencia de dichos componentes sigue una distribución N ormal de media 200 Ω y desviación tı́pica 2 Ω, determinar el porcentaje de componentes defectuosos que se fabrica. Comparar el resultado obtenido con el del apartado (a). Algunos modelos discretos y continuos. 39 (c) Un determinado tipo de circuitos contiene 2000 de dichos componentes. Determinar la probabilidad de que haya más de 30 defectuosos. Problema 10 1. Una pieza está formada por la unión de cuatro partes cilı́ndricas Las longitudes de cada una de las partes se denotan por L1 , L2 , L3 , L4 . Suponemos que cada una de las variables L1 , L2 , L3 , L4 sigue una distribución normal de misma media 100mm y misma desviación tı́pica 1. Suponemos además que las cuatro variables son independientes. La pieza es rechazada, si su longitud total difiere en mas de 4 mm de la media. Sabiendo que la unión de las cuatro partes que componen dichas piezas no admite superposiciones: (a) Definir la variable aleatoria adecuada, ası́ como su distribución de probabilidad y determinar el porcentaje de piezas que será aceptado. (b) Si las piezas se empaquetan en lotes de 100 u. Queremos garantizar al cliente que el 90% de los lotes no contiene más de m piezas defectuosas. Determinar dicho número m. (Definir previamente la v.a. adecuada y su distribución). Problema 11 1. El contenido en calcio de la leche de un tetrabrik escogido al azar entre la producción de una empresa láctea sigue una distribución desconocida de media µ = 1200mg y desviación tı́pica σ = 50mg. Se considera que el tetrabrik cumple con las especificaciones del producto si su contenido en calcio está comprendido entre 1075mg y 1325mg. (a) dar una cota para el porcentaje de tetrabriks en la producción de la empresa que no cumplen con las especificaciones. Se supone ahora que la distribución del contenido en calcio sigue una distribución Normal de media µ = 1200 y desviación tı́pica σ = 50mg. b) Calcular el porcentage de tetrabriks en la producción que no cumplen con las especificaciones. c) Un supermercado compró 2000 tetrabriks a la empresa, ¿ cuál es la probabilidad de que haya más de 30 tetrabriks en el lote que no cumplen con las especificaciones? Problema 12 II.1.- La cantidad de almendra que contiene una nueva barra de helado se distribuye según una normal de media 60gr. y de desviación tı́pica 2gr.. Se pide: (a) Las barras de helado se ponen a la venta cuando su cantidad de almendra no difiere en más de 4 gr. de la cantidad media. ¿Qué porcentaje de ellas se ponen a la venta? 40 Algunos modelos discretos y continuos. (b) Obtener la cantidad x para la cual el 33% de las barras tienen una cantidad de almendra superior al valor x. (c) Si las barras de helado se meten en cajas de 150 unidades, ¿Cuál es la probabilidad de que en una caja contenga por lo menos 140 barras aptas para la venta? (d) Encontrar una cota para la proporción de defectuosos en el caso de que no conociésemos la distribución de probabilidad que sigue la cantidad de almendra por barra. Problema 13 1. En una estación agronómica se ha obtenido un tipo de semilla de maı́z de calidad extra que germina en el 98% de los casos. Sabiendo que las semillas se distribuyen en bolsas, (a) Defina la posible variable aleatoria asociada al estudio e indique su distribución. (b) Si las bolsas contienen 10 granos y cierta empresa las somete a un control de calidad, en el que son desechadas si presentan más de dos granos que no germinan. Defina la variable de interés, y indique la probabilidad de que al escoger una bolsa al azar no supere dicho control de calidad. (c) Si las semillas se distribuyen en bolsas de 500 granos y se garantiza al cliente la germinación de un 96% de las semillas como mı́nimo. ¿Cuál es la probabilidad de que una bolsa no cumpla la garantı́a?. (d) Si en una caja introducimos 5000 granos. ¿Cuál es la probabilidad de que germinen exactamente 4905 granos?. Problema 14 1. La dimensión de ciertas piezas sigue una distribución normal de media 150 y desviación tı́pica 0.4. Sabiendo que se consideran aceptables todas aquellas piezas cuya longitud se encuentre dentro del intervalo (149’2 , 150’4). Determinar: (a) El porcentaje de piezas defectuosas. (b) Supongamos que se empaquetan en paquetes de 12 unidades, y un lote se rechaza si contiene más de 3 defectuosas. Determinar la proporción de lotes que se rechazarán. (c) Un determinado comprador decide comprarlas a granel en cajas de 360 unidades, pero no aceptará aquellas cajas con mas de 90 defectuosas. ¿Qué probabilidad tenemos de que nos acepte las cajas?. Comentar los resultados obtenidos en los dos últimos apartados. Problema 15 1. Una determinada empresa dedicada a la fabricación de cemento-cola ha adquirido una máquina de envasado. Según los datos que le suministra el fabricante de la envasadora, la cantidad que proporciona por bolsa es una variable aleatoria normal cuyo promedio es de 2000 gramos y su desviación tı́pica es de 50 gr. Por otro lado, el fabricante de las bolsas en las que se que se empaqueta el producto le garantiza que el peso de las bolsas se distribuye según un modelo Normal de media 50 gr. y desviación tı́pica de 5 gr. Sabiendo que un saco de cemento-cola se considera defectuoso si su peso final es inferior a 1950 gr., Algunos modelos discretos y continuos. 41 (a) Determinar la proporción de sacos defectuosos que producirá con esta envasadora. (b) Si los sacos se almacenan en palés de 500 unidades, determinar la probabilidad de que un palé contenga más de 20 sacos defectuosos. ¿Cuál es el número de sacos defectuosos esperado en cada palé?. (c) Determinar un intervalo que contenga el 95% de los valores del la variable peso del palé. Problema 16 El valor de una determinada a señal s producida por un aparato sufre pequeñas perturbaciones que consideramos aleatorias. II.1 (a) ¿Qué queremos decir con la expresión “las perturbaciones son aleatorias”? Introduce la variable aleatoria conveniente. (b) Decidimos modelizar la distribución de los valores de la señal por una distribución Normal. ¿Cuál es, en tu opinión, el procedimiento que nos ha llevado a escoger este modelo de distribución para nuestra variable aleatoria? ¿Qué representan la media y la desviación tı́pica de esta variable aleatoria? (c) Supongamos que la distribución de los valores de s se puede aproximar por una distribución normal con media 12 y desviación tı́pica igual a 0.5. ¿Cuál es la proporción de los valores de la señal qué están comprendidos entre 11.75 y 12.25? ¿y mayores de 13? ¿y mayores de 11? (d) Entre los valores de la señal que son mayores que 12.5, ¿cuál es la proporción de valores que son mayores que 13? Problema 17 II.1 El tiempo de vida (en horas) de un componente electrónico viene determinado por la siguiente función de densidad: −1 2ke 5 x si x > 0 f (x) = 0 resto 1. Calcular k y la función de distribución acumulada asociada. 2. ¿Qué porcentaje de componentes de este tipo duran entre 2 y 10 horas?. ¿Y más de un dı́a?. Determinar la probabilidad de que un componente dure exactamente 1 hora. 3. Si se consideran 40 componentes del tipo anterior, obtener razonadamente la probabilidad de que la vida media de los 40 componentes esté comprendida entre 2 y 10 horas. 4. El consumo eléctrico de cada componente es de 0.2 euros por hora de funcionamiento. Un determinado sistema trabaja cada dı́a con 40 componentes simultáneamente, sin que exista reposición tras el fallo. Si nos proponen una tarifa plana para el consumo eléctrico de 50 euros al dı́a, ¿aceptarı́a la oferta? 42 Algunos modelos discretos y continuos. Problema 18 1. El tiempo de duración de un ensamble mecánico en una prueba de vibración sigue una distribución exponencial de media 400 horas. Entonces: (a) Determinar la probabilidad de que el ensamble falle durante la prueba antes de 100 horas. ¿Cuál es la probabilidad de se produzca el fallo después de 500 horas?. (b) Si el ensamble se ha probado durante 400 horas sin fallo, determinar la probabilidad de que falle antes de las 500 horas. (c) Si durante el ensayo se han probado 10 ensambles de manera independiente, determinar la probabilidad de que falle al menos uno de ellos antes de 500 horas. ¿Cuál serı́a la probabilidad de que fallasen todos transcurridas 800 horas?. 2. El diámetro del punto producido por una impresora sigue una distribución normal de media 2 milipulgadas y desviación tı́pica de 0.4 milipulgadas. (a) Determinar entre que valores se encontrarán el 95% de los diámetros de los puntos que produce la impresora. ¿Podemos acotar dicha probabilidad, utilizando alguna desigualdad, si no suponemos que su distribución es normal?. Razona tu respuesta (b) Determinar la probabilidad de que el diámetro del punto esté entre 1.4 y 2.6 milipulgadas. (c) Si deseamos que el 95% de los puntos tengan un diámetro comprendido entre 1.4 y 2.6 milipulgadas, determinar la desviación tı́pica a la que deberı́amos ajustar la impresora. Problema 19 Se está probando un nuevo conservante en un determinado producto alimenticio que se comercializa por piezas. En el 75% de los casos se consiguió aumentar su duración, en el 20% no varió y en el 5% restante su duración disminuyó. 1. Si se utiliza el nuevo conservante en 12 piezas, calcular la probabilidad de que i) 7 de ellos tengan una duración superior a la usual, ii) al menos 3 mejoren , iii) como máximo 3 de las piezas tengan una duración inferior a la usual . 2. Si se utiliza en 150 unidades, calcular la probabilidad de que mejoren su duración i) entre el 70 y el 75% de las piezas, ii) más del 80%. Se está probando un nuevo pienso con determinados animales. En el 70% de los casos los animales mejoran en peso, en el 20% no varı́an de peso y en el 10% pierden peso. 1. Si se administra el nuevo pienso a 10 animales, calcular las probabiliades de que i) 7 mejoren en peso, ii) al menos 3 mejoren en peso, iii) 4 sigan igual, iv) como máximo 3 pierdan peso. 2. Si se administra a 100 animales, calcular las probabilidades de que mejoren en peso i) entre el 60 y el 65% de los animales, ii) más del 80%. Algunos modelos discretos y continuos. 43 Problema 20 1. En un proceso de fabricación se elaboran dispositivos electrónicos cuyos tiempos de vida vienen determinados por una exponencial de media 1 hora. Los dispositivos se inspeccionan antes de ser exportados, considerándose defectuosos aquellos cuyo tiempo de vida no supere los 12 minutos. Para ello, el responsable de control de calidad pone en funcionamiento cada uno de los dispositivos fabricados durante 12 minutos. (a) ¿Qué porcentaje de dispositivos defectuosos se elaboran diariamente? (b) Si un usuario adquiere un dispositivo que ha superado el control de calidad, ¿cuál es la probabilidad de que falle antes de 12 minutos? (c) Los dispositivos se comercializan en cajas de 300 unidades. Determinar la probabilidad de que en una caja se encuentren más de 20 dispositivos con tiempo de vida inferior a 12 minutos. Problema 21 II Consideramos el experimento aleatorio: “escogemos al azar un usuario del ascensor B” y la variable aleatoria T =“ Tiempo de espera” en segundos. Decidimos que vamos a modelizar la distribución de los valores de T por una exponencial de parámetro λ. 1. Basándonos en los valores del apartado I.1, ¿cuál deberı́a ser aproximadamente el valor de λ para que nuestro modelo ajuste satisfactoriamente los datos observados? 2. Suponiendo que T sigue una distribución exponencial de parámetro 0.008, calcula las siguientes probabilidades: P(T ≤ 125), P(125 < T ≤ 250), P(250 < T ≤ 375) y P(375 < T ≤ 500). Compara los resultados obtenidos con la tabla de frecuencias de los datos observados. ¿Confirman la adecuación de nuestro modelo teórico a los datos observados? 3. Suponiendo que T sigue una distribución exponencial de parámetro 0.008, calcula la probabilidad de que un usuario tenga que esperar más de 2 minutos. Si sabemos que un usuario ya ha esperado 1 minuto, ¿cuál es la probabilidad de que espere otros dos minutos más? III Los usuarios que tienen que esperar más de 4 minutos renuncian a coger el ascensor y deciden subir andando. Si en una semana se suelen presentar unos 1000 usuarios para coger el ascensor B, y suponiendo que el tiempo de espera en segundos sigue una distribución exponencial de parámetro 0.008, 1. en promedio ¿qué número deciden coger las escaleras después de haber esperado cuatro minutos? 2. ¿Cuál es la probabilidad de que, en una semana, más de 100 usuarios renuncien a coger el ascensor por haberse agotado su paciencia? 44 Algunos modelos discretos y continuos. Problema 22 II.1 El 10% de las personas de una determinada población padece glaucoma. Para personas que padecen glaucoma, la medida de presión ocular X sigue una distribución normal con media 25 y varianza 1. Para personas que no tienen glaucoma la presión X se distribuye normalmente con media 20 y varianza 1. 1. Si se selecciona una persona al azar ¿Cuál es la probabilidad de que al medir su presión ocular se obtenga un valor mayor que 20? 2. ¿Cuál es la probabilidad de que esa persona padezca glaucoma? 3. Se realiza un estudio sobre la salud ocular de 100 individuos seleccionados al azar. ¿Cuál es la probabilidad de que el número de personas con glaucoma no exceda de 15? Problema 23 En un gran almacén, el número de clientes que llegan a una caja cada 15 minutos puede modelarse como un proceso de Poisson de media 2. a) ¿Qué distribución sigue el número de clientes que llegan a una caja cada hora? Justifica tu respuesta. b) Calcular la probabilidad de que, en una hora, lleguen al menos 8 clientes a una caja determinada. c) Calcular la probabilidad de que un individuo, situado en la cola de una caja, tenga que esperar más de 3 minutos hasta dejar de ser el último. d) Si el local mantiene abiertas sus 50 cajas durante una hora, determinar la probabilidad de que al menos 10 de estas cajas reciban 8 clientes o más. Problema 24 La función de densidad de una variable aleatoria X viene dada por: x si 0 ≤ x ≤ 4 8 f (x) = 0 resto Se generan secuencialmente valores de esta variable. ¿Cuántos valores de X habrá que generar por término medio hasta obtener un valor mayor que 3? Problema 25 II.1 Los socios de una cooperativa agrı́cola cultivan naranjas. De las campañas anteriores, se sabe que el 5% de las naranjas que llegan a la cooperativa no se puede utilizar para la exportación ya que su diámetro es pequeño. Algunos modelos discretos y continuos. 45 1. Calcular la probabilidad de encontrar 5 naranjas no destinadas a la exportación cuando inspeccionamos una muestra de 20 naranjas. 2. Hallar la probabilidad de que en 250 naranjas se encuentren entre 227 y 240 naranjas que se pueden utilizar para la exportación. II.2 El tiempo de vida (en horas) de un componente electrónico es una variable aleatoria X con función de densidad ( 4ke−0.2x si x > 0 f (x) = 0 en el resto 1. Calcular el valor de la constante k y la función de distribución asociada. 2. ¿Qué porcentaje de componentes de este tipo duran entre 2 y 8 horas? Determinar la probabilidad de que un componente dure exactamente 1 hora. 3. Si se consideran de manera independiente 36 componentes del tipo anterior, obtener razonadamente la probabilidad de que la vida media de los 36 componentes esté comprendida entre 2 y 8 horas. Problema 26 II.1 Una determinada empresa dedicada a la fabricación de abono ha adquirido una máquina de envasado. Según los datos que le suministra el fabricante de la envasadora, la cantidad que proporciona por bolsa es una variable aleatoria normal cuyo promedio es de 2000 grs. y su desviación tı́pica es de 50 grs.. Por otro lado, el fabricante de las bolsas en las que se empaqueta el producto le garantiza que el peso de las bolsas se distribuye según un modelo normal de media 50 grs. y de desviación tı́pica 5 grs.. Sabiendo que un saco de abono se considera defectuoso si su peso final es inferior a 1950 grs.. 1. Si P denota la variable aleatoria peso final del saco de abono, traducir los datos del enunciado sobre la distribución de P . 2. Determinar la proporción de sacos defectuosos que se producen. 3. Si los sacos se almacenan en palés de 500 unidades, determinar la probabilidad de que un palé contenga más de 20 sacos defectuosos. ¿Cuál es el número de sacos defectuosos esperado en cada palé? II.2 El número de visitas realizadas en un dı́a entre semana en una determinada página web se decide modelizar por una variable de Poisson de media 8. Se pide: 1. ¿Cuál es la probabilidad de que en un dı́a se reciban más de 4 visitas? Y ¿entre 7 y 10 visitas (ambos incluidos)? 2. ¿Cuál es la probabilidad de que al escoger al azar una semana laboral (de lunes a viernes), haya 3 dı́as con más de 4 visitas? Problema 27 46 Algunos modelos discretos y continuos. II.2 Un sistema está formado por dos componentes independientes, A y B. El tiempo de vida de la componente A, en miles de horas, es una variable aleatoria con función de distribución dada por: − 5t 1 − e si t > 0 FA (t) = 0 resto y el tiempo de vida de la componente B, es una variable aleatoria exponencial de media 6000 horas. Se pide: 1. La probabilidad de que la componente A funcione al menos 2000 horas. Idem para la componente B. 2. Un sistema de este tipo se considera apto cuando al menos una de las dos componentes funciona por lo menos 2000 horas. Determinar la probabilidad de que el sistema sea apto. 3. Estos sistemas se empaquetan en lotes de 1000 unidades. Determinar la probabilidad de que al menos el 90% de ellos sean aptos. Problema 28 II.2 La contaminación de las plantas de una determinada zona de un rı́o puede ser debida exclusivamente a dos causas independientes: la sal o el plomo. Se considera que una planta está contaminada de sal si su nivel de sales es superior a 7 y se sabe que el nivel de sales en las plantas de la zona se distribuye según una Exponencial de media 4 unidades. La probabilidad de que una planta esté contaminada de plomo es del 4%. 1. Si el experimento aleatorio consiste en elegir una planta de dicha zona al azar, interpretar los datos que se aportan en términos de sucesos y probabilidades. Calcular la probabilidad de que la planta esté contaminada. 2. Calcular la probabilidad de que la planta esté contaminada por plomo pero no por sales. 3. Las plantas de la zona terminan secándose en un determinado lapso de tiempo con las siguientes probabilidades: • 0.09 cuando no están contaminadas, y • 0.8 cuando presentan alguno de los dos posibles contaminantes. Interpretar esta nueva información en términos de sucesos y probabilidades. Calcular la probablidad de que una planta elegida al azar se seque. Si la planta se ha secado, ¿cuál es la probabilidad de que haya sido por un nivel alto de contaminación? 4. Si el investigador selecciona al azar una muestra formada por 8 plantas, ¿cuál es la probabilidad de que al menos 2 de ellas se sequen? ¿Y la que en una muestra de 100 el 75% de ellas no se sequen? II.3 X es una variable aleatoria que sigue una distribución normal de media µ = 4 y varianza σ 2 . Sabiendo que el 99.7% de los valores de X se encuentran entre 3.25 y 4.75, calcular la varianza de X. Problema 29 Algunos modelos discretos y continuos. 47 II.1 La memoria RAM para un ordenador se puede recibir de dos fabricantes A y B con igual probabilidad. Si la memoria proviene del fabricante A, la probabilidad de que falle antes del tiempo especificado por la garantı́a es P r(X ≤ 1) donde la variable X sigue una ley exponencial de parámetro λ = 0.2; si la memoria proviene del fabricante B, la probabilidad de que falle antes del tiempo especificado por la garantı́a es P r(|Y | < 2) donde Y tiene una distribución normal de media µ = 4 y varianza σ 2 = 4. 1. Si el experimento aleatorio consiste en probar una memoria RAM hasta que falla, traducir los datos del enunciado, introduciendo los sucesos convenientes. 2. ¿Cuál es la probabilidad de que una memoria RAM falle antes del tiempo especificado por la garantı́a? 3. Si se ha observado que la memoria RAM ha fallado, ¿cuál es la probabilidad de que proceda del fabricante A? 4. Si se tienen 100 memorias RAM, ¿cuál es la probabilidad de que al menos el 90% de ellas duren más que el tiempo especificado por la garantı́a? II.3 El número de partı́culas que emite una fuente radiactiva en un determinado periodo de tiempo puede modelizarse por una distribución de Poisson de media 2 partı́culas. Calcular: 1. Probabilidad de que se emitan más de tres partı́culas en dicho periodo de tiempo 2. Si se observan 25 periodos de tiempos similares, ¿cuál es la probabilidad de que en los 25 periodos se emitan más de 3 partı́culas? Problema 30 III.3 La duración, en horas, de cierto componente eléctrico sigue una distribución exponencial de media y desviación tı́pica igual a 80 horas. 1. Determinar la probabilidad de que la duración de un componente difiera de su media a lo sumo en dos desviaciones tı́picas. 2. Se considera que un componente eléctrico es defectuoso si su duración es superior a 160 horas. Se pide: (a) Proporción de componentes defectuosos que se producen. (b) Si se toman 500 componentes eléctricos al azar, ¿cuál es la probabilidad de que hayan exactamente 50 componentes defectuosos? Problema 31 II.3 El número de erratas por página en un libro de texto sigue una distribución de Poisson con una media de 0.2 errores. 1. Calcular la probabilidad de que en una página haya al menos una errata. 48 Algunos modelos discretos y continuos. 2. Si un libro se considera defectuoso para ponerlo a la venta cuando hay tres o más errores en 10 páginas del libro, ¿cuál es el porcentaje de libros defectuosos que se ponen a la venta? 3. Si se examina un lote de 100 libros. Calcular la probabilidad de que el número de libros defectuosos sea inferior a 25. Problema 32 El montaje de un eje se realiza a base de unir (sin superposiciones) dos piezas I y II. La longitud de la pieza I sigue una distribución normal de media 54 decı́metros (dm.) y de desviación tı́pica 4 dm. La longitud de la pieza II sigue una distribución normal de media 13 dm. y de desviación tı́pica 3 dm. Supongamos que las dos piezas son variables aleatorias independientes. El eje es correcto si su longitud total está entre 55 y 78 decı́metros. (a) ¿Cuál es el porcentaje de ejes defectuosos que se fabrican? (b) Si empaquetamos las piezas en lotes de 5 ejes, y se acepta un lote si no contiene más de un eje defectuoso, ¿cuál es la probabilidad de rechazar un lote? (c) Si tomamos 1000 ejes al azar, ¿cuál es la probabilidad de que a lo sumo haya 35 ejes defectuosos? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 49 Universidad Politécnica de Cartagena Dpto. Matemática Aplicada y Estadı́stica Métodos estadı́sticos de la ingenierı́a, Estadı́stica Problemas de examenes: Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 1 III.1 Hemos planteado un contraste de hipótesis bilateral sobre la media de una población. Después de extraer una muestra de la población, y calcular el estadı́stico adecuado resulta que rechazamos H0 al nivel de 95% de confianza, pero que, si fijamos la confianza en 98% no podemos rechazar H0 . 1. ¿Cuál serı́a nuestra decisión con 90% de confianza? 2. Entre las opciones siguientes, indicar las correctas razonándo la respuesta: a) El p-valor es mayor que 0.1 b) El p-mayor es menor que 0.05. c)El p-valor es menor que 0.02 d) El p-valor está comprendido entre 0.02 y 0.1. III.2 En la dirección http://dataservice.eea.eu.int/dataservice/, se pueden encontrar los datos de emisión de CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997. Se indican a continuación la diferencia D entre la emisión de este contaminante por España y la media europea de emisión entre los años 1990 y 1997. Año (X) 1990 1991 1992 1993 1994 1995 1996 1997 D -2.1 7.89 20.33 10.27 22.98 33.41 16.66 38.91 ( Megatoneladas) Suponiendo que la variable D sigue una distribución aproximadamente normal, se pide: 1. Construir detalladamente el intervalo de confianza al 95% de confianza para el promedio de la variable D. 2. Plantear y llevar a cabo el contraste para contestar a la pregunta: ¿Se puede afirmar que, en estas condiciones, España contamina significativamente más que la media de los paı́ses europeos? Problema 2 1. Con el fin de determinar la temperatura de deflexión bajo carga de un tipo de tuberı́as de PVC, se realizó un experimento consistente en tomar 12 de ellas anotando la temperatura de deflexión observada (en 0 F). Los resultados fueron los siguientes: Temp. Deflexión 206 188 205 187 194 193 207 185 189 213 192 210 Suponiendo que la temperatura de deflexión de las tuberı́as es una variable aleatoria Normal: 50 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. (a) Construir de manera detallada un intervalo de confianza al 95% para la temperatura de deflexión promedio. (b) Si en la estimación anterior queremos cometer un error inferior a 2 0 F, determinar el tamaño de la muestra mı́nimo necesario para garantizar este objetivo. (c) ¿Podemos afirmar que la temperatura media de deflexión de las tuberı́as es superior a 196 o F?. Plantear un contraste para este estudio y tomar una decisión en base a los datos muestrales al 95% de confianza. (d) Suponiendo que la varianza poblacional de la variable en estudio es conocida y vale 100, determinar el p-valor del contraste anterior y discutir la conclusión que se obtiene para los niveles de confianza 90%, 95% y 99%. Problema 3 Una empresa dedicada a la fabricación de material de construcción está interesada en estudiar la conductividad térmica de un tipo de ladrillos. Para ello, seleccionó una muestra de 36 unidades de manera aleatoria, obteniendo una conductividad media de 0.343 y una desviación tı́pica muestral de 0.01. Suponiendo que los datos proceden de una distribución Normal, responder a las siguientes cuestiones: a) Construir, detalladamente, un intervalo de confianza al 95% para la conductividad media de dicho tipo de ladrillos. b) ¿Qué interpretación tiene un intervalo de confianza al 95%? c) Expresar el intervalo de confianza obtenido en el apartado (a) en la forma (valor estimado ± Error) ¿Son suficientes 36 ladrillos para cometer un error inferior a 0.01 en la estimación de la conductividad media?. d) Un competidor afirma que la conductividad térmica de esos ladrillos es superior a 0.340. Plantear un contraste que nos permitirá contestar a la afirmación realizada anteriormente y tomar una decisión en base a los datos muestrales al 95% de confianza. e) Determinar una cota inferior y una cota superior para el p-valor del contraste anterior y discutir la conclusión que se obtiene para los niveles de confianza 90%, 95% y 99%. Problema 4 III.1 Se desea construir un intervalo de confianza para la media poblacional de una distribución normal con desviación tı́pica σ conocida. Se fija un margen de error máximo permitido y se busca el tamaño muestral necesario para garantizar este margen de error con una confianza de 95%. Para cada una de las afirmaciones siguientes, indicar cuál es verdadera o falsa, razonando la respuesta, a) El tamaño muestral necesario aumentará si disminuye σ. b) El tamaño muestral necesario disminuirá si se fija una confianza de 99% c) Si el margen de error permitido aumenta, el tamaño muestral necesario disminuye. III.2. Una máquina de refrescos en un restaurante de carnes asadas se ajusta de modo que la cantidad de bebida que sirva esté distribuida de forma aproximadamente normal con una media de 200 mililitros y una desviación tı́pica de 15 mililitros. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 51 1. La máquina se verifica diariamente con una muestra de nueve bebidas. Con el cálculo del contenido promedio, construir una gráfica de control para este problema. ¿Cuándo diremos que la máquina no opera de modo correcto? 2. Un dı́a se obtiene que x̄ = 211ml, admitiendo que σ = 15ml, construir un procedimiento de contraste para contrastar la hipótesis de que µ es efectivamente 200. (con un nivel de significación 5%) 3. Calcular la potencia de dicho contraste para una alternativa de µ = 215. Problema 5 IV.1- Se quiere contrastar acerca de una población normal la hipótesis nula siguiente : H0 : µ = 120 frente a una alternativa bilateral. Antes de diseñar el experimento, el ingeniero decide evaluar la potencia del test planeado contra la hipótesis alternativa H1 : µ = 130. a) ¿Por qué es importante conocer un valor aproximado de la potencia de un test antes de realizarlo? b) Para un valor de α de 0.05, el ingeniero encuentra una potencia del 50%. Entre las afirmaciones siguientes indica cuáles son las correctas: 1) 2) 3) 4) Aumentará Aumentará Aumentará Aumentará esta potencia si aumenta la desviación tı́pica. esta potencia si disminuye el número de observaciones. la potencia si se escoge H1 : µ = 140. la potencia si se escoge α = 0.1 IV.2- El peso medio de un niño nacido en USA es 3315 gramos. Sea X el peso al nacer de un niño nacido en España. Suponiendo que X sigue una distribución normal, queremos contrastar la hipótesis de H0 : µX = 3315, frente a la alternativa µX < 3315 usando una muestra de n = 30 niños. a) Construye la región crı́tica para un nivel de significación α = 0.05 b) Si se observa una media muestral para n = 30 niños de 3189 y una desviación tı́pica muestral de 488 ¿Qué concluyes? c) Con los datos del apartado anterior, construye detalladamente el intervalo de confianza al 95% para µX. Problema 6 IV.1 Se realiza una medición de una señal en un laboratorio, sabiendo que la desviación tı́pica de las medidas es σ = 10. El operador repite la medición 5 veces y proporciona como valor de la señal la media x̄ de sus 5 mediciones. (a) ¿Cuál es la desviación tı́pica de los resultados proporcionados? (b) ¿En qué sentido es mejor repetir varias veces la medición y proporcionar la media de los valores obtenidos, y no sólo realizar una única medición? 52 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. IV.2- Si se plantea una hipótesis nula acerca de una población y sabemos que es rechazada a un nivel de confianza del 95%. Entre las afirmaciones siguientes indica cuáles son las correctas: a) Siempre será rechazada al 99% de confianza. b) Puede no ser rechazada al 99% de confianza. c) También será rechazada al 90% de confianza d) Nunca será rechazada al 90% de confianza. IV.3- Dos disciplinas de cola para servicio de CPU han sido propuestas por dos diseñadores de sistemas operativos. Para compararlas se instalaron en dos máquinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8 tareas aleatoriamente elegidas: A B 2.41 6.50 3.29 1.22 2.59 2.81 5.35 1.78 2.30 5.86 3.71 1.10 2.34 2.24 5.00 1.95 (a) Realizar, en una misma gráfica, los diagramas de caja-bigotes de cada una de las variables. ¿Qué información se puede deducir de esta gráfica para comparar las dos disciplinas de cola? (b) Suponiendo que la distribución que sigue cada variable se puede aproximar por una Normal, calcular el intervalo de confianza para la diferencia entre el tiempo promedio de espera con la disciplina A y el tiempo promedio de espera con la disciplina B. Comparar los resultados obtenidos con el apartado anterior. Problema 7 IV.1- Se realiza una encuesta para conocer la proporción de españoles que piensan que su selección va a ganar la Eurocopa. Para ello, se escoge una muestra, y el resultado es (antes del partido contra Noruega) 60% más o menos 3 puntos, con un nivel de confianza de 95%. ¿Por qué no se puede afirmar sin más que la proporción de españoles que piensan que su selección va a ganar la Eurocopa es de 60%? Explica lo que significa ” con un nivel de confianza de 95%”. IV.2- Se está investigando el tiempo de secado de una pintura tapaporos. Por estudios anteriores, se sabe que la distribución de los tiempos de secado es aproximadamente normal con una desviación tı́pica de 8mn. Se diseña un experimento en el que se mide el tiempo de secado para 10 cuadrados pintados, y se encuentra una media de 121minutos (mn). (a) Construir detalladamente un intervalo de confianza al 95% de confianza para el tiempo promedio de secado de la pintura. (b) ¿Se puede afirmar al 95% de confianza que el tiempo promedio de secado es mayor de 115mn? Calcular el p-valor asociado a la prueba. (c) ¿Cuántos cuadrados pintados deberı́an probarse en el experimento si queremos asegurarnos que, con una confianza de 95%, el margen de error cometido no será mayor que 4mn? (d) Planeamos contrastar, con 95% de confianza y una muestra de 10 cuadrados pintados, la hipótesis de que el tiempo promedio de secado es igual a 115mn. ¿Cuál es la potencia del test contra la alternativa µ = 120 ? ¿Te parece suficiente? ¿Cómo se podrı́a mejorar? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 53 Problema 8 IV.1.- Un estudiante lee un artı́culo donde se afirma que un intervalo de confianza al 95% para la altura media de los españoles mayores de 18 años es [1.66, 1.72]. Se le pregunta por el significado de esta afirmación y contesta que quiere decir que el 95% de los españoles tiene una altura comprendida entre estos dos números. ¿Crees que su respuesta es correcta? Razónalo. IV.2.- Para calibrar un instrumento de medición, se mide repetidas veces un patrón cuyo peso sabemos igual a 10 gramos. Los valores medidos siguen una distribución normal de media desconocida. En cambio, por estudios anteriores sabemos que podemos considerar la desviación tı́pica igual a 0.0002 gramos. (a) ¿Qué representa la media poblacional de los valores medidos? ¿Qué valdrı́a ésta si el instrumento de medición fuera perfecto? (b) Se mide el patrón cinco veces. La media de las cinco mediciones es igual a 10.0023 gramos. Construir de manera detallada un intervalo de confianza para la media poblacional al 98% de confianza. (c) ¿Cuántas mediciones debemos realizar para conseguir con la media muestral un margen de error de ±0.0001 con 98% de confianza? (d) Queremos determinar si nuestro aparato de medición sobrevalora o infravalora el peso real. Plantea el contraste de hipótesis correspondiente y llévalo a cabo con los datos del apartado (b). Problema 9 IV.1.- ¿Qué es un estimador puntual de un parámetro? ¿Qué propiedades tiene un buen estimador? Dar ejemplos. IV.2.- Para comparar dos programas de digitalización de letra impresa, se sometió cada uno a 50 pruebas. El primero cometió 4 fallos y el segundo 6 fallos. (a) Definir la(s) población(es), y los parámetros de interés. (b) A partir de los datos suministrados por las muestras, ¿puede afirmarse que el primero es significativamente mas fiable que el segundo?. Realizar el contraste para dos niveles de significación distintos. Comentar los resultados obtenidos. (c) Construir detalladamente, con los datos anteriores, el intervalo de confianza correspondiente. (d) Determinar el tamaño mı́nimo requerido de la muestra, correspondiente a cada uno de los programas, si se quiere que el error para ambas estimaciones no exceda de 0.05, con una probabilidad de 0.95. 54 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 10 III.1.- Se analizan dos catalizadores para determinar la forma en que afectan el rendimiento de un proceso quı́mico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se puede sustituir por el catalizador 2, más barato, pero que, según el fabricante, no provoca un descenso del rendimiento. Se llevan a cabo 8 reacciones para cada uno de los catalizadores obteniendo, para el catalizador 1 x̄1 = 92.25, y S1∗2 = 5.69 mientras que para el catalizador 2 : x̄2 = 92.73, y S2∗2 = 8.90. Se suponen normales las variables de interés. (a) Definir la(s) población(es), la(s) variable(s), los parámetros de interés. (b) ¿ Podemos suponer, a partir de los datos que las varianzas de las dos variables son iguales? (c) Basándose en los datos obtenidos, ¿ es cierto que no se puede afirmar que el rendimiento medio del catalizador 2 es menor que el rendimiento medio del catalizador 1? ¿Es aconsejable realizar el cambio de catalizador? Problema 11 III.2.- Una determinada empresa de material fungible puede adquirir los cartuchos de tóner de impresora de dos proveedores distintos. Con el fin de determinar a que proveedor comprar se toma una muestra de tamaño 12 de cada uno de los proveedores obteniendo los siguientes resultados (número de hojas impresas): P roveedor A P roveedor B Media muestral 5459 5162 Cuasivarianza muestral 33703 199928 Si suponemos que las poblaciones son normales con varianzas iguales: (a) Construir un intervalo de confianza para la diferencia entre el número medio de hojas que imprime el cartucho de cada proveedor. (tomar α = 0.05). (b) Razonar que tipo de contraste se debe de realizar con el fin de decidir a qué proveedor comprar y realizar dicho contraste. (tomar α = 0.05). (c) Si se desea construir un intervalo de confianza para la duración media del P roveedor B, calcular cual debe de ser el tamaño de la muestra con el fin de que el error que se comete sea inferior a 100 hojas. (tomar α = 0.05) Problema 12 1. Teorı́a. (a) Definir lo que se entiende por estimador de un parámetro poblacional. (b) ¿Qué es un estimador insesgado? Pon un ejemplo. (c) ¿Qué estimador utilizamos para la varianza poblacional? Argumenta tu respuesta. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 55 2. En una planta piloto de producción de arroz, se estudia la influencia de la temperatura sobre la proporción de granos que germinan. (a) Se colocan 5000 granos en las condiciones de germinación, con una temperatura de 20o C y se observa que germinan 2326 granos. Construir un intervalo de confianza al nivel de 95% para la proporción de granos que germinan si están sometidos a una temperatura de 20o C. (b) Se apartan ahora otros 5000 granos sometiéndolos a una temperatura de 30o C y se observa que germinan 2402 granos. Razona que tipo de contraste se debe realizar para determinar si la proporción de granos que germinan es mayor con una temperatura de 30o que con una temperatura de 20o . Realiza este contraste al nivel de 90%, 95% y 99% ¿Cuál es tu conclusión? Problema 13 1. En una finca, en el momento de la maturación, se quiere estudiar la cantidad media de uva por pie de viña. Si se supone normal la v.a de interés , (a) Definir la variable y la población sujetas a estudio. (b) Se quiere construir un intervalo de confianza al 95% para la cantidad media de uva por cepa, ¿cuál es el tamaño muestral necesario para que el error cometido sea menor que 0.5 kg? (en un estudio realizado en una situación parecida en años anteriores, se estimó la varianza poblacional a 2kg ). (c) Se toma una muestra de 30 cepas, y se obtiene, para esa muestra, una cantidad media de uva por cepa de 4.7kg con una cuasidesviación tı́pica de 1.4kg. Construir un intervalo de confianza al nivel de 95% para la cantidad media de uva por cepa en la finca. (d) El empresario quiere determinar si la cantidad media de uva producida por cepa en la finca es mayor que 4kg. Razonar el tipo de contraste adecuado para ese propósito y realizarlo. (Tomar α = 0.05) Problema 14 III.2.- Un taller acaba de recibir una máquina nueva y busca ajustarla correctamente. Según el técnico vendedor de la máquina, la máquina está ajustada para que no produzca más de 4% de piezas defectuosas. (a) El taller decide tomar una muestra y estimar la proporción de defectuosos producidos por la máquina considerando que la proporción de defectuosos indicada por el fabricante es correcta. Si quiere cometer un error en la estimación de la proporción menor de 0.05, ¿cuál es el tamaño de la muestra que debe tomar? (tomar α = 0.05). (b) Al tomar una muestra de 50 piezas producidas, encuentra 4 defectuosas, hallar el intervalo de confianza al nivel de 95% para la proporción poblacional de defectuosos. (c) La empresa no puede permitirse un nivel de defectuosos mayor de 5%. Razonar que tipo de contraste se debe de realizar con el fin de determinar si la máquina se encuentra mal ajustada, y realizar dicho contraste. (tomar α = 0.05). 56 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 15 1. Para ensayar los efectos de un nuevo fertilizante sobre la producción de trigo, una parcela de terreno se dividió en 175 cuadrados de áreas iguales, todas ellas tenı́an idénticas caracterı́sticas de suelo, exposición a la luz del sol, etc. El nuevo fertilizante se aplicó a 75 de estos cuadrados y el antiguo a los restantes. El número medio de fanegas de trigo cosechadas por cuadrado en los que se utilizó el fertilizante nuevo fue de 12,30 con una cuasidesviación tı́pica de 1,20 fanegas. La media y cuasidesviación tı́pica correspondiente a los otros cuadrados fueron 11,90 y 0,90 respectivamente. Suponga que las poblaciones son normales con igual varianza. Se pide: (a) Defina las variables y las poblaciones que se están sometiendo a estudio. Indique la información suministrada por las muestras, ası́ como los parámetros de interés. (b) Después de haber planteado las hipótesis adecuadas, indicado el error de tipo I y determinado la región de rechazo, determine si se puede afirmar al 99% de confianza que el nuevo fertilizante mejora la producción de trigo. ¿Y al 95%? Razónese. Indique si existe algún nivel de confianza que nos lleve a decir que no existen diferencias significativas entre el fertilizante nuevo y el tradicional. Problema 16 1. Para determinar el contenido exacto de carbonato de calcio de una caliza, se realizan, en las mismas condiciones, 5 mediciones y se obtiene los resultados siguientes: 49.56%, 49.82%, 49.30%, 50.16%, 50.06% Se supone que el valor medido se puede expresar como [CaC03 ]pob + ε, donde [CaC03 ]pob representa el valor exacto (no observable) y ε el error que se comete durante la medición. Suponiendo que ε sigue una distribución normal de media 0 y de varianza desconocida σ2. (a) Determinar la distribución del valor medido del contenido de carbonato de calcio. En particular, ¿podrı́as dar una estimación de su promedio? (b) Construir un intervalo de confianza al nivel de 90% para el contenido exacto promedio de carbonato de calcio de la caliza. (c) Si se desea cometer como máximo un error de 0.2 con una confianza del 95%, ¿cuántas mediciones más deberı́amos realizar?. Problema 17 1. Con el fin de determinar si existen diferencias entre dos proveedores de una determinada materia prima se tomaron sendas muestras (120 para uno de los proveedores y 80 para otro) y se sometieron a cambios extremos de temperatura. La siguiente tabla muestra el resultado del experimento: Deformados Intactos Proveedor A 41 79 Proveedor B 27 53 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 57 (a) Obtener de manera teórica el procedimiento estadı́stico completo que nos proporciona respuesta a la siguiente pregunta: ¿Podemos establecer que el comportamiento de los materiales suministrados por ambos proveedores funcionan de igual manera cuando son sometidos a cambios extremos de temperatura?. (b) Dar respuesta a la cuestión anterior y determinar el p-valor correspondiente. Problema 18 II.2 Queremos ahora medir la señal s con un aparato de medición. Sea X la variable aleatoria “valor proporcionado por el aparato al realizar una medición” y ε la variable “error cometido por el aparato al realizar una medición”. Consideramos que ε sigue una distribución normal con media 0 y desviación tı́pica 0.4 independiente de s. (a) ¿Cuál es la relación entre s, X y ε? (b) ¿Cuál es la media y la desviación tı́pica de X? ¿Cuál es la distribución de los valores de X? (c) Se planifica realizar varias mediciones y proporcionar su media para aproximar la señal. ¿Cuántas mediciones habrá que realizar para que nos aseguremos con una probabilidad mayor o igual a 0.95 que el valor proporcionado no se alejará en más de 0.1 unidades de la señal promedio? Problema 19 III Con el fin de determinar la velocidad de transmisión en dos servidores de la universidad, decidimos descargar un fichero de 2Mb de cada uno de ellos y anotar el tiempo necesario para la descarga. Los resultados(en seg.) que se obtuvieron vienen dados en la siguiente tabla: Serv. 1 Serv. 2 5.89 4.60 4.06 4.2 5.42 4.92 5.38 3.82 6.07 7.4 3.88 4.57 4.11 443 5.03 5.11 5.27 5.02 3.25 5.822 5.053 Si suponemos que la variable ”Tiempo de descarga de ficheros de 2 Mg” sigue una distribución normal: (a) Determinar un intervalo de confianza para el tiempo promedio de descarga de cada uno de los servidores. En función de los resultados obtenidos, ¿podemos pensar que la velocidad promedio es la misma desde ambos servidores?. Razona tu respuesta (b) Plantear un contrate para la hipótesis anterior, determinando el estadı́stico del contraste, su distribución asociada ası́ como la región crı́tica para un valor α genérico. (c) Realizar el contraste a partir de los valores propuestos en la tabla y decidir en función del p-valor obtenido. 58 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. (d) Suponiendo que la varianza asociada a la variable ”Tiempo de descarga del servidor 2” es 0.62 , determinar qué tamaño de la muestra será necesario utilizar para estimar el tiempo promedio de descarga real desde este servidor con un error menor que 0.2 seg (tomar α=0.05) (e) En ningún caso la universidad aceptarı́a que el tiempo de descarga de uno de estos ficheros fuese superior a 6.3 segundos. Sabiendo que la varianza asociada a la variable ”Tiempo de descarga del servidor 1” es conocida (σ=1),¿podemos afirmar que este servidor cumple este requisito?. (tomar α=0.05) (f) Determinar la potencia del contraste anterior si el tiempo promedio real de dicho servidor para este tipo de ficheros fuese de 5.8 seg. Problema 20 En un laboratorio se investiga el contenido (en %) en fibras de un determinado alimento. La distribución de los valores obtenidos se puede considerar normal. III.1 Por un estudio preliminar, se considera que la desviación tı́pica de los valores obtenidos se puede fijar en 1.2%. 1. Introducir la variable aleatoria, la población y el parámetro de interés. Traducir los datos del enunciado en cuanto a la distribución de la variable. 2. En estas condiciones, ¿cuántas mediciones habrı́a que repetir para conseguir, con una confianza del 95%, un margen de error de 1% a la hora de realizar un intervalo de confianza para el contenido real en fibras del alimento? 3. Por otra parte se quiere probar, con un nivel de confianza del 95%, si el contenido en fibras es mayor de 12%. Plantea las hipótesis nula y alternativa adecuadas. Queremos ser capaces con una probabilidad mayor o igual a 0.8 de detectar cuando el contenido es en realidad igual a 13, ¿será suficiente con realizar 10 mediciones? Si no fuera suficiente, ¿qué sugieres que hagamos? III.2 Después de planificar el experimento se decide que se van a tomar 10 mediciones. Un operario lleva a cabo estas 10 mediciones y encuentra que su media es igual a 12.35 y su desviación tı́pica 1.3. 1. Decidimos NO utilizar el valor de σ que se tenı́a en el apartado anterior sino utilizar la desviación tı́pica calculada a partir de los datos. Construir de manera detallada el intervalo de confianza para el contenido real en fibras basándose en los datos obtenidos. 2. Llevar a cabo el contraste para probar si el contenido real es significativamente mayor de 13. 3. Proporciona una cota superior para el p-valor asociado al contraste anterior. Intenta dar una cota inferior también. III.3 Otro operario realiza otro dı́a 5 mediciones más con el misma alimento y encuentra para estas 5 mediciones una media igual a 12.5 y una desvación tı́pica igual a 1.5. Llevar a cabo el contraste para probar si el operario influye en el resultado de la determinación del contenido en fibras. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 59 Problema 21 1. Un estudio demostró que los tiempos de vida de cierta clase de baterı́as de automóvil se distribuye normalmente. Con el fin de estudiar su duración, se consideró una muestra formada por 10 baterı́as, obteniéndose las siguientes duraciones observadas: 1456, 1478, 1467, 1350, 1460, 1376, 1410, 1330, 1421, 1423 (a) Obtener una estimación puntual y un intervalo de confianza al nivel de confianza del 90% para la media de la población. (b) ¿Cuál es el efecto de un incremento del tamaño muestral sobre el intervalo de confianza? ¿Y del nivel de confianza? (c) Determinar el tamaño muestral necesario para reducir a la mitad el error de muestreo del intervalo de confianza obtenido en el apartado anterior. Razona tu respuesta. (d) El fabricante afirma que su duración en promedio es superior a 1450 horas. Con los datos que tenemos, ¿podemos probar dicha afirmación?. Responder de manera razonada a la cuestión anterior indicando el procedimiento estadı́stico utilizado. (e) Determinar el p-valor asociado al contraste que se puede plantear para dar respuesta a la pregunta anterior. Problema 22 1. Se realizan mediciones de la concentración en g/l de un determinado compuesto en una solución. Denotamos por X la variable ”Valor obtenido en una medición realizada al azar”. (a) ¿ Por qué es X una variable aleatoria? ¿Qué es mejor, que la varianza de X sea grande o pequeña? Suponemos a partir de ahora que se puede modelizar la distribución de X por una distribución Normal con media desconocida, y con varianza 4.2. (b) ¿En qué unidades se expresan la media y la varianza de X? Se realizan 8 mediciones de la concentración de un determinado compuesto obteniéndose los siguientes datos: 5.3, 4.2, 7.2, 6.3, 5.5, 6.5, 4.8, 5.1 (c) Construir detalladamente un intervalo de confianza al 95% para el centro de la distribución de X. ¿Qué interpretación tiene un intervalo de confianza? (d) ¿Se puede afirmar que el valor de la concentración es menor que 6? Llevar a cabo el contraste de forma detallada. (e) Calcular el p-valor del contraste anterior. (f) Calcular la potencia del test contra la alternativa µ = 5. ¿Qué representa la potencia? ¿Se trata de un valor suficiente? 60 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. Problema 23 V Para el problema de los ascensores del Hospital de Marina, la media muestral y la desviación tı́pica muestral calculadas a partir de los datos originales son t̄ = 125.6 segundos y st = 112 segundos. Utilizando los datos recogidos como muestra, queremos hacer inferencia sobre el tiempo promedio de espera de un usuario, si nos limitamos a considerar el ascensor B. 1. Por la forma del histograma sabemos que la distribución de los valores de T sigue más bien una distribución exponencial. ¿Cuál es la hipótesis sobre la distribución de los valores de la variable de interés en la población que se ha hecho en clase para obtener los intervalos de confianza y los contrastes para la media poblacional? ¿Por qué podemos seguir utilizando estos mismos intervalos y contrastes aunque la distribución de T sea exponencial? 2. Construir detalladamente el intervalo de confianza al 98 % de confianza para la media poblacional del tiempo de espera para el ascensor B, para un usuario. 3. Llevar a cabo el contraste para decidir si el tiempo promedio de espera para el ascensor B es significativamente mayor al 95% de confianza que 1 minuto y 45 segundos. 4. ¿Cuál serı́a nuestra decisión si trabajamos al 90% de confianza? ¿y al 99% de confianza? 5. Dar una cota inferior y una cota superior para el p-valor asociado al contraste del apartado anterior. Problema 24 III.1 Se plantea un contraste de hipótesis bilateral para la media de una población normal con varianza conocida. Después de extraer una muestra de la población y calcular el estadı́stico adecuado, resulta que se rechaza H0 al 90% de confianza y que no podemos rechazar la hipótesis nula al 98% de confianza. 1. Con la información disponible, ¿se puede tomar alguna decisión al 95% de confianza? Razonar la respuesta. 2. Indicar si las siguientes afirmaciones son verdaderas o falsas, razonando la respuesta. 2.1. p − valor ≤ 0.05. 2.2. p − valor < 0.02. 2.3. 0.02 < p − valor ≤ 0.1. III.2 Una empresa de construcción está interesada en investigar si sus empleados cumplen el horario de descanso vespertino convenido, que es de 20 minutos. Para ello realiza un seguimiento a 50 empleados seleccionados aleatoriamente observando el tiempo en minutos que tardan los empleados en reincorporarse a su puesto de trabajo. Los datos obtenidos son los siguientes: x = 20.483 s2 = 9.546 1. ¿Existe alguna razón para creer a un nivel de significación del 5% que los empleados tardan por término medio más del descanso permitido? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 61 2. Construir un intervalo de confianza para el tiempo medio de descanso vespertino al nivel de confianza del 98%. ¿Qué factores influyen en la amplitud de un intervalo de confianza? ¿En qué se traduce un aumento o una reducción de la amplitud de un intervalo de confianza? 3. Calcular el tamaño muestral necesario para reducir a la mitad el margen de error del intervalo de confianza obtenido en el apartado anterior si se supone que la desviación tı́pica poblacional es de 9. Problema 25 a) Una empresa lleva trabajando con el mismo sistema de producción durante varios años y se sabe que su rendimiento diario sigue una distribución normal de varianza 4. El gerente de la empresa desea estudiar si el rendimiento promedio de su sistema ha disminuido con respecto al valor inicial que era de 80. Para ello, anota el rendimiento que proporciona su sistema durante 16 dı́as, obteniendo un rendimiento medio de 79.3. a1) Realizar detalladamente un contraste para el estudio anterior. Determinar el p-valor del contraste y discutir la conclusión que se obtiene en función del p-valor. a2) Si el rendimiento medio auténtico fuera de 79, ¿te parece adecuado el test anterior para detectar esta alternativa con una confianza del 95%? En caso negativo indicar qué harı́as para mejorarlo. a3) ¿Cuántos dı́as deberı́a durar el estudio para poder detectar la alternativa del apartado anterior en un 90% de los casos? b) Una multinacional ofrece al gerente de la empresa dos nuevos sistemas de producción. En un estudio realizado, se obtuvo que el rendimiento medio √ del Sistema I durante 32 dı́as fue de 82.3 con una cuasi-desviación tı́pica muestral de 8, mientras que el rendimiento medio del Sistema II durante 25 dı́as fue de 81 con una cuasi-desviación tı́pica muestral de 2. Se supone que los rendimientos de ambos sistemas son Normales. b1) Construir, detalladamente, un intervalo de confianza al 95% para el rendimiento promedio del Sistema II. ¿Qué interpretación tiene el intervalo obtenido? ¿Cuántos dı́as deberı́a durar el estudio para cometer un error inferior a 0.5 en la estimación del rendimiento medio?. b2) ¿Se puede afirmar que los rendimientos medios de los dos nuevos sistemas son iguales? Discutir en función del p-valor. Problema 26 Para comparar la eficiencia de dos compiladores de Pascal, se seleccionaron al azar 10 programas y se ejecutaron con cada uno de los compiladores. Los tiempos de ejecución, en segundos, vienen dados en la siguiente tabla: Programa 1 2 3 4 5 6 7 8 9 10 x s∗ Compilador I 4.2 4.7 4.6 3.8 2.7 3.6 4.2 4.5 3.9 4.1 4.03 0.58 Compilador II 4.3 3.9 3.3 3.5 2.7 3.1 3.3 4.7 4.2 3.7 3.67 0.61 a) ¿Qué distribución sigue el tiempo empleado por cada compilador? Según los datos proporcionados, ¿se trata de muestras procedentes de variables independientes?. 62 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. b) Construir detalladamente un intervalo de confianza al 98% para el tiempo medio de ejecución del compilador I. c) Contrastar al 95% de confianza la hipótesis de que los tiempos de ejecución de ambos compiladores son iguales, respondiendo a su vez a las siguientes cuestiones: ¿Qué distribución sigue el estadı́stico del contraste? ¿Por qué? d) Se desea estudiar si el contraste anterior permite detectar de forma aceptable el caso de que el tiempo promedio de ejecución del Compilador I supere al del Compilador II en 0.05 segundos. Resolver este apartado suponiendo que la distribución de los tiempos de ejecución son Normales y que la desviación tı́pica de la diferencia de tiempos de ejecución es conocida e igual a 0.2. Problema 27 En un laboratorio se realizan mediciones de la cantidad (en partes por millón, ppm.) de impurezas que hay en el aire lı́quido. La distribución de los valores obtenidos es aproximadamente normal de media desconocida. III.1 Por un estudio preliminar, la desviación tı́pica de los valores obtenidos puede fijarse en 0.07 ppm. 1. Introducir la variable aleatoria y el parámetro de interés. Traducir los datos del enunciado en cuanto a la distribución de la variable aleatoria. 2. Se decide tomar 6 mediciones y obtenemos una media muestral de 1.05 ppm. Construir de manera detallada un intervalo de confianza para la media poblacional al 95% de confianza. Interpretar el resultado obtenido. 3. Calcular el tamaño muestral para conseguir, con una confianza del 95%, reducir a la mitad el margen de error del intervalo obtenido en el apartado anterior. ¿Cuál es el efecto de un incremento del tamaño muestral sobre el intervalo de confianza? ¿Y del nivel de confianza? III.2 Supongamos que el investigador responsable del experimento desconfı́a del estudio preliminar por lo que decide no utilizar σ que se tenı́a en el apartado anterior, sino estimarla a partir de los datos muestrales. ¿Cuál serı́a el estimador puntual de σ 2 ? Si en estas nuevas condiciones queremos construir un intervalo de confianza para la media poblacional ¿cuál serı́a la diferencia con el obtenido en (2) del apartado anterior? Problema 28 III.1 Cuando una máquina está bien ajustada, produce piezas un 1% de piezas defectuosas. Para controlar que la máquina sigue bien ajustada, se escogen al azar cada dı́a 100 piezas de la producción y se someten a un test. ¿Cuál es la probabilidad de que, la proporción muestral no se aleje en más de 0.03 unidades de la proporción de defectuosos que se produce cuando la máquina está bien ajustada? Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 63 III.2 Se desea construir un intervalo de confianza a nivel 100(1 − α)% para la media de una población normal con la desviación tı́pica conocida. Indicar razonadamente la veracidad o falsedad de las afirmaciones siguientes: 1. Cuanto menor sea la desviación tı́pica poblacional, mejor será la precisión de la estimación obtenida con el intervalo de confianza. 2. Si quiero una mayor precisión, bastará con imponer una mayor confianza al realizar el intervalo de confianza. III.3 Un fabricante de equipo deportivo ha desarrollado un nuevo sedal sintético para pesca y afirma que tiene una resistencia media a la rotura mayor o igual a 15 kgs. La empresa que los comercializa desconfı́a de tal afirmación y decide poner a prueba dichos sedales. Para ello seleccionó de manera aleatoria 36 de dichos sedales y obtuvo una resistencia promedio a la rotura de 14.6 kgs. Suponiendo que la resistencia a la rotura de los nuevos sedales presenta una desviación tı́pica de σ = 2 kgs.: 1. ¿Está justificada la desconfianza de la empresa? Plantear y llevar a cabo el contraste adecuado para responder a la anterior pregunta. Calcular el p − valor de la prueba. 2. Calcular el tamaño muestral necesario al 98% de confianza si queremos estimar la resistencia promedio a la rotura del nuevo hilo sedal con un error inferior a 0.5 kgs. Problema 29 III.1 Para calibrar un aparato de medición se mide repetidas veces un patrón cuyo peso no se conoce. Se supone que el error que se comete en cada medición sigue una distribución normal de media 0 y desviación tı́pica 2 gramos. 1. ¿Cuál es la distribución del valor proporcionado por el aparato? 2. Si se decide utilizar como peso del patrón el valor proporcionado por 10 mediciones, ¿cuál será la desviación tı́pica del valor proporcionado? 3. Si la media muestral de 10 mediciones es igual a 5.37 gramos, construir un intervalo al 98% de confianza para el peso exacto del patrón. Interpretación de dicho intervalo. 4. Calcular el tamaño muestral para garantizar con una probabilidad del 98% que el error que cometemos al estimar el peso real del patrón con el promedio de las mediciones sea inferior a 1 gramo. III.2 Para la media µ de una población con varianza conocida, planteamos el contraste H 0 : µ = µ0 H1 : µ > µ 0 Después de extraer una muestra de la población y calcular el estadı́stico adecuado, resulta que rechazamos H0 al 95% de confianza y que no podemos rechazar H0 al 99% de confianza. 1. ¿Cuál es la decisión al 90% de confianza? ¿Y al 98% de confianza? Razona tu respuesta. 64 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 2. Entonces el p − valor de la prueba será: (a) p − valor ≤ 0.05 (b) p − valor < 0.01 (c) 0.01 < p − valor ≤ 0.1 Para cada una de las afirmaciones anteriores, indicar razonadamente su veracidad o falsedad. Problema 30 III.1 Se desea construir un intervalo de confianza para la media poblacional de una distribución normal con σ conocida. Se fija un margen de error máximo permitido y se busca el tamaño muestral necesario para garantizar este margen de error con una confianza del 95%. Para cada una de las afirmaciones siguientes, indicar razonadamente su veracidad o falsedad: 1. Si disminuye σ, el tamaño muestral necesario aumentará. 2. El tamaño muestral necesario aumentará si se fija una confianza del 99%. 3. Si el margen de eror permtido lo disminuimos en la mitad, el tamaño muestral necesario aumentará. III.2 Una central lechera compra leche a varios provedores. La central sospecha que algunos ganaderos añaden agua a la leche para aumentar sus beneficios. El exceso de agua se puede detectar midiendo el punto de congelación de la leche. La temperatura de congelación de la leche natural varı́a normalmente con una media de µ = −0.545o C y una desviación tı́pica σ = 0.008o C. La adición de agua aumenta la temperatura de congelación y la acerca a 0o C, el punto de congelación del agua. El director del laboratorio de la central lechera determina la temperatura de congelación de cinco lotes consecutivos de leche procedentes de un mismo provedor y encuentra una media muestral de -0.535o C. ¿Estos resultados constituyen una buena evidencia de que el provedor está añadiendo agua a la leche? Plantear el contraste de hipótesis adecuado y llevarlo a cabo de manera detallada (deberá aparecer el estadı́stico de la prueba, su distribución de probabilidad y dónde se sitúa la región crı́tica o de rechazo), dar el p-valor asociado a la prueba y redactar las conclusiones que obtengas. Problema 31 III.1 Para calibrar un nuevo aparato de medición, se mide repetidas veces un patrón cuyo peso sabemos que es igual a 15 grs. En condiciones óptimas de funcionamiento, el aparato comete un error aleatorio que sigue una distribución normal con desviación tı́pica igual a 2 gr. 1. ¿Cuál es la distribución del valor proporcionado por el aparato? 2. Si se decide utilizar como medida el valor proporcionado por 10 mediciones, ¿cuál será la desviación tı́pica del valor proporcionado? 3. Calcular el tamaño muestral para garantizar con una probabilidad del 98% que el error que cometemos con el promedio de las mediciones sea inferior a 0.95 grs.. Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 65 III.2 El Gobierno ha otorgado fondos al departamento de agricultura de la UPCT para probar la capacidad de rendimiento de una nueva variedad de trigo. La nueva variedad se ha plantado en 40 parcelas de igual superficie y el rendimiento medio ha sido 46.5 kg. por parcela. Por estudios anteriores podemos suponer que la población de interés tiene una desviación tı́pica de σ = 15 kg.. Se pide: 1. Construir de manera detallada un intervalo de confianza al 95% para el rendimiento promedio por parcela de la nueva variedad de trigo. Interpretación de dicho intervalo de confianza. 2. ¿Podemos afirmar al 95% de confianza que el rendimiento promedio por parcela de la nueva variedad de trigo es superior a 44 kg.? Plantea el contraste de hipótesis adecuado para ponder justificar tu respuesta. 3. Determinar el p − valor de la prueba. 4. Al desconocer la distribución de la variable de este problema, los procedimientos estadı́sticos utilizados en (1), (2) y (3) son válidos bajo ciertos supuesto. ¿Qué supuestos son? Problema 32 III.2 Un agrónomo examina el contenido de celulosa de una determinada variedad de alfalfa. Supongamos que el contenido de celulosa de la población tiene una desviación tı́pica σ = 12 mg/g . Una muestra de 32 cortes de alfalfa tiene un contenido medio de celulosa x = 145 mg/g. Se pide: 1. Definir la variable y la población sujetas a estudio. 2. Dar un intervalo de confianza al 95% para el contenido medio de celulosa de la población. 3. Un estudio afirma que el contenido medio de celulosa en la población es µ = 140 mg/g, pero el agrónomo cree que la media es mayor que ese valor. Realizar el contraste adecuado para ver si los datos muestrales corroboran dicha impresión. (Tomar α = 0.05 y α = 0.01) 4. Al desconocer la distribución de la variable de este problema, los procedimientos estadı́sticos utilizados en (2) y (3) son válidos bajo ciertos supuesto. ¿Qué supuestos son? Problema 33 III.1 Para calibrar un instrumento de medición se mide repetidamente un patrón cuyo peso sabemos que es igual a 20 gramos (grs.). Se supone que el error que se comete en cada medición sigue una distribución normal con desviación tı́pica σ = 2 grs.. Se pide: 1. La distribución de probabilidad del valor proporcionado por el aparato. 2. Se mide el patrón 5 veces y se obtiene que la media muestral de las cinco mediciones es 21.3 grs.. Construir un intervalo de confianza al 98% para la media poblacional. Interpretar dicho intervalo de confianza al 98% para la media poblacional. 66 Inferencia: Intervalos de confianza y Contrastes de Hipótesis. 3. ¿Cuantas veces habrı́a que repetir la medición para conseguir con la media muestral un error máximo de 1 gr. con una confianza del 98%? III.2 En una determinada explotación agraria dedicada al cultivo de uva se utiliza un sistema de riego por goteo tradicional. El ingeniero encargado de la explotación estudia introducir el sistema de riego por goteo último que acaba de salir al mercado para mejorar la productividad media establecida actualmente en 4.7 Kgs. de uva por cepa. Se estima que el cambio será rentable si consigue elevar dicho número por encima de los 6 Kgs. de uva por cepa. Realizada una prueba con el nuevo sistema de riego por goteo, aplicado a 35 cepas, se obtuvo una producción media de 6.7 Kgs. y no se observó ningún cambio apreciable en la dispersión que estaba establecida en σ = 2 Kgs. de uva por cepa. Si se supone normal la variable aleatoria de interés con desviación tı́pica σ = 2 Kgs.. Se pide: 1. Definir la variable y la población sujetas a estudio. 2. Realizar el contraste adecuado para contestar a la pregunta siguiente: ¿Se debe efectuar el cambio de sistema de riego por goteo? (tomar α = 0.05 y α = 0.01) 3. Calcula la potencia de dicho contraste para una alternativa de µ = 7 Kgs.. Interpretar el concepto de potencia de un test. (tomar α = 0.05). Problema 34 I.1 Se realiza una encuesta para conocer la proporción de votantes de un determinado condado que prefieren el candidato A. Para ello, se escoge una muestra de 1200 votantes, y el resultado es 53%. El sondeo anuncia un margen de error de ±3 puntos para un nivel de confianza del 95%. Explicar por qué no se puede afirmar sin más que el 53% de todos los votantes de dicho condado prefieren al candidato A. Explicar qué quiere decir un nivel de confianza del 95%. I.2 Se estudia el rendimiento de un proceso quı́mico. De la experiencia previa con este proceso, se sabe que la distribución del rendimiento es aproximadamente normal con una desviación tı́pica del 3%. En los 12 dı́as anteriores de operación de la planta, se ha observado un rendimiento promedio del 91.6% (a) Construir de manera detallada un intervalo de confianza al 95% para el rendimiento promedio del proceso. Interpretación de dicho intervalo al 95% de confianza. (b) ¿Se puede afirmar al 95% de confianza que el rendimiento promedio es mayor del 90%? Calcular el p-valor de la prueba. ¿Cuál es la decisión apropiada si α = 0.01? (c) ¿Cuál es la potencia de la prueba cuando la verdadera media es µ = 93%? Interpreta el concepto de potencia de una prueba.