MATEMATICAS I Primer curso de Ciencias Ambientales / Curso 2006-2007 HOJA 1 1. En 1978, H. Cavendish realizó una serie de 29 experimentos con objeto de medir la densidad de la tierra. Sus resultados, tomando como unidad la densidad del agua, fueron: 5’50 5’57 5’42 5’61 5’53 5’47 4’88 5’62 5’63 5’07 5’29 5’34 5’26 5’44 5’46 5’55 5’34 5’30 5’36 5’79 5’75 5’29 5’10 5’68 5’58 5’27 5’85 5’65 5’39 a) Representa los datos por medio de un diagrama de tallos y hojas. b) Halla la mediana y los cuartiles; representa los datos por medio de un diagrama de caja y bigotes. Solución Cálculos necesarios para el cálculo del diagrama de cajas y bigotes. Mediana . Como hay 29=2 (14) 1 datos. La mediana es el dato x15 m = x15 = 5, 46 Cuartiles El primer cuartil es la mediana del primer grupo de datos. En este caso tenemos 29 datos asi que el primer grupo son 14. Como 14 es par la mediana sera (xt + x8 )/2 Por tanto Q1 = m(x1 : x14 ) = 5, 29 + 5, 29 x7 + x8 = = 5, 29 2 2 Del mismo modo para Q3 Q3 = m(x16 : x29 ) = x22 + x23 5, 61 + 5, 62 = = 5, 615 2 2 Barreras y rango intercuartil (R.I) = (Q3 − Q1 ) = 0,325; 1,5R.I = 0, 4875 (B.I.I) Barrera Intercuartil interior inferior, (B.I.E) Barrera intercuartil interior exterior B.I.I = Q1 − 1,5R.I = 4,8025, B.I.E = Q3 + 1,5R.I = 6,01 Como no existen datos fuera de las barrera interiores no calculamos la exteriores. c) Halla la media y la desviación típica. Solución n x= n n √ 1X 1X 1X 2 xi = 5, 4479, vx = (x − xi )2 = xi − x2 = 0, 0471, sx = vx = 0, 217 n i=1 n i=1 n i=1 d ) Agrupar los datos en 5 clases y hallar la media y la desviación típica con los datos agrupados. Solución Defino las clases A1 = (4, 8; 5, 2), A2 = [5, 2; 5, 4), A3 = [5, 4; 5, 6), A4 = [5, 6; 5,8), A5 = [5, 8, 6) Calculo la tabla de frecuencias absolutas, relativas y acumuladas (Por completitud no me haria falta en este caso). Defino la marca de clase como el punto medio de la clase. marcas ak frecuencias absolutas nk frecuencias relativas fk = nnk Pi frecuencias relativas acumuladas Fk = j=1 nj 1 A1 5 3 0, 103 0, 103 A2 5, 3 9 0, 310 0, 413 A3 5, 5 9 0, 310 0, 724 A4 5, 7 7 0, 241 0, 965 A5 5, 9 1 0, 034 1 Formula para la media en caso de datos agrupados (Suponemos que tuvieramos datos simples en los que cada vez que tengo un dato en la clase Ak me sale la marca ak ). Como fk = nnk las siguientes fórmulas son equivalentes Pn Pn x = n1 k=1 nk ak = k=1 fk ak = 5, 448 Para la varianza hago lo mismo. Tomo la fórmula mas sencilla P P nk a2k − x2 = fk a2k − x2 = 0, 05 vx = n1 Importante: Usar en esta fórmula, la media obtenida mediante datos agrupados. √ Y la desviación típica sx = vx = 0, 225 e) ¿Se puede considerar que hay datos atípicos? No porque no hay datos fuera de las barreras intercuartiles. 2. El maíz es un alimento importante para los animales pero carece de algunos aminoácidos que son esenciales. Un grupo de científicos desarrolló una nueva variedad que sí contenía niveles apreciables de dichos aminoácidos. Para comprobar la utilidad de esta nueva variedad para la alimentación animal se llevó a cabo el siguiente experimento: a un grupo de 20 pollos de 1 día se les suministró un pienso que contenía harina de maíz de la nueva variedad. A otro grupo de 20 pollos (grupo de control) se le alimentó con un pienso que sólo se diferenciaba del anterior en que no contenía harina de la variedad mejorada de maíz. Los resultados que se obtuvieron sobre las ganancias de peso de los pollos (en gramos) al cabo de 21 días de alimentación fueron los siguientes: Variedad normal 380 321 366 356 283 349 402 462 356 410 329 399 350 384 316 272 345 455 360 431 Variedad mejorada 361 447 401 375 434 403 393 426 406 318 467 407 427 420 477 392 430 339 410 326 a) Para comparar las dos distribuciones, representa los dos diagramas de caja y bigotes en un mismo gráfico. ¿Qué se puede deducir de estos diagramas? b) ¿Cuáles son las medias y desviaciones típicas de los datos de ambos grupos? ¿Qué diferencias hay entre ambos? Solución: Los datos se encuentran en el fichero Excel. Observamos que la variedad mejorada aumenta los estadisticos de centralización (media y mediana) y disminuye los estadisticos de dispersión varianza y distancia intercuartil. Asi que en principio el experimento es positivo respecto a la mejora del graño. 3. La EPA (Agencia de Protección del medio ambiente de EEUU) exige a los fabricantes de automóviles que indiquen los consumos, tanto por ciudad como por carretera, de cada uno de sus modelos. A continuación se presentan los datos de consumo por carretera de 30 modelos de automóvil de 1994, expresados en litros por cada 100 km: 12, 3 10, 5 9, 1 10, 1 10, 4 12, 8 12, 3 10, 8 9, 7 11, 3 11, 3 11, 3 10, 8 9, 1 11, 8 11, 8 9, 7 10, 1 14, 1 10, 8 10, 8 18, 8 10, 5 10, 8 11, 3 10, 4 9, 7 10, 1 10, 8 10, 8 a) Representa los datos con un diagrama de tallos y hojas. b) ¿Cuál es el consumo mediano? Solución 10,8 ¿Cuántos litros por cada cien km. debe consumir como máximo un automóvil para estar entre el 25 % de modelos que consumen menos? Solución Nos esta preguntado cual es el primer cuartil. Ordenados de mayor a menor queremos saber el numero que delimita el primer cuarto de los datos. Recordamos Q1 = m(x1 ; x1 5) = x8 = 10, 1 2 c) Halla la media y explica cómo se compara con la mediana. x = 11, 14 La media se aleja en parte de la mediana debido a la existencia de un dato atípico y otro extremadamente atípìco 4. El número de nacidos en España en 1995, por grupos de edades de la madre, es el siguiente Necesitamos hallar la tabla de frecuencias relativas y acumuladas a) Elabora un histograma que represente estos datos. b) Halla la mediana, los cuartiles y la distancia intercuartílica. Dibuja un diagrama de caja y bigotes. c) Elige marcas de clase y halla la media y la desviación típica de la variable “edad de la madre”. Los datos se encuentran en el fichero Excell. 5. La tabla siguiente da las emisiones de CO2 (TM per capita), Renta per capita (GNI) e indice de aumento de la población (porcentaje anual) de 42 paises en 2004 Pais Albania Algeria Angola Argentina Australia Armenia Austria BosniaHerzegovina Bangladesh Belgica Bolivia Brasil Bulgaria UK Camerun Chile China Colombia Congo Croacia Checoslovaquia RPC 2080 2280 1030 3720 26900 1120 32300 2040 440 31030 960 3090 2740 33940 800 4910 1290 2000 770 6590 9150 Emisiones 70 98 21 145 587 47 295 74 4 483 33 54 310 446 10 109 69 60 5 168 131 I.Población 0,51 1,27 2,92 1,02 0,9 −0,31 0,13 2, 15 2,08 0,16 1,55 1,10 −0,91 0,28 2,28 1,00 0,56 1,52 3,08 −0,02 −0,04 Pais Egipto F inlandia F rancia Georgia Alemania Espaa Guatemala India Iran Japon Libano M alasia M ejico Rusia Suecia sudan U SA T urquia V enezuela U crania V ietnam RPC 1310 32790 30090 645 30120 21210 2130 620 2300 37180 4980 4650 6770 3410 35770 530 41400 3750 4020 1260 550 Emisiones 49 395 311 97 141 197 23 27 157 313 120 106 139 518 330 8 835 83 257 428 18 I.Población 1,83 0,18 0,39 −0,35 0,01 0,15 1,78 1,67 0,86 0,08 1,30 1,82 1,18 −0,52 0,17 2,64 0,92 1,12 1,44 −0,72 1,05 Hacer un diagrama de tallos y hojas de las variables RPC y emisiones, calcular los cuartiles y hacer un diagrama de caja. Calcular la media y desviación típica. (Fuentes: http://www.finfacts.com/biz10/globalworldincomepercapita.htm http://www.census.gov/cgi-bin/ipc/idbsprd http://www.worldbank.org/data/querydata.html El estudiante interesado puede consultar los datos completos en estas paginas web, en particular se puede decidir un nivel de pobreza de los datos del problema y compararlo con el considerado en http://www.finfacts.com/biz10/globalworldincomepercapita.htm, obtenido de los datos de todos los pauses del mundo). 3 6. Estamos interesados en la variable X=“Tiempo de vida (en días)” de una especie de insectos. a) En una muestra pequeña de 11 insectos, los resultados muestrales fueron: 20, 25, 13, 18, 32, 25, 20, 15, 28, 40, 27 ¿Cuál es el tiempo mediano de vida? Los ordenamos: 13, 15, 18, 20, 20, 25, 25, 27, 28, 32, 40 x6 = 25 b) En una muestra grande, los resultados obtenidos se resumen de la siguiente forma: Percentil 30 Tiempo de vida 18 50 22 70 26 100 30 Hallar el tiempo medio de vida (indicando previamente las clases, marcas de clase y frecuencias proporcionadas por la información muestral). Solución: Tenemos que interpretar la informacion de los percentiles en terminos de clases y frecuencias relativas. El percentil 30 igual a 18 quiere decir que el 30Es decir que la frecuencia relativa de la clase [0,18] es 0,3. Análogamente defino las clases A1 = (0, 18], A2 = (18, 22), A3 = (22, 26], A4 = (26, 30] marcas ak frecuencias relativas acumuladas Fk frecuencias relativas fk = Fk − Fk−1 A1 A2 A3 A4 9 20 24 28 0, 3 0, 5 0, 7 1 0, 3 0, 2 0, 2 0, 3 La expresión de fk = Fk − Fk−1 nos informa de como calcular las frecuencias relativas a partir de las acumuladas. En este caso no podemos conocer las frecuencias absolutas! Con la tabla de frecuencias podemos ya calcular los estadisticos. El resultado no es único pues depende de la elección de las marcas P x = fk ak = 0, 3 ∗ 9 + 0, 2 ∗ 20 + 0, 2 ∗ 24 + 0, 3 ∗ 28 = 19, 9 7. Con el fin de controlar la contaminación de un río, todas las semanas se hace una medición del nivel de ácido úrico. a) Las mediciones durante 9 semanas fueron: 13 10 7 5 12 7 9 5 5 Hallar el nivel mediano de ácido úrico. Solución: 5,5,5,7,7,9,10,12,13 m = (x5 + x6 )/2 = 8 b) En un estudio más completo, las mediciones semanales de ácido úrico se resumieron de la siguiente forma: Percentil 20 Nivel de ácido úrico 6 40 8 70 100 12 18 Hallar el nivel medio de ácido úrico y dibujar el histograma (indicando previamente las clases, marcas de clase y frecuencias proporcionadas por la información muestral). A1 = (0, 6], A2 = (6, 8], A3 = (8, 12], A4 = (12, 18] 4 marcas ak frecuencias relativas acumuladas Fk frecuencias relativas fk x= P A1 A2 3 7 0, 2 0, 4 0, 2 0, 2 A3 10 0, 7 0, 3 A4 15 1 0, 3 fk ak = 0,2 ∗ 3 + 0,2 ∗ 7 + 0,3 ∗ 10 + 0,3 ∗ 15 = 9,5 8. Se ha estudiado la edad del público de un cine donde se exhibe una película para mayores de 18 años, en las dos últimas sesiones. Los datos obtenidos son: Edad Asistentes (18, 23) 60 (23, 28) 80 (28, 33) 50 (33, 38) 40 (38, 43) 30 (43, 48) 20 (48, 68) 20 a) Calcular la edad media de los asistentes y elaborar un histograma. En este caso nos dan las marcas de clase y las frecuencias absolutas nk . Calculamos n = 60 + 80 + 50 + 40 + 30 + 20 + 20 = 300 P k nk = Con las definiciones obvias de clases la tabla es, marcas ak frecuencias absolutas nk frecuencias relativas fk = nnk frecuencias relativas acumuladas Fk = Fk−1 + fk A1 20,5 60 0, 2 0, 2 A2 A3 25,5 30., 5 80 50 0, 266 0, 166 0, 466 0, 633 A4 35,5 40 0, 1333 0, 76666 A5 40,5 30 0, 1 0,866 A6 45,5 20 0,0666 0,933 Edad media x = 31,666 b) ¿Qué edad hay que tener para estar entre el 25 % más joven de los asistentes? Nos piden el percentil 25 es decir el primer cuartil. Lo hacemos en dos pasos El intervalo cuartil es A2 ya que la frecuencia acumulada de A1 es 0.2 y la de A2 es 0.466. Ahora interpolamos calculando la recta que pasa por (23, 0,2) y (28, 0,466). La ecuación de la recta que pasa por (x0 , y0 ), (x1 , y1 ) es y − y0 = y 1 − y0 (x − x0 ) x1 − x0 En neuestro caso (x0 , y0 ) = (23, 0,2); (x1 , y1 ) = (28, 0,466), y = 0,25. Sustituyendo 0,25 − 0,2 = 0,466 − 0,2 (x − 23) 28 − 23 Despejando x = 23 + 28 − 23 (0,25 − 0,2) = 23, 6666 0,466 − 0,2 c) Si hubiera otro espectador más con 97 años, ¿cómo influiría este dato sobre la media y sobre la mediana? Justificar la respuesta sin hacer ningún cálculo. Ninguna de las dos se veria muy afectada porque el numero de datos es 300. De las dos la mediana se veria menos afectada porque es mas robusta que la media. Asi que la unica modificacion en su calculo seria que interpolariamos entre 60/301 = 0,199333, 80/301 = 0,4651. La media se modificaría un poco mas porque intervienen todas las frecuencia y ademas influye el valor. Notar que para la modificación de la mediana da igual que el nuevo expectador tenga 90,120 o 3000 años si fuera posible. Sin embargo este dato si es relevante para la media. 9. Se ha estudiado la edad de los excursionistas que visitan el Parque Regional de la Pedriza en un domingo de primavera. Los datos obtenidos son: 5 A7 58 20 0,0666 1 Edad Visitantes 0–10 50 10–20 270 20–30 400 30–50 220 50–70 50 70–95 10 a) Elaborar un histograma que represente estos datos. marcas ak frecuencias absolutas nk frecuencias relativas fk = nnk frecuencias relativas acumuladas Fk = Fk−1 + fk A1 A2 A3 5 15 25 50 270 400 0,05 0,27 0,4 0,05 0,32 0,72 A4 A5 40 60 220 50 0,22 0,05 0,94 0,99 A6 82,5 10 0,01 1 b) Hallar la edad media de los visitantes. Solución x = 26, 925 c) ¿Qué edad hay que tener para estar entre el 40 % más joven de los visitantes?(hacer una interpolación lineal). Solución Buscamos primero el intervalo que deja la frecuencia acumulada en medio y es A3 . Tenemos que interpolar entre (20, 0,32) y (30, 0, 72) y hallar la x para que y sea 0,4. Obtenemos que x = 20 + 30−20 0,72−0,32 (0,4 − 0,32) = 23, 2 Estimamos que el 40 % de los visitantes tiene menos de 23,2 años. (la estimación solo es fiable si se cumple que la distribucion de los visitantes entre 20 y 30 años es homogenea). 6