Prácticas de Estadística. Descriptiva Tema 1. ESTADÍSTICA DESCRIPTIVA 1. En el archivo motoretas.rda se encuentran las variables marca, cilindrada (en c.c.) y edad (antigüedad en años) de las motos almacenadas por un transportista. a) Obtén tablas de frecuencias de las distintas variables. b) Obtén un diagrama de barras y/o de sectores de las distintas variables. c) ¾Qué marca de moto es la más frecuente?, ¾y la menos? d) Calcula las medidas características de la variable edad y cilindrada. ¾Qué variable tiene mayor dispersión en los datos? e) ¾Se podría calcular alguna medida característica de la variable marca ?, ¾tiene algún sentido hacerlo?, ¾por qué? 2. En el archivo dado.rda se encuentran los resultados obtenidos al lanzar cien veces un dado. (a) Dibuja el diagrama de barras que esperarías obtener, si el dado fuese perfecto. (b) Obtén el diagrama de barras de los datos, y analízalo. (c) En tu opinión ¾éste dado está sesgado? (d) ¾Crees que es adecuado el diagrama de barras para representar estos datos? ¾Por qué? (e) Obtén un diagrama de sectores de los datos. Analízalo. (f ) Obtén una tabla de frecuencias de los datos e interpreta cada una de las columnas de la tabla. 3. A. A. Michelson (1852-1931) efectuó mediciones de la velocidad de la luz. Empleando una técnica de espejo giratorio, obtuvo: 12, 30, 30, 27, 30, 39, 18, 27, 48, 24, 18 como velocidad de la luz en el aire en Km/seg. Calcula: (a) Media y mediana. (b) Variancia, desviación típica y Rango. (c) Cuartiles y Rango intercuartílico. (d) Obtén el diagrama de caja. Comenta el resultado. 4. En el archivo resistension.rda se encuentran, en unidades apropiadas, la resistencia a la tensión de una nueva aleación de aluminio y litio que está siendo evaluada como posible material para la fabricación de elementos estructurales. a) Calcula las medidas de centralización y de dispersión de la variable. ¾Se intuye simetría?, ¾por qué? b) Obtén una tabla de frecuencias con 9 clases de límite inferior 70 y límite superior 250. · ¾Cuántas unidades resistieron entre 130 y 150? · ¾Cuántas unidades hay menores que 210? · ¾Qué proporción de observaciones hay entre 70 y 90? · ¾Qué tanto por ciento de observaciones hay menores que 150? c) Obtén un histograma. d) Halla los percentiles P10 , P25 , P50 , P75 , P90 e interprétalos. 1 Prácticas de Estadística. Descriptiva · Construye intervalos donde se encuentre el 80% de los datos. · Calcula los cuartiles de la muestra. e) Representa el Diagrama de Caja. · ¾Hay datos atípicos? · ¾Corrobora lo dicho anteriormente? f ) Tipica la variable. Representa el histograma de los datos transformados. ¾Qué similitudes y diferencias encuentras entre este histograma y el de la variable sin tipicar? 5. Considera el archivo simula.rda y con cada una de las variables que contiene: a) Obtén el histograma. Analiza su simetría y la existencia de valores atípicos. b) Obtén los histogramas de la variable transformada, por medio de logaritmo, raíz cuadrada, cuadrado e inverso, y realiza el análisis anterior. ¾Con qué datos se trabajaría mejor?, ¾por qué? 6. En el archivo sevilla.rda se encuentra la variable mujeres que contiene el número de mujeres de diferentes poblaciones de la provincia de Sevilla, en el censo de Floridablanca. (a) Obtén el histograma de la variable. Analiza su simetría, la existencia de valores atípicos. (b) Obtén los histogramas de la variable transformada, por medio de logaritmo, raíz cuadrada, cuadrado e inversa, y realiza el análisis anterior. ¾Con qué datos se trabajarías mejor? ¾Por qué? 7. Considera el archivo coleopteros.rda élitros (longitud de las alitas de una muestra sexo (toma el valor 0 cuando el insecto es hembra que contiene las variables de determinados coleópteros, en milímetros) y la variable y el valor 1 cuando es macho). a) ¾Tienen algún sentido las medidas características de la variable b) Calcula las medidas características de la variable c) Obtén un histograma de la variable élitros. élitros. sexo ?, en caso armativo, explícalo. ¾Se intuye simetría?, ¾por qué? Estudia la simetría o asimetría del histograma / roturas/ puntos atípicos/ homogeneidad... d) Haz un estudio de la variable élitros, siguiendo los apartados b) y c), tomando sólo los datos de las hembras. e) Haz un estudio de la variable élitros de los machos. f ) Compara las medidas de las alitas de los machos y las hembras por medio de un diagrama de cajas múltiple. · Clasica como macho o hembra los insectos cuyas longitudes de élitros son las siguientes: 75.39; 75.90; 79.30; 82.91; 89.70; 94.93; 109.54. ¾En cuál de estas clasicaciones se tiene menos seguridad?, ¾por qué? 8. Un experto en computadoras, tratando de optimizar la operación de un sistema reunió datos sobre el tiempo, en microsegundos, entre dos solicitudes consecutivas de servicio de un proceso especial. Dichos datos están en el chero microsegundos.rda. (a) Construye un histograma. 2 Prácticas de Estadística. Descriptiva (b) ¾Existe simetría? ¾Es unimodal? (c) ¾Qué valor deja por debajo al 25% de los datos? ¾Y al 75%? (d) Obtén el diagrama de caja. (e) Elige una transformación que de lugar a una mayor simetría en el histograma. (f ) Obtén un diagrama de caja de la distribución transformada. Comenta el resultado. (g) Calcula los siguientes valores de la variable transformada y compara con los valores de la variable sin transformar : media; moda; varianza y desviación típica. (h) Comprueba que no se mantiene la transformación en los parámetros. 9. En el archivo paises.rda (año 1992). La variable se encuentran datos sobre 132 países presentados en el informe del banco mundial supercie contiene, en miles de kilómetros cuadrados, la supercie de los mismos. (a) Obtén un resumen estadístico y una tabla de frecuencias de esta variable. (b) Compara los valores de la media y de la mediana. (c) Obtén un histograma y un diagrama de caja de la variable. (d) ¾Qué conclusiones puedes deducir de los grácos anteriores? ¾Están en consonancia con la información que ofrece la tabla de frecuencias? (e) Obtén la misma información acerca de la variable Log (supercie). (f ) ¾Qué diferencias encuentras entre ambos análisis? (g) ¾Qué supercies tienen los países pertenecientes a la clase modal del logaritmo? (h) Identica los países de mayor y de menor extensión. (i) ¾Cuál es el percentil 75 de esta variable? ¾Qué signica este valor? (j) ¾Cuál es el rango intercuartílico de esta variable? ¾Qué signicado tiene este valor? 10. Realiza un estudio similar al del ejercicio anterior, con la variable población del archivo paises.rda. Esta variable contiene el número de habitantes, en millones, de los distintos países. (a) ¾Cuáles son los países más poblados de la tierra? (b) ¾Coinciden estos países con los más extensos? 11. En el archivo antebrazos.rda se encuentran las longitudes de los antebrazos, en pulgadas, de 140 hombres adultos. (a) Analiza descriptivamente el comportamiento de esta variable, discutiendo la simetría de su histograma, la existencia de valores atípicos y los intervalos que contienen al 90, 95 y 99% de los datos. (b) Compara las conclusiones obtenidas en el apartado anterior con las que se obtienen al analizar el diagrama de caja. 12. El archivo anchuraaprox.rda contiene dos grupos de datos, el primero está formado por la aproximación, a ojo, del ancho de una sala, en metros, realizada por 44 estudiantes australianos. El segundo contiene la misma aproximación, en pies, realizada por 69 estudiantes distintos. El experimento fue realizado por un profesor, al poco tiempo de la introducción del sistema métrico en Australia, con objeto de estudiar si el cambio de sistema métrico produjo confusión en las apreciaciones espaciales de los estudiantes. La medida real de la sala es de 13.1 metros ó 43 pies. 3 Prácticas de Estadística. Descriptiva (a) Analiza descriptivamente los dos conjuntos de datos. (b) Compara, utilizando métodos descriptivos, si existen diferencias en las apreciaciones, por las unidades empleadas. (c) Compara los errores absolutos de las aproximaciones, de ambos grupos, y discute si estos errores son similares, con independencia de las unidades utilizadas. 13. Los datos del archivo software.rda se corresponden con 135 tiempos de fallo (en segundos CPU, en términos de tiempo de ejecución) de un comando de control de un sistema de software. (a) Analiza descriptivamente este conjunto de datos, e identica los tiempos de fallo más frecuentes. (b) Utiliza estos datos para observar el cambio de aspecto del histograma al aplicar distintas transformaciones a los datos, y al modicar el número de clases. 14. El archivo etruscos.rda contiene la máxima anchura de los cráneos de 84 etruscos masculinos y de 70 italianos modernos, medidas en mms. Los datos forman parte de un estudio antropológico para determinar si los etruscos pueden ser considerados ascendientes de los actuales italianos o si, por el contrario, los etruscos eran emigrantes, procedentes de otro lugar. (a) Analiza estas variables, y conjetura si hay evidencia suciente para aceptar que existe homogeneidad entre las mismas. 15. Los datos del archivo jueces.rda contienen las puntuaciones que tres jueces han otorgado a 40 participantes en un concurso de natación sincronizada. (a) ¾Crees que las puntuaciones de los tres jueces se corresponden con criterios comunes? 16. En el archivo coagula.rda se encuentra la variable tiempo, que contiene una muestra de los tiempos de coagulación de la leche de una determinada ganadería. (a) ¾Entre qué valores se encuentran los tiempos de coagulación? (b) Calcula el valor de algunos percentiles e interprétalos. (c) Construye distintos intervalos en los que se encuentren el 50% de los datos. (d) Construye un histograma de los datos y analízalo. (e) Modica el número de clases del histograma y comprueba si existen diferencias en los histogramas construidos. (f ) Si sólo es apta para el consumo la leche que coagula antes de 35 minutos ¾qué porcentaje de leche calculas que se desperdicia? (g) El ganadero arma que, en media, el tiempo de coagulación de la leche de la ganadería es de 22.5 minutos. ¾Crees que estos datos conrman esta armación? 17. Una característica de calidad para los cavas es la cantidad de espuma que se forma el escanciarlo, a más altura de la espuma mayor calidad. Los datos del archivo cava.rda contienen las alturas, en milímetros, de dos muestras de cava diferentes. (a) Analiza separadamente estas variables. (b) Realiza un diagrama de cajas múltiple para estos datos, y conjetura cuál de los dos cavas ofrece mayor calidad. 4 Prácticas de Estadística. 18. En el chero Descriptiva granizo.rda se encuentran las variables altura y código. La primera de ellas contiene los datos relativos a la altura, en metros, de la zona más densa de 319 nubes, y la segunda un código que identica a las nubes según provocan granizo (código igual a 1), o no (código igual a 0). Dichos datos fueron tomados en Alicante, en el transcurso de un estudio contenido en un programa de lucha antigranizo . (a) Analiza descriptivamente estas variables. (b) ¾Encuentras diferencia entre las alturas de circulación de estas dos clases de nubes? 19. En el archivo altura.rda están las variables hombres y mujeres donde se encuentran las estaturas de 60 alumnos y 40 alumnas de esta escuela, respectivamente (datos recogidos por la alumna Nieves García Martínez). (a) Calcula las medidas de centralización y de dispersión de ambas variables. ¾Se intuye simetría? ¾Por qué? (b) Obtén la tabla de frecuencias con un número de clases coherente. ¾Qué clases son las más frecuentes? (c) Obtén el histograma que resulte más informativo para los datos de cada muestra y analizar: · Por dónde se concentran los datos. · Si hay roturas y valores atípicos. · La existencia de simetría. · Si es una población de moda única. · La dispersión y homogeneidad de los datos. (d) Representa estos datos utilizando un diagrama de caja y razona si esta representación es coherente con la información obtenida anteriormente. (e) Halla los percentiles P10 , P25 , P50 , P75 , P90 e interprétalos. (f ) Construye intervalos donde se encuentra el 80% de los datos. (g) Compara las estaturas de alumnos y alumnas por medio de un diagrama de cajas múltiple. Si se dice que un estudiante mide 1.50 m. ¾cómo se clasicaría? ¾como alumno, o como alumna?. ¾Y si mide 1.65 m., 1.70 m., 1.75 m., 1.80 m., 1.90 m.?. 20. Una empresa produce latas de tres tamaños distintos, cada uno en distinta línea de producción. ingeniero de control de calidad ha identicado los siguientes defectos: Un Mancha y/o grieta en la lata; ubicación incorrecta o falta de la anilla de apertura y otros. Se selecciona una muestra de unidades defectuosas de cada una de las tres líneas, y cada unidad se clasica según el defecto, la siguiente tabla de contingencia incluye esos datos: Defectos (Y) Líneas de producción (X) Mancha Grieta Ubicación Falta Otros 1 34 65 17 21 13 2 23 46 25 19 12 3 29 31 16 14 10 (a) Obtén la distribuciones marginales. (b) Obtén la distribución condicionada de la variable defectos por la línea 1, por la línea 2 y por la 3. (c) ¾Qué se puede decir analizando las distribuciones (Y/X=1), (Y/X=2) y (Y/X=3), en relación a la marginal Y? 5 Prácticas de Estadística Modelos Tema 2. MODELOS DE DISTRIBUCIÓN DE PROBABILIDAD 1. Se lanza un dado y se considera la variable generada por el resultado del mismo. (a) Clasica esta variable como continua o discreta, indicando su rango de variabilidad. (b) Obtén su función de probabilidad o de densidad, según proceda. (c) Calcula su función de distribución y represéntala grácamente. (d) ¾Se puede identicar esta variable con algún modelo de probabilidad conocido? 2. Para sortear 21 plazas de excedente de cupo entre 100 aspirantes se otorga un número a cada uno de ellos, al azar, y luego se sortea un número de los 100, siendo declarados excedentes los poseedores del número agraciado y los 20 siguientes, bien entendido que si se rebasa el número 100 se continúa contando desde el 1. (a) Calcula la probabilidad de que el número 78 salga como excedente. 3. Obtén las funciones de probabilidad y de distribución de la variable aleatoria B(10; 0.1) . (a) Interpreta los grácos obtenidos. (b) ¾Cuáles son los valores de la media y de la desviación típica de esta variable? (c) Calcula la probabilidad de que la variable tome un valor menor o igual que la media, y mayor o igual que la media. Representa esta probabilidad grácamente. (d) Relaciona los valores anteriores con la simetría de la función de probabilidad. (e) Realiza el mismo estudio con las binomiales B(10;0.5), B(100;0,9) y B(200;0.5). Explica los diferentes comportamientos observados. 4. Contesta a las mismas cuestiones del ejercicio anterior, tomando como referencia inicial la distribución de Poisson de parámetro 2 y repítelo con las variables de Poisson de parámetros 5, 10 y 20. Explica las diferencias de los comportamientos de estas variables. 5. Escribe detalladamente cuáles son las condiciones de un proceso de Bernoulli y de un proceso de Poisson, y da varios ejemplos extraídos de la realidad que sean asimilables a los mismos. Dene dentro de estos procesos variables aleatorias que respondan a los modelos binomial y de Poisson y escribe sus funciones de probabilidad, indicando el valor de sus medias y varianzas. 6. La proporción del número de días en que el sistema de los equipos informáticos de una empresa tiene algún tipo de fallo es 0.02. (a) ¾Qué condiciones deben vericarse para que este proceso sea un proceso de Bernoulli? (b) Aceptando estas condiciones, si se observa el proceso durante 100 días, ¾cuál es la función de probabilidad de la variable X="número de días en los que el sistema ha fallado"? (c) Representa grácamente la función de probabilidad de esta variable. Analiza su simetría. Calcula su media y su desviación típica, y discute la posibilidad de aproximar los cálculos de probabilidad relativos a esta variable por medio de una distribución normal. 1 Prácticas de Estadística Modelos (d) Calcula las siguientes probabilidades: Probabilidad de que de los 100 días el sistema falle menos de tres. P(X < 3). Probabilidad de que falle 5 días o más. P(X Probabilidad de que haya, por lo menos, un día de fallo. Probabilidad de que haya menos de 2 días de fallo ó más de 4. Probabilidad de que haya 6 fallos en los primeros 50 días y 4 en los siguientes 50 días. ≥ 5). 7. En cierta ciudad se sabe que el 20% de las casas están aseguradas contra incendios. Si se toma una muestra aleatoria de 5 casas, plantea y realiza el cálculo de las siguientes probabilidades. (a) Probabilidad de que haya exactamente 2 casas aseguradas. (b) Probabilidad de que haya al menos 3 casas aseguradas. (c) Probabilidad de que no haya ninguna casa asegurada. (d) ¾Cuál es el número más probable de casas aseguradas? 8. El interruptor de una televisión se encuentra desgastado por el uso, de forma que la probabilidad de fallo, lo que signica que no responde a la orden, es 0.2. Suponiendo que los fallos se producen con independencia, plantea y realiza el cálculo de las siguientes probabilidades: (a) Probabilidad de que sea necesario pulsar el interruptor más de una vez para ponerla en funcionamiento cuando está apagada. (b) Probabilidad de que sea necesario pulsar 5 veces para apagarla. (c) Probabilidad de que se encienda y se apague a la primera en los dos casos. (d) Si un forofo del fútbol desea ver un Madrid Barcelona ¾cuál es la probabilidad de que vea el partido, sabiendo que si la televisión no se ha encendido a la séptima pulsación sufrirá un ataque de histeria y tirará la televisión por la ventana? 9. El número medio de veces que suena algún teléfono móvil en una sesión de cine es 3,6. Si las llamadas se producen con independencia, plantea y calcula las siguientes probabilidades: (a) Probabilidad de ver la película tranquilo, sin que nadie te moleste. (b) Probabilidad de que suenen más de dos y menos de ocho teléfonos en una sesión. (c) Probabilidad de que en tres sesiones seguidas haya más de quince llamadas en total. (d) Probabilidad de que en dos sesiones alternas haya menos de 20 llamadas en total. (e) ¾Se pueden realizar estos cálculos utilizando la distribución normal? 10. Se sabe que el número de errores cometidos por una secretaria en una hoja mecanograada, sigue una distribución de Poisson con λ= 6. Plantea y calcula las siguientes probabilidades: (a) Probabilidad de que en una hoja mecanograada no haya ningún error. (b) Probabilidad de que en una hoja mecanograada haya, como mucho, 3 errores. (c) ¾Cuál es el número medio de errores de esta variable aleatoria? ¾y el número medio de errores en una muestra de diez páginas? 2 Prácticas de Estadística Modelos 11. En un sistema de seguridad de una obra se ha observado que se producen, en media, 3 situaciones "potencialmente peligrosas" por día. (a) Describe el posible rango de valores de la variable "Número de situaciones potencialmente peligrosas por día", y explica qué condiciones deben vericarse para que esta variable se comporte como un modelo de Poisson. (b) Escribe la expresión de su función de probabilidad. (c) Utiliza el programa para representar grácamente dicha función de probabilidad. (d) ¾Cuál es la probabilidad de que en un día se produzcan más de 5 situaciones potencialmente peligrosas? Escribe su expresión teórica y realiza los cálculos con el programa. (e) ¾Cuál es la probabilidad de que se produzcan menos de 3 situaciones de este tipo, y entre 2 y 9 en un día? (f ) ¾Qué modelos de probabilidad siguen las variables Número de situaciones potencialmente peligrosas en una semana (5 días laborables) y Número de situaciones potencialmente peligrosas en un mes (21 días laborables) ? (g) Representa grácamente las funciones de probabilidad de las tres variables utilizadas y compáralas. ¾Cuál tiene mayor variabilidad? 12. Por analogía con los ejercicios anteriores obtén la función de densidad y la función de distribución de una variable aleatoria exponencial de media 1. (a) ¾Qué porcentaje de esta población toma un valor menor o igual que la media? Represéntalo grácamente. (b) ¾Cuál es la desviación típica de esta variable? (c) Emplea la inversa de la función de distribución para calcular la mediana y los cuartiles de la variable. Represéntalos grácamente. (d) Realiza el mismo análisis anterior utilizando las variables exponenciales de media 10, 20 y 30. 13. La duración de las lámparas producidas en una cierta fábrica sigue una distribución exponencial, con una vida media de 3600 horas. Plantea el cálculo, y representa grácamente: (a) El porcentaje de lámparas con una duración superior a las 5000 h. (b) La proporción de lámparas con duración entre 2000 h. y 4500 h (c) ¾Cuál es la duración superada por el 99% de las lámparas? Si se eligen 100 lámparas al azar, ¾habrá 99, cuya duración sea superior a este valor? 14. Se sabe que un teléfono móvil recibe en media 5 mensajes, de forma independiente, a lo largo de 60 minutos. (a) ¾Cuál es la distribución de la variable aleatoria número de mensajes recibidos en una hora ? Calcula razonadamente la probabilidad de que en una hora se reciban menos de 3 mensajes. (b) ¾Qué distribución sigue la variable aleatoria número de mensajes recibidos en tres horas ?, ¾cuáles son su media y su desviación típica? (c) Indica cuál es la distribución que sigue la variable aleatoria tiempo transcurrido entre dos mensajes consecutivos y expresa su función de densidad. 3 Prácticas de Estadística Modelos (d) ¾Qué representan las siguientes integrales: ´ 1/4 0 5 e−5x dx y ´ 1/12 0 15 e−15x dx ? Resuélvelas y explica porqué los resultados son iguales. (e) Calcula la probabilidad de que entre dos llamadas consecutivas transcurran entre ocho y doce minutos. 15. Utiliza los comandos de los ejercicios anteriores para el estudio de poblaciones normales. (a) Representa conjuntamente las funciones de densidad de las variables aleatorias N(10;2) y N (15;2). Explica el efecto sobre la población del desplazamiento de la media. (b) Representa conjuntamente las funciones de densidad de las variables N(6;1) y N(6;2). Explica el efecto sobre la población de la variación de la desviación típica. (c) ¾En qué intervalos están contenidos, aproximadamente, los individuos de las cuatro poblaciones anteriores en el 68, 95 y 99% de los casos? Haz este mismo cálculo en una N(0,1) y relaciona los resultados. (d) Utiliza la función de distribución de las variables de los apartados anteriores para calcular la proporción de las distintas poblaciones que se encuentran a menos de un cuarto de desviación típica de la media por la derecha, y represéntalas grácamente. ¾Cómo son estas proporciones? ¾Es casual? (e) Emplea la inversa de la función de distribución para encontrar el valor a que, en una N(0,1), permite encerrar en el intervalo (0,a) el 34.135% de la población. Relaciona este resultado con el del apartado anterior. Represéntalo grácamente. 16. Dada la N(0,1) (a) Calcula el porcentaje de población que se encuentra a menos de una, dos y tres desviaciones típicas de la media. (b) Calcula los intervalos centrados en la media que contienen al 68, 95 y 99% de la población. 17. La variable X sigue una distribución N(0,1). Rellena los espacios en blanco, planteando el cálculo necesario para ello, y representa grácamente los resultados: (a) P(0 < X < 1,84) = (b) P(0,7 < X) = (c) P(X < 3) = P(X < P(X > P(X > )=0,242 )=0,5 )=0,3 18. Sea la variable aleatoria X∼N(8,2) (a) Calcula P(X≤10) y P(X≤12) (b) Calcula la probabilidad de que X se encuentre en los intervalos (10,12) ; (8,10) y (12,14). (c) ¾Por qué, si todos los intervalos tienen la misma longitud, no contienen la misma proporción de población? (d) Calcula la probabilidad de que una N(0,1) se encuentre en los intervalos (1,2), (0,1) y (2,3). (e) Explica la coincidencia de los resultados en los apartados b) y d). 19. Los pesos de los adultos, en kilogramos, de una determinada especie se distribuyen según una N(82,2). Se pesaron diez individuos y se obtuvieron los siguientes resultados: 70, 81, 83, 86, 95, 88, 80, 52, 84, 79. (a) ¾Se podría sospechar que alguno de estos individuos no es adulto o no pertenece a esta especie?¾por qué? 4 Prácticas de Estadística Modelos 20. Para grabar una película que dura 165 minutos se dispone de una cinta de vídeo de tres horas. Sabiendo que el tiempo dedicado a anuncios por la cadena de televisión, en este horario, es una distribución normal de media 8 minutos y desviación típica 2 minutos. (a) ¾Cuál es la probabilidad de que se pueda grabar la película completa, si se conecta el vídeo en el momento de su comienzo? (b) Si se interrumpe la película durante 6 minutos por un avance informativo, ¾cuál es la probabilidad anterior? (c) Las películas así grabadas se almacenan en cajas de diez. Si no se realiza un control de calidad para asegurarse de que las películas se encuentran grabadas íntegramente, ¾cuál es la probabilidad de que en una de estas cajas elegidas al azar ninguna película esté completa? 21. El diámetro interior de las piezas producidas por cierta máquina sigue una distribución normal de media 0'5 cm. y desviación típica 0'05 cm. (a) Calcula el porcentaje de piezas con diámetro interior mayor que 0'4 cm. (b) Considerando defectuosas las piezas cuyo diámetro interior sale fuera del intervalo (0'45,0'55), ¾cuál será el porcentaje de piezas defectuosas? (c) Si estas piezas se embalan en cajas de 100 unidades ¾cuál es la distribución de probabilidad del número de piezas defectuosas en una caja? ¾Se puede aproximar esta distribución por una normal? ¾Cuál es la probabilidad de que en una de estas cajas haya menos de tres piezas defectuosas? 22. En cierta fábrica se ha observado durante un largo período de tiempo la cantidad semanal gastada en mantenimiento y reparaciones, llegando a la conclusión de que dicho gasto sigue una distribución normal con una media de 250 ¿ y una desviación típica de 12 ¿. (a) Si el presupuesto para la próxima semana es de 270 ¿ ¾cuál es la probabilidad de que los costos reales sean mayores que dicha cantidad? (b) ¾Cuál debería ser el presupuesto semanal para que la cantidad presupuestada se rebase el 10% de las semanas? 23. Una cadena de T.V. en su programación semanal cine de casquería va a proyectar la película Sesos desparramados XXVI , cuya duración es de 142 minutos. Un acionado al género se dispone a grabarlo en vídeo, previa programación, para lo que dispone de una cinta de 180 minutos. Sabiendo que la película empieza a su hora y el tiempo dedicado a anuncios por esta cadena, en esta franja horaria, sigue una distribución N(40,15) (a) Calcula la probabilidad de que la película quede grabada íntegramente. (b) Calcula la probabilidad de que sólo pueda ser grabada, como máximo, la mitad de la película. (c) Por desajustes en el horario de la cadena, la película comienza a emitirse 10 minutos más tarde de lo previsto, de lo cual el acionado no se entera. ¾Cómo se modican entonces las probabilidades anteriores? 24. El peso de los sacos de cemento obtenidos en una empaquetadora sigue una distribución N(50 ; 1) (a) ¾Cuál es la proporción de estos sacos que pesan más de 50 Kgs?, ¾y más de 51?, ¾y menos de 49,5? (Realiza el cálculo a través de la función de distribución de la variable y la de la variable estandarizada.) 5 Prácticas de Estadística Modelos (b) ¾En qué intervalo, centrado en la media, se encuentra el peso del 90% de los sacos? (c) Se mandan 1.000 de estos sacos a una obra. Si el peso total de los mismos es inferior a 49.970 Kgs. la empresa rechaza el envío. ¾Cuál es la probabilidad de que esto ocurra? (d) ¾En qué intervalo centrado en la media, se encuentra el peso del 99% de los envíos? (e) ¾Cuál es la probabilidad de que si se hacen 10 envíos, se rechace más de 1? 25. Analiza el efecto de la variación de los grados de libertad de las distribuciones t de Student y Chi cuadrado, tomando como referencia las de 3, 5, 10 y 15 grados de libertad. 26. Genera muestras de tamaño 100, 200 y 500 de una N(8,2), almacenándolas como M1, M2 y M3. (a) Compara los histogramas de las muestras con la función de densidad de la v.a. de procedencia. (b) ¾Cuáles son las medias y desviaciones típicas de las muestras? Compara estos resultados con los valores teóricos y con los obtenidos en otros ordenadores. (c) Hemos utilizado el hecho de que si una variable X esto empíricamente, construir las variables ∼N(µ,σ ), la variable X−µ σ ∼N(0,1). Para comprobar M 1−8 M 2−8 M 3−8 , y , almacenándolas como M10, M20 y 2 2 2 M30 y compara sus histogramas con la función de densidad de la N(0,1). ¾Qué se puede decir? 27. Compara los histogramas o diagramas de barras, según convenga, de las muestras que se enumeran a continuación, con las funciones de probabilidad o de densidad de los modelos de probabilidad que consideres oportuno, y discute si puede emplearse, en cada caso, alguno de estos modelos para representar el comportamiento de las variables de procedencia de dichas muestras. Si lo crees necesario puedes emplear transformaciones de los datos para realizar esta comparación. Variable Resultado del archivo dado.rda. Variables Supercie y Población del archivo paises.rda. Variables Cava A y Cava B del archivo cava.rda. Variables juez1, juez2 y juez3 del archivo jueces.rda. Variable tiempo del archivo coagula.rda. 6 Prácticas de Estadística Inferencia Tema 3. INFERENCIA ESTADÍSTICA 1. Genera 3 muestras de tamaño 100 de una distribución N(5,2). (a) Calcula tres intervalos de conanza al 90% para la media poblacional. (b) ¾Cuántos de los intervalos construidos contienen el verdadero valor de la media poblacional? (c) Compara los resultados obtenidos con el resto de los compañeros. 2. Genera 3 muestras de tamaño 100, 200 y 500 de una distribución normal de parámetros 9 y 2. (a) Calcula un intervalo de conanza al 95% de cada uno de los parámetros de la población, utilizando alternativamente las tres muestras. (b) Compara grácamente las amplitudes de los intervalos obtenidos. ¾A qué se deben las diferencias observadas? 3. Genera una muestra de tamaño 100 de una distribución normal estándar. (a) Construir intervalos de conanza al 75, 90 y 95% para la media y la varianza de la población de la que procede dicha muestra. (b) Compara grácamente las amplitudes de los intervalos obtenidos, e interpreta las diferencias encontradas. 4. Genera una muestra aleatoria de tamaño cien de una población normal de media 60 y desviación típica 1. (a) ¾En qué intervalo teórico debería estar más del 99% de la muestra? ¾realmente lo está? (b) Calcula intervalos al 90, 95 y 99% de conanza para la media y la desviación típica de la población, utilizando esta muestra. ¾Se encuentran los valores verdaderos de los parámetros dentro de estos intervalos? (c) ¾Sería contradictorio que los valores teóricos no estuvieran contenidos en los intervalos correspondientes? (d) Contrasta la hipótesis de que la media de la población es 60, con un nivel de conanza del 95% (α = 0.05). ¾Sería contradictorio que el resultado del contraste fuera rechazar la hipótesis nula? (e) Encuentra un nivel de signicación con el que se rechace que la media de la población es 60. 5. Desde un punto de vista práctico (a) ¾Cómo interesa que sea la magnitud de la conanza de un intervalo? (b) ¾Y su amplitud? (c) ¾Qué es necesario hacer para conseguir optimizar simultáneamente estas características? 1 Prácticas de Estadística Inferencia NOTA: En los siguientes ejercicios se entenderá que las poblaciones en estudio siguen una distribución Normal. 6. La fábrica Rueda ha determinado que sus neumáticos tienen que medir en media 36 unidades de diámetro para que se acomoden a la mayoría de los modelos de turismos. Si no es así, la división de control de calidad de Rueda emprenderá acciones para garantizar que se cumplen las especicaciones de producción. Una muestra aleatoria de 100 neumáticos dio una media de 36.4 unidades y una desviación típica de 2.1 unidades. (a) Calcula intervalos de conanza para la media poblacional al 90, 95 y 99%. (b) Comenta teóricamente cómo resultarían los intervalos si la muestra fuera de 50 neumáticos. (c) Plantea y resuelve un contraste con α=0,05, para decidir si el proceso cumple las especicaciones. (d) ¾La dirección de la fábrica tiene motivos para preocuparse? 7. De una distribución normal se tiene una muestra de tamaño 100 cuya media es 36.38 unidades y cuya desviación típica muestral corregida es 2.07 unidades (a) Haz una estimación puntual de los parámetros indicando el método seguido. (b) Calcula intervalos de conanza para la media y la varianza poblacional al 90, 95 y 99%. (c) Plantea y resuelve un contraste para decidir si se acepta que la media de la distribución normal es de 36 unidades. (d) ¾Cómo cambiarían los apartados b) y c) si la muestra hubiera sido de tamaño 50? 8. La variable X representa la resistencia, en kΩ., de una marca de bombillas, donde X sigue una distribución N(µ , 0.02). Se toma una muestra de tamaño 9 y se observan los siguientes resultados: 2.23; 2.21; 2.25 ; 2.22 ; 2.19 ; 2.20 ; 2.18 ; 2.22 ; 2.19. (a) Calcula un intervalo de conanza para (b) El fabricante asegura que µ µ al 95%. = 2 kΩ. Para discutir la armación del fabricante, dene un contraste de hipótesis indicando cuál es la hipótesis nula, la hipótesis alternativa y realiza el contraste al 95%. (c) Con los datos observados ¾hay contradicción con el valor supuesto para la varianza? (d) Realiza un test de normalidad con Shapiro-Wilk (papel probabilístico normal) para estos datos. 9. Una empresa multinacional está realizando un estudio sobre la satisfacción de sus empleados en el trabajo, en los distintos países en los que tiene establecidas delegaciones. De una muestra aleatoria simple de 1000 trabajadores españoles, 420 declararon estar satisfechos con el trabajo; mientras que de otra muestra aleatoria simple de 2000 trabajadores franceses, 800 estaban satisfechos. (a) Indica en qué país hay mayor porcentaje estimado de trabajadores satisfechos. (b) Indica si la conclusión del apartado anterior sigue siendo válida en base a los intervalos de conanza del 95% de las estimaciones obtenidas en el apartado anterior. 2 Prácticas de Estadística Inferencia 10. El Ministerio de Educación y Ciencia desea conocer la proporción de niños disléxicos existentes en las aulas de los colegios públicos. Para ello toma, en dichos colegios, una muestra aleatoria simple de 2000 niños, de los que 550 presentan problemas de dislexia. (a) Da una estimación de la proporción buscada por el Ministerio y un intervalo de conanza del 95%. (b) Si a priori no se sabe nada acerca de la proporción en estudio (considera el caso más desfavorable) y se quiere que el intervalo de conanza del 95% tenga una amplitud inferior al 3% ¾qué tamaño de muestra habría que seleccionar? 11. Las especicaciones para cierta clase de viga exigen una resistencia media a la ruptura de 180 unidades. Si cinco de las vigas (aleatoriamente seleccionadas) tienen una resistencia media de 165.9 unidades y una desviación típica de 5.7 unidades, realiza un contraste con la hipótesis nula de que la media a la hipótesis alternativa de que µ 6=180 unidades, a un nivel µ =180, frente α=0,01. 12. Se desea contrastar con un nivel de signicación del 5%, si la conductividad térmica en media de cierto tipo de ladrillo es de 0.340 como se asegura. Para ello se tomó una muestra aleatoria de 35 ladrillos que dieron una media de 0.343 unidades y una desviación típica de 0.01 unidades. ¾Qué contestarías? 13. Un constructor arma que se instalan bombas de calefacción en el 70% de todos los hogares actualmente en construcción en la ciudad A. ¾Estarías de acuerdo con esta armación, si tomada una muestra de 300 casas nuevas en dicha ciudad resulta que 140 no tienen instaladas bombas de calefacción, para un nivel = 0.05? ¾y para α α = 0.10? 14. Un supervisor de control de calidad en una enlatadora sabe que la cantidad exacta contenida en cada lata varía, pues hay ciertos factores imposibles de controlar que afectan la cantidad de llenado. El llenado medio por lata es importante, pero igualmente importante es la variación σ2 de la cantidad de llenado. Si σ2 es grande, algunas latas contendrán muy poco y otras demasiado. Las normas especican que la desviación típica de la cantidad de llenado debe ser 0.1 unidades. El supervisor de control de calidad muestreó 10 latas y midió la cantidad de llenado en cada una obteniendo los siguientes resultados: 7.56 ; 7.90 ; 7.98 ; 8.01 ; 7.97 ; 7.96 ; 8.03 ; 8.02 ; 8.04 ; 8.02 ¾Esta información proporciona pruebas sucientes, con un nivel α = 0.05, de que la desviación típica σ de las medidas de llenado es 0.1 unidades? 15. El empleo de acero tratado en la construcción de puentes para autopistas ha sido tema de considerable controversia. Los críticos han citado recientemente graves problemas de corrosión en dicho acero y están tratando de prohibir su uso en la construcción de puentes. Por otro lado, las corporaciones del acero aseguran que estas acusaciones son exageradas y dicen que el 95% de todos los puentes de acero tratado tienen un buen comportamiento, sin daños graves por corrosión. A n de probar esta aseveración, un equipo de técnicos evaluó 60 puentes de acero tratado, seleccionados al azar y encontraron que 54 de ellos tenían un buen comportamiento. ¾Hay evidencia, con un nivel α = 0.05, de que la verdadera proporción de puentes de acero tratado que presentan un buen comportamiento sea del 95%? 3 Prácticas de Estadística Inferencia 16. En el chero granizo.rda se encuentran las variables altura y código. La primera de ellas contiene los datos relativos a la altura, en metros, de la zona más densa de 318 nubes, y la segunda un código que identica a las nubes según provocan granizo (código igual a 1), o no (código igual a 0). Dichos datos fueron tomados en Alicante, en el transcurso de un estudio contenido en un programa de lucha antigranizo . Suponiendo aceptable la hipótesis de normalidad para las nubes que no provocan granizo: (a) Calcula intervalos de conanza al 90, 95 y 99% para la media y la varianza de las alturas de las nubes que no provocan granizo. (b) Suponiendo que los datos sean una muestra representativa de la población. (¾Quién es en este caso la población?). Construir un intervalo que contenga el 99% de las alturas de las nubes que no producen granizo. (c) ¾Se podría aceptar que las nubes que no producen granizo se sitúan a una altura media de 7500 metros? ¾De qué depende la respuesta a esta pregunta? (d) ¾Cuál sería la respuesta a la pregunta anterior si se quisiera contrastar que la altura media fuese: 6700, 6800, 6900, 7000, 7600, 8000 u 8500 metros? (e) ¾Cuáles son los niveles de signicación (p-valores o niveles críticos) de los contrastes anteriores? (f ) ¾Qué habría que hacer para aceptar el contraste de que la altura media de estas nubes es de 6800 metros? ¾Y para rechazarlo? ¾Y con 6700 metros? (g) ¾Qué relación hay entre el nivel de signicación de un contraste y el intervalo de conanza utilizado como referencia? 17. En el ejercicio anterior se ha aceptado que los datos de la muestra, altura de las nubes que no provocan granizo, proceden de una población normal. (a) Construye un histograma de los datos y analiza si pueden provenir de una población normal. (b) Realiza el Test de Shapiro-Wilk para analizar la hipótesis de normalidad. ¾Con qué grado de evidencia se acepta o rechaza la hipótesis de normalidad? (c) ¾Se obtienen resultados similares si se contrasta normalidad por medio del Test de KolmogorovSmirnov? (d) ¾Se pueden aceptar los resultados del ejercicio anterior? 18. En el archivo antebrazos.rda se encuentran las longitudes de los antebrazos, en pulgadas, de 140 hombres adultos. (a) Discute con un contraste adecuado la normalidad de la distribución (b) Obtén intervalos de conanza al 90, 95 y 99% para la media, la desviación típica y la varianza de la población de la que los datos son una muestra. (c) Interpreta el signicado de los intervalos obtenidos en el apartado anterior y explica las diferencias que encuentres entre ellos. 19. Un experto en ordenadores, tratando de optimizar la operación de un sistema, reunió en el archivo microse- gundos.rda 50 medidas sobre el tiempo en microsegundos entre las solicitudes de servicio de un proceso. Analiza si es razonable suponer que provienen de una distribución normal mediante: 4 Prácticas de Estadística Inferencia (a) Un histograma. (b) Un analista ha obtenido mediante el test de χ2 dos p-valores: 0.143495 y 0.000006, uno de ellos al contrastar normalidad y el otro la distribución exponencial. Determina cuáles se corresponden mediante el test de Kolmogorov-Smirnov. (c) Compara los p-valores obtenidos mediante los dos test y coméntalo. 20. Se obtuvieron los siguientes resultados para el punto de ebullición, en grados Celsius de un compuesto de silicio: 166, 141, 136, 153, 170, 162, 155, 146, 183, 157, 148, 132, 160, 175 y 150. Analiza si es razonable suponer que provienen de una distribución normal mediante: (a) Un histograma. (b) Con papel probabilístico (test de Shapiro-Wilk). (c) Test de Kolmogorov-Smirnov. (d) ¾Todos los test son aplicables?(contempla también el test de χ2 ), ¾por qué? 21. En el archivo digiazar.rda se encuentra la variable digito que contiene la respuesta dada por 131 estudiantes cuando se les pidió que eligieran un dígito del 0 al 9 al azar. (a) ¾Qué distribución dirías que deben seguir estos datos a priori ? (b) Realiza un contraste que permita discutir la conjetura anterior. (c) Estima la distribución de probabilidad de la variable aleatoria. (d) ¾Hay dígitos igualmente probables? 22. En el archivo tension.rda se encuentran las resistencias a la tensión de 30 piezas de bra de poliéster que, a priori, se consideraba que deberían corresponderse con una distribución uniforme. (a) ¾Piensas que los datos conrman la conjetura inicial? (b) ¾Conoces algún modelo de probabilidad que se ajuste mejor al comportamiento de la muestra? 5 Prácticas de Estadística Análisis de la varianza Tema 4. ANÁLISIS DE LA VARIANZA 1. La resistencia a la rotura de un componente eléctrico constituye una característica importante de un cierto proceso. Un fabricante utiliza un material nuevo de fabricación frente al material clásico. Se recoge una muestra de 10 elementos usando el nuevo componente y otra de 10 elementos usando el componente clásico. Se pueden considerar a los dos procesos como dos tratamientos o dos niveles diferentes de un factor dado. Componente nuevo: 16.85, 16.40, 13.21, 16.35, 16.52, 17.04, 16.96, 17.15, 16.59, 16.57 Componente clásico: 17.50, 17.63, 18.25, 18.00, 17.86, 17.75, 18.22, 17.90, 17.96, 18.15 Se pretende averiguar si existen diferencias signicativas entre ambos tratamientos a nivel de resistencia. 2. Una empresa de software está investigando la utilidad de dos lenguajes diferentes para mejorar la velocidad de la programación. A doce programadores, familiarizados con ambos lenguajes, se les pide que programen cierto algoritmo en ambos lenguajes, anotándose el tiempo que tardan. Los resultados, en minutos, están en el chero lenguaje.rda. (a) Construir un intervalo de conanza para la diferencia de medias en tiempo de programación. (b) ¾Puede considerarse que alguno de los lenguajes es mejor que otro? (c) ¾Está bien diseñado el experimento anterior? Considerar y discutir algún diseño alternativo. 3. Supongamos un instrumento de medida de la dureza de un cierto material (se mide la profundidad de la huella producida por la presión de una punta sobre una probeta). Supongamos que se dispone de dos tipos de puntas distintas y se quiere comprobar si existen o no diferencias entre ellas. Un posible diseño experimental, sería tomar 20 probetas al azar y probar la mitad de ellas con una punta y la otra mitad con la otra. Se tendría, así, un diseño completamente aleatorizado y se utilizaría una prueba t de Student como en el problema anterior. Supongamos que existen diferencias entre las probetas, debidas a la distinta homogeneidad del material o a las diferentes condiciones de fabricación. Esto aumentaría el error de medida, que no sería controlable, y la diferencia entre las puntas podría resultar enmascarada. Una posible forma de evitarlo sería el siguiente diseño: Se divide en dos partes a la probeta y se asigna aleatoriamente una punta u otra a cada parte. Si se quiere eliminar el efecto no controlable de las diferentes probetas, se pueden considerar las diferencias entre las medidas. Estudiar si existen diferencias entre las puntas con estos datos: Punta 1: 7, 3, 3, 4, 8, 3, 2, 9, 5, 4 Punta 2: 6, 3, 5, 3, 8, 2, 4, 9, 4, 5 Diferencia: 1, 0, =2, 1, 0, 1, =2, 0, 1, =1 4. Supongamos que se tienen más de dos posibles grupos a comparar. La primera idea sería realizar contrastes de la t de Student por pares de grupos. Por ejemplo, si se tienen 5 grupos: 4 tratamientos y un control, podrían plantearse un total de 10 posibles pares de comparaciones. Haciendo esto produce el siguiente problema: Si la probabilidad de aceptar H0 correctamente es (1 = a), e.g. 0.95, entonces la probabilidad de aceptar correctamente H0 en las 10 pruebas es 0.9510 = 0.60 si éstas son independientes. Es decir, aumenta mucho el error de tipo I. Entonces hay que utilizar una metodología diferente: ANOVA. Por ejemplo, a un agricultor le ofrecen cuatro tipos de fertilizante para sus cultivos de patatas. Para compararlos utiliza cada uno de ellos en diez parcelas de su terreno y anota los kilos recolectados al nal de la temporada. Los datos están en el chero fertilizante.rda. 1 Prácticas de Estadística Análisis de la varianza (a) ¾Son igual de efectivos los cuatro fertilizantes? (b) Estudia las hipótesis del modelo: homocedasticidad, normalidad e independencia mediante el gráco de residuos. 5. Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia a la tensión de una nueva bra sintética que se empleará en la manufactura de tela para camisas de hombre. El ingeniero sabe por experiencia que la resistencia está inuida por el porcentaje de algodón presente en la bra. Además, sospecha que el contenido de algodón debe estar aproximadamente entre un 10% y un 35% para que la tela resultante tenga otras características de calidad que se desean (como la capacidad de recibir un tratamiento de planchado permanente). El ingeniero decide probar muestras a cuatro niveles de porcentaje de algodón: 15%, 20%, 25% y 30%. Asimismo, decide ensayar cinco piezas a cada nivel de contenido de algodón. Las 20 observaciones se han registrado en el chero algodon.rda. Analiza los resultados. 6. Un laboratorio investiga la composición de un medicamento nuevo para tratar cierta enfermedad infecciosa. Se decide testear 3 drogas A, B y C con la misma composición porcentual en la fórmula y un cóctel hecho con dos de ellas A y B con la mitad del porcentaje para cada una. Para ello se busca 50 pacientes escogidos al azar entre los que padecen la enfermedad con grados similares de avance y pertenecientes a un mismo estrato social y educacional. Lo que se mide es la cantidad de días que tardan en curarse completamente. Para los 5 casos a estudiar, escoge al azar 10 pacientes. Al primer grupo les suministra un placebo (grupo de control), al segundo la droga A, al tercero la B, al cuarto el cóctel (50% de A y 50% de B) y al quinto la droga C. Los resultados obtenidos se encuentran en el archivo drogas.rda. Se quiere no sólo estudiar si hay diferencias signicativas con el grupo de control, sino que, en el caso de haberlas, saber cuál es el mejor tratamiento. Solución.- En conclusión, se rechaza la hipótesis nula con resultados altamente signicativos F= 152,44*** Esto signica, que se tiene evidencia cientíca muy fuerte de las diferencias entre el grupo de control y los demás grupos, se puede concluir que el efecto del medicamento sirve para curar la enfermedad infecciosa (hay validación estadística). Este era el objetivo principal de la investigación, pero ahora, se puede continuar más allá, gracias a las bondades de este modelo. Por ejemplo, se puede investigar si hay diferencias entre el grupo al cual se le suministró el cóctel de droga y los demás que fueron tratados con las drogas puras. Para ello, se repite la misma técnica anterior, pero usándola con los datos de los grupos remanentes. 7. A una empresa le ofrecen impartir un curso de capacitación para aumentar el rendimiento de sus trabajadores. La empresa decide enviar a 15 de sus trabajadores elegidos al azar entre toda la plantilla. Para comprobar si el curso es benecioso, se controla el tiempo que tardan esos trabajadores en realizar un trabajo antes de realizar el curso y después de realizar el curso. Los resultados están en el chero curso.rda. ¾Puede armarse que la realización del curso mejora el trabajo? ¾Se ha diseñado bien el experimento? 8. Se ha realizado un estudio para investigar el efecto del ejercicio sico en el nivel del colesterol en suero. Veinte individuos tomaron parte en el estudio de los que se tomaron muestras de sangre para determinar el nivel de colesterol de cada sujeto. Después los individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en realizar carreras y marchas. Al nal del período de ejercicios se tomaron nuevas muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos obtenidos están en el chero colesterol.rda. ¾Puede armarse que el ejercicio físico disminuye el nivel de colesterol en suero? 9. El archivo anchuraaprox.rda contiene dos grupos de datos, el primero está formado por la aproximación, a ojo, del ancho de una sala, en metros, realizada por 44 estudiantes australianos. El segundo contiene la 2 Prácticas de Estadística Análisis de la varianza misma aproximación, en pies, realizada por 69 estudiantes distintos. El experimento fue realizado por un profesor, al poco tiempo de la introducción del sistema métrico en Australia, con objeto de estudiar si el cambio de sistema métrico produjo confusión en las apreciaciones espaciales de los estudiantes. La medida real de la sala es de 13'1 metros ó 43 pies. (a) Hacer un estudio descriptivo de estas dos muestras. (b) Calcular intervalos de conanza al 95% para la media y la varianza de la primera muestra. (c) Calcular intervalos de conanza al 95% para la diferencia de medias y el cociente de varianzas de las dos muestras. (d) ¾Puede armarse que el error en la aproximación es igual si se hace en metros que en pies? 3 Prácticas de Estadística Regresión Tema 5. REGRESIÓN SIMPLE 1. Los datos del archivo velocevapo.rda son las mediciones de la velocidad del aire (en cm/seg) y del coeciente de evaporación (en mm2 /seg) de las gotas de combustible en una turbina de propulsión. (a) Dibuja un diagrama de dispersión de los datos, tomando como variable independiente (x) la velocidad del aire. (b) Halla la covarianza entre las dos variables. Recalcula la covarianza cambiando las unidades de las variables. (c) Halla el coeciente de correlación. ¾Qué conclusión se puede sacar? (d) Calcula, si tiene sentido, la ecuación de la recta de regresión. (e) Realiza la diagnosis del modelo obtenido en el apartado anterior. (f ) Estima los coecientes de evaporación de unas gotas cuando la velocidad del aire sea de: 190, 225, 350 y 400 cm/seg. ¾Son igual de ables los resultados? 2. El archivo probeta.rda contiene las variables resnormal y rescorte con los resultados obtenidos en un laboratorio de resistencia de materiales sobre la resistencia a la normal y al esfuerzo cortante de 12 probetas. (a) Representa un diagrama de dispersión de los datos, tomando como variable independiente (x) resnormal. (b) Halla la covarianza entre las dos variables. (c) Halla el coeciente de correlación. ¾Qué conclusión se puede sacar? (d) En caso de tener sentido, calcula las ecuaciones de las dos posibles rectas de regresión. Comenta las similitudes y diferencias. (e) Realiza la diagnosis de ambos modelos. 3. Los datos del archivo iris.rda están organizados en cuatro columnas, que contienen las longitudes de los pétalos y de los sépalos de dos muestras de tamaño 50 de dos variedades de iris (versicolor y virgínica). (a) Analiza la dependencia entre los pétalos y los sépalos de la variedad virgínica. (b) Establece un modelo de regresión que resuma, si es posible, esta relación de dependencia y realiza la diagnosis del mismo. (c) Haz un estudio similar para la variedad versicolor. (d) Compara ambos modelos de regresión. (e) ¾Qué ocurre si en vez de explicar la longitud de los pétalos a partir de la de los sépalos se desea hacer lo contrario y explicar la longitud de los sépalos en función de la de los pétalos? ¾Existe alguna relación entre los distintos modelos? 4. El chero mamifero.rda contiene los pesos del cuerpo y del cerebro de 62 mamíferos. Estudiaremos el problema de ajustar un modelo que exprese el peso del cerebro como función del peso del cuerpo. (a) Estudia las variables sin transformar (el peso del cerebro está en gr. y el del cuerpo en kg.) (b) Observa los 3 puntos separados (identicarlos). (c) Ver que en esta regresión la pendiente de la recta queda determinada por estos 3 valores. 1 Prácticas de Estadística Regresión (d) Toma logaritmos en ambas variables y vuelve a hacer el estudio. (e) Identica el valor destacado. (f ) Interpreta los coecientes. 5. Las siguientes nubes de puntos representan los valores observados de las variables (X ,Y ) (a) ¾Qué tipo de relación existe entre las varibles en cada uno de los casos? (b) ¾Qué valores del coeciente de correlación esperas en cada caso?, ¾y de determinación? (c) Comenta sobre posibles violaciones de las hipótesis del modelo de regresión lineal simple. 6. Explica que te dicen los siguientes coecientes de correlación muestral sobre la relación entre las variables x e y (a) en la muestra (puedes ayudarte de un gráco si lo deseas). r = 1 ; (b) r = -1 ; (c) r = 0 ; (d) r = 0.9 ; (e) r = 0.1 ; (f ) r = -0.88 ¾Qué valores del coeciente de determinación puedes esperar en cada caso? 7. Ajusta un modelo de regresión lineal simple a cada uno de los cuatro conjuntos de datos del archivo y , xj ), j = 1, 2, 3, 4. anscombe.rda ( j En cada caso, explica las características más sobresalientes de la nube de puntos y comprueba que en cada conjunto se obtiene y = 3 + 0.5x, y R2 = 0.667. Analiza los residuos. 8. La siguiente tabla muestra los mejores tiempos mundiales en Juegos Olímpicos hasta 1976 en carreras masculinas para distintas distancias. y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795 x: distancia (m) 100 200 400 800 1500 5000 10000 42196 (a) Estima la regresión lineal de y sobre x y calcular la varianza residual y el coeciente de correlación. (b) Calcula los intervalos de conanza para la pendiente y varianza residual ( α = 0.01) (c) Analiza si la relación lineal es adecuada, tranformando las variables si es necesario. (d) Si en aquellas olimpiadas hubiera existido una carrera de 500 metros, estima el tiempo previsto para el record olímpico en dicha carrera, dando un intervalo de conanza con Repartiros en 5 grupos. α = 0.05. Cada grupo debe buscar las marcas olímpicas para las cinco últimas olimpiadas (Beijing, 2008, Atenas, 2004, Sidney, 2000, Atlanta 1996 y Barcelona 1992). Si estu- diamos todos los datos de forma conjunta: (e) ¾Se cumplen las hipótesis del modelo? (f ) ¾Cambian las conclusiones? ¾Porqué? 9. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona, padres, x, obteniendo las siguientes conclusiones: (a) Existía una correlación positiva entre las dos variables. 2 y, y la estatura de sus Prácticas de Estadística Regresión (b) Las estaturas de los hijos cuyos padres medían más que la media era, en promedio, inferior a la de sus progenitores, mientras que los padres con estatura inferior a la media en promedio tenían hijos más altos que ellos, calicando ésto como regresión a la media. Tomando los datos de los alumnos de Ingeniería de la Edicación, archivo datosalumnos.rda corroborar las dos hipótesis de Galton. Repetir el estudio tomando sólo las mujeres con (i) (ii) x x la estatura de su madre, el promedio de la estatura de sus padres. 10. Estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los resultados de la siguiente tabla unidades reparadas 1 3 4 6 7 9 10 tiempo de reparación 23 49 74 96 109 149 154 (a) Construye la recta de regresión para preveer el tiempo de reparación y utilízala para construir un intervalo de conanza (α = 0.01) para el tiempo de reparación de (b) Construye un intervalo de conanza 8 unidades. (α = 0.01) del tiempo de reparación para un lote de 14 unidades. (c) Si los tiempos de reparación fuesen medias de 10 datos ¾cuál sería la recta de regresión? 11. Los datos del archivo car93.rda contienen las observaciones de 93 modelos de coches de segunda mano. Para cada uno de ellos se han observado muchas características. (a) Se desea estimar el precio medio de un coche sabiendo su potencia en CV. Determina cuál es la variable independiente y cuál la dependiente. (b) Estima la regresión lineal de la variable y="precio medio" sobre la variable x="consumo en ciudad". (c) Realiza la diagnosis del modelo. Explica qué hipótesis del modelo se cumplen y cuales no. (d) ¾Qué signo tiene el coeciente de correlación? ¾tiene sentido? (e) Realiza una tranformación log(y), log(x) ¾qué ocurre con el coeciente de correlación? (f ) Se desea estimar el precio medio de un coche de segunda mano, cuyo consumo en ciudad sean 22 galones. Da el valor estimado y un intervalo de conanza para él. (g) He estado mirando un coche de segunda mano y me han dicho que consume 22 galones, pero el vendedor no tenía el precio a mano. Dame un valor para esa predicción y un intervalo de conanza para la misma. ¾es distinta a la anterior? ¾porqué? 12. Los datos en la tabla están descritos en Weisberg (Aplied Linear Regression, Wiley, 1985, 2-4). Se trata de 17 observaciones del punto de ebullición del agua en grados Farenheit a diferentes presiones, obtenidas mediante mediciones en varios picos de los Alpes. El propósito del experimento original era predecir la presión a partir del punto de ebullición, que se mide fácilmente, y por tanto producir un estimador de la altitud. Weisberg recomienda 100 * log(presión) como respuesta. 3 Las observaciones Prácticas de Estadística son Regresión Observación Punto de ebullición 100 * log(presión) 1 194.5 131.79 2 194.3 131.79 3 197.9 135.02 4 198.4 135.55 5 199.4 136.46 6 199.9 136.83 7 200.9 137.82 8 201.1 138.00 9 201.4 138.06 10 201.3 138.05 11 203.6 140.04 12 204.6 142.44 13 209.5 145.47 14 208.6 144.34 15 210.7 146.30 16 211.9 147.54 17 212.2 147.80 (a) Ajusta un modelo de regresión simple a estos datos. (b) Comprueba el modelo con grácos de los residuos y reajusta si es necesario. (c) Resume los resultados en una tabla de análisis de la varianza. (d) ¾Cuál es la precisión de este método para medir la presión? 4