11-6-2007 ESTADÍSTICA PARA DOCUMENTACIÓN El fichero COCHES.sf3 contiene datos sobre un elevado número de modelos de coche fabricados entre los años 78 y 82. Concretamente, para cada modelo se han medido los valores de las siguientes variables: CONSUMO (de gasolina, en millas por galón), CILINDROS (nº cilindros), VOL (volumen), POTENCIA (nº de caballos), ACCEL (tasa de aceleración), AÑO (en el que fue fabricado), PESO, PAIS (cada número distinto indica un país diferente, donde el modelo ha sido fabricado), MARCA, MODELO, PRECIO. Las variables PAIS y AÑO deben considerarse como categóricas. Parte I 1. Suponiendo que la variable PESO fuera normal, contrastar que el peso medio de los coches fabricados entre los años 78 y 82 sea menor que 4000 kg para un nivel de significación del 1%. (1pto) 2. a) Calcular un intervalo de confianza para la diferencia entre los consumos medios de los años 78 y 82 a partir de los siguientes datos ( nivel de confianza del 97%): x = 24 s = 7 n = 36 AÑO 82: x = 32 s = 5 n = 30 (0.5ptos) AÑO 78: b) Interpretar dicho intervalo, ¿ha aumentado o disminuido el consumo medio desde el año 78 hasta el 82 para un nivel de significación del 3%? (0.5ptos) 3. A partir de un estudio descriptivo, ¿es la variable ACCEL normal?¿y simétrica? Elimina un dato atípico del fichero y comprueba después si es o no normal. (1pto) 4. Agrupar en 7 clases desde los valores 40 hasta 180 de la variable POTENCIA. (0.25ptos) a) ¿En qué intervalo se encuentra la potencia mediana? 0.25ptos b) ¿Por encima de que valor se encuentra el 60% de los coches más potentes?¿Cómo se denomina la medida estadística que nos permite calcular este valor? 0.25ptos c) ¿Qué porcentaje de coches tienen más de 100 de C.V. de potencia? 0.25ptos 5. Suponiendo que la variable CONSUMO sigue una distribución Normal (estimación puntual de los parámetros poblacionales a partir de los valores muestrales). Calcular el valor de consumo crítico por debajo del cual se encuentran el 60% de los coches que menos consumen. (1pto) Parte II 1. a) Analiza si la variable CONSUMO puede considerarse normal para un nivel de significación del 5%, y si puede considerarse simétrica. (1 pto.) b) Utilizando los resultados del apartado anterior, contrasta si puede admitirse que el “tamaño mediano” de esta variable sea mayor de 30. (1 pto.) 2. Considerando como categórica la variable AÑO, responde a las siguientes preguntas: a) Forma una tabla de contingencia con las variables apropiadas, e indica qué porcentaje de los modelos fabricados en el año 78 viene del país número 1. (0’5 ptos.) b) ¿Puede decirse que la cantidad de modelos fabricados en los distintos países se ha mantenido constante a lo largo de los años considerados en el estudio, o hay diferencias significativas según los años? (1 pto.) 3. A partir de la tabla de ANOVA, ¿puede decirse que la potencia de los coches considerados es independiente del país donde se han fabricado? En caso negativo, indica qué países pueden considerarse como fabricantes de coches de potencia similar. Justifica tu respuesta. (1’5 ptos.) 4. Aplica un ANOVA multifactorial para estudiar si hay diferencias significativas en cuanto al consumo según el país donde se ha fabricado cada modelo, y el año de fabricación. Indica cuáles de estos factores pueden considerarse significativos. (1 pto.) 5. Calcula e interpreta, en cada caso, el coeficiente de correlación lineal de Pearson y el coeficiente de determinación (R2), a fin de contestar a las siguientes preguntas: (1’5 ptos.) a) ¿Tiene sentido tratar de predecir el PRECIO de un coche a partir de su POTENCIA utilizando un modelo lineal? b) ¿Tiene sentido tratar de predecir el VOLUMEN de un coche a partir de su PESO utilizando un modelo lineal? c) En el caso del apartado b), ¿hay algún modelo mejor que el lineal? 6. Utiliza un modelo de regresión múltiple para predecir el CONSUMO de un coche, a partir de todas las demás variables numéricas de la hoja de datos (reiteramos que AÑO se entiende como categórica). ¿Es un buen modelo? Justifica tu respuesta con los datos que consideres necesarios. ¿Podría eliminarse algún parámetro? (1 pto.) 7. Utiliza un Análisis Discriminante para responder a las siguientes preguntas: a) ¿Qué variables numéricas influyen más (indica dos) a la hora de discriminar el país donde ha sido fabricado un vehículo, a partir de los valores de las variables numéricas que aparecen en los datos? Para responder a esta pregunta utiliza la función discriminante que retiene mayor poder discriminante. (0’5 ptos.) b) Aplica la herramienta que has utilizado en el apartado anterior a los datos, y di qué porcentaje de éxitos obtienes. (0’5 ptos.) 8. Explica en qué consiste, y para qué sirve, el Análisis en Componentes Principales. (0’5 ptos.) ----------------------------------------------------------------------------------------------------------------------- NOTA: LOS ALUMNOS QUE SE PRESENTEN A TODA LA ASIGNATURA DEBEN REALIZAR LA PARTE I COMPLETA Y DE LA PARTE II SÓLO LOS APARTADOS: 1.a); 2.a); 3); 5) ; 7.a)