11-6-2007 ESTADÍSTICA PARA DOCUMENTACIÓN

Anuncio
11-6-2007
ESTADÍSTICA PARA DOCUMENTACIÓN
El fichero COCHES.sf3 contiene datos sobre un elevado número de modelos de coche fabricados entre
los años 78 y 82. Concretamente, para cada modelo se han medido los valores de las siguientes variables:
CONSUMO (de gasolina, en millas por galón), CILINDROS (nº cilindros), VOL (volumen), POTENCIA
(nº de caballos), ACCEL (tasa de aceleración), AÑO (en el que fue fabricado), PESO, PAIS (cada número
distinto indica un país diferente, donde el modelo ha sido fabricado), MARCA, MODELO, PRECIO.
Las variables PAIS y AÑO deben considerarse como categóricas.
Parte I
1. Suponiendo que la variable PESO fuera normal, contrastar que el peso medio de los coches
fabricados entre los años 78 y 82 sea menor que 4000 kg para un nivel de significación del 1%.
(1pto)
2. a) Calcular un intervalo de confianza para la diferencia entre los consumos medios de los años
78 y 82 a partir de los siguientes datos ( nivel de confianza del 97%):
x = 24 s = 7 n = 36
AÑO 82: x = 32 s = 5 n = 30
(0.5ptos)
AÑO 78:
b) Interpretar dicho intervalo, ¿ha aumentado o disminuido el consumo medio desde el año 78
hasta el 82 para un nivel de significación del 3%? (0.5ptos)
3. A partir de un estudio descriptivo, ¿es la variable ACCEL normal?¿y simétrica?
Elimina un dato atípico del fichero y comprueba después si es o no normal. (1pto)
4. Agrupar en 7 clases desde los valores 40 hasta 180 de la variable POTENCIA.
(0.25ptos)
a) ¿En qué intervalo se encuentra la potencia mediana? 0.25ptos
b) ¿Por encima de que valor se encuentra el 60% de los coches más potentes?¿Cómo
se denomina la medida estadística que nos permite calcular este valor? 0.25ptos
c) ¿Qué porcentaje de coches tienen más de 100 de C.V. de potencia? 0.25ptos
5. Suponiendo que la variable CONSUMO sigue una distribución Normal (estimación
puntual de los parámetros poblacionales a partir de los valores muestrales).
Calcular el valor de consumo crítico por debajo del cual se encuentran el 60%
de los coches que menos consumen. (1pto)
Parte II
1.
a) Analiza si la variable CONSUMO puede considerarse normal para un nivel de significación
del 5%, y si puede considerarse simétrica. (1 pto.)
b) Utilizando los resultados del apartado anterior, contrasta si puede admitirse que el “tamaño
mediano” de esta variable sea mayor de 30. (1 pto.)
2.
Considerando como categórica la variable AÑO, responde a las siguientes preguntas:
a) Forma una tabla de contingencia con las variables apropiadas, e indica qué porcentaje de los
modelos fabricados en el año 78 viene del país número 1. (0’5 ptos.)
b) ¿Puede decirse que la cantidad de modelos fabricados en los distintos países se ha mantenido
constante a lo largo de los años considerados en el estudio, o hay diferencias significativas según
los años? (1 pto.)
3.
A partir de la tabla de ANOVA, ¿puede decirse que la potencia de los coches considerados es
independiente del país donde se han fabricado? En caso negativo, indica qué países pueden
considerarse como fabricantes de coches de potencia similar. Justifica tu respuesta. (1’5 ptos.)
4.
Aplica un ANOVA multifactorial para estudiar si hay diferencias significativas en cuanto al
consumo según el país donde se ha fabricado cada modelo, y el año de fabricación. Indica cuáles
de estos factores pueden considerarse significativos. (1 pto.)
5.
Calcula e interpreta, en cada caso, el coeficiente de correlación lineal de Pearson y el coeficiente
de determinación (R2), a fin de contestar a las siguientes preguntas: (1’5 ptos.)
a)
¿Tiene sentido tratar de predecir el PRECIO de un coche a partir de su POTENCIA
utilizando un modelo lineal?
b) ¿Tiene sentido tratar de predecir el VOLUMEN de un coche a partir de su PESO
utilizando un modelo lineal?
c)
En el caso del apartado b), ¿hay algún modelo mejor que el lineal?
6.
Utiliza un modelo de regresión múltiple para predecir el CONSUMO de un coche, a partir de
todas las demás variables numéricas de la hoja de datos (reiteramos que AÑO se entiende como
categórica). ¿Es un buen modelo? Justifica tu respuesta con los datos que consideres necesarios.
¿Podría eliminarse algún parámetro? (1 pto.)
7.
Utiliza un Análisis Discriminante para responder a las siguientes preguntas:
a)
¿Qué variables numéricas influyen más (indica dos) a la hora de discriminar el país
donde ha sido fabricado un vehículo, a partir de los valores de las variables numéricas
que aparecen en los datos? Para responder a esta pregunta utiliza la función
discriminante que retiene mayor poder discriminante. (0’5 ptos.)
b) Aplica la herramienta que has utilizado en el apartado anterior a los datos, y di qué
porcentaje de éxitos obtienes. (0’5 ptos.)
8.
Explica en qué consiste, y para qué sirve, el Análisis en Componentes Principales. (0’5 ptos.)
-----------------------------------------------------------------------------------------------------------------------
NOTA: LOS ALUMNOS QUE SE PRESENTEN A TODA LA ASIGNATURA
DEBEN REALIZAR LA PARTE I COMPLETA Y DE LA PARTE II SÓLO LOS
APARTADOS: 1.a); 2.a); 3); 5) ; 7.a)
Descargar