EJERCICIO-RESUMEN DEL SEGUNDO CUATRIMESTRE Abre el fichero clase98.sf3. En él encontrarás datos correspondientes a distintos individuos, tanto hombres como mujeres, sobre los cuáles se han registrado distintas medidas, como estatura, peso, tobillo, cráneo, pie, etc. junto con el grupo sanguíneo (sólo aparecen los tipos 0, A, B, AB). 1. a) Estudia si la variable “espalda” es, en el caso de las mujeres, normal, y simétrica. b) ¿Puede admitirse que el tamaño medio de la variable anterior, para las mujeres, es superior a 55? c) ¿Puede admitirse que la variable “espalda” posee una media similar en hombres y en mujeres? ¿Puede admitirse que la distribución de ambas variables es la misma? 2. a) ¿Tiene sentido tratar de predecir el valor de la variable “cráneo” a partir de “brazo”? ¿Y “peso” a partir de “pie”? Justifica tu respuesta con los parámetros y contrastes que consideres apropiados. b) ¿Qué peso cabría esperar para un individuo cuyo pie mide 42 cm? 3. a ) ¿Qué porcentaje de hombres tienen grupo sanguíneo 0? ¿Qué porcentaje de los pertenecientes al grupo A son mujeres? b) ¿Puede decirse, a un nivel de significación del 3%, que el sexo del individuo no influye en absoluto en el grupo sanguíneo (en otras palabras, que la proporción de hombres y mujeres con determinado grupo sanguíneo es aproximadamente la misma)? 4. a) Utiliza una técnica de análisis de la varianza para decidir si hombres y mujeres presentan diferencias significativas en cuanto al valor de la variable “Estatura”. b) Comprueba las hipótesis del modelo que has utilizado antes. c) Calcula la media de estatura de los hombres, y el efecto de los hombres. d) Realiza un contraste no-paramétrico apropiado, e indica si dicho contraste confirma las conclusiones del apartado a). 5. ¿Tendría sentido predecir el sexo de un individuo a partir de las variables numéricas que se consideran en los datos? ¿Cuáles son las variables más influyentes, en este sentido? Justifica tu respuesta con los datos y cálculos que consideres necesarios. 6. a) Estudia si las variables “sexo” y “grupo sanguíneo” poseen influencia sobre el cráneo de los individuos. ¿Cuántos grupos homogéneos puedes establecer sobre la variable “grupo sanguíneo”? ¿Es lógico? b) El número de datos es insuficiente para realizar un análisis de interacción. Sin embargo, si aumentáramos el número de datos, y detectáramos que efectivamente la hay, ¿qué significaría? Explícalo con tus palabras. 7. ¿Tiene sentido tratar de predecir el valor de la variable “espalda” a partir del resto de variables numéricas? ¿Hay alguna variable que resulte superflua en esa predicción? Elimina dichas variables. En el modelo resultante, ¿crees que hay problemas de colinealidad? 8. Realiza un análisis en componentes principales. ¿Cuántas componentes necesitas para retener el 80% de la varianza? ¿Alguna de ellas podrían entenderse como la “envergadura” del individuo? 9. Contesta a las siguientes cuestiones: a) ¿En qué consiste, y para qué sirve, un análisis cluster? Pon, si lo deseas, algún ejemplo. b) Si los coeficientes de correlación de Pearson y Spearman son muy próximos a cero, ¿podemos decir que las variables implicadas son independientes, es decir, que no tienen relación?