TRABAJO ESTADISTICA DOCUMENTACION Se trata de un trabajo, voluntario, sobre datos reales. Se realiza en grupos de 4 alumnos, y su duración es anual. Se valora con hasta 1 punto sobre la nota final. Dicha suma se hará efectiva siempre que en ambos exámenes parciales (o en el examen final) el alumno/a haya obtenido al menos un cuatro; en otro caso, la calificación será necesariamente Suspenso, independientemente de la realización del trabajo. Sin embargo, la nota obtenida en el trabajo se podrá guardar para la convocatoria de Septiembre. Habrá al menos tres revisiones del trabajo: 1.- Mes de Diciembre: los datos ya deben haber sido recogidos. 2.- Mes de Enero: la primera parte del trabajo (estudio descriptivo de los datos) debe haber sido completada. 3.- Mes de Junio: la segunda parte del trabajo (análisis de los datos recogidos mediante contrastes de hipótesis, y técnicas de análisis multivariante) debe haber sido completada. IMPORTANTE: para que el trabajo sea tomado en consideración, cada grupo deberá haberse sometido a las tres revisiones reseñadas arriba, y haber recibido el “visto bueno” en cada una de ellas. En la primera revisión los grupos aportarán las encuestas recogidas; en la segunda, el Estudio Descriptivo; en la tercera, el trabajo completo. El objetivo del trabajo es describir con la mayor exactitud posible a los usuarios de una biblioteca de Alcalá, o de otra población madrileña. Con este fin, cada grupo confeccionará una hoja/encuesta, en la que se recogerán (de forma anónima) los siguientes datos: - Sexo (Varón/Hembra) Edad Nivel de estudios (Sin estudios; ESO o similar; Bachillerato o similar; Licenciado; Doctor). Hábito de Lectura (0.- muy escaso; 1.- escaso; 2.- medio; 3.- alto; 4.muy alto). Afición al cine (0.- muy escaso; 1.- escaso; 2.- medio; 3.- alto; 4.- muy alto). Razón por la que se acude a la biblioteca (estudiar; préstamo de libros; ambas). Número medio de libros que sueles leer mensualmente. Afición a la pintura (0.- muy escaso; 1.- escaso; 2.- medio; 3.- alto; 4.muy alto). Número medio de ocasiones en que sueles acudir al cine, mensualmente. Número medio de ocasiones en que sueles acudir a exposiciones o conferencias, mensualmente. Renta mensual, aproximada (para los que trabajen, el sueldo medio; para los que aún dependan de sus padres, la media aproximada de los sueldos de los padres). Se requerirá un tamaño muestral mínimo de 60 datos, tomados en al menos cinco días distintos (un máximo de 12 cada día), sin que haya personas repetidas. En este sentido, en cada hoja/encuesta deberá constar la fecha en la que fue rellenada. En el trabajo que se entregará en el mes de Junio, deberán constar las siguientes secciones: 1) Breve descripción de la Biblioteca objeto de estudio: población y barrio en la que está ubicada, breve descripción del entorno socioeconómico y de las características de la Biblioteca. 2) Breve descripción del estudio estadístico: población (el conjunto de usuarios de la biblioteca), tamaño muestral, técnica de muestreo utilizada, variables registradas (las anteriormente reseñadas), nivel de significación admitido para el contraste de hipótesis, y cualquier otro dato que se considere relevante. 3) Estudio descriptivo de los datos: de cada una de las variables reseñadas anteriormente, se adjuntará una ficha en la que deben constar: el tipo de variable (categórica, cuantitativa continua, cuantitativa discreta); tabla de frecuencias (agrupada en intervalos, en los casos de Edad y Renta); principales parámetros de centralización (media, moda, mediana) y de dispersión (varianza, desviación típica, coeficiente de variación, cuartiles); datos atípicos; gráfico de barras o histograma; gráfico de sectores. Para aquellas variables numéricas cuyo gráfico sugiera una distribución aproximadamente normal, un intervalo de confianza para la media (al 95%), y los intervalos en los que cabe esperar encontrar al 75% y al 90% de la población, respectivamente. 4) Contraste de hipótesis: se utilizarán los contrastes de hipótesis que se consideren apropiados para evaluar las siguientes cuestiones; en el trabajo deberá reseñarse el contraste de hipótesis que se ha utilizado, el p-valor obtenido, y la conclusión, además de los gráficos y/o diagramas que se consideren convenientes. a.- ¿Cuáles de las variables numéricas estudiadas siguen una distribución normal? Para aquellas que no lo sean, ¿puedes conjeturar alguna otra distribución que se ajuste a ellas? b.- ¿Puede admitirse que la edad media de los usuarios de esa biblioteca es inferior a 20 años? ¿Y a 25? ¿Y a 30 años? c.- ¿Puede admitirse que las edades medias de los hombres y de las mujeres que acuden a esa biblioteca son similares? d.- ¿Puede admitirse que la mediana de la variable “Afición a la Pintura” es superior a 2? e.- ¿Hay diferencias significativas entre sexos, en cuanto a hábito de lectura? (para contestar a esta pregunta, construye además un diagrama de contingencia). f.- ¿Hay relación entre el hábito de lectura, y la afición al cine? ¿Y entre el nivel de estudios y el hábito de lectura? (para contestar a esta pregunta, construye además diagramas de contingencia). g.- ¿Hay relación entre la renta media, y el hábito de lectura? ¿Y entre la renta media, y el nivel de estudios? (Comprueba las hipótesis del modelo que utilices). ¿Qué porcentaje de variabilidad logras explicar? h.- Aplica un ANOVA multifactorial sin interacción para explicar la variable Renta a partir de los factores: Sexo, Nivel de Estudios, y Afición al Cine. ¿Cuáles resultan significativos? Aplica un modelo con interacción para estudiar la existencia de interacciones entre los factores. (Comprueba las hipótesis del modelo que utilices) i.- Estudia la existencia de correlación lineal entre las variables “Número medio de libros leídos mensualmente”, y “Afición al Cine”. Idem entre las variables “Renta” y “Número medio de libros…”. Para ello, calcula los coeficientes de correlación lineal de Pearson y Spearman, y analiza los contrastes que proporciona Statgraphics. En caso de obtener evidencia de correlación lineal, aporta la ecuación del modelo; en caso de no obtenerla, trata de encontrar un modelo más apropiado; asimismo, indica el porcentaje de variabilidad explicada con el modelo. j.- Utiliza un modelo de regresión lineal múltiple para predecir la variable “Número medio de libros leídos mensualmente”, a partir de las variables “Hábito de lectura”, “Edad", “Afición al cine”, “Afición a la pintura”, “Renta”. ¿Puede eliminarse algún parámetro? En tu opinión, ¿es un buen modelo? Justifica tu respuesta a partir de distintos cálculos. 5) Análisis multivariante: utiliza técnicas de análisis multivariante para responder a las siguientes cuestiones: A.-¿Cuántas componentes principales debes tomar para retener al menos el 85% de la variabilidad contenida en los datos?. Interpreta, si te es posible, alguna de esas componentes principales. B.- ¿Cuáles son las variables más influyentes a la hora de predecir el valor de la variable Hábito de Lectura? (utiliza un Análisis Discriminante). C:- Utiliza técnicas de Análisis Cluster para distinguir grupos significativos entre los usuarios de la biblioteca, e interpreta los grupos que obtienes. Para cada una de estas cuestiones, se reseñará la técnica utilizada, los cálculos y gráficos que se consideren más relevantes, y la conclusión. 6) Conclusiones: a partir de la información recogida en todos los puntos anteriores, se trata de dar una descripción lo más exacta posible de los usuarios de la biblioteca, destacando los aspectos que se consideren más relevantes (diferencias por sexos, por nivel de estudios, por niveles de renta, relaciones entre variables, etc.)