http://dm.udc.es/asignaturas/estadistica2/estadistica_2.htm Tabla de contenidos INTRODUCCIÓN CONTENIDOS I. El exámen previo de los datos II. El estudio descriptivo de los datos III. Representación tabulada de los datos ACTIVIDADES RESULTADO: RESULTADO: RESULTADO: PRACTICA 2 Análisis descriptivos INTRODUCCIÓN En esta segunda práctica nos vamos a centrar en los procedimientos del SPSS para resolver análisis univariantes, entendiendo por tales aquéllos que se refieren a variables consideradas individualmente. Estos análisis pueden ser el objeto mismo de algún estudio, es decir de un estudio descriptivo, o un primer paso para examinar los datos antes de realizar análisis más complejos (es muy fácil cometer pequeños errores al introducir los datos que alteren todos los resultados de los análisis). La utilidad e importancia de los mismos es patente: estudiar las distribuciones, analizar datos fuera de rango, comprobar supuestos matemáticos para la aplicación de otros análisis, etc. Concretamente, estudiaremos los procedimientos: Frecuencias, Descriptivos y Explorar. Puesto que ya tenemos definido el fichero de datos, tan sólo tenemos que arrancar el programa y abrir el fichero datosAMO.sav. Una vez abierto el fichero de datos, en la barra de menús se elige la opción Análisis Figura 2.1. Abrir archivo de datos Figura 2.2. Estadísticos descriptivos Comenzaremos realizando un estudio previo de los datos. CONTENIDOS I. El exámen previo de los datos I. 1. Objetivos El primer paso de cualquier análisis de datos debe centrarse en un examen detallado de los mismos. Esta revisión persigue los siguientes objetivos: 1. Localizar errores en la transcripción de los datos. Hay que tener en cuenta que los datos "recorren un largo camino" hasta que llegan al fichero de datos. Son dictados, copiados, transcritos, leídos ópticamente, y en cualquiera de estas operaciones pueden introducirse errores. Algunos son fáciles de encontrar con sólo hacer una tabla de frecuencias y otros, desgraciadamente, nunca serán encontrados (y confiaremos en que un tamaño de muestra lo suficientemente grande equilibre esa distorsión). 2. Explorar los datos. Antes de comenzar directamente aplicando un determinado procedimiento estadístico es muy conveniente "ojear" los datos. Esto nos puede sugerir o dar ideas para plantear otras técnicas de análisis, etc. 3. Comprobar los requisitos de posteriores análisis. La distribución de los valores es decisiva para determinar lo apropiado de las técnicas estadísticas que teníamos previsto emplear (supuestos del ANOVA, elección entre pruebas paramétricas y no paramétricas, etc.). I. 2. Procedimientos A continuación presentamos algunas posibilidades del comando EXPLORAR. Este comando genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos. 1.- Explorar: Estadísticos Figura 2.3. Procedimiento Explorar Como la variable factor define grupos de casos y en nuestra investigación hemos trabajado con 8 grupos de tratamiento diferentes, es muy importante realizar una exploración inicial de los datos en los diferentes grupos. Este análisis nos permitirá comprobar la ausencia de errores en la definición de los grupos de tratamiento. Figura 2.4. Selección de estadísticos descriptivos Por defecto el programa calcula los estadísticos descriptivos de tendencia central, variablidad y forma, así como el intervalo de confianza para el 95%. Figura 2.5. Resultados correspondientes al análisis Explorar 2.- Explorar Gráficos Por defecto el SPSS permite realizar tres tipos de gráficos diferentes, a saber: diagramas de caja, diagramas de tallo y hojas e histogramas. Figura 2.6. Selección de gráficos A.- Diagramas de caja Este tipo de gráfico refleja la representación de una distribución de tal forma que el interior de la caja encierra el 50 % central de los casos y sus límites son el 25 % superior e inferior (como puede apreciarse en la figura 2.7). Así, el límite inferior de la caja representa el percentil 25, el límite superior es el percentil 75, y la longitud de la caja es el rango intercuartil (IQR=P75-P25). El asterisco dentro de la caja representa la mediana (percentil 50). Los casos con valores más de tres veces la longitud de la caja por encima del límite superior o inferior aparecen señalados con una E (valores extremos). Los casos entre 1.5 y 3 veces el rango intercuartil se denominan outliers values (valores fuera del rango) y se representan con una O. Además aparecen los valores máximo y mínimo que no están fuera de rango, unidos con una línea a los límites de la caja. Es mucha la información que podemos obtener de estas representaciones. La situación de la mediana da una idea de la tendencia central de los datos y la longitud de la caja de su variabilidad. Si la mediana no está en el centro del boxplot se puede inferir que los valores observados están sesgados (positivamente si la mediana está más cerca del límite inferior y negativamente si está más cerca del superior). Figura 2.7. Diagrama de caja para la variable FDPre Este tipo de representación es especialmente útil para comparar la distribución de los datos de una misma variable en varios grupos o para comparar los resultados de distintas variables obtenidas en un mismo grupo (o una misma variable medida en momentos diferentes, sería el mismo caso que el anterior). Por ejemplo, para comparar una misma variable en varios grupos procederíamos así: Figura 2.8. Selección de la variable Figura 2.9. Selección del tipo de gráfico Figura 2.10. Diagrama de caja para la variable FDPre en tres grupos Para comparar distintas variables en un mismo grupo el procedimiento sería: Figura 2.11. Selección de las variables Figura 2.12. Selección del tipo de gráficos Figura 2.13. Diagrama de caja para las variables FDPre y FDPost1 B.- Histogramas (Se verán con detalle en el procedimiento Frecuencias) C.- Gráficos de tallo y hojas Es una representación en la que los dígitos se dividen entre la parte troncal (izquierda denominada tallo) y la parte marginal (derecha denominada hoja). Los dígitos del tallo se ordenan de arriba abajo y las hojas de izquierda a derecha. Como en el histograma, la longitud de cada hojacorresponde al número de casos que contiene un determinado intervalo. Figura 2.14. Gráfica de tallo y hojas para la variable FDPre D.- Gráficos con pruebas de normalidad Muestran los diagramas de probabilidad normal y probabilidad sin tendencia. En bastantes tests estadísticos es necesario comprobar, antes de aplicarlos, si los datos provienen de una población que se distribuye de acuerdo al modelo teórico de probabilidad normal. Los gráficos de normalidad permiten apreciar este requisito de una forma intuitiva y a la vez fiable. En éstos, cada valor observado se empareja con su correspondiente valor esperado en una población normal (el valor esperado se basa en el tamaño de la muestra y en el orden de cada caso en ella). Si la muestra proviene de una distribución normal los puntos dibujarán, aproximadamente, una línea recta. Además de la información visual que proporcionan estos gráficos, el SPSS proporciona el test estadístico de Kolmogorov-Smirnov que permite contrastar la hipótesis nula de normalidad de la distribución. Así mismo, calcula el test de Shapiro-Wilks para muestras pequeñas (50 o menos casos). Este análisis debería realizarse para cada una de las variables definidas en el fichero de datos antes de realizar ningún otro análisis. II. El estudio descriptivo de los datos II. 1. Objetivos Una vez realizado el análisis exploratorio de las variables, es preciso descender a un estudio descriptivo más específico de las variables. II. 2. Procedimientos Para la realización del estudio descriptivo de las variables el SPSS presenta dos procedimientos, a saber: FRECUENCIAS y DESCRIPTIVOS. 1.- Frecuencias: estadísticos Este procedimiento muestra en pantalla una distribución de frecuencias simple para la variable objeto de estudio. Permite calcular todos los estadísticos descriptivos de la variable así como sus representaciones gráficas más significativas. Este procedimiento permite trabajar tanto con variables cuantitativas como con variables categóricas. En nuestro caso, vamos a comenzar por examinar la distribución de frecuencias de la variable SMDPre, con objeto de comprobar si los grupos de tratamiento en su situación de partida eran semejantes. Figura 2.15. Procedimiento frecuencias Figura 2.16. Estadísticos del procedimiento frecuencias Las tabulaciones y los porcentajes proporcionan una descripción útil para los datos de cualquier distribución, especialmente para las variables categóricas. La media y la desviación típica se basan en la teoría de distribución normal y son apropiados para variables cuantitativas con distribuciones simétricas. Los estadísticos robustos (mediana, cuartiles y percentiles) son apropiados para las variables cuantitativas que pueden o no cumplir el supuesto de normalidad. Figura 2.17. Descriptivos de la variable SMDPre 2.- Frecuencias: gráficos El procedimiento Frecuencias permite realizar los siguientes tipos de gráficos: A.- Gráficos de sectores Muestran la contribución de las partes a un todo, cada sector corresponde a un grupo definido por una única variable de agrupación. Este gráfico es apropiado para variables categóricas. Vamos a comprobar cómo se reparte la variable Grupo Figura 2.18. Gráfico de sector para la variable Grupo B.- Gráficos de barras Muestran la frecuencia de cada valor o categoría distinta como una barra diferente, permitiendo comparar las categorías de forma visual. Este gráfico es apropiado para variables categóricas. Figura 2.19. Gráfico de barras para la variable Grupo C.- Histogramas Los histogramas son representaciones gráficas propias de variables contínuas. Las barras representan la frecuencia de valores para ese intervalo de la variable cuantitativa. Figura 2.20. Histograma para la variable FDPre 3.- Descriptivos El procedimiento Descriptivos añade a los procedimientos anteriores el cálculo de los valores tipificados para la variable (puntuaciones z). Una vez calculadas las puntuaciones z, si éstas se guardan, automáticamente se añaden a los datos del editor de datos, quedando disponibles para los gráficos, el listado de datos y los análisis que se deseen realizar. Su distribución adopta la misma forma que la de los datos originales; por tanto, su cálculo no es una buena solución para los datos con problemas. Este procedimiento no es apropiado para variables categóricas, siendo más eficaz que los anteriores para el estudio de variables cuantitativas con distribución simétrica. III. Representación tabulada de los datos III. 1. Objetivos En ocasiones resulta muy útil tabular los datos en función de variables categóricas o de corte. Estas pueden ser cualitativas, como por ejemplo el sexo, o cuantitativas, en las que se han definido, en un momento previo, categorías (p. e. con el comando Recodificar). III. 2. Procedimientos El procedimiento Tablas de contingencia genera tablas de datos de clasificación doble y múltiple, indicando porcentajes por celda y totales. Además, ofrece tests estadísticos de asociación (como el coeficiente de contingencia) para las tablas de doble clasificación. Los estadísticos y las medidas de asociación sólo se calculan para las tablas de doble clasificación. En nuestro problema de investigación este procedimiento nos puede facilitar, por ejemplo, la presentación de los datos según los grupos de tratamiento. En el ejemplo que figura a continuación se tabula la variable "Madurez Intelectual" para los cinco primeros grupos de tratamiento. Para ello es preciso categorizar antes la variable MI con el procedimiento Recodificar. Recodificar en distinta variable: · Madurez Intelectual Baja (40 a 90) = Inteligencia 1 · Madurez Intelectual Normal (91 a 120) = Inteligencia 2 · Madurez Intelectual Alta (>120) = Inteligencia 3 Ahora la variable MI, reagrupada en tres niveles es cortada por los grupos de tratamiento. Introducir cuadro de diálogo: Analizar Estadísticos descriptivos Tablas de contingencia (filas Grupo y columnas Inteligencia) En la figura 2.21 podemos comprobar cómo se clasifican los alumnos por grupo de tratamiento y madurez intelectual (reagrupada en la variable Inteligencia). Figura 2.21. Clasificación de los alumnos por grupo de tratamiento y madurez intelectual ACTIVIDADES A partir de la lectura del artículo de investigación Un nuevo modo de proceder en el aula aprendiendo mediante el ordenador (Reparaz y Tourón, 1992), realice los ejercicios necesarios para responder a las siguientes cuestiones: 1.- Comience comprobando que todas las variables del archivo Datos AMO.sav no contienen errores. Recuerde que el procedimiento adecuado es EXPLORAR, aunque también es muy útil realizar las distribuciones de frecuencias simples propias del porcedimiento FRECUENCIAS. A modo de ejemplo, vamos a seleccionar la variable MI. RESULTADO: Explorar MI MI Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 Extremes (=<50) 1,00 5. 9 3,00 6 . 356 5,00 7 . 13566 17,00 8 . 02334445777778999 13,00 9 . 0222336666778 22,00 10 . 0111123345666666778899 39,00 11 . 000000112223333334555555666777788899999 35,00 12 . 00111111123333333334455555778999999 34,00 13 . 0111222223334444455555677888889999 26,00 14 . 00122233444566667788888999 18,00 15 . 012222345566777889 3,00 16 . 004 Stem width: 10 Each leaf: 1 case(s) 2.- ¿Entre qué valores se distribuye la variable Madurez Intelectual de los alumnos de 5º de Educación Primaria (5º de EGB en el artículo de investigación). Realice la distribución de frecuencias correspondiente. Recuerde que debe recodificar la variable ALUMNO en la variable GRUPO, si no lo ha realizado ya, y seleccionar solamente los alumnos de 5º. RESULTADO: Frecuencias 3.- Los distintos grupos de 5º en la situación de partida (es decir, antes de la aplicación de los tratamientos) ¿tenían un rendimiento medio en matemáticas similar (variable matdic)? Compruébelo gráficamente. RESULTADO: 4.- ¿Cuál de estos grupos tenía en su situación de partida una mayor dispersión? La respuesta a esta cuestión exige realizar el análisis para cada grupo de 5º, para lo que debe repetir el análisis para cada grupo de tratamiento seleccionándolo previamente. 5.- ¿Cómo se distribuyen los alumnos de 5º de EGB del grupo de control (grupo 5) en la variable Actitud hacia las matemáticas en la situación inicial del grupo (AcMatPre). Realice el correspondiente histograma. ¿Considera que la variable tiende a distribuirse de acuerdo al modelo normal? 6.- Suponga que a los alumnos de 5º con peor actitud hacia las matemáticas se les quiere motivar con un determinado programa para conseguir que su actitud hacia el aprendizaje de las matemáticasque sea más favorable, ¿a partir de qué valor se deberá seleccionar a los alumnos sabiendo que solamente se va a atender al 25% peor del grupo? En cambio, a los alumnos con mejor actitud hacia el aprendizaje de las matemáticas se les va a premiar dejándoles jugar con los ordenadores. ¿A partir de qué puntuación se seleccionará, en este otro caso, a los alumnos para los juegos de ordenador? 7.- Compruebe gráficamente si los alumnos del grupo 4 de 5º mantienen el aprendizaje del SMD a lo largo del tiempo. Para ello necesita comparar los gráficos correspondientes a las variables SMDPost1, SMDPost2, SMDPost3 y SMDPost4 8.- Cuántos alumnos de cada uno de los grupos de 5º aprueban y suspenden el sistema métrico decimal (variable SMDPost1). Debe realizar una tabla de contingencia, y para ello antes tiene que transformarar la variable SMDPost1, que es de naturaleza continua, en una variable dicotómica (1 apto-2 no apto). Tome como punto de corte el valor de la mediana. 9.- Realice estos mismos análisis con los grupos de 4º de EGB