Análisis descriptivos con Spss

Anuncio
http://dm.udc.es/asignaturas/estadistica2/estadistica_2.htm
Tabla de contenidos
INTRODUCCIÓN
CONTENIDOS



I. El exámen previo de los datos
II. El estudio descriptivo de los datos
III. Representación tabulada de los datos
ACTIVIDADES



RESULTADO:
RESULTADO:
RESULTADO:
PRACTICA 2
Análisis descriptivos
INTRODUCCIÓN
En esta segunda práctica nos vamos a centrar en los procedimientos del SPSS para resolver
análisis univariantes, entendiendo por tales aquéllos que se refieren a variables
consideradas individualmente.
Estos análisis pueden ser el objeto mismo de algún estudio, es decir de un estudio
descriptivo, o un primer paso para examinar los datos antes de realizar análisis más
complejos (es muy fácil cometer pequeños errores al introducir los datos que alteren todos
los resultados de los análisis). La utilidad e importancia de los mismos es patente: estudiar
las distribuciones, analizar datos fuera de rango, comprobar supuestos matemáticos para la
aplicación de otros análisis, etc.
Concretamente, estudiaremos los procedimientos: Frecuencias, Descriptivos y Explorar.
Puesto que ya tenemos definido el fichero de datos, tan sólo tenemos que arrancar el
programa y abrir el fichero datosAMO.sav. Una vez abierto el fichero de datos, en la barra
de menús se elige la opción Análisis
Figura 2.1. Abrir archivo de datos
Figura 2.2. Estadísticos descriptivos
Comenzaremos realizando un estudio previo de los datos.
CONTENIDOS
I. El exámen previo de los datos
I. 1. Objetivos
El primer paso de cualquier análisis de datos debe centrarse en un examen detallado de los
mismos. Esta revisión persigue los siguientes objetivos:
1.
Localizar errores en la transcripción de los datos. Hay que tener en cuenta
que los datos "recorren un largo camino" hasta que llegan al fichero de datos. Son
dictados, copiados, transcritos, leídos ópticamente, y en cualquiera de estas
operaciones pueden introducirse errores. Algunos son fáciles de encontrar con
sólo hacer una tabla de frecuencias y otros, desgraciadamente, nunca serán
encontrados (y confiaremos en que un tamaño de muestra lo suficientemente
grande equilibre esa distorsión).
2.
Explorar los datos. Antes de comenzar directamente aplicando un determinado
procedimiento estadístico es muy conveniente "ojear" los datos. Esto nos puede
sugerir o dar ideas para plantear otras técnicas de análisis, etc.
3.
Comprobar los requisitos de posteriores análisis. La distribución de los
valores es decisiva para determinar lo apropiado de las técnicas estadísticas que
teníamos previsto emplear (supuestos del ANOVA, elección entre pruebas
paramétricas y no paramétricas, etc.).
I. 2. Procedimientos
A continuación presentamos algunas posibilidades del comando EXPLORAR. Este
comando genera estadísticos de resumen y representaciones gráficas, bien para todos los
casos o bien de forma separada para grupos de casos.
1.- Explorar: Estadísticos
Figura 2.3. Procedimiento Explorar
Como la variable factor define grupos de casos y en nuestra investigación hemos trabajado
con 8 grupos de tratamiento diferentes, es muy importante realizar una exploración inicial
de los datos en los diferentes grupos. Este análisis nos permitirá comprobar la ausencia de
errores en la definición de los grupos de tratamiento.
Figura 2.4. Selección de estadísticos descriptivos
Por defecto el programa calcula los estadísticos descriptivos de tendencia central,
variablidad y forma, así como el intervalo de confianza para el 95%.
Figura 2.5. Resultados correspondientes al análisis Explorar
2.- Explorar Gráficos
Por defecto el SPSS permite realizar tres tipos de gráficos diferentes, a saber: diagramas de
caja, diagramas de tallo y hojas e histogramas.
Figura 2.6. Selección de gráficos
A.- Diagramas de caja
Este tipo de gráfico refleja la representación de una distribución de tal forma que el interior
de la caja encierra el 50 % central de los casos y sus límites son el 25 % superior e inferior
(como puede apreciarse en la figura 2.7). Así, el límite inferior de la caja representa el
percentil 25, el límite superior es el percentil 75, y la longitud de la caja es el rango
intercuartil (IQR=P75-P25). El asterisco dentro de la caja representa la mediana (percentil
50). Los casos con valores más de tres veces la longitud de la caja por encima del límite
superior o inferior aparecen señalados con una E (valores extremos). Los casos entre 1.5 y
3 veces el rango intercuartil se denominan outliers values (valores fuera del rango) y se
representan con una O. Además aparecen los valores máximo y mínimo que no están fuera
de rango, unidos con una línea a los límites de la caja.
Es mucha la información que podemos obtener de estas representaciones. La situación de la
mediana da una idea de la tendencia central de los datos y la longitud de la caja de su
variabilidad. Si la mediana no está en el centro del boxplot se puede inferir que los valores
observados están sesgados (positivamente si la mediana está más cerca del límite inferior y
negativamente si está más cerca del superior).
Figura 2.7. Diagrama de caja para la variable FDPre
Este tipo de representación es especialmente útil para comparar la distribución de los datos
de una misma variable en varios grupos o para comparar los resultados de distintas
variables obtenidas en un mismo grupo (o una misma variable medida en momentos
diferentes, sería el mismo caso que el anterior).
Por ejemplo, para comparar una misma variable en varios grupos procederíamos así:
Figura 2.8. Selección de la variable
Figura 2.9. Selección del tipo de gráfico
Figura 2.10. Diagrama de caja para la variable FDPre en tres grupos
Para comparar distintas variables en un mismo grupo el procedimiento sería:
Figura 2.11. Selección de las variables
Figura 2.12. Selección del tipo de gráficos
Figura 2.13. Diagrama de caja para las variables FDPre y FDPost1
B.- Histogramas
(Se verán con detalle en el procedimiento Frecuencias)
C.- Gráficos de tallo y hojas
Es una representación en la que los dígitos se dividen entre la parte troncal (izquierda
denominada tallo) y la parte marginal (derecha denominada hoja). Los dígitos del tallo se
ordenan de arriba abajo y las hojas de izquierda a derecha.
Como en el histograma, la longitud de cada hojacorresponde al número de casos que
contiene un determinado intervalo.
Figura 2.14. Gráfica de tallo y hojas para la variable FDPre
D.- Gráficos con pruebas de normalidad
Muestran los diagramas de probabilidad normal y probabilidad sin tendencia.
En bastantes tests estadísticos es necesario comprobar, antes de aplicarlos, si los datos
provienen de una población que se distribuye de acuerdo al modelo teórico de probabilidad
normal. Los gráficos de normalidad permiten apreciar este requisito de una forma intuitiva
y a la vez fiable. En éstos, cada valor observado se empareja con su correspondiente valor
esperado en una población normal (el valor esperado se basa en el tamaño de la muestra y
en el orden de cada caso en ella). Si la muestra proviene de una distribución normal los
puntos dibujarán, aproximadamente, una línea recta.
Además de la información visual que proporcionan estos gráficos, el SPSS proporciona el
test estadístico de Kolmogorov-Smirnov que permite contrastar la hipótesis nula de
normalidad de la distribución. Así mismo, calcula el test de Shapiro-Wilks para muestras
pequeñas (50 o menos casos).
Este análisis debería realizarse para cada una de las variables definidas en el fichero de
datos antes de realizar ningún otro análisis.
II. El estudio descriptivo de los datos
II. 1. Objetivos
Una vez realizado el análisis exploratorio de las variables, es preciso descender a un estudio
descriptivo más específico de las variables.
II. 2. Procedimientos
Para la realización del estudio descriptivo de las variables el SPSS presenta dos
procedimientos, a saber: FRECUENCIAS y DESCRIPTIVOS.
1.- Frecuencias: estadísticos
Este procedimiento muestra en pantalla una distribución de frecuencias simple para la
variable objeto de estudio. Permite calcular todos los estadísticos descriptivos de la variable
así como sus representaciones gráficas más significativas. Este procedimiento permite
trabajar tanto con variables cuantitativas como con variables categóricas.
En nuestro caso, vamos a comenzar por examinar la distribución de frecuencias de la
variable SMDPre, con objeto de comprobar si los grupos de tratamiento en su situación de
partida eran semejantes.
Figura 2.15. Procedimiento frecuencias
Figura 2.16. Estadísticos del procedimiento frecuencias
Las tabulaciones y los porcentajes proporcionan una descripción útil para los datos de
cualquier distribución, especialmente para las variables categóricas. La media y la
desviación típica se basan en la teoría de distribución normal y son apropiados para
variables cuantitativas con distribuciones simétricas. Los estadísticos robustos (mediana,
cuartiles y percentiles) son apropiados para las variables cuantitativas que pueden o no
cumplir el supuesto de normalidad.
Figura 2.17. Descriptivos de la variable SMDPre
2.- Frecuencias: gráficos
El procedimiento Frecuencias permite realizar los siguientes tipos de gráficos:
A.- Gráficos de sectores
Muestran la contribución de las partes a un todo, cada sector corresponde a un grupo
definido por una única variable de agrupación. Este gráfico es apropiado para variables
categóricas.
Vamos a comprobar cómo se reparte la variable Grupo
Figura 2.18. Gráfico de sector para la variable Grupo
B.- Gráficos de barras
Muestran la frecuencia de cada valor o categoría distinta como una barra diferente,
permitiendo comparar las categorías de forma visual. Este gráfico es apropiado para
variables categóricas.
Figura 2.19. Gráfico de barras para la variable Grupo
C.- Histogramas
Los histogramas son representaciones gráficas propias de variables contínuas. Las barras
representan la frecuencia de valores para ese intervalo de la variable cuantitativa.
Figura 2.20. Histograma para la variable FDPre
3.- Descriptivos
El procedimiento Descriptivos añade a los procedimientos anteriores el cálculo de los
valores tipificados para la variable (puntuaciones z). Una vez calculadas las puntuaciones z,
si éstas se guardan, automáticamente se añaden a los datos del editor de datos, quedando
disponibles para los gráficos, el listado de datos y los análisis que se deseen realizar. Su
distribución adopta la misma forma que la de los datos originales; por tanto, su cálculo no
es una buena solución para los datos con problemas.
Este procedimiento no es apropiado para variables categóricas, siendo más eficaz que los
anteriores para el estudio de variables cuantitativas con distribución simétrica.
III. Representación tabulada de los datos
III. 1. Objetivos
En ocasiones resulta muy útil tabular los datos en función de variables categóricas o de
corte. Estas pueden ser cualitativas, como por ejemplo el sexo, o cuantitativas, en las que se
han definido, en un momento previo, categorías (p. e. con el comando Recodificar).
III. 2. Procedimientos
El procedimiento Tablas de contingencia genera tablas de datos de clasificación doble y
múltiple, indicando porcentajes por celda y totales. Además, ofrece tests estadísticos de
asociación (como el coeficiente de contingencia) para las tablas de doble clasificación. Los
estadísticos y las medidas de asociación sólo se calculan para las tablas de doble
clasificación.
En nuestro problema de investigación este procedimiento nos puede facilitar, por ejemplo,
la presentación de los datos según los grupos de tratamiento. En el ejemplo que figura a
continuación se tabula la variable "Madurez Intelectual" para los cinco primeros grupos de
tratamiento. Para ello es preciso categorizar antes la variable MI con el procedimiento
Recodificar.
Recodificar en distinta variable:
·
Madurez Intelectual Baja (40 a 90) = Inteligencia 1
·
Madurez Intelectual Normal (91 a 120) = Inteligencia 2
·
Madurez Intelectual Alta (>120) = Inteligencia 3
Ahora la variable MI, reagrupada en tres niveles es cortada por los grupos de tratamiento.
Introducir cuadro de diálogo:
Analizar
Estadísticos descriptivos
Tablas de contingencia (filas Grupo y columnas Inteligencia)
En la figura 2.21 podemos comprobar cómo se clasifican los alumnos por grupo de
tratamiento y madurez intelectual (reagrupada en la variable Inteligencia).
Figura 2.21. Clasificación de los alumnos por grupo de tratamiento y madurez intelectual
ACTIVIDADES
A partir de la lectura del artículo de investigación Un nuevo modo de proceder en el aula
aprendiendo mediante el ordenador (Reparaz y Tourón, 1992), realice los ejercicios
necesarios para responder a las siguientes cuestiones:
1.- Comience comprobando que todas las variables del archivo Datos AMO.sav no
contienen errores. Recuerde que el procedimiento adecuado es EXPLORAR, aunque
también es muy útil realizar las distribuciones de frecuencias simples propias del
porcedimiento FRECUENCIAS.
A modo de ejemplo, vamos a seleccionar la variable MI.
RESULTADO:
Explorar
MI
MI Stem-and-Leaf Plot
Frequency Stem & Leaf
1,00 Extremes (=<50)
1,00
5. 9
3,00
6 . 356
5,00
7 . 13566
17,00
8 . 02334445777778999
13,00
9 . 0222336666778
22,00
10 . 0111123345666666778899
39,00
11 . 000000112223333334555555666777788899999
35,00
12 . 00111111123333333334455555778999999
34,00
13 . 0111222223334444455555677888889999
26,00
14 . 00122233444566667788888999
18,00
15 . 012222345566777889
3,00
16 . 004
Stem width: 10
Each leaf:
1 case(s)
2.- ¿Entre qué valores se distribuye la variable Madurez Intelectual de los alumnos de 5º de
Educación Primaria (5º de EGB en el artículo de investigación). Realice la distribución de
frecuencias correspondiente. Recuerde que debe recodificar la variable ALUMNO en la
variable GRUPO, si no lo ha realizado ya, y seleccionar solamente los alumnos de 5º.
RESULTADO:
Frecuencias
3.- Los distintos grupos de 5º en la situación de partida (es decir, antes de la aplicación de
los tratamientos) ¿tenían un rendimiento medio en matemáticas similar (variable matdic)?
Compruébelo gráficamente.
RESULTADO:
4.- ¿Cuál de estos grupos tenía en su situación de partida una mayor dispersión? La
respuesta a esta cuestión exige realizar el análisis para cada grupo de 5º, para lo que debe
repetir el análisis para cada grupo de tratamiento seleccionándolo previamente.
5.- ¿Cómo se distribuyen los alumnos de 5º de EGB del grupo de control (grupo 5) en la
variable Actitud hacia las matemáticas en la situación inicial del grupo (AcMatPre). Realice
el correspondiente histograma. ¿Considera que la variable tiende a distribuirse de acuerdo
al modelo normal?
6.- Suponga que a los alumnos de 5º con peor actitud hacia las matemáticas se les quiere
motivar con un determinado programa para conseguir que su actitud hacia el aprendizaje de
las matemáticasque sea más favorable, ¿a partir de qué valor se deberá seleccionar a los
alumnos sabiendo que solamente se va a atender al 25% peor del grupo? En cambio, a los
alumnos con mejor actitud hacia el aprendizaje de las matemáticas se les va a premiar
dejándoles jugar con los ordenadores. ¿A partir de qué puntuación se seleccionará, en este
otro caso, a los alumnos para los juegos de ordenador?
7.- Compruebe gráficamente si los alumnos del grupo 4 de 5º mantienen el aprendizaje del
SMD a lo largo del tiempo. Para ello necesita comparar los gráficos correspondientes a las
variables SMDPost1, SMDPost2, SMDPost3 y SMDPost4
8.- Cuántos alumnos de cada uno de los grupos de 5º aprueban y suspenden el sistema
métrico decimal (variable SMDPost1). Debe realizar una tabla de contingencia, y para ello
antes tiene que transformarar la variable SMDPost1, que es de naturaleza continua, en una
variable dicotómica (1 apto-2 no apto). Tome como punto de corte el valor de la mediana.
9.- Realice estos mismos análisis con los grupos de 4º de EGB
Descargar