a) Estadística descriptiva básica en SPSS

Anuncio
Ignacio Martín Tamayo
11
Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0
ÍNDICE
------------------------------------------------------------1. Introducción
2. Frecuencias
3. Descriptivos
4. Explorar
5. Tablas de contingencia
-------------------------------------------------------------1.- Introducción
En el programa SPSS existen varios procedimientos con los que abordar un estudio descriptivo
de los datos. Hay diversas opciones que debemos conocer para establecer una primara aproximación a los
datos. Los procedimientos fundamentales para esta descripción se encuentran en la opción Resumir del
menú Estadística y son:
•
•
•
•
Frecuencias
Descriptivos
Explorar
Tablas de contingencia
2.- Frecuencias
El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que resultan
útiles para describir muchos tipos de variables. Es un buen procedimiento para una inspección inicial de
los datos.
Supongamos que deseamos estudiar una muestra de 50 sujetos a los que hemos medido cinco
variables: edad, sexo, peso y altura. Veamos que salida nos proporciona el procedimiento frecuencias. En
primer lugar, al ejecutar este procedimiento, nos aparece una ventana en la que hemos de seleccionar qué
variables, son sobre las que deseamos obtener la información. Supongamos que en nuestro caso,
deseamos ver que ocurre si seleccionamos las variables edad y sexo.
Ignacio Martín Tamayo
12
Si pulsamos aceptar sin modificar ninguna otra opción la salida que proporciona el programa es
la siguiente, para cada variable seleccionada
EDAD
Frecuencia Porcentaje Porcentaje
Porcentaje
válido
acumulado
Válidos 25
1
2,0
2,0
2,0
26
2
4,0
4,0
6,0
27
3
6,0
6,0
12,0
28
5
10,0
10,0
22,0
29
5
10,0
10,0
32,0
30
7
14,0
14,0
46,0
31
5
10,0
10,0
56,0
32
8
16,0
16,0
72,0
33
6
12,0
12,0
84,0
34
3
6,0
6,0
90,0
35
4
8,0
8,0
98,0
36
1
2,0
2,0
100,0
Total
50
100,0
100,0
Válidos
Sexo
Frecuencia Porcentaje Porcentaje
válido
Hombre
23
46,0
46,0
Mujer
27
54,0
54,0
Total
50
100,0
100,0
Porcentaje
acumulado
46,0
100,0
Además, en el procedimiento frecuencias podemos establecer una serie de opciones. Así, si en la
ventana de Frecuencias elegimos el botón de Estadísticos podemos elegir un conjunto de ellos sobre las
variables seleccionadas (valores percentiles, estadísticos de posición, de dispersión o sobre la forma de la
distribución)
Ignacio Martín Tamayo
13
Si en ese cuadro seleccionamos, por ejemplo, media, mediana, desviación típica y varianza y lo
ejecutamos para la variable edad, los resultados proporcionados, además del cuadro referente a las
frecuencias, son:
EDAD
N
Válidos
50
Perdidos
0
Media
30,80
Mediana
31,00
Desv. típ.
2,68
Varianza
7,18
Igualmente, en el procedimiento frecuencias existe una opción para dibujar gráficos. Si
seleccionamos esa opción aparecerá la siguiente ventana:
Si seleccionamos la opción Histogramas, por ejemplo, la salida será:
EDAD
14
12
10
8
6
Fr
ec
ue
nci
a
4
Desv. típ. = 2,68
2
Media = 30,8
N = 50,00
0
26,0
28,0
30,0
32,0
34,0
36,0
EDAD
Igualmente, en el procedimiento frecuencias podemos abrir un cuadro de diálogo para establecer
las opciones de formato, que son tres:
• Ordenar por: la tabla de frecuencias se puede ordenar respecto a los valores o respecto a la
frecuencia de aparición. Por defecto muestra los datos por valores de forma ascendente.
• Múltiples variables: Si desea generar tablas de estadísticos para múltiples variables podrá
mostrarlas, bien por separado, bien conjuntamente.
• Suprimir tablas con más de n categorías: esta opción impide que se muestren tablas que
contengan más valores que el número especificado.
Ignacio Martín Tamayo
14
3.- Descriptivos
El procedimiento descriptivos muestra estadísticos de resumen univariados para variables en una
única tabla y calcula puntuaciones tipificadas (puntuaciones z).
Si se ejecuta el procedimiento para el conjunto de variables seleccionadas, la salida que
proporciona el programa es la siguiente:
Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
EDAD
50
25
36
30,80
2,68
PESO
50 43,00 103,00 70,9200 14,3226
ALTURA
50 1,52
2,00
1,7088
,1040
TASACARD
50 37,00
96,00 69,1600 11,2855
N válido (según lista) 50
Además de los estadísticos que aparecen en el cuadro anterior es posible añadirles otros.
Simplemente en el cuadro de Descriptivos hay que pulsar sobre el botón Opciones y aparecerá la
siguiente ventana:
En ella se pueden seleccionar más estadísticos y elegir el orden de visualización de las variables
(alfabético o por el valor ascendente o descendente de las medias)
4.- Explorar
Explorar genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o
bien de forma separada para grupos de casos. Por ejemplo, si nosotros quisiéramos saber las diferencias
de tasa cardíaca separadamente para hombres y mujeres de la muestra con la que venimos trabajando este
sería el procedimiento adecuado.
Cuando se ejecuta el procedimiento Explorar la ventana que aparece en pantalla es la siguiente:
Ignacio Martín Tamayo
15
En el cuadro de Dependientes, se deben incluir las variables a las que pretendemos calcular los
estadísticos. En el cuadro Factores debemos incluir Las variables que utilizaremos para definir los grupos
de casos. Por ejemplo, ahora el procedimeinto calculará los estadísticos separadamente para los grupos
realizados en la variable sexo, esto es, hombres y mujeres. En el cuadro Etiquetar los casos mediante se
pueden etiquetar los casos con sus valores en una variable, como puede ser una variable identificadora de
caso. Por defecto, los casos se identifican mediante su número secuencial dentro del archivo de datos.
Veamos la salida:
Descriptivos
TASACARD
Sexo
Hombre
Media
Intervalo al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Mujer
Media
Intervalo al 95%
Media recortada al 5%
Mediana
Varianza
Desv. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
Límite inferior
Límite superior
Límite inferior
Límite superior
Estadístico Error típ.
69,9565
2,2611
65,2673
74,6458
69,8406
70,0000
117,589
10,8438
46,00
96,00
50,00
11,0000
,211
,481
,743
,935
68,4815
2,2729
63,8094
73,1536
68,7078
66,0000
139,490
11,8106
37,00
92,00
55,00
15,0000
-,174
,448
,868
,872
Además, la salida proporciona dos gráficos, de tallo y hojas (stem and leaf) y de caja (box) para
cada grupo.
Ignacio Martín Tamayo
TASACARD Stem-and-Leaf Plot for
SEXO= Hombre
Stem &
1,00 Extremes
3,00
5 .
1,00
6 .
6,00
6 .
4,00
7 .
4,00
7 .
2,00
8 .
1,00
8 .
1,00 Extremes
Stem width:
Each leaf:
100
38
90
Leaf
(=<46)
789
0
555569
0023
5568
04
5
(>=96)
80
70
60
50
T ASAC ARD
Frequency
16
9
40
32
30
10,00
1 case(s)
N=
23
27
Hombre
Mujer
Sexo
Dentro del cuadro de diálogo Explorar hay varios botones con los que podemos acceder a nuevas
ventanas. Así el botón Estadísticos nos abre la siguiente ventana:
En esta ventana aparecen varias opciones:
•
•
•
•
Descriptivos: Por defecto se muestran los estadísticos que han aparecido en la salida
anterior: media, intervalo de confianza al 95%, media recortada, mediana, varianza,
desviación típica, mínimo y máximo, rango, amplitud intercualtil, asimetría y curtosis.
Estimadores robustos centrales: Permite calcular alternativas robustas a la mediana y a la
media muestral para calcular el centro de localización. Se muestran los siguientes: el
estimador M de Huber, el estimador en onda de Andrew, el estimador M redescente de
Hampel y el estimador biponderado de Tukey.
Valores atípicos: Muestra los cinco valores mayores y los cinco menores, con las etiquetas
de caso.
Percentiles: Muestra los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95.
En el botón Gráficos también existen varias opciones:
Ignacio Martín Tamayo
•
•
•
•
17
Diagramas de caja: Estas alternativas controlan la presentación de los diagramas de caja
cuando existe más de una variable dependiente. Niveles de los factores juntos genera una
presentación para cada variables dependiente, en cada una se muestran diagramas de caja
para cada uno de los grupos definidos por una variable de factor. Dependientes juntas genera
una presentación para cada grupo definido por una variable de factor, en cada una se
muestran juntos los diagramas de caja de cada variable dependiente.
Descriptivos: permite seleccionar gráficos de tallo y hojas e histogramas
Gráficos con pruebas de normalidad: Muestra los diagramas de probabilidad normal y de
probabilidad sin tendencia. Se muestra el estadístico de Kolmogorov-Smirnov con un nivel
de significación de Lilliefors para contrastar la normalidad. El estadístico de Shapiro-Wilk
se calcula para las muestras con 50 o menos observaciones.
Dispersión por nivel con prueba de Levene: Controla la transformación de los datos para
los diagramas de dispersión por nivel. Para todos los diagramas de dispersión por nivel se
muestra la pendiente de la línea de regresión y las pruebas robustas de Levene sobre la
homogeneidad de la varianza. Si selecciona una transformación, las pruebas de Levene se
basarán en los datos transformados. Si no selecciona ninguna variable de factor, no se
generará ningún diagrama de dispersión por nivel.
Por último, en el procedimiento Explorar puede seleccionarse el botón Opciones
En esta ventana podemos:
• Excluir casos según la lista: Los casos con valores perdidos para cualquier variable de
factor o variable dependiente se excluyen de todos los análisis. Es el valor por defecto.
• Excluir los casos según pareja: Los casos que no tengan valores perdidos para las variables
de un grupo (casilla) se incluyen en el análisis de ese grupo.
• Mostrar valores: Los valores perdidos para las variables de factor se tratan como una
categoría diferente. Todos los resultados se generan para esa categoría adicional.
Ignacio Martín Tamayo
18
5.- Tablas de contingencia
El procedimiento Tablas de contingencia crea tablas de clasificación doble y múltiple y además
proporciona 22 pruebas y medidas de asociación para tablas de doble clasificación. La estructura de la
tabla y el hecho de que las categorías estén ordenadas o no determinan las pruebas o medidas que se
utilizan.
Los estadísticos de tablas de contingencia y las medidas de asociación sólo se calculan para las
tablas de doble clasificación. Si se especifica una fila, una columna y un factor de capa (variable de
control), el procedimiento tablas de contingencia crea un panel de medidas y estadísticos asociados para
cada valor del factor capa. En nuestro ejemplo vamos a realizar una tabla de contingencia para las
variables edad en filas y sexo en columnas. Veamos la salida que proporciona:
Tabla de contingencia EDAD * Sexo
Sexo
Total
Hombre Mujer
EDAD 25
1
1
26
1
1
2
27
1
2
3
28
3
2
5
29
1
4
5
30
3
4
7
31
4
1
5
32
3
5
8
33
2
4
6
34
2
1
3
35
2
2
4
36
1
1
Total
23
27
50
El procedimiento Tablas de contingencia tiene tres posibilidades. Como siempre para acceder a
ellas debemos pulsar los botones de la parte inferior de la ventana de Tablas de contingencia. La primera
opción es Estadísticos. Esta opción proporciona distintos estadísticos que hemos de seleccionar en
función del tipo de variables con las que estamos trabajando (dicotómicas, nominales, ordinales, etc.).
Ignacio Martín Tamayo
19
Además, el procedimiento permite acceder a la ventana Casillas. Esta ventana permite ayudarle
a descubrir las tramas en los datos que contribuyen a una prueba chi-cuadrado significativa. Así permite
mostrar las frecuencias esperadas y tres tipos de residuos que miden la diferencia entre las frecuencias
observadas y las esperadas. Cada casilla de la tabla puede contener cualquier combinación de recuentos,
porcentajes y residuos seleccionados.
Por último, la opción Formato permite, como en otros procedimientos del programa, elegir las
filas en orden ascendente o descendente.
Descargar