Ignacio Martín Tamayo 11 Tema: ESTADÍSTICA DESCRIPTIVA BÁSICA CON SPSS 8.0 ÍNDICE ------------------------------------------------------------1. Introducción 2. Frecuencias 3. Descriptivos 4. Explorar 5. Tablas de contingencia -------------------------------------------------------------1.- Introducción En el programa SPSS existen varios procedimientos con los que abordar un estudio descriptivo de los datos. Hay diversas opciones que debemos conocer para establecer una primara aproximación a los datos. Los procedimientos fundamentales para esta descripción se encuentran en la opción Resumir del menú Estadística y son: • • • • Frecuencias Descriptivos Explorar Tablas de contingencia 2.- Frecuencias El procedimiento Frecuencias proporciona estadísticos y representaciones gráficas que resultan útiles para describir muchos tipos de variables. Es un buen procedimiento para una inspección inicial de los datos. Supongamos que deseamos estudiar una muestra de 50 sujetos a los que hemos medido cinco variables: edad, sexo, peso y altura. Veamos que salida nos proporciona el procedimiento frecuencias. En primer lugar, al ejecutar este procedimiento, nos aparece una ventana en la que hemos de seleccionar qué variables, son sobre las que deseamos obtener la información. Supongamos que en nuestro caso, deseamos ver que ocurre si seleccionamos las variables edad y sexo. Ignacio Martín Tamayo 12 Si pulsamos aceptar sin modificar ninguna otra opción la salida que proporciona el programa es la siguiente, para cada variable seleccionada EDAD Frecuencia Porcentaje Porcentaje Porcentaje válido acumulado Válidos 25 1 2,0 2,0 2,0 26 2 4,0 4,0 6,0 27 3 6,0 6,0 12,0 28 5 10,0 10,0 22,0 29 5 10,0 10,0 32,0 30 7 14,0 14,0 46,0 31 5 10,0 10,0 56,0 32 8 16,0 16,0 72,0 33 6 12,0 12,0 84,0 34 3 6,0 6,0 90,0 35 4 8,0 8,0 98,0 36 1 2,0 2,0 100,0 Total 50 100,0 100,0 Válidos Sexo Frecuencia Porcentaje Porcentaje válido Hombre 23 46,0 46,0 Mujer 27 54,0 54,0 Total 50 100,0 100,0 Porcentaje acumulado 46,0 100,0 Además, en el procedimiento frecuencias podemos establecer una serie de opciones. Así, si en la ventana de Frecuencias elegimos el botón de Estadísticos podemos elegir un conjunto de ellos sobre las variables seleccionadas (valores percentiles, estadísticos de posición, de dispersión o sobre la forma de la distribución) Ignacio Martín Tamayo 13 Si en ese cuadro seleccionamos, por ejemplo, media, mediana, desviación típica y varianza y lo ejecutamos para la variable edad, los resultados proporcionados, además del cuadro referente a las frecuencias, son: EDAD N Válidos 50 Perdidos 0 Media 30,80 Mediana 31,00 Desv. típ. 2,68 Varianza 7,18 Igualmente, en el procedimiento frecuencias existe una opción para dibujar gráficos. Si seleccionamos esa opción aparecerá la siguiente ventana: Si seleccionamos la opción Histogramas, por ejemplo, la salida será: EDAD 14 12 10 8 6 Fr ec ue nci a 4 Desv. típ. = 2,68 2 Media = 30,8 N = 50,00 0 26,0 28,0 30,0 32,0 34,0 36,0 EDAD Igualmente, en el procedimiento frecuencias podemos abrir un cuadro de diálogo para establecer las opciones de formato, que son tres: • Ordenar por: la tabla de frecuencias se puede ordenar respecto a los valores o respecto a la frecuencia de aparición. Por defecto muestra los datos por valores de forma ascendente. • Múltiples variables: Si desea generar tablas de estadísticos para múltiples variables podrá mostrarlas, bien por separado, bien conjuntamente. • Suprimir tablas con más de n categorías: esta opción impide que se muestren tablas que contengan más valores que el número especificado. Ignacio Martín Tamayo 14 3.- Descriptivos El procedimiento descriptivos muestra estadísticos de resumen univariados para variables en una única tabla y calcula puntuaciones tipificadas (puntuaciones z). Si se ejecuta el procedimiento para el conjunto de variables seleccionadas, la salida que proporciona el programa es la siguiente: Estadísticos descriptivos N Mínimo Máximo Media Desv. típ. EDAD 50 25 36 30,80 2,68 PESO 50 43,00 103,00 70,9200 14,3226 ALTURA 50 1,52 2,00 1,7088 ,1040 TASACARD 50 37,00 96,00 69,1600 11,2855 N válido (según lista) 50 Además de los estadísticos que aparecen en el cuadro anterior es posible añadirles otros. Simplemente en el cuadro de Descriptivos hay que pulsar sobre el botón Opciones y aparecerá la siguiente ventana: En ella se pueden seleccionar más estadísticos y elegir el orden de visualización de las variables (alfabético o por el valor ascendente o descendente de las medias) 4.- Explorar Explorar genera estadísticos de resumen y representaciones gráficas, bien para todos los casos o bien de forma separada para grupos de casos. Por ejemplo, si nosotros quisiéramos saber las diferencias de tasa cardíaca separadamente para hombres y mujeres de la muestra con la que venimos trabajando este sería el procedimiento adecuado. Cuando se ejecuta el procedimiento Explorar la ventana que aparece en pantalla es la siguiente: Ignacio Martín Tamayo 15 En el cuadro de Dependientes, se deben incluir las variables a las que pretendemos calcular los estadísticos. En el cuadro Factores debemos incluir Las variables que utilizaremos para definir los grupos de casos. Por ejemplo, ahora el procedimeinto calculará los estadísticos separadamente para los grupos realizados en la variable sexo, esto es, hombres y mujeres. En el cuadro Etiquetar los casos mediante se pueden etiquetar los casos con sus valores en una variable, como puede ser una variable identificadora de caso. Por defecto, los casos se identifican mediante su número secuencial dentro del archivo de datos. Veamos la salida: Descriptivos TASACARD Sexo Hombre Media Intervalo al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Mujer Media Intervalo al 95% Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Límite inferior Límite superior Límite inferior Límite superior Estadístico Error típ. 69,9565 2,2611 65,2673 74,6458 69,8406 70,0000 117,589 10,8438 46,00 96,00 50,00 11,0000 ,211 ,481 ,743 ,935 68,4815 2,2729 63,8094 73,1536 68,7078 66,0000 139,490 11,8106 37,00 92,00 55,00 15,0000 -,174 ,448 ,868 ,872 Además, la salida proporciona dos gráficos, de tallo y hojas (stem and leaf) y de caja (box) para cada grupo. Ignacio Martín Tamayo TASACARD Stem-and-Leaf Plot for SEXO= Hombre Stem & 1,00 Extremes 3,00 5 . 1,00 6 . 6,00 6 . 4,00 7 . 4,00 7 . 2,00 8 . 1,00 8 . 1,00 Extremes Stem width: Each leaf: 100 38 90 Leaf (=<46) 789 0 555569 0023 5568 04 5 (>=96) 80 70 60 50 T ASAC ARD Frequency 16 9 40 32 30 10,00 1 case(s) N= 23 27 Hombre Mujer Sexo Dentro del cuadro de diálogo Explorar hay varios botones con los que podemos acceder a nuevas ventanas. Así el botón Estadísticos nos abre la siguiente ventana: En esta ventana aparecen varias opciones: • • • • Descriptivos: Por defecto se muestran los estadísticos que han aparecido en la salida anterior: media, intervalo de confianza al 95%, media recortada, mediana, varianza, desviación típica, mínimo y máximo, rango, amplitud intercualtil, asimetría y curtosis. Estimadores robustos centrales: Permite calcular alternativas robustas a la mediana y a la media muestral para calcular el centro de localización. Se muestran los siguientes: el estimador M de Huber, el estimador en onda de Andrew, el estimador M redescente de Hampel y el estimador biponderado de Tukey. Valores atípicos: Muestra los cinco valores mayores y los cinco menores, con las etiquetas de caso. Percentiles: Muestra los valores de los percentiles 5, 10, 25, 50, 75, 90 y 95. En el botón Gráficos también existen varias opciones: Ignacio Martín Tamayo • • • • 17 Diagramas de caja: Estas alternativas controlan la presentación de los diagramas de caja cuando existe más de una variable dependiente. Niveles de los factores juntos genera una presentación para cada variables dependiente, en cada una se muestran diagramas de caja para cada uno de los grupos definidos por una variable de factor. Dependientes juntas genera una presentación para cada grupo definido por una variable de factor, en cada una se muestran juntos los diagramas de caja de cada variable dependiente. Descriptivos: permite seleccionar gráficos de tallo y hojas e histogramas Gráficos con pruebas de normalidad: Muestra los diagramas de probabilidad normal y de probabilidad sin tendencia. Se muestra el estadístico de Kolmogorov-Smirnov con un nivel de significación de Lilliefors para contrastar la normalidad. El estadístico de Shapiro-Wilk se calcula para las muestras con 50 o menos observaciones. Dispersión por nivel con prueba de Levene: Controla la transformación de los datos para los diagramas de dispersión por nivel. Para todos los diagramas de dispersión por nivel se muestra la pendiente de la línea de regresión y las pruebas robustas de Levene sobre la homogeneidad de la varianza. Si selecciona una transformación, las pruebas de Levene se basarán en los datos transformados. Si no selecciona ninguna variable de factor, no se generará ningún diagrama de dispersión por nivel. Por último, en el procedimiento Explorar puede seleccionarse el botón Opciones En esta ventana podemos: • Excluir casos según la lista: Los casos con valores perdidos para cualquier variable de factor o variable dependiente se excluyen de todos los análisis. Es el valor por defecto. • Excluir los casos según pareja: Los casos que no tengan valores perdidos para las variables de un grupo (casilla) se incluyen en el análisis de ese grupo. • Mostrar valores: Los valores perdidos para las variables de factor se tratan como una categoría diferente. Todos los resultados se generan para esa categoría adicional. Ignacio Martín Tamayo 18 5.- Tablas de contingencia El procedimiento Tablas de contingencia crea tablas de clasificación doble y múltiple y además proporciona 22 pruebas y medidas de asociación para tablas de doble clasificación. La estructura de la tabla y el hecho de que las categorías estén ordenadas o no determinan las pruebas o medidas que se utilizan. Los estadísticos de tablas de contingencia y las medidas de asociación sólo se calculan para las tablas de doble clasificación. Si se especifica una fila, una columna y un factor de capa (variable de control), el procedimiento tablas de contingencia crea un panel de medidas y estadísticos asociados para cada valor del factor capa. En nuestro ejemplo vamos a realizar una tabla de contingencia para las variables edad en filas y sexo en columnas. Veamos la salida que proporciona: Tabla de contingencia EDAD * Sexo Sexo Total Hombre Mujer EDAD 25 1 1 26 1 1 2 27 1 2 3 28 3 2 5 29 1 4 5 30 3 4 7 31 4 1 5 32 3 5 8 33 2 4 6 34 2 1 3 35 2 2 4 36 1 1 Total 23 27 50 El procedimiento Tablas de contingencia tiene tres posibilidades. Como siempre para acceder a ellas debemos pulsar los botones de la parte inferior de la ventana de Tablas de contingencia. La primera opción es Estadísticos. Esta opción proporciona distintos estadísticos que hemos de seleccionar en función del tipo de variables con las que estamos trabajando (dicotómicas, nominales, ordinales, etc.). Ignacio Martín Tamayo 19 Además, el procedimiento permite acceder a la ventana Casillas. Esta ventana permite ayudarle a descubrir las tramas en los datos que contribuyen a una prueba chi-cuadrado significativa. Así permite mostrar las frecuencias esperadas y tres tipos de residuos que miden la diferencia entre las frecuencias observadas y las esperadas. Cada casilla de la tabla puede contener cualquier combinación de recuentos, porcentajes y residuos seleccionados. Por último, la opción Formato permite, como en otros procedimientos del programa, elegir las filas en orden ascendente o descendente.