ESTADÍSTICA DESCRIPTIVA CON SPSS (2602) Estadística Económica Joaquín Alegre y Magdalena Cladera SPSS es una aplicación para el análisis estadístico. En este material se presentan los procedimientos básicos de este programa para la gestión y el análisis descriptivo de datos. Concretamente, los contenidos son los siguientes: 1. Entorno de trabajo .........................................................................1 2. Etiquetado de las variables y los valores .......................................4 3. Selección de casos ........................................................................7 4. Transformación de las variables ....................................................9 5. Análisis descriptivo de variables cualitativas................................12 6. Análisis descriptivo de variables cuantitativas .............................15 6.1. Distribución de frecuencias e histograma .............................15 6.2. Estadísticos descriptivos ......................................................15 7. Asociación de variables cualitativas.............................................21 8. Correlación...................................................................................24 1. ENTORNO DE TRABAJO Tipos de archivos - Archivos de datos. Extensión .sav. - Resultados: Extensión .spo. - Sintaxis: Extensión .sps. Importación de datos desde Excel Es suficiente con abrir el archivo desde SPSS. Si el archivo tiene varias hojas debe indicarse cual es la que quiere utilizarse, así como el rango de celdas en el que se encuentran los datos que desean importarse, si éste es distinto al que aparece por defecto. Una vez abierto, se guarda con extensión .sav. Ejemplo 1. En la Figura 1, Figura 2 y Figura 3 se presentan los pasos a seguir para abrir el archivo EDT02.xls desde SPSS. 1 Figura 1 Figura 2 2 Figura 3 Exportación de datos a Excel Es suficiente con, desde SPSS, guardar el archivo que se desea exportar con extensión *.xls. Ejemplo 2. En la Figura 4 y la Figura 5 se presentan los pasos a seguir para guardar el archivo EDT02.sav como archivo de Excel. Figura 4 3 Figura 5 2. ETIQUETADO DE LAS VARIABLES Y LOS VALORES Cada una de las variables de una base de datos de SPSS tiene un nombre que puede tener hasta ocho caracteres. Un nombre tan corto puede ser poco informativo, de manera que resulta conveniente especificar, además, una etiqueta para la variable, es decir, una definición que permita identificar fácilmente su contenido. Por otra parte, también es de gran utilidad a la hora de interpretar los resultados de los análisis estadísticos, tener etiquetados los valores de las variables cualitativas, es decir, asociar a cada uno de los valores una definición que exprese su significado. Vista de datos y Vista de variables En un archivo de datos de SPSS hay dos pestañas: - Vista de datos (Figura 6), en la que se tienen los valores de las variables para cada observación. - Vista de variables (Figura 7), en la que se presenta la información sobre diversas características de las variables (nombre, tipo, anchura, decimales, etiqueta, valores perdidos, columnas, alineación, medida). 4 Figura 6 Figura 7 El etiquetado de las variables y los valores se lleva a cabo desde la pestaña Vista de variables, tal y como se explicará a continuación. 5 Etiquetado de las variables El etiquetado de una variable consiste en especificar una definición, lo más breve y clara posible, que permita identificar con claridad el significado de dicha variable. Ejemplo 3. En la Figura 8 se muestra como la variable días se ha etiquetado con la expresión Días de estancia en las Islas. Figura 8 Haciendo clic se puede modificar el nombre de la variable Haciendo clic se puede escribir la etiqueta de la variable Etiquetado de los valores Las categorías de una variable cualitativa suelen representarse por valores numéricos. El etiquetado de los valores consiste en especificar para cada uno de ellos una breve definición que permita identificar cual es la categoría de la variable que representan. Ejemplo 4. En la Figura 9 se muestra el procedimiento de etiquetado de los valores de la variable edad, para indicar que el valor 1 se corresponde con Menores de 30 años, el valor 2 con Entre 30 y 45 años, etc. 6 Figura 9 1 2 3. SELECCIÓN DE CASOS En ocasiones interesa trabajar sólo con una parte de los datos, con aquellos que cumplen determinadas características, para lo que es útil la opción Seleccionar casos del menú Datos. Ejemplo 5. De la Figura 10 a la Figura 12 se muestra como se seccionarían las observaciones correspondientes a los turistas menores de 30 años. Figura 10 7 Figura 11 En este cuadro se escribe la condición que deben cumplir los datos que se van a seleccionar Figura 12 !!! Si se activa esta opción se perderán de forma irrecuperable todas las observaciones que no se seleccionen Para volver a trabajar con todas las observaciones se activa la opción Todos los casos en el cuadro de diálogo de la Figura 13. 8 Figura 13 4. TRANSFORMACIÓN DE LAS VARIABLES Las opciones Calcular y Recodificar del menú Transformar permiten realizar transformaciones en las variables o crear nuevas variables a partir de las ya existentes en la base de datos. Ejemplo 6. En la Figura 14 se ilustra como utilizar la opción Calcular para obtener una variable que contenga el gasto en euros (geuros) a partir de la variable de gasto en pesetas (gtotal). 9 Figura 14 Expresión utilizada para el cálculo de la nueva variable Nombre de la nueva variable La opción Recodificar permite, por ejemplo, agrupar un conjunto de valores de una variable categórica, agrupar en intervalos una variable cuantitativa, cambiar la codificación de los valores, etc. Existen dos opciones: - Recodificar en la misma variable. Se substituye la variable original por la/s variable/s recodificada/s. - Recodificar en distintas variables. Se mantiene la variable original y se añade/n la/s variable/s con la nueva codificación. Ejemplo 7. De la Figura 15 a la Figura 17 se muestra el procedimiento a seguir para recodificar la variable nacionalidad, de manera que los valores superiores a 4 queden recogidos en una única categoría representada por el valor 5. En primer lugar se selecciona Recodificar Î En distintas variables del menú Transformar. 10 Figura 15 2 1 Nombre y etiqueta de la nueva variable 3 Figura 16 Tomarán valor 5 en la variable recodificada Los valores superiores a 4 en la variable original 1 2 Figura 17 Se quedan igual en la variable recodificada El resto de valores (1 a 4) de la variable original 11 Si en algún momento se quiere un resumen de las variables contenidas en una base de datos de SPSS, sus características y su etiquetado, se puede obtener seleccionando la opción Mostrar información de datos del menú Archivo, o bien seleccionando la opción Información del archivo del menú Utilidades. Por otra parte, para ver en la base de datos las etiquetas de los valores, se tiene que seleccionar la opción Etiquetas de valor en el menú Ver. 5. ANÁLISIS DESCRIPTIVO DE VARIABLES CUALITATIVAS La opción Frecuencias del menú Analizar Î Estadísticos Descriptivos permite obtener distribuciones de frecuencias, representaciones gráficas de dichas distribuciones, y los estadísticos descriptivos más utilizados. Ejemplo 8. De la Figura 18 a la Figura 22 se expone el procedimiento a seguir para realizar un análisis descriptivo básico de la variable edad. Los resultados que se obtienen son los de la Figura 23. Figura 18 1 2 3 12 Figura 19 Figura 20 Figura 21 13 Figura 22 Figura 23 Estadísticos EDAD N Válidos Perdidos Mediana Moda 575 3 2,00 1 EDAD Válidos Perdidos Total Frecuencia MENOS DE 30 AÑOS 263 ENTRE 30 Y 45 204 ENTRE 45 y 60 87 MÁS DE 60 AÑOS 21 Total 575 Sistema 3 578 EDAD Perdido MÁS DE 60 AÑOS ENTRE 45 y 60 MENOS DE 30 AÑOS ENTRE 30 Y 45 14 Porcentaje 45,5 35,3 15,1 3,6 99,5 ,5 100,0 Porcentaje válido 45,7 35,5 15,1 3,7 100,0 Porcentaje acumulado 45,7 81,2 96,3 100,0 6. ANÁLISIS DESCRIPTIVO DE VARIABLES CUANTITATIVAS 6.1. Distribución de frecuencias e histograma Para obtener la distribución de frecuencias de una variable cuantitativa es conveniente agrupar los valores en intervalos. Posteriormente puede obtenerse la distribución de frecuencias y su representación gráfica de la forma descrita en el epígrafe anterior. Otra forma de representar gráficamente la distribución de frecuencias de una variable cuantitativa es mediante un histograma. Para obtenerlo puede utilizarse una de estas dos alternativas: - Se sigue el procedimiento descrito en el epígrafe 5, y en el cuadro de diálogo de la Figura 21 se activa la opción Histogramas. - Se selecciona la opción Histograma del menú Gráficos. En ambos casos se obtiene el mismo resultado. Ejemplo 9. En la Figura 24 se tiene el histograma del gasto total. Figura 24 GASTO TOTAL PC Y DIA 60 50 40 30 Frecuencia 20 Desv. típ. = 4720,52 10 Media = 10353,9 N = 535,00 0 0 0, 00 , 0 25 00 0 ,0 23 0 00 , 0 21 00 0 ,0 19 00 0 ,0 17 00 0 ,0 15 00 0 ,0 13 00 0 11 0,0 0 90 0,0 0 70 0,0 0 50 0,0 0 30 0,0 0 10 GASTO TOTAL PC Y DIA 6.2. Estadísticos descriptivos El procedimiento expuesto en el epígrafe 5 también permite obtener los principales estadísticos descriptivos de una variable cuantitativa. Los estadísticos que interese obtener se seleccionan en el cuadro de diálogo de la Figura 19. Alternativamente, se puede utilizar la opción Estadísticos descriptivos Î Descriptivos del menú Analizar. 15 Ejemplo 10. Para obtener un resumen de los principales estadísticos descriptivos de la variable días puede procederse de la forma que se muestra en la Figura 25 y la Figura 26. Los resultados que se obtienen son los de la Figura 27. Figura 25 Figura 26 16 Figura 27 Estadísticos descriptivos DÍAS DE ESTANCIA N Rango Mínimo Máximo Media Desv. típ. Varianza Asimetría Curtosis N N válido (según lista) Estadístico 578 28 2 30 10,19 3,983 15,862 ,882 1,892 578 Error típico ,17 ,102 ,203 Otra alternativa, algo más completa que las anteriores, consiste en seleccionar la opción Estadísticos descriptivos Î Explorar del menú Analizar. Esta opción permite obtener un resumen de los principales estadísticos descriptivos de posición central y de dispersión, percentiles, valores extremos, y representaciones gráficas como el histograma o el diagrama de caja. Ejemplo 11. De la Figura 28 a la Figura 31 se muestra la utilización de la opción Explorar para obtener los principales instrumentos que permiten realizar un análisis descriptivo de la variable días. Los resultados que se obtienen son los de la Figura 32. Figura 28 17 Figura 29 Figura 30 Figura 31 18 Figura 32 Explorar Resumen del procesamiento de los casos Casos Perdidos N Porcentaje 0 ,0% Válidos N Porcentaje 578 100,0% DÍAS DE ESTANCIA Total N Porcentaje 578 100,0% Descriptivos DÍAS DE ESTANCIA Media Intervalo de confianza para la media al 95% Límite inferior Límite superior Estadístico 10,19 9,86 Error típ. ,166 10,51 Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis 10,07 8,00 15,862 3,983 2 30 28 7,00 ,882 1,892 ,102 ,203 Percentiles Promedio ponderado(definición 1) Bisagras de Tukey DÍAS DE ESTANCIA 5 10 25 50 75 90 95 DÍAS DE ESTANCIA 25 50 75 6,00 7,00 7,00 8,00 14,00 14,00 14,00 7,00 8,00 14,00 19 Valores extremos DÍAS DE ESTANCIA Mayores Menores 1 2 3 4 5 1 2 3 4 5 Número del caso 307 331 340 43 102 360 111 110 550 540 Valor 30 30 30 21 21a 2 2 2 3 3b a. En la tabla de valores extremos mayores sólo se muestra una lista parcial de los casos con el valor 21. b. En la tabla de valores extremos menores sólo se muestra una lista parcial de los casos con el valor 3. DÍAS DE ESTANCIA Histograma 300 200 Frecuencia 100 Desv. típ. = 3,98 Media = 10,2 N = 578,00 0 2,5 7,5 5,0 12,5 17,5 22,5 27,5 10,0 15,0 20,0 25,0 30,0 DÍAS DE ESTANCIA 40 30 307 331 340 20 10 0 -10 N= 578 DÍAS DE ESTANCIA 20 7. ASOCIACIÓN DE VARIABLES CUALITATIVAS La distribución de frecuencias conjunta de dos variables cualitativas, así como las medidas estadísticas que permiten analizar su asociación, tanto si se trata de variables nominales como de variables ordinales, se pueden obtener mediante la opción Descriptivos Î Tablas de contingencia del menú Analizar. Ejemplo 12. El procedimiento a seguir para el análisis de la asociación entre la edad y la intención de retorno se muestra en la Figura 33 a la Figura 36. Los resultados que se obtendrían son los presentados en la Figura 37. Figura 33 21 Figura 34 Figura 35 22 Figura 36 Figura 37 Resumen del procesamiento de los casos N PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA * EDAD Válidos Porcentaje 543 93,9% Casos Perdidos N Porcentaje 35 N 6,1% Total Porcentaje 578 100,0% Tabla de contingencia PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA * EDAD PIENSA VOLVER A SI PASAR LAS VACACIONES EN NUESTRA ISLA NO Total Recuento Frecuencia esperada % de PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA % de EDAD % del total Recuento Frecuencia esperada % de PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA % de EDAD % del total Recuento Frecuencia esperada % de PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA % de EDAD % del total MENOS DE 30 AÑOS 205 208,6 EDAD ENTRE ENTRE 30 Y 45 45 y 60 158 73 156,8 70,9 MÁS DE 60 AÑOS 17 16,7 Total 453 453,0 45,3% 34,9% 16,1% 3,8% 100,0% 82,0% 37,8% 45 41,4 84,0% 29,1% 30 31,2 85,9% 13,4% 12 14,1 85,0% 3,1% 3 3,3 83,4% 83,4% 90 90,0 50,0% 33,3% 13,3% 3,3% 100,0% 18,0% 8,3% 250 250,0 16,0% 5,5% 188 188,0 14,1% 2,2% 85 85,0 15,0% ,6% 20 20,0 16,6% 16,6% 543 543,0 46,0% 34,6% 15,7% 3,7% 100,0% 100,0% 46,0% 100,0% 34,6% 100,0% 15,7% 100,0% 3,7% 100,0% 100,0% 23 Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Valor ,826a ,835 3 3 Sig. asintótica (bilateral) ,843 ,841 1 ,390 gl ,738 543 a. 1 casillas (12,5%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,31. Medidas direccionales Nominal por nominal Lambda Tau de Goodman y Kruskal Simétrica PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA dependiente EDAD dependiente PIENSA VOLVER A PASAR LAS VACACIONES EN NUESTRA ISLA dependiente EDAD dependiente Valor ,000 Error típ. a asint. ,000 ,000 ,000 . . ,000 ,000 .b .b ,002 ,003 ,844 ,001 ,002 ,765c T aproximada .b b a. Asumiendo la hipótesis alternativa. b. No se puede efectuar el cálculo porque el error típico asintótico es igual a cero. c. Basado en la aproximación chi-cuadrado. Medidas simétricas Valor Nominal por nominal N de casos válidos Coeficiente de contingencia Sig. aproximada ,039 ,843 543 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. 8. CORRELACIÓN Para obtener una matriz de correlaciones entre dos o más variables se dispone de la opción Correlaciones Î Bivariadas del menú Analizar. Ejemplo 13. En la Figura 38 se tiene el cuadro de diálogo utilizado para solicitar la matriz de correlaciones de las variables de satisfacción, y en la Figura 39 se tienen los resultados obtenidos. 24 Sig. aproximada .b b c Figura 38 25 Figura 39 Correlaciones NIVEL DE SATISFACCIÓN Correlación de Pearson GLOBAL Sig. (bilateral) N NIVEL DE SATISFACCIÓN Correlación de Pearson PLAYAS Sig. (bilateral) N NIVEL DE SATISFACCIÓN Correlación de Pearson CALIDAD ALOJAMIENTO Sig. (bilateral) N NIVEL DE NIVEL DE NIVEL DE NIVEL DE SATISFACCIÓ SATISFACCIÓ NIVEL DE NIVEL DE SATISFACCI SATISFACCI N CALIDAD N CALIDAD SATISFACCI SATISFACCI ALOJAMIENT MEDIOAMBIE ÓN PRECIO ÓN PRECIO ÓN GLOBAL ÓN PLAYAS COMIDAS OCIO O NTE 1 ,417** ,481** ,472** ,314** ,342** . ,000 ,000 ,000 ,000 ,000 531 509 491 491 498 458 ,417** 1 ,273** ,390** ,199** ,207** ,000 . ,000 ,000 ,000 ,000 509 533 504 506 513 476 ,481** ,273** 1 ,520** ,223** ,214** ,000 ,000 . ,000 ,000 ,000 NIVEL DE SATISFACCIÓN Correlación de Pearson CALIDAD Sig. (bilateral) MEDIOAMBIENTE N NIVEL DE SATISFACCIÓN Correlación de Pearson PRECIO COMIDAS Sig. (bilateral) N NIVEL DE SATISFACCIÓN Correlación de Pearson PRECIO OCIO Sig. (bilateral) N **. La correlación es significativa al nivel 0,01 (bilateral). 26 491 504 514 500 498 464 ,472** ,000 491 ,314** ,000 498 ,342** ,000 458 ,390** ,000 506 ,199** ,000 513 ,207** ,000 476 ,520** ,000 500 ,223** ,000 498 ,214** ,000 464 1 . 514 ,280** ,000 499 ,297** ,000 467 ,280** ,000 499 1 . 522 ,761** ,000 474 ,297** ,000 467 ,761** ,000 474 1 . 481