Instrucciones para el uso del programa SPSS SPSS. Instrucciones para introducir los datos. Sería interesante que cada alumno/a se traiga un disquete para guardar en él su trabajo Para aprender a introducir los datos, crearemos un pequeño fichero con los datos obtenidos a partir de las respuestas a una encuesta en la que al menos hay 4 preguntas. Edad, Sexo, Estudios y Salario. Tu puedes poner más. Introduciremos al menos 5 variables, la primera nos servirá de control y será ncuest (número de cuestionario) y las siguientes serán las preguntas de la encuesta: Edad, Sexo, Estudios y Salario.etc. Primero definiremos estas variables y después introduciremos las respuestas de unas cuantas encuestas ficticias o reales. Haciendo doble clic en el icono del SPSS entraremos en el programa y si nos ofrece varias opciones elegiremos la opción INTRODUCIR DATOS y luego aceptar. También es posible que directamente aparezcan las filas y columnas de una especie de hoja de cálculo donde introduciremos los datos. En la parte inferior hay dos pestañas: vista de variables y vista de datos. Elegiremos vista de variables y nos situaremos en el rectángulo de la primera fila que está bajo “NOMBRE” e introduciremos en él el nombre de la primera variable ncuest . Luego siguiendo en la misma fila, bajo TIPO elegiremos el tipo de esta variable. Para ver los tipos posibles se pulsa en el cuadradito con puntos suspensivos. Para esta variable podemos elegir numérica con anchura 3 y con ningún decimal y pulsamos el botón aceptar. Debajo de etiqueta pondremos “Número de cuestionario”, las otra casillas se pueden quedar en blanco. En la fila segunda bajo NOMBRE pondremos el nombre de la segunda variable Edad , tipo numérico, anchura 3, decimales ninguno, en valores dejamos ninguno y en perdidos pondremos 999 (para los que no contesten a esta pregunta), en medida pondremos escala En la siguiente fila escribiremos el nombre de la siguiente variable, Sexo, en tipo pondremos cadena, en anchura pondremos 1 en etiqueta pondremos “sexo del/a encuestado/a” en valores el valor 1 le etiquetamos como mujer y se pulsa añadir y al valor 2 le etiquetamos como hombre, pulsar añadir y luego aceptar. Bajo perdidos pondremos 0 (para los que no respondan a esta pregunta). En medida poner nominal, En la fila siguiente pondremos Estudios y en tipo cadena en etiqueta pondremos “estudios finalizados”, bajo valores pondremos las siguientes etiquetas 0 para “sin estudios” , 1 para ESO, 2 para Módulos FP grado medio, 3 para Bachillerato, 4 para Módulos FP grado superior y 5 para Estudios Universitarios. En perdidos pondremos 9 para los que dejen sin contestar esta pregunta, en medida le pondremos ordinal En la siguiente fila pondremos Salario , tipo numérico, anchura 8, decimales 2, perdidos 9999, en medida escala. Antes de continuar, se guarda este trabajo, por si surgen problemas, que no lo perdamos. Se hace en la forma habitual de guardar un fichero en WINDOWS 1 En el MENU superior a la derecha pulsamos en Archivo, se despliega un menú y pulsamos en GUARDAR COMO. Lo guardaremos en el disquete A, con el nombre que queramos, se sugiere, trabajo1. Si miramos debajo de la pantalla y nos cambiamos de la solapa vista de variables a vista de datos, aparecerá una tabla en la que las variables que acabamos de definir aparecen en la primera fila. Lo único que hay que hacer ahora es rellenar los datos en sus casillas correspondientes. Recordar que en sexo pondremos 1 a las mujeres, y 2 a los hombres, y 0 a los que no contesten. En Estudios usar los códigos (0,1,2,3,4 y 5) que se introdujeron previamente. Cuando todo esté completo guardarlo al disco como se hizo anteriormente. Para empezar a ver resultados: elegir Analizar (menú superior) elegir Estadísticos descriptivos, frecuencias. Señalar las variables que nos interesa estudiar y pasarlas al rectángulo de la derecha. Trabajo con un fichero de datos ya creado. Copiar en el disquete A:, el fichero de datos (ejemplo1) que está en la carpeta Benita (dentro de la carpeta prácticas). Entrar en SPSS de la forma habitual y estando en el editor de datos, elegir en el menú superior : ARCHIVO -> ABRIR -> DATOS Y abrir el fichero de datos que acabamos de copiar en nuestro disquete, A:ejemplo1 Pulsando en la pestaña inferior VISTA DE VARIABLES podemos ver las 18 variables que están definidas en este fichero de datos y si pulsamos en la pestaña VISTA DE DATOS veremos las filas y columnas que contienen los datos. Estudio de las variables del fichero de datos. En el menú superior, elegiremos: ANALIZAR - > ESTADISTICOS DESCRIPTIVOS -> FRECUENCIAS Obtendremos un rectángulo, a la izquierda, con la lista de variables disponibles y otro rectángulo, a la derecha vacío. Las variables que pasemos del rectángulo de la derecha al de la izquierda, serán con las que trabajará el programa en el paso siguiente. En la parte inferior de este rectángulo hay tres botones: ESTADÍSTICOS: permite elegir los estadísticos que queremos que calcule el SPSS en el siguiente análisis. Pulsando con el botón izquierdo se eligen los estadísticos y pulsando con el derecho se obtiene información sobre cada estadístico. GRÁFICOS: nos deja elegir entre los gráficos disponibles FORMATO: permite cambiar la presentación de las tablas de frecuencias. Se recomienda tomar nota de la distribución de las frecuencias de cada una de las variables nominales (sexo, centro, habitat, etc) y de las ordinales (estudios del padre, nivel socioeconómico, etc), para el resto de las variables se recomienda usar: ANALIZAR -> ESTADISTICOS DESCRIPTIVOS-> DESCRIPTIVOS, para conocer el valor máximo, mínimo, media y desviación típica. Tratar de conocer otros estadísticos para las variables cuantitativas. Hacer las representaciones gráficas mas adecuadas para cada variable. Primero "a mano" y luego Usando el SPSS, resuelve al menos los siguientes problemas : 2 Los resultados de 18 estudiantes en un test sobre hábitos de estudio han sido los siguientes: 154, 109, 138, 115, 154 , 140, 154, 178, 101, 103, 126, 127, 137, 165, 165, 129, 200, 148. calcula la media, la moda, la mediana. Haz el gráfico de cajas. El número de horas de sol registradas en el mes de enero en 49 Estaciones meteorológicas ha sido: 83, 82, 78,72, 107, 107, 93, 72, 85, 98, 71, 76, 83, 72, 126, 102, 70, 112, 99, 155, 118, 150, 129, 119, 148, 181, 151, 167, 156, 180, 173, 149, 80, 131, 121, 110, 200, 162, 214, 176, 186, 187, 186, 141, 212, 186, 199, 198, 219.Forma una tabla de intervalos de amplitud 20 tomando 70 como extremo inferior del primer intervalo y determina media, mediana e intervalo modal. Haz el histograma y el diagrama de cajas A un grupo de 10 estudiantes se les hizo una prueba de razonamiento y otra de habilidad. Calcular en qué prueba hubo mayor variabilidad de resultados, sabiendo que éstos fueron: Razonamiento: 40, 38, 65, 56, 16, 55, 28, 62, 32, 48 Habilidad: 36, 18, 54, 47, 21, 56, 68, 70, 72, 38. Indicación: comparar los coeficientes de variación., Regresión lineal Hacer las siguientes ejercicios, primero "a mano" y luego usando el SPSS. El número de horas de estudio de una asignatura y la calificación obtenida en el examen correspondiente fue para siete personas, la siguiente: Horas 5 8 10 12 15 17 18 Calificación 3 6 5 6 9 7 9 Dibuja la nube de puntos y traza, aproximadamente, la recta de regresión asociada. La tabla siguiente muestra para los años que se indican, la natalidad por cada 1000 habitantes de una ciudad española. Años 1986 1987 1988 1989 1990 1991 Natalidad 21 21 20 18 16 15 Los años se pueden poner como 1,2,3,4,5,6(para hacerlo a mano simplifica cálculos) Calcula: el coeficiente de correlación y la ecuación de la recta de regresión Dibuja la nube de puntos En la siguiente tabla aparece la evolución del récord del mundo de salto de longitud masculina, en metros Años 1901 1921 1925 1931 1935 1961 1962 1968 1991 Marca 7,61 7,69 7,89 8,13 8,28 8,31 8,35 8,90 8,95 Los años para hacerlo a mano se pueden poner: 1, 21,25,31,61,62,68 y 91 a) representa la nube de puntos asociada a estos datos b) Calcula: el coeficiente de correlación y la ecuación de la recta de regresión Instrucciones para hacer el primer ejercicio de regresión lineal con SPSS. Introducir estos datos en el SPSS, las variables serán Horas y Califica Nos vamos a GRÁFICOS -> DISPERSIÓN -> SIMPLE -> DEFINIR 3 Llevaremos la variable HORAS al eje X (variable independiente), y la variable CALIFICA al eje Y(variable dependiente), pulsando ACEPTAR se obtendrá la nube de puntos. Si se quiere cambiar la escala de los ejes X –Y, se llevará el cursor sobre el gráfico y se pulsará el botón derecho del ratón. Se nos abrirá un pequeño menú del que eligiremos la opción Objeto gráfico del SPSS -> abrir. EN el menú superior abrir Diseño -> ejes. Para cambiar la escala del eje X, señalar escala eje X y aceptar. Cambiar a los valores que deseemos y hacer lo mismo con el eje Y. Para obtener el coeficiente de correlación y la ecuación de la recta de regresión , se elige: Analizar -> correlación -> bivariada Llevar las variables Horas y Califica al rectángulo de variables de la derecha y pulsar aceptar y obtendremos el valor 0’88 del coeficiente de correlación Analizar -> Regresión - > lineal Llevaremos Califica a variable dependiente y Horas a variable independiente y pulsamos en aceptar. Del último cuadro de la salida del SPSS, podemos deducir la ecuación de la recta de regresión de Y sobre X. Recordemos que la ecuación de la recta que calculamos al hacer el problema era Y== 0’39 X + 1’7 . Tanto la ordenada en el origen de la recta ( 1.656 como la pendiente de la recta de regresión .393 los podemos encontrar en la última tabla de resultados, aparecen en el recuadro “Coeficientes no estandariazados”, bajo la letra B. ESTADÍSTICA BIVARIABLE (TABLAS DE CONTINGENCIA) Para estudiar simultáneamente dos variables así como la relación entre las mismas es adecuado usar las tablas de contingencia. Una cuestión importante es llegar a conocer si las dos variables estudiadas son o no estadísticamente independientes entre sí o si por el contrario existe entre ellas alguna asociación. (Hipótesis nula: las variables son independientes). Trabajaremos con el fichero ejemplo1, que ya debe estar en nuestro disquete. Elegiremos : ANALIZAR -> ESTADÍSTICOS DESCRIPTIVOS -> TABLAS DE CONTINGENCIA Habrá que elegir una variable para las filas de la tabla y otra para las columnas. Es conveniente que sean variables ordinales o nominales. Los tres botones de la parte inferior: ESTADÍSTICOS: permite elegir los estadísticos a calcular.(La explicación de cada estadístico se obtiene llevando el cursor sobre el nombre de estadístico y pulsando sobre el botón derecho del ratón) CASILLAS: permite indicar el contenido de cada celda. FORMATO: permite elegir el orden de las filas (ascendente o descendente) El programa puede calcular el valor del estadístico 2 de Pearson (chi-cuadrado) este estadístico se basa en la comparación entre las frecuencias observadas (las que se obtienen del 4 recuento de los datos del estudio) y las frecuencias esperadas (las que se deberían obtener si las variables no estuvieran asociadas). La salida que se obtiene al pedir una chi cuadrado muestra el valor del estadístico, los grados de libertad de la tabla (gl) , el nivel de significación (Sig. Asintótica) que equivale a la probabilidad de equivocarnos al rechazar la hipótesis nula que afirma que las variables son independientes. Conviene que antes de realizar el test fijemos el nivel de confianza que estimamos necesario para que los resultados sean aceptables, por ejemplo:O,05 ó 0,01. Estos valores no se introducen en el SPSS, sirven para comparar con la significación que calcula el SPSS a partir de nuestros datos. Si el nivel prefijado es 0,05 y la significación que obtiene el SPSS es menor que 0,05 habrá que rechazar la Hipótesis nula (la que afirma que las variables son independientes) Significación < 0,05 rechazamos H0 y concluiremos que las variables son dependientes entre sí Significación > 0,05 aceptamos H0 y concluiremos que las variables son independientes entre sí Con 2 podemos conocer si dos variables están asociadas estadísticamente o no. Pero si el resultado es afirmativo, no se conoce la fuerza de la asociación. Para saber si la asociación es fuerte o débil se emplean otros estadísticos. Buscaremos parejas de variables para las que 2 confirme que son dependientes. ( estupa = Nivel de estudios de los padres y nivsoc = Nivel socioeconómico familiar) Para variables medidas en escala nominal:PHI es el coeficiente adecuado para tablas 2x2. V de Cramer Es adecuado para tablas de dimensiones mayores, el coeficiente de contingencia: tiene la pega de que no llega a valer 1 Los coeficientes anteriores son medidas simétricas de la fuerza de la asociación y se interpretan como el coeficiente de correlación de Pearson R La R de Pearson se usa para variables continuas (de intervalo) toma valores en el intervalo [-1,1] Además R2 mide la capacidad de la variable independiente para predecir la dependiente (cociente entre la varianza explicada y la varianza total) La RHO de Sperman solo debe aplicarse cuando las dos variables a comparar son ordinales y pueden tomar muchos valores diferentes, mientras que las Tau-b, Tau-c y Gamma son mas adecuadas para variables con pocas categorías. Estas variables son dependientes del tamaño de la tabla, por lo que no sirven para comparar tablas de distintas dimensiones. La d de Sommer es una medida de asociación asimétrica que indica la proporción en que se reduce el error al pronosticar una variable en función de la otra. Hay pues dos tipos de medidas de asociación : las simétricas y las asimétricas. Las simétricas se interpretan como índices del grado de asociación entre dos variables, pero sin supeditar la una a la otra, mientras que las asimétricas dan una medida del grado en que se reduce el error cuando se predice una variable a partir de la otra. En este caso el/a investigador/a definirá previamente cual es la variable independiente (predictora) y cual es la variable dependiente (criterio) RECODIFICACIÓN DE VARIABLES Toda variable de intervalo se puede recodificar para ser transformada en variable ordinal. Para trabajar con tablas de contingencia, a veces es interesante que los valores de las variables se agrupen en pocas categorías. Para que un test de 2 sea válido no debería haber celdas vacías y no más del 20% de las celdas deben tener una frecuencia menor o inferior a 5. Este problema se puede resolver disminuyendo el número de categorías en los resultados de las variables o aumentando el tamaño de la muestra. Vamos a ver cómo se recodifica una variable. Veamos el caso concreto de la variable PAGA. Ya hemos podido comprobar que las pagas de las personas de nuestra encuesta varían entre 6 y 30. Vamos a definir una nueva variable PAGA2 en la que 5 los resultados solamente sean 1, 2 o 3 (poco, regular y mucho). Haremos que los que tiene una paga entre 6 y 14 en PAGA2 tengan un 1 y le pondremos una etiqueta de “poco”, los que tengan una paga entre 15 y 23 en PAGA2 tengan asignado un 2 y le pondremos una etiqueta de “regular” y los que tiene una PAGA 24 a 30, en PAGA2, les asignaremos un 3 y una etiqueta de “mucho”. Los pasos a realizar son: Con el fichero de datos cargado elegiremos en el menú superior la opción TRANSFORMAR RECODIFICAR en distintas variables Es importante NO elegir en la misma variable, pues en ese caso se pierde la información anterior y solo nos quedamos con los valores de las tres categorías que vamos a definir, pero perderíamos el valor de la paga real. Nos aparecerá un rectángulo a la izquierda con la lista de todas las variables de nuestro fichero de datos, pasaremos al rectángulo de la derecha las variables que vamos a recodificar, en este caso PAGA. En el rectángulo Variable Resultado Nombre pondremos PAGA2, pulsaremos en el botón “cambiar” y en la etiqueta pondremos PAGA CODIFICADA EN 3 NIVELES, pulsamos en “valores antiguos y nuevos” y en RANGO pondremos de 6 hasta 14 valor nuevo 1 (añadir); de 15 hasta 23 valor nuevo 2 (añadir); de 24 hasta 30 valor nuevo 3 (añadir) y aceptar. Al final de la lista de variables tiene que aparecer la nueva variable PAGA2 que acabamos de definir. En la columna VALORES de esa nueva variable pincharemos para definir las etiquetas: Valor 1 etiqueta valor “poco” (AÑADIR); VALOR 2, etiqueta valor “regular” (AÑADIR); VALOR 3, etiqueta valor “mucho” (AÑADIR) Y ACEPTAR. Para estar seguros de que todo ha ido bien podemos ver la distribución de frecuencias de la nueva variable PAGA2, en el menú superior ANALIZAR ESTADISTICOS DESCRIPTIVOS FRECUENCIAS Variables adecuadas para recodificar y alguna sugerencia para ello: Número de hermanos: podemos hacer 3 grupos : pocos para 1 y 2, regular para 3 y 4, y muchos para 5,6 o 6. En edad también 3 grupos el primero de 12 a 14, el segundo de 15 a 17 y el tercero de 18 a 20 Rendimiento escolar: recodificar a suspenso, aprobado, notable y sobresaliente. Verbal hacer otra 3 categorías (18-26)(27-35)(36-45) Libros ( de 2 a 6, de 7 a 12 y de 13 a 24) Buscar los valores máximos y mínimos de CINE , TEATRO , CONCIERT Y tv y recodificarlas a 2 o tres categorías. Dejar NIVSOC en solo 3 categorías: bajo, medio y alto. Después de las recodificaciones anteriores buscar entre todas las variables disponibles parejas de variables que resulten ser independientes, o dependientes entre sí y anotar cuales son. En las dependientes estudiar adecuadamente la fuerza de la asociación . Comparación de Medias Este análisis tiene como objetivo comparar si la media es significativamente diferente en diversas variables o en distintos subgrupos de la misma variable . El más sencillo es el test de la t . Para realizar estos análisis se elige: Analizar -> comparar medias y las posibles opciones son: Medias, Pruebas T para una muestra, Pruebas T para muestras independientes, pruebas T para muestras relacionadas y Anova de un factor. La primera opción (Medias) nos permite una variable dependiente (por ejemplo paga semanal) y una variable dependiente que haga subgrupos en la población total, por ejemplo Nivel socioeconómico. Y da la media y la desviación típica de las variables elegidas, en los subgrupos creados por el Nivel socioeconómico y en la población completa. Así pues el procedimiento Medias calcula medias de 6 subgrupo y estadísticos univariados relacionados para variables dependientes dentro de las categorías de una o más variables independientes. La segunda , El procedimiento Prueba T para una muestra contrasta si la media de una sola variable difiere de una constante especificada por el investigador. Recordar que la decisión de aceptar la Hipótesis nula (No hay diferencias significativas) se toma en función del número que aparece en la casilla que da la significación. Si el número de esa casilla es menor que el nivel mínimo aceptable prefijado (por ejemplo: 0,05 o 0,01)se rechaza la H0 y en caso contrario de acepta. También nos da este procedimiento un intervalo de confianza para la diferencia entre la media y el valor elegido por nosotros. El procedimiento Prueba T para muestras independientes compara las medias de dos grupos de casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos, de forma que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros factores. Este caso no ocurre si se comparan los ingresos medios para hombres y mujeres. El sexo de una persona no se asigna aleatoriamente. En estas situaciones, debe asegurarse de que las diferencias en otros factores no enmascaren o resalten una diferencia significativa entre las medias. Las diferencias de ingresos medios pueden estar sometidas a la influencia de factores como los estudios y no solamente el sexo. Lo que decide si hay que considerar igual varianza lo da el número que aparece bajo Sig (detrás de F). Lo que decide si los subgrupos tienen media significativamente distinta es el número que aparece bajo Sig. Bilateral. La interpretación de estos números es la ya explicada previamente. El procedimiento Prueba T para muestras relacionadas compara las medias de dos variables de un solo grupo. Calcula las diferencias entre los valores de las dos variables de cada caso y contrasta si la media difiere de 0. Es lógico elegir variables cuya media sea similar, en caso contrario carece de sentido realizar esta prueba. El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una variable dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una extensión de la prueba t para dos muestras, la diferencia es que ahora los grupos pueden ser mas de dos. Pero la variable que hace los grupos (el factor) debe estar definida al menos como ordinal. Trabajo con un fichero "grande" Frecuentemente los ficheros que se emplean para investigaciones sociológicas tienen su origen en encuestas con muchas preguntas, de las que se obtienen muchas variables (no todas interesantes para una investigación concreta). También a veces la muestra es muy grande. Vamos a ver como reducir el número de variables y de casos con objeto de que aligerar los cálculos al SPSS. Abrir el fichero CIS2409. Dado el tamaño de este fichero ( aproximadamente 100 variables y 2500 casos) y teniendo en cuenta que estamos trabajando en red, no hay que ponerse nervioso si alguna vez el ordenador se queda "colgado". Para obtener información de las variables que contiene el fichero en UTILIDADES (menú superior) elegir variables o Información de archivo. Este mismo menú de utilidades ofrece dos posibilidades interesantes 7 Definir conjuntos: permite seleccionar las variables que se van a usar en el estudio En primer lugar hay que dar nombre al conjunto y después llevar del rectángulo de la izquierda al de la derecha que está bajo el título Variables del conjunto, las variables que nos interesen. Pulsar añadir conjunto y cerrar. La opción usar conjunto nos permite usar los conjuntos definidos previamente. Para ello hay que llevar el conjunto de interés al rectángulo conjuntos en uso. Si dejamos en el rectángulo conjuntos en uso Allvariables, se usarán todas las variables y no será efectiva la selección efectuada en los conjuntos definidos previamente. Se recomienda estudiar individualmente y por parejas las variables de la encuesta que se piense pueden resultar interesantes para una investigación sobre "EMIGRACIÖN" e ir tomando notas de los resultados obtenidos. Intervalos de confianza para la media Analizar -> estadísticos descriptivos -> explorar Llevar las variables de las que queremos conocer el intervalo de confianza al rectángulo "Dependientes" (por ejemplo "simpatía norte- africanos") En estadísticos señalar descriptivos y el nivel de confianza se puede dejar al 95% o cambiarlo. Si se desea tener un intervalo de confianza para los hombres y otro para las mujeres habrá que llevar la variable sexo al rectángulo "Factores" Análisis factorial con SPSS Introducir como datos a analizar el fichero "Factorial". Analizar -> Reducción de datos -> Análisis factorial Las variables que introduciremos para realizar el AF, son: Velocidad de entrega, nivel de precios, flexibilidad del precio, Imagen del fabricante, servicio, imagen del personal de ventas, calidad del producto. De las variables anteriores a la vista de los resultados que obtendremos es necesario eliminar una de ellas. En descriptivos (matriz de correlación, seleccionar coeficientes, nivel de significación, determinante, KMO y prueba de esfericidad de Barlett, anti-imagen. En extracción: método de componentes principales Analizar matriz de correlaciones 8 Extraer autovalores mayores que 1 Mostrar solución factorial sin rotar y gráfico de sedimentación. Rotación varimax (mostrar solución rotada , gráfico de saturaciones) Opciones : excluir casos según lista. 9