Para obtener el manual de SPSS en formato WORD pulsar aqui

Anuncio
Instrucciones para el uso del programa SPSS
SPSS. Instrucciones para introducir los datos.
Sería interesante que cada alumno/a se traiga un disquete para guardar en él su trabajo
Para aprender a introducir los datos, crearemos un pequeño fichero con los datos obtenidos a
partir de las respuestas a una encuesta en la que al menos hay 4 preguntas. Edad, Sexo,
Estudios y Salario. Tu puedes poner más.
Introduciremos al menos 5 variables, la primera nos servirá de control y será ncuest (número
de cuestionario) y las siguientes serán las preguntas de la encuesta: Edad, Sexo, Estudios y
Salario.etc.
Primero definiremos estas variables y después introduciremos las respuestas de unas cuantas
encuestas ficticias o reales.
Haciendo doble clic en el icono del SPSS entraremos en el programa y si nos ofrece varias
opciones elegiremos la opción INTRODUCIR DATOS y luego aceptar. También es posible que
directamente aparezcan las filas y columnas de una especie de hoja de cálculo donde
introduciremos los datos. En la parte inferior hay dos pestañas: vista de variables y vista de
datos. Elegiremos vista de variables y nos situaremos en el rectángulo de la primera fila que
está bajo “NOMBRE” e introduciremos en él el nombre de la primera variable ncuest .
Luego siguiendo en la misma fila, bajo TIPO elegiremos el tipo de esta variable. Para ver los
tipos posibles se pulsa en el cuadradito con puntos suspensivos. Para esta variable podemos
elegir numérica con anchura 3 y con ningún decimal y pulsamos el botón aceptar. Debajo de
etiqueta pondremos “Número de cuestionario”, las otra casillas se pueden quedar en blanco.
En la fila segunda bajo NOMBRE pondremos el nombre de la segunda variable Edad , tipo
numérico, anchura 3, decimales ninguno, en valores dejamos ninguno y en perdidos
pondremos 999 (para los que no contesten a esta pregunta), en medida pondremos escala
En la siguiente fila escribiremos el nombre de la siguiente variable, Sexo, en tipo pondremos
cadena, en anchura pondremos 1 en etiqueta pondremos “sexo del/a encuestado/a” en
valores el valor 1 le etiquetamos como mujer y se pulsa añadir y al valor 2 le etiquetamos como
hombre, pulsar añadir y luego aceptar. Bajo perdidos pondremos 0 (para los que no respondan
a esta pregunta). En medida poner nominal,
En la fila siguiente pondremos Estudios y en tipo cadena en etiqueta pondremos “estudios
finalizados”, bajo valores pondremos las siguientes etiquetas 0 para “sin estudios” , 1 para
ESO, 2 para Módulos FP grado medio, 3 para Bachillerato, 4 para Módulos FP grado superior y
5 para Estudios Universitarios. En perdidos pondremos 9 para los que dejen sin contestar esta
pregunta, en medida le pondremos ordinal
En la siguiente fila pondremos Salario , tipo numérico, anchura 8, decimales 2, perdidos
9999, en medida escala.
Antes de continuar, se guarda este trabajo, por si surgen problemas, que no lo perdamos. Se
hace en la forma habitual de guardar un fichero en WINDOWS
1
En el MENU superior a la derecha pulsamos en Archivo, se despliega un menú y pulsamos en
GUARDAR COMO. Lo guardaremos en el disquete A, con el nombre que queramos, se sugiere,
trabajo1.
Si miramos debajo de la pantalla y nos cambiamos de la solapa vista de variables a vista de
datos, aparecerá una tabla en la que las variables que acabamos de definir aparecen en la
primera fila. Lo único que hay que hacer ahora es rellenar los datos en sus casillas
correspondientes. Recordar que en sexo pondremos 1 a las mujeres, y 2 a los hombres, y 0 a
los que no contesten. En Estudios usar los códigos (0,1,2,3,4 y 5) que se introdujeron
previamente. Cuando todo esté completo guardarlo al disco como se hizo anteriormente.
Para empezar a ver resultados: elegir Analizar (menú superior) elegir Estadísticos descriptivos,
frecuencias. Señalar las variables que nos interesa estudiar y pasarlas al rectángulo de la
derecha.
Trabajo con un fichero de datos ya creado.
Copiar en el disquete A:, el fichero de datos (ejemplo1) que está en la carpeta Benita (dentro de
la carpeta prácticas).
Entrar en SPSS de la forma habitual y estando en el editor de datos, elegir en el menú superior
: ARCHIVO -> ABRIR -> DATOS
Y abrir el fichero de datos que acabamos de copiar en nuestro disquete, A:ejemplo1
Pulsando en la pestaña inferior VISTA DE VARIABLES podemos ver las 18 variables que están
definidas en este fichero de datos y si pulsamos en la pestaña VISTA DE DATOS veremos las
filas y columnas que contienen los datos.
Estudio de las variables del fichero de datos.
En el menú superior, elegiremos:
ANALIZAR - > ESTADISTICOS DESCRIPTIVOS -> FRECUENCIAS
Obtendremos un rectángulo, a la izquierda, con la lista de variables disponibles y otro
rectángulo, a la derecha vacío. Las variables que pasemos del rectángulo de la derecha al de la
izquierda, serán con las que trabajará el programa en el paso siguiente.
En la parte inferior de este rectángulo hay tres botones:
ESTADÍSTICOS: permite elegir los estadísticos que queremos que calcule el SPSS en el
siguiente análisis. Pulsando con el botón izquierdo se eligen los estadísticos y pulsando con el
derecho se obtiene información sobre cada estadístico.
GRÁFICOS: nos deja elegir entre los gráficos disponibles
FORMATO: permite cambiar la presentación de las tablas de frecuencias.
Se recomienda tomar nota de la distribución de las frecuencias de cada una de las variables
nominales (sexo, centro, habitat, etc) y de las ordinales (estudios del padre, nivel
socioeconómico, etc), para el resto de las variables se recomienda usar:
ANALIZAR -> ESTADISTICOS DESCRIPTIVOS-> DESCRIPTIVOS, para conocer el valor
máximo, mínimo, media y desviación típica. Tratar de conocer otros estadísticos para las
variables cuantitativas.
Hacer las representaciones gráficas mas adecuadas para cada variable.
Primero "a mano" y luego
Usando el SPSS, resuelve al menos los siguientes problemas :
2
Los resultados de 18 estudiantes en un test sobre hábitos de estudio han sido los siguientes:
154, 109, 138, 115, 154 , 140, 154, 178, 101, 103, 126, 127, 137, 165, 165, 129, 200, 148.
calcula la media, la moda, la mediana. Haz el gráfico de cajas.
El número de horas de sol registradas en el mes de enero en 49 Estaciones meteorológicas ha
sido: 83, 82, 78,72, 107, 107, 93, 72, 85, 98, 71, 76, 83, 72, 126, 102, 70, 112, 99, 155, 118,
150, 129, 119, 148, 181, 151, 167, 156, 180, 173, 149, 80, 131, 121, 110, 200, 162, 214, 176,
186, 187, 186, 141, 212, 186, 199, 198, 219.Forma una tabla de intervalos de amplitud 20
tomando 70 como extremo inferior del primer intervalo y determina media, mediana e intervalo
modal. Haz el histograma y el diagrama de cajas
A un grupo de 10 estudiantes se les hizo una prueba de razonamiento y otra de habilidad.
Calcular en qué prueba hubo mayor variabilidad de resultados, sabiendo que éstos fueron:
Razonamiento: 40, 38, 65, 56, 16, 55, 28, 62, 32, 48
Habilidad:
36, 18, 54, 47, 21, 56, 68, 70, 72, 38.
Indicación: comparar los coeficientes de variación.,
Regresión lineal
Hacer las siguientes ejercicios, primero "a mano" y luego usando el SPSS.
El número de horas de estudio de una asignatura y la calificación obtenida en el examen
correspondiente fue para siete personas, la siguiente:
Horas
5
8
10
12
15
17
18
Calificación
3
6
5
6
9
7
9
Dibuja la nube de puntos y traza, aproximadamente, la recta de regresión asociada.
La tabla siguiente muestra para los años que se indican, la natalidad por cada 1000
habitantes de una ciudad española.
Años
1986 1987 1988 1989 1990 1991
Natalidad
21
21
20
18
16
15
Los años se pueden poner como 1,2,3,4,5,6(para hacerlo a mano simplifica cálculos)
Calcula: el coeficiente de correlación y la ecuación de la recta de regresión
Dibuja la nube de puntos
En la siguiente tabla aparece la evolución del récord del mundo de salto de longitud
masculina, en metros
Años 1901 1921 1925 1931 1935 1961 1962 1968 1991
Marca 7,61 7,69 7,89 8,13 8,28 8,31 8,35 8,90 8,95
Los años para hacerlo a mano se pueden poner: 1, 21,25,31,61,62,68 y 91
a) representa la nube de puntos asociada a estos datos
b) Calcula: el coeficiente de correlación y la ecuación de la recta de regresión
Instrucciones para hacer el primer ejercicio de regresión lineal con SPSS.
Introducir estos datos en el SPSS, las variables serán Horas y Califica
Nos vamos a GRÁFICOS -> DISPERSIÓN -> SIMPLE -> DEFINIR
3
Llevaremos la variable HORAS al eje X (variable independiente), y la variable
CALIFICA al eje Y(variable dependiente), pulsando ACEPTAR se obtendrá la nube de
puntos.
Si se quiere cambiar la escala de los ejes X –Y, se llevará el cursor sobre el gráfico y se
pulsará el botón derecho del ratón. Se nos abrirá un pequeño menú del que eligiremos la
opción Objeto gráfico del SPSS -> abrir. EN el menú superior abrir Diseño -> ejes.
Para cambiar la escala del eje X, señalar escala eje X y aceptar. Cambiar a los valores que
deseemos y hacer lo mismo con el eje Y.
Para obtener el coeficiente de correlación y la ecuación de la recta de regresión , se elige:
Analizar -> correlación -> bivariada
Llevar las variables Horas y Califica al rectángulo de variables de la derecha y pulsar
aceptar y obtendremos el valor 0’88 del coeficiente de correlación
Analizar -> Regresión - > lineal
Llevaremos Califica a variable dependiente y Horas a variable independiente y pulsamos
en aceptar.
Del último cuadro de la salida del SPSS, podemos deducir la ecuación de la recta de
regresión de Y sobre X.
Recordemos que la ecuación de la recta que calculamos al hacer el problema era
Y== 0’39 X + 1’7 . Tanto la ordenada en el origen de la recta ( 1.656 como la pendiente
de la recta de regresión .393 los podemos encontrar en la última tabla de resultados,
aparecen en el recuadro “Coeficientes no estandariazados”, bajo la letra B.
ESTADÍSTICA BIVARIABLE (TABLAS DE CONTINGENCIA)
Para estudiar simultáneamente dos variables así como la relación entre las mismas es adecuado usar
las tablas de contingencia.
Una cuestión importante es llegar a conocer si las dos variables estudiadas son o no estadísticamente
independientes entre sí o si por el contrario existe entre ellas alguna asociación. (Hipótesis nula: las
variables son independientes).
Trabajaremos con el fichero ejemplo1, que ya debe estar en nuestro disquete. Elegiremos :
ANALIZAR -> ESTADÍSTICOS DESCRIPTIVOS -> TABLAS DE CONTINGENCIA
Habrá que elegir una variable para las filas de la tabla y otra para las columnas. Es conveniente que
sean variables ordinales o nominales.
Los tres botones de la parte inferior:
ESTADÍSTICOS: permite elegir los estadísticos a calcular.(La explicación de cada estadístico se obtiene
llevando el cursor sobre el nombre de estadístico y pulsando sobre el botón derecho del ratón)
CASILLAS: permite indicar el contenido de cada celda.
FORMATO: permite elegir el orden de las filas (ascendente o descendente)
El programa puede calcular el valor del estadístico 2 de Pearson (chi-cuadrado) este
estadístico se basa en la comparación entre las frecuencias observadas (las que se obtienen del
4
recuento de los datos del estudio) y las frecuencias esperadas (las que se deberían obtener si las
variables no estuvieran asociadas). La salida que se obtiene al pedir una chi cuadrado muestra el valor
del estadístico, los grados de libertad de la tabla (gl) , el nivel de significación (Sig. Asintótica) que
equivale a la probabilidad de equivocarnos al rechazar la hipótesis nula que afirma que las variables son
independientes.
Conviene que antes de realizar el test fijemos el nivel de confianza que estimamos necesario para que
los resultados sean aceptables, por ejemplo:O,05 ó 0,01. Estos valores no se introducen en el SPSS,
sirven para comparar con la significación que calcula el SPSS a partir de nuestros datos. Si el nivel
prefijado es 0,05 y la significación que obtiene el SPSS es menor que 0,05 habrá que rechazar la
Hipótesis nula (la que afirma que las variables son independientes)
Significación < 0,05 rechazamos H0 y concluiremos que las variables son dependientes entre sí
Significación > 0,05 aceptamos H0 y concluiremos que las variables son independientes entre sí
Con 2 podemos conocer si dos variables están asociadas estadísticamente o no. Pero si el resultado
es afirmativo, no se conoce la fuerza de la asociación. Para saber si la asociación es fuerte o débil se
emplean otros estadísticos.
Buscaremos parejas de variables para las que 2 confirme que son dependientes. ( estupa = Nivel de
estudios de los padres y nivsoc = Nivel socioeconómico familiar)
Para variables medidas en escala nominal:PHI es el coeficiente adecuado para tablas 2x2. V de
Cramer Es adecuado para tablas de dimensiones mayores, el coeficiente de contingencia: tiene la
pega de que no llega a valer 1
Los coeficientes anteriores son medidas simétricas de la fuerza de la asociación y se interpretan
como el coeficiente de correlación de Pearson R
La R de Pearson se usa para variables continuas (de intervalo) toma valores en el intervalo [-1,1]
Además R2 mide la capacidad de la variable independiente para predecir la dependiente (cociente entre
la varianza explicada y la varianza total)
La RHO de Sperman solo debe aplicarse cuando las dos variables a comparar son ordinales y pueden
tomar muchos valores diferentes, mientras que las Tau-b, Tau-c y Gamma son mas adecuadas para
variables con pocas categorías. Estas variables son dependientes del tamaño de la tabla, por lo que no
sirven para comparar tablas de distintas dimensiones.
La d de Sommer es una medida de asociación asimétrica que indica la proporción en que se reduce el
error al pronosticar una variable en función de la otra.
Hay pues dos tipos de medidas de asociación : las simétricas y las asimétricas. Las simétricas se
interpretan como índices del grado de asociación entre dos variables, pero sin supeditar la una a la otra,
mientras que las asimétricas dan una medida del grado en que se reduce el error cuando se predice una
variable a partir de la otra. En este caso el/a investigador/a definirá previamente cual es la variable
independiente (predictora) y cual es la variable dependiente (criterio)
RECODIFICACIÓN DE VARIABLES
Toda variable de intervalo se puede recodificar para ser transformada en variable ordinal.
Para trabajar con tablas de contingencia, a veces es interesante que los valores de las variables se
agrupen en pocas categorías. Para que un test de 2 sea válido no debería haber celdas vacías y no
más del 20% de las celdas deben tener una frecuencia menor o inferior a 5. Este problema se puede
resolver disminuyendo el número de categorías en los resultados de las variables o aumentando el
tamaño de la muestra.
Vamos a ver cómo se recodifica una variable.
Veamos el caso concreto de la variable PAGA. Ya hemos podido comprobar que las pagas de las
personas de nuestra encuesta varían entre 6 y 30. Vamos a definir una nueva variable PAGA2 en la que
5
los resultados solamente sean 1, 2 o 3 (poco, regular y mucho). Haremos que los que tiene una paga
entre 6 y 14 en PAGA2 tengan un 1 y le pondremos una etiqueta de “poco”, los que tengan una paga
entre 15 y 23 en PAGA2 tengan asignado un 2 y le pondremos una etiqueta de “regular” y los que tiene
una PAGA 24 a 30, en PAGA2, les asignaremos un 3 y una etiqueta de “mucho”.
Los pasos a realizar son:
Con el fichero de datos cargado elegiremos en el menú superior la opción
TRANSFORMAR  RECODIFICAR  en distintas variables
Es importante NO elegir en la misma variable, pues en ese caso se pierde la información anterior y solo
nos quedamos con los valores de las tres categorías que vamos a definir, pero perderíamos el valor de la
paga real.
Nos aparecerá un rectángulo a la izquierda con la lista de todas las variables de nuestro fichero de datos,
pasaremos al rectángulo de la derecha las variables que vamos a recodificar, en este caso PAGA. En el
rectángulo Variable Resultado Nombre pondremos PAGA2, pulsaremos en el botón “cambiar” y en la
etiqueta pondremos PAGA CODIFICADA EN 3 NIVELES, pulsamos en “valores antiguos y nuevos” y en
RANGO pondremos de 6 hasta 14 valor nuevo 1 (añadir); de 15 hasta 23 valor nuevo 2 (añadir); de 24
hasta 30 valor nuevo 3 (añadir) y aceptar.
Al final de la lista de variables tiene que aparecer la nueva variable PAGA2 que acabamos de definir. En
la columna VALORES de esa nueva variable pincharemos para definir las etiquetas:
Valor 1 etiqueta valor “poco” (AÑADIR); VALOR 2, etiqueta valor “regular” (AÑADIR); VALOR 3, etiqueta
valor “mucho” (AÑADIR) Y ACEPTAR.
Para estar seguros de que todo ha ido bien podemos ver la distribución de frecuencias de la nueva
variable PAGA2, en el menú superior ANALIZAR  ESTADISTICOS DESCRIPTIVOS FRECUENCIAS
Variables adecuadas para recodificar y alguna sugerencia para ello:
Número de hermanos: podemos hacer 3 grupos : pocos para 1 y 2, regular para 3 y 4, y muchos para
5,6 o 6.
En edad también 3 grupos el primero de 12 a 14, el segundo de 15 a 17 y el tercero de 18 a 20
Rendimiento escolar: recodificar a suspenso, aprobado, notable y sobresaliente.
Verbal hacer otra 3 categorías (18-26)(27-35)(36-45)
Libros ( de 2 a 6, de 7 a 12 y de 13 a 24)
Buscar los valores máximos y mínimos de CINE , TEATRO , CONCIERT Y tv y recodificarlas a 2 o tres
categorías. Dejar NIVSOC en solo 3 categorías: bajo, medio y alto.
Después de las recodificaciones anteriores buscar entre todas las variables disponibles parejas de
variables que resulten ser independientes, o dependientes entre sí y anotar cuales son. En las
dependientes estudiar adecuadamente la fuerza de la asociación .
Comparación de Medias
Este análisis tiene como objetivo comparar si la media es significativamente diferente en diversas
variables o en distintos subgrupos de la misma variable .
El más sencillo es el test de la t .
Para realizar estos análisis se elige: Analizar -> comparar medias y las posibles opciones son: Medias,
Pruebas T para una muestra, Pruebas T para muestras independientes, pruebas T para muestras
relacionadas y Anova de un factor.
La primera opción (Medias) nos permite una variable dependiente (por ejemplo paga semanal) y una
variable dependiente que haga subgrupos en la población total, por ejemplo Nivel socioeconómico. Y da
la media y la desviación típica de las variables elegidas, en los subgrupos creados por el Nivel
socioeconómico y en la población completa. Así pues el procedimiento Medias calcula medias de
6
subgrupo y estadísticos univariados relacionados para variables dependientes dentro de las categorías
de una o más variables independientes.
La segunda , El procedimiento Prueba T para una muestra contrasta si la media de una sola variable
difiere de una constante especificada por el investigador. Recordar que la decisión de aceptar la
Hipótesis nula (No hay diferencias significativas) se toma en función del número que aparece en la
casilla que da la significación. Si el número de esa casilla es menor que el nivel mínimo aceptable
prefijado (por ejemplo: 0,05 o 0,01)se rechaza la H0 y en caso contrario de acepta. También nos da
este procedimiento un intervalo de confianza para la diferencia entre la media y el valor elegido por
nosotros.
El procedimiento Prueba T para muestras independientes compara las medias de dos grupos de
casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos, de forma
que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros
factores. Este caso no ocurre si se comparan los ingresos medios para hombres y mujeres. El sexo de
una persona no se asigna aleatoriamente. En estas situaciones, debe asegurarse de que las diferencias
en otros factores no enmascaren o resalten una diferencia significativa entre las medias. Las diferencias
de ingresos medios pueden estar sometidas a la influencia de factores como los estudios y no solamente
el sexo. Lo que decide si hay que considerar igual varianza lo da el número que aparece bajo Sig
(detrás de F). Lo que decide si los subgrupos tienen media significativamente distinta es el número que
aparece bajo Sig. Bilateral. La interpretación de estos números es la ya explicada previamente.
El procedimiento Prueba T para muestras relacionadas compara las medias de dos variables de un
solo grupo. Calcula las diferencias entre los valores de las dos variables de cada caso y contrasta si la
media difiere de 0. Es lógico elegir variables cuya media sea similar, en caso contrario carece de sentido
realizar esta prueba.
El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una variable
dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis
de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una
extensión de la prueba t para dos muestras, la diferencia es que ahora los grupos pueden ser mas de
dos. Pero la variable que hace los grupos (el factor) debe estar definida al menos como ordinal.
Trabajo con un fichero "grande"
Frecuentemente los ficheros que se emplean para investigaciones sociológicas tienen su origen
en encuestas con muchas preguntas, de las que se obtienen muchas variables (no todas
interesantes para una investigación concreta). También a veces la muestra es muy grande.
Vamos a ver como reducir el número de variables y de casos con objeto de que aligerar los
cálculos al SPSS.
Abrir el fichero CIS2409.
Dado el tamaño de este fichero ( aproximadamente 100 variables y 2500 casos) y teniendo en
cuenta que estamos trabajando en red, no hay que ponerse nervioso si alguna vez el ordenador
se queda "colgado".
Para obtener información de las variables que contiene el fichero en UTILIDADES (menú
superior) elegir variables o Información de archivo.
Este mismo menú de utilidades ofrece dos posibilidades interesantes
7
Definir conjuntos: permite seleccionar las variables que se van a usar en el estudio
En primer lugar hay que dar nombre al conjunto y después llevar del rectángulo de la izquierda
al de la derecha que está bajo el título Variables del conjunto, las variables que nos interesen.
Pulsar añadir conjunto y cerrar.
La opción usar conjunto nos permite usar los conjuntos definidos previamente. Para ello hay
que llevar el conjunto de interés al rectángulo conjuntos en uso. Si dejamos en el rectángulo
conjuntos en uso Allvariables, se usarán todas las variables y no será efectiva la selección
efectuada en los conjuntos definidos previamente.
Se recomienda estudiar individualmente y por parejas las variables de la encuesta que se
piense pueden resultar interesantes para una investigación sobre "EMIGRACIÖN" e ir
tomando notas de los resultados obtenidos.
Intervalos de confianza para la media
Analizar -> estadísticos descriptivos -> explorar
Llevar las variables de las que queremos conocer el intervalo de confianza al rectángulo
"Dependientes" (por ejemplo "simpatía norte- africanos")
En estadísticos señalar descriptivos y el nivel de confianza se puede dejar al 95% o cambiarlo.
Si se desea tener un intervalo de confianza para los hombres y otro para las mujeres habrá que
llevar la variable sexo al rectángulo "Factores"
Análisis factorial con SPSS
Introducir como datos a analizar el fichero "Factorial".
Analizar -> Reducción de datos -> Análisis factorial
Las variables que introduciremos para realizar el AF, son: Velocidad de entrega, nivel de
precios, flexibilidad del precio, Imagen del fabricante, servicio, imagen del personal de ventas,
calidad del producto.
De las variables anteriores a la vista de los resultados que obtendremos es necesario eliminar
una de ellas.
En descriptivos (matriz de correlación, seleccionar coeficientes, nivel de significación,
determinante, KMO y prueba de esfericidad de Barlett, anti-imagen.
En extracción: método de componentes principales
Analizar matriz de correlaciones
8
Extraer autovalores mayores que 1
Mostrar solución factorial sin rotar y gráfico de sedimentación.
Rotación varimax (mostrar solución rotada , gráfico de saturaciones)
Opciones : excluir casos según lista.
9
Descargar