Introducción a SPSS

Anuncio
INTRODUCCIÓN AL ANÁLISIS EXPLORATORIO DE DATOS PARA
INVESTIGACIÓN CON SPSS
Entorno de trabajo
SPSS (Statistical Package for Social Sciences) es uno de los paquetes estadísticos de mayor difusión
mundial. La versión de SPSS con la que se va a trabajar es la 15.
Tipos de ficheros y extensiones
•
•
•
•
Ficheros de datos (.sav), es el tipo que se usa por defecto; son ficheros creados y grabados por SPSS.
Documentos del Visor (.spo), en los que se guardan los resultados del análisis estadístico, los
gráficos y las tablas.
Ficheros de sintaxis (.sps), que se usan para órdenes que no se pueden dar a través del ratón por ser
algo más específicas.
Proceso de SPSS (.sbs), ficheros de procesos que personalizan rutinas de SPSS, sobre todo para
mostrar datos.
Además de los tipos de ficheros propios, SPSS también es capaz de leer y escribir en ficheros
procedentes de otras aplicaciones: Excel (*.xls), Lotus (*.w*), dBase (*.dfb), SYLK (*.slk) y programas
gestores de bases de datos (Access, Filemaker... ) a través de drivers ODBC. También se pueden leer datos
directamente desde ficheros de texto.
Ventanas de trabajo
Existen distintos tipos de ventanas en SPSS:
Editor de datos
Esta ventana muestra los contenidos del archivo de datos actual. La ventana del Editor de datos se
abre automáticamente cuando se inicia una sesión de SPSS. Desde la versión 15 se puede tener más de
un archivo de datos bierto al mismo tiempo. El Editor de datos proporciona un método práctico (al estilo de las
hojas de cálculo) para la creación y edición de archivos de datos.
El Editor de datos proporciona dos vistas de los datos (ver Figura 1):
• Vista de datos. Muestra los valores de datos reales o las etiquetas de valor definidas.
• Vista de variables. Muestra la información de definición de variable, que incluye las etiquetas de la
variable definida y de valor, tipo de dato (por ejemplo, de cadena, fecha y numérico), escala de
medida (nominal, ordinal o de escala) y los valores perdidos definidos por el usuario.
En ambas vistas, se puede añadir, modificar y eliminar la información contenida en el archivo de
datos.
Figura 1. Ventanas del Editor de datos, en Vista de datos (izda) y Vista de variables (dcha)
Visor
Todos los resultados estadísticos, tablas y gráficos se muestran en el Visor (ver Figura 2). Se pueden
editar los resultados y guardarlos para utilizarlos posteriormente. La ventana del Visor se abre
automáticamente la primera vez que se ejecuta un procedimiento que genera resultados.
El visor se divide en dos paneles:
• El panel izquierdo muestra una vista de titulares del contenido.
• El panel derecho contiene tablas estadísticas, gráficos y resultados de texto.
Figura 2. Ventana del Visor
Visor de borrador
Los resultados pueden mostrarse como texto normal (en lugar de como tablas pivote interactivas) en
el Visor de borrador.
Los resultados de cualquier procedimiento que ejecutemos aparecerán en la ‘ventana designada’, ya
sea tanto de visor normal como de borrador. La ‘ventana designada’ se distingue por el signo de exclamación
rojo que aparece en la barra inferior. Para designar una ventana utilizaremos el comando Utilidades /
Designar.
Editor de tablas pivote
Con el Editor de tablas pivote es posible modificar los resultados mostrados en este tipo de tablas de
diversas maneras. Se puede editar el texto, intercambiar los datos de las filas y las columnas, añadir colores,
crear tablas multidimensionales y ocultar y mostrar los resultados de manera selectiva.
Editor de gráficos
Permite modificar los gráficos y los diagramas en las ventanas de gráficos. Se pueden cambiar los
colores, seleccionar diferentes tipos de fuentes y tamaños, intercambiar los ejes horizontal y vertical, rotar
diagramas de dispersión 3-D e incluso cambiar el tipo de gráfico.
Editor de resultados de texto
Los resultados de texto que no se muestran en las tablas pivote se pueden modificar con el Editor de
resultados de texto. Se pueden editar los resultados y cambiar las características de las fuentes (tipo, estilo,
color, tamaño).
Editor de sintaxis
Se pueden pegar las elecciones del cuadro de diálogo en una ventana de sintaxis, donde las
selecciones aparecerán en forma de sintaxis de comandos. Luego se puede editar la sintaxis de comandos para
utilizar funciones especiales de SPSS que no están disponibles en los cuadros de diálogo. Se pueden guardar
estos comandos en un archivo para utilizarlos en sesiones de SPSS posteriores.
Editor de procesos
El procesamiento y la automatización OLE permiten personalizar y automatizar muchas tareas en
SPSS.
Cada ventana de SPSS tiene su propia barra de menús con las opciones adecuadas para ese tipo de
ventana. Las opciones Analizar y Gráficos aparecen en todas las ventanas, lo cual permite generar fácilmente
nuevos resultados sin tener que cambiar de ventana. Se pueden tener varias ventanas abiertas
simultáneamente. La ventana activa es la que está seleccionada actualmente. Para ver las ventanas abiertas y
seleccionar otras utilizar el menú Ventana.
Los menús que encontramos en el editor son:
• Archivo: Permite crear un nuevo archivo SPSS, abrir uno existente, grabar, leer datos creados con
otras aplicaciones, etc...
• Edición: Contiene las habituales opciones de Windows para copiar datos, buscar, etc...
• Ver: Permite personalizar la barra de estado, visualizarla o no, visualizar las etiquetas o los valores
de las variables, visualizar o no las líneas de la parrilla de la base de datos, etc...
• Datos: Contiene opciones para hacer cambios que afectan a todo el archivo de datos (unir archivos,
transponer variables y casos, crear subconjuntos de casos, etc...). Estos cambios son temporales
mientras no se guarde explícitamente el archivo.
• Transformar: Permite efectuar cambios sobre las variables seleccionadas y crear nuevas variables.
Estos cambios son temporales mientras no se guarde explícitamente el archivo.
• Analizar: Desde esta opción se ejecutan todos los procedimientos estadísticos.
• Gráficos: Desde esta opción se ejecutan todos los procedimientos estadísticos de carácter gráfico.
• Utilidades: Cambiar fuentes, obtener información completa del archivo de datos, acceder a un índice
de comandos SPSS, etc...
• Ventana: Ordenar, seleccionar, controlar atributos de las ventanas abiertas, cambiar de unas a otras,
minimizarlas.
• ?: Tutorial, acceso a la página de Internet de SPSS, asistente estadístico, etc...
El visor y el visor de borrador carecen de los menús Datos y Transformar y en su lugar incluyen:
• Insertar: Permite insertar nuevos objetos (gráficos, tablas...) en el visor de resultados.
• Formato: Permite seleccionar la alineación.
Encontramos nuevos menús en el editor de tablas pivote y de gráficos que añaden nuevas opciones
para modificarlos según nuestras necesidades.
Además de los menús disponemos de las barras de herramientas. Para el editor:
1
•
•
•
•
•
•
•
•
•
•
•
2
3
4
5
6
7
8
9
10
11 12
13 14 15
16 17
1: Abre el cuadro de diálogo para el tipo de documento activo en pantalla.
2: Graba una base de datos o los resultados.
3: Imprime el documento activo en pantalla.
4: Muestra el listado de los últimos procedimientos realizados con SPSS. Para entrar en uno de ellos,
hacer clic en el mismo.
5: Deshacer.
6: Rehacer.
7: Activa la ventana de gráficos siempre que haya uno editado.
8: Activa la ventana de edición de datos para mostrarnos los datos del sujeto seleccionado.
9: Información sobre variables. Desde este diálogo pueden pegarse nombres de variables en la
ventana de sintaxis o activar la ventana de edición para ver la variable seleccionada.
10: Permite buscar sujetos a partir de un valor en una variable y un punto del archivo.
11: Insertar un caso.
•
•
•
•
•
•
12: Insertar una variable.
13: Divide un archivo.
14: Ponderar casos.
15: Seleccionar sujetos.
16: Etiquetas de los valores de las variables.
17: Seleccionar un conjunto de variables predefinido para utilizarlo en el análisis.
La barra de estado informa del estado actual del procesador de SPSS como, por ejemplo, si se está
ejecutando algún procedimiento, si hay algún fichero partido, si hay algún tipo de filtro en los datos que se
están utilizando, etc. Aparece en la parte inferior (barra gris) del programa. Para activarla o desactivarla
utilizar el menú Ver.
Los menús Analizar y Gráficos serán los más utilizados. A continuación se señalan las opciones de
cada uno de éstos.
El menú Analizar presenta las siguientes opciones:
• Informes: Cubos OLAP, resúmenes de casos en informes estadísticos.
• Estadísticos descriptivos: Estadísticos, frecuencias y tablas de contingencia
• Tablas personalizadas: Tablas de frecuencia y otros tipos de tablas.
• Comparar medias: ANOVA, prueba T.
• Modelo lineal general: Modelos univariantes y multivariantes.
• Modelos mixtos: Modelo lineal.
• Correlaciones: Correlaciones parciales, bivariantes y distancias.
• Regresión: Regresión lineal, no lineal, curvilínea, logística, ordinal, Probit, etc...
• Loglineal: Modelos logarítmicos lineales.
• Clasificar: Análisis discriminante y de conglomerados.
• Reducción de datos: Análisis de correspondencias, factorial y escalamiento óptimo.
• Escalas: Escalamiento multidimensional y análisis de fiabilidad.
• Pruebas no paramétricas: Chi-cuadrado, binomial, rachas y K-S
• Series temporales: Modelos ARIMA, autorregresión, suavizado y descomposición estacional.
• Supervivencia: Tablas de mortalidad, Kaplan-Meier y regresión de Cox
• Respuestas múltiples: Definir conjuntos, frecuencias y tablas de contingencia.
El menú Gráficos tiene las siguientes opciones:
• Galería: información sobre los distintos tipos de gráfico
• Interactivos: barras, puntos, líneas, bandas, líneas verticales, áreas, sectores, diagramas de caja,
barras de error, histograma y diagrama de dispersión.
• Barras
• Líneas
• Áreas
• Sectores
• Máximos y mínimos
• Pareto
• Control
• Diagramas de caja
• Barras de error
• Dispersión
• Histograma
• P-P
• Q-Q
• Secuencia
• Curva COR
• Serie Temporal: autocorrelaciones, correlaciones cruzadas y análisis espectral.
Una caso particular de gráficos son los Gráficos Interactivos que, a diferencia de los otros gráficos
de SPSS, permiten una mayor flexibilidad tanto a la hora de crearlos como de modificarlos.
Para crear un gráfico interactivo, hay que seleccionar la opción Interactivos en el menú Gráficos.
Dentro de éste, seleccionar alguna de las opciones. Arrastrar y colocar variables desde la lista de origen hasta
las listas de destino (ver Figura 3izda). El gráfico aparecerá en la ventana del Visor.
Para editar el gráfico hay que pulsar dos veces (ver Figura 3dcha). Los gráficos interactivos se
pueden modificar de muchas formas: se pueden añadir más variables, especificar etiquetas, crear gráficos en
3D, modificar el tipo de gráfico, editar colores y texturas, cambiar la orientación...
Figura 3. Ventanas de Gráficos Interactivos
Además, también se pueden crear gráficos a partir de tablas. Para ello, pulsar dos veces en cualquier punto de
la tabla, seleccionar las casillas que se desea que aparezcan en el gráfico, pulsar con el botón derecho del
ratón en cualquier punto del área seleccionada y seleccionar Crear gráfico, en el menú contextual emergente.
Procedimiento general de un análisis
El análisis de datos con SPSS consta de las siguientes etapas:
1) Introducir los datos en SPSS. Es posible abrir un archivo de datos de SPSS previamente guardado,
leer una hoja de cálculo o un archivo de datos de texto o introducir los datos directamente en el
Editor de datos.
2) Seleccionar un procedimiento. Seleccionar un procedimiento de los menús para calcular estadísticos
o para crear un gráfico.
3) Seleccionar las variables para el análisis. Las variables en el archivo de datos se muestran en un
cuadro de diálogo para el procedimiento. Podemos ver un cuadro de diálogo en la Figura 4.
Figura 4. Cuadro de diálogo de análisis estadístico
4) Ejecutar el procedimiento y ver los resultados. Los resultados se muestran en el Visor.
Introducción de datos
En la Vista de variables de la ventana del Editor de datos, introducir las variables (por filas). Cada
columna hace referencia a una característica de la variable:
• Nombre: nombre de la variable. Debe cumplir las siguientes características:
o Máximo de 8 caracteres.
o Debe comenzar por letra y no terminar en punto.
o No puede contener ni espacios ni caracteres especiales.
o No puede haber dos nombres repetidos.
o No se distinguen mayúsculas de minúsculas.
• Tipo: numérica, cadena, fecha...
• Anchura: número máximo de cifras o longitud máxima de la cadena
• Decimales: número de decimales que se mostrarán.
• Etiqueta: descripción más detallada de la variable.
• Valores: asignación de valores numéricos a categorías dentro de la variable.
• Perdidos: valores que el propio usuario define como tales.
• Columnas: número de columnas.
• Alineación: alineación de los datos en las columnas.
• Medida:
o Escala: los valores de los datos son numéricos en una escala de intervalo o de razón. Deben
ser numéricas.
o Ordinal: los valores representan categorías con un cierto orden intrínseco (ej: alto, medio,
bajo). Pueden ser valores de cadena (orden alfabético) o números que representan categorías
(de menor a mayor).
o Nominal: los valores de datos representan categorías sin un orden intrínseco (ej: hombre,
mujer). Pueden ser valores de cadena o números que representen categorías.
En la Vista de datos, se editan los casos por filas y las variables en columnas. Si alguna casilla está
vacía se considera como un dato missing, en el caso de datos numéricos o como una cadena de caracteres
vacía en el caso de variables categóricas.
Normalmente suele ser necesario trabajar con otros datos que no son los originales, pero que se
obtienen a partir de ellos. Los menús Transformar y Datos ofrecen distintas opciones para transformar o
seleccionar casos.
Análisis exploratorio de datos
El primer paso de un análisis de datos debe ser siempre un examen detallado de los mismos. Para
ello, utilizar los procedimientos:
Analizar / Estadísticos descriptivos / Descriptivos
Analizar / Estadísticos descriptivos / Frecuencias
Analizar / Estadísticos descriptivos / Explorar
Gráficos / ...
Gráficos / Interactivos
A continuación se señala la forma de obtener con SPSS algunos de los procedimientos y gráficos
más importantes.
Caso unidimensional
Diagramas de caja:
Analizar / Estadísticos descriptivos / Explorar
Gráficos / Diagramas de caja
Diagrama de tallos y hojas:
Analizar / Estadísticos descriptivos / Explorar
Histograma:
Analizar / Estadísticos descriptivos / Explorar
Gráficos / Histograma
En el editor de gráficos se puede modificar el número de intervalos considerados o su amplitud
utilizando la opción Diseño / Ejes y seleccionando la opción Intervalo considerar Intervalos / Personalizado /
Definir.
Gráfico de cuantiles: Ordenar los casos de menor a mayor y representar la serie.
Gráficos / Secuencia
Presentaciones para colecciones de datos unidimensionales:
Gráficos / Diagramas de caja y utilizar la opción Resúmenes para distintas variables.
Contrastes de bondad de ajuste:
Analizar / Pruebas no paramétricas / Chi-cuadrado
Analizar / Pruebas no paramétricas / K-S de 1 muestra
Contrastes de aleatoriedad:
Analizar / Pruebas no paramétricas / Rachas
Caso Bidimensional
Diagramas de puntos:
Gráficos / Dispersión y la opción Simples.
Para mostrar girasoles, entrar en el editor de gráficos y seleccionar la opción Diseño / Opciones.
Diagramas de caja agrupados por otra variable :
Gráficos / Diagramas de caja y seleccionar Simple y la opción Resúmenes para grupos de casos.
Caso Multidimensional
Matrices de dispersión:
Gráficos / Dispersión y la opción Matricial, Superpuesto, o 3-D para visualizar 3 variables.
Cubos OLAP:
Analizar / Informes / Cubos OLAP
Diagnosis y Tratamiento de Missing
En SPSS se distinguen dos tipos de valores perdidos o missing: los valores omitidos por el usuario,
y los valores perdidos por el sistema. Los omitidos por el usuario son valores que se etiquetan para que sean
tratados como perdidos, en la Vista de variables, en la columna Perdidos. Los valores perdidos por el
sistema corresponden a datos numéricos desconocidos (campos numéricos de la hoja de cálculo que están
vacíos, resultados de cálculos que no pueden realizarse).
SPSS permite utilizar las opciones Excluir casos según lista que trabaja solamente con los casos
completos y Excluir casos según pareja que trabaja con los casos que están completos para las variables que
se van a considerar en el análisis concreto.
Localización de Atípicos
SPSS identifica los valores más grandes y más pequeños de cada variable. De cara a calibrar la
importancia del outlier es aconsejable trabajar con datos estandarizados y utilizar los gráficos box-plot. Para
outliers de una sola variable:
Analizar / Estadísticos descriptivos / Descriptivos para guardar los valores tipificados
como variables.
Analizar / Estadísticos descriptivos / Explorar para obtener la lista de valores atípicos.
Gráficos / Diagramas de cajas para representar los casos correspondientes a cada variable, de forma
que los valores extremos pueden visualizarse directamente.
Para outliers bivariantes:
Gráficos / Dispersión para representar las nubes de puntos de las distribuciones bivariantes.
Descargar