5º CURSO

Anuncio
CIENCIAS B IOLÓGICAS
5º CURSO
MODELOS LINEALES EN BIOLOGÍA
Práctica nº 2
Análisis de datos con SPSS
Modelos Lineales en Biología
En esta práctica nos iniciaremos en el uso del programa estadístico SPSS para realizar análisis
descriptivo. Como ya se ha visto el modo de abrir ficheros de SPSS, utilizaremos ahora un fichero con
formato texto para ver cómo se abre con SPSS.
1.- Para importar el fichero de datos
Desde la Web http://windows.uco.es, seleccionaremos en el menú SECCIONES (en la parte izquierda de
la pantalla), el menú Prácticas, la última de cuyas opciones es Modelos Lineales, donde encontraremos,
tanto este texto como el fichero DATOS.TXT que será el que manejaremos hoy. Descargaremos ambos
ficheros.
2.- Primeros pasos con SPSS.
En primer lugar accedemos al programa SPSS desde la opción Programas del menú InicioProgramas_Estadística-SPSS 8.0 for windows
Del cuadro de diálogo de entrada pulsamos cancelar, pues no deseamos abrir un fichero previo creado con
SPSS y el botón cerrar del fichero de resultados que se muestra.
Barra de título
Barra de menús
Barra de
herramientas
Tabla de datos
Figura 1: Area de trabajo de SPSS
Aparecerá el área de trabajo de SPSS, cuyo aspecto es como el de la Figura 1. Seleccionamos en el menú
FILE la opción OPEN, elegimos el lugar donde hayamos guardado el fichero DATOS.TXT. Si no se ve
ese fichero, hay que desplegar la barra ARCHIVOS DE TIPO... y seleccionar ALL FILES o TAB
SEPARATED FILES. Entonces elegimos el fichero deseado.
Como el fichero es de texto, indicamos que se trata de fichero delimitado con tabuladores y que la
primera fila contiene el nombre de las columnas.
Práctica 2, página, 1
Modelos Lineales en Biología
Figura 2: Menú Open, seleccionando el tipo de fichero que se abrirá y cuadro de verificación para que
lea los nombres de las variables de la primera línea del fichero
Otra importante comprobación: Compruebe si todas las columnas son del tipo correspondiente, para ello
basta situarse sobre el nombre de la variable y pulsar sobre el botón derecho del ratón, seleccionar Define
Variable y ver si es de tipo Nominal, Ordinal o Escala. Si mostrase columnas numéricas como de tipo
Nominal, deberá modificar su tipo declarándolas de tipo Comma o Dot, según sea el separador que
elijamos par los miles (el separador de decimales será un punto par los del primer tipo y una coma para
los del segundo tipo)
3.- Estadística descriptiva básica: Si ya tenemos los datos en pantalla, podemos empezar a analizarlos a
través del menú STATISTICS-Sumarize-Descriptives, ver la figura 3
Figura 3: Desplegando el menú Statistics-Sumarize-Descriptives, y selección de la variables a estudiar
Se puede seleccionar el tipo de resultados que se mostrarán desde la opción Options del cuadro de diálogo
Descriptives
Práctica 2, página, 2
Modelos Lineales en Biología
Dependiendo de las opciones seleccionadas, se mostrarán diferentes resultados como:
Media (Mean)
Mediana (Median)
Si hay alguna duda, se puede pulsar el botón Help, y aparece la información en una ventana contigua.
Figura 4: Opciones del menú Descriptives y ventana de ayuda
Los resultados se muestran en una nueva ventana, llamada OUTPUT VIEWER, figura 5:
Figura 6: Ventana de resultados Output Viewer
Práctica 2, página, 3
Modelos Lineales en Biología
La ventana de resultados está dividida en dos partes, la de la izquierda es el esquema de lo que incluye
dicha ventana y la parte de la derecha es la que muestra los resultados del análisis realizado.
Para volver a la tabla de datos, basta con pulsar el botón Go to data
de la barra de herramientas.
4.- Análisis gráfico: desde el menú GRAPH podemos representar una o más columnas mediante el
correspondiente gráfico. Las distintas opciones se muestran en la figura 7.
Para crear un gráfico se selecciona uno de los posibles, si hay alguna duda sobre
qué es cada uno de ellos, pulse sobre la opción Gallery para ver un ejemplo de
cada uno de los distintos gráficos que se pueden crear.
5.- Creación de tablas de frecuencias. Se puede crear tablas de frecuencias desde
la opción Frequencies del menú Statistics-Sumarize.
Del cuadro de diálogo Frequencies (figura 8) se eligen las variables cuyas
tablas de frecuencias se desean construir. En los botones de este recuadro se
pueden seleccionar una lista de medidas de centralización y dispersión para las
variables (botón Statistics) y gráficos a realizar sobre cada variable (Charts) .
Figura 7: Galeria
de gráficos
Figura 8: Cuadro de diálogo Frequencies
El botón Format permite organizar los resultados según se desee.
Los resultados se muestran en la ventana de salida Output Viewer
6.- Análisis de subgrupos.
Una variable categórica se puede usar para estudiar las características de la submuestra
constituida por el conjunto de observaciones que tienen el mismo valor para cada categoría de dicha
variable. Para hacer esto se puede proceder de dos modos:
Uno de ellos consiste en filtrar los datos, seleccionando solamente aquellos que se desee, para
ello se entra en el menú Data-Select cases y se construye el criterio de selección (If), figura 9. Los casos
que cumplan la condición serán eliminados o “tachados”, en el primer caso no podrán volverse a usar
mientras que en el segundo caso sí, pero no son considerados en los cálculos. Una vez filtrados los casos
que se deseen, los cálculos estadísticos se realizan solamente sobre los casos “no tachados”.
Si lo que se desea es determinar las características de todos los grupos y ver el resultado conjuntamente,
se entra en el menú Statistics-Sumarize-Case sumaries y del cuadro de diálogo que se muestra en la figura
10 se selecciona la variable que se desea estudiar y la variable que definirá los grupos (Grouping
variable), también se puede elegir los parámetros que se calcularán (botón Statistics) y los títulos que se
pondrán a los resultados (Botón Options)
Práctica 2, página, 4
Modelos Lineales en Biología
Figura 9: Menú Data Select cases y definición de los criterios de selección
Figura 11: Definiendo los grupos para el resumen
Práctica 2, página, 5
Modelos Lineales en Biología
7.- Tablas de Contingencia.
Una tabla de contingencia es una tabla de frecuencias para valores de dos variables, aunque
pueden ser tabuladas pares de variables de cualquier tipo, son más utilizadas en el análisis de variables
categóricas (o categorizadas). Las frecuencias se disponen en una tabla de doble entrada con los valores
de una variable dispuestas en filas y las de la otra por columnas (categorías, para variables cualitativas).
Los totales de filas y los de columnas se denominan marginales de filas y columnas respectivamente.
Para crear una tabla de contingencia hay que entrar en el cuadro de diálogo del comando
Statistics Sumarize-Crosstabs de la figura 11 y seleccionar cuál será la variable fila y la variable columna.
Se puede crear una tabla de contingencia
por cada una de las categorías de una
tercera variable que es la que se elige como
Layer. El botón Statistics permite definir
los estadísticos que se calcularán. El botón
Cells permite configurar la información que
se mostrará para cada celda: frecuencias
observadas, esperadas, porcentajes, etc, y el
botón Format permite definir el orden en
que se mostrarán las filas y las columnas .
Figura 11 Definiendo las filas y columnas de una tabla
de contingencia
8.- Análisis exploratorio de datos.
Este análisis de datos consiste en una serie de técnicas que permiten “ver” la máxima información que
reside en todos ellos, para ello se
utilizan sobre todo métodos gráficos.
Para elegir las variables que se
explorarán se usa el cuadro de diálogo
de la figura 12. Si se desea dividir los
casos en grupos se elegirá una o más
variables Factor, de este modo se
pueden comparar los grupos definidos
por esta variable.
Los resultados incluyen diagramas de
tallo y hojas y box plots para la variable
Dependiente dividiendola en tantos
grupos como valores distintos tenga la
variable Factor.
Figura 12: Cuadro de diálogo de análisis esploratorio
Práctica 2, página, 6
Modelos Lineales en Biología
Cuestiones a contestar sobre esta práctica
Sobre el epígrafe 3: Estadística descriptiva básica:
Comente los resultados obtenidos de ejecutar el comando Statistics dependiendo del tipo de dato de la
columna correspondiente.
Defina los siguientes conceptos
Segundo cuartil
Cuasivarianza (Variance)
Error estándar de la media (Standard Error of Mean)
¿Cómo calcularía la varianza y desviación típica de los datos?
¿Por qué no aparecen estos resultados para la variable Color?.
Defina las opciones de configuración del comando Statistics-Sumarize-Descriptives:
Mean
Median
Sum
Standard Deviation
Range
Minimum
Maximum
S.E. mean
Kurtosis
Skewness
Del comando Frequencies, botón Statistics:
Quartiles
Percentiles
Del comando Frequencies, botón Charts:
Bar Chat
Pie Chat
Histogram
Del comando Explore, botón Statistics:
Outliers
Confidence Interval for mean
Del comando Explore, botón Plots
Boxplot
Steam and Leaf
Histogram
Del comando Crosstabs, botón Statistics:
Chi-square
Contingency coefficient
Phi and Cramer’s V
Correlation
Recuerde las definiciones de todos los conceptos anteriores y escriba su fórmula. (Puede solicitar
AYUDA al propio programa)
4.- Análisis gráfico:
Cree diagramas de barras e histogramas para las variables del ejemplo.
Recuerde los principales tipos de gráficos:
Boxplot o diagrama de caja y bigote
Diagrama de barras
Histograma
Polígono de frecuencias
Diagrama de media-desviación
Comente las principales diferencias entre unos y otros e indique los tipos de variables a los que les son
aplicables.
A la vista de los gráficos creados, comente la forma y simetría de las distribuciones de los datos
proporcionados.
Nota: El número de clases del histograma se calcula y se aplica de modo automático. Aunque para las
tablas de frecuencias, el número de clases se puede definir en el cuadro de diálogo correspondiente al
botón Statistics de la opción Frecuencies.
Práctica 2, página, 7
Modelos Lineales en Biología
5.- Creación de tablas de frecuencia
Construya tablas de frecuencias para las variables utilizadas en el ejemplo actual.
Transcriba las tablas de frecuencias absolutas y acumuladas para cada una de las variables
Utilice los resultados de la tabla de frecuencias de la variable nº de ramas para trazar el diagrama de
barras correspondiente a la frecuencia relativa y relativa acumulada. Salve los resultados en disco, con el
nombre GRAFICO1, en una carpeta cuyo nombre sea la fecha de hoy.
6.- Análisis de subgrupos.
Utilice la variable AFECTACIÓN para definir subgrupos. Transcriba y compare las medias, varianzas,
desviaciones típicas y coeficientes de variación de cada una de las variables numéricas consideradas entre
los distintos grupos definidos.
Utilice la opción de filtrado para calcular la media del diámetro de plantas con 3 o más ramas y
compárela con la obtenida para plantas con menos de 3 ramas.
Describa un procedimiento que permita calcular el diámetro medio correspondiente a plantas con tres
ramas o más separando por grupos según el grado de afectación. Transcriba los resultados que obtenga.
7.- Tablas de Contingencia.
Utilice los datos proporcionados para construir una tabla de contingencia de las variable Afectación y Nº
de ramas, tomando las categorías de la variable Afectación y definiendo seis categorías para la variable
Nº de ramas. Transcriba los resultados obtenidos
Localice las tablas que incluyen marginales por filas y por columnas y transcríbalas aquí.
Práctica 2, página, 8
Descargar