SPSS - Universidad de Salamanca

Anuncio
Introducción SPSS
José Luis Vicente Villardón
Dpto. de Estadística
Universidad de Salamanca
-1-
Introducción SPSS
INDICE
1.-
INTRODUCCIÓN ......................................................................................................................................... 3
2.-
ENTRADA Y EDICIÓN DE DATOS ......................................................................................................... 3
3.-
IMPORTAR Y EXPORTAR DATOS......................................................................................................... 8
4.-
ESTADÍSTICA BÁSICA .............................................................................................................................. 9
5.-
EXPLORACIÓN DE LOS DATOS........................................................................................................... 16
6.-
ANALISIS FACTORIAL............................................................................................................................ 25
7.-
ANALISIS FACTORIAL DE CORRESPONDENCIAS........................................................................ 33
8.-
ANÁLISIS DISCRIMINANTE .................................................................................................................. 39
-2-
Introducción SPSS
1.- INTRODUCCIÓN
Uno de los programas de Análisis Estadísticos más extendidos en la práctica es el SPSS
debido a que está disponible en diferentes entornos, para diferentes sistemas operativos. El
programa comprende, desde técnicas descriptiva básicas hasta técnicas avanzadas de forma
que cubre la mayor parte de las necesidades de los investigadores aplicados en campos tan
diversos como las Ciencias Sociales, la Biología, la Medicina etc...
Trataremos de resumir las características básicas de su funcionamiento mediante el número
mínimo posible de conceptos nuevos, teniendo en cuenta la perspectiva del usuario que
necesita solamente el manejo de opciones sencillas para el trabajo diario. Las cuestiones más
avanzadas relativas al manejo de los datos serán estudiadas solamente cuando sean necesarias
en un contexto concreto.
Las ventanas que aparecen en el desarrollo de la prácticas corresponden a la versión 6.1 de
Macintosh, aunque con ligeras modificaciones sirven para cualquiera de las versiones
pensadas para otros sistemas como por ejemplo Windows. Aunque el aspecto general de las
ventanas no sea exactamente el mismo, los contenidos son iguales para la misma versión del
programa.
Se supone que el usuario conoce los conceptos básicos para el manejo de los distintos
entornos en los que va a utilizar el programa SPSS.
2.- ENTRADA Y EDICIÓN DE DATOS
El primer paso que seguiremos es el de la introducción de los datos en un archivo para su
posterior manipulación y análisis.
La estructura habitual de los datos es en forma de tabla o matriz en la que cada una de las filas
se corresponde con un individuo (objeto, caso, etc...) y cada una de las columnas se
corresponde con una de las variables utilizadas en el estudio.
Al iniciar el programa obtenemos sobre el escritorio dos ventanas, denominadas
!untitled output 1 y untitled data, la primera se utilizará para los resultados y será
utilizada posteriormente mientras que la segunda será utilizada para introducir de los datos del
estudio actual. Si ya disponemos de una ventana de datos previa, es posible obtener una nueva
en la opción New del menú File. El aspecto de la ventana es similar al de una hoja de
cálculo convencional en la que cada casilla contiene un dato.
-3-
Introducción SPSS
Figura 2.¡Error!Argumento de modificador desconocido.:Ventana de datos.
Comenzaremos con la definición de las variables, sus tipos y formatos, ya que esto determina
cuales son los análisis que llevaremos acabo posteriormente. Esta operación puede llevarse a
cabo mediante un doble click sobre la palabra var que aparece en el encabezado de cada
columna. Si se ha dado previamente un nombre a la variable, un doble click sobre el mismo
permite la modificación de las características de la misma.
Tras el doble click aparecerá la ventana siguiente desde la que es posible introducir el nombre
y definir el tipo y formato correspondiente.
Figura 2.¡Error!Argumento de modificador desconocido. : Ventana de definición de las
características de cada variable.
El espacio destinado al nombre es un texto editable que puede ser modificado.
Seleccionaremos el tipo de variable pulsando sobre el botón Type.... La definición del tipo
se lleva a cabo en una ventana como la siguiente.
-4-
Introducción SPSS
Figura 2.¡Error!Argumento de modificador desconocido.: Ventana de definición del tipo y
formato de cada variable.
El tipo es importante en la selección posterior del análisis. Las variables son básicamente
cualitativas y cuantitativas, aunque son posibles subdivisiones adicionales, especialmente
debido a la forma en que se introducen sobre el soporte informático. Las variables categóricas
(o cualitativas) suelen ser introducidas como números (Numeric) enteros desde el 1 hasta el
número de categorías de la variables; esta práctica ahorra espacio en disco si el archivo de
datos es muy grande ya que se evita la utilización de nombres largos para las categorías.
También es posible introducirlas como cadenas de caracteres (String) tratando de usar el
mínimo número de caracteres posible para ahorrar espacio en disco.
Las variables cuantitativas serán normalmente de tipo Numérico. Sobre el programas, los
tipos Numeric, Comma, D o t y Scientific notation difieren solamente en la
notación. El Numérico utiliza como separador para los decimales la notación del sistema
(normalmente una coma en Castellano) y no tiene separadores para los miles; el tipo Comma
utiliza la coma como separador de los decimales y el punto como separador de los miles, el
tipo Dot utiliza el punto como separador de los decimales y la coma como separador de los
miles, el tipo Scientific notation utiliza la notación científica habitual.
El tipo fecha (Date) permite diversos formatos al ser seleccionado, el más usual suele ser ddmm-yy (dos números para el dia, dos para el mes y dos para el año).
Los tipos Dollar y Custom currency se utilizan para especificar unidades monetarias.
El tipo S t r i n g permite introducir cadenas de caracteres con información para la
identificación del individuo, o variables de tipo cualitativo.
Al lado del tipo de variable es posible seleccionar la anchura de la misma y el número de
decimales que se utilizarán por defecto para los tipos numéricos, el formato de la fecha, de la
moneda o la anchura para las cadenas de caracteres.
Una vez seleccionado el tipo y el formato de la misma haremos click sobre el botón
Continue para volver a la ventana de características de la figura 2. El botón Cancel
permite cancelar la operación y el botón Help permite obtener ayuda sobre las operaciones
que se están tratando de realizar.
-5-
Introducción SPSS
Cuando se trabaja con variables de tipo cualitativo o categórico, a cada una de las categorías
se le suele asignar una etiqueta que clarifica los resultados en el análisis. Por ejemplo
supongamos que queremos introducir la variable Sexo con dos valores 1 para Varones y 2
para Mujeres. Es posible realizar esta asignación mediante el botón Labels... de la ventana
de la figura 2.
La ventana siguiente corresponde a esta operación.
Valor de
la variable
Etiqueta de
identificación
asignada
Lista de valores
y etiquetas
Añadir
Cambiar
Eliminar
Figura 2.¡Error!Argumento de modificador desconocido. : Asignación de etiquetas a los
valores de la variable.
La asignación de etiquetas a los distintos valores de la variable mejora la presentación de los
resultados, aunque no es importante para el desarrollo de los análisis.
El programa supone, por defecto, que todos los datos de los que disponemos son válidos para
el análisis, es decir, que no existen datos perdidos o faltantes. Si esto no es así hemos de
decirle al ordenador que valor de la variable ha de entender como dato perdido. La definición
de los valores perdidos se realiza en el botón Missing Values ... de la figura 2. Se
obtiene la siguiente ventana para la definición de los datos perdidos.
-6-
Introducción SPSS
Figura 2.¡Error!Argumento de modificador desconocido.: Identificación de los valores
faltantes
El programa mantiene por defecto la opción "No Missing values" (No valores perdidos). Las
opciones alternativas son "Discrete Missing values" (valores perdidos discretos), con tres
casillas para distintos valores. El programa entenderá que los valores que se han especificado
son datos perdidos, suelen utilizarse números extraños como por ejemplo, -9999 o el 0 si no
es uno de los posibles valores de la variable. Los datos con los códigos asignados serán
eliminados de los análisis posteriores. La segunda opción "Range of missing values" (rango
de valores perdidos) considera como faltantes todos aquellos valores comprendidos entre los
extremos del intervalo que el usuario especifique en las dos casillas destinadas al efecto. La
tercera de las opciones es una combinación de las dos anteriores ya que permite especificar un
intervalo y un valor discreto. Utilizando el botón Continue volveremos a la ventana de
formato de la figura 2.
Si deseamos modificar el formato de la variable, utilizaremos el botón Column format
... de la figura 2, aparecerá la siguiente ventana.
Figura 2.¡Error!Argumento de modificador desconocido.: Modificación del formato de la
columna.
-7-
Introducción SPSS
Es posible modificar la anchura de la columna y la justificación de los datos. Cuando
hayamos definido todas las características de las distintas variables correctamente
utilizaremos el botón OK de la ventana de la figura 2. Cuando hayamos completado el mismo
proceso para todas las variables tendremos entonces definida la tabla de datos dispuesta para
introducir la información. Recuerde que para desplazarse por las celdas de la tabla puede
utilizar la tecla Return para avanzar al aso siguiente para la misma variable (hacia abajo) y la
tecla Tab para avanzar a la siguiente variable del caso actual (hacia la derecha).
3.- IMPORTAR Y EXPORTAR DATOS
El programa SPSS permite también la utilización de datos procedentes de otros programas
mediante lectura directa o indirecta de los mismos. Posee además la opción de lectura de
archivos ASCII con o sin formato en la forma que se hacia en las antiguas versiones del
programa.
Para el intercambio de datos entre programas, la forma más versátil suele ser a través de
archivos delimitados por tabuladores, si bien el SPSS puede leer directamente archivos
creados por otros programas. La figura siguiente muestra las posibilidades que ofrece la
opción Open (abrir) del menú File (Archivo).
-8-
Introducción SPSS
Figura 3.¡Error!Argumento de modificador desconocido.: Opciones del menú Abrir.
Los tipos que comienzan con SPSS no son archivos de datos, salvo el SPSS Data, el programa
puede leer directamente ficheros de texto, ficheros de dBASE y de las hojas de cálculo Excel
y Lotus, siempre que la estructura de la hoja sea similar a la estructura de la tabla de datos tal
y como se ha definido en el capítulo anterior.
Si el archivo seleccionado es de texto obtendremos una nueva ventana para especificar cual es
el contenido del archivo, comandos, resultados o datos separados por tabuladores.
Figura 3.¡Error!Argumento de modificador desconocido.: Opciones de lectura para un
archivo de texto
Es posible obtener archivos de texto con datos separados por tabuladores de infinidad de
programas por lo que, en principio, es posible importar datos indirectamente desde cualquier
otra aplicación. La primera fila del archivo suele contener los nombres de las variables
separados también por tabuladores. Si esto es así no olvidar seleccionar la opción "First row
contains variable names" en la ventana correspondiente.
4.- ESTADÍSTICA BÁSICA
Los métodos descriptivos básicos pueden encontrarse en el ítem Summarize del menú
Statistics, con varias alternativas.
La primera de las opciones (Frequencies) permite crear tablas de frecuencias de los
posibles valores de la variable, junto con medidas descriptivas de la tendencia central, de la
dispersión, asimetría y apuntamiento y algunos gráficos.
La figura siguiente muestra la forma en la que aparece el menú en la pantalla.
-9-
Introducción SPSS
Figura 4.¡Error!Argumento de modificador desconocido.: Menú para la Estadística
descriptiva.
La ventana que se obtiene al seleccionar la opción Frequencies es la siguiente.
Figura 4.¡Error!Argumento de modificador desconocido.: Ventana de selección de
variables en el comando Frequencies.
Para seleccionar una variable haga click sobre el nombre en la lista de la izquierda y utiliza el
botón de selección, cuando complete la selección, el comando tendrá efecto sobre todas las
-10-
Introducción SPSS
variables de la lista de la derecha. Si desea obtener la tabla de frecuencias ha de seleccionar el
cuadro correspondiente bajo la lista de variables.
Junto con la tabla de frecuencias es posible seleccionar distintos estadísticos y gráficos en la
parte inferior de la tabla. Seleccionando el botón Statistics obtendrá la siguiente ventana que
le permite escoger el tipo de selección que desea realizar.
Figura 4.¡Error!Argumento de modificador desconocido.: Estadística descriptiva del menú
frequencies.
Las mediadas de tendencia central que pueden ser seleccionadas son la media, mediana y
moda. La suma de los valores de la variables se selecciona también en este apartado aunque
no pueda ser considerada exactamente como una mediada de tendencia central.
En cuanto a las medidas de dispersión es posible seleccionar la desviación típica, la varianza y
el recorrido. En este apartado pueden seleccionarse también el mínimo, el máximo y el error
estándar de la media. El mínimo y el máximo no son medidas de dispersión, el error estándar
de la media mide la variabilidad de la media en el muestreo en contraste con la desviación
típica que mide la dispersión de los datos.
Es posible obtener también mediadas de la asimetría y el apuntamiento que permiten la
comparación de la distribución de nuestros datos con la normal. Recuérdese que a hipótesis de
normalidad es importante para la aplicación de muchas de las técnicas de inferencia que se
utilizan en la práctica.
En el apartado de percentiles pueden seleccionarse cuartiles, Puntos de corte que dividan la
muestra en un número de partes iguales determinadas por el usuario o bien percentiles que ha
de decidir el usuario. Por ejemplo si se desea calcular el décimo percentil, escribiremos 10 al
lado de la palabra Percentil(s) y usaremos el botón Add (añadir), al lado tendremos la
-11-
Introducción SPSS
lista de percentiles que calculará el programa. Los botones Change (cambiar) y Remove
(Eliminar) permiten editar la lista de percentiles.
Obsérvese que el programa no selecciona ninguna de las opciones por defecto. A la hora de
seleccionar los estadísticos que se desea calcular es necesario tener en cuenta el tipo de
variable con el que se está trabajando, por ejemplo, no tendría sentido seleccionar este
apartado si se trata de describir una variable cualitativa aunque se haya representado mediante
números en el archivo de datos.
Si seleccionamos el botón Charts (Diagramas) en la figura 10 obtendremos la venta
siguiente, que nos permite seleccionar el tipo de gráfico que utilizaremos en la descripción de
los datos.
Figura 4.¡Error!Argumento de modificador desconocido.: Gráficos en el comando
frequencies.
Si los datos son cualitativos o discretos seleccionaremos un diagrama de barras (Bar chart)
mientras que si los datos son continuos seleccionaremos un histograma. Sobre el histograma
es posible también superponer una curva normal con los parámetros obtenidos de la media y
de la varianza muestral, para tratar de establecer, de forma visual, la posible normalidad de los
datos.
-12-
Introducción SPSS
Figura 4.¡Error!Argumento de modificador desconocido.: Formato del resultado del
comando Frequencies.
Es posible ordenar las tablas de acuerdo con los valores de la variable o de las frecuencias en
orden ascendente o descendente. También es posible seleccionar distintos formatos para la
página de resultado: estándar, condensado, mejor ajuste y suprimir aquellas tablas que tengan
más de un número de categorías especificado por el usuario. El formato estándar coloca un
valor en cada línea, el condensado realiza tablas con arias columnas, el mejor ajuste utiliza el
formato condensado solo si la tabla ocupa más de una página.
El comando permite también la creación de un índice que especifica el número de página en el
que se encuentra cada tabla, y la aparición o no de las etiquetas de los distintos valores, para
ellos basta seleccionar los cuadros correspondientes en la ventana (Display index y
Display value labels)
Para una variable cualitativa la tabla de frecuencias resultante del análisis es la siguiente
GRUPO
Value Label
RD86
RD87
T86
T87
Valid cases
Value
1
2
3
4
45
Frequency Percent
14
31,1
20
44,4
6
13,3
5
11,1
------- ------Total
45
100,0
Missing cases
0
Valid
Percent
31,1
44,4
13,3
11,1
------100,0
Cum
Percent
31,1
75,6
88,9
100,0
Tabla 4.-.¡Error!Argumento de modificador desconocido.: Resultados del análisis de
frecuencias para una variable cualitativa.
La tabla presenta la frecuencia absoluta de cada valor de la variable, el porcentaje, y el
porcentaje acumulado que solo tendrá sentido cuando los valores de la variable estén
ordenados.
El diagrama de barras correspondiente aparece en la figura siguiente. La modificación de los
gráficos se estudiará en un capítulo separado.
-13-
Introducción SPSS
Diagrama de barras
30
20
20
14
10
6
5
0
RD86
RD87
T86
T87
GRUPO
Figura 4.¡Error!Argumento de modificador desconocido.: Diagrama de barras resultante
del comando Frequencies.
Si la variable analizada es cuantitativa, podemos calcular también diversos estadísticos tal y
como aparece en la tabla siguiente.
GRADO
Mean
Mode
Kurtosis
S E Skew
Maximum
12,460
11,900
-,195
,354
14,000
Std err
Std dev
S E Kurt
Range
Sum
Percentile
10,00
75,00
Value
11,360
12,900
Percentile
25,00
90,00
Valid cases
45
,117
,784
,695
3,200
560,700
Value
11,900
13,900
Missing cases
Median
Variance
Skewness
Minimum
12,400
,614
,213
10,800
Percentile
50,00
Value
12,400
0
Tabla 4.-.¡Error!Argumento de modificador desconocido.: Resultados de la opción
Statistics del comando Frequencies.
No se ha mostrado la tabla de frecuencias en este caso ya que el programa la ha calculado para
todos y cada uno de los valores de la variable sin agrupar en intervalos. El histograma
correspondiente, con la comparación con la curva normal, aparece en la figura siguiente.
-14-
Introducción SPSS
Histogram
14
12
10
8
6
4
Std. Dev = ,78
2
Mean = 12,46
N = 45,00
0
11,00
11,50
12,00
12,50
13,00
13,50
14,00
GRADO
Figura 4.¡Error!Argumento de modificador desconocido.: Histograma resultante del
comando Frequencies.
La segunda opción del ítem Summarize del menú Statistics, es Descriptives y
permite el cálculo de algunos estadísticos sencillos. Básicamente es muy similar la opción
Statistics del comando anterior. La ventana de definición aparece en la figura siguiente.
Figura 4.¡Error!Argumento de modificador desconocido.: Ventana de definición del
comando Descriptives.
La ventana permite la selección de las variables que se van a utilizar en el análisis, de la misma
forma que ya se hizo en el comando anterior. Los recuadros de la parte inferior tienen el mismo
significado que en la ventana de formato del comando anterior. Se añade la posibilidad de
guardar en el archivo de datos una nueva columna que contenga los valores estandarizados
(valores a los que se ha restado la media y se ha dividido por la desviación típica) de las
variables analizadas.
-15-
Introducción SPSS
El botón Opciones permite seleccionar los estadísticos a calcular y el formato de los
resultados.
Figura 4.¡Error!Argumento de modificador desconocido.: Opciones del comando
Descriptives.
Los resultados típicos aparecen en la tabla siguiente.
Number of valid observations (listwise) =
Variable
Mean
Std Dev
Kurtosis
Skewness
Range
Maximum
45,00
GRADO
12,460
,784
-,195
,213
3,200
14,00
Valid observations -
S.E. Mean
Variance
S.E. Kurt
S.E. Skew
Minimum
Sum
45
,117
,614
,695
,354
10,80
560,700
Missing observations -
0
Tabla 4.-.¡Error!Argumento de modificador desconocido.: Resultados del comando
Descriptives.
5.- EXPLORACIÓN DE LOS DATOS
La tercera opción del ítem Summarize del menú Statistics es el comando Explore, que permite
explorar las diferencias entre varios grupos para una o varias variables cuantitativas. Este
apartado permite, mediante métodos descriptivos avanzados y algunos contrastes, por
-16-
Introducción SPSS
ejemplo, de normalidad, explorar las posibles diferencias entre dos grupos, la posible
existencia de outliers o la normalidad aproximada de los datos.
La ventana de definición de las opciones del comando aparece en la figura 18.
Figura 5.¡Error!Argumento de modificador desconocido.: Ventana de definición de las
opciones del comando Explore.
En la ventana etiquetada como Dependent List seleccionaremos las variables cuantitativas que
queremos analizar, mientras que en la ventana Factor List seleccionaremos las variables
cualitativas que definen los grupos en los que queremos separar los análisis. En el ejemplo
que aparece en la pantalla se trata de analizar el grado alcohólico de vinos en dos
denominaciones de origen, Ribera de Duero y Toro. Es posible etiquetar los casos
(individuos) usando los valores contenidos en alguna de las columnas de archivo.
La exploración de los datos se lleva a cabo mediante la utilización de estadísticos y de
gráficos, o de ambos, tal y como puede seleccionarse en la esquina inferior izquierda de la
ventana. Los botones Statistics, Plots y Options permiten la selección de los análisis
particulatres que se quieren utilizar.
La opción Statistics abre la siguiente ventana.
-17-
Introducción SPSS
Figura 5.¡Error!Argumento de modificador desconocido.: Opción Statistics del comando
EXPLORE.
Seleccionando el apartado Descriptives se obtienen estadísticos descriptivos en los distintos
grupos tales como media, mediana, moda, desviación típica, varianza, mínimo, máximo, etc ..
En el apartado M-Estimators se obtienen estimadores robustos de la tendencia cental. Las
distintas opciones dependen de la ponderación que se da acada observación en el cálculo de la
medida. En general se asocian ponderaciones más pequeñas a los valores extremos de la
distribución.
En el apartado outliers se obtienen los 10 valores más extremos, 5 en la parte superior y 5 en
la inferior. El propósito es encontrar valores anormalmente grandes o pequeños que pueden
afectar el funcionamiento de análisis posteriores.
La opción percentiles muestra diversos percentiles, que se utilizan generalmente en la
construcción de los Box-Plot.
La opción Grouped Frequuency tables calcula tablas de frecuencias para los dos grupos.
Una vez seleccionadas las opciones deseadas haremos click sobre el botón Continue.
La opción Plots muestra la siguiente ventana.
-18-
Introducción SPSS
Figura 5.¡Error!Argumento de modificador desconocido.: Opción Plots del comando
EXPLORE.
Varios son los tipos de gráficos que pueden se seleccionados:
- Box-Plots: Mediante estetipo de gráficos es posible estudiar la distribución de la variable a
través de los percentiles. Es posible detectar desviaciones de la simetría, posibles otliers y es
posible comparar la distribución de varios grupos. En general, el programa coloca los BoxPlots correspondientes a los distintos gupos sobre el mismo gráfico para permitir las
comparaciones, es posible tambien colocar varias variables sobre el mismo gráfico si las
escalas son comparables usando la opción Dependents togetther.
- Histogramas : Seleccionados en la opción correspondiente, permiten comparar la
distribución en varios grupos y detectar posibles desviaciones de la normalidad. Es posible
situar la curva normal sobre el gráfico como se hizo en opciones anteriores.
- Steam-and-lef: Tiene la misma información que el hitograma pero con la particularidad de
que los datos originales con los que se construyó son ahora recuperables.
- Diagramas de normalidad: Seleccionando la opción Normality plots with tests.
En uno de los ejes se representa la distribución empírica de los datos y en el otro los valores
esperados en el caso de que la distibución fuera normal. Si los datos proceden de una
distribucón normal los puntos deberían estar aproximadamente sobre la diagonal principal. El
gráfico se complementa con el test de Kolmogorov-Smirnov para nrmalidad o el test de
Shapiro-Wilks para muestras pequeñas. La opción proprciona, además, gráficos de
normalidad sin tendencia; la distribución de los datos es aproximadamente normal si los
gráficos no muestran una tendencia definida clara.
- Diagramas de Tendencia central-Dispersión: Se representa una medida de tendencia
central frente a una medida de dispersión en cada uno de los grupos para ver si existe relación
entre ellas y puede violarse la hiptesis de igualdad de varianzas necesaria para la comparación
de los grupos. El gráfico se complementa con el test de Levene para igualdad de varianzas. Es
-19-
Introducción SPSS
posible seleccionar también diversas transformaciones que pueden homogeneizar las
varianzas. La selección de este tipo de gráficos se realiza en el recuaro de la ventana
etiquetada como Spread vs. Level with Levene test.
Por último, es posible seleccionar otras opciones relativas a los valores perdidos y que tienen
que ver con la forma en que se eliminan del análisis para distintas variables. La selección se
hace en la ventana siguiente como resultado del uso del botón Opcions en la ventana del
comando Explore.
Figura 5.¡Error!Argumento de modificador desconocido.: Opciones del comando
EXPLORE.
La primera de las opciones "Exclude cases listwise" excluye del análisis todos
aquellos casos que tengan un dato perdido en cualquiera de las variable de la lista de
dependientes. La opción "Exclude cases pairwise" excluye solamente los casos que
tengan datos perdidos en la variable que se analiza en cada momento. La opción "Report
values" informa de los casos que tienen valores perdidos.
Cuando se ha completado el comando, los resultados aparecen en las tablas y gráficos
siguiente. Los resultados corresponden al análisis del grado alcohólico para vinos jóvenes de
dos denominaciones de origen Ribera de Duero y Toro. Presentamos primero los resultados
de la opción Statistics en las dos denominaciones para pasar despues a los Box-Plots y
gráficos de normalidad. En este caso no tienen demasiado sentido los gráficos de igualdad de
varianzas ya que se dispone solamente de dos pntos por los que siempre pasa una recta.
-20-
Introducción SPSS
GRADO
By DENOMINA 1
RIBERA
Valid cases:
34,0
Missing cases:
Mean
12,1706 Std Err
,0981 Min
Median 12,2500 Variance ,3270 Max
5% Trim 12,1915 Std Dev
,5718 Range
95% CI for Mean (11,9711; 12,3701)
IQR
,0
Percent missing: ,0
10,8000 Skewness -,6053
13,0000 S E Skew ,4031
2,2000 Kurtosis -,4383
,7750 S E Kurt ,7879
M-Estimators
-----------Huber ( 1,339)
12,2515
Tukey ( 4,685)
Hampel ( 1,700; 3,400; 8,500) 12,2391
Andrew ( 1,340 * pi )
Percentiles
Haverage
Tukey's Hinges
Percentiles
5
Highest
13,00
13,00
12,80
12,80
12,80
Percentiles
----------10,0000
25,0000
11,2500
11,8500
11,9000
5,0000
11,1000
50,0000
12,2500
12,2500
12,2673
12,2685
75,0000
12,6250
12,6000
95,0000
13,0000
Case #
Case:
Case:
Case:
Case:
Case:
Extreme Values
------- -----5
9
14
1
13
2
Lowest
10,80
11,20
11,20
11,30
11,40
Case #
Case:
Case:
Case:
Case:
Case:
Frequency Table
--------- ----Bin
Center
Freq
10,800
11,200
11,300
11,400
11,500
11,600
11,700
11,900
12,000
12,100
12,200
12,300
12,400
12,500
12,600
12,700
12,800
13,000
Shapiro-Wilks
K-S (Lilliefors)
90,0000
12,8000
1,00
2,00
1,00
1,00
1,00
1,00
1,00
4,00
1,00
1,00
3,00
1,00
3,00
2,00
3,00
3,00
3,00
2,00
Statistic
,9433
,0767
Pct
Valid
Pct
2,94
5,88
2,94
2,94
2,94
2,94
2,94
11,76
2,94
2,94
8,82
2,94
8,82
5,88
8,82
8,82
8,82
5,88
2,94
5,88
2,94
2,94
2,94
2,94
2,94
11,76
2,94
2,94
8,82
2,94
8,82
5,88
8,82
8,82
8,82
5,88
df
34
34
-21-
Cum
Pct
2,94
8,82
11,76
14,71
17,65
20,59
23,53
35,29
38,24
41,18
50,00
52,94
61,76
67,65
76,47
85,29
94,12
100,00
Significance
,1042
> ,2000
17
18
34
16
24
Introducción SPSS
Tabla 5.-.¡Error!Argumento de modificador desconocido.: Resultados del comando
Explore para la variable grado alcohólico y la denominación de origen de Ribera de Duero.
GRADO
DENOMINA
By
2
Valid cases:
TORO
11,0
Missing cases:
Mean
13,3545 Std Err
,2042
Median
13,4000 Variance
,4587
5% Trim 13,3884 Std Dev
,6773
95% CI for Mean (12,8995; 13,8096)
,0
Min
Max
Range
IQR
Percent missing:
12,1000
14,0000
1,9000
,9000
Skewness
S E Skew
Kurtosis
S E Kurt
-,8554
,6607
-,3825
1,2794
M-Estimators
-----------Huber ( 1,339)
13,4615
Tukey ( 4,685)
Hampel (1,700; 3,400; 8,500) 13,4212
Andrew ( 1,340 * pi )
Percentiles
Haverage
Tukey's Hinges
Percentiles
5
Percentiles
----------10,0000
25,0000
12,1400
13,0000
13,1000
5,0000
12,1000
50,0000
13,4000
13,4000
,0
13,4415
13,4409
75,0000
13,9000
13,9000
90,0000
14,0000
95,0000
,
Highest
14,00
14,00
13,90
13,90
13,90
Extreme Values
------- -----5
Case #
Case:
Case:
Case:
Case:
Case:
36
41
44
42
40
Lowest
Case #
12,10
12,30
13,00
13,20
13,20
Case:
Case:
Case:
Case:
Case:
Frequency Table
--------- ----Bin
Center
12,100
12,300
13,000
13,200
13,400
13,900
14,000
Shapiro-Wilks
K-S (Lilliefors)
Freq
1,00
1,00
1,00
2,00
1,00
3,00
2,00
Statistic
,8579
,1703
Pct
9,09
9,09
9,09
18,18
9,09
27,27
18,18
df
11
11
-22-
Valid
Pct
9,09
9,09
9,09
18,18
9,09
27,27
18,18
Cum
Pct
9,09
18,18
27,27
45,45
54,55
81,82
100,00
Significance
,0652
> ,2000
43
45
35
37
39
Introducción SPSS
Tabla 5.-.¡Error!Argumento de modificador desconocido.: Resultados del comando
Explore para la variable grado alcohólico y la denominación de origen de Toro.
Test of homogeneity of variance
Levene Statistic
,3825
df1
1
df2
43
Significance
,5395
Tabla 5.-.¡Error!Argumento de modificador desconocido.: Resultados del test de Levene
para homogeneidad de varianzas en elcomando Explore.
La figura siguiente contiene el Box-Plot para la comparación de las dos denominaciones.
15
14
13
12
11
17
10
N=
34
11
RIBERA
TORO
DENOMINACION
Figura 5.¡Error!Argumento de modificador desconocido.: Box-Plots para la comparación
de las dos denominaciones.
Inmediatamente se observa que la graduación alcohólica de los vinos de Toro es más alta que
la de los vinos de Ribera. La impresión se corrobora a partir de la observación de las medidas
de tendencia central, por ejemplo la media aritmética que resulta ser de 12,17 para Ribera y
13,35 para Toro. Además la diferencia de medias puede considerarse estadísticamente
significativa ya que los correspondientes intervalos de confianza (95% CI for the Men, en la
tabla de resultados) no se cuzan. Una diferencia similar puede apreciarse en mediadas como a
mediana, la moda o las medidas de tendencia central robustas.
De los percentiles y de los valores extremos para los dos grupos es posible observar que la
separación entre los dos grupos es bastante clara, por ejemplo, el grado más alto de un vino de
la denominación de Ribera es 13 grados, mientras que solamente 3 de los 11 de Toro están
por debajo de ese valor.
-23-
Introducción SPSS
Con respecto a la posible normalidad de los datos, se observa en el Box-Plot como para la
denominación de origen de Ribera los datos son aproximadamente simétricos, lo cual se pone
también de manifiesto en el hecho de que la media, la mediana y los demás estimadores
robustos toman valores muy similares. Se detecta un valor extremo en la parte baja que
corresponde a la observación 17, y un grado de 10,8 inusualmente bajo en comparación con el
resto. Ambos tests de normalidad resultan no significativos, por lo tanto suponemos
normalidad.
En cuanto a la denominación de Toro, la distribución es bastante más asimétrica, aunque no lo
suficiente para rechazar la normalidad, como se pone de manifiesto en la significación de los
tests de normalidad correspondientes. Los gráficos de normalidad aparecen en la figura 23.
Con respecto a la homogeneidad de varianzas se acepta la hipótesis de igualdad (p = 0.5395)
por lo que las poblaciones pueden considerarse homoscedásticas.
La normalidad e igualdad de varianzas es importante para decidir el test que se utilizará para
comparar las medias de los dos grupos. La hipótesis es necesaria tambien si se trata de
realizar un análisis Discriminante utilizando el grado alcohólico como predictor.
Normal Q-Q Plot of GRADO
For DENOMINA: RIBERA
2
1
0
-1
-2
10,5
11,0
11,5
12,0
12,5
13,0
13,5
Normal Q-Q Plot of GRADO
Observed Value
For DENOMINA: TORO
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
12,0
12,5
13,0
13,5
Observed Value
14,0
14,5
Figura 5.¡Error!Argumento de modificador desconocido.: Gráficos de normalidad.
-24-
Introducción SPSS
6.- ANALISIS FACTORIAL
Mediante el análisis factorial tratamos de explicar las interrelaciones entre un cierto número
de variables observadas mediante un número reducido de variables hipotéticas denominadas
factores. Dos son los usos fundamentales, Resumen y reducción de los datos, en el primero se
explica el comportamiento de las variables mediante un número reducido factores y en el
segundo se reduce la dimensión subyacente en la que se describen los individuos.
En realidad, el Análisis Factorial es un nombre genérico para un conjunto de técnicas que
incluye diversos métodos y procedimientos de estimación.
En SPSS es posible obtener un análisis Factorial mediante el comando FACTOR que puede
obtenerse en el ítem Data Reduction del menú Statistics.
Obtenemos la siguiente ventana.
Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición del
comando FACTOR.
Como es habitual para todos los comandos, la ventana contiene el espacio dedicado a la
selección de variables, junto con las distintas opciones para la construcción del análisis en los
botones inferiores. Revisemos brevemente cada uno de ellos
-25-
Introducción SPSS
Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la
opción Descriptives del comando FACTOR.
- Descriptive: Permite seleccionar si se desea listar estadísticos descriptivos (media y
desviación típica) de cada variable y la solución inicial. En el recuadro inferior es posible
seleccionar distintas opciones relacionadas con la matriz de correlaciones entre las variables
observadas. Salvo en opciones avanzadas se seleccionarán los coeficientes, los niveles de
significación y los tests de esfericidad para comprobar si tiene sentido la realización de un
análisis Factorial. La selección realizada produciría los siguientes resultados:
-26-
Introducción SPSS
- - - - - - - -
-
F A C T O R
Analysis number 1
GRADO
AVOL
ATOT
ACFI
PH
FOLIN
SOMERS
Std Dev
12,46000
,56667
5,16000
4,45333
3,58222
1979,13333
34,01111
,78376
,27220
,93842
,77360
,15417
521,38625
9,26872
=
1,00000
,25728
-,03467
-,15084
-,06621
,50862
,60901
Label
45
Correlation Matrix:
GRADO
GRADO
AVOL
ATOT
ACFI
PH
FOLIN
SOMERS
- - - - - - - - -
Listwise deletion of cases with missing values
Mean
Number of Cases
A N A L Y S I S
AVOL
ATOT
ACFI
PH
FOLIN
SOMERS
1,00000
,59302
,26929
,14533
,37609
,47210
1,00000
,93375
-,28936
,16037
,18688
1,00000
-,41682
,00796
,00324
1,00000
-,12098
-,01020
1,00000
,89328
1,00000
Bartlett Test of Sphericity = 376,30499, Significance =
,00000
1-tailed Significance of Correlation Matrix:
' . ' is printed for diagonal elements.
GRADO
GRADO
AVOL
ATOT
ACFI
PH
FOLIN
SOMERS
,
,04399
,41056
,16132
,33283
,00018
,00000
AVOL
,
,00001
,03682
,17042
,00545
,00053
ATOT
,
,00000
,02693
,14632
,10950
ACFI
,
,00220
,47930
,49156
PH
,
,21428
,47350
FOLIN
SOMERS
,
,00000
,
Tabla 6.-.¡Error!Argumento de modificador desconocido.: Resultados de la opción
Descriptives del comando Factor.
Obsérvese que Se encuentran algunas correlaciones altas entre las distintas variables, por
ejemplo ACFI (Acidez fija) y ATOT (Acidez total). El test de Bartlett para esfericidad es
altamente significativo por lo que existen direcciones principales y es posible realizar un
análisis Factorial.
-27-
Introducción SPSS
- Extracción: Permite definir el método que se utilizará en la extracción de los factores.
Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la
opción Extraction del comando FACTOR.
Varios son los métodos de extracción de los factores, de los cuales el más habitual es el de las
componentes principales. No hay que confundir el método de las Componentes Principales
como método de extracción de factores en un análisis Factorial y el mismo como método de
reducción de la dimensión para interpretar similaridades entre individuos en análisis de datos.
En cuanto al número de componentes a retener dos son los posibles métodos, seleccionar los
factores cuyo valor propio asociado (eigenvalue) sea mayor que un valor especificado por el
usuario y que generalmente es 1, el segundo es seleccionar un número de factores
determinados por el usuario.
En los resultados puede especificarse o no la solución sin rotar (que en algunos casos será la
solución final) y el denominado Scree Plot que representa las magnitudes de los valores
propios en orden descendente y es útil en la selección del número de factores.
La solución se realiza mediante un proceso iterativo en el que es posible seleccionar el
número de iteraciones.
- Rotación: El propósito de las rotaciones consiste en buscar factores interpretables rotando
los de la solución ortogonal original. Básicamente se trata de conseguir que los factores
finales tengan correlaciones muy altas con alguna de las variables estudiadas y correlaciones
muy bajas con otras.
-28-
Introducción SPSS
Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la
opción Rotation del comando FACTOR.
Si queremos la solución ortogonal original, seleccionaremos None, Los métodos Varimax,
Equamax y Quartimax producen rotaciones ortogonales y por tanto obtienen factores
independientes, mientras que el método Oblimin produce factores oblicuos y probablemente
relacionados.
Es posible poner en la pantalla de resultados la solución rotada y el gráfico con los factores de
carga que nos ayudará a interpretar los factores.
-Scores: Permite calcular las puntuaciones de los individuos sobre los factores que después
servirán para la reducción de los datos, es decir para poder estudiar as similaridades entre los
individuos mediante los factores obtenidos.
Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la
opción Factor Scores del comando FACTOR.
La ventana permite la selección del método de cálculo de las puntuaciones factoriales (para
las Componentes principales usaremos fundamentalmente regresión), permite además guardar
las puntuaciones sobre los nuevos factores en columnas adicionales del archivo de datos
(Save as variables), y especificar en la salida cuales son los coeficientes que se han
-29-
Introducción SPSS
utilizado en el cálculo de las puntuaciones (display factor score coefficient
matrix).
- Opciones: Permite seleccionar la forma n que setratan los datos perdidos, y el formato de
parte de los resultados.
Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la
opción Options del comando FACTOR.
Los resultados con las opciones más simples (Comp. Principales) y sin rotación son los
siguientes junto con los que ya se colocaron el la tabla 6. Si utilizan rotaciones la
interpretación sería similar.
-30-
Introducción SPSS
- - - - - - - - - Extraction
PC
F A C T O R
1 for analysis
extracted
A N A L Y S I S
- - - - - - - - - -
1, Principal Components Analysis (PC)
3 factors.
Factor Matrix:
GRADO
AVOL
ATOT
ACFI
PH
FOLIN
SOMERS
Factor 1
,56036
,71870
,64645
,44937
-,22633
,78908
,83160
Final Statistics:
Variable
Communality
GRADO
AVOL
ATOT
ACFI
PH
FOLIN
SOMERS
,64944
,83678
,99073
,93213
,90522
,83078
,90511
Factor 2
,53329
-,08373
-,73826
-,85308
,41403
,42230
,45986
*
*
*
*
*
*
*
*
*
Factor
Factor 3
-,22591
,55968
,16675
-,04956
,82618
-,17262
-,04567
Eigenvalue
1
2
3
VARIMAX
rotation
1 for extraction
VARIMAX converged in 5 iterations.
Rotated Factor Matrix:
Factor 1
GRADO
,79373
AVOL
,42880
ATOT
,06761
ACFI
-,11735
PH
-,09261
FOLIN
,90434
SOMERS
,93723
2,81578
2,12541
1,10900
Pct of Var
40,2
30,4
15,8
1 in analysis
Factor 2
-,12850
,63764
,98972
,90321
-,23583
,10616
,13588
Factor 3
-,05394
,49631
-,08128
-,32027
,91707
-,04098
,09082
Factor Score Coefficient Matrix:
Factor 1
Factor 2
GRADO
,19901
,25091
AVOL
,25524
-,03940
ATOT
,22958
-,34735
ACFI
,15959
-,40137
PH
-,08038
,19480
FOLIN
,28023
,19869
SOMERS
,29533
,21636
Factor 3
-,20371
,50468
,15036
-,04469
,74498
-,15565
-,04118
Cum Pct
40,2
70,6
86,4
1 - Kaiser Normalization.
Tabla 6.-.¡Error!Argumento de modificador desconocido.: Resultados del Análisis
Factorial.
Los tres primeros factores explican el 86,4% de la variabilidad total. La interpretación
fundamental se realiza através de la matriz factorial (Factor Matrix) que contiene las
-31-
Introducción SPSS
correlaciones entre los factores y las variables originales. Por ejemplo, en la solución sin rotar
el primer factor está correlacionado con todas las variables salvo con el pH, por lo que no
tiene una interpretación clara, en la solución rotada el primer factor está correlacionado con el
grdo y los índices de Folin y Sommers relacionados con el color, el segundo con las variables
de acidez y el tercero con el pH. Obsérvese como los ejes rotados tienen una interpretación
mucho más clara en términos de las variables originales.
La representación de los dos primeros factores de la solución rotada se muestra en la figura
siguiente y permite comprobar que las dos denominaciones de origen estudiadas están
claramente diferenciadas.
Figura 6.¡Error!Argumento de modificador desconocido.: Representación de los
individuos en el primer plano factorial.
De esta forma, es posible realizar un análisis de Componentes Principales como método de
representación de datos a partir de la información que proporciona un análisis factorial, basta
con seleccionar el método de las componentes principales sin rotaciones como método de
extracción de los factores, para representar las observaciones basta con guardar las
puntuaciones de los individuos y representarlas mediante un diagrama de dispersión. En la
figura 30 se han representado los dos primeros factores y se han diferenciado los puntos de
acuerdo con la denominación de origen a la que pertenecen. Se ha obtenido una clara
diferenciación de ambas de nominaciones aunque es necesario hacer notar que las direcciones
de máxima variabilidad, que son las obtenidas en este tipo de análisis, no tienen porque
coincidir con las direcciones de máxima separación entre los grupos, es decir, es posible que
en muchas situaciones aplicadas la diferenciación entre varios grupos no estén necesariamente
en el primer plano principal.
El problema fundamental de la utilización de un procedimiento pensado para el análisis
Factorial en el cálculo de un Análisis de Componentes Principales (ACP), es que solo puede
ser calculado a partir de la matriz de correlaciones, es decir, a partir d la matriz original de
datos estandarizada, mientras que el ACP como técnica de representación de datos puede ser
calculado a partir de la matriz de covarianzas (datos centrados por columnas) o a aprtir de la
matriz de productos cruzados (matriz de datos brutos).
-32-
Introducción SPSS
Obtención de un Análisis Biplot
Mediante el comando FACTOR es posible obtener tambien un análisis Biplot para datos
estandarizados. Siutilizamos las puntuaciones factoriales de los individuos representadas junto
con la matriz de coeficientes factoriales (Factor Score Coefficient Matrix) e el mismo gráfico,
obtendremos lo que se denomina un JK-biplot ó RMP-Biplot (Biplot que conserva la métrica
de las filas). Es posble que la escala de ambos conjuntos sea muy diferente y no sea posible
observar los datos correctamente, sin embargo, si multiplicamos uno de los conjuntos de
coordenadas por un número y dividimos el otro por el mismo número, el producto escalar no
se modifica pero es posible visualizar mejor las coordenadas. El factor de escala se puede
calcular a partir del cociente entre la suma de cuadrados de ambos conjuntos (para filas y
columnas), o a patir del cociente de los valores máximos en ambos conjuntos.
Si estandarizamos las puntuaciones factoriales de los individuos y las representamos con los
factores de carga, obtenemos un GH-Biplot o CMP-Biplot (Biplot que conserva la métrica de
las columnas).
Combinando las puntuacions factoriales con los factores de carga obtendremos un HJ-Biplot.
El problema fundamental es el del cálculo de las contribuciones, por ejemplo, si elevamos al
cuadrado los factores de carga obtendremos las contribuciones relativas del factor al elemento
para cada variable; las contribuciones para los individuos son más difíciles de calcular por lo
que no abosdaremos aquí el problema.
7.- ANALISIS FACTORIAL DE CORRESPONDENCIAS
El programa SPSS permite realizar un Análisis de Correspondencias mediante el comando
ANACOR. La ventana de definición de las opciones del comando aparece en la ventana
siguiente.
Figura 7.¡Error!Argumento de modificador desconocido.: Ventana de definición de las
opciones del comando ANACOR.
-33-
Introducción SPSS
El comando se ha preparado inicialmente para tablas de dos vías en las que se dispone de
todos los individuos con sus correspondeintes valores en las dos variables. La ventana nos
pide que seleccionemos las dos variables para construir la tabla de contingencia sobre la que
se construirá en Análisis de correspondencias. Una vez seleccionados los nombres tendremos
que definir el rango de valores que pueden tomar. La ventana de definición de rango es la
usual.
Figura 7.¡Error!Argumento de modificador desconocido.: Definición del rango de las
variables en el comando ANACOR.
Una vez definido el rango seleccionaremos las opciones correspondientes en el botón
Opciones. La ventana resultante es la siguiente.
Figura 7.¡Error!Argumento de modificador desconocido.: Opciones del comando
ANACOR.
-34-
Introducción SPSS
En la ventana de opciones es posible definir el tipo de gráfico que se seleccionará para la
interpretación final. El gráfico por defecto es el canónico (Canonical), que permite
interpretar las relaciones entre filas y columnas de la matriz de datos. La opción Principal,
representa filas y columnas por separado en coordenadas principales de forma que las
interdistancias euclídeas aproximan las distancias ji-cuadrado, el programa no permite la
representación conjunta de filas y columnas en esta opción. La opción Row principal
representa las filas en coordenadas principales y las columnas en coordenadas estándar, sería
un JK-Biplot de la matriz de correspondencias. La opción Column principal representa
las columnas en coordenadas principales y las filas en coordenadas estándar, sería un GHBiplot de la matriz de correspondencias.
En cuanto a los resultados el programa permite obtener la tabla de frecuencias, Las
coordenadas para filas y columnas (Scores), las contribuciones, los perfiles fila y columna. La
opción permutaciones parmuta las filas y las columnas de la tabla de datos de acuerdo con el
orden de las coordenadas.
Es posible tambien obtener medidas de la variabilidad de las coordenadas y de los valores
singulares. Estas medidas no suelen utilizarse cuando se trata de análisis descriptivos.
En cuanto a los dibujos es posible obtener la representación de filas y columnas por separado
o la representación conjunta. No es posiblle obtener una representación conjunta en la opción
principal.
Los resultados típicos del análisis de correspondencias se muestran en las tablas siguientes. El
ejemplo correponde a una tabla de datos en la que se consideran alumnos de COU que se
clasifican de acuerdo con su preferencia por distintas carreras (21 en columnas) y varias
variables variables (19) en filas.
Inicialmente se muestan los valores singulares para todos los ejes y los porcentajes de inercia
para cada eje y acumulados.
-35-
Introducción SPSS
A N A C O R - VERSION 0.4
BY
DEPARTMENT OF DATA THEORY
UNIVERSITY OF LEIDEN, THE NETHERLANDS
Dimension
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Total
Singular
Value
,28326
,23096
,16952
,14244
,11666
,10947
,10328
,08098
,07312
,05902
,04668
,02988
,02766
,02215
,02014
,01328
,00322
Inertia
,08023
,05334
,02874
,02029
,01361
,01198
,01067
,00656
,00535
,00348
,00218
,00089
,00077
,00049
,00041
,00018
,00001
--------,23917
Proportion
Explained
,335
,223
,120
,085
,057
,050
,045
,027
,022
,015
,009
,004
,003
,002
,002
,001
,000
---------1,000
Cu::mulative
Proportion
,335
,558
,679
,763
,820
,870
,915
,943
,965
,979
,989
,992
,995
,998
,999
1,000
1,000
---------1,000
Tabla 7.-.¡Error!Argumento de modificador desconocido.: Inercia absorbida en el análisis
de correspondencias.
Obsérvese que los dos primeros ejes de la representación, que son los que se utilizarán
después, absorben el 55,8% de la inercia total.
Después aparecerá la información correspondiente a las filas, coordenadas, contribuciones del
elemnto al factor y contribuciones relativas del factor al elemento.
-36-
Introducción SPSS
Row Scores:
Row
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
Marginal
Profile
,064
,084
,082
,064
,065
,041
,031
,011
,092
,029
,027
,127
,093
,014
,057
,053
,044
,013
,009
Contribution of row points to the
inertia of each dimension:
Row
Marginal
Dim
Profile
1
2
1
,064
,108
,067
2
,084
,068
,058
3
,082
,055
,040
4
,064
,110
,046
5
,065
,040
,015
6
,041
,003
,002
7
,031
,012
,049
8
,011
,078
,000
9
,092
,015
,020
10
,029
,015
,003
11
,027
,022
,033
12
,127
,018
,012
13
,093
,122
,164
14
,014
,066
,202
15
,057
,187
,190
16
,053
,060
,030
17
,044
,007
,008
18
,013
,011
,063
19
,009
,003
,000
-------- -------1,000
1,000
Dim
1
2
,691
-,477
,436
-,698
-,414
,144
,329
1,427
-,217
,379
,483
,201
-,612
-1,164
,966
-,568
,210
,493
,287
-,489
,397
,337
-,409
,227
,095
-,604
,003
,222
-,142
-,528
-,150
-,640
1,838
,880
,363
-,198
-1,057
,083
Contribution of dimensions to the
inertia of each row point:
Row
Marginal
Profile
1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
,064
,084
,082
,064
,065
,041
,031
,011
,092
,029
,027
,127
,093
,014
,057
,053
,044
,013
,009
Dim
2
,546
,470
,336
,520
,391
,031
,103
,420
,359
,097
,155
,442
,411
,168
,493
,511
,152
,122
,045
Total
,223
,266
,164
,146
,096
,011
,282
,000
,308
,011
,151
,201
,367
,340
,334
,170
,110
,458
,003
,769
,736
,500
,665
,487
,042
,384
,420
,667
,109
,306
,643
,778
,508
,827
,681
,262
,580
,048
Tabla 7.-.¡Error!Argumento de modificador desconocido.: Resultados del análisis de
Correspondencias para las filas de la matriz.
La misma información para las columnas aparece en la tabla siguiente.
-37-
Introducción SPSS
Column Scores:
Column
Marginal
Profile
1
1 MAT
,026
-,465
2 INF
,085
-,132
3 BIO
,049
,033
4 MED
,129
-,220
5 FIS
,066
,476
6 ATS
,063 -1,073
7 QUI
,020
-,337
8 ITE
,042
,586
9 VET
,103
-,318
10 EMP
,054
-,049
11 ECO
,086
,131
12 INEF ,025
-,425
13 IIN
,042
1,050
14 ARQ
,051
,673
15 ING
,034
,358
16 GEO
,023
-,995
17 FAR
,017
,289
18 IAE
,025
-,238
19 ITEL
,030 1,268
20 ODO
,008
-,273
21 IAG
,020
,010
Contribution of column points to the
inertia of each dimension:
Column
Marginal
Dim
Profile
1
2
1 MAT
,026
,020
,001
2 INF
,085
,005
,108
3 BIO
,049
,000
,010
4 MED
,129
,022
,277
5 FIS
,066
,053
,000
6 ATS
,063
,255
,006
7 QUI
,020
,008
,003
8 ITE
,042
,051
,072
9 VET
,103
,037
,001
10 EMP
,054
,000
,028
11 ECO
,086
,005
,099
12 INEF ,025
,016
,040
13 IIN
,042
,164
,055
14 ARQ
,051
,081
,000
15 ING
,034
,015
,005
16 GEO
,023
,082
,197
17 FAR
,017
,005
,081
18 IAE
,025
,005
,015
19 ITEL
,030
,173
,000
20 ODO
,008
,002
,003
21 IAG
,020
,000
,000
Dim
2
,085
,542
,216
-,706
,020
,145
-,168
,630
-,057
-,343
-,516
,600
,547
-,006
,178
1,395
-1,042
,373
,043
-,287
,015
Contribution of dimensions to the inertia of
each column point:
Column
Marginal
Dim
Total
Profile
1
2
1 MAT
,026
,346
,009
,356
2 INF
,085
,046
,623
,668
3 BIO
,049
,001
,048
,049
4 MED
,129
,093
,780
,872
5 FIS
,066
,539
,001
,540
6 ATS
,063
,821
,012
,833
7 QUI
,020
,155
,031
,186
8 ITE
,042
,342
,322
,664
9 VET
,103
,205
,005
,210
10 EMP
,054
,004
,175
,180
11 ECO
,086
,045
,575
,620
12 INEF ,025
,160
,260
,419
13 IIN
,042
,750
,166
,916
14 ARQ
,051
,493
,000
,493
15 ING
,034
,197
,040
,237
16 GEO
,023
,235
,377
,611
17 FAR
,017
,045
,475
,519
18 IAE
,025
,073
,148
,221
19 ITEL ,030
,706
,001
,707
20 ODO
,008
,042
,037
,079
21 IAG
,020
,000
,000
,001
-38-
Introducción SPSS
Tabla 7.-.¡Error!Argumento de modificador desconocido.: Resultados del análisis de
Correspondencias para las filas de la matriz.
Las contribuciones relativas del factor al elemento utilizadas en la interpretación, aparecen en
la tercera de las tablas para cada uno de los casos.
8.- ANÁLISIS DISCRIMINANTE
El propósito de la técnica consiste en buscar una función lineal de un conjunto de variables
cuantitativas que permita clasificar una observación en uno de varios grupos definidos a
priori.
La técnica se lleva a cabo mediante el comando DISCRIMINANT que puede seleccionarse en
el ítem Clasify del menú Statistics.
-39-
Introducción SPSS
Figura 8.¡Error!Argumento de modificador desconocido.: Selección de variables en el
comando DISCRIMINANT
El primer paso consiste en seleccionar la variable cualitativa que determina los grupos en los
que se quiere clasificar las observaciones y definir el rango de valores que puede tomar. La
definición del rango se realiza en el botón Define Range y la venta na siguiente.
Figura 8.¡Error!Argumento de modificador desconocido.: Definición del rango de valores
de la variable dependiente.
Una vez seleccionada la variable que contiene los grupos seleccionaremos las variables
independientes que queremos utilizar para la clasificación. Dos son los mátodos básicos para
el cálculo de la función discriminante, la introducción en la ecuación de todas las variables
seleccionadas o la utilización de métodos paso a paso (Stepwise). Si se selecciona la segunda,
hemos de seleccionar tambien el método quue se utilizará para la inclusión progresiva de las
variables. Es necesario tener en cuenta que los métodos paso a paso no producen resultados
óptimos, especialmente en el caso en el que los datos presenten una clara multicolinealidad, y
si el propósito del análisis es el el de determinar as variables con mayor poder discriminante.
-40-
Introducción SPSS
Figura 8.¡Error!Argumento de modificador desconocido.: Definición del método paso a
paso para el análisis discriminente.
En principio utilizaremos las opciones por defecto en el caso de que queramos utilizar un
método paso a paso, aunque son posibles varias opciones diferentes para el método de
selección, de las cuales la más común es la lambda de Wilks, para el criterio utilizado en la
entrada de las variables, y para la forma en la que se muestran los resultados finales.
El botón Statistics permite decidir parte de los resultados a analizar.
Figura 8.¡Error!Argumento de modificador desconocido.: Opción Statistics del comando
DISCRIMINANT.
En general será suficiente con las medias de los grupos y la comparación de las mismas
mediante ANOVAS univariantes. No obstante, el hecho de que no haya diferencias en las
medias por separado no implica que no haya diferencias multivariantes, es decir, puede
encontrarse una dirección discriminante en el espacio conjunto aunque no haya diferencia en
las variables individuales.
-41-
Introducción SPSS
Figura 8.¡Error!Argumento de modificador desconocido.: Opción Classification del
comando DISCRIMINANT.
Para las opciones de clasificación es posible seleccionar las probabilidades a priori que se
utilizan en la clasificación, las posibilidades son suponer que ambos gupos son igualmente
probables o que se toman las proporciones muestrales de cada grupo. Se pueden seleccionar
los gráficos combinados o separados para cada grupo. La matriz de covarianzas que usaremos
generalmente será la matriz de covarianzas dentro de los grupos (Within groups). Si deseamos
la tabla de clasificación correcta seleccionaremos Summary table y si queremos
información sobre cada individuo particular seleccionaremos Results for each case.
Es posible guardar nuevas columnas con la predicción para cada valor, las puntuaciones sobre
la función discriminante y la probablidad de pertenencia de cada observación a cada grupo, en
la ventana que se obtiene del botón Save.
Figura 8.¡Error!Argumento de modificador desconocido.: Opción Save del comando
DISCRIMINANT.
Los resultados típicos de este tipo de análisis aparecen en la tabla siguiente.
Obsérvese que se ha conseguido clasificar correctamente al 93,33% de los individuos
originales, es necesario tener en cuenta que este porcentaje es algo más alto de lo que debería
al utilizar para la evaluación de la clasificación los mismos individuos que los que se
utilizaron en la construcción de la función discriminante. La práctica correcta consiste en
dividir las observaciones originales en dos conjuntos, el primero, que incluirá
-42-
Introducción SPSS
aproximadamente el 75% de las observaciones, se utilizará para la estimación de la función
discriminante; el segundo se utilizará para la evaluación de la misma. Esta forma de proceder
implca que se ha de disponer de un número bastante elevado de observaciiones.
-43-
Introducción SPSS
- - - - - - -
D I S C R I M I N A N T
On groups defined by DENOMINA
A N A L Y S I S
- - - - - - -
DENOMINACION
45 (Unweighted) cases were processed.
0 of these were excluded from the analysis.
45 (Unweighted) cases will be used in the analysis.
Number of cases by group
Number of cases
DENOMINA Unweighted
Weighted
1
34
34,0
2
11
11,0
Total
45
45,0
Prior probability for each group is
Label
RIBERA
TORO
,50000
Canonical Discriminant Functions
Pct of
Fcn Eigenvalue Variance
1*
1,9941
100,00
Cum
Pct
100,00
Canonical After Wilks'
Corr
Fcn Lambda Chi-square
: 0 ,333994
,8161 :
43,317
df
7
Sig
,0000
Standardized canonical discriminant function coefficients
Func 1
GRADO
-,51598
AVOL
1,22630
ATOT
-4,40970
ACFI
4,35790
PH
,37283
FOLIN
,76938
SOMERS
-1,15571
Structure matrix: Pooled within-groups correlations
variables and canonical discriminant functions
(Variables ordered by size of correlation within function)
Func 1
GRADO
-,61638
SOMERS
-,58233
FOLIN
-,40215
ACFI
,28281
AVOL
-,21570
ATOT
,14333
PH
-,04708
Classification results No. of
Actual Group
Cases
-------------------- -----Group
1
34
RIBERA
Predicted Group Membership
1
2
--------------32
2
94,1%
5,9%
Group
2
11
1
10
TORO
9,1%
90,9%
Percent of "grouped" cases correctly classified: 93,33%
-44-
between
discriminating
Introducción SPSS
Figura 8.¡Error!Argumento de modificador desconocido.: Resultados del Análisis
Discriminante
La interpretación de la función discriminante se realiza fundamentalmente a partir de las
correlaciones de estructura. Osérvese como es el grado alcohólico la variable mas
correlacionada con la función discriminante.
-45-
Descargar