Introducción SPSS José Luis Vicente Villardón Dpto. de Estadística Universidad de Salamanca -1- Introducción SPSS INDICE 1.- INTRODUCCIÓN ......................................................................................................................................... 3 2.- ENTRADA Y EDICIÓN DE DATOS ......................................................................................................... 3 3.- IMPORTAR Y EXPORTAR DATOS......................................................................................................... 8 4.- ESTADÍSTICA BÁSICA .............................................................................................................................. 9 5.- EXPLORACIÓN DE LOS DATOS........................................................................................................... 16 6.- ANALISIS FACTORIAL............................................................................................................................ 25 7.- ANALISIS FACTORIAL DE CORRESPONDENCIAS........................................................................ 33 8.- ANÁLISIS DISCRIMINANTE .................................................................................................................. 39 -2- Introducción SPSS 1.- INTRODUCCIÓN Uno de los programas de Análisis Estadísticos más extendidos en la práctica es el SPSS debido a que está disponible en diferentes entornos, para diferentes sistemas operativos. El programa comprende, desde técnicas descriptiva básicas hasta técnicas avanzadas de forma que cubre la mayor parte de las necesidades de los investigadores aplicados en campos tan diversos como las Ciencias Sociales, la Biología, la Medicina etc... Trataremos de resumir las características básicas de su funcionamiento mediante el número mínimo posible de conceptos nuevos, teniendo en cuenta la perspectiva del usuario que necesita solamente el manejo de opciones sencillas para el trabajo diario. Las cuestiones más avanzadas relativas al manejo de los datos serán estudiadas solamente cuando sean necesarias en un contexto concreto. Las ventanas que aparecen en el desarrollo de la prácticas corresponden a la versión 6.1 de Macintosh, aunque con ligeras modificaciones sirven para cualquiera de las versiones pensadas para otros sistemas como por ejemplo Windows. Aunque el aspecto general de las ventanas no sea exactamente el mismo, los contenidos son iguales para la misma versión del programa. Se supone que el usuario conoce los conceptos básicos para el manejo de los distintos entornos en los que va a utilizar el programa SPSS. 2.- ENTRADA Y EDICIÓN DE DATOS El primer paso que seguiremos es el de la introducción de los datos en un archivo para su posterior manipulación y análisis. La estructura habitual de los datos es en forma de tabla o matriz en la que cada una de las filas se corresponde con un individuo (objeto, caso, etc...) y cada una de las columnas se corresponde con una de las variables utilizadas en el estudio. Al iniciar el programa obtenemos sobre el escritorio dos ventanas, denominadas !untitled output 1 y untitled data, la primera se utilizará para los resultados y será utilizada posteriormente mientras que la segunda será utilizada para introducir de los datos del estudio actual. Si ya disponemos de una ventana de datos previa, es posible obtener una nueva en la opción New del menú File. El aspecto de la ventana es similar al de una hoja de cálculo convencional en la que cada casilla contiene un dato. -3- Introducción SPSS Figura 2.¡Error!Argumento de modificador desconocido.:Ventana de datos. Comenzaremos con la definición de las variables, sus tipos y formatos, ya que esto determina cuales son los análisis que llevaremos acabo posteriormente. Esta operación puede llevarse a cabo mediante un doble click sobre la palabra var que aparece en el encabezado de cada columna. Si se ha dado previamente un nombre a la variable, un doble click sobre el mismo permite la modificación de las características de la misma. Tras el doble click aparecerá la ventana siguiente desde la que es posible introducir el nombre y definir el tipo y formato correspondiente. Figura 2.¡Error!Argumento de modificador desconocido. : Ventana de definición de las características de cada variable. El espacio destinado al nombre es un texto editable que puede ser modificado. Seleccionaremos el tipo de variable pulsando sobre el botón Type.... La definición del tipo se lleva a cabo en una ventana como la siguiente. -4- Introducción SPSS Figura 2.¡Error!Argumento de modificador desconocido.: Ventana de definición del tipo y formato de cada variable. El tipo es importante en la selección posterior del análisis. Las variables son básicamente cualitativas y cuantitativas, aunque son posibles subdivisiones adicionales, especialmente debido a la forma en que se introducen sobre el soporte informático. Las variables categóricas (o cualitativas) suelen ser introducidas como números (Numeric) enteros desde el 1 hasta el número de categorías de la variables; esta práctica ahorra espacio en disco si el archivo de datos es muy grande ya que se evita la utilización de nombres largos para las categorías. También es posible introducirlas como cadenas de caracteres (String) tratando de usar el mínimo número de caracteres posible para ahorrar espacio en disco. Las variables cuantitativas serán normalmente de tipo Numérico. Sobre el programas, los tipos Numeric, Comma, D o t y Scientific notation difieren solamente en la notación. El Numérico utiliza como separador para los decimales la notación del sistema (normalmente una coma en Castellano) y no tiene separadores para los miles; el tipo Comma utiliza la coma como separador de los decimales y el punto como separador de los miles, el tipo Dot utiliza el punto como separador de los decimales y la coma como separador de los miles, el tipo Scientific notation utiliza la notación científica habitual. El tipo fecha (Date) permite diversos formatos al ser seleccionado, el más usual suele ser ddmm-yy (dos números para el dia, dos para el mes y dos para el año). Los tipos Dollar y Custom currency se utilizan para especificar unidades monetarias. El tipo S t r i n g permite introducir cadenas de caracteres con información para la identificación del individuo, o variables de tipo cualitativo. Al lado del tipo de variable es posible seleccionar la anchura de la misma y el número de decimales que se utilizarán por defecto para los tipos numéricos, el formato de la fecha, de la moneda o la anchura para las cadenas de caracteres. Una vez seleccionado el tipo y el formato de la misma haremos click sobre el botón Continue para volver a la ventana de características de la figura 2. El botón Cancel permite cancelar la operación y el botón Help permite obtener ayuda sobre las operaciones que se están tratando de realizar. -5- Introducción SPSS Cuando se trabaja con variables de tipo cualitativo o categórico, a cada una de las categorías se le suele asignar una etiqueta que clarifica los resultados en el análisis. Por ejemplo supongamos que queremos introducir la variable Sexo con dos valores 1 para Varones y 2 para Mujeres. Es posible realizar esta asignación mediante el botón Labels... de la ventana de la figura 2. La ventana siguiente corresponde a esta operación. Valor de la variable Etiqueta de identificación asignada Lista de valores y etiquetas Añadir Cambiar Eliminar Figura 2.¡Error!Argumento de modificador desconocido. : Asignación de etiquetas a los valores de la variable. La asignación de etiquetas a los distintos valores de la variable mejora la presentación de los resultados, aunque no es importante para el desarrollo de los análisis. El programa supone, por defecto, que todos los datos de los que disponemos son válidos para el análisis, es decir, que no existen datos perdidos o faltantes. Si esto no es así hemos de decirle al ordenador que valor de la variable ha de entender como dato perdido. La definición de los valores perdidos se realiza en el botón Missing Values ... de la figura 2. Se obtiene la siguiente ventana para la definición de los datos perdidos. -6- Introducción SPSS Figura 2.¡Error!Argumento de modificador desconocido.: Identificación de los valores faltantes El programa mantiene por defecto la opción "No Missing values" (No valores perdidos). Las opciones alternativas son "Discrete Missing values" (valores perdidos discretos), con tres casillas para distintos valores. El programa entenderá que los valores que se han especificado son datos perdidos, suelen utilizarse números extraños como por ejemplo, -9999 o el 0 si no es uno de los posibles valores de la variable. Los datos con los códigos asignados serán eliminados de los análisis posteriores. La segunda opción "Range of missing values" (rango de valores perdidos) considera como faltantes todos aquellos valores comprendidos entre los extremos del intervalo que el usuario especifique en las dos casillas destinadas al efecto. La tercera de las opciones es una combinación de las dos anteriores ya que permite especificar un intervalo y un valor discreto. Utilizando el botón Continue volveremos a la ventana de formato de la figura 2. Si deseamos modificar el formato de la variable, utilizaremos el botón Column format ... de la figura 2, aparecerá la siguiente ventana. Figura 2.¡Error!Argumento de modificador desconocido.: Modificación del formato de la columna. -7- Introducción SPSS Es posible modificar la anchura de la columna y la justificación de los datos. Cuando hayamos definido todas las características de las distintas variables correctamente utilizaremos el botón OK de la ventana de la figura 2. Cuando hayamos completado el mismo proceso para todas las variables tendremos entonces definida la tabla de datos dispuesta para introducir la información. Recuerde que para desplazarse por las celdas de la tabla puede utilizar la tecla Return para avanzar al aso siguiente para la misma variable (hacia abajo) y la tecla Tab para avanzar a la siguiente variable del caso actual (hacia la derecha). 3.- IMPORTAR Y EXPORTAR DATOS El programa SPSS permite también la utilización de datos procedentes de otros programas mediante lectura directa o indirecta de los mismos. Posee además la opción de lectura de archivos ASCII con o sin formato en la forma que se hacia en las antiguas versiones del programa. Para el intercambio de datos entre programas, la forma más versátil suele ser a través de archivos delimitados por tabuladores, si bien el SPSS puede leer directamente archivos creados por otros programas. La figura siguiente muestra las posibilidades que ofrece la opción Open (abrir) del menú File (Archivo). -8- Introducción SPSS Figura 3.¡Error!Argumento de modificador desconocido.: Opciones del menú Abrir. Los tipos que comienzan con SPSS no son archivos de datos, salvo el SPSS Data, el programa puede leer directamente ficheros de texto, ficheros de dBASE y de las hojas de cálculo Excel y Lotus, siempre que la estructura de la hoja sea similar a la estructura de la tabla de datos tal y como se ha definido en el capítulo anterior. Si el archivo seleccionado es de texto obtendremos una nueva ventana para especificar cual es el contenido del archivo, comandos, resultados o datos separados por tabuladores. Figura 3.¡Error!Argumento de modificador desconocido.: Opciones de lectura para un archivo de texto Es posible obtener archivos de texto con datos separados por tabuladores de infinidad de programas por lo que, en principio, es posible importar datos indirectamente desde cualquier otra aplicación. La primera fila del archivo suele contener los nombres de las variables separados también por tabuladores. Si esto es así no olvidar seleccionar la opción "First row contains variable names" en la ventana correspondiente. 4.- ESTADÍSTICA BÁSICA Los métodos descriptivos básicos pueden encontrarse en el ítem Summarize del menú Statistics, con varias alternativas. La primera de las opciones (Frequencies) permite crear tablas de frecuencias de los posibles valores de la variable, junto con medidas descriptivas de la tendencia central, de la dispersión, asimetría y apuntamiento y algunos gráficos. La figura siguiente muestra la forma en la que aparece el menú en la pantalla. -9- Introducción SPSS Figura 4.¡Error!Argumento de modificador desconocido.: Menú para la Estadística descriptiva. La ventana que se obtiene al seleccionar la opción Frequencies es la siguiente. Figura 4.¡Error!Argumento de modificador desconocido.: Ventana de selección de variables en el comando Frequencies. Para seleccionar una variable haga click sobre el nombre en la lista de la izquierda y utiliza el botón de selección, cuando complete la selección, el comando tendrá efecto sobre todas las -10- Introducción SPSS variables de la lista de la derecha. Si desea obtener la tabla de frecuencias ha de seleccionar el cuadro correspondiente bajo la lista de variables. Junto con la tabla de frecuencias es posible seleccionar distintos estadísticos y gráficos en la parte inferior de la tabla. Seleccionando el botón Statistics obtendrá la siguiente ventana que le permite escoger el tipo de selección que desea realizar. Figura 4.¡Error!Argumento de modificador desconocido.: Estadística descriptiva del menú frequencies. Las mediadas de tendencia central que pueden ser seleccionadas son la media, mediana y moda. La suma de los valores de la variables se selecciona también en este apartado aunque no pueda ser considerada exactamente como una mediada de tendencia central. En cuanto a las medidas de dispersión es posible seleccionar la desviación típica, la varianza y el recorrido. En este apartado pueden seleccionarse también el mínimo, el máximo y el error estándar de la media. El mínimo y el máximo no son medidas de dispersión, el error estándar de la media mide la variabilidad de la media en el muestreo en contraste con la desviación típica que mide la dispersión de los datos. Es posible obtener también mediadas de la asimetría y el apuntamiento que permiten la comparación de la distribución de nuestros datos con la normal. Recuérdese que a hipótesis de normalidad es importante para la aplicación de muchas de las técnicas de inferencia que se utilizan en la práctica. En el apartado de percentiles pueden seleccionarse cuartiles, Puntos de corte que dividan la muestra en un número de partes iguales determinadas por el usuario o bien percentiles que ha de decidir el usuario. Por ejemplo si se desea calcular el décimo percentil, escribiremos 10 al lado de la palabra Percentil(s) y usaremos el botón Add (añadir), al lado tendremos la -11- Introducción SPSS lista de percentiles que calculará el programa. Los botones Change (cambiar) y Remove (Eliminar) permiten editar la lista de percentiles. Obsérvese que el programa no selecciona ninguna de las opciones por defecto. A la hora de seleccionar los estadísticos que se desea calcular es necesario tener en cuenta el tipo de variable con el que se está trabajando, por ejemplo, no tendría sentido seleccionar este apartado si se trata de describir una variable cualitativa aunque se haya representado mediante números en el archivo de datos. Si seleccionamos el botón Charts (Diagramas) en la figura 10 obtendremos la venta siguiente, que nos permite seleccionar el tipo de gráfico que utilizaremos en la descripción de los datos. Figura 4.¡Error!Argumento de modificador desconocido.: Gráficos en el comando frequencies. Si los datos son cualitativos o discretos seleccionaremos un diagrama de barras (Bar chart) mientras que si los datos son continuos seleccionaremos un histograma. Sobre el histograma es posible también superponer una curva normal con los parámetros obtenidos de la media y de la varianza muestral, para tratar de establecer, de forma visual, la posible normalidad de los datos. -12- Introducción SPSS Figura 4.¡Error!Argumento de modificador desconocido.: Formato del resultado del comando Frequencies. Es posible ordenar las tablas de acuerdo con los valores de la variable o de las frecuencias en orden ascendente o descendente. También es posible seleccionar distintos formatos para la página de resultado: estándar, condensado, mejor ajuste y suprimir aquellas tablas que tengan más de un número de categorías especificado por el usuario. El formato estándar coloca un valor en cada línea, el condensado realiza tablas con arias columnas, el mejor ajuste utiliza el formato condensado solo si la tabla ocupa más de una página. El comando permite también la creación de un índice que especifica el número de página en el que se encuentra cada tabla, y la aparición o no de las etiquetas de los distintos valores, para ellos basta seleccionar los cuadros correspondientes en la ventana (Display index y Display value labels) Para una variable cualitativa la tabla de frecuencias resultante del análisis es la siguiente GRUPO Value Label RD86 RD87 T86 T87 Valid cases Value 1 2 3 4 45 Frequency Percent 14 31,1 20 44,4 6 13,3 5 11,1 ------- ------Total 45 100,0 Missing cases 0 Valid Percent 31,1 44,4 13,3 11,1 ------100,0 Cum Percent 31,1 75,6 88,9 100,0 Tabla 4.-.¡Error!Argumento de modificador desconocido.: Resultados del análisis de frecuencias para una variable cualitativa. La tabla presenta la frecuencia absoluta de cada valor de la variable, el porcentaje, y el porcentaje acumulado que solo tendrá sentido cuando los valores de la variable estén ordenados. El diagrama de barras correspondiente aparece en la figura siguiente. La modificación de los gráficos se estudiará en un capítulo separado. -13- Introducción SPSS Diagrama de barras 30 20 20 14 10 6 5 0 RD86 RD87 T86 T87 GRUPO Figura 4.¡Error!Argumento de modificador desconocido.: Diagrama de barras resultante del comando Frequencies. Si la variable analizada es cuantitativa, podemos calcular también diversos estadísticos tal y como aparece en la tabla siguiente. GRADO Mean Mode Kurtosis S E Skew Maximum 12,460 11,900 -,195 ,354 14,000 Std err Std dev S E Kurt Range Sum Percentile 10,00 75,00 Value 11,360 12,900 Percentile 25,00 90,00 Valid cases 45 ,117 ,784 ,695 3,200 560,700 Value 11,900 13,900 Missing cases Median Variance Skewness Minimum 12,400 ,614 ,213 10,800 Percentile 50,00 Value 12,400 0 Tabla 4.-.¡Error!Argumento de modificador desconocido.: Resultados de la opción Statistics del comando Frequencies. No se ha mostrado la tabla de frecuencias en este caso ya que el programa la ha calculado para todos y cada uno de los valores de la variable sin agrupar en intervalos. El histograma correspondiente, con la comparación con la curva normal, aparece en la figura siguiente. -14- Introducción SPSS Histogram 14 12 10 8 6 4 Std. Dev = ,78 2 Mean = 12,46 N = 45,00 0 11,00 11,50 12,00 12,50 13,00 13,50 14,00 GRADO Figura 4.¡Error!Argumento de modificador desconocido.: Histograma resultante del comando Frequencies. La segunda opción del ítem Summarize del menú Statistics, es Descriptives y permite el cálculo de algunos estadísticos sencillos. Básicamente es muy similar la opción Statistics del comando anterior. La ventana de definición aparece en la figura siguiente. Figura 4.¡Error!Argumento de modificador desconocido.: Ventana de definición del comando Descriptives. La ventana permite la selección de las variables que se van a utilizar en el análisis, de la misma forma que ya se hizo en el comando anterior. Los recuadros de la parte inferior tienen el mismo significado que en la ventana de formato del comando anterior. Se añade la posibilidad de guardar en el archivo de datos una nueva columna que contenga los valores estandarizados (valores a los que se ha restado la media y se ha dividido por la desviación típica) de las variables analizadas. -15- Introducción SPSS El botón Opciones permite seleccionar los estadísticos a calcular y el formato de los resultados. Figura 4.¡Error!Argumento de modificador desconocido.: Opciones del comando Descriptives. Los resultados típicos aparecen en la tabla siguiente. Number of valid observations (listwise) = Variable Mean Std Dev Kurtosis Skewness Range Maximum 45,00 GRADO 12,460 ,784 -,195 ,213 3,200 14,00 Valid observations - S.E. Mean Variance S.E. Kurt S.E. Skew Minimum Sum 45 ,117 ,614 ,695 ,354 10,80 560,700 Missing observations - 0 Tabla 4.-.¡Error!Argumento de modificador desconocido.: Resultados del comando Descriptives. 5.- EXPLORACIÓN DE LOS DATOS La tercera opción del ítem Summarize del menú Statistics es el comando Explore, que permite explorar las diferencias entre varios grupos para una o varias variables cuantitativas. Este apartado permite, mediante métodos descriptivos avanzados y algunos contrastes, por -16- Introducción SPSS ejemplo, de normalidad, explorar las posibles diferencias entre dos grupos, la posible existencia de outliers o la normalidad aproximada de los datos. La ventana de definición de las opciones del comando aparece en la figura 18. Figura 5.¡Error!Argumento de modificador desconocido.: Ventana de definición de las opciones del comando Explore. En la ventana etiquetada como Dependent List seleccionaremos las variables cuantitativas que queremos analizar, mientras que en la ventana Factor List seleccionaremos las variables cualitativas que definen los grupos en los que queremos separar los análisis. En el ejemplo que aparece en la pantalla se trata de analizar el grado alcohólico de vinos en dos denominaciones de origen, Ribera de Duero y Toro. Es posible etiquetar los casos (individuos) usando los valores contenidos en alguna de las columnas de archivo. La exploración de los datos se lleva a cabo mediante la utilización de estadísticos y de gráficos, o de ambos, tal y como puede seleccionarse en la esquina inferior izquierda de la ventana. Los botones Statistics, Plots y Options permiten la selección de los análisis particulatres que se quieren utilizar. La opción Statistics abre la siguiente ventana. -17- Introducción SPSS Figura 5.¡Error!Argumento de modificador desconocido.: Opción Statistics del comando EXPLORE. Seleccionando el apartado Descriptives se obtienen estadísticos descriptivos en los distintos grupos tales como media, mediana, moda, desviación típica, varianza, mínimo, máximo, etc .. En el apartado M-Estimators se obtienen estimadores robustos de la tendencia cental. Las distintas opciones dependen de la ponderación que se da acada observación en el cálculo de la medida. En general se asocian ponderaciones más pequeñas a los valores extremos de la distribución. En el apartado outliers se obtienen los 10 valores más extremos, 5 en la parte superior y 5 en la inferior. El propósito es encontrar valores anormalmente grandes o pequeños que pueden afectar el funcionamiento de análisis posteriores. La opción percentiles muestra diversos percentiles, que se utilizan generalmente en la construcción de los Box-Plot. La opción Grouped Frequuency tables calcula tablas de frecuencias para los dos grupos. Una vez seleccionadas las opciones deseadas haremos click sobre el botón Continue. La opción Plots muestra la siguiente ventana. -18- Introducción SPSS Figura 5.¡Error!Argumento de modificador desconocido.: Opción Plots del comando EXPLORE. Varios son los tipos de gráficos que pueden se seleccionados: - Box-Plots: Mediante estetipo de gráficos es posible estudiar la distribución de la variable a través de los percentiles. Es posible detectar desviaciones de la simetría, posibles otliers y es posible comparar la distribución de varios grupos. En general, el programa coloca los BoxPlots correspondientes a los distintos gupos sobre el mismo gráfico para permitir las comparaciones, es posible tambien colocar varias variables sobre el mismo gráfico si las escalas son comparables usando la opción Dependents togetther. - Histogramas : Seleccionados en la opción correspondiente, permiten comparar la distribución en varios grupos y detectar posibles desviaciones de la normalidad. Es posible situar la curva normal sobre el gráfico como se hizo en opciones anteriores. - Steam-and-lef: Tiene la misma información que el hitograma pero con la particularidad de que los datos originales con los que se construyó son ahora recuperables. - Diagramas de normalidad: Seleccionando la opción Normality plots with tests. En uno de los ejes se representa la distribución empírica de los datos y en el otro los valores esperados en el caso de que la distibución fuera normal. Si los datos proceden de una distribucón normal los puntos deberían estar aproximadamente sobre la diagonal principal. El gráfico se complementa con el test de Kolmogorov-Smirnov para nrmalidad o el test de Shapiro-Wilks para muestras pequeñas. La opción proprciona, además, gráficos de normalidad sin tendencia; la distribución de los datos es aproximadamente normal si los gráficos no muestran una tendencia definida clara. - Diagramas de Tendencia central-Dispersión: Se representa una medida de tendencia central frente a una medida de dispersión en cada uno de los grupos para ver si existe relación entre ellas y puede violarse la hiptesis de igualdad de varianzas necesaria para la comparación de los grupos. El gráfico se complementa con el test de Levene para igualdad de varianzas. Es -19- Introducción SPSS posible seleccionar también diversas transformaciones que pueden homogeneizar las varianzas. La selección de este tipo de gráficos se realiza en el recuaro de la ventana etiquetada como Spread vs. Level with Levene test. Por último, es posible seleccionar otras opciones relativas a los valores perdidos y que tienen que ver con la forma en que se eliminan del análisis para distintas variables. La selección se hace en la ventana siguiente como resultado del uso del botón Opcions en la ventana del comando Explore. Figura 5.¡Error!Argumento de modificador desconocido.: Opciones del comando EXPLORE. La primera de las opciones "Exclude cases listwise" excluye del análisis todos aquellos casos que tengan un dato perdido en cualquiera de las variable de la lista de dependientes. La opción "Exclude cases pairwise" excluye solamente los casos que tengan datos perdidos en la variable que se analiza en cada momento. La opción "Report values" informa de los casos que tienen valores perdidos. Cuando se ha completado el comando, los resultados aparecen en las tablas y gráficos siguiente. Los resultados corresponden al análisis del grado alcohólico para vinos jóvenes de dos denominaciones de origen Ribera de Duero y Toro. Presentamos primero los resultados de la opción Statistics en las dos denominaciones para pasar despues a los Box-Plots y gráficos de normalidad. En este caso no tienen demasiado sentido los gráficos de igualdad de varianzas ya que se dispone solamente de dos pntos por los que siempre pasa una recta. -20- Introducción SPSS GRADO By DENOMINA 1 RIBERA Valid cases: 34,0 Missing cases: Mean 12,1706 Std Err ,0981 Min Median 12,2500 Variance ,3270 Max 5% Trim 12,1915 Std Dev ,5718 Range 95% CI for Mean (11,9711; 12,3701) IQR ,0 Percent missing: ,0 10,8000 Skewness -,6053 13,0000 S E Skew ,4031 2,2000 Kurtosis -,4383 ,7750 S E Kurt ,7879 M-Estimators -----------Huber ( 1,339) 12,2515 Tukey ( 4,685) Hampel ( 1,700; 3,400; 8,500) 12,2391 Andrew ( 1,340 * pi ) Percentiles Haverage Tukey's Hinges Percentiles 5 Highest 13,00 13,00 12,80 12,80 12,80 Percentiles ----------10,0000 25,0000 11,2500 11,8500 11,9000 5,0000 11,1000 50,0000 12,2500 12,2500 12,2673 12,2685 75,0000 12,6250 12,6000 95,0000 13,0000 Case # Case: Case: Case: Case: Case: Extreme Values ------- -----5 9 14 1 13 2 Lowest 10,80 11,20 11,20 11,30 11,40 Case # Case: Case: Case: Case: Case: Frequency Table --------- ----Bin Center Freq 10,800 11,200 11,300 11,400 11,500 11,600 11,700 11,900 12,000 12,100 12,200 12,300 12,400 12,500 12,600 12,700 12,800 13,000 Shapiro-Wilks K-S (Lilliefors) 90,0000 12,8000 1,00 2,00 1,00 1,00 1,00 1,00 1,00 4,00 1,00 1,00 3,00 1,00 3,00 2,00 3,00 3,00 3,00 2,00 Statistic ,9433 ,0767 Pct Valid Pct 2,94 5,88 2,94 2,94 2,94 2,94 2,94 11,76 2,94 2,94 8,82 2,94 8,82 5,88 8,82 8,82 8,82 5,88 2,94 5,88 2,94 2,94 2,94 2,94 2,94 11,76 2,94 2,94 8,82 2,94 8,82 5,88 8,82 8,82 8,82 5,88 df 34 34 -21- Cum Pct 2,94 8,82 11,76 14,71 17,65 20,59 23,53 35,29 38,24 41,18 50,00 52,94 61,76 67,65 76,47 85,29 94,12 100,00 Significance ,1042 > ,2000 17 18 34 16 24 Introducción SPSS Tabla 5.-.¡Error!Argumento de modificador desconocido.: Resultados del comando Explore para la variable grado alcohólico y la denominación de origen de Ribera de Duero. GRADO DENOMINA By 2 Valid cases: TORO 11,0 Missing cases: Mean 13,3545 Std Err ,2042 Median 13,4000 Variance ,4587 5% Trim 13,3884 Std Dev ,6773 95% CI for Mean (12,8995; 13,8096) ,0 Min Max Range IQR Percent missing: 12,1000 14,0000 1,9000 ,9000 Skewness S E Skew Kurtosis S E Kurt -,8554 ,6607 -,3825 1,2794 M-Estimators -----------Huber ( 1,339) 13,4615 Tukey ( 4,685) Hampel (1,700; 3,400; 8,500) 13,4212 Andrew ( 1,340 * pi ) Percentiles Haverage Tukey's Hinges Percentiles 5 Percentiles ----------10,0000 25,0000 12,1400 13,0000 13,1000 5,0000 12,1000 50,0000 13,4000 13,4000 ,0 13,4415 13,4409 75,0000 13,9000 13,9000 90,0000 14,0000 95,0000 , Highest 14,00 14,00 13,90 13,90 13,90 Extreme Values ------- -----5 Case # Case: Case: Case: Case: Case: 36 41 44 42 40 Lowest Case # 12,10 12,30 13,00 13,20 13,20 Case: Case: Case: Case: Case: Frequency Table --------- ----Bin Center 12,100 12,300 13,000 13,200 13,400 13,900 14,000 Shapiro-Wilks K-S (Lilliefors) Freq 1,00 1,00 1,00 2,00 1,00 3,00 2,00 Statistic ,8579 ,1703 Pct 9,09 9,09 9,09 18,18 9,09 27,27 18,18 df 11 11 -22- Valid Pct 9,09 9,09 9,09 18,18 9,09 27,27 18,18 Cum Pct 9,09 18,18 27,27 45,45 54,55 81,82 100,00 Significance ,0652 > ,2000 43 45 35 37 39 Introducción SPSS Tabla 5.-.¡Error!Argumento de modificador desconocido.: Resultados del comando Explore para la variable grado alcohólico y la denominación de origen de Toro. Test of homogeneity of variance Levene Statistic ,3825 df1 1 df2 43 Significance ,5395 Tabla 5.-.¡Error!Argumento de modificador desconocido.: Resultados del test de Levene para homogeneidad de varianzas en elcomando Explore. La figura siguiente contiene el Box-Plot para la comparación de las dos denominaciones. 15 14 13 12 11 17 10 N= 34 11 RIBERA TORO DENOMINACION Figura 5.¡Error!Argumento de modificador desconocido.: Box-Plots para la comparación de las dos denominaciones. Inmediatamente se observa que la graduación alcohólica de los vinos de Toro es más alta que la de los vinos de Ribera. La impresión se corrobora a partir de la observación de las medidas de tendencia central, por ejemplo la media aritmética que resulta ser de 12,17 para Ribera y 13,35 para Toro. Además la diferencia de medias puede considerarse estadísticamente significativa ya que los correspondientes intervalos de confianza (95% CI for the Men, en la tabla de resultados) no se cuzan. Una diferencia similar puede apreciarse en mediadas como a mediana, la moda o las medidas de tendencia central robustas. De los percentiles y de los valores extremos para los dos grupos es posible observar que la separación entre los dos grupos es bastante clara, por ejemplo, el grado más alto de un vino de la denominación de Ribera es 13 grados, mientras que solamente 3 de los 11 de Toro están por debajo de ese valor. -23- Introducción SPSS Con respecto a la posible normalidad de los datos, se observa en el Box-Plot como para la denominación de origen de Ribera los datos son aproximadamente simétricos, lo cual se pone también de manifiesto en el hecho de que la media, la mediana y los demás estimadores robustos toman valores muy similares. Se detecta un valor extremo en la parte baja que corresponde a la observación 17, y un grado de 10,8 inusualmente bajo en comparación con el resto. Ambos tests de normalidad resultan no significativos, por lo tanto suponemos normalidad. En cuanto a la denominación de Toro, la distribución es bastante más asimétrica, aunque no lo suficiente para rechazar la normalidad, como se pone de manifiesto en la significación de los tests de normalidad correspondientes. Los gráficos de normalidad aparecen en la figura 23. Con respecto a la homogeneidad de varianzas se acepta la hipótesis de igualdad (p = 0.5395) por lo que las poblaciones pueden considerarse homoscedásticas. La normalidad e igualdad de varianzas es importante para decidir el test que se utilizará para comparar las medias de los dos grupos. La hipótesis es necesaria tambien si se trata de realizar un análisis Discriminante utilizando el grado alcohólico como predictor. Normal Q-Q Plot of GRADO For DENOMINA: RIBERA 2 1 0 -1 -2 10,5 11,0 11,5 12,0 12,5 13,0 13,5 Normal Q-Q Plot of GRADO Observed Value For DENOMINA: TORO 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 12,0 12,5 13,0 13,5 Observed Value 14,0 14,5 Figura 5.¡Error!Argumento de modificador desconocido.: Gráficos de normalidad. -24- Introducción SPSS 6.- ANALISIS FACTORIAL Mediante el análisis factorial tratamos de explicar las interrelaciones entre un cierto número de variables observadas mediante un número reducido de variables hipotéticas denominadas factores. Dos son los usos fundamentales, Resumen y reducción de los datos, en el primero se explica el comportamiento de las variables mediante un número reducido factores y en el segundo se reduce la dimensión subyacente en la que se describen los individuos. En realidad, el Análisis Factorial es un nombre genérico para un conjunto de técnicas que incluye diversos métodos y procedimientos de estimación. En SPSS es posible obtener un análisis Factorial mediante el comando FACTOR que puede obtenerse en el ítem Data Reduction del menú Statistics. Obtenemos la siguiente ventana. Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición del comando FACTOR. Como es habitual para todos los comandos, la ventana contiene el espacio dedicado a la selección de variables, junto con las distintas opciones para la construcción del análisis en los botones inferiores. Revisemos brevemente cada uno de ellos -25- Introducción SPSS Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la opción Descriptives del comando FACTOR. - Descriptive: Permite seleccionar si se desea listar estadísticos descriptivos (media y desviación típica) de cada variable y la solución inicial. En el recuadro inferior es posible seleccionar distintas opciones relacionadas con la matriz de correlaciones entre las variables observadas. Salvo en opciones avanzadas se seleccionarán los coeficientes, los niveles de significación y los tests de esfericidad para comprobar si tiene sentido la realización de un análisis Factorial. La selección realizada produciría los siguientes resultados: -26- Introducción SPSS - - - - - - - - - F A C T O R Analysis number 1 GRADO AVOL ATOT ACFI PH FOLIN SOMERS Std Dev 12,46000 ,56667 5,16000 4,45333 3,58222 1979,13333 34,01111 ,78376 ,27220 ,93842 ,77360 ,15417 521,38625 9,26872 = 1,00000 ,25728 -,03467 -,15084 -,06621 ,50862 ,60901 Label 45 Correlation Matrix: GRADO GRADO AVOL ATOT ACFI PH FOLIN SOMERS - - - - - - - - - Listwise deletion of cases with missing values Mean Number of Cases A N A L Y S I S AVOL ATOT ACFI PH FOLIN SOMERS 1,00000 ,59302 ,26929 ,14533 ,37609 ,47210 1,00000 ,93375 -,28936 ,16037 ,18688 1,00000 -,41682 ,00796 ,00324 1,00000 -,12098 -,01020 1,00000 ,89328 1,00000 Bartlett Test of Sphericity = 376,30499, Significance = ,00000 1-tailed Significance of Correlation Matrix: ' . ' is printed for diagonal elements. GRADO GRADO AVOL ATOT ACFI PH FOLIN SOMERS , ,04399 ,41056 ,16132 ,33283 ,00018 ,00000 AVOL , ,00001 ,03682 ,17042 ,00545 ,00053 ATOT , ,00000 ,02693 ,14632 ,10950 ACFI , ,00220 ,47930 ,49156 PH , ,21428 ,47350 FOLIN SOMERS , ,00000 , Tabla 6.-.¡Error!Argumento de modificador desconocido.: Resultados de la opción Descriptives del comando Factor. Obsérvese que Se encuentran algunas correlaciones altas entre las distintas variables, por ejemplo ACFI (Acidez fija) y ATOT (Acidez total). El test de Bartlett para esfericidad es altamente significativo por lo que existen direcciones principales y es posible realizar un análisis Factorial. -27- Introducción SPSS - Extracción: Permite definir el método que se utilizará en la extracción de los factores. Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la opción Extraction del comando FACTOR. Varios son los métodos de extracción de los factores, de los cuales el más habitual es el de las componentes principales. No hay que confundir el método de las Componentes Principales como método de extracción de factores en un análisis Factorial y el mismo como método de reducción de la dimensión para interpretar similaridades entre individuos en análisis de datos. En cuanto al número de componentes a retener dos son los posibles métodos, seleccionar los factores cuyo valor propio asociado (eigenvalue) sea mayor que un valor especificado por el usuario y que generalmente es 1, el segundo es seleccionar un número de factores determinados por el usuario. En los resultados puede especificarse o no la solución sin rotar (que en algunos casos será la solución final) y el denominado Scree Plot que representa las magnitudes de los valores propios en orden descendente y es útil en la selección del número de factores. La solución se realiza mediante un proceso iterativo en el que es posible seleccionar el número de iteraciones. - Rotación: El propósito de las rotaciones consiste en buscar factores interpretables rotando los de la solución ortogonal original. Básicamente se trata de conseguir que los factores finales tengan correlaciones muy altas con alguna de las variables estudiadas y correlaciones muy bajas con otras. -28- Introducción SPSS Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la opción Rotation del comando FACTOR. Si queremos la solución ortogonal original, seleccionaremos None, Los métodos Varimax, Equamax y Quartimax producen rotaciones ortogonales y por tanto obtienen factores independientes, mientras que el método Oblimin produce factores oblicuos y probablemente relacionados. Es posible poner en la pantalla de resultados la solución rotada y el gráfico con los factores de carga que nos ayudará a interpretar los factores. -Scores: Permite calcular las puntuaciones de los individuos sobre los factores que después servirán para la reducción de los datos, es decir para poder estudiar as similaridades entre los individuos mediante los factores obtenidos. Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la opción Factor Scores del comando FACTOR. La ventana permite la selección del método de cálculo de las puntuaciones factoriales (para las Componentes principales usaremos fundamentalmente regresión), permite además guardar las puntuaciones sobre los nuevos factores en columnas adicionales del archivo de datos (Save as variables), y especificar en la salida cuales son los coeficientes que se han -29- Introducción SPSS utilizado en el cálculo de las puntuaciones (display factor score coefficient matrix). - Opciones: Permite seleccionar la forma n que setratan los datos perdidos, y el formato de parte de los resultados. Figura 6.¡Error!Argumento de modificador desconocido.: Ventana de definición de la opción Options del comando FACTOR. Los resultados con las opciones más simples (Comp. Principales) y sin rotación son los siguientes junto con los que ya se colocaron el la tabla 6. Si utilizan rotaciones la interpretación sería similar. -30- Introducción SPSS - - - - - - - - - Extraction PC F A C T O R 1 for analysis extracted A N A L Y S I S - - - - - - - - - - 1, Principal Components Analysis (PC) 3 factors. Factor Matrix: GRADO AVOL ATOT ACFI PH FOLIN SOMERS Factor 1 ,56036 ,71870 ,64645 ,44937 -,22633 ,78908 ,83160 Final Statistics: Variable Communality GRADO AVOL ATOT ACFI PH FOLIN SOMERS ,64944 ,83678 ,99073 ,93213 ,90522 ,83078 ,90511 Factor 2 ,53329 -,08373 -,73826 -,85308 ,41403 ,42230 ,45986 * * * * * * * * * Factor Factor 3 -,22591 ,55968 ,16675 -,04956 ,82618 -,17262 -,04567 Eigenvalue 1 2 3 VARIMAX rotation 1 for extraction VARIMAX converged in 5 iterations. Rotated Factor Matrix: Factor 1 GRADO ,79373 AVOL ,42880 ATOT ,06761 ACFI -,11735 PH -,09261 FOLIN ,90434 SOMERS ,93723 2,81578 2,12541 1,10900 Pct of Var 40,2 30,4 15,8 1 in analysis Factor 2 -,12850 ,63764 ,98972 ,90321 -,23583 ,10616 ,13588 Factor 3 -,05394 ,49631 -,08128 -,32027 ,91707 -,04098 ,09082 Factor Score Coefficient Matrix: Factor 1 Factor 2 GRADO ,19901 ,25091 AVOL ,25524 -,03940 ATOT ,22958 -,34735 ACFI ,15959 -,40137 PH -,08038 ,19480 FOLIN ,28023 ,19869 SOMERS ,29533 ,21636 Factor 3 -,20371 ,50468 ,15036 -,04469 ,74498 -,15565 -,04118 Cum Pct 40,2 70,6 86,4 1 - Kaiser Normalization. Tabla 6.-.¡Error!Argumento de modificador desconocido.: Resultados del Análisis Factorial. Los tres primeros factores explican el 86,4% de la variabilidad total. La interpretación fundamental se realiza através de la matriz factorial (Factor Matrix) que contiene las -31- Introducción SPSS correlaciones entre los factores y las variables originales. Por ejemplo, en la solución sin rotar el primer factor está correlacionado con todas las variables salvo con el pH, por lo que no tiene una interpretación clara, en la solución rotada el primer factor está correlacionado con el grdo y los índices de Folin y Sommers relacionados con el color, el segundo con las variables de acidez y el tercero con el pH. Obsérvese como los ejes rotados tienen una interpretación mucho más clara en términos de las variables originales. La representación de los dos primeros factores de la solución rotada se muestra en la figura siguiente y permite comprobar que las dos denominaciones de origen estudiadas están claramente diferenciadas. Figura 6.¡Error!Argumento de modificador desconocido.: Representación de los individuos en el primer plano factorial. De esta forma, es posible realizar un análisis de Componentes Principales como método de representación de datos a partir de la información que proporciona un análisis factorial, basta con seleccionar el método de las componentes principales sin rotaciones como método de extracción de los factores, para representar las observaciones basta con guardar las puntuaciones de los individuos y representarlas mediante un diagrama de dispersión. En la figura 30 se han representado los dos primeros factores y se han diferenciado los puntos de acuerdo con la denominación de origen a la que pertenecen. Se ha obtenido una clara diferenciación de ambas de nominaciones aunque es necesario hacer notar que las direcciones de máxima variabilidad, que son las obtenidas en este tipo de análisis, no tienen porque coincidir con las direcciones de máxima separación entre los grupos, es decir, es posible que en muchas situaciones aplicadas la diferenciación entre varios grupos no estén necesariamente en el primer plano principal. El problema fundamental de la utilización de un procedimiento pensado para el análisis Factorial en el cálculo de un Análisis de Componentes Principales (ACP), es que solo puede ser calculado a partir de la matriz de correlaciones, es decir, a partir d la matriz original de datos estandarizada, mientras que el ACP como técnica de representación de datos puede ser calculado a partir de la matriz de covarianzas (datos centrados por columnas) o a aprtir de la matriz de productos cruzados (matriz de datos brutos). -32- Introducción SPSS Obtención de un Análisis Biplot Mediante el comando FACTOR es posible obtener tambien un análisis Biplot para datos estandarizados. Siutilizamos las puntuaciones factoriales de los individuos representadas junto con la matriz de coeficientes factoriales (Factor Score Coefficient Matrix) e el mismo gráfico, obtendremos lo que se denomina un JK-biplot ó RMP-Biplot (Biplot que conserva la métrica de las filas). Es posble que la escala de ambos conjuntos sea muy diferente y no sea posible observar los datos correctamente, sin embargo, si multiplicamos uno de los conjuntos de coordenadas por un número y dividimos el otro por el mismo número, el producto escalar no se modifica pero es posible visualizar mejor las coordenadas. El factor de escala se puede calcular a partir del cociente entre la suma de cuadrados de ambos conjuntos (para filas y columnas), o a patir del cociente de los valores máximos en ambos conjuntos. Si estandarizamos las puntuaciones factoriales de los individuos y las representamos con los factores de carga, obtenemos un GH-Biplot o CMP-Biplot (Biplot que conserva la métrica de las columnas). Combinando las puntuacions factoriales con los factores de carga obtendremos un HJ-Biplot. El problema fundamental es el del cálculo de las contribuciones, por ejemplo, si elevamos al cuadrado los factores de carga obtendremos las contribuciones relativas del factor al elemento para cada variable; las contribuciones para los individuos son más difíciles de calcular por lo que no abosdaremos aquí el problema. 7.- ANALISIS FACTORIAL DE CORRESPONDENCIAS El programa SPSS permite realizar un Análisis de Correspondencias mediante el comando ANACOR. La ventana de definición de las opciones del comando aparece en la ventana siguiente. Figura 7.¡Error!Argumento de modificador desconocido.: Ventana de definición de las opciones del comando ANACOR. -33- Introducción SPSS El comando se ha preparado inicialmente para tablas de dos vías en las que se dispone de todos los individuos con sus correspondeintes valores en las dos variables. La ventana nos pide que seleccionemos las dos variables para construir la tabla de contingencia sobre la que se construirá en Análisis de correspondencias. Una vez seleccionados los nombres tendremos que definir el rango de valores que pueden tomar. La ventana de definición de rango es la usual. Figura 7.¡Error!Argumento de modificador desconocido.: Definición del rango de las variables en el comando ANACOR. Una vez definido el rango seleccionaremos las opciones correspondientes en el botón Opciones. La ventana resultante es la siguiente. Figura 7.¡Error!Argumento de modificador desconocido.: Opciones del comando ANACOR. -34- Introducción SPSS En la ventana de opciones es posible definir el tipo de gráfico que se seleccionará para la interpretación final. El gráfico por defecto es el canónico (Canonical), que permite interpretar las relaciones entre filas y columnas de la matriz de datos. La opción Principal, representa filas y columnas por separado en coordenadas principales de forma que las interdistancias euclídeas aproximan las distancias ji-cuadrado, el programa no permite la representación conjunta de filas y columnas en esta opción. La opción Row principal representa las filas en coordenadas principales y las columnas en coordenadas estándar, sería un JK-Biplot de la matriz de correspondencias. La opción Column principal representa las columnas en coordenadas principales y las filas en coordenadas estándar, sería un GHBiplot de la matriz de correspondencias. En cuanto a los resultados el programa permite obtener la tabla de frecuencias, Las coordenadas para filas y columnas (Scores), las contribuciones, los perfiles fila y columna. La opción permutaciones parmuta las filas y las columnas de la tabla de datos de acuerdo con el orden de las coordenadas. Es posible tambien obtener medidas de la variabilidad de las coordenadas y de los valores singulares. Estas medidas no suelen utilizarse cuando se trata de análisis descriptivos. En cuanto a los dibujos es posible obtener la representación de filas y columnas por separado o la representación conjunta. No es posiblle obtener una representación conjunta en la opción principal. Los resultados típicos del análisis de correspondencias se muestran en las tablas siguientes. El ejemplo correponde a una tabla de datos en la que se consideran alumnos de COU que se clasifican de acuerdo con su preferencia por distintas carreras (21 en columnas) y varias variables variables (19) en filas. Inicialmente se muestan los valores singulares para todos los ejes y los porcentajes de inercia para cada eje y acumulados. -35- Introducción SPSS A N A C O R - VERSION 0.4 BY DEPARTMENT OF DATA THEORY UNIVERSITY OF LEIDEN, THE NETHERLANDS Dimension 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Total Singular Value ,28326 ,23096 ,16952 ,14244 ,11666 ,10947 ,10328 ,08098 ,07312 ,05902 ,04668 ,02988 ,02766 ,02215 ,02014 ,01328 ,00322 Inertia ,08023 ,05334 ,02874 ,02029 ,01361 ,01198 ,01067 ,00656 ,00535 ,00348 ,00218 ,00089 ,00077 ,00049 ,00041 ,00018 ,00001 --------,23917 Proportion Explained ,335 ,223 ,120 ,085 ,057 ,050 ,045 ,027 ,022 ,015 ,009 ,004 ,003 ,002 ,002 ,001 ,000 ---------1,000 Cu::mulative Proportion ,335 ,558 ,679 ,763 ,820 ,870 ,915 ,943 ,965 ,979 ,989 ,992 ,995 ,998 ,999 1,000 1,000 ---------1,000 Tabla 7.-.¡Error!Argumento de modificador desconocido.: Inercia absorbida en el análisis de correspondencias. Obsérvese que los dos primeros ejes de la representación, que son los que se utilizarán después, absorben el 55,8% de la inercia total. Después aparecerá la información correspondiente a las filas, coordenadas, contribuciones del elemnto al factor y contribuciones relativas del factor al elemento. -36- Introducción SPSS Row Scores: Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Marginal Profile ,064 ,084 ,082 ,064 ,065 ,041 ,031 ,011 ,092 ,029 ,027 ,127 ,093 ,014 ,057 ,053 ,044 ,013 ,009 Contribution of row points to the inertia of each dimension: Row Marginal Dim Profile 1 2 1 ,064 ,108 ,067 2 ,084 ,068 ,058 3 ,082 ,055 ,040 4 ,064 ,110 ,046 5 ,065 ,040 ,015 6 ,041 ,003 ,002 7 ,031 ,012 ,049 8 ,011 ,078 ,000 9 ,092 ,015 ,020 10 ,029 ,015 ,003 11 ,027 ,022 ,033 12 ,127 ,018 ,012 13 ,093 ,122 ,164 14 ,014 ,066 ,202 15 ,057 ,187 ,190 16 ,053 ,060 ,030 17 ,044 ,007 ,008 18 ,013 ,011 ,063 19 ,009 ,003 ,000 -------- -------1,000 1,000 Dim 1 2 ,691 -,477 ,436 -,698 -,414 ,144 ,329 1,427 -,217 ,379 ,483 ,201 -,612 -1,164 ,966 -,568 ,210 ,493 ,287 -,489 ,397 ,337 -,409 ,227 ,095 -,604 ,003 ,222 -,142 -,528 -,150 -,640 1,838 ,880 ,363 -,198 -1,057 ,083 Contribution of dimensions to the inertia of each row point: Row Marginal Profile 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 ,064 ,084 ,082 ,064 ,065 ,041 ,031 ,011 ,092 ,029 ,027 ,127 ,093 ,014 ,057 ,053 ,044 ,013 ,009 Dim 2 ,546 ,470 ,336 ,520 ,391 ,031 ,103 ,420 ,359 ,097 ,155 ,442 ,411 ,168 ,493 ,511 ,152 ,122 ,045 Total ,223 ,266 ,164 ,146 ,096 ,011 ,282 ,000 ,308 ,011 ,151 ,201 ,367 ,340 ,334 ,170 ,110 ,458 ,003 ,769 ,736 ,500 ,665 ,487 ,042 ,384 ,420 ,667 ,109 ,306 ,643 ,778 ,508 ,827 ,681 ,262 ,580 ,048 Tabla 7.-.¡Error!Argumento de modificador desconocido.: Resultados del análisis de Correspondencias para las filas de la matriz. La misma información para las columnas aparece en la tabla siguiente. -37- Introducción SPSS Column Scores: Column Marginal Profile 1 1 MAT ,026 -,465 2 INF ,085 -,132 3 BIO ,049 ,033 4 MED ,129 -,220 5 FIS ,066 ,476 6 ATS ,063 -1,073 7 QUI ,020 -,337 8 ITE ,042 ,586 9 VET ,103 -,318 10 EMP ,054 -,049 11 ECO ,086 ,131 12 INEF ,025 -,425 13 IIN ,042 1,050 14 ARQ ,051 ,673 15 ING ,034 ,358 16 GEO ,023 -,995 17 FAR ,017 ,289 18 IAE ,025 -,238 19 ITEL ,030 1,268 20 ODO ,008 -,273 21 IAG ,020 ,010 Contribution of column points to the inertia of each dimension: Column Marginal Dim Profile 1 2 1 MAT ,026 ,020 ,001 2 INF ,085 ,005 ,108 3 BIO ,049 ,000 ,010 4 MED ,129 ,022 ,277 5 FIS ,066 ,053 ,000 6 ATS ,063 ,255 ,006 7 QUI ,020 ,008 ,003 8 ITE ,042 ,051 ,072 9 VET ,103 ,037 ,001 10 EMP ,054 ,000 ,028 11 ECO ,086 ,005 ,099 12 INEF ,025 ,016 ,040 13 IIN ,042 ,164 ,055 14 ARQ ,051 ,081 ,000 15 ING ,034 ,015 ,005 16 GEO ,023 ,082 ,197 17 FAR ,017 ,005 ,081 18 IAE ,025 ,005 ,015 19 ITEL ,030 ,173 ,000 20 ODO ,008 ,002 ,003 21 IAG ,020 ,000 ,000 Dim 2 ,085 ,542 ,216 -,706 ,020 ,145 -,168 ,630 -,057 -,343 -,516 ,600 ,547 -,006 ,178 1,395 -1,042 ,373 ,043 -,287 ,015 Contribution of dimensions to the inertia of each column point: Column Marginal Dim Total Profile 1 2 1 MAT ,026 ,346 ,009 ,356 2 INF ,085 ,046 ,623 ,668 3 BIO ,049 ,001 ,048 ,049 4 MED ,129 ,093 ,780 ,872 5 FIS ,066 ,539 ,001 ,540 6 ATS ,063 ,821 ,012 ,833 7 QUI ,020 ,155 ,031 ,186 8 ITE ,042 ,342 ,322 ,664 9 VET ,103 ,205 ,005 ,210 10 EMP ,054 ,004 ,175 ,180 11 ECO ,086 ,045 ,575 ,620 12 INEF ,025 ,160 ,260 ,419 13 IIN ,042 ,750 ,166 ,916 14 ARQ ,051 ,493 ,000 ,493 15 ING ,034 ,197 ,040 ,237 16 GEO ,023 ,235 ,377 ,611 17 FAR ,017 ,045 ,475 ,519 18 IAE ,025 ,073 ,148 ,221 19 ITEL ,030 ,706 ,001 ,707 20 ODO ,008 ,042 ,037 ,079 21 IAG ,020 ,000 ,000 ,001 -38- Introducción SPSS Tabla 7.-.¡Error!Argumento de modificador desconocido.: Resultados del análisis de Correspondencias para las filas de la matriz. Las contribuciones relativas del factor al elemento utilizadas en la interpretación, aparecen en la tercera de las tablas para cada uno de los casos. 8.- ANÁLISIS DISCRIMINANTE El propósito de la técnica consiste en buscar una función lineal de un conjunto de variables cuantitativas que permita clasificar una observación en uno de varios grupos definidos a priori. La técnica se lleva a cabo mediante el comando DISCRIMINANT que puede seleccionarse en el ítem Clasify del menú Statistics. -39- Introducción SPSS Figura 8.¡Error!Argumento de modificador desconocido.: Selección de variables en el comando DISCRIMINANT El primer paso consiste en seleccionar la variable cualitativa que determina los grupos en los que se quiere clasificar las observaciones y definir el rango de valores que puede tomar. La definición del rango se realiza en el botón Define Range y la venta na siguiente. Figura 8.¡Error!Argumento de modificador desconocido.: Definición del rango de valores de la variable dependiente. Una vez seleccionada la variable que contiene los grupos seleccionaremos las variables independientes que queremos utilizar para la clasificación. Dos son los mátodos básicos para el cálculo de la función discriminante, la introducción en la ecuación de todas las variables seleccionadas o la utilización de métodos paso a paso (Stepwise). Si se selecciona la segunda, hemos de seleccionar tambien el método quue se utilizará para la inclusión progresiva de las variables. Es necesario tener en cuenta que los métodos paso a paso no producen resultados óptimos, especialmente en el caso en el que los datos presenten una clara multicolinealidad, y si el propósito del análisis es el el de determinar as variables con mayor poder discriminante. -40- Introducción SPSS Figura 8.¡Error!Argumento de modificador desconocido.: Definición del método paso a paso para el análisis discriminente. En principio utilizaremos las opciones por defecto en el caso de que queramos utilizar un método paso a paso, aunque son posibles varias opciones diferentes para el método de selección, de las cuales la más común es la lambda de Wilks, para el criterio utilizado en la entrada de las variables, y para la forma en la que se muestran los resultados finales. El botón Statistics permite decidir parte de los resultados a analizar. Figura 8.¡Error!Argumento de modificador desconocido.: Opción Statistics del comando DISCRIMINANT. En general será suficiente con las medias de los grupos y la comparación de las mismas mediante ANOVAS univariantes. No obstante, el hecho de que no haya diferencias en las medias por separado no implica que no haya diferencias multivariantes, es decir, puede encontrarse una dirección discriminante en el espacio conjunto aunque no haya diferencia en las variables individuales. -41- Introducción SPSS Figura 8.¡Error!Argumento de modificador desconocido.: Opción Classification del comando DISCRIMINANT. Para las opciones de clasificación es posible seleccionar las probabilidades a priori que se utilizan en la clasificación, las posibilidades son suponer que ambos gupos son igualmente probables o que se toman las proporciones muestrales de cada grupo. Se pueden seleccionar los gráficos combinados o separados para cada grupo. La matriz de covarianzas que usaremos generalmente será la matriz de covarianzas dentro de los grupos (Within groups). Si deseamos la tabla de clasificación correcta seleccionaremos Summary table y si queremos información sobre cada individuo particular seleccionaremos Results for each case. Es posible guardar nuevas columnas con la predicción para cada valor, las puntuaciones sobre la función discriminante y la probablidad de pertenencia de cada observación a cada grupo, en la ventana que se obtiene del botón Save. Figura 8.¡Error!Argumento de modificador desconocido.: Opción Save del comando DISCRIMINANT. Los resultados típicos de este tipo de análisis aparecen en la tabla siguiente. Obsérvese que se ha conseguido clasificar correctamente al 93,33% de los individuos originales, es necesario tener en cuenta que este porcentaje es algo más alto de lo que debería al utilizar para la evaluación de la clasificación los mismos individuos que los que se utilizaron en la construcción de la función discriminante. La práctica correcta consiste en dividir las observaciones originales en dos conjuntos, el primero, que incluirá -42- Introducción SPSS aproximadamente el 75% de las observaciones, se utilizará para la estimación de la función discriminante; el segundo se utilizará para la evaluación de la misma. Esta forma de proceder implca que se ha de disponer de un número bastante elevado de observaciiones. -43- Introducción SPSS - - - - - - - D I S C R I M I N A N T On groups defined by DENOMINA A N A L Y S I S - - - - - - - DENOMINACION 45 (Unweighted) cases were processed. 0 of these were excluded from the analysis. 45 (Unweighted) cases will be used in the analysis. Number of cases by group Number of cases DENOMINA Unweighted Weighted 1 34 34,0 2 11 11,0 Total 45 45,0 Prior probability for each group is Label RIBERA TORO ,50000 Canonical Discriminant Functions Pct of Fcn Eigenvalue Variance 1* 1,9941 100,00 Cum Pct 100,00 Canonical After Wilks' Corr Fcn Lambda Chi-square : 0 ,333994 ,8161 : 43,317 df 7 Sig ,0000 Standardized canonical discriminant function coefficients Func 1 GRADO -,51598 AVOL 1,22630 ATOT -4,40970 ACFI 4,35790 PH ,37283 FOLIN ,76938 SOMERS -1,15571 Structure matrix: Pooled within-groups correlations variables and canonical discriminant functions (Variables ordered by size of correlation within function) Func 1 GRADO -,61638 SOMERS -,58233 FOLIN -,40215 ACFI ,28281 AVOL -,21570 ATOT ,14333 PH -,04708 Classification results No. of Actual Group Cases -------------------- -----Group 1 34 RIBERA Predicted Group Membership 1 2 --------------32 2 94,1% 5,9% Group 2 11 1 10 TORO 9,1% 90,9% Percent of "grouped" cases correctly classified: 93,33% -44- between discriminating Introducción SPSS Figura 8.¡Error!Argumento de modificador desconocido.: Resultados del Análisis Discriminante La interpretación de la función discriminante se realiza fundamentalmente a partir de las correlaciones de estructura. Osérvese como es el grado alcohólico la variable mas correlacionada con la función discriminante. -45-