Técnicas estadísticas de investigación social

Félix Calvo Gómez Técnicas estadísticas de investigación social Uso y manejo del SPSS-Windows Pulse Técnicas estadísticas de investigación social Uso y manejo del SPSS-Windows Félix Calvo Gómez Técnicas estadísticas de investigación social Uso y manejo del SPSS-Windows 2008 Universidad de Deusto Bilbao © Universidad de Deusto ISBN: 978-84-9830-628-6 Depósito Legal: BI - 2008-08 INDICE 1. MODOS DE ACCEDER AL PROGRAMA SPSS ..................................... ...........1 2. FUNCIONAMIENTO DE LOS FICHEROS O ARCHIVOS .......................... .3 2.1.EXTENSION DE LOS FICHEROS .................................................................................. 3 2.2.ABRIR UN ARCHIVO YA EXISTENTE O CREAR UN NUEVO FICHERO ........................................................................................................................ 3 2.3.TRABAJAR CON FICHEROS (PROGRAMAS) DE SINTAXIS ................................... 5 2.4.MANIPULAR UN FICHERO DE DATOS ...................................................................... 6 2.4.1. Rellenar un Fichero de Datos ............................................................................... 6 2.4.2. Manejo y Sintaxis para el Etiquetaje de las variables del Fichero de Datos ............................................................................................................... 7 2.4.3. Manejo y Sintaxis de los “Missing Values” (Valores Perdidos) ......................... 9 3. TRANSFORMAR DATOS DE UN FICHERO DE DATOS: RECODIFICACION ...................................................................................................... 11 3.1.RECODIFICAR VARIAS CATEGORIAS DE UNA VARIABLE EN UNA SOLA CATEGORIA ........................................................................................... 11 3.2.RECODIFICAR DE FORMA IDENTICA VARIAS VARIABLES (ITEMS O PREGUNTAS) A LA VEZ ......................................................................... 13 3.3.CREAR UNA NUEVA VARIABLE EN BASE A COMBINAR VALORES DE 2 O MAS VARIABLES ....................................................................... 14 4. ELECCION DE CASOS (SUJETOS) DEL FICHERO DE DATOS PARA OPERAR CON ELLOS................................................................................................. 17 4.1.SELECCION DE CASOS ............................................................................................... 17 4.2.SEGMENTAR EL FICHERO ......................................................................................... 19 5. CALCULAR NUEVOS VALORES .......................................................................... 20 6. COMO IMPRIMIR Y MODIFICAR LA PRESENTACION DE RESULTADOS ........................................................................................................ 22 7. GUARDAR UN ARCHIVO MANIPULADO ....................................................... 23 8. CALCULOS ESTADISTICOS ................................................................................... 25 8.1. FRECUENCIAS ............................................................................................................ 25 8.1.0. Formulas y Aplicación ....................................................................................... 25 8.1.0.1. Fórmulas ...................................................................................................... 25 8.1.0.2. Tipo de variables requeridas ........................................................................ 25 8.1.0.3. Utilidades e interpretación ........................................................................... 25 8.1.1. Manejo del SPSS................................................................................................. 25 8.1.2. Resultados e interpretación ................................................................................. 28 8.1.3. Ejercicios y Sintaxis ............................................................................................ 30 8.2. DESCRIPTIVOS ........................................................................................................... 34 8.2.0. Formulas y Aplicación ....................................................................................... 34 8.2.0.1. Fórmulas ...................................................................................................... 34 8.2.0.2. Tipo de variables requeridas ........................................................................ 34 8.2.0.3. Utilidades e interpretación ........................................................................... 34 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.2.1. Manejo del SPSS................................................................................................. 35 8.2.2. Resultados e interpretación ................................................................................. 36 8.2.3. Ejercicios y Sintaxis ............................................................................................ 36 8.3. COMPARAR MEDIAS ................................................................................................ 43 8.3.1. “MEDIAS...”...................................................................................................... 43 8.3.1.0. Fórmulas y Aplicación ................................................................................. 43 8.3.1.0.1. Fórmulas ............................................................................................... 43 8.3.1.0.2. Tipos de variables requeridas ................................................................ 43 8.3.1.0.3. Utilidad e interpretación........................................................................ 43 8.3.1.1. Manejo del SPSS.......................................................................................... 43 8.3.1.2. Resultados e interpretación .......................................................................... 45 8.3.1.3. Ejercicios y Sintaxis ..................................................................................... 46 8.3.2. PRUEBA T PARA MUESTRAS INDEPENDIENTES................................. 49 8.3.2.0. Fórmulas y Aplicación ................................................................................ 49 8.3.2.0.1. Fórmulas ............................................................................................... 49 8.3.2.0.2. Tipos de variables requeridas ................................................................ 49 8.3.2.0.3. Utilidades e interpretación .................................................................... 49 8.3.2.1. Manejo del SPSS.......................................................................................... 49 8.3.2.2. Resultados e interpretación .......................................................................... 51 8.3.1.3. Ejercicios y Sintaxis ..................................................................................... 51 8.3.3. PRUEBA T PARA MUESTRAS RELACIONADAS .................................... 58 8.3.3.0. Fórmulas y Aplicación ................................................................................. 58 8.3.3.0.1. Fórmulas ............................................................................................... 58 8.3.3.0.2. Tipos de variables requeridas ................................................................ 58 8.3.3.0.3. Utilidades e interpretación .................................................................... 58 8.3.3.1. Manejo del SPSS.......................................................................................... 58 8.3.3.2. Resultados e interpretación .......................................................................... 60 8.3.3.3. Ejercicios y Sintaxis ..................................................................................... 61 8.4. TABLAS DE CONTINGENCIA ................................................................................. 67 8.4.0. Formulas y Aplicación ....................................................................................... 67 8.4.0.1. Fórmulas ...................................................................................................... 67 8.4.0.2. Tipo de variables requeridas ........................................................................ 69 8.4.0.3. Utilidades e interpretación ........................................................................... 69 8.4.1. Manejo del SPSS................................................................................................. 70 8.4.2. Resultados e interpretación ................................................................................. 71 8.4.3. Ejercicios y Sintaxis ............................................................................................ 74 8.5. NEUTRALIZACIÓN DE VARIABLES ..................................................................... 79 8.5.0. Formulas y Aplicación ....................................................................................... 79 8.5.0.1. Fórmulas ...................................................................................................... 79 8.5.0.2. Tipo de variables requeridas ........................................................................ 79 8.5.0.3. Utilidades e interpretación ........................................................................... 79 8.5.1. Manejo del SPSS................................................................................................. 79 8.5.2. Resultados e interpretación ................................................................................. 82 8.5.3. Ejercicios y Sintaxis ............................................................................................ 84 8.6. ANOVA DE UN FACTOR ........................................................................................... 91 8.6.0. Formulas y Aplicación ....................................................................................... 91 8.6.0.1. Fórmulas ...................................................................................................... 91 8.6.0.2. Tipo de variables requeridas ........................................................................ 93 8.6.0.3. Utilidades e interpretación ........................................................................... 94 8.6.1. Manejo del SPSS................................................................................................. 94 8.6.2. Resultados e interpretación ................................................................................. 96 8.6.3. Ejercicios y Sintaxis ............................................................................................ 98 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.7. ANOVA DE DOS FACTORES .................................................................................. 106 8.7.0. Formulas y Aplicación ..................................................................................... 106 8.7.0.1. Fórmulas .................................................................................................... 106 8.7.0.2. Tipo de variables requeridas ...................................................................... 106 8.7.0.3. Utilidades e interpretación ......................................................................... 107 8.7.1. Manejo del SPSS............................................................................................... 107 8.7.2. Resultados e interpretación ............................................................................... 111 8.7.3. Ejercicios y Sintaxis .......................................................................................... 113 8.8. CORRELACION ........................................................................................................ 120 8.8.0. Formulas y Aplicación ..................................................................................... 120 8.8.0.1. Fórmulas .................................................................................................... 120 8.8.0.2. Tipo de variables requeridas ...................................................................... 120 8.8.0.3. Utilidades e interpretación ......................................................................... 121 8.8.1. Manejo del SPSS............................................................................................... 121 8.8.2. Ejercicios, resultados e interpretación .............................................................. 125 8.9. REGRESIÓN MÚLTIPLE Y REGRESIÓN LINEAL ........................................... 129 8.9.0. Formulas y Aplicación ..................................................................................... 129 8.9.0.1. Fórmulas .................................................................................................... 129 8.9.0.2. Tipo de variables requeridas ...................................................................... 130 8.9.0.3. Utilidades e interpretación ......................................................................... 130 8.9.1. Manejo del SPSS............................................................................................... 130 8.9.2. Ejercicios, resultados e interpretación .............................................................. 137 8.10. FIABILIDAD DE LOS TEST .................................................................................. 145 8.10.0. Formulas y Aplicación ................................................................................... 145 8.10.0.1. Fórmulas ................................................................................................. 145 8.10.0.2. Tipo de variables requeridas ................................................................... 145 8.10.0.3. Utilidades e interpretación ...................................................................... 145 8.10.1. Manejo del SPSS............................................................................................. 146 8.10.2. Ejercicios, resultados e interpretación ............................................................ 149 BIBLIOGRAFIA ........................................................................................................... 161 CODIGOS DE INTERPRETACIÓN .................................................................... 168 © Universidad de Deusto - ISBN 978-84-9830-628-6 © Universidad de Deusto - ISBN 978-84-9830-628-6 1. MODOS DE ACCEDER AL PROGRAMA SPSS15.0 Para abrir el programa SPSS se debe colocar el puntero del ratón en Inicio situado en la parte inferior izquierda de la pantalla original y PULSAR una vez, después se PULSA en la opción Todos los Programas, a continuación en la opción SPSS para Windows y por último en SPSS para Windows con lo cual el programa entre en funcionamiento. En la Fig. 1 el procedimiento es más sencillo puesto que tras PULSAR en Inicio, la opción SPSS15 es directamente ofertada y, por tanto, tras PULSAR sobre ella el programa está disponible y en funcionamiento. Figura 1. La primera ventana de diálogo que ofrece el programa (Fig. 2) ofrece la posibilidad de Ejecutar el tutorial, Introducir datos (crear un archivo de datos), ..., Abrir una fuente de datos existente como en este caso el fichero “CITEC.sav”. 1 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 2. Este fichero, que queda coloreado cuando se PULSA una vez sobre él, se abrirá cuando se PULSA dos veces inmediatamente seguidas sobre él o se PULSA sobre el botón Aceptar. Entonces aparecerán (Fig. 3) todos los datos y las variables que contiene en la pantalla principal del SPSS llamada Editor de datos SPSS que va precedida del nombre del fichero, en este caso CITEC. Figura 3. Es importante señalar que pueden suceder dos cosas en la ventana inicial del SPSS expuesta en la Fig. 2. Una, que tal ventana no surja puesto que se ha señalado en ella misma la opción No volver a mostrar este cuadro de diálogo. En tal caso, debe abrirse el fichero de datos según se explica más adelante en el apartado 2.2. Abrir un Archivo. Otra, que tal fichero de datos no esté en la lista ofrecida. En este caso, se PULSA una vez en la opción Más Archivos y se procede de la manera que se explica en ese apartado 2.2. Abrir un Archivo. 2 © Universidad de Deusto - ISBN 978-84-9830-628-6 2. FUNCIONAMIENTO DE LOS ARCHIVOS 2.1. EXTENSIÓN DE LOS ARCHIVOS Los archivos del SPSS, como todos los documentos del ordenador tienen una extensión de tres letras que los identifica. Aquí destacaremos los tres modelos: *.sav, *.spo y *.sps (entendiendo que el * es un nombre cualquiera del archivo): *.sav Ö Identifica los archivos de datos, donde aparecen codificadas las respuestas de los sujetos a los ítems/preguntas de un determinado cuestionario. Contiene, por tanto, datos numéricos o alfanuméricos (letras). *.spo ÖIdentifica los archivos de resultados, donde aparecen las operaciones y resultados que el programa ha efectuado al pedirle que ejecute alguna operación mediante los comandos adecuados. *.sps ÖIdentifica los archivos de sintaxis, es decir, los archivos donde pueden escribirse toda una serie de órdenes escritas para que el programa las ejecute y puedan desde modificarse los archivos de datos hasta conseguir los resultados estadísticos solicitados. 2.2. ABRIR UN ARCHIVO YA EXISTENTE O CREAR UN NUEVO ARCHIVO Si ya se ha trabajado anteriormente con el SPSS y se dispone de archivos bien de datos, bien de resultados o bien de sintaxis, es muy sencillo acceder a cualquiera de ellos. Por ejemplo, Fig. 4, basta con PULSAR en el botón superior izquierdo Archivo, posteriormente en la opción Abrir y después en Sintaxis. Se abrirá una ventana de diálogo, Fig. 5, donde aparecerán en el directorio o subdirectorio correspondiente toda una serie de archivos de sintaxis, de los cuales se elige el que se desea (en este caso, “SintaxisEtiquetaje”) tan solo PULSAndo sobre su nombre y después pulsando en el botón Abrir con lo cual aparecerá el contenido del archivo (Fig. 6). Figura 4. 3 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 5. Figura 6. Si se quiere crear un nuevo archivo bien de datos, bien de resultados o bien de sintaxis la forma de realizarlo es parecida al anterior pero una vez pulsado en el botón Archivo se PULSA a continuación en la opción Nuevo y posteriormente se elige el tipo de archivo que se desea, en este caso, Datos (Fig. 7) Figura 7. Lógicamente, el fichero de datos abierto está vacío y, por tanto, en disposición para que se introduzcan los datos así como las características de las variables (Fig. 8). 4 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 8. 2.3. TRABAJAR CON FICHEROS (PROGRAMAS) DE SINTAXIS El programa estadístico SPSS está diseñado para que el usuario pueda elegir en la pantalla aquellos tipos de cálculos que le sean necesarios. Para ello, el programa va ofreciendo progresivamente ventanas de diálogo sobre las cuales el usuario, a través del manejo del “ratón” y el “puntero”, señala lo que le interesa hasta finalizar ordenando al programa que ejecute los cálculos solicitados. Los ficheros o programas de sintaxis son un conjunto de órdenes informáticas que realizan directamente los cálculos estadísticos sin necesidad de que el usuario trabaje con el “ratón” eligiendo paso a paso de entre las ofertas que aparecen en la pantalla. Se trata, por tanto, de paquetes de órdenes, construidas en base a un lenguaje (vocablos) muy preciso y que suelen ser muy breves. Es el caso, por ejemplo, del cálculo de medias, desviación típica, etc. cuyas órdenes se exponen en la Fig. 9. Figura 9. La primera orden Get file="c:\Personal\Libroestad\libro3º\Fichelib\Escuel.sav"/Keep=all. hace entender al programa donde se encuentra (directorio, subdirectorio, etc.) el fichero de datos sobre el que tiene que trabajar. Es una orden básica y siempre necesaria. Obviamente cada usuario debe saber dónde se encuentra el fichero de datos con el que trabajar. La segunda Descriptives le indica que se trata del cálculo de medias. La siguiente, Variables=v10 indica sobre qué variable se desea calcular la media y la última /Statistics=Mean Stddev Variance Min Max. concreta los estadísticos que se solicitan: media, desviación típica, varianza, valor máximo y valor mínimo respectivamente. La forma de hacer funcionar los programas de sintaxis es ciertamente fácil. En primer lugar, se sombrean las órdenes del programa (pulsando el puntero y pasándolo por encima de las órdenes), después se PULSA en el botón superior Ejecutar y, posteriormente en la opción Selección tal y como aparece en la Fig. 10. 5 © Universidad de Deusto - ISBN 978-84-9830-628-6 Esta forma operativa de hacer funcionar los programas de sintaxis siempre va a ser la misma sean cuales sean las órdenes escritas. Por tanto, a lo largo del libro se hará referencia a la Fig. 10 para recordar la forma por la que se pueden obtener los diferentes resultados estadísticos solicitados. Figura 10. 2.4. MANIPULAR UN FICHERO DE DE DATOS 2.4.1. Rellenar el Fichero de Datos Este es un apartado fundamental para conocer en todo momento qué datos se tienen y qué características poseen las variables incluidas en el fichero de datos. También es importante para la presentación en pantalla tanto de los datos como de las variables así como para la estética y presentación de los resultados que se obtendrán al ejecutar los distintos comandos. La clave está en la parte inferior izquierda de la pantalla donde en principio aparecen todos los datos del archivo (Fig. 3) donde se ofrecen dos posibilidades: Vista de Datos y Vista de Variables. En la Fig. 11 se ha elegido Vista de Variables. Figura 11. Como puede apreciarse se puede acceder al etiquetaje de las variables, es decir, dar nombre o título a la variable, quitar valores perdidos (missing) en el caso de que los haya, definir y poner nombre a los valores de las categorías o grupos de diferentes variables nominales, establecer la anchura de las columnas, decidir el número de decimales con los que se quiere trabajar y determinar la medida de las variables: sin son nominales, ordinales o de escala (cuantitativas). En la Fig. 12 puede verse un ejemplo realizado con el fichero “Citec.sav” en el que aparecen señalados en cada variable tanto el Tipo, la Anchura, los Decimales, la Etiqueta o nombre/título de cada variable (se sugiere que sean nombres cortos preferentemente con ocho dígitos como máximo), los Valores que contiene esa variable (cuando son variables cuantitativas aparecerá escrito Ninguno y cuando son variables nominales aparecerá el nombre de la primera de las categorías de esa variable, por ejemplo en la variable Edad, que tiene cuatro categorías, aparece el número de la primera categoría, el 1, y después de la coma aparece su nombre 15-24), los valores Perdidos, que en este ejemplo aparece Ninguno es decir no se considera ningún valor como perdido o missing, las Columnas cuyo número debe coincidir con el de Anchura o ser mayor, la Alineación o sea si el número comienza en la derecha, se coloca centrado o a la izquierda de la casilla, y, por último la Medida donde se especifica si se trata de una variable nominal, ordinal o de escala. 6 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 12. Para realizar por primera vez estas especificaciones y estas escrituras de nombres, etiquetas, etc. basta con situar el puntero del ratón en la casilla correspondiente (según la variable o línea en cuestión y la columna adecuada) que estará en blanco y PULSAR dos veces inmediatamente seguidas (doble clic). Una vez que se realiza este doble clic aparecerá la ventana de diálogo particular en la que podrá escribirse todo lo necesario. La misma operación se realizará casilla a casilla hasta que todas las variables estén etiquetadas, con valores perdidos, con la anchura que se desee, etc. Cuando se desee modificar el contenido de algunas casillas, en particular aquellas definidas por números, basta con colocar el puntero del ratón en esa casilla y se PULSA una sola vez apareciendo a mano derecha un pequeño recuadro con una flecha hacia arriba y otra hacia abajo con el fin de aumentar o disminuir el número existente. (Fig. 13). Tras realizar en ella los cambios pertinentes (en la variable Nación cambiar la anchura a 4) basta con colocar el ratón en otra casilla y PULSAR en ella con lo cual quedará recogido el cambio anterior. Figura 13. Cuando se PULSA en cualquier casilla de las columnas Alineación o Medida aparece a mano derecha una sola flecha hacia abajo donde se ofrecen las alternativas que se pueden elegir. Y cuando se PULSA en alguna casilla de la columna Etiqueta no aparece nada porque directamente puede escribirse sobre ella. 2.4.2. Manejo y Sintaxis para el Etiquetaje de las variables del Fichero de Datos A veces, un determinado fichero de datos puede no tener etiquetadas sus variables, es decir, las variables no tienen nombre ni tampoco tienen nombre sus distintas categorías si se trata de una variable discreta o categórica. En ese caso, el manejo del programa es el siguiente. En primer lugar se abre el fichero de datos, por ejemplo el fichero “Escuel-00.sav” y aparecerá en pantalla. Posteriormente, se acude a la variable que se quiere etiquetar, por ejemplo, la v34 y se 7 © Universidad de Deusto - ISBN 978-84-9830-628-6 escribe en la columna Etiqueta el nombre de la variable, en este caso “Sexo”, como aparece en la Fig. 14. A continuación, se escribe el nombre de las dos categorías incluidas en esa variable: los 1 representan a los “Hombres” y los 2 a las “Mujeres”. Para ello, se PULSA en la columa Valores y aparecerá la ventana de diálogo donde se colocan el valor del dígito de la categoría y la Etiqueta (nombre) de esa categoría tal y como aparece en la Fig. 15. Tras PULSAR en Añadir los datos quedarán recogidos y se trasladarán al cuadro central en blanco como aparece en la Fig. 16. Figura 14. Figura 15. Figura 16. Cuando se han etiquetado todas las categorías de la variable basta con PULSAR en “Aceptar” para que quede grabado en el fichero correspondiente. Con este procedimiento, pueden rellenarse todas las etiquetas de las categorías de las variables nominalaes así como los nombres de los valores incluidos en cada una de esas variables. Como las variables cuantitativas (de escala) no tienen categorías tan sólo será necesario etiquetar el nombre de la variable. La sintaxis, es decir, la serie de órdenes para los casos de etiquetaje de las variable de cualquier fichero de datos es ciertamente sencilla. La Fig. 17 ofrece un ejemplo de cómo se puede realizar el proceso en el caso del ejemplo anterior. 8 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 17. En el programa aparece la primera línea de órdenes “Get file...” con lo cual el programa entiende a qué fichero de datos se refiere (Escuel-00.sav) y en qué subdirectorio del ordenador se encuentra c:\Personal\Libroestad\libro3º\Fichelib\. La orden var labels acoge el nombre de la variable y la orden value labels acoge los nombres, en este caso, de las dos categorías de esa variable. Obviamente, lo mismo podría hacerse con cualquier otra variable nominal. Deben tenerse muy en cuenta en todos los programas de sintaxis el tipo de signos que se deben utilizar como por ejemplo las comillas (“), el signo (`), los espacios en blanco entre palabras, el punto al final de cada línea y al final del programa. Si no se hace así, el programa indicará ¡ERROR! cuando se ejecute. Para ejecutar el programa de sintaxis es necesario en primer lugar sombrear las órdenes operativas (no así el título del programa: PROGRAMA PARA EL ETIQUETAJE DE VARIABLES Y CATEGORIAS), después PULSAR Ejecutar y finalmente PULSAR en la opción Selección como indica la Fig. 18. Figura 18. El programa se ejecutará y en el Fichero de Datos “Escuel-00.sav” aparecerá el nombre Sexo en el apartado Etiqueta de la v34 así como las dos categorías en el apartado Valores. 2.4.3. Manejo y Sintaxis de los “Missing Values” (Valores Perdidos) Suele ser muy frecuente ofrecer en las preguntas de los cuestionarios (o test o escalas, etc) la posibilidad de responder “No Sabe/No Contesta”. Obviamente, cuando se quieren conocer los estadísticos de las respuestas válidas, es decir, de aquellas diferentes al No Sabe/No Contesta deberá darse la orden de que éstas no sean contabilizadas. En el caso, por ejemplo, de la v1 en el fichero “Salud-00.sav” existe el valor 0 que corresponde a NS/NC y no se desea que entre en los cálculos. Para ello, basta con abrir el fichero de datos y PULSAR en la columna ”Perdidos” correspondiente a la v1 tal y como aparece en la Fig. 19. 9 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 19. Aparecerá la siguiente ventana de diálogo (Fig. 20) donde se debe señalar la opción “Valores perdidos discretos” y escribir el valor 0. Posteriormente es necesario PULSAR en Aceptar para que la orden se haga efectiva. Figura 20. La serie de órdenes de la sintaxis para los valores perdidos es muy breve, como se indica en la Fig. 21 utilizando el ejemplo anterior Figura 21. En el propio fichero de datos aparecerá efectivamente el 0 como valor perdido en la variable v1 como se ve en la Fig. 22. Figura 22. Si en lugar de tener un valor perdido se tienen dos o tres (no más) , la orden sería: missing value v1 (0,7). 10 © Universidad de Deusto - ISBN 978-84-9830-628-6 De la misma forma, si se quieren eliminar ciertos valores, por ejemplo, del 1 al 5 basta con colocar en el paréntesis la orden (1 thru 5). Por último si se quiere eliminar un valor determinado y, además, un intervalo de valores, tal y como el 0 y desde el 2 al 5 la orden sería missing value v1 (0,2 thru 5). 3. TRANSFORMAR DATOS DE UN FICHERO DE DATOS El SPSS ofrece mediante el botón Transformar toda una serie de posibilidades para responder a los condicionantes propuestos en los diversos cálculos. Si se quiere calcular, por ejemplo, la media de una variable teniendo en cuenta a toda la muestra no se imponen condiciones o restricciones a los datos (salvo los “missing values” en cada variable). Sin embargo, si se desea calcular esa medida sólo entre los hombres, o sólo entre las mujeres..., en estos casos deberá ser indicado al ordenador la condición que debe cumplirse. Particularmente importante es el proceso de remodificación cuando se quiere reducir el número de categorías de que consta una determinada variable. 3.1. RECODIFICAR VARIAS CATEGORÍAS DE UNA VARIABLE EN UNA SOLA CATEGORÍA. Por ejemplo, recodificar la v25, denominada “Religión”, del fichero de datos “Campaña-00.sav” que presenta 8 categorías en sólo dos categorías con las siguientes condiciones: la nueva categoría 1 agrupara a las categorías antiguas: 1 Muy buen católico, 2 Católico practicante, 3 católico no muy practicante y 4 católico no practicante, y la nueva categoría 2 agrupara a las categorías antiguas: 5 Indiferente, 6 Ateo, 7 Creyente de otra religión y 8 Otros. Estas dos nuevas categorías (denominadas 1 Católicos” y 2 “No católicos” formarán una nueva variable en el fichero de datos con el nombre de “Religion Recod”. Para ello, una vez abierto el fichero, se PULSA en Transformar y posteriormente en la opción En distintas variables (si se elige la opción de En las mismas variables se corre el riesgo de perder los datos originales de esa variable) como indica la Fig. 23 Figura 23. La nueva ventana de diálogo (Fig. 24) permite recodificar el ejemplo propuesto de la forma siguiente 11 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 24. En la parte superior derecha está el recuadro titulado Variable de resultado donde hay dos pequeños recuadros blancos, uno para el Nombre de la nueva variable que se va a crear (en este caso, v27) y el otro para la Etiqueta (ReligionRecodificada). Tras PULSAR en el botón Cambiar (atención: el nombre de la variable debe tener todas las letras o números seguidos sin espacio en blanco) y posteriormente en el botón Valores antiguos y nuevos aparecerá una nueva pantalla donde se indicarán las órdenes para hacer efectiva la recodificación como se puede ver en la Fig. 25. Figura 25. Efectivamente, la primera orden se realiza pulsando en el botón Rango y escribiendo el 1 en el primer recuadro en blanco y después el 4 en el recuadro debajo de “hasta” y pulsando después en el botón Valor (debajo del recuadro Valor nuevo) y escribiendo el nuevo dígito, que en este caso es el 1. Para hacer efectivo estos cambios se deberá PULSAR después en el botón Añadir y quedará fijado en el recuadro en blanco con el título de AntiguoÆ Nuevo. Tras concluir todos los cambios, la ventana quedará como en la Fig. 26. 12 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 26. Finalmente, para culminar la operación basta con PULSAR en el botón inferior Continuar y, en efecto, el fichero de datos “Campaña-00.sav” tendrá la nueva variable v27 con su etiqueta, como puede verse en la Fig. 27. Figura 27. Toda esta operación puede realizarse mediante la adecuada sintaxis o serie de ordenes tal y como aparece en la Fig. 28 y siguiendo los pasos necesarios para su ejecución como se explica al final del apartado 1 (es decir, sombreando las órdenes, pulsando en ejecutar y posteriormente pulsando en selección) y se puede ver en la Fig. 7. Figura 28. 3.2. RECODIFICAR DE FORMA IDÉNTICA VARIAS VARIABLES (ÍTEMS O PREGUNTAS) A LA VEZ. En muchas ocasiones es necesario recodificar de la misma manera a varias variables o preguntas de un determinado cuestionario. Se puede poner como ejemplo, el querer recodificar la v22, v23, v24 y v25 del fichero “Drogode-00.sav” creando en cada una de ellas tres grupos: el 1 abarca todos los valores del 1 al 5, el 2 abarca del 6 al 9 y el tercer grupo recoge a los missing values, es decir, quienes hayan contestado 0 (NS/NC). . 13 © Universidad de Deusto - ISBN 978-84-9830-628-6 Para realizar esta tarea se pueden seguir los pasos explicados en el apartado anterior utilizando la opción Transformar, En distintas variables, etc. Pero utilizando el adecuado programa de sintaxis se puede hacer de forma más rápida y sencilla. La serie de órdenes aparecen en la Fig. 29. Figura 29. El programa de sintaxis, como se puede apreciar es muy sencillo porque todos los valores entre 1 y 5 quedan renumerados con el valor 1, los entre 6 y 9 con el valor 2, los de valor 0 quedan iguales. Las nuevas variables, por otra parte, quedan etiquetadas, así como también quedan etiquetadas en cada una de ellas las tres categorías “Desacuerdo”, “Acuerdo” y “NS/NC” especificando, por último, que el valor cero es missing value (valor perdido) como aparece en la Fig. 30.. Figura 30. 3.3. CREAR UNA NUEVA VARIABLE EN BASE A COMBINAR VALORES DE 2 O MÁS VARIABLES. Un ejemplo de este caso puede ser el de crear una nueva variable en el fichero “Salud-00.sav” basándose en la variable v2 (“Abandonar los estudios”: 1=No 2=Sí 0=NS/NC) y en la v23 (“Detenido por la policía”: 1=Sí 2=No 0=NS/NC) de forma que se formen cinco grupos diferentes caracterizados de la siguiente manera: - grupo 1: No abandono y Sí detenido - grupo 2: No abandono y No detenido - grupo 3: Sí abandono y Sí detenido - grupo 4: Sí abandono y No detenido - grupo 5: Los que contestan 0 en cualquiera de las dos variables 14 © Universidad de Deusto - ISBN 978-84-9830-628-6 La sintaxis, como puede apreciarse en la Fig. 31 es fácil teniendo en cuenta que a la nueva variable creada se le adjudica el nombre de “Vnueva” Figura 31. Los cambios, efectivamente, se han producido en el fichero (Fig. 32) tanto en la creación de la “Vnueva” como en las etiquetas de las categorías (Fig. 33) Figura 32. Figura 33. Se puede exponer otro ejemplo un tanto más complicado con el fin de ofrecer otras alternativas de órdenes en la sintaxis. Supongamos que del fichero “Drogode-00.sav” se desean formar cuatro grupos de sujetos en base a tres variables: la v4 “Nivel de estudios” (1=Básicos 2=Medios 3=Universitarios), la v5 “Edad” (1=Menos de 25 años 2=Entre 26 y 35 años 3=Entre 36 y 45 años 4=Entre 46 y 55 años y 5=Más de 56 años) y la v8 “yonki que se droga diariamente” (que se responde eligiendo un valor que va desde el 1=Nada toxicómano hasta el 9=Muy toxicómano) con las siguientes características: 15 © Universidad de Deusto - ISBN 978-84-9830-628-6 - grupo 1: Universitario, menor de 36 años y no considera al yonki toxicomano (es decir, en la pregunta v8 responde con un valor de 4 o menos). - grupo 2: Básicos, mayor que 45 años y considera al yonki muy toxicómano (responde con una puntuación de 6 o más). - grupo 0: El resto de sujetos que no cumplen las condiciones anteriores y aquellos con respuesta NS/NC en cualquiera de las tres variables Figura 34. Como se puede apreciar en la Fig. 34, las dos primeras órdenes corresponden respectivamente al grupo 1: universitarios, menores de 36 años y puntuando al yonki como toxicómano con un valor menor que 5 (la orden es: if ((v4=3) and (v5<3) and (v8<5)) V=1. El grupo 2 lo constituyen aquellos sujetos de estudios Básicos, mayores de 45 años y puntuando la toxicomanía del yonki con un valor de 6 o más (la orden es if ((v4=1) and (v5>3) and (v8>5)) V=2. El grupo 0, o grupo tercero, lo constituyen todos aquellos sujetos “distintos” a los anteriores. Y ello, se puede producir por algunas de las siguientes razones: - han contestado NS/NC a alguna de las tres variables (la orden es if ((v4=0) or (v23=0) or (v8=0)) V=0. - son sujetos con estudios básicos: la orden es if (v4=2) V=0. - son universitarios pero tienen 36 años o más: la orden es if ((v4=3) and (v5>2)) V=0. - son universitarios, tienen menos de 36 años pero puntuan a los yonkis con un valor de 5 o más: la orden es if ((v4=3) and (v5<3) and (v8>4)) V=0. - los de estudios básicos pero con 45 años o menos: la orden es if ((v4=1) and (v5<4)) V=0. - los de estudios básicos, mayores de 45 años pero con puntuación al yonki menor de 6: la orden es: if ((v4=1) and (v5>3) and (v8<6)) V=0. Todas estas órdenes se exponen para visualizar los distintos grupos que se pudieran crear en base a las muy distintas combinaciones y, por tanto, poder comparalos entre ellos para obtener las conclusiones pertinentes. Cuando existe entre las variables de un determinado archivo una variable que recoja distintos países, el construir distintos grupos según sean los países (junto con una o dos características más) es muy útil e interesante. Lo mismo podría decirse cuando se tiene la variable Clase Social o la variable Edad o la variable Ideología Política o cualquier tipo de variable donde se mida el mayor o menor acuerdo con alguna determinada cuestión u otras varias porque la información aportadas y las diferencias que se puedan producir son altamente clarificadoras. A modo de complemento se ofrecen otras dos órdenes de sintaxis con el fin de añadir otras formas de programar pero aclarando que las variables utilizadas son genéricas y no se refieren al ejemplo utilizado anteriormente, así como Vxx es el nombre de una variable ficticia. 16 © Universidad de Deusto - ISBN 978-84-9830-628-6 if ((v3=1 or v3=2) and (v10=1) and (v1=1) Vxx=1 if (v5<4 and v3=1) and (v6=1)) Vxx=2 En cualquier caso, si sólo interesa, como en este ejemplo, distinguir dos grupos principales y en el tercero juntar a todos los demás sujetos, las órdenes son ciertamente breves y sencillas Get file="c:\Personal\Libroestad\libro3º\Fichelib\Drogode-00.sav"/Keep=all. if ((v4=3) and (v5<3) and (v8<5)) V=1. if ((v4=1) and (v5>3) and (v8>5)) V=2. Recode V (sysmis=0) (1=1) (2=2) into V_1. Las dos primeras líneas de órdenes son iguales que las de la Fig. 34. Después se aplica un “Recode” para crear una nueva variable, aquí designada como V_1, donde aparezcan claramente los 1 y los 2, y a todos los demás sujetos se les asigne el valor 0 (sysmis=0) con lo cual la nueva variable V_1 sólo tendrá esos tres grupos, los cuales deberán ser etiquetados debidamente. ATENCIÓN: Es importante hacer notar que cuando a un determinado fichero de datos se le añade una nueva variable mediante la sintaxis de recodificación en una nueva variable, el SPSS ofrece como resultado un nuevo fichero de datos que lo denomina “Sin título” y, por ello, es necesario adjudicarle un título que, en numerosas ocasiones, puede ser el mismo título que el del fichero original, aunque por precaución conviene llamarlo de otra manera distinta al del original, en ese caso podría ser “Drogode-01.sav”. 4. ELECCION DE CASOS (SUJETOS) DEL FICHERO DE DATOS PARA OPERAR CON ELLOS. 4.1. SELECCIÓN DE CASOS Este operador permite seleccionar un grupo o categoría concreta de una variable. Por ejemplo, el grupo de Hombres en la variable Sexo, los de clase social baja en la variable Clase Social, los de España en la variable País, los de entre 15-24 años en la variable Edad, los que están de acuerdo en una determinada variable (pregunta o item), etc. Para acceder a esta opción es necesario dirigirse en el Fichero de Datos al botón Datos situado en la parte superior, PULSARLO y posteriormente PULSAR Seleccionar casos, como se ve en la Fig. 35: Figura 35. 17 © Universidad de Deusto - ISBN 978-84-9830-628-6 Al acceder a esta opción aparece en pantalla la siguiente ventana de diálogo (Fig. 36) Figura 36. En esta ventana, la opción más usual suele ser la titulada Si se satisface la condición. Una vez elegida, tras pulsar dentro del pequeño circulo blanco se PULSA El botón Si... apareciendo el cuadro de diálogo donde se establecen las condiciones. El siguiente paso (Fig. 37) será indicar qué condición concreta se quiere satisfacer de entre las muchas posibles. Aquí se elige una sencilla: que v8=1 dado que este es el dígito representativo de aquellos que tienen Menos de 15 años de Educación en la variable v8 Años de Educación. Para ello, es necesario PULSAR una vez sobre esa variable v8 situada en el recuadro grande de la izquierda donde se muestran todas las variables y PULSAR después el pequeño recuadro con la flecha hacia la derecha para que esa variable se sitúe en el rectángulo en blanco. Después se elige el signo que se necesite, en este caso el signo =. Por último, se elige el número 1. Todo ello irá apareciendo sucesivamente en el rectángulo blanco. Tras PULSAR en Continuar se volverá al cuadro de diálogo de la Fig. 37. en la que se debe PULSAR en Aceptar para que el programa ejecute esa selección. Figura 37. El significado de los diversos signos ofrecidos es el siguiente: = Se selecciona sólo este grupo. > Se seleccionan todos aquellos grupos cuyo dígito de codificación sea mayor que el indicado. < Se seleccionan todos aquellos grupos cuyo dígito de codificación sea menor que el indicado. ≥ Se seleccionan aquellos grupos con dígito igual o mayor que el indicado. ≤ Se seleccionan aquellos grupos con dígito igual o menor que el indicado. ˜= Se seleccionan aquellos grupos que no estén codificados con el dígito indicado. & Acumula dos condiciones. Por ejemplo, v8 ˜= 2 & v8 ˜= 3 cuyo significado es que se seleccionan todos aquellos grupos que no sean igual a 2 ni tampoco igual a 3. 18 © Universidad de Deusto - ISBN 978-84-9830-628-6 Existe también en el recuadro de la derecha titulado Funciones, toda una amplia gama de posibilidades para ejecutar no sólo ecuaciones matemático-estadísticas sino condicionantes de tipo tiempo, fecha, expresiones alfanuméricas, y un amplísimo etcétera con el fin de seleccionar aquellos sujetos que cumplan/no cumplan la condición establecida. Toda la operativa anterior puede ejecutarse con una orden de sintaxis muy breve que va escrita inmediatamente después de definir sobre qué fichero de datos se va a trabajar: Get file="c:\Personal\Libroestad\libro3º\Fichelib\Citec.sav"/Keep=all. Select if (v8=1). Obviamente, la expresión V8=1 puede ser cambiada según las necesidades de los cálculos por cualquier otro símbolo tal como v8>1, v8˜=1, etc. según se expone anteriormente. 4.2. SEGMENTAR EL FICHERO El proceso de segmentación de archivo es relativamente similar al anterior, si bien presenta una diferencia clara: no se elige un único grupo o categoría de una determinada variable, sino que se eligen a todas las categorías por separado. Esto quiere decir, que se obtendrán los resultados que se desean para todos y cada uno de los grupos que configuren la variable segmentada. Así, por ejemplo, se puede calcular la media según la variable Sexo para “Hombre” o “Mujer”, mediante la segmentación de la variable Sexo (v5) en el fichero “Citec-00.sac”. Es como si se seleccionara de manera individual cada uno de los grupos de la variable. Este operador se obtiene tras PULSAR en el botón superior Datos y tras PULSAR en la opción Segmentar archivo (Fig. 38). Figura 38. En la nueva ventana de diálogo que aparece (Fig. 39) se señala la opción Comparar los grupos (pulsando en el pequeño circulo blanco situado a su izquierda), y, después, trasladando al rectángulo en blanco, titulado Grupos basados en:, la variable que se quiere segmentar, simplemente PULSANDO sobre ella y posteriormente PULSANDO en el pequeño recuadro con la flecha hacia la derecha. 19 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 39. Tras PULSA en Aceptar el programa ofrecerá todos los resultados estadísticos que se soliciten para cada uno de los grupos procedentes de la segmentación. Debe tenerse muy en cuenta que al imponer la segmentación no aparece nada indicativo en pantalla acerca de que el archivo está segmentado, con lo cual se ha de tener mucho cuidado al realizar posteriores operaciones porque si se desea operar, por ejemplo, con todos los sujetos deberá acudirse primero a la ventana de la Fig. 39, señalar la opción Analizar todos los casos, no crear los grupos y después PULSAR en Aceptar. También todo este procedimiento, como en el caso de “seleccionar casos”, puede ser ejecutado a partir de las órdenes de sintaxis adecuadas, como se expone en el recuadro Get file="c:\Personal\Libroestad\libro3º\Fichelib\Citec.sav"/Keep=all. Sort cases by v5 . Split file Layered by v5 . 5. CALCULAR NUEVOS VALORES Este operador sirve para crear una nueva variable mediante la suma (o resta, multiplicación, etc.) de los valores de otras variables. Se accede a él tras PULSAR en el botón Transformar y posteriormente PULSANDO en Calcular (Fig. 40) Figura 40. 20 © Universidad de Deusto - ISBN 978-84-9830-628-6 Al igual que sucede con el operador recodificar, es muy importante darse cuenta que se está generando una nueva variable, por lo que es esencial definirla (nombre de variable, etiqueta y etiqueta de valores). En la nueva ventana que aparece (Fig. 41) debe ponerse nombre a esa nueva variable, por ejemplo, Vtotal, en el rectángulo blanco del extremo superior izquierdo titulado Variable de destino. Posteriormente se escriben en el rectángulo blanco situado debajo de Expresión numérica las operaciones que van a definir los nuevos valores Como se ha decidido, en este caso, que Vtotal contenga la suma de los valores de la v16, la v21 y la v25 se va PULSANDO primero la v16 que quedará coloreada y se traslada al rectángulo grande blanco PULSANDO en el recuadro con la flecha hacia la derecha. A continuación se PULSA en el pequeño botón que contiene el signo + y automáticamente pasa al rectángulo blanco. De la misma forma se procede con las otras dos variables hasta configurar la expresión v16 + v21 + v25. Finalmente se PULSA en Aceptar y se habrá creado la nueva variable con el nombre de Vtotal. Figura 41. Esta nueva variable Vtotal, se encontrará situada en el archivo de datos al final de todas las variables que lo constituyen y puede ser observada utilizando Vista de datos y acudiendo al final de las variables (Fig. 42). Figura 42. En todo este proceso, normalmente las variables a utilizar son cuantitativas u ordinales y, en consecuencia, la nueva variable creada también tendrá carácter cuantitativo u ordinal. En algunos casos particulares, se pueden sumar los aciertos logrados en un determinado test compuesto de una batería de ítems dicotómicos (acierto o desacierto) para obtener la puntuación total de aciertos de cada sujeto. La puntuación total, lógicamente es cuantitativa aunque proviene de sumandos nominales o categóricos. 21 © Universidad de Deusto - ISBN 978-84-9830-628-6 También es conveniente aclarar lo que ocurre cuando el ordenador debe hacer una suma de valores pero alguno de ellos es “missing value”, es decir valor perdido. Naturalmente, la suma no puede llevarse a cabo y no hay, por tanto, puntuación total resultante. El valor que el ordenador otorga a esa suma incompleta es “System missing” o valor perdido por el sistema que es fácilmente reconocible porque el ordenador coloca en la casilla correspondiente una coma (,). La sintaxis u órdenes para obtener nuevos valores mediante determinados cálculos previos es aquí particularmente sencilla, como aparece en el recuadro siguiente: Get file="c:\Personal\Libroestad\libro3º\Fichelib\Citec.sav"/Keep=all. Compute Vtotal=v16+v21+v25 En la formulación del “Compute” cabe introducir todo tipo de funciones matemáticas, desde las más sencillas hasta las más complicadas. A veces, una determinada variable se quiere hacer valer más que las demás, por ejemplo la v21 se la considera que vale el doble que las otras, y entonces la orden de Compute es =v16+2*v21+v25. 6. COMO IMPRIMIR RESULTADOS Y MODIFICAR LA PRESENTACION DE En ocasiones se observa que al obtener los resultados, es decir, las tablas o los gráficos, etc. no aparecen completos en pantalla por lo que por ejemplo al imprimir, aquella parte de la tabla que no se ve en pantalla aparecerá en una hoja diferente. También puede ocurrir que se quiera cambiar el tamaño o el estilo de los números, o se quiera cambiar la anchura de las columnas, etc. Lo primero que se tiene que hacer es seleccionar la tabla que se quiere manipular. Para ello se PULSA dos veces inmediatamente seguidas sobre la misma. Hecho esto la tabla queda bordeada con una línea en forma de dientes de sierra. Así mismo también se observa que el menú de comandos que aparecen en la parte superior de la pantalla es diferente, comandos con los que se van a trabajar para la modificación de la tabla (Fig. 43). En primer lugar se PULSA en Edición, posteriormente en Seleccionar y, por último, en Cuerpo de tabla. Con este paso, la tabla queda ennegrecida y a partir de ahí se puede PULSAR en el comando Formato que ofrece variadas posibilidades de actuación sobre toda la tabla, sobre las casillas, sobre las fuentes, sobre el ancho de casillas, sobre el autoajuste, etc. Figura 43. Particularmente importante, cuando haya tablas de dimensiones muy amplias y se desea imprimirlas, es ordenar que tales tablas se ajusten a las dimensiones de la hoja de impresión, 22 © Universidad de Deusto - ISBN 978-84-9830-628-6 normalmente Dina A4. Para ello, es preciso dirigirse a esa opción del menú llamada Formato y dentro de ésta a Propiedades de la tabla tras lo cual aparecerá la ventana de diálogo siguiente (Fig.44). En esta ventana y tras PULSAR en Impresión se señalan las dos opciones de “Reducir tabla ancha para caber en página” y “Reducir tabla larga para caber en la página” que permitirán el ajuste tanto a lo ancho como a lo alto de la página de impresión. Dentro de esta misma opción de Propiedades de tabla, es posible seleccionar otras alternativas tras PULSAR en Formato de casillas, que permite modificar distintos aspectos de las casillas como son: el tamaño de letra, tipo de letra, alineación, sombreado, etc. Figura 44 Si se PULSA en Propiedades de casillas en lugar de Propiedades de tabla se presenta una opción interesante cuando se quieren modificar algunos números expresados en la forma por ejemplo 9,32 E–0.2 y se quiere cambiar a la forma clásica 0,0932. Se PULSA entonces la opción Número y a la derecha la opción #.# además de elegir en la parte inferior central el número de Decimales que se desee como se aprecia en la Fig. 45 donde se han elegido 3 decimales. Figura 45. 7. GUARDAR UN ARCHIVO MANIPULADO Por norma general no se debe guardar un archivo de datos o de resultados o de sintaxis con el mismo nombre que el original sobre todo si han sido manipulados o se ha cambiado alguna información que ofrecen porque si se hace se perderían los datos reales originales. Por ello, es 23 © Universidad de Deusto - ISBN 978-84-9830-628-6 preferible guardar los archivos manipulados desde el menú Archivo con la opción Guardar como, dándole un nuevo nombre (Fig. 46) Figura 46. A la hora de guardar no es necesario indicar el tipo de archivo, ya que viene predeterminado por el programa. Basta con PULSAR en el botón Guardar Será importante indicar al ordenador en que unidad se quiere guardar el archivo: disco duro (C:), cdrom; etc. En este caso se ha elegido el subdirectorio (C:\Personal\Libroestad\Libro3º\Fichelib) y con el nombre de XXX (se puede poner cualquier otro) como aparece en la Fig. 47. Figura 47. 24 © Universidad de Deusto - ISBN 978-84-9830-628-6 8. CALCULOS ESTADISTICOS 8.1. FRECUENCIAS 8.1.0. Fórmulas y Aplicación 8.1.0.1. Fórmulas Q Porcentaje p = ∑f 1 N i siendo Q = número de categorías de una variable. fi = número de sujetos de la categoría i. N = número total de sujetos 8.1.0.2. Tipo de variables requeridas El cálculo de este comando se puede realizar tanto para atributos (variables cualitativas) como para variables cuantitativas recodificadas o de poca amplitud. Un ejemplo del primer caso es la v2 del fichero “DROGODE.sav” (sexo), y en cuanto al segundo encontramos la v43 del fichero “CRIMINO.sav” (precio en el que el entrevistado valora lo robado). Esta variable puede ser recodificada en tres grupos: “barato”, “normal” y “caro”. En el caso de que la característica objeto de estudio fuera un atributo, no tendría sentido calcular determinados estadísticos de carácter cuantitativo (varianza, rango, etc.) Para la variable a la que nos referimos (v2 de “DROGODE.sav”) deben ser analizadas la distribución de frecuencias, sus porcentajes y la moda. Lo más interesante son la distribución de frecuencias y los porcentajes, puesto que nos permiten hacer un primer análisis de la característica objeto de estudio. Las variables cuantitativas de poca amplitud (segundo ejemplo del primer párrafo) permiten el cálculo de más estadísticos que los atributos o variables cualitativas. El programa SPSS permite obtener, además de la distribución de frecuencias y porcentajes, los estadísticos de tendencia central (media, moda, mediana y suma) y las medidas de dispersión (desviación típica, varianza, máximo, mínimo, etc.) 8.1.0.3. Utilidades e interpretación Estos resultados son útiles ya que resumen el comportamiento general de la o la variable. Sirven esencialmente para iniciar el análisis de dicha variable, como primera aproximación. Por encima de otros resultados, conviene fijarse en los porcentajes, en ocasiones muy ilustrativos de cara a detectar diferencias entre los grupos de respuesta, etc. Por supuesto, el programa SPSS permite trabajar con gráficos, aunque la poca manejabilidad y potencia de esta función aconsejan el uso de otros programas. 8.1.1. Manejo del SPSS Como el resto de los comandos para cálculos estadísticos se localiza en el menú en la opción Analizar (Fig. 48). Tras PULSAR en ella debe PULSARSE después en Estadísticos descriptivos y finalmente se PULSA en Frecuencias. 25 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 48. Este comando permitirá conocer el porcentaje y el número de personas que se posicionan en un determinado valor o categoría de una determinada variable. La lógica de anejo del programa SPSS es la misma en la mayor parte de los comandos: se colocan las variables necesarias para el estudio que se esté realizando en el cuadro de Variables señalando, en primer lugar, con el puntero y PULSANDO en esa variable que quedará coloreada y posteriormente PULSANDO en el pequeño recuadro con la flecha a la derecha para que esa variable se instale en el gran recuadro en blanco. En el ejemplo que se ve a continuación (Fig. 49.) se ha seleccionado del fichero “ESCUEL.sav” la variable “Técnicas de estudio” (v7). Figura 49. Si se desea obtener ciertos estadísticos descriptivos como son la moda, mediana, desviación típica, etc. que acompañen a la tabla de porcentajes de esa variable (esto se puede hacer cuando las variables admiten el tratamiento de variables cualitativas o cuantitativas) se debe PULSAR en Estadísticos y señalar los que interesan como aparece en la Fig. 50. Figura 50. El significado operativo-estadístico de estos conceptos es el siguiente: Media → Valor promedio de los datos (suma de todos ellos dividido por el número de datos). Moda → Dato más frecuente. 26 © Universidad de Deusto - ISBN 978-84-9830-628-6 Mediana → Dato o valor al que no llega el 50 % de la muestra. Desviación típica → La raíz cuadrada del promedio de las desviaciones cuadráticas respecto de la media. En términos más simples, lo que se desvían los datos respecto de la media. Varianza es el cuadrado de la desviación típica. Amplitud → Diferencia entre el dato o valor máximo y el valor mínimo. Cuartil → Dato o valor al que no llega el 25 % ó el 50% ó el 75% de la muestra. Percentil → Dato o valor al que no llega el 15% ó el 38% ó ... de la muestra. Después de elegir los estadísticos que interesan, en este caso han sido Media, Mediana, Desviación típica, Varianza, Mínimo y Máximo se PULSA en el botón Continuar y se vuelve a la ventana principal de diálogo (Fig. 49.). En esta ventana se puede PULSAR en el botón Gráficos y se ofrecerán las siguientes posibilidades (Fig. 51) Figura 51. Puede elegirse, efectivamente, un Gráfico de barras, Gráficos de sectores, Histogramas (eso se ha pedido en este caso) con o sin Curva normal añadida e incluso puede elegirse la opción Ninguno. Los gráficos pueden elaborarse o con las frecuencias directas o con los porcentajes mientras que los histogramas son elaborados en función de las frecuencias. Si, finalmente, en la ventana principal se PULSA el botón Formato (Fig. 49) surgen otra serie de posibilidades interesantes sobre todo cuando en lugar de solicitar las frecuencias de una sola variable se piden las de varias a la vez (Fig. 52). Figura 52. Cuando se trata de Múltiples variables se puede seleccionar Comparar variables o Organizar resultados según variables e incluso Suprimir tablas con más de XX categorías (el programa coloca por defecto 10 categorías). Una vez seleccionada la elección se PULSA en Continuar y se vuelve a la ventana principal de diálogo. En esa ventana principal de diálogo una vez concluida la selección de opciones se PULSA en Continuar y después en Aceptar según la Fig. 48.el programa ofrece los resultados solicitados. 27 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.1.2. Resultados e Interpretación Al realizar el ejemplo propuesto con el fichero “ESCUEL.sav” se obtienen por una parte los resultados referidos expresamente a las frecuencias y porcentajes (tanto generales como válidos: éstos se calculan sin tener en cuenta el número de valores perdidos) más los porcentajes válidos acumulados así como, por otra parte, el resto de estadísticos solicitados y el histograma según aparecen en las tablas siguientes. Frecuencias Estadísticos Técnicas de Estudio N Válidos Perdidos Media Mediana Desv. típ. Varianza Mínimo Máximo Percentiles 25 50 75 116 1 6.97 8.00 2.312 5.347 1 9 5.00 8.00 9.00 Técnicas de Estudio Válidos Perdidos Total 1=Nada 2 3 4 5 6 7 8 9=Muchísimo Total 0=NS/NC Frecuencia 4 4 4 5 14 8 14 18 45 116 1 117 Porcentaje 3.4 3.4 3.4 4.3 12.0 6.8 12.0 15.4 38.5 99.1 .9 100.0 Porcentaje válido 3.4 3.4 3.4 4.3 12.1 6.9 12.1 15.5 38.8 100.0 Porcentaje acumulado 3.4 6.9 10.3 14.7 26.7 33.6 45.7 61.2 100.0 Si se PULSA dos veces en este gráfico que aparece en los resultados surge una ventana propia de diálogo a partir de la cuál pueden modificarse ciertos aspectos del gráfico así como cambiarlo a diagrama de barras, modificar el color, añadir la frecuencia en cada barra, etc. (Fig. 53). Figura 53. 28 © Universidad de Deusto - ISBN 978-84-9830-628-6 Se suele aconsejar a los usuarios, no obstante, que cuando sea necesario confeccionar un gráfico en base a resultados estadísticos utilicen otros programas de gráficos más potentes y eficaces que el ofrecido por el SPSS. Las tablas de porcentajes, en definitiva, siempre tienen muchos tipos de lecturas. Puede decirse, por ejemplo, que tan sólo el 26.7% ocupan los valores que van desde el 1 (nada me enseñaron) hasta el 5 inclusive, o puede decirse que la gran mayoría responden a esa pregunta dando un valor 8 o 9 (15.5% y 36.8% respectivamente de porcentaje válido), que sólo hay un sujeto que “No sabe/No contesta”, etc. Se trata de una pregunta/variable, por tanto, a la que los sujetos responden inclinándose por los valores altos (en torno a: me enseñaron muchísimo) como puede apreciarse también en el gráfico. Por otra parte, una media tan alta como 6.974 corrobora que las respuestas están inclinadas más bien hacia el Sí me enseñaron muchísimo Técnicas de Estudio en la Escuela. Ciertamente, la desviación típica (2.312) es considerable lo que indica diferencias serias de opinión y no es de extrañar porque los sujetos han variado en su opinión desde el valor mínimo (1) hasta el valor máximo (9). Es importante advertir que el cálculo de frecuencias también puede y, muchas veces, debe realizarse con variables sobre las que han operado los subcomandos: por ejemplo, pueden calcularse las frecuencias de esta misma variable según Sexo (v34) bien sea utilizando el Segmentar Archivo o Seleccionar Casos, puede crearse una nueva variable mediante Calcular, luego recodificarla y posteriormente realizar una cálculo de frecuencias, etc. 8.1.3. La Sintaxis del programa Frecuencias Todos los cálculos anteriores pueden realizarse directamente acudiendo al programa de sintaxis o serie de órdenes informáticas para el cálculo de Frecuencias. En el caso más sencillo del cálculo de frecuencias de la v7 “Técnicas de Estudio” las órdenes son (Fig. 54): Figura 54. Para hacer funcionar el programa, como se explica en el Apartado 2.3, Figura 9 y Figura 10, basta con sombrear las órdenes, PULSAR en Ejecutar y posteriormente en la opción Selección. En el caso de solicitar los estadísticos media, mediana, etc., además de las frecuencias las órdenes de sintaxis son (Fig. 55): 29 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 55. 8.1.4. Ejercicios y Sintaxis 1. Con el fichero “DROGODE.sav” hallar las frecuencias de la v6 y v7 1.a.) Toda la población 1.b.) Sólo para el grupo que tiene nivel de estudios bajos. 1.a.) Estudio para toda la muestra. Tabla de frecuencia Tabla 1.a.1. Borracho-penas Válidos Perdidos Total 2 3 4 5 6 7 8 9=muy toxicómano Total 0 Frecuencia 3 3 7 7 7 27 20 33 107 4 111 Porcentaje 2.7 2.7 6.3 6.3 6.3 24.3 18.0 29.7 96.4 3.6 100.0 Porcentaje válido 2.8 2.8 6.5 6.5 6.5 25.2 18.7 30.8 100.0 Porcentaje acumulado 2.8 5.6 12.1 18.7 25.2 50.5 69.2 100.0 Tabla 1.a.2. Chico-litronas Válidos Perdidos Total 1=nada toxicómano 2 3 4 5 6 7 8 9=muy toxicómano Total 0 Frecuencia 4 2 10 12 28 18 20 7 6 107 4 111 Porcentaje 3.6 1.8 9.0 10.8 25.2 16.2 18.0 6.3 5.4 96.4 3.6 100.0 Porcentaje válido 3.7 1.9 9.3 11.2 26.2 16.8 18.7 6.5 5.6 100.0 1.b.) Realizar el estudio sólo para los de estudios básicos 30 © Universidad de Deusto - ISBN 978-84-9830-628-6 Porcentaje acumulado 3.7 5.6 15.0 26.2 52.3 69.2 87.9 94.4 100.0 Tabla de frecuencia Tabla 1.b.1. Borracho-penas Válidos Perdidos Total 3 4 5 6 7 8 9=muy toxicómano Total 0 Frecuencia 2 2 3 2 13 11 15 48 3 51 Porcentaje 3.9 3.9 5.9 3.9 25.5 21.6 29.4 94.1 5.9 100.0 Porcentaje válido 4.2 4.2 6.3 4.2 27.1 22.9 31.3 100.0 Porcentaje acumulado 4.2 8.3 14.6 18.8 45.8 68.8 100.0 Porcentaje válido 2.1 8.3 10.4 25.0 12.5 25.0 8.3 8.3 100.0 Porcentaje acumulado 2.1 10.4 20.8 45.8 58.3 83.3 91.7 100.0 Tabla 1.b.2. Chico-litronas Válidos Perdidos Total 1=nada toxicómano 3 4 5 6 7 8 9=muy toxicómano Total 0 Frecuencia 1 4 5 12 6 12 4 4 48 3 51 Porcentaje 2.0 7.8 9.8 23.5 11.8 23.5 7.8 7.8 94.1 5.9 100.0 Sintaxis para el Ejercicio 1 2. Con el fichero “ESCUEL.sav” calcular las frecuencias de la v2 y v3 2.a.) Toda la muestra 2.b.) Sólo para los de Clase social alta. 2.a.) Realizar el estudio para toda la muestra. 31 © Universidad de Deusto - ISBN 978-84-9830-628-6 Tabla de frecuencia Tabla 2.a.1. Capacidades Artísticas Válidos 1=Nada 2 3 4 5 6 7 8 9=Muchísimo Total Frecuencia 3 3 3 5 17 11 14 22 39 117 Porcentaje 2.6 2.6 2.6 4.3 14.5 9.4 12.0 18.8 33.3 100.0 Porcentaje válido 2.6 2.6 2.6 4.3 14.5 9.4 12.0 18.8 33.3 100.0 Porcentaje acumulado 2.6 5.1 7.7 12.0 26.5 35.9 47.9 66.7 100.0 Tabla 2.a.2. Educación Cívica Válidos Perdidos Total 1=Nada 2 3 4 5 6 7 8 9=Muchísimo Total 0=NS/NC Frecuencia 7 3 1 6 6 11 26 19 37 116 1 117 Porcentaje 6.0 2.6 .9 5.1 5.1 9.4 22.2 16.2 31.6 99.1 .9 100.0 Porcentaje válido 6.0 2.6 .9 5.2 5.2 9.5 22.4 16.4 31.9 100.0 Porcentaje acumulado 6.0 8.6 9.5 14.7 19.8 29.3 51.7 68.1 100.0 2.b.) Calcular las frecuencias sólo para los de clase social alta. Tabla de frecuencia Tabla 2.b.1 Capacidades Artísticas Válidos 1=Nada 3 4 5 6 7 8 9=Muchísimo Total Frecuencia 1 1 1 5 2 4 6 14 34 Porcentaje 2.9 2.9 2.9 14.7 5.9 11.8 17.6 41.2 100.0 Porcentaje válido 2.9 2.9 2.9 14.7 5.9 11.8 17.6 41.2 100.0 Porcentaje acumulado 2.9 5.9 8.8 23.5 29.4 41.2 58.8 100.0 Tabla 2.b.2. Educación Cívica Válidos 2 4 6 7 8 9=Muchísimo Total Frecuencia 1 1 4 9 7 12 34 Porcentaje 2.9 2.9 11.8 26.5 20.6 35.3 100.0 Porcentaje válido 2.9 2.9 11.8 26.5 20.6 35.3 100.0 Porcentaje acumulado 2.9 5.9 17.6 44.1 64.7 100.0 32 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 2 33 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.2. DESCRIPTIVOS 8.2.0. Fórmulas y Aplicación 8.2.0.1. Fórmulas Media y Desviación Típica Asimetría y Curtosis N Media: X = ∑X 1 N ∑ (X − X ) N 3 1 N Desviación Típica: S = ∑ (X − X ) N 2 Varianza: S = 2 N Asimetría: As =        1 N ∑ (X − X ) 2 1 N  N ∑ (X − X )2  1 ∑ (X − X ) Estimación de la Desviación Típica N S= ∑ (X − X ) 2 Curtosis: Curt = N −1 Estimación de la Varianza S2 = 4 1 1 N     N N 3 ∑ (X − X ) 2 1 N         N ∑ (X − X )2  1 N 2     N −1 8.2.0.2. Tipo de variables requeridas Este comando se utiliza únicamente con variables cuantitativas, como por ejemplo la variable “Alcohol” (v5 del fichero “SALUD.sav”), con la cual se trabaja en la 56. 8.2.0.3. Utilidades e interpretación El cálculo de este comando nos proporciona medidas de estadística descriptiva muy habituales en la investigación en general, y sociológica en particular. Las opciones más relevantes son el máximo, el mínimo, la media y la desviación típica. En general, resulta interesante observar la homogeneidad o heterogeneidad de las respuestas, fijándose en la desviación típica, así como en las medias de las distintas respuestas, etc. Otros datos relevantes podrían ser los valores máximo y mínimo de cada grupo, los cuales nos permiten situar los resultados obtenidos en un marco concreto, así como obtener conclusiones sobre el comportamiento de los individuos encuestados. Por ejemplo, si las diferencias entre máximo y mínimo son pequeñas, podemos deducir que las respuestas se diferenciarán poco, o que hay bastante homogeneidad en las mismas. Siempre es necesario fijarse en las diferencias entre variables, tal y como se puede ver en el ejercicio propuesto en el apartado 8.2.3.1, en el que se realiza el tipo de análisis aquí propuesto (observación de medias, desviación típica, valor máximo y mínimo.) 34 © Universidad de Deusto - ISBN 978-84-9830-628-6 En cualquier caso, las posibles diferencias aparecidas requerirían un análisis más profundo (análisis de varianza, entre otros) que aparecerá en capítulos posteriores. 8.2.1. Manejo del SPSS En este comando se encuentran las clásicas medidas de estadística descriptiva de tendencia central de las distribuciones univariadas. Para acceder a este comando hay que dirigirse al menú y PULSAR consecutivamente Analizar, Estadísticos descriptivos y Descriptivos tras lo cual aparece la ventana de la Fig. 56: Figura 56. El procedimiento es el mismo que en el apartado de Frecuencias: se trasladan las variables con las que se quieren trabajar al recuadro titulado Variables. Como se ve en la Figura 55. se ha seleccionado en el archivo de datos “SALUD.sav” la variable “Alcohol”(v5) que lógicamente es de carácter cuantitativo. Después, se PULSA en Opciones para elegir aquellos estadísticos descriptivos que se deseen obtener (Fig. 57). En este caso se han seleccionado Media, Desviación típica, Mínimo y Máximo. Figura 57. La ventana también ofrece la posibilidad de elegir medidas del tipo de Distribución como son la Curtosis y la Asimetría siendo la primera una medida del grado de apertura o estrechamiento de la supuesta distribución normal de los datos y la segunda una medida del grado de sesgo de los datos hacia un lado u otro de la medición. El Orden de visualización, por otra parte, es interesante por cuanto permite, por ejemplo, pedir que las medias de las diferentes variables aparezcan en los resultados ordenadas según Lista de variables (tal y como están en el archivo de datos), según orden Alfabético, según Medias ascendentes o según Medias descendentes. 35 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.2.2. Resultados e Interpretación Al realizar el ejemplo con la variable Alcohol(v5) del fichero SALUD.sav surgen los siguientes resultados (Fig. 58.). Figura 58. Según estos resultados la edad del primer consumo regular de alcohol en la muestra de drogodependientes que han contestado válidamente (N=180) es 15.11 años, con una desviación típica de 2.98 años siendo la edad mínima 6 años y 28 años la edad máxima del primer consumo regular de alcohol. Tienen trascendencia algunas de las realidades implícitas en estos resultados: por ejemplo, el hecho de que haya 42 ceros (222 sujetos en total menos 180 que dicen haber consumido) entendibles como que no han consumido alcohol a ninguna edad, es decir son abstemios, también llama la atención que para algunos sujetos la edad inicial a la que consumieron alcohol es a los 6 años así como que otros, más tardíos, consumieron alcohol a los 28 años, etc. Debe advertirse también aquí que puede solicitarse el cálculo de medias pero no sólo para todos los sujetos de la muestra sino para algún grupo determinado, por ejemplo los que sí han tenido alguna actividad o tarea ocupacional (v4=2) o para los que sí o no abandonaron sus estudios (v2=1 ó 2) mediante la segmentación del archivo, o incluso creando una nueva variable fruto de calcular una determinada puntuación y posteriormente calcular sobre ella la media total, la media por grupo o la media por grupos. 8.2.3. Ejercicios y Sintaxis 1. En el fichero “CAMPAÑA.sav.” 1.a.) Hallar los descriptivos de las variables v3-v4-v5-v6-v7-v8-v9-v10 para toda la muestra 1.b.) Realizar el mismo estudio pero sólo para el colectivo que tiene estudios superiores. 1.a.) Para toda la muestra Tabla 1.a. Estadísticos descriptivos N V3 católicos deben rechazarla V4 irresponsabilidad del gobierno no hacerla V5 campaña ayudará a explicar sexo V6 más necesaria educación sexo V7 campaña fomenta promiscuidad V8 obispos incomprensivos v9 condón no gusta, pero necesario V10 pocas campañas N válido (según lista) Mínimo Máximo Media Desv. típ. 169 1 5 1.85 1.121 169 1 5 3.94 1.209 167 1 5 3.32 1.043 168 1 5 4.19 .966 169 1 5 2.27 1.157 168 1 5 3.66 1.168 166 1 5 3.71 1.118 168 164 1 5 3.88 1.022 36 © Universidad de Deusto - ISBN 978-84-9830-628-6 Interpretación: Se puede observar como la media menor se encuentra en la v3 “Católicos deben rechazar la Campaña”, con un valor de 1.85, siendo más de dos puntos menor que la media más alta, que es la v6 “Es más necesaria la educación sexual” con 4.19, que a la vez, es la que tiene una desviación típica menor. El resto de las medias se encuentran entre 3 y 4 puntos, exceptuando la v7 “Fomenta promiscuidad” que tiene una media de 2.27. La desviación típica mayor la encontramos en la v4 “Irresponsabilidad del Gobierno no hacerla” con un valor de 1.21 1.b.) Para el colectivo que tiene estudios superiores Se debe seleccionar el grupo de estudios superiores únicamente y realizar lo mismo que en el apartado anterior. Tabla 1.b. Estadísticos descriptivos N V3 católicos deben rechazarla V4 irresponsabilidad del gobierno no hacerla V5 campaña ayudará a explicar sexo V6 más necesaria educación sexo V7 campaña fomenta promiscuidad V8 obispos incomprensivos v9 condón no gusta, pero necesario V10 pocas campañas N válido (según lista) Mínimo Máximo Media Desv. típ. 98 1 5 1.93 1.105 98 1 5 3.88 1.195 98 1 5 3.17 1.055 97 1 5 4.28 .987 98 1 5 2.19 1.062 97 1 5 3.67 1.106 97 1 5 3.57 1.189 98 96 1 5 3.88 1.028 Tanto la media menor y la media mayor, así como la desviación típica menor y la menor, se encuentran en las mismas variables que en el apartado anterior (a.1.), observando como los valores que se dan no varían a penas de los anteriormente obtenido con lo que puede concluirse que el tener estudios superiores no origina diferencias respecto al colectivo total en las variables estudiadas. Sintaxis para el Ejercicio 1 37 © Universidad de Deusto - ISBN 978-84-9830-628-6 2. Del fichero “CITEC. sav” 2.a.) Crear una nueva variable con la puntuación total de la escala de conocimientos científicos, utilizando las variables 9 a la 18. y Hallar la media, desviación típica, máximo y mínimo de la variable total para todos los individuos 2.b.) Hacer lo mismo para los de edad comprendida entre 15 y 24 años. 2.c.) Comparar los resultados. Atención: cada sujeto tendrá 1 punto si acierta a cada pregunta, de lo contrario tendrá 0 puntos. Véase el código de respuestas acertadas. Código de respuestas acertadas v9 v10 v11 v12 v13 1 1 1 1 2 Æ Æ Æ Æ Æ v14 v15 v16 v17 v18 Æ Æ Æ Æ Æ 1 2 1 2 2 2.a.) Para toda la muestra. Tabla 2.a. Estadísticos descriptivos ConocimientoCientifico N válido (según lista) N 1021 1021 Mínimo .00 Máximo 10.00 Media 4.9432 Desv. típ. 2.25021 2.b.) Para los de edad comprendida entre 15-24 años. Tabla 2.b. Estadísticos descriptivos N ConocimientoCientifico N válido (según lista) 219 219 Mínimo 1.00 Máximo 10.00 Media 5.7626 Desv. típ. 1.83949 2.c.) Interpretación Se puede apreciar como el mínimo valor de “Conocimiento Científico” considerando a todos los individuos, es 0, mientras que entre 15-24 años es de 1. La media de “conocimiento Científico” aumenta en casi un punto, en los de edad 15-24 años, siendo de 5.7626, mientras que en todos los individuos es de 4.9432. La desviación típica, sin embargo, es bastante menor entre los jóvenes que e la población general: 1.84 frente a 2.25, es decir, los jóvenes constituyen un grupo más homogéneo que la muestra total. 38 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 2 3. Del fichero “CAMPAÑA. sav” 3.a.) Recodificar la v25 en cuatro grupos y calcular los descriptivos de las variables v18 a v23 para toda la muestra. 1- 2 = 1 3 = 2 4 = 3 5- 8 = 4 3.b.) Asimismo calcúlalas para los cuatro grupos. 3.c.) Interpretar datos 3.a.) Para toda la muestra. Tabla 3.a. Estadísticos descriptivos N V18 iniciativa que llega tarde V19 irresponsabilidad criticar campaña V20 lema aboga por seguridad V21 preservativo parche a corto plazo V22 campaña sólo lleva a atracción V23 relaciones con otro sexo N válido (según lista) Mínimo 168 167 168 168 168 170 166 1 1 1 1 1 1 Máximo 5 5 5 5 5 4 3.b.) Calcular para los cuatro grupos. 39 © Universidad de Deusto - ISBN 978-84-9830-628-6 Media 3.54 3.47 4.05 2.82 2.19 2.38 Desv. típ. 1.083 1.155 1.115 1.130 1.137 1.359 Tabla 3.b. Estadísticos descriptivos v25r 1.00 2.00 3.00 4.00 N V18 iniciativa que llega tarde V19 irresponsabilidad criticar campaña V20 lema aboga por seguridad V21 preservativo parche a corto plazo V22 campaña sólo lleva a atracción V23 relaciones con otro sexo N válido (según lista) V18 iniciativa que llega tarde V19 irresponsabilidad criticar campaña V20 lema aboga por seguridad V21 preservativo parche a corto plazo V22 campaña sólo lleva a atracción V23 relaciones con otro sexo N válido (según lista) V18 iniciativa que llega tarde V19 irresponsabilidad criticar campaña V20 lema aboga por seguridad V21 preservativo parche a corto plazo V22 campaña sólo lleva a atracción V23 relaciones con otro sexo N válido (según lista) V18 iniciativa que llega tarde V19 irresponsabilidad criticar campaña V20 lema aboga por seguridad V21 preservativo parche a corto plazo V22 campaña sólo lleva a atracción V23 relaciones con otro sexo N válido (según lista) Mínimo 31 31 31 31 31 33 31 51 50 51 51 51 50 49 48 48 48 48 48 48 48 38 38 38 38 38 39 38 1 1 1 1 1 1 Máximo 5 5 5 5 5 4 Media 3.16 2.94 3.87 3.00 2.65 1.82 Desv. típ. 1.157 1.289 1.176 1.238 1.279 1.211 1 1 1 1 1 1 5 5 5 5 4 4 3.37 3.36 4.16 2.67 2.18 2.12 1.148 1.120 1.084 1.071 1.014 1.319 2 1 1 1 1 1 5 5 5 5 5 4 3.75 3.75 4.02 2.67 1.94 2.54 .911 .957 1.176 .975 1.119 1.414 1 1 1 1 1 1 5 5 5 5 5 4 3.79 3.68 4.08 3.05 2.16 3.00 1.044 1.188 1.050 1.272 1.128 1.214 3.c.) Interpretación. En primer lugar debe notarse cómo la N total varía dependiendo de los 0 que hay en cada caso. Los valores mínimos son iguales en todos: valor 1. Los valores máximos, excepto en la variable (relaciones con otro sexo) es igual a 5. En cuanto a las medias, están comprendidas entre los valores 2 y 4, teniendo una media mayor la variable (Fornica-seguridad) con un valor de 4.05, y una media menor (amor-atracción) con una media de 2.19. Existe, por tanto, una considerable diferencia entre ciertos aspectos de la campaña porque con unos se está más bien en desacuerdo y con otros, en cambio, se da una posición media más bien de acuerdo. En cuanto a las desviaciones típicas el mayor valor le corresponde a la variable cuyo valor máximo es el 4 y que difiere de las demás. Corresponde a la variable “Relaciones Sexuales”. Por lo contrario, la variable con una desviación típica menor es la variable “Iniciativa tarde” con valor de 1.08. Si se estudian los datos para los cuatro grupos, se puede apreciar como en las medias los valores más altos corresponden en los 4 grupos a la variable “fornica-seguridad” con valores de 3.87 (grupo 1); 4.16 (grupo 2); 4.02 (grupo 3); 4.08 (grupo 4). Por el contrario las medias de menor valor se encuentran tanto en el gupo 1, con un valor de 1.21 como en el 2 en las variables “relaciones con otro sexo” con un valor de 2.12, en cambio, en los grupo 3 y 4 se encuentran en las variables “amoratracción” con un valor de 1.94 y 2.16 respectivamente. En cuanto a las desviaciones típicas, en el grupo 1,3 y 4 las desviaciones típicas más bajas se encuentran en la variable “Iniciativa tarde” con valores 1.16,0.91 y 1.04 respectivamente; mientras que tanto en el grupo 2 se encuentra en la variable “amor-atracción” con valor 1.01. Existen, pues, algunas diferencias tanto respecto a las medias en algunas variables como respecto a las desviaciones típicas lo cual es indicativo que todos los grupos no opinan igual y debería pasarse a otra fase de estudio para verificar si tales diferencias resultan significativas: análisis de varianza, diferencia significativa de medias, etc. 40 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 3 4. Del fichero “DROGODE. sav” 4.a.) Recodificar la v5 en tres grupos y calcular los descriptivos de las variables v7, v9, v10, v11, v12, y de v18-v20 para toda la muestra. 1- 2 = 1 3=2 4- 5 = 3 4.b.) Realizar el mismo estudio para los tres grupos. 4.c.) Interpretar datos 4.a.) Realizar el estudio para toda la muestra. Tabla 4.a. Estadísticos descriptivos N Chico-litronas Txikitero Borracho-finsemana Heroína Porros-diario Joven-colocarse Chica-coca-a veces Anfetaminas-examen N válido (según lista) Mínimo 107 109 109 108 107 106 108 105 102 1 1 1 1 1 1 1 1 Máximo 9 9 9 9 9 9 9 9 Media 5.46 5.01 6.12 7.46 6.79 6.70 6.93 5.81 4.b.) Realizar el estudio para los tres grupos. 41 © Universidad de Deusto - ISBN 978-84-9830-628-6 Desv. típ. 1.865 2.030 1.947 1.704 1.594 1.691 1.717 1.845 Tabla 4.b. Estadísticos descriptivos v5r 1.00 2.00 3.00 N Chico-litronas Txikitero Borracho-finsemana Heroína Porros-diario Joven-colocarse Chica-coca-a veces Anfetaminas-examen N válido (según lista) Chico-litronas Txikitero Borracho-finsemana Heroína Porros-diario Joven-colocarse Chica-coca-a veces Anfetaminas-examen N válido (según lista) Chico-litronas Txikitero Borracho-finsemana Heroína Porros-diario Joven-colocarse Chica-coca-a veces Anfetaminas-examen N válido (según lista) Mínimo 50 51 51 51 51 49 51 50 49 25 25 25 25 24 25 25 25 24 32 33 33 32 32 32 32 30 29 1 1 1 1 1 1 1 1 Máximo 9 9 9 9 9 9 9 9 Media 4.92 4.65 5.59 7.29 6.45 6.63 6.76 5.56 Desv. típ. 1.904 2.115 1.780 1.781 1.770 1.629 1.839 1.939 3 1 1 3 4 1 2 3 9 9 9 9 9 9 9 9 5.52 5.12 5.96 7.20 6.88 6.48 6.92 5.56 1.711 2.128 2.423 1.958 1.227 1.782 1.824 1.583 3 1 3 4 4 2 4 3 9 8 9 9 9 9 9 9 6.25 5.48 7.06 7.94 7.28 6.97 7.19 6.43 1.666 1.752 1.435 1.268 1.442 1.732 1.424 1.794 4.c.) Interpretación En el estudio para todo el colectivo, el valor mínimo es 1 mientras que el valor máximo es 9. Esto, prácticamente es similar respecto al segundo apartado, que corresponde al estudio para los tres grupos. En cuanto a la media, el valor más alto corresponde a la variable “Heroína” con un valor de 7.46 (bastante toxicómano), mientras que el valor más bajo corresponde al ítem “Txikitero” con un valor de 5.01 (medianamente toxicómano). Respecto al estudio de los tres grupos, hay que decir que coincide el valor máximo de la media en la variable “Heroína” con valores 7.29 (grupo 1); 7.20 (grupo 2) y 7.94 (grupo tres) respectivamente. En cuanto a las desviaciones típicas, por el contrario, se aprecia como en el estudio para todo el colectivo el mayor valor corresponde a la variable “Txikitero” con un valor de 2.03 (apreciable heterogeneidad en las opiniones); mientras que el valor menor corresponde a la variable “porrosdiario” con un valor de 1.59 (menor heterogeneidad). En cuanto al estudio para los tres grupos, se aprecia como para el grupo 1 y 3 coinciden las desviaciones típicas mayores con la variable “Txikitero”, mientras que en el grupo 2, se sitúa por delante de esta la variable “Borrachofinsemana”. Sintaxis para el Ejercicio 4 42 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.3. COMPARAR MEDIAS 8.3.1. “MEDIAS....” 8.3.1.0. Fórmulas y Aplicación 8.3.1.0.1. Fórmulas Para estos cálculos sirven las fórmulas expuestas en el apartado 8.2.0.1. Fórmulas del tema Descriptivos. 8.3.1.0.2. Tipo de variables requeridas Se utiliza con variables cuantitativas, como por ejemplo la utilizada en el ejemplo que figura en el punto 8.3.1.2. Se trata de Educación sexual (v33 del fichero “ESCUEL.sav”), de la cual queremos conocer las medias en función de una variable independiente, que en este ejemplo es Sexo (v34). 8.3.1.0.3. Utilidad e interpretación El comando “Comparar medias…” permite obtener medias, desviaciones típicas, número de casos, máximos y mínimos para diferentes grupos en función de una o varias variables, así como otros estadísticos de interés. Además permite hacerlo sin utilizar otros métodos indirectos, como son los subcomandos Seleccionar casos y Segmentar archivo. Este comando es muy útil si se sabe aprovechar la cantidad de información que proporciona. Presenta los estadísticos requeridos (ver opciones en punto 8.3.1.3) ordenados en función de las variables de identificación que se han pedido. Como principal atractivo, en la tabla de resultados podemos analizar fácilmente las diferencias entre medias, lo cual supone un salto cualitativo y cuantitativo respecto a los comandos Frecuencias y Descriptivos, sobre todo en términos de accesibilidad a los datos. Los datos se agrupan en una sola tabla y de un vistazo podemos iniciar el análisis. No se debe subestimar el valor de la comparación de medias. Como ya se ha dicho en otros capítulos, la existencia de comandos más potentes no nos debe hacer olvidar que en la superficie de la o las variables podemos encontrar datos muy importantes, a modo de pistas que conduzcan hacia un análisis más completo 8.3.1.1. Manejo del SPSS Como ya se ha descrito anteriormente, se acude al comando Descriptivos si lo que se quiere es conocer la puntuación media en una determinada variable cuantitativa. Bien es verdad que utilizando el subcomando Seleccionar casos o el subcomando Segmentar archivo se pueden conocer las medias en esa variable de los diversos grupos seleccionados. Precisamente es este cálculo de las medias para diferentes grupos lo que puede obtenerse directamente y sin el uso de subcomandos después de PULSAR como siempre en la opción Analizar, en Comparar medias y finalmente en Medias (Fig. 59) 43 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 59. Al ejecutar esta elección surge la ventana de diálogo siguiente (Fig. 60). Figura 60. Aquí se ha seleccionado del fichero de datos “ESCUEL.sav” la variable dependiente Educ. Sexual. (v33) que ha sido colocada en el rectángulo blanco titulado Dependientes y como variable independiente se ha elegido Sexo (v34) dado que el objetivo es conocer las medias de hombres y la media de mujeres en esa variable de “cuánto me enseñaron en la escuela acerca de Educación Sexual”. La forma de operar es la ya conocida de PULSAR sobre Educ. Sexual (v33) que quedará coloreada y mediante el pequeño recuadro con la flecha hacia la derecha se transporta al rectángulo blanco donde deben estar ubicadas las variables dependientes. De forma similar se opera con la variable Sexo(v34) que se transporta al otro rectángulo en blanco donde deben estar las variables dependientes. En medio de la ventana de diálogo aparece la opción Capa 1 de 1 y el botón Siguiente. Si se PULSA este botón aparece (Fig. 61) prácticamente la misma ventana pero se ha modificado un tanto porque se puede leer Capa 2 de 2 teniendo a ambos lados el botón de Anterior y el botón de Siguiente y además en el rectángulo de las independientes aparece Clase social(v35). Figura 61. Esto significa que hemos solicitado las medias en la variable Educación Sexual(v33) para los 8 diferentes grupos que pueden formarse con las categorías de la variable Sexo y de la variable Clase Social, es decir, medias para los Hombres-C.Social Alta, Hombres-C.Social Media Alta, HombresC.Social Media Baja y Hombres-C.Social Baja. Los otros cuatro grupos, lógicamente, son los mismos pero para Mujeres. Esta posibilidad es sumamente interesante sobre todo cuando el tamaño de la muestra general es bastante grande porque de lo contrario el número de sujetos en cada uno de esos grupos puede ser muy pequeño y en consecuencia sus resultados pueden carecer de representatividad. 44 © Universidad de Deusto - ISBN 978-84-9830-628-6 Al PULSAR el botón Opciones (Fig. 62) aparece toda una batería de diferentes posibilidades sobre el tipo de resultados que se desea. En este caso se ha elegido la Media, la Desviación típica y el Número de casos. El procedimiento es el usual: se PULSA en la posibilidad que se desea que quedará coloreada y se PULSA después en el pequeño recuadro con la flecha hacia la derecha para que se traslade al rectángulo blanco titulado Estadísticos de casilla Figura 62. Tras PULSAR en Continuar se vuelve a la ventana principal y ahí se PULSA en Aceptar con lo cual el programa ofrecerá los resultados solicitados. 8.3.1.2. Resultados e Interpretación Una vez finalizadas las peticiones, los resultados ofrecidos en la pantalla Visor SPSS presentan el siguiente formato (Fig. 63). Figura 63. Debe recordarse que si se coloca el puntero dentro de cualquier cuadro de resultados y se PULSA dos veces consecutivas el menú de esta ventana se amplía ofreciendo más posibilidades de cambio y modificación tanto en cuanto a la estética de los números, de los títulos, de la anchura de las columnas, etc. como de eliminación de ciertas columnas, autoajuste, reducción de la anchura y de la altura de los cuadros de resultados a las hojas Dina A4 donde se imprimen, etc. (Cfr. Apartado 6. COMO IMPRIMIR Y MODIFICAR LA PRESENTACION DE RESULTADOS) 45 © Universidad de Deusto - ISBN 978-84-9830-628-6 Los resultados completos, en todo caso, son los siguientes: Medias Resumen del procesamiento de los casos Casos Excluidos N Porcentaje Incluidos N Porcentaje Educ.Sexual * Sexo * Clase Social 87 74.4% 30 N 25.6% Total Porcentaje 117 100.0% Informe Educ.Sexual Sexo HOMBRE MUJER Total Clase Social ALTA MEDIA-ALTA MEDIA-BAJA BAJA Total ALTA MEDIA-ALTA MEDIA-BAJA BAJA Total ALTA MEDIA-ALTA MEDIA-BAJA BAJA Total Media 5.75 8.00 6.67 8.11 7.27 7.70 7.76 6.08 7.00 7.34 7.38 7.79 6.28 7.59 7.32 Desv. típ. 3.202 1.000 2.805 1.054 2.186 1.031 1.128 2.906 1.690 1.726 1.663 1.101 2.803 1.460 1.839 N 4 3 6 9 22 20 25 12 8 65 24 28 18 17 87 El primer cuadro simplemente indica cuántos sujetos tienen datos válidos y cuántos tienen datos/valores perdidos: concretamente 87 válidos (74.4%) y 30 perdidos (25.6%). En el segundo cuadro se tienen todas las medias de todos los posibles grupos: por ejemplo, 7.27 en los hombres y 7.34 en las mujeres siendo el total 7.32. Los de Clase Alta alcanzan 7.38, los de Media-Alta 7.79, los de Media-Baja 6.28 y los de Baja 7.59. El resto del cuadro presenta las medias de los grupos formados por ejemplo por Hombre-C.Alta cuya media llega a 5.75, los de Mujer-Media Alta que llega a 7.76, etc. Se deduce de tales datos que mientras entre Hombres y Mujeres no hay diferencia de medias, sí la hay entre los de diferente Clase Social y más aún cuando se comparan en general los grupos formados por el cruce de las dos variables Sexo-Clase Social. Este comando, de todas formas, no aporta información acerca de si tales diferencias de medias son o no significativas y, por lo tanto, se trata de un comando más bien informativo pero no conclusivo. 8.3.1.3. Ejercicios y Sintaxis 1. Del fichero “SALUD.sav” se quieren conocer las medias respecto al consumo regular de alcohol (v5), tabaco (v7) y porros(v15) distinguiendo entre los que son de Logroño y los del resto de la provincia. 1.a.) Realizar el estudio para toda la muestra. 1.b.) Hallar el mismo estudio solo para solteros. 1. a.) Realizar el estudio para toda la muestra 46 © Universidad de Deusto - ISBN 978-84-9830-628-6 Tabla 1.a. Informe Lugar nacimiento LOGROÑO Media N Desv. típ. RESTO PROVINCIA Media N Desv. típ. Total Media N Desv. típ. Consumo regular alcohol 14.58 57 3.375 15.16 49 2.375 14.85 106 2.956 Consumo regular de tabaco 12.28 74 3.486 13.27 60 3.113 12.72 134 3.348 Porro consumo regular 14.99 68 4.393 15.32 57 2.261 15.14 125 3.573 Los resultados evidencian un superior consumo medio de los del resto de provincia sobre los de Logroño tanto en consumo regular de alcohol así como de tabaco y de porros. 1.b.) Realizar el estudio sólo para los solteros. Tabla 1.b. Informe Lugar nacimiento LOGROÑO Media N Desv. típ. RESTO PROVINCIA Media N Desv. típ. Total Media N Desv. típ. Consumo regular alcohol 14.58 38 3.629 14.87 30 2.529 14.71 68 3.172 Consumo regular de tabaco 12.21 48 3.115 12.94 35 2.920 12.52 83 3.038 Porro consumo regular 14.40 45 3.407 14.97 33 2.325 14.64 78 2.993 A similares conclusiones se llega con los resultados de esta tabla referida expresamente a los solteros. Por tanto, no parece que pueda hablarse de diferencias entre los resultados de consumo de alcohol, de tabaco y de porros en la población comparados con los de los solteros. Dicho de otra forma, el hecho de ser soltero no parece influir en consumir mayores cantidades de esa droga. Sintaxis para el Ejercicio 1 2. Del fichero “ESCUEL.sav” calcular la media de las variables v3 a v8. 2.a.) ¿ Les enseñan mas a los hombres o a las mujeres? 47 © Universidad de Deusto - ISBN 978-84-9830-628-6 Tabla 2.a. Informe Sexo HOMBRE MUJER Total Media N Desv. típ. Media N Desv. típ. Media N Desv. típ. Educación Cívica 6.90 31 2.226 6.93 85 2.313 6.92 116 2.281 Vida sana 5.90 30 2.280 6.94 86 2.105 6.67 116 2.190 Conocerse 6.61 31 2.445 7.52 86 2.045 7.28 117 2.185 Hablar 6.45 31 2.461 8.01 86 1.612 7.60 117 1.987 Técnicas de Estudio 6.23 30 2.431 7.23 86 2.226 6.97 116 2.312 Disfrutar 6.71 31 2.283 7.41 86 2.072 7.22 117 2.142 Se puede observar como en las mujeres, exceptuando en la v3 Educación cívica, son mucho mas altas las media que entre los hombres por lo que se puede deducirse que el sexo influye a la hora de responder a esas preguntas sobre cuánto les enseñaron en la escuela de vida sana, conocerse así mismo, etc. Sintaxis para el Ejercicio 2 48 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.3.2. PRUEBA T PARA MUESTRAS INDEPENDIENTES 8.3.2.0. Fórmulas y Aplicación 8.3.2.0.1. Fórmulas Prueba de Levene Estadístico t (X 1 − X 2 )− 0 t= 2 Se lleva a cabo a través del estadístico F de Fisher que  N 1 ⋅ S1 + N 2 ⋅ S 22   N 1 + N 2  resulta del Análisis de Varianza Simple realizado entre una    nueva variable Zij = Xij - Xj (siendo Xij el valor de cada  N 1 + N 2 − 2   N 1 + N 2  dato en cada uno de los grupos y Xj la media de cada uno X 1 , N , S = Media, Tamaño y Estimación de D.T. del 1 1 de los dos grupos) y la variable cualitativa independiente. grupo 1º. La significatividad de la F se coteja en las tablas teniendo X 2 , N 2 , S 2 = Media, Tamaño y Estimación de D.T. del en cuenta los grados de libertad = N1 + N2 –2. grupo 2º. 8.3.2.0.2. Tipo de variables requeridas Al ser un comando relativamente similar al anterior, también se utiliza con variables cuantitativas, normalmente agrupadas en función de una variable cualitativa o atributo. Véase el ejemplo realizado con las variables dependientes cuantitativas Confortabilidad (v21), Medioambiente (v22) y la variable independiente cualitativa Sexo (v5), todas ellas del fichero “CITEC.sav”. 8.3.2.0.3. Utilidades e interpretación La diferencia con el comando anterior radica en la profundidad de los análisis del mismo. La prueba T para muestras independientes analiza también la significación de las posibles diferencias de medias entre los grupos. La utilidad de este comando es por tanto alta, y nos otorga un nivel de análisis bastante profundo. Muy importante en este caso es la prueba de Levene para la igualdad de varianzas, que nos va a orientar en la utilización de unos u otros tipos de cálculos. La prueba de Levene, en caso de tener una significación menor que 0,05, indica que existe diferencia significativa de varianzas y por ello deberemos atender al parámetro “No se han asumido varianzas iguales”. Allí buscaremos el valor de “t” y su significación (de nuevo será significativo aquel valor cuya significación sea menor que 0,05), para así poder dar una interpretación completa de los resultados. Si la prueba de Levene tuviera una significación superior a 0,05 pasaríamos a fijarnos en el parámetro “Se han asumido varianzas iguales”, procediendo a actuar de la misma manera que antes. En cualquier caso, puede resultar interesante ver el ejemplo recogido en los puntos 8.3.2.3 y 8.3.2.4, en el que se trabaja con esta prueba. 8.3.2.1. Manejo del SPSS Este comando se encuentra en el menú Analizar y dentro del apartado Comparar medias con el enunciado de Prueba T para muestras independientes (Fig. 64). Es relativamente similar al anterior pero su objetivo es distinto: compara si la diferencia entre las medias de dos grupos es o no significativa. Por ejemplo entre casados – solteros, hombre – mujer, etc. 49 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 64. Las variables dependientes (Fig. 65), variables cuantitativas, se introducen en el apartado Contrastar variables de la forma ya conocida mientras que la variable independiente, variable cualitativa, deberá ir situada en el apartado Variable de agrupación. Figura 65. Al introducir la variable independiente, en este ejemplo Sexo(v5) tomada del fichero “CITEC.sav”, aparecen dos interrogantes lo cual exige acudir al botón Definir grupos (Fig. 66) para establecer cuáles son los grupos que van a intervenir en la comparación de medias indicando su dígito de codificación y así los dos interrogantes pasarán a ser tales dígitos. Figura 66. Después de PULSAR en Continuar se puede optar por PULSAR en Opciones para decidir qué Intervalo de confianza se va a utilizar (usualmente el 95%) y qué tipo de Valores perdidos se excluyen: Excluir casos según análisis (se excluyen aquellos sujetos con valores perdidos en las variables utilizadas) o Excluir datos según lista (se excluyen aquellos sujetos con valores perdidos en cualquiera de las variables del archivo de datos). Posteriormente se PULSA en Aceptar y en programa entra en funcionamiento. En este ejemplo, como se puede apreciar, se han empleado las variables dependientes Confortabilidad(v21) y Medioambiente(v22) y como variable independiente Sexo(v5). 50 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.3.2.2. Resultados e Interpretación Prueba T Estadísticos de grupo Confortabilidad Medio ambiente Sexo hombre mujer hombre mujer N Media 1.972 2.111 3.533 3.576 497 524 497 524 Desviación típ. .989 1.053 1.378 1.293 Error típ. de la media .044 .046 .062 .056 Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Confortabilidad Medio ambiente Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales 6.427 6.205 Sig. .011 .013 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias -2.169 1019 .030 -.139 -2.173 1018.918 .030 -.139 -.516 1019 .606 -.043 -.515 1005.336 .606 -.043 El primer cuadro simplemente aporta el tamaño de cada grupo, la media, la desviación típica y el error típico de la media. En cualquier caso, se nota una similitud numérica bastante considerable en los estadísticos de uno y otro grupo lo cual no supone, <sin embargo, que deje de haber diferencias significativas dado el elevado tamaño de ambos grupos. El segundo cuadro, en efecto, ofrece en primer lugar la Prueba de Levene para la igualdad de varianzas. Tanto en el caso de Confortabilidad(v21) como de Medioambiente(v22) existe diferencia significativa al 95%, es decir, significación menor del 0.05 (F=6.427; Sig.=0.011 y F=6.205; Sig.0.013 respectivamente). Esto es importante porque obliga a calcular la “t” de una forma especial y con parámetros distintos a los utilizados si las varianzas no son diferentes, entre ellos el de los “gl” (Grados de Libertad). El valor de la “t”, en consecuencia, deberá ser buscado en la línea correspondiente a “No se han asumido varianzas iguales” y, en concreto, vale –2.173 que con 1018.92 grados de libertad resulta significativa (Sig.=0.030) para Confortabilidad y vale –0.515 para Medioambiente que con 1005.34 grados de libertad no resulta significativa al 95% (Sig.0.606). Los hombres y las mujeres, en definitiva, no se diferencian significativamente al 95% respecto a sus actitudes promedio en el ítem Medioambiente(v13) mientras que sí son diferentes respecto al ítem Confortabilidad(v14). 8.3.2.3. Ejercicios y Sintaxis 1. Según el fichero “SALUD.sav”.¿Existe diferencia significativa de medias en el consumo de alcohol durante el fin de semana(v57) 1.a.) Según sea el sexo(v59) 1.b.) Según el lugar de nacimiento(v60) 1.c.) Según el abandono de estudios(v2) 51 © Universidad de Deusto - ISBN 978-84-9830-628-6 1.a.) Estudiar si existe diferencia significativa de medias en el consumo de alcohol durante el fin de semana según sea el sexo de los consumidores. Para ello es necesario realizar el análisis mediante la prueba t para muestras independientes. Tabla 1.a.1. Estadísticos de grupo Sexo HOMBRE MUJER Consumo medio alc. fin sem. N Desviación típ. 63.096 15.342 Media 27.49 6.43 185 37 Error típ. de la media 4.639 2.522 Tabla 1.a.2. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Consumo medio alc. fin sem. Se han asumido varianzas iguales No se han asumido varianzas iguales 7.652 Prueba T para la igualdad de medias Sig. t .006 gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior 2.015 220 .045 21.059 10.452 .461 41.658 3.988 213.506 .000 21.059 5.280 10.651 31.468 De la prueba de Levene para la igualdad de varianzas hallamos una significación de 0.006 (0,6%) correspondiente a una F=7.662 por lo que se concluye que las dos muestras presentan diferente varianza al nivel de confianza del 99%. Por otra parte, existe una diferencia de medias con t=3.988 siendo la significación bilateral de 0.000 (0,0%) mirando en la línea segunda titulada a mano izquierda “No se han asumido varianzas iguales” por lo que el grupo formado por los hombres muestra un consumo medio de alcohol de 27.49 consumo medio muy superior al 6.43 del grupo formado por las mujeres. Podemos concluir que existe una diferencia significativa de medias en el consumo medio de alcohol el fin de semana si tenemos en cuenta la variable sexo, siendo los hombres lo que mas alcohol consumen. 1.b.) Estudiar si existe diferencia significativa de medias en el consumo medio de alcohol durante el fin de semana en relación si los consumidores son de Logroño o del resto de provincia. Para ello se realiza de nuevo un análisis mediante la prueba t para muestras independientes. Tabla 1.b.1. Estadísticos de grupo Consumo medio alc. fin sem. Lugar nacimiento LOGROÑO RESTO PROVINCIA N 75 62 Media 26.52 15.90 Desviación típ. 58.237 24.553 52 © Universidad de Deusto - ISBN 978-84-9830-628-6 Error típ. de la media 6.725 3.118 Tabla 1.b.2. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Consumo medio alc. fin sem. Se han asumido varianzas iguales No se han asumido varianzas iguales Prueba T para la igualdad de medias Sig. 5.790 t .017 gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior 1.340 135 .183 10.617 7.925 -5.056 26.289 1.432 103.442 .155 10.617 7.412 -4.083 25.317 De la prueba de Levene para la igualdad de varianzas también aquí se deduce que existe diferentes varianzas entre los dos grupos (F=5.79; sig.=1.7%). El estadístico t=1.340 tiene una significación de 15.5% por lo que se concluye la ausencia de diferencia significativa de medias entre los nacidos en Logroño (media de 26.52) frente a los nacidos en el resto de la provincia (media de 15.90) respecto al consumo de alcohol durante el fin de semana. 1.c.) Estudiar si existe diferencia de medias en el consumo de alcohol durante el fin de semana en relación a si abandonaron o no los estudios. Tras realizar los correspondientes cálculos mediante la prueba t para muestras independientes resulta: Tabla 1.c.1. Estadísticos de grupo Consumo medio alc. fin sem. Abandono de estudios no si N Desviación típ. 18.810 63.327 Media 12.11 26.42 56 165 Error típ. de la media 2.514 4.930 Tabla 1.c.2. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Consumo medio alc. fin sem. Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. 6.522 .011 Prueba T para la igualdad de medias Sig. (bilateral) -1.665 219 .097 -14.317 8.600 -31.266 2.631 -2.587 216.685 .010 -14.317 5.534 -25.224 -3.410 t gl Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior Diferencia de medias Como en los casos anteriores, la diferencia de varianzas entre los dos grupos es significativa (sig.=1.1%) así como la diferencia de medias (t=-2.587; sig.=1.0%) y, por tanto, el grupo formado por los que sí abandonaron los estudios muestra un consumo medio de alcohol de 26.42 consumo medio muy superior al 12.11 del grupo formado por los que no abandonaron los estudios. Sintaxis para el Ejercicio 1 53 © Universidad de Deusto - ISBN 978-84-9830-628-6 2. Del fichero “ESCUEL.sav”, recodifar la clase social (v35) en dos grupos: alta(1 y 2) y baja (3 y 4). Verificar si: 2.a.) Existe diferencia significativa entre ambos grupos respecto de lo que echan en falta que les hayan enseñado educación sexual (v33) 2.b.) Respecto de no pasarse la vida viendo televisión (v27) 2.a.) Estudiar si existe diferencia de medias teniendo en cuenta la clase social de pertenencia de los encuestados en relación a si echan en falta que les hayan enseñado no pasarse la vida viendo la televisión. La prueba t para muestras independientes da los siguientes resultados en las dos variables. Tabla 2.a.1. y 2.b.1. Estadísticos de grupo v35r 1.00 2.00 1.00 2.00 Educ.Sexual Ver TV N 52 35 67 50 Media 7.60 6.91 1.90 1.98 Desviación típ. 1.390 2.318 .721 .769 Error típ. de la media .193 .392 .088 .109 Tabla 2.a.2. y 2.b.2. Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Educ.Sexual Ver TV Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. 10.932 .001 .094 .760 Prueba T para la igualdad de medias t gl Sig. (bilateral) 1.714 85 .090 1.561 50.471 -.610 115 -.604 101.798 Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior .682 .398 -.109 1.473 .125 .682 .437 -.195 1.559 .543 -.084 .139 -.359 .190 .547 -.084 .140 -.362 .193 Las conclusiones deducibles de los resultados son claras: no hay diferencia de medias ni en ver TV ni en educación sexual entre las dos clases sociales (sign.=11.5% y 54.3% respectivamente) así como tampoco la hay entre las varianzas de los dos grupos sociales en ninguna de las dos variables (sig.=5.8% y 76.0% respectivamente). Sintaxis para el Ejercicio 2 54 © Universidad de Deusto - ISBN 978-84-9830-628-6 3. Otros ejercicios y Sintaxis 3.1. Del Fichero “CAMPAÑA.sav” obtener y analizar la diferencia significativa de medias según la Religión (v25) clasificada en Católicos (1-2-3-4=1) y No Católicos (5-6-7-8=2) respecto a las variables Rechazar (v3), Explicar (v5) y Promiscuidad (v7). Algunas soluciones numéricas relevantes: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F V3 católicos deben rechazarla V5 campaña ayudará a explicar sexo V7 campaña fomenta promiscuidad Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. .116 3.626 .149 .733 .059 .700 Prueba T para la igualdad de medias t gl Diferencia de medias Sig. (bilateral) Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior -.430 167 .668 -.089 .207 -.498 .320 -.430 60.139 .669 -.089 .207 -.503 .325 2.016 165 .045 .385 .191 .008 .761 2.145 66.790 .036 .385 .179 .027 .742 1.945 167 .053 .411 .211 -.006 .829 1.929 59.425 .058 .411 .213 -.015 .838 Sintaxis para el Ejercicio 3.1 3.2. Realizar el mismo ejercicio anterior pero tan solo para el grupo de Estudios Básicos (v24) interpretando los resultados y comparándolos con los anteriores. Algunas soluciones numéricas relevantes: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F V3 católicos deben rechazarla V5 campaña ayudará a explicar sexo V7 campaña fomenta promiscuidad Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales 4.626 .059 1.423 Sig. .044 .811 .247 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior -2.451 20 .024 -1.474 .601 -2.728 -.219 -1.447 2.151 .277 -1.474 1.018 -5.573 2.626 3.912 18 .001 2.000 .511 .926 3.074 3.288 2.462 .061 2.000 .608 -.199 4.199 -.534 20 .599 -.456 .854 -2.238 1.326 -.369 2.242 .744 -.456 1.237 -5.263 4.351 55 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 3.2 3.3. Crear una nueva variable VSP en el fichero “SALUD.sav” que recoja las puntuaciones totales de los sujetos en la escala de Salud Psicopatológica (de la v33 a la v52) y analizar la diferencia significativa de medias según el Lugar de Nacimiento (v60) respecto a esa nueva variable VSP. Algunas soluciones numéricas relevantes: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F VSP Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. .294 .589 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior .778 135 .438 .62344 .80086 -.96041 2.20730 .783 132.740 .435 .62344 .79617 -.95137 2.19825 Sintaxis para el Ejercicio 3.3 3.4. Realizar el mismo ejercicio anterior para cada uno de los dos grupos de la variable Actividad o Tarea Ocupacional (v4) comparando los resultados de los dos grupos. Algunas soluciones numéricas relevantes: 56 © Universidad de Deusto - ISBN 978-84-9830-628-6 Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F VSP Se han asumido varianzas iguales No se han asumido varianzas iguales Prueba T para la igualdad de medias Sig. .932 t .335 gl Sig. (bilateral) Diferencia de medias 95% Intervalo de confianza para la diferencia Inferior Superior Error típ. de la diferencia 3.783 218 .000 2.49921 .66068 1.19709 3.80134 3.770 211.064 .000 2.49921 .66298 1.19231 3.80612 Sintaxis para el Ejercicio 3.4 3.5. Según la variable Leadership/Liderazgo (v7) clasificada en Alto (1=1-2) y Bajo (2=3-4) del Fichero “CITEC.sav” obtener y analizar la diferencia significativa de medias respecto a las variables Científicos Peligrosos (v23), Productos (v38) y Nuevas Invenciones (v39). Algunas soluciones numéricas relevantes: Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas F Científicos peligrosos Productos Nuevas invenciones Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales Se han asumido varianzas iguales No se han asumido varianzas iguales Sig. 13.117 .000 6.108 .014 12.741 .000 Prueba T para la igualdad de medias t gl Sig. (bilateral) Diferencia de medias Error típ. de la diferencia 95% Intervalo de confianza para la diferencia Inferior Superior -.900 1019 .368 -,080 ,089 -,254 ,094 -.869 611.274 .385 -,080 ,092 -,260 ,100 -3.367 1019 .001 -,267 ,079 -,422 -,111 -3.344 656.891 .001 -,267 ,080 -,424 -,110 -2.718 1019 .007 -,208 ,077 -,359 -,058 -2.595 594.163 .010 -,208 ,080 -,366 -,051 Sintaxis para el Ejercicio 3.5 57 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.3.3. PRUEBA T PARA MUESTRAS RELACIONADAS 8.3.3.0. Fórmulas y Aplicación 8.3.3.0.1. Fórmulas Estadístico t t= (X 1 − X 2 )− 0 2  S1 S2 S S  + 2 − 2 ⋅ r12 ⋅ 1 ⋅ 2   N1 N 2   N 1 N 2 X 1 , N 1 , S1 = Media, Tamaño y Estimación de D.T. de la variable 1. X 2 , N 2 , S 2 = Media, Tamaño y Estimación de D.T. de la variable 2. r12 = coeficiente de correlación de Pearson entre var.1 y var.2 8.3.3.0.2. Tipo de variables requeridas Es un comando relativamente similar al anterior pero se diferencia en que parte del supuesto de la correlación existente entre dos variables cuantitativas. Si se quiere averiguar si entre tales dos variables cuantitativas existe diferencia significativa de medias habrá de tenerse en cuenta esa correlación existente entre ellas. Véase el ejemplo realizado con las variables dependientes cuantitativas Litronas (v7), Tranquilizantes (v21) del fichero “DROGODE.sav”. 8.3.3.0.3. Utilidades e Interpretación A diferencia del comando anterior que verifica la diferencia de medias entre dos grupos de sujetos respecto de una determinada variable este comando aclara si entre dos variables hay o no diferencia de medias. Es útil, por tanto, cuando se desea comprobar cómo se comportan determinadas variables cuantitativas de un fichero de datos en el sentido concreto de si presentan similar promedio o no. También aquí es importante la prueba de Levene para la igualdad de varianzas. Si no son iguales deberemos guiarnos por el parámetro “No se han asumido varianzas iguales”. Allí buscaremos el valor de “t” y su significación (de nuevo será significativo aquel valor cuya significación sea menor que 0.05), para así poder dar una interpretación completa de los resultados. Si la prueba de Levene no resulta significativa pasaríamos a fijarnos en el parámetro “Se han asumido varianzas iguales”, procediendo a actuar de la misma manera que antes. En cualquier caso, puede resultar interesante ver el ejemplo recogido en los puntos 8.3.2.3 y 8.3.2.4, en el que se trabaja con esta prueba. 8.3.3.1. Manejo del SPSS Para acceder a este comando una vez abierto el fichero, en este caso “DROGODE.sav” es necesario dirigirse/PULSAR, al igual que en los apartados anteriores al menú Analizar, y dentro de él al apartado Comparar medias para finalmente PULSAR en Prueba T para muestras relacionadas (Fig. 67) 58 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 67. Dos muestras están en principio relacionadas bien cuando así nos lo indiquen o bien en aquellos casos en que es una misma muestra (los mismos sujetos) la que responde a dos preguntas o a una pregunta en dos momentos distintos. Esto significa que cuando en un determinado archivo de datos se desee hacer una comparación de medias entre dos variables obviamente cuantitativas (y se supone que tratan del mismo tema) se tendrá que tener en cuenta el nivel o grado de correlación que tengan porque aunque su diferencia de medias sea pequeña tenderá a ser significativa si la correlación es alta. Para la ejecución de este comando, se PULSA sobre una variable que quedará coloreada y cuyo nombre (por ejemplo, v7) aparecerá en la parte inferior izquierda en el recuadro titulado Selecciones actuales, después sobre la otra variable (v21) que también aparecerá en esa parte inferior. Para trasladarlas al rectángulo en blanco titulado Variables relacionadas basta PULSAR en el pequeño recuadro con la flecha orientada hacia la derecha (Fig. 68). Y así sucesivamente con todos los pares de variables sobre los que se que quiera saber si presentan diferencia significativa de medias. Debe notarse que en este caso cuando una variable es señalada/transportada no desaparece del recuadro de la izquierda porque puede volver a ser señalada más veces para compararla con otras variables. Efectivamente, se ve en la figura la comparación entre v7 – v21, v17 – v21 y está dispuesta la comparación v18 – v21. Si se PULSA en Opciones se podrá designar el Intervalo de confianza así como los Valores perdidos. Finalmente, se PULSA en Aceptar y el programa ofrecerá los resultados de la operación. En el ejemplo práctico se han seleccionado las cuatro comparaciones de medias siguientes: Litronas(v7) – Tranquilizantes(v21); Tabaco(v17) – Tranquilizantes(v21); Colocarse(v18) – Tranquilizantes(v21) y Cocaína(v13) – Tranquilizantes(v21), es decir, se ha querido conocer si el promedio acerca de cuánto consideran como toxicomanía el tomar Tranquilizantes por parte de las amas de casa se diferencia o no de lo que consideran como toxicomanía el beber Litronas, el Colocarse con los amigos, el consumir más de un paquete de Tabaco al día o consumir Cocaína. Figura 68. 59 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.3.3.2. Resultados e Interpretación Los resultados concretos a los que se llega son los siguientes: Prueba T Estadísticos de muestras relacionadas Par 1 Par 2 Par 3 Par 4 Chico-litronas Tranquilizantes Tabaco Tranquilizantes Joven-colocarse Tranquilizantes Cocaína Tranquilizantes Media 5.45 5.31 5.50 5.31 6.70 5.35 7.43 5.35 N 105 105 106 106 105 105 105 105 Desviación típ. 1.860 2.100 1.977 2.090 1.698 2.057 1.770 2.057 Error típ. de la media .182 .205 .192 .203 .166 .201 .173 .201 Correlaciones de muestras relacionadas N Par 1 Par 2 Par 3 Par 4 Chico-litronas y Tranquilizantes Tabaco y Tranquilizantes Joven-colocarse y Tranquilizantes Cocaína y Tranquilizantes Correlación Sig. 105 .375 .000 106 .628 .000 105 .650 .000 105 .542 .000 Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 Par 2 Par 3 Par 4 Chico-litronas Tranquilizantes Tabaco - Tranquilizantes Joven-colocarse Tranquilizantes Cocaína - Tranquilizantes Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) .133 2.223 .217 -.297 .564 .614 104 .540 .189 1.757 .171 -.150 .527 1.105 105 .271 1.352 1.605 .157 1.042 1.663 8.633 104 .000 2.076 1.849 .180 1.718 2.434 11.509 104 .000 En el primer cuadro hay dos tipos de datos importantes: por un lado, las medias de cada variable con su desviación típica estimada y, por otro lado, el tamaño de muestra. Sucede que curiosamente las medias de una misma variable, por ejemplo Tranquilizantes, no presenta la misma media aun teniendo el mismo tamaño (105 sujetos) en la comparación Litronas-Tranquilizantes que en la Cocaína-Tranquiliantes. La explicación está en que los 105 sujetos no son los mismos en un caso que en el otro debido a que se ha optado por la opción Excluir casos según análisis deferida a los valores perdidos. Uno o más determinados sujetos no serán contabilizados en la comparación Litronas-Tranquilizantes si presentan valores perdidos en Litronas y a su vez otros sujetos distintos no serán contabilizados en la Cocaína-Tranquilizantes. El número de sujetos puede ser idéntico pero no son los mismos sujetos. El segundo cuadro expone los coeficientes de correlación en cada caso. Aun no siendo alto el coeficiente “r” de Pearson resulta significativo en todos ellos, es decir, hay relación entre las respuestas dadas a Tranquilizantes y las dadas al resto de las variables. Del último cuadro hay que subrayar como más fundamental la columna de la diferencia de medias (0.13; 0.19; 1.35 y 2.08), la columna de la “t” (0.614; 1.105; 8.633 y 11.509) y sobre todo la columna de la Significación Bilateral que en definitiva indica si hay diferencia significativa o no en cada caso. En los dos primeros Litronas-Tranquilizantes y Tabaco-Tranquilizantes no se da diferencia significativa (0.540; 0.271); los sujetos piensan por término medio prácticamente lo mismo. En los otros dos casos, Colocarse-Tranquilizantes y Cocaína-Tranquilizantes, sin embargo, sí hay diferencia 60 © Universidad de Deusto - ISBN 978-84-9830-628-6 significativa (0.000; 0.000). Se percibe, por tanto, como mucho más toxicómano el Colocarse y principalmente tomar cocaína que no consumir Tranquilizantes (medias: 6.70 y 7.43 frente a 5.35). 8.3.3.3. Ejercicios y Sintaxis 1. Del fichero “ESCUEL.sav”, 1.a.) Calcular y analizar las diferencias de medias relacionadas entre las variables v13, v14, v15 y v16. Realizar los cálculos para toda la muestra 1.b.) Realizar los cálculos sólo para el grupo de clase social alta. 1.a.) Calcular y analizar las diferencias de medias relacionadas entre las variables v13, v14, v15 y v16. Realizar los cálculos para toda la población Debe entenderse que comparar la diferencia de medias entre muestras relacionadas de las variables expuestas supone comparar todas ellas entre sí. Los resultados de tal comparación son los siguientes para toda la población: Tabla 1.a.1. Estadísticos de muestras relacionadas Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Trabajar en grupo Capacidad de crística Trabajar en grupo Valentía Trabajar en grupo Expresión corporal Capacidad de crística Valentía Capacidad de crística Expresión corporal Valentía Expresión corporal Media 6.00 7.10 5.96 6.50 5.97 6.86 7.10 6.51 7.13 6.88 6.49 6.86 N 116 116 117 117 116 116 116 116 115 115 116 116 Desviación típ. 2.381 2.338 2.415 2.132 2.424 2.406 2.338 2.137 2.330 2.410 2.141 2.406 Error típ. de la media .221 .217 .223 .197 .225 .223 .217 .198 .217 .225 .199 .223 Tabla 1.a.2. Correlaciones de muestras relacionadas N Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Trabajar en grupo y Capacidad de crística Trabajar en grupo y Valentía Trabajar en grupo y Expresión corporal Capacidad de crística y Valentía Capacidad de crística y Expresión corporal Valentía y Expresión corporal Correlación Sig. 116 .465 .000 117 .381 .000 116 .364 .000 116 .294 .001 115 .387 .000 116 .201 .031 61 © Universidad de Deusto - ISBN 978-84-9830-628-6 Tabla 1.a.3. Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Trabajar en grupo Capacidad de crística Trabajar en grupo Valentía Trabajar en grupo Expresión corporal Capacidad de crística - Valentía Capacidad de crística - Expresión corporal Valentía - Expresión corporal Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) -1.103 2.440 .227 -1.552 -.655 -4.870 115 .000 -.538 2.541 .235 -1.004 -.073 -2.292 116 .024 -.897 2.723 .253 -1.397 -.396 -3.546 115 .001 .595 2.664 .247 .105 1.085 2.405 115 .018 .252 2.625 .245 -.233 .737 1.030 114 .305 -.371 2.882 .268 -.901 .159 -1.385 115 .169 Se observa que si existe diferencia significativa de medias, debido a la que la significación bilateral es menor que 0.05 (5%), en las parejas: • Trabajar en grupo – capacidad de critica, con una significación de 0.000 (0.0%) • Trabajar en grupo- valentía, con una significación de 0.001 (0.1%) • Trabajar en grupo –expresión corporal, con una significación de 0.024 (2.4%) • Capacidad de critica- expresión corporal, con una significación de 0.018 (1.8%) Es constatable que la variable trabajar en grupo es común y por lo tanto podemos concluir que es clave en determinar la diferencias de medias en los distintas parejas de variables. Por otra parte, efectivamente de los seis grupos de parejas, en cuatro existe correlación entre ellas y en dos no con lo cual en estos dos casos pudiera realizarse la comparación de medias como si fueran variables independientes. 1.b. Realizar los cálculos sólo para el grupo de clase social alta. En este apartado debe seleccionarse el grupo de clase social alta para realizar con ese grupo de sujetos las pruebas de muestras relacionadas entre las cuatro variables. Tabla 1.b.1. Estadísticos de muestras relacionadas Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Trabajar en grupo Capacidad de crística Trabajar en grupo Valentía Trabajar en grupo Expresión corporal Capacidad de crística Valentía Capacidad de crística Expresión corporal Valentía Expresión corporal Media 7.21 8.24 7.21 6.56 7.21 7.62 8.24 6.56 8.24 7.62 6.56 7.62 N 34 34 34 34 34 34 34 34 34 34 34 34 Desviación típ. 2.100 1.327 2.100 2.149 2.100 2.030 1.327 2.149 1.327 2.030 2.149 2.030 62 © Universidad de Deusto - ISBN 978-84-9830-628-6 Error típ. de la media .360 .228 .360 .369 .360 .348 .228 .369 .228 .348 .369 .348 Tabla 1.b.2. Correlaciones de muestras relacionadas N Par 1 Trabajar en grupo y Capacidad de crística Trabajar en grupo y Valentía Trabajar en grupo y Expresión corporal Capacidad de crística y Valentía Capacidad de crística y Expresión corporal Valentía y Expresión corporal Par 2 Par 3 Par 4 Par 5 Par 6 Correlación Sig. 34 .374 .030 34 .249 .156 34 .367 .033 34 .165 .351 34 .068 .702 34 .287 .100 Tabla 1.b.3. Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Trabajar en grupo Capacidad de crística Trabajar en grupo Valentía Trabajar en grupo Expresión corporal Capacidad de crística - Valentía Capacidad de crística - Expresión corporal Valentía - Expresión corporal Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) -1.029 2.022 .347 -1.735 -.324 -2.968 33 .006 .647 2.604 .447 -.262 1.556 1.449 33 .157 -.412 2.324 .399 -1.223 .399 -1.033 33 .309 1.676 2.332 .400 .863 2.490 4.192 33 .000 .618 2.349 .403 -.202 1.437 1.533 33 .135 -1.059 2.498 .428 -1.930 -.187 -2.472 33 .019 Los resultados muestran algunos cambios respecto a los obtenidos para toda la población. Aquí sí existe diferencia significativa de medias (sig. menor que 0.05) en las parejas: • • • Trabajar en grupo- capacidad critica, con una significación de 0.006 (0.6%) Capacidad critica- valentía, con una significación de 0.000 (0.0%) Expresión corporal- valentía, con una significación de 0.019 (1.9%) La variable trabajar en grupo ya no presenta tantas diferencias como antes y, por otra parte, aparece la diferencia significativa entre expresión corporal- valentía que antes no existía. Todo ello demuestra que el grupo de clase social alta no piensa de la misma forma que el colectivo general y se diferencia de él al menos en la forma de contestar a estas cuatro variables. 63 © Universidad de Deusto - ISBN 978-84-9830-628-6 Síntesis para el Ejercicio 1 2. Otros Ejercicios y Sintaxis 2.1. Calcular y analizar la diferencia significativa de medias relacionadas entre las variables Olvidar Penas (v6), Litronas (v7), Txikitero (v9) y Joven Heroína (v11) del Fichero “DROGODE.sav”. Algunas soluciones numéricas relevantes: Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Borracho-penas Chico-litronas Borracho-penas Txikitero Borracho-penas Heroína Chico-litronas - Txikitero Chico-litronas - Heroína Txikitero - Heroína Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) 1.726 2.105 .204 1.321 2.132 8.446 105 .000 2.159 2.232 .216 1.731 2.587 10.003 106 .000 -.290 2.042 .197 -.681 .102 -1.468 106 .145 .449 -2.009 -2.444 1.895 1.891 2.163 .183 .183 .208 .085 -2.372 -2.857 .812 -1.647 -2.032 2.449 -10.992 -11.744 106 106 107 .016 .000 .000 Sintaxis para el Ejercicio 2.1 2.2. Realizar los mismos cálculos del ejercicio anterior para cada uno de los grupos de Religión (v3) interpretando los resultados y comparándolos entre ellos. 64 © Universidad de Deusto - ISBN 978-84-9830-628-6 Algunas soluciones numéricas relevantes: Prueba de muestras relacionadasa Diferencias relacionadas Religión NO CREYENTE Media Par 1 Par 2 Par 3 MUY CATÓLICO Par 4 Par 5 Par 6 Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 POCO CATÓLICO Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Borracho-penas Chico-litronas Borracho-penas Txikitero Borracho-penas Heroína Chico-litronas - Txikitero Chico-litronas - Heroína Txikitero - Heroína Borracho-penas Chico-litronas Borracho-penas Txikitero Borracho-penas Heroína Chico-litronas - Txikitero Chico-litronas - Heroína Txikitero - Heroína Borracho-penas Chico-litronas Borracho-penas Txikitero Borracho-penas Heroína Chico-litronas - Txikitero Chico-litronas - Heroína Txikitero - Heroína Desviación típ. Error típ. de la media 2.308 2.136 .593 1.923 2.722 -.385 2.022 -.385 -2.692 -2.308 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) 1.017 3.599 3.895 12 .002 .755 .278 3.568 2.547 12 .026 .561 -1.607 .837 -.686 12 .506 1.193 2.175 2.250 .331 .603 .624 -1.105 -4.007 -3.668 .336 -1.378 -.948 -1.162 -4.463 -3.697 12 12 12 .268 .001 .003 1.222 1.726 .288 .638 1.806 4.250 35 .000 1.750 2.005 .334 1.071 2.429 5.236 35 .000 -.556 1.731 .289 -1.141 .030 -1.926 35 .062 .568 -1.730 -2.297 2.102 1.677 2.106 .346 .276 .346 -.133 -2.289 -3.000 1.268 -1.170 -1.595 1.642 -6.272 -6.634 36 36 36 .109 .000 .000 1.912 2.278 .302 1.308 2.517 6.338 56 .000 2.474 2.261 .299 1.874 3.074 8.261 56 .000 -.123 2.245 .297 -.718 .473 -.413 56 .681 .561 -2.035 -2.596 1.861 1.945 2.219 .247 .258 .294 .068 -2.551 -3.185 1.055 -1.519 -2.008 2.277 -7.898 -8.835 56 56 56 .027 .000 .000 a. No se han calculado los estadísticos para uno o más de los archivos segmentados. Sintaxis para el Ejercicio 2.2 2.3. Obtener los resultados interpretándolos sobre la diferencia significativa de medias relacionadas entre las variables Confortabilidad (v21), Científicos Peligrosos (v23), Desarrollo Industrial (v35) y Beneficios (v43) del Fichero “CITEC.sav”. Algunas soluciones numéricas relevantes: 65 © Universidad de Deusto - ISBN 978-84-9830-628-6 Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Confortabilidad Científicos peligrosos Confortabilidad Desarrollo industrial Confortabilidad Beneficios Científicos peligrosos - Desarrollo industrial Científicos peligrosos - Beneficios Desarrollo industrial Beneficios Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) -,758 1,703 ,053 -,863 -,653 -14.221 1020 .000 -1,949 1,617 ,051 -2,048 -1,850 -38.527 1020 .000 -,123 1,277 ,040 -,202 -,045 -3.089 1020 .002 -1,191 1,702 ,053 -1,295 -1,086 -22.363 1020 .000 ,635 1,774 ,056 ,526 ,744 11.430 1020 .000 1,826 1,728 ,054 1,720 1,932 33.763 1020 .000 Sintaxis para el Ejercicio 2.3 4. Considerando solamente al grupo de 15-24 Años de Edad (v4) realizar los cálculos del ejercicio anterior y comparar los resultados. Algunas soluciones numéricas relevantes: Prueba de muestras relacionadas Diferencias relacionadas Media Par 1 Par 2 Par 3 Par 4 Par 5 Par 6 Confortabilidad Científicos peligrosos Confortabilidad Desarrollo industrial Confortabilidad Beneficios Científicos peligrosos - Desarrollo industrial Científicos peligrosos - Beneficios Desarrollo industrial Beneficios Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior t gl Sig. (bilateral) -1,123 1,656 ,112 -1,344 -,903 -10.039 218 .000 -2,146 1,672 ,113 -2,369 -1,923 -18.997 218 .000 -,146 1,309 ,088 -,320 ,028 -1.652 218 .100 -1,023 1,834 ,124 -1,267 -,779 -8.255 218 .000 ,977 1,801 ,122 ,737 1,217 8.031 218 .000 2,000 1,745 ,118 1,768 2,232 16.959 218 .000 Sintaxis para el Ejercicio 2.4 66 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.4. TABLAS DE CONTINGENCIA 8.4.0. Fórmulas y Aplicación 8.4.0.1. Fórmulas COEFICIENTE χ2 χ2 = f ⋅k ∑ 1 CORRELACIONES Coeficiente r de Pearson ( Fr − Ft ) 2 Ft f ⋅ k = número de filas por número de columnas, o sea, número total de casillas (celdas). Fr = frecuencias reales en cada casilla rs = ∑ XY − ∑ X ∑ Y N ⋅ X − (∑ X )   N ⋅ ∑ Y − (∑ Y )   ∑    N⋅ 2 2 2 2 X e Y= cada uno de los valores de la variable X y de la variable Y. Ft = frecuencias teóricas que correspondería a cada casilla. VARIABLES NOMINALES Razón de Verosimilitud L2 ⇒ ( χ 2 ) = 2 ⋅ f ⋅k  ∑  Fr ln  ln = logaritmo neperiano 1 Fr Ft     VARIABLES ORDINALES Coeficiente Gamma de Goodman y Kruskal C−D C+D Gamma = Coeficiente Tau-a de Kendall Probabilidad exacta de Fisher C−D (a + b)!(c + d )!(a + c)!(c + d )! Tau − a = a!⋅ b!⋅ c! ⋅ d ! ⋅ N ! T Coeficiente Tau-b de Kendall Las casillas a, b, c y d son las cuatro de una tabla de 2 por 2 C−D Tau − b = (T − T1 )(T − T2 ) P= a c b d Coeficiente Tau-c de Kendall Tau − c = (C − D)2 S N 2 ( S − 1) Asociación Lineal por Lineal (Test de Mantel-Haenszel. Test de Cochran) Coeficiente d de Somerss Modo asimétrico Test de Asociación Lineal = r 2 ( N − 1) r2 = correlación entre variables nominales N = total de datos Modo Simétrico d = d = C−D C + D + T1 C−D (C + D + T1 + C + D + T2 ) / 2 N ( N − 1) número de pares de sujetos diferentes 2 posibles (N=número de sujetos) C = número de pares de sujetos que están distribuidos en el mismo orden en las dos variables. D = número de pares de sujetos que están distribuidos en orden inverso en las dos variables. T1 = número de pares de sujetos empatados en la primera variable (la dependiente) pero no lo están en la otra (independiente). T = Coeficiente de Contingencia C C= χ2 χ2 + N T2 = número de pares de sujetos empatados en la segunda variable pero no lo están en la primera. 67 © Universidad de Deusto - ISBN 978-84-9830-628-6 Coeficiente ϕ ϕ= b⋅c − a⋅d (a + b)(c + d )(a + c)(b + d ) OTROS COEFICIENTES Coeficiente V de Cramer V = χ Coeficiente Kappa 2 N (k − 1) K= k = el número de filas o de columnas que sea menor. Coeficiente Lambda λ Modo Asimétrico Coeficiente de Riesgo Relativo Riesgo Re lativoY1 =    ∑ f i  − Fmax j 1  = N − Fmax j r λ yx Fr acuerdo − Ft acuerdo N − Ft acuerdo Pa = a a+b Pb = Pa P Riesgo Re lativoY2 = b Pc Pd b a+b Pc = d c Pd = c+d c+d λyx = el coeficiente Lambda cuando y se toma como var. dependiente y como la independiente x. fi = las frecuencias máximas (frecuencias modales) de cada una de las columnas. Coeficiente χ2 de McNemar Fmaxj = la mayor de las frecuencias totales de (b − c )2 las filas χ2 = (b + c ) Modo Simétrico r  k   ∑ f j  +  ∑ f i  − Fmax j − Fmaxi λ=1  1  2 ⋅ N − Fmax j − Fmaxi Coeficiente de Incertidumbre Cuando las dependiente columnas son el Coeficiente Tau de Goodman y Kruskal (Tau-y) atributo Tau − y = U ( F ) + U (C ) − U ( FC )  UC =   U (C )   k k h U (F ) = − ∑ ∑ n ij 1 ln N 1 U (C ) = − ∑ 1 h U (F ) = − ∑n ij 1 N k ij 1 N h h k ∑n n ij ln ∑n ij 1 N n ij ∑∑ N ln N 1 E1 − E 2 E1 r N − n  j (n j ) E1 = ∑  N 1   r k n − f  i ji ( f ji ) E2 = ∑ ∑  n 1 1  i  E1 = Errores esperados al predecir las categorías de la variable dependiente E2 = Errores esperados al predecir las categorías de la variable independiente N = Total de datos nj = Frecuencia total para cada fila ni = Frecuencia total para cada columna fji = frecuencia de cada casilla ji NOMINAL POR INTERVALO 68 © Universidad de Deusto - ISBN 978-84-9830-628-6 Coeficiente Eta Eta = Suma de Cuadrados Intergrupos Suma de Cuadrados Total Residuos Tipificados Corregidos Re s . Tip . Correg . =  F fila Var. = 1 − N  Re s.Tip . Var .   F  ⋅ 1 − columna   N     8.4.0.2. Tipo de variables requeridas Se trata de una asociación entre dos variables cualitativas o discretas, teniendo cada una P y Q categorías respectivamente. Este comando permite analizar el problema estadístico de la asociación entre dos variables cualitativas, es decir, permite conocer si las categorías/grupos de una variable cualitativa se reparten porcentualmente por igual en las categorías/grupos de otra variable también cualitativa. Por ejemplo, si los hombres presentan el mismo Nivel de Estudios que las mujeres o si los muy católicos piensan igual sobre el grado de toxicomanía que representa el tomar alcohol respecto a los poco católicos y a los ateos, etc. Lógicamente, si hay asociación quiere decir que hay repartos porcentuales desiguales o lo que es lo mismo que una determinada variable influye o incluso determinada los resultados de la otra variable. De ahí que, usualmente, una de las dos variables sea tomada como variable explicativa o variable independiente y la otra la variable a explicar o variable dependiente. Este reparto de funciones o denominaciones de cada una de las dos variable es importante en todo Cruce de Variables. Entre los coeficientes estadísticos usados en estos análisis destaca el χ2 (ji cuadrado) pero deben señalarse otros importantes tales como el coeficiente ϕ (phi), la Corrección de Continuidad de Yates, la Razón de Verosimilitud, la Asociación Lineal por Lineal, el coeficiente V de Cramer, el Test de Mantel-Haenszel, el Test de Cochran, el coeficiente λ (Lambda), la Tau de Goodman y Kruskal (Tau-y), la d de Somers, el coeficiente Eta, el coeficiente Kappa, el coeficiente de Riesgo Relativo, etc. Todos estos coeficientes aportan información interesante cuando se quiere conocer no sólo si existe asociación o no sino si se pueden predecir los valores de una variable conociendo los de la otra, qué riesgo se corre en esa predicción, cuánta variabilidad se explica, qué representa la asociación hallada sobre la asociación máxima que pudiera darse con tales datos. 8.4.0.3. Utilidad e interpretación Por medio de este comando se resuelven ejercicios del tipo: “la variable A está asociada a la variable B” o “algunas categorías de una variable A tienen diferentes porcentajes respecto a determinadas categorías de la variable B”. Si se nos preguntase si en el fichero “CITEC.sav” existe asociación entre el nivel de educación del entrevistado (v8) y su opinión sobre si la ciencia hace peligrosos a los investigadores (v23), acudiríamos a un análisis de tablas de contingencia. En este caso concreto sería recomendable realizar una recodificación de ambas variables ya que nos encontramos con muchas categorías que complicarían el análisis. Como se ha señalado el coeficiente de asociación más utilizado es el χ2 (ji cuadrado) siempre teniendo en cuenta que al manejar variables discretas no puede hablarse de correlación (propia de 69 © Universidad de Deusto - ISBN 978-84-9830-628-6 variables continuas) sino de asociación. Este coeficiente no tiene signo por lo que la dirección de la asociación entre variables ha de decidirla el investigador con el estudio de los porcentajes o por indicación teórica previa. Es importarse darse cuenta de que el ji cuadrado depende del tamaño de la muestra no de los porcentajes. Otro tema interesante en el estudio de una tabla de contingencia es el de la interacción. Que exista interacción en alguna de las casillas quiere decir que existe una presencia de sujetos muy señalada (mucho mayor o mucho menor) en esa casilla en comparación al resto de casillas. Es decir, en alguna casilla aparece un grupo de sujetos mayoritario o minoritario respecto de las demás lo cual indica de inmediato que no existe un reparto proporcional de todos los sujetos entre todas las casillas. 8.4.1. Manejo del SPSS Para acceder a este comando se PULSA en Analizar, después en Estadísticos descriptivos y, por último, en Tablas de contingencia tras lo cual aparece la ventana de diálogo de la Fig. 69. Como se puede apreciar, se ha utilizado en este ejemplo la variable explicativa o independiente Años Educ. (v8), del fichero de datos “CITEC.sav”, que se ha colocado en el rectángulo titulado Filas y se han colocado en el rectángulo titulado Columnas dos variables de contenido o dependientes Recursos(v24) y Futuro(v25). Figura 69. Se pretende averiguar si las respuestas a esas dos preguntas o ítems están influenciadas por el nivel de cultura medido por los años de educación. En medio de la ventana (Capa 1 de 1) se ofrece la posibilidad de introducir una variable nueva, tal y como sucede también en la Figura 40. cuando se trata de averiguar Medias para distintos grupos, que supondría realizar todo el estudio de asociación entre variables solicitado y que se realizará para cada uno de los grupos/categorías que tenga esa nueva variable. Debe advertirse, por otra parte, que la v8 ha sido recodificada en dos grupos (1-2=1 y 3-4=2) siendo el 1=Menos cultura y 2=Mayor cultura. También la v24 y v25 han sido recodificadas en dos grupos 70 © Universidad de Deusto - ISBN 978-84-9830-628-6 (1-3=1 y 4-5=2) siendo 1=Acuerdo y 2=Desacuerdo. En ambos casos los ceros se toman como valores perdidos. Si se PULSA la opción Estadísticos pueden elegirse (Fig. 70) los coeficientes estadísticos necesarios que, en este caso, han sido Chi Cuadrado, Coeficiente de Contingencia y también la d de Somers porque ambos tipos de variables pueden ser considerados de alguna forma como variables ordinales al presentar las categorías un cierto orden que va de menos a más. Figura 70. Una vez elegidos los estadísticos se PULSA en Continuar y se vuelve a la ventana principal de diálogo (Fig. 69) en la que se puede PULSAR la opción Casillas (Fig. 71). Figura 71. En esta ventana pueden solicitarse las Frecuencias (Observadas o Esperadas), los Porcentajes (por Fila, por Columna o para el Total) y los Residuos (No tipificados, Tipificados o Tipificados corregidos). En la figura aparecen solicitados los más usuales: frecuencias observadas y porcentajes por columnas, es decir, según las categorías de la variable independiente. Una vez señaladas las opciones de casillas se PULSA Continuar y se vuelve a la ventana principal de diálogo en la que se puede PULSAR en Formato donde simplemente se ofrece si el orden de las filas es ascendente o descendente. Si, finalmente, se PULSA Aceptar en la ventana principal de diálogo (Fig. 69) el programa entra en funcionamiento y realiza los cálculos pertinentes referidos a las tablas de contingencia. 8.4.2. Resultados e Interpretación Los resultados que se obtienen en el ejemplo propuesto son los siguientes: 71 © Universidad de Deusto - ISBN 978-84-9830-628-6 Tablas de contingencia Resumen del procesamiento de los casos Casos Perdidos N Porcentaje 0 .0% 0 .0% Válidos N Porcentaje 1021 100.0% 1021 100.0% Años educ. * Recursos Años educ. * Futuro Total N Porcentaje 1021 100.0% 1021 100.0% Años educ. * Recursos Tabla de contingencia v8r Menos cultos Más cultos Total v24r 1.00 2.00 362 367 49.7% 50.3% 90 202 30.8% 69.2% 452 569 44.3% 55.7% Recuento % de v8r Recuento % de v8r Recuento % de v8r Total 729 100.0% 292 100.0% 1021 100.0% Pruebas de chi-cuadrado Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) .000 29.221 1 .000 30.677 1 .000 Valor 29.979b gl 29.950 1 Sig. exacta (bilateral) Sig. exacta (unilateral) .000 .000 .000 1021 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 129.27. Medidas direccionales Ordinal por ordinal d de Somers Error típ. a asint. .030 .027 .033 Valor .171 .156 .188 Simétrica v8r dependiente v24r dependiente b T aproximada 5.668 5.668 5.668 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. Medidas simétricas Valor Nominal por nominal N de casos válidos Coeficiente de contingencia Sig. aproximada .169 .000 1021 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. Años educ. * Futuro Tabla de contingencia v8r Menos cultos Más cultos Total v25r 1.00 2.00 607 122 83.3% 16.7% 239 53 81.8% 18.2% 846 175 82.9% 17.1% Recuento % de v8r Recuento % de v8r Recuento % de v8r Total 729 100.0% 292 100.0% 1021 100.0% 72 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sig. aproximada .000 .000 .000 Pruebas de chi-cuadrado Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) .588 .203 1 .652 .291 1 .589 Valor .294b gl .294 1 Sig. exacta (bilateral) Sig. exacta (unilateral) .583 .324 .588 1021 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 50.05. Medidas direccionales Ordinal por ordinal d de Somers Valor .017 .020 .014 Simétrica v8r dependiente v25r dependiente Error típ. a asint. .031 .038 .026 b T aproximada .535 .535 .535 Sig. aproximada .593 .593 .593 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. Medidas simétricas Valor Nominal por nominal N de casos válidos Coeficiente de contingencia Sig. aproximada .017 .588 1021 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. La primera tabla es general y tan sólo ofrece el total de sujetos válidos analizados así como el número de sujetos con valores perdidos que, en este caso, no hay ninguno de forma que el total coincide con el de válidos: 1021 sujetos. El análisis de la asociación entre Años Educ.(v8) y Recursos(v24) consta de cuatro tablas: La primera es la Tabla de contingencia donde aparecen las frecuencias observadas y los porcentajes calculados por filas: llama la atención la disparidad de porcentajes de los Muy Cultos que están de Acuerdo con que los Recursos de la tierra serán inagotables porque sólo llega al 30.8% frente al 49.7% de los Menos Cultos. Puede pensarse ya que la cultura (medida por los años de educación) influye en ser más o menos optimista respecto a la inagotabilidad de los recursos naturales. Es decir, los coeficientes de asociación serán significativos. En la segunda tabla, efectivamente, titulada Pruebas de chi-cuadrado todos los coeficientes (Chicuadrado, Razón de verosimilitud, etc.) presentan un Valor muy alto lo que origina que para 1 gl (grado de libertad) sean muy significativos tal y como aparece reflejado en las tres columnas donde se ofrece la Significación tanto asintótica como bilateral o unilateral: en todos los casos es del 0.000 en tanto por uno o 0.0% por ciento. Quiere esto decir que tales diferencias porcentuales o tales coeficientes estadísticos no pueden salir por azar ni en un uno por mil de las ocasiones. Por lo tanto, los Muy cultos se diferencian real y significativamente de los Menos cultos en esta temática de los Recursos. La tabla tercera titulada Medidas direccionales ofrece el Valor para el estadístico “d” de Somer calculándolo sobre esos datos de frecuencias observadas y sus porcentajes. Este estadístico 73 © Universidad de Deusto - ISBN 978-84-9830-628-6 presupone que las categorías de las dos variables son ordinales, es decir, tienen un orden o una jerarquía: van, por ejemplo, de menos a más. Por otra parte, la “d” de Somer presenta varios resultados según como considere la tabla de contingencia: por Simétrica entiende que tal tabla no tiene establecida una variable dependiente y otra independiente de forma que la influencia presente una determinada dirección. En ese caso, su Valor es 0.171 y su Significación el 0000 por lo tanto se concluye de la misma forma que con los coeficientes anteriores. Por Recursos dependiente entiende que esa es la variable dependiente y la que influye son los Años educ. Aquí su Valor es un poco mayor 0.188 y también indica que existe diferencia significativa entre los Muy Cultos y los Menos Cultos. Por Años educ. dependiente entiende que esta variable es la dependiente, cuestión que en este caso no tiene sentido porque claramente está definida a priori como la variable que influye, es decir, como variable independiente. La cuarta y última tabla titulada Medidas simétricas presenta el Coeficiente de contingencia y toma las dos variables como cualitativas o nominales y, además, considera que ambas variables se influyen mutuamente (cuestión que, en este caso, no sería del todo correcta). Su Valor es 0.189 y su Significación es también 0.000. Por lo tanto, indica lo mismo que los coeficientes anteriores: hay una diferencia significativa muy elevada entre la opinión de los Más Cultos y la de los Menos Cultos respecto a si los recursos serán inagotables. Los más optimistas son los de menor cultura y los más pesimistas los de mayor cultura. En el análisis de la asociación entre Años educ.(v8) y Futuro(v25) se ofrecen también las mismas cuatro tablas aunque lógicamente con resultados diferentes a las anteriores. En la primera, Tabla de contingencia, ya se aprecia que entre los de más y los de menos cultura no hay diferencia sensible respecto al Acuerdo con que la ciencia y la tecnología proporcionará más oportunidades para las generaciones futuras: concretamente 81.8% frente a un 83.3%. La segunda tabla, Pruebas de chicuadrado, constata estadísticamente que, en efecto, no hay diferencia significativa: tanto el Chicuadrado como la Razón de verosimilitud, etc. no alcanzan valores (0.294; 0.291, etc.) que impliquen o permitan deducir la diferencia significativa entre los porcentajes (Sig.0.588; 0.589, etc., es decir, un 58.8%; un 58.9% , etc. de que tales diferencias porcentuales y, por tanto, tales estadísticos puedan producirse por azar). Las tablas tercera y cuarta referidas respectivamente a Medidas direccionales y a Medidas simétricas con sus respectivos estadísticos “d” de Somer y Coeficiente contingencia no hacen sino refrendar y apoyar las conclusiones ya sabidas. 8.4.3. Ejercicios y Sintaxis Los siguientes ejercicios favorecen el conocimiento de los cálculos y de la interpretación del chicuadrado. Se recomienda, no obstante, consular los ejercicios de Neutralización de variables, (Apartado 8.5) porque el estadístico básico para la toma de decisiones en ese tema es precisamente el chi-cuadrado calculado en distintas condiciones y según determinadas variables. 1. Cruzar la variable Sexo (v5) del fichero “CITEC.sav” con una nueva variable VPT que deberá ser creada en ese fichero. Esa variable VPT será la puntuación total de cada sujeto en la escala de conocimientos científicos (de la v10 a la v20) teniendo en cuenta que se otorgará 1 punto a quien acierta la pregunta, de lo contrario tendrá cero puntos. (Véase el código de respuestas acertadas) v10 v11 v12 v13 v14 v15 Código de respuestas acertadas Æ 1 v16 Æ Æ 1 v17 Æ Æ 1 v18 Æ Æ 2 v19 Æ Æ 1 v20 Æ Æ 2 1 2 2 1 1 74 © Universidad de Deusto - ISBN 978-84-9830-628-6 Posteriormente, esa nueva variable VPT se recodificará de la siguiente manera: 0, 1, 2, 3, 4 = 1 5, 6 = 2 7, 8, 9, 10, 11 = 3 Interpretar los resultados en base a los coeficientes de asociación y en base a los porcentajes en el cruce de las dos variables. Algunas soluciones numéricas relevantes: Tabla de contingencia Sexo * VPTR Sexo hombre mujer Total Recuento % de Sexo Recuento % de Sexo Recuento % de Sexo VPTR 2.00 148 29.8% 169 32.3% 317 31.0% 1.00 117 23.5% 173 33.0% 290 28.4% 3.00 232 46.7% 182 34.7% 414 40.5% Total 497 100.0% 524 100.0% 1021 100.0% Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor 17.542a 17.614 2 2 Sig. asintótica (bilateral) .000 .000 1 .000 gl 17.329 1021 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 141.17. Medidas direccionales Ordinal por ordinal d de Somers Simétrica Sexo dependiente VPTR dependiente Valor -.122 -.108 -.142 Error típ. a asint. .029 .025 .034 b T aproximada -4.232 -4.232 -4.232 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. Medidas simétricas Valor Nominal por nominal N de casos válidos Coeficiente de contingencia Sig. aproximada .130 1021 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. 75 © Universidad de Deusto - ISBN 978-84-9830-628-6 .000 Sig. aproximada .000 .000 .000 Sintaxis para el Ejercicio 1 2. Averiguar e interpretar también la asociación entre Sexo (v5) y VTP recodificada, pero solamente para el grupo de los de +20 años de educación (v8) comparando los resultados con los anteriores. Algunas soluciones numéricas relevantes: Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor 7.291a 8.849 2 2 Sig. asintótica (bilateral) .026 .012 1 .631 gl .230 151 a. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1.91. Medidas direccionales Ordinal por ordinal d de Somers Simétrica Sexo dependiente VPTR dependiente Valor -.084 -.094 -.075 Error típ. a asint. .080 .091 .072 b T aproximada -1.043 -1.043 -1.043 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. Medidas simétricas Valor Nominal por nominal N de casos válidos Coeficiente de contingencia Sig. aproximada .215 .026 151 a. Asumiendo la hipótesis alternativa. b. Empleando el error típico asintótico basado en la hipótesis nula. 76 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sig. aproximada .297 .297 .297 Sintaxis para el Ejercicio 2 3. Cruzar la variable Clase Social (v35) recodificada según 1-2=1 y 3-4=2 del fichero “ESCUEL.sav”, con Disfrutar (v8) recodificada según 1-2-3-4=1; 5-6=2 y 7-8-9=3. Interpretar los resultados con los correspondientes coeficientes y a los porcentajes. Algunas soluciones numéricas relevantes: Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Valor 5.721a 5.716 5.498 2 2 Sig. asintótica (bilateral) .057 .057 1 .019 gl 117 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 6.84. Sintaxis para el Ejercicio 3 4. ¿A qué conclusiones se llega si el ejercicio anterior es realizado para cada uno de los dos grupos de Sexo (v34)?. Soluciones numéricas relevantes: 77 © Universidad de Deusto - ISBN 978-84-9830-628-6 Pruebas de chi-cuadrado Sexo HOMBRE MUJER 2 2 Sig. asintótica (bilateral) .473 .450 1.392 1 .238 31 2.499b 2.345 2 2 .287 .310 2.148 1 .143 Valor 1.499a 1.597 Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos gl 86 a. 4 casillas (66.7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1.45. b. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 2.93. Sintaxis para el Ejercicio 4 78 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.5. NEUTRALIZACION DE VARIABLES 8.5.0. Fórmulas y Aplicación 8.5.0.1. Fórmulas En este apartado son útiles todas las fórmulas expuestas en el apartado anterior 8.4.0.1. dentro del capítulo de Tablas de Contingencia. 8.5.0.2. Tipo de variables requeridas Se puede decir que la neutralización de variables consiste en la introducción de una tercera variable en el análisis de las tablas de contingencia para conocer si esa variable hace variar los resultados iniciales entre las dos variables primeras. Ejemplo: Del fichero CITEC.sav se desea cruzar las variables sexo(v5) y años de educación(v8) con la v22. Tanto la v5 como la v8 son variables nominales; sin embargo, la v22 puede ser tomada, no como una variable estrictamente nominal sino como una escala que se mueve del 1 al 5; por lo tanto, tendremos que recodificarla en dos o tres grupos. 8.5.0.3. Utilidad e interpretación La neutralización de variables se utiliza como finalidad principal para conocer cuál de entre dos variables cualitativas presenta mayor asociación (ji cuadrado) con la variable dependiente también cualitativa. La práctica consiste en introducir una tercera variable en el análisis de las tablas de contingencia realizado en base a dos variables. Si por ejemplo ya es conocida la asociación entre educación (v8) y la v22 (tres grupos) para toda la muestra podemos calcular otra vez la asociación existente entre educación (v8) y la v22 (tres grupos) pero por un lado sólo para los sujetos Hombres y por otro sólo para los sujetos Mujeres con lo cual se tendrán dos ji-cuadrado de asociación entre educación y v22: uno obtenido con la muestra de Hombres y otro con la de Mujeres. Este proceso se llama neutralización de la variable sexo (v5) y da como resultado conocer si la asociación inicial entre educación y v22 (tres grupos) se mantiene igual o cambia en el grupo de hombres y en el grupo de mujeres. A este proceso le sigue otro similar. Se parte de realizar las tablas de contingencia entre sexo (v5) y v22 (tres grupos). Posteriormente se neutraliza la variable educación (v8), es decir, se realizan cuatro tablas de contingencia entre sexo (v5) y v22 (tres grupos) una por cada uno de los cuatro grupos de la variable educación (v8). Al comparar los resultados de la tabla de contingencia (ji-cuadrado) para toda la muestra con los resultados de las otra cuatro tablas se podrá conocer si han variado y en qué dirección o, por el contrario, se mantienen similares. De estas comparaciones se puede deducir el objetivo inicial que consiste en averiguar si el sexo (v5) o educación (v8) es la variable con mayor asociación o influencia sobre la v22 recodificada en tres grupos. 8.5.1. Manejo del SPSS Se trata en cierto modo de un análisis similar al de la correlación parcial pero con variables cualitativas/nominales. Un ejemplo concreto es el de conocer si la asociación encontrada en el apartado anterior entre Años educ.(v8) y Recursos(v24) se modifica de alguna manera si se tiene en cuenta una tercera variable: Edad(v4) recodificada en dos grupos (1-2=1; 3-4=2), es decir 1=15-39 años y 2=40 o más años. La estrategia metodológica sigue los siguientes pasos: 1º) Obtener e interpretar las dos tablas de contingencia generales: una, cruzando Años educ.(v8) con Recursos(v24); dos, cruzando Edad(v4) con Recursos(v24). 2º) Neutralizar la variable Edad(v4). Esto exige obtener la tabla de contingencia de : 79 © Universidad de Deusto - ISBN 978-84-9830-628-6 a) Años educ.(v8) cruzada con Recursos(v24) pero sólo teniendo en cuenta a los de 15-39 años, es decir, sólo teniendo en cuenta a quienes tienen el dígito 1 en la variable Edad(v4). b) Años educ.(v8) cruzada con Recursos(v24) pero sólo teniendo en cuenta a los de 40 años o más, es decir, sólo teniendo en cuenta a quienes tienen el dígito 2 en la variable Edad(v4). c) Si en lugar de la variable Edad(v4) fuera otra variable que tuviera más dígitos (más categorías/grupos) debería hacerse lo mismo: Años educ.(v8) cruzada con Recursos(v4) teniendo en cuenta cada vez sólo a los de un determinado dígito. 3º) Neutralizar la variable Años educ.(v8). Esto exige obtener la tabla de contingencia de: a) Edad(v4) cruzada con Recursos(v24) pero sólo teniendo en cuenta a los Menos Cultos, es decir, sólo teniendo en cuenta a quienes tienen el dígito 1 en la variable Años educ.(v8). b) Edad(v4) cruzada con Recursos(v24) pero sólo teniendo en cuenta a los Más Cultos, es decir, sólo teniendo en cuenta a quienes tienen el dígito 2 en la variable Años educ.(v8). c) Si en lugar de la variable Años educ.(v8) fuera otra variable que tuviera más dígitos (más categorías/grupos) debería hacerse lo mismo: Edad(v4) cruzada con Recursos(v24) teniendo en cuenta cada vez sólo a los de un determinado dígito. 4º) Analizar e interpretar los resultados anteriormente obtenidos con el fin de dar respuesta a la pregunta sobre el influjo que ejerce la introducción de esa tercera variable. El procedimiento operativo en el SPSS es relativamente sencillo: Para obtener las dos tablas de contingencia generales basta con solicitarlo tal y como se explica en el apartado anterior 8.3.4. Tablas de Contingencia. En la Fig. 72 y en la Fig. 73 se presentan las peticiones primarias sin olvidar que al PULSAR en Estadísticos se pueden elegir aquellos coeficientes que se consideren necesarios así como al PULSAR en Casillas o en Formato pueden elegirse por una parte las frecuencias, los porcentajes y los residuos así como la forma en que salgan estéticamente los resultados. Figura 72. Figura 73. Para realizar la segunda etapa referida a la neutralización, en concreto de la Edad(v4), basta con trasladar esa variable Edad(v4) al rectángulo blanco inferior de la ventana principal de diálogo que aparece momentáneamente titulado Capa 1 de 1 (Fig. 74). Si se PULSA Aceptar (tras haber elegido en la opción Estadísticos, en la opción Casillas y en la opción Formato lo que se considere 80 © Universidad de Deusto - ISBN 978-84-9830-628-6 más conveniente) el programa proporciona dos tablas de contingencia con sus respectivos estadísticos donde en cada una están cruzadas Años educ.(v8) con Recursos(v24) pero una de ellas solo recoge a los sujetos de entre 15-39 años y la otra solo recoge o tiene en cuenta a los sujetos de 40 años o más. Figura 74. Figura 75. De la misma forma se procede en la neutralización de la variable Años educ.(v8). En este caso se coloca esta variable en el rectángulo blanco inferior y la variable Edad(v4) se coloca en el rectángulo blanco titulado Columnas (Fig. 75). Aquí también se obtendrán dos tablas de contingencia donde estarán cruzadas Edad(v4) con Recursos(v24) pero una corresponderá a los sujetos Menos Cultos y la otra corresponderá a los sujetos Más cultos. Con estos resultados ya pueden obtenerse las conclusiones pertinentes acerca de qué ocurre cuando se incorpora una tercera variable en la asociación de otras dos. Efectivamente, ya se conoce si la variable Años educ.(v8) influye (está asociada) en la variable Recursos(v24) considerando el total de los sujetos de la muestra. Y también se conoce cuánta es la influencia (asociación) teniendo en cuenta por separado a los dos grupos de edad. Se puede saber, por tanto, si la influencia ha disminuido, ha aumentado o se mantiene más o menos similar. En esta última posibilidad quiere decir que la influencia no varía ya sea considerando a todos los sujetos o considerando los dos grupos de edad y, en consecuencia, significa que esa variable Edad no tiene peso para alterar la asociación entre v8 y v24. Si, por el contrario, aumenta o disminuye quiere decir que esa variable interviniente v4 es capaz de alterar y modificar la asociación existente entre v8 y v24. En el caso concreto de aumentar la asociación significa que la influencia de la Edad(v4) va en la misma dirección que la de Años de educ.(v8) y, por el contrario, si disminuye significa que la edad influye en dirección contraria a la de años de educación. El mismo recorrido debe hacerse para conocer qué ocurre entre Edad(v4) y Recursos(v24). Se sabe cuánta es la influencia considerando a todos los sujetos y también se sabe cuánta es la influencia en cada grupo según años de educación, es decir, entre los Más Cultos y entre los MenosCultos. Por tanto, se podrá deducir en definitiva si la variable Años educ.(v8) es capaz de modificar o no la influencia de la Edad sobre la variable Recursos. Deben advertirse varias cuestiones importantes: la primera, admitir que las variables sobre las que se investiga pueden tener más de dos categorías/grupos, lo cuál convierte el análisis en algo más complicado aunque la forma operativa de actuar sea la misma. La segunda, que normalmente, como se ha hecho en este ejemplo, suele hacerse uso del “Recodificar” de modo que las variables que se analizan suelen presentan menos categorías/grupos que las originales sobre todo cuando se trata de variables cuantitativas transformadas en variables cualitativas o nominales. En este caso, el número 81 © Universidad de Deusto - ISBN 978-84-9830-628-6 de categorías/grupos que se vayan a formar debe pensarse con cuidado así como qué sujetos van a formar parte de una categoría o de otra. Piénsese que recodificar (categorizar) la variable Ingresos por ejemplo puede hacerse de muy diversas formas. La tercera, fundamental a la hora de realizar las interpretaciones, es considerar si se produce el fenómeno de las “Tipologías”, es decir, si un cierto tipo de sujetos se diferencian enormemente de los demás. Pudiera ocurrir, por ejemplo, que los Muy Católicos y, además, Mayores de edad se diferenciaran muy significativamente de los demás en su opinión en contra del aborto. El hallazgo de estas posibles “tipologías” cuando se realizan análisis de tablas de contingencia es un descubrimiento altamente interesante y que debe ser resaltado en las conclusiones. 8.5.2. Resultados e Interpretación 8.5.2.1. Influencia de Años Educ.(v8) en Recursos(v24) neutralizando Edad(v4). Tabla de Contingencia y estadísticos de asociación (χ2) considerando todos los sujetos. Tabla de contingencia Recursos * Años educ. Recursos 1.00 2.00 Total χ2= 29,979 Recuento % de Años educ. Recuento % de Años educ. Recuento % de Años educ. Años educ. 1=Menos Cultos 2=Más Cultos 362 90 49.7% 30.8% 367 202 50.3% 69.2% 729 292 100.0% 100.0% Sig.= 0,000 Tablas de contingencia y estadísticos de asociación (χ2) considerando el grupo de los de 15-39 años y el grupo de 40 años o más. Tabla de contingencia Recursos * Años educ. * Edad Edad 1=15-39 años Recursos 1=Acuerdo 2=Descacuerdo Total 2=40 años o más Recursos 1=Acuerdo 2=Descacuerdo Total Recuento % de Años educ. Recuento % de Años educ. Recuento % de Años educ. Recuento % de Años educ. Recuento % de Años educ. Recuento % de Años educ. Años educ. 1=Menos Cultos 2=Más Cultos 113 76 41.4% 31.0% 160 169 58.6% 69.0% 273 245 100.0% 100.0% 249 14 54.6% 29.8% 207 33 45.4% 70.2% 456 47 100.0% 100.0% Total 189 36.5% 329 63.5% 518 100.0% 263 52.3% 240 47.7% 503 100.0% χ2= 5,994 Sig.= 0,014 χ2= 10,520 Sig.= 0,001 De la primera tabla se conoce la diferencia de porcentajes respecto al Acuerdo con que la ciencia y la tecnología conseguirán que los Recursos de la tierra sean inagotables: los Más cultos solo llegan al 31,0% mientras que los Menos Cultos llegan al 49,7%. Esta disparidad medida por el χ2= 29,979 indica una fuerte asociación entre las dos variables: a menor cultura más optimismo (aunque no mayoritario puesto que el porcentaje no llega al 50%) respecto a la inagotabilidad de los recursos naturales que los de mayor cultura. En las dos tablas siguientes, la distribución de los porcentajes ha variado: por una parte, 31.0% de los Más Cultos frente a 41.4% de los Menos Cultos lo que origina una asociación medida por el χ2= 5.994 y Sig.=0.014 menor que la anterior, es decir en el grupo de los de 15-39 años de edad la asociación Años educ(v8) y Recursos(v24) ha disminuido, ya no tiene tanta fuerza a pesar de que todavía la asociación es significativa no al 99% pero sí al 95%. En la tabla del grupo de 40 años o más también los porcentajes varían llegando en este caso a presentar diferencias más abultadas: 82 © Universidad de Deusto - ISBN 978-84-9830-628-6 29.8% frente a 54.6% aunque, sin embargo, la cuantía de la asociación medida por el χ2 =10.520 Sig. =0.001 es menos significativa que la primitiva de la tabla general (1). En definitiva, la asociación entre Años educ.(v8) y Recursos(v24) es más fuerte en la muestra general que en los dos grupos de edad porque en éstos pierde intensidad. 8.5.2.2. Influencia de Edad(v4) en Recursos(v24) neutralizando Años educ.(v8). Tabla de contingencia Recursos * Edad Edad Recursos 1=Acuerdo 2=Descacuerdo Total χ2= 25,821 Recuento % de Edad Recuento % de Edad Recuento % de Edad 1=15-39 años 189 36.5% 329 63.5% 518 100.0% 2=40 años o más 263 52.3% 240 47.7% 503 100.0% Total 452 44.3% 569 55.7% 1021 100.0% Sig.= 0,000 Tabla de contingencia Recursos * Edad * Años educ. Edad Años educ. 1=Menos Cultos Recursos 1=Acuerdo 2=Descacuerdo Total 2=Más Cultos Recursos 1=Acuerdo 2=Descacuerdo Total Recuento % de Edad Recuento % de Edad Recuento % de Edad Recuento % de Edad Recuento % de Edad Recuento % de Edad 1=15-39 años 113 41.4% 160 58.6% 273 100.0% 76 31.0% 169 69.0% 245 100.0% 2=40 años o más 249 54.6% 207 45.4% 456 100.0% 14 29.8% 33 70.2% 47 100.0% Total 362 49.7% 367 50.3% 729 100.0% 90 30.8% 202 69.2% 292 100.0% χ2= 11,926 Sig.= 0,001 χ2= 0,028 Sig.= 0,867 En la primera tabla, la variable Edad está asociada con la opinión sobre los Recursos de forma significativa llegando el χ2 a la cifra de 25.821 (Sig.=0.000). Los más jóvenes son aquí menos optimistas (36.5%) acerca de que los recursos serán inagotables que los mayores dado que éstos llegan a un 52.3% de acuerdo. Sin embargo, cuando se analizan las dos tablas provenientes de la neutralización de la variable Años educ.(v8) tal aparente asociación y, por tanto, tal aparente influencia de la variable Edad sobre la variable Recursos queda puesta en entredicho. Efectivamente, sobre todo en la segunda tabla, la perteneciente a los Más Cultos, la variable Edad no influye en absoluto sobre la opinión sobre los recursos naturales (χ2=0.028; Sig.=0.867, es decir, un 86.7% de que tal asociación pueda darse por azar). Los porcentajes también abonan esta conclusión: los más jóvenes están de acuerdo en un 31.0% y los más mayores en una cifra muy similar 29.8%. Como conclusión final, en consecuencia, debe decirse que tiene más capacidad de influencia la variable Años educ.(v8) sobre la variable Recurso(v24) que no la variable Edad(v8). (1 ) Es evidente que no por haber mayor diferencia de porcentajes el coeficiente χ2 tiene que resultar siempre mayor. En realidad, el χ2 depende matemáticamente sobre todo del tamaño de la muestra analizada. 83 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.5.3. Ejercicios y Sintaxis 1. Del fichero “SALUD.sav” crear una nueva variable VSP que recoja las puntuaciones totales de los sujetos en la escala de Salud Psicopatológica (de la v27 a la v36) y recodificarla en tres grupos (1=0-1-2-3; 2=4-5-6 y 3=7-8-9-10). Averiguar y analizar, mediante el cruce de variables y la “neutralización”, si es la variable Actividad (v4) o el Sexo (v59) quien más asociación tiene con esa nueva variable recodificada. Algunas soluciones numéricas relevantes: Chi-cuadrados entre v4 y VSPR neutralizando v59 Tabla de contingencia Tarea ocupacional * VSPR * Sexo Sexo HOMBRE Tarea ocupacional no si Total MUJER VSPR 2.00 27 30.7% 22 22.9% 49 26.6% 4 21.1% 4 23.5% 8 22.2% 1.00 Tarea ocupacional no si Total Recuento % de Tarea ocupacional Recuento % de Tarea ocupacional Recuento % de Tarea ocupacional Recuento % de Tarea ocupacional Recuento % de Tarea ocupacional Recuento % de Tarea ocupacional 45 51.1% 67 69.8% 112 60.9% 11 57.9% 11 64.7% 22 61.1% 3.00 16 18.2% 7 7.3% 23 12.5% 4 21.1% 2 11.8% 6 16.7% Pruebas de chi-cuadrado Sexo HOMBRE MUJER Valor 8.021a 8.130 Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos 2 2 Sig. asintótica (bilateral) .018 .017 gl 7.976 1 .005 184 .557b .568 2 2 .757 .753 .390 1 .532 36 a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 11.00. b. 4 casillas (66.7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 2.83. Chi-cuadrados entre v59 y VSPR neutralizando v4 Pruebas de chi-cuadrado Tarea ocupacional no si Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos 2 2 Sig. asintótica (bilateral) .703 .690 .039 1 .843 107 .419b .382 2 2 .811 .826 .329 1 .566 Valor .705a .742 gl 113 a. 1 casillas (16.7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3.55. b. 2 casillas (33.3%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 1.35. 84 © Universidad de Deusto - ISBN 978-84-9830-628-6 Total 88 100.0% 96 100.0% 184 100.0% 19 100.0% 17 100.0% 36 100.0% Sintaxis para el Ejercicio 1 2. Utilizando el cruce de variables y la “neutralización” comprobar en el fichero “CITEC.sav” si es la variable Sexo (v5) o la variable Años de Educación (v8) recodificada según 1=1-2 y 2=3-4, la que más asociación presenta con la variable Científicos Peligrosos (v23) recodificada según 1=1-23 y 2=4-5. Algunas soluciones numéricas relevantes: Chi-cuadrados entre v5 y v23R neutralizando v8R Pruebas de chi-cuadrado V8R 1,00 2,00 Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitud Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitud Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) ,388 ,606 1 ,436 ,744 1 ,388 Valor ,744b gl ,743 1 ,389 729 3,291c 1 ,070 2,877 1 ,090 3,298 1 ,069 3,279 1 Sig. exacta (bilateral) Sig. exacta (unilateral) ,402 ,218 ,078 ,045 ,070 292 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 91,87. c. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 63,71. Chi-cuadrados entre v8R y v23R neutralizando v5 85 © Universidad de Deusto - ISBN 978-84-9830-628-6 Pruebas de chi-cuadrado Sexo 1 2 Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitud Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitud Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) ,000 21,528 1 ,000 21,963 1 ,000 Valor 22,492b gl 22,447 1 ,000 497 10,288c 1 ,001 9,605 1 ,002 9,940 1 ,002 10,268 1 Sig. exacta (bilateral) Sig. exacta (unilateral) ,000 ,000 ,002 ,001 ,001 524 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 51,91. c. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 41,19. Sintaxis para el Ejercicio 2 3. Con el fichero “CITEC.sav” verificar cual de las dos variables: Liderazgo (v7) o Años de Educación (v8) recodificadas según 1=1-2 y 2=3-4 presenta mayor asociación con Desarrollo Industrial (v38) haciendo uso del cruce de variables y la “neutralización”. Algunas soluciones numéricas relevantes: Chi-cuadrados de v8R con v38 neutralizando v7R 86 © Universidad de Deusto - ISBN 978-84-9830-628-6 Pruebas de chi-cuadrado V7R 1,00 2,00 4 4 Sig. asintótica (bilateral) ,000 ,000 17,536 1 ,000 684 28,026b 30,917 4 4 ,000 ,000 20,417 1 ,000 Valor 25,189a 26,672 Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos gl 337 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 8,34. b. 1 casillas (10,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 4,59. Chi-cuadrados de v7R con v38 neutralizando v8R Pruebas de chi-cuadrado V8R 1,00 2,00 Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos 4 4 Sig. asintótica (bilateral) ,071 ,069 5,563 1 ,018 729 10,691b 10,921 4 4 ,030 ,027 7,840 1 ,005 Valor 8,646a 8,695 gl 292 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 10,56. b. 1 casillas (10,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 4,42. Sintaxis para el Ejercicio 3 4. Comprobar si la variable Centro Educativo (v36) está más asociada con Guerra Nuclear (v24) que el Sexo (v34 ) en el fichero “ESCUEL.sav” utilizando el cruce de variables, la “neutralización” y los adecuados coeficientes estadísticos. Algunas soluciones numéricas relevantes: Chi-cuadrado de v36 con v24 87 © Universidad de Deusto - ISBN 978-84-9830-628-6 Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Valor 1,253a 1,245 2 2 Sig. asintótica (bilateral) ,534 ,537 1 ,399 gl ,713 117 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 7,56. Chi-cuadrados de v36 con v24 neutralizando v34 Pruebas de chi-cuadrado Sexo HOMBRE MUJER 2 2 Sig. asintótica (bilateral) ,818 ,822 ,274 1 ,601 31 2,072b 2,031 2 2 ,355 ,362 1,594 1 ,207 Valor ,401a ,393 Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos gl 86 a. 3 casillas (50,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 2,32. b. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 5,12. Chi-cuadrado de v34 con v24 Pruebas de chi-cuadrado Chi-cuadrado de Pearson Razón de verosimilitud Asociación lineal por lineal N de casos válidos Valor ,620a ,615 2 2 Sig. asintótica (bilateral) ,734 ,735 1 ,462 gl ,541 117 a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 6,89. Chi-cuadrados de v34 con v24 neutralizando v36 Pruebas de chi-cuadrado Centro Estudios COLEGIO PRIVADO Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos INSTITUTO Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos 2 2 Sig. asintótica (bilateral) .863 .864 .285 1 .593 34 1.504b 1.501 2 2 .471 .472 1.427 1 .232 Valor .295a .293 gl 83 a. 3 casillas (50.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 2.47. b. 1 casillas (16.7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 4.35. 88 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 4 5. Mediante el cruce de variables y la “neutralización” averiguar en el fichero “CAMPAÑA.sav” si es la variable Relaciones Sexuales (v23) recodificada según 1=1 y 2=2-3-4 o la variable Religión (v25) recodificada según 1=1-2-3 y 2=4-5-6-7-8 quién más asociada está con Higiene-Seguridad (v16) recodificada según 1=1-2-3 y 2=4-5. Algunas soluciones numéricas relevantes: Chi-cuadrados de v23Rcon v16R neutralizando v25R Pruebas de chi-cuadrado v25r 1.00 2.00 Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) .270 .753 1 .386 1.230 1 .267 Valor 1.219b gl 1.204 1 .273 81 .077c 1 .782 .000 1 .986 .077 1 .781 .076 1 Sig. exacta (bilateral) Sig. exacta (unilateral) .346 .193 1.000 .499 .783 86 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 12. 33. c. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 7.53. Chi-cuadrados de v25Rcon v16R neutralizando v23R 89 © Universidad de Deusto - ISBN 978-84-9830-628-6 Pruebas de chi-cuadrado v23r 1.00 2.00 Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos Chi-cuadrado de Pearson Corrección por a continuidad Razón de verosimilitudes Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos 1 Sig. asintótica (bilateral) .272 .707 1 .401 1.233 1 .267 Valor 1.208b gl 1.191 1 1 .850 .000 1 1.000 .036 1 .849 1 Sig. exacta (unilateral) .311 .201 1.000 .521 .275 71 .036c .036 Sig. exacta (bilateral) .850 96 a. Calculado sólo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 9.13. c. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 10. 41. Sintaxis para el Ejercicio 5 90 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.6. ANOVA DE UN FACTOR 8.6.0. Fórmulas y Aplicación 8.6.0.1. Fórmulas Estadístico F de Fisher Prueba de Homogeneidad de Media Cuadrática Intergrupo CM ( Inter ) V ( Inter ) Varianzas F= = = Media Cuadrática Intragrupo CM ( E ) V (E) Uno de los métodos para calcular la nj N 2 2 homogeneidad de las varianzas es el de X X ( ) ( ) P Levene: para realizarlo se crea en primer 1 1 − lugar una nueva variable Zij = Xij - Xj, y n N S .C. Inter j CM Inter = V Inter = = 1 posteriormente se lleva a cabo un análisis de GL Inter P −1 varianza con la misma variable independiente o S .C. Intra factor A y esta nueva variable dependiente CM ( E ) = V ( E ) = cuantitativa obteniendo el estadístico F con los GL Intra mismos P-1 y N-P grados de libertad. Si esta F SCIntra = SCTotal - SCInter calculada es mayor que la F de las Tablas se N 2 ( ) X deberá concluir que efectivamente hay ∑ N 2 1 diferencia significativa entre las varianzas de SC Total = ∑ X − N los grupos o, lo que es lo mismo, que los grupos 1 no provienen de una misma población. GLInter=P – 1 GLIntra =N - P ∑ ∑ ∑ Pruebas Post-Hoc NO asumiendo Varianzas Iguales Pruebas Post-Hoc Asumiendo Varianzas Iguales Recorrido Múltiple de Duncan (Válido para Modelos Prueba de T2 de Tamhane Equilibrados: igual tamaño en todos los grupos). CM ( E ) n “p” es el número de medias existente entre las dos medias que se comparan, incluyendo éstas, una vez ordenadas de mayor a menor. Por lo tanto, se debe calcular cada vez un valor diferente de rp, dependiendo de las medias sobre las que se pretenda comprobar su diferencia. “rp” es el valor correspondiente en las tablas de Recorrido Significativo de Duncan. Debe elegirse el nivel de confianza α con p y v (grados de libertad del CM(E)) CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n es el número de observaciones por grupo que deben ser las mismas para todos los grupos (obviamente, en consecuencia, sólo se puede aplicar para modelos equilibrados). R p = r p ;v Se basa en la prueba T y el cálculo del valor crítico T2 se obtiene mediante:  σˆ 2 σˆ 2  1 + 2  T2 = t DS α / 2 (C ;v )  n2   n1   “tDS” pertenece a la distribución t pero corregida por Dunn y Sidak. “v’’” = n1 + n2 - 2 grados de libertad. “C” número de contrastes realizados “ σˆ 12 y σˆ 22 “ son estimadores de la varianza para cada grupo comparado al igual que CM(E) lo es para el conjunto de los grupos. ' Student-Neuwman-Keuls (S-N-K) (Válido para Prueba de T3 de Dunnett Modelos Equilibrados: igual tamaño en todos los grupos). Su fórmula para el cálculo del valor crítico DT3 es muy similar a la anterior aunque cambiando la tDS por el valor m del módulo máximo CM ( E ) studentizado con v’ grados de libertad: W p = qα ( p ;v ) n “qα(p;v)” es el valor correspondiente en las tablas de  σˆ 2 σˆ 2  1 Recorrido “studentizado”. Debe elegirse el nivel de DT 3 = m α (C ;v )  + 2  n2   n1 confianza α y los Grados de Libertad: p = número total de   medias que hay entre las dos medias a comparar inclusive y v los grados de libertad del CM(E). CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n es el número de observaciones por grupo que deben ser las mismas para todos los grupos ' 91 © Universidad de Deusto - ISBN 978-84-9830-628-6 Diferencia Honestamente Significativa (DHS de Prueba de T2 de Games-Howell Tukey) (Válido para Modelos Equilibrados: igual tamaño en Similar a las pruebas anteriores, su fórmula de cálculo del valor crítico G-H emplea el valor q de la distribución del recorrido “studentizado” y los ν grados de libertad de Welch: todos los grupos). CM ( E ) n σˆ 12 σˆ 22 “qα(P;v)” es el valor correspondiente en las tablas de Recorrido + n1 n2 “studentizado”. Debe elegirse el nivel de confianza α y los G − H = q α (P ;v ) 2 Grados de Libertad: P = número total de medias a comparar y v los grados de libertad del CM(E). CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n es el número de observaciones por grupo que deben ser las mismas para todos los grupos. DMS Diferencia Mínima Significativa (Válido para Prueba de C de Dunnett Modelos Equilibrados: igual tamaño en todos los grupos). Se trata de una prueba similar a otra de Cochran, y de ahí su nombre, muy potente y robusta cuando efectivamente no se puede asumir la CM ( E ) igualdad de varianzas. La fórmula es: L = tα ( v ) 2 n q~ σˆ 12 σˆ 22 donde: + DC = n2 2 n1 “tα(v) ” es el valor de las tablas de la distribción “t de Student” con los v grados de libertad de CM(E) y el nivel de confianza elegido. σˆ 2 σˆ 2 qα ( P ; v1 ) 1 + qα ( P ; v 2 ) 2 CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n1 n2 ~ n es el número de observaciones por grupo que deben ser las q = σˆ12 σˆ 22 + mismas para todos los grupos. n1 n2 Q = qα ( P ;v ) Scheffé  n + n2   CM ( E ) ⋅  1  n1 ⋅ n 2  “S” es el valor de la diferencia mínima significativa. Si el valor de la diferencia real entre las medias de los grupos la supera habrá diferencia significativa de medias. “P ” es el número total de grupos. “F” es el valor correspondiente en las tablas de la distribución F de Fisher para el nivel de confianza elegido α y con Grados de Libertad: P-1 y v que son los g.lib. del CM(E). CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n1 y n2 el número de sujetos de uno de los dos grupos que se comparan. S= Tukey-b Tb = (P − 1)F1−α ( P −1;v ) (SNK ) + (Tukey ) 2 “Tb” es el promedio del valor del coeficiente SNK y el de HSD de Tukey. La diferencia real entre las medias de los dos grupos se compara con ese valor y si resulta mayor que él se podrá concluir que existe diferencia significativa. Prueba de Dunnett T ' = t ' α    (P ;v )) 2 2 ⋅ CM ( E ) n donde: “t’ ” es el valor crítico de las tablas del estadístico t’ de Dunnett para el nivel de confianza elegido y Grados de Libertad: P = número de grupos y v = grados de libertad de CM(E). Prueba de Bonferroni Se basa en la prueba t de Student aunque controlando la tasa de error global, es decir, se emplea un nivel de error mucho menor para cada contraste de medias. Concretamente, para cada comparación de medias se emplea la probabilidad de error α/m siendo α la probabilidad de error para todo el experimento y m= P·(P-1)/2 el número total de comparaciones de medias. Prueba de Sidak También se basa en el estadístico t pero corrigiendo el nivel de significación para las comparaciones múltiples dando límites más estrechos incluso que los de la prueba de Bonferroni. 92 © Universidad de Deusto - ISBN 978-84-9830-628-6 Prueba GT2 de Hochberg Esta prueba es similar al test de Tukey y se puede emplear en el caso de que los grupos comparados presenten tamaños diferentes. CM ( E ) CM ( E ) + H = mα (C ;v ) n1 n2 “H” es el valor de la diferencia mínima significativa. Si el valor de la diferencia real entre las medias de los grupos la supera habrá diferencia significativa de medias. “m ” valor de la distribución del “módulo máximo studentizado”. “v” grados de libertad del CM(E) “C” número de contrastes realizados CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n1 y n2 son los tamaños de los dos grupos comparados. Prueba de Gabriel De formato e interpretación similar a la anterior pero con diferente tipo de cálculo aunque alcanza el mismo valor si las n son iguales.  CM ( E ) CM ( E )  + G = mα (C ;v )   2 ⋅ n1 2 ⋅ n 2   “G” es el valor de la diferencia mínima significativa. Si el valor de la diferencia real entre las medias de los grupos la supera habrá diferencia significativa de medias. “m ” valor de la distribución del “módulo máximo studentizado”. “v” grados de libertad del CM(E) “C” número de contrastes realizados. CM(E) es el Cuadrado Medio o Media Cuadrática del Error. n1 y n2 son los tamaños de los dos grupos comparados. Prueba de Waller-Duncan Se basa en el estadístico T pero empleando la aproximación bayesiana. Prueba F de Ryan-Einot-Gabriel-Welch (R-E-G-W F) Utiliza el procedimiento de comparaciones múltiples por pasos según el tamaño de las distancias entre las medias de los grupos basándose en una prueba F. Prueba Q de Ryan-Einot-Gabriel-Welch (R-E-G-W Q) Del mismo modo que la anterior, utiliza el procedimiento de comparaciones múltiples por pasos según el tamaño de las distancias entre las medias de los grupos pero basándose en la distribución del recorrido “studentizado”. 8.6.0.2. Tipo de variables requeridas Las dos variables que este análisis exige tienen distinto carácter: la variable nominal o cualitativa llamada “Factor” que cumple con la función de variable independiente y que divide a la población o muestra en grupos (por ejemplo: edad recodificada, nivel de estudios,...) y la variable dependiente necesariamente cuantitativa sobre la que se va a calcular la media en cada uno de esos grupos. Si la variable cualitativa (el factor) tiene dos categorías puede utilizarse el método de la comparación de medias para muestras independientes y si tiene más de dos categorías debe realizarse este procedimiento de análisis de varianza. El método de ANOVA exige que las muestras no estén relacionadas, esto es, las muestras han de ser independientes y no presentar correlación significativa. Tampoco puede hacerse análisis de varianza si las muestras presentan diferente varianza. Esto se mide a través de la prueba de Levene. Pero, aún no cumpliéndose esta premisa, suele admitirse seguir realizando la verificación de la significatividad de la diferencia de medias. 93 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.6.0.3. Utilidad e interpretación El Análisis Simple de Varianza o ANOVA de un factor es un procedimiento estadístico que tiene por finalidad comparar las medias de distintos grupos en una determinada variable. Su aportación se dirige en dos direcciones: por una parte, verificar si entre el conjunto de todas las medias hay diferencia significativa o, lo que es lo mismo, si los grupos son diferentes entre sí y, por otra parte, cuál es la media (cuál es el grupo) más diferente respecto de los/las demás (sea porque resulta la más elevada o sea porque resulta la más pequeña). En este último caso deben hacerse varias comparaciones tomando siempre pares de medias, es decir, cada media se compara con cada una de las demás (contrastes post-hoc). Así, ANOVA señala si hay diferencia significativa de medias en conjunto, pero las pruebas de posthoc muestran cuáles son las categorías (grupos) más diferentes. Si se nos preguntase si en el fichero “DROGODE.sav” existe diferencia significativa de medias en las distintas categorías del factor edad (v5) respecto a la variable del grado de toxicomanía de un estudiante consumidor de anfetaminas en exámenes (v20), realizaríamos un análisis de varianza simple al tener una variable cualitativa (v4) con más de dos categorías y una variable cuantitativa (v20). Una vez extraídos los resultados del anova observamos como nos encontramos con que en la prueba de homogeneidad de varianzas el estadístico de Levene es mayor del 5% (mayor de 0,05) por lo que existe homogeneidad de varianzas y el contraste post-hoc se realizará de acuerdo a esta realidad. En esta ocasión utilizaremos la prueba de Scheffé. El estadístico F del anova presenta una significación menor del 5% por lo que se puede señalar que existe diferencia significativa entre el conjunto de las tres medias correspondientes a las diferentes categorías del factor estudios. Es importante tener en cuenta como en las comparaciones múltiples resulta un anova significativo en la categoría de estudios universitarios, por lo que realizaremos un anova en cascada. Este proceso consiste en ir eliminando aquellas categorías que más influyen hasta que nos encontremos con que ya no hay diferencia de medias. En este caso tras eliminar el grupo de estudios universitarios y realizar nuevamente el análisis de varianza tan sólo con los dos grupos restantes se observa como ya no hay diferencia de medias entre ellos. Esto permite deducir que el grupo de estudios universitarios era el que presentaba una opinión más diferenciada del resto. 8.6.1. Manejo del SPSS El comando que permite realizar estas comparaciones se encuentra, como siempre, tras PULSAR en la opción Analizar del menú principal, tras abrir el fichero “CITEC.sav”, posteriormente PULSANDO en Comparar medias y, por último, se PULSA en Anova de un factor (Fig. 76) Figura 76. 94 © Universidad de Deusto - ISBN 978-84-9830-628-6 En la ventana que surge inmediatamente (Fig. 77) se debe colocar la variable cualitativa o clasificadora en el rectángulo blanco inferior titulado Factor que en este ejemplo, es la variable Liderazgo(v7) y en el rectángulo blanco superior titulado Dependientes se colocan las variable dependientes que, en este caso, se ha elegido solo una v42 “Computers” (“Usar los servicios bancarios se ha vuelto más complicado con las máquinas informáticas”. Figura 77. En la parte inferior se encuentran tres botones: Contrastes dedicado a explicar la variación intergrupos en componentes de tendencia (lineal, cuadrática o cúbica) que habitualmente no suele ser muy utilizado, Post hoc sin embargo muy útil para realizar las comparaciones múltiples de medias por parejas calculando tales comparaciones según una amplia gama de estadísticos (Fig. 78) divididos en dos grandes bloques: los que realizan los cálculos Asumiendo varianzas iguales entre los que se encuentran los más habituales: DMS (diferencia mínima significativa), Scheffé, Tukey, Duncan, etc. y los que realizan los cálculos No asumiendo varianzas iguales entre los que suelen ser usuales Games-Howell y C de Dunnett. En uno y otro caso se está haciendo referencia a si las varianzas internas de los grupos pueden ser consideradas iguales o, por el contrario, diferentes lo cual exige otro tipo de formulación matemática para averiguar si las medias son o no diferentes. Figura 78 Figura 79. Por último, el botón Opciones (Fig. 79) ofrece en Estadísticos la posibilidad de conocer las medias y desviaciones típicas de cada uno de los grupos y en Homogeneidad de varianzas la prueba de Levene para dilucidar si en efecto pueden ser tales varianzas consideradas iguales o significativamente diferentes. También ofrece la posibilidad de dibujar el Gráfico de las medias y una última opción sobre los Valores perdidos bien sea excluyendo únicamente aquellos sujetos con valores perdidos en las variables analizadas o bien excluyendo a aquellos sujetos con valores perdidos en cualquiera de las variables del archivo de datos. 95 © Universidad de Deusto - ISBN 978-84-9830-628-6 Una vez señaladas las necesidades, en este caso, Scheffé, Games-Howell de pruebas Post-hoc y Descriptivos, Homogeneidad de varianzas en Opciones se PULSA en Aceptar para que el programa ofrezca los resultados requeridos. 8.6.2. Resultados e Interpretación El conjunto de los resultados concretos sobre este ejemplo propuesto acerca de la posible diferencia de medias entre los cuatro grupos de Liderazgo(v7) respecto a la variable Computers(v42) es el siguiente: ANOVA de un factor Descriptivos Computers N Bajo Regular Medio Alto Total 298 386 276 61 1021 Media 3.37 3.56 3.95 3.77 3.62 Desviación típica 1.44 1.40 1.31 1.30 1.40 Error típico .08 .07 .08 .17 .04 Mínimo 1 1 1 1 1 Máximo 5 5 5 5 5 Prueba de homogeneidad de varianzas Computers Estadístico de Levene 5.232 gl1 gl2 1017 3 Sig. .001 ANOVA Computers Inter-grupos Intra-grupos Total Suma de cuadrados 51.091 1946.977 1998.069 gl 3 1017 1020 Media cuadrática 17.030 1.914 F 8.896 Sig. .000 Pruebas post hoc Comparaciones múltiples Variable dependiente: Computers Scheffé (I) Liderazgo Bajo Regular Medio Alto Games-Howell Bajo Regular Medio Alto (J) Liderazgo Regular Medio Alto Bajo Medio Alto Bajo Regular Alto Bajo Regular Medio Regular Medio Alto Bajo Medio Alto Bajo Regular Alto Bajo Regular Medio Diferencia de Error típico medias (I-J) -.18 .11 -.58* .12 -.40 .19 .18 .11 -.39* .11 -.21 .19 .58* .12 .39* .11 .18 .20 .40 .19 .21 .19 -.18 .20 -.18 .11 -.58* .11 -.40 .19 .18 .11 -.39* .11 -.21 .18 .58* .11 .39* .11 .18 .18 .40 .19 .21 .18 -.18 .18 Sig. .39 .00 .24 .39 .00 .74 .00 .00 .84 .24 .74 .84 .33 .00 .15 .33 .00 .64 .00 .00 .77 .15 .64 .77 Intervalo de confianza al 95% Límite Límite inferior superior -.48 .11 -.90 -.25 -.94 .15 -.11 .48 -.70 -.09 -.75 .32 .25 .90 .09 .70 -.37 .73 -.15 .94 -.32 .75 -.73 .37 -.47 .10 -.87 -.28 -.88 .09 -.10 .47 -.67 -.12 -.69 .26 .28 .87 .12 .67 -.30 .66 -.09 .88 -.26 .69 -.66 .30 *. La diferencia de medias es significativa al nivel .05. 96 © Universidad de Deusto - ISBN 978-84-9830-628-6 Subconjuntos homogéneos Computers Liderazgo Schefféa,b Bajo Regular Alto Medio Sig. N 298 386 61 276 Subconjunto para alfa = .05 1 2 3.37 3.56 3.56 3.77 3.77 3.95 .10 .10 Se muestran las medias para los grupos en los subconjuntos homogéneos. a. Usa el tamaño muestral de la media armónica = 154. 065. b. Los tamaños de los grupos no son iguales. Se utilizará la media armónica de los tamaños de los grupos. Los niveles de error de tipo I no están garantizados. La primera tabla, titulada Descriptivos, tiene gran importancia puesto que descubre entre otras cosas, las medias de los cuatro grupos así como sus respectivas desviaciones típicas (se han eliminado aquí por su escasa aportación a la interpretación las columnas de los errores típicos así como los intervalos de confianza que sí los ofrece el programa). La media más alta es 3.95 (grupo Liderazgo Medio) y la más baja 3.37 (grupo Liderazgo Bajo). Las otras dos se sitúan obviamente en medio y son 3.56 (Lid. Regular) y 3.77 (Lid. Alto). Como la variable “Computers” se responde del 1 al 5 entendiendo que el 1 implica Muy de Acuerdo y el 5 Muy en Desacuerdo quiere decir que todos los grupos se encuentran en la zona del desacuerdo, aunque lógicamente unos con medias más elevadas que otros. De estas medias precisamente va a tratar el análisis de la varianza, es decir, si existe distinto grado de desacuerdo. Por otra parte, las desviaciones típicas oscilan entre 1.30 de Lid. Alto y 1.44 de Lid. Bajo siendo las otras dos 1.31 y 1.40. Debe tenerse en cuenta que a pesar de tan pequeñas diferencias (máxima de 0.14) puede resultar, como en realidad sucede aquí según la prueba de heterogeneidad de varianzas medida por el Estadístico de Levene cuyo resultado aparece en la segunda tabla, que exista diferencia significativa entre ellas y suponga ciertamente un grado de desviación notablemente superior en unos casos frente a otros. Dicho de otra forma, los sujetos sobre todo del grupo 1 y 2, en comparación con los del grupo 3 y 4, puntúan de manera mucho más heterogénea como dando a entender que se trata de unas muestras/grupos muy distintas a las otras. Ya se sabe que el ANOVA de un Factor exige igualdad de varianzas entre los grupos porque de lo contrario no se cumple uno de los condicionantes estadístico-matemáticos exigidos (que las muestras procedan de una misma población). Ocurre, sin embargo, que en la práctica no se suele considerar a veces esta exigencia por juzgarla excesiva aunque, sin embargo, se tiene en cuenta en las comparaciones Post hoc utilizando las fórmulas y directrices emanadas del hecho de la desigualdad de varianzas entre los grupos. La tercera tabla, titulada ANOVA, aporta sobre todo información en las dos últimas columnas: la de la F (F de Fisher) que es el cociente entre la Media cuadrática Inter-grupos sobre la Media cuadrática Intra-grupos resultando 8.896. Esta cifra supone para 3 y 1017 grados de libertad una Significación (última columna) de 0.000. Esto es, tal cifra de F no puede darse por azar ni en un uno por mil de las ocasiones, por tanto resulta significativa indicando que existe realmente diferencia significativa entre el conjunto de las cuatro medias. La siguiente tabla, Pruebas post hoc o pruebas a posteriori de comparaciones múltiples dado que se realizan entre todas las parejas de medias que puedan formarse, aporta las soluciones según la prueba de Scheffé y según la prueba de Games-Howell. Como se ha visto que existe desigualdad de varianzas es más conveniente atender a ésta última para sacar conclusiones. Lo importante en este caso a la hora de interpretar son las dos últimas columnas agrupadas bajo el epígrafe “Intervalo de confianza al 95%”. Si uno de los intervalos presenta signo negativo y el otro positivo indica que no 97 © Universidad de Deusto - ISBN 978-84-9830-628-6 hay diferencia significativa entre las medias de los grupos que se comparan. De lo contrario sí hay diferencia significativa. La razón es clara: si se pasa de un signo a otro quiere decir que se pasa por el valor cero y este valor supone que las dos medias pueden ser iguales. Sin embargo, si los dos valores extremos (Límite inferior y Límite superior) presentan el mismo signo quiere decir que una de las dos medias es siempre distinta (superior o inferior) a la otra. Por tanto, hay siempre diferencia significativa al 95% de nivel de confianza. Esto es lo que sucede con la media del grupo 1=Bajo con respecto a la media del grupo 3=Medio. Con los otros dos grupos no hay diferencia significativa. Lo mismo sucede con el grupo 2=Regular con respecto a la media del grupo 3=Medio pero no con los otros dos grupos. El grupo 4=Alto no presenta diferencia significativa con ningún grupo. Se puede concluir, en definitiva, que el grupo 3=Liderazgo Medio es significativamente el de mayor media y que se diferencia claramente del grupo 1 y del 2 aunque no así del 4. Más aún, entre estos tres grupos no existe diferencia significativa. De esta forma, puede entenderse mejor la última tabla de resultados titulada Subconjuntos homogéneos que el SPSS ofrece tomando siempre las medias de menor a mayor y notando indicativamente cuáles se diferencian de las demás y cuáles forman grupo no diferenciado. En la tabla de Pruebas post hoc, por último, hay dos columnas centrales tituladas Error típico y Sig. que tienen una utilidad particular. Sirven para pruebas de contrastes a priori, es decir, para pruebas diseñadas desde el inicio de la investigación para lo cual no sólo se prepara adecuadamente el estudio sino que se admiten como cumplidos ciertos condicionantes, el más importante de ellos es el de admitir que los grupos tienen idéntica varianza (la media cuadrática intra-grupo) y que la comparación se realiza teniendo en cuenta tan solo los dos grupos que se comparan no el resto de grupos que pueda haber. El valor del error típico, por ejemplo, entre el grupo 1=Bajo y el 2=Regular es 1,914 1,914 CMA CMA + = + = 0 ,11 siendo CMA la Media cuadrática intra-grupo. Al n1 n2 298 386 dividir la diferencia de medias entre esos dos grupos (-0.18) por el error típico surge el estadístico cuya significación (que en este caso es 0.394 o 39.4%) dependerá de los grados de libertad correspondientes. Nótese, por ejemplo, que la significación de la diferencia de medias entre esos dos grupos no es la misma según Scheffé (0,394) que según Games-Howell (0,334). 8.6.3. Ejercicios y Sintaxis 1. Del fichero “CITEC.sav”. 1.a.) Crear una variable que recoga las puntuaciones totales en la escala de Conocimientos Científicos de la v9 a la v19 recordando que cualquier sujeto tendrá 1 punto si acierta a cada pregunta, si no tendrá cero puntos, y analizar si existe diferencia entre las medias al tener en cuenta la variable v7. 1.b.) Repetirlo para hombres. 1.c.) Repetirlo también para las mujeres. Código de respuestas acertadas v9 v10 v11 v12 v13 v14 Æ Æ Æ Æ Æ Æ 1 1 1 1 2 1 v15 v16 v17 v18 v19 Æ Æ Æ Æ Æ 2 1 2 2 1 1.a.) Analizar si existe diferencia entre las medias 98 © Universidad de Deusto - ISBN 978-84-9830-628-6 Descriptivos vNueva N Bajo Regular Medio Alto Total 298 386 276 61 1021 Media 4.75 5.83 6.25 6.21 5.65 Desviación típica 2.55 2.31 2.31 2.53 2.47 Error típico .15 .12 .14 .32 .08 Intervalo de confianza para la media al 95% Límite Límite inferior superior 4.46 5.04 5.60 6.06 5.98 6.52 5.57 6.86 5.50 5.80 Mínimo .00 .00 .00 .00 .00 Máximo 10.00 11.00 11.00 11.00 11.00 Prueba de homogeneidad de varianzas vNueva Estadístico de Levene 2.633 gl1 gl2 1017 3 Sig. .049 ANOVA vNueva Inter-grupos Intra-grupos Total Suma de cuadrados 373.713 5832.158 6205.871 gl 3 1017 1020 Media cuadrática 124.571 5.735 F 21.722 Sig. .000 En la tabla de Prueba de Homogeneidad de varianzas el estadístico de Levene (2.633) presenta una significación de 0.049 (4.9%) lo que indica que la diferencia entre las varianzas de los cuatro grupos es significativa a nivel de confianza del 95% y, por lo tanto, en estricta teoría no debería seguir realizándose el análisis de varianza puesto que ya es conocida la diferencia entre la variabilidad de los cuatro grupos y ello supone que tales grupos no son iguales. No obstante, se puede proseguir en algunos casos puntuales con el análisis de varianza para a título indicativo conocer el comportamiento y diferencia de las medias de los grupos. En este caso concreto, además, se puede proseguir considerando el 99% como nivel de confianza por cuanto a ese nivel la diferencia de varianzas no es significativa y utilizando la prueba de Scheffé. En la tabla de ANOVA se aprecia una F=21.722 cuya significación (probabilidad de que tal diferencias de medias suceda por azar) llega al 0.000 (0.0%) y, en consecuencia, se concluye que tales medias en conjunto presentan diferencia significativa. Pruebas post hoc Comparaciones múltiples Variable dependiente: vNueva Scheffé (I) Liderazgo Bajo Regular Medio Alto (J) Liderazgo Regular Medio Alto Bajo Medio Alto Bajo Regular Alto Bajo Regular Medio Diferencia de medias (I-J) Error típico -1.083* .185 -1.502* .200 -1.465* .337 1.083* .185 -.418 .189 -.382 .330 1.502* .200 .418 .189 .037 .339 1.465* .337 .382 .330 -.037 .339 Sig. .000 .000 .000 .000 .179 .720 .000 .179 1.000 .000 .720 1.000 Intervalo de confianza al 95% Límite superior Límite inferior -1.600 -.566 -2.062 -.941 -2.407 -.522 .566 1.600 -.947 .110 -1.305 .542 .941 2.062 -.110 .947 -.912 .986 .522 2.407 -.542 1.305 -.986 .912 *. La diferencia de medias es significativa al nivel .05. 99 © Universidad de Deusto - ISBN 978-84-9830-628-6 El grupo que más difiere, según las Pruebas post-hoc utilizando el método de Scheffé, es el de capacidad de liderazgo baja. Esto se aprecia comprobando el número de asteriscos que presenta, es decir, es el grupo que difiere con todos los demás grupos. Sería conveniente, por tanto, si se sigue el análisis, eliminarlo y observar si tras su purgación existe diferencia significativa de medias entre los grupos restantes. En el caso de que hubiera 2 o más grupos con el mismo número de asteriscos es usual eliminar aquél con mayor diferencia significativa (significación menor) respecto de todos los demás. Gráfico de las medias 6,50 Media de vNueva 6,00 5,50 5,00 4,50 Bajo Regular Medio Alto Liderazgo En este ejemplo, se deja de considerar el grupo de liderazgo bajo y se sigue realizando el análisis simple en cascada. ANOVA vNueva Inter-grupos Intra-grupos Total Suma de cuadrados 30.566 3902.034 3932.600 gl 2 720 722 Media cuadrática 15.283 5.419 F 2.820 Sig. .060 Al eliminar el grupo de liderazgo bajo, se deduce según los resultados (F=2.820 sig.=0.060 6.0%) la ausencia de diferencia significativa entre las medias de los grupos restantes y, en ese sentido, el ejercicio se da por finalizado. Ciertamente si se solicitan los datos de las Comparaciones múltiples entre esos tres grupos restantes se comprobará cómo ya no existe diferencia significativa entre ellos al compararlos de dos en dos. 1.b.) Repetirlo para los hombres Para Hombres Descriptivos vNueva N Bajo Regular Medio Alto Total 120 188 151 38 497 Media 5.6583 6.1968 6.1325 6.3684 6.0604 Desviación típica 2.262 2.223 2.427 2.832 2.350 Error típico .207 .162 .197 .459 .105 Intervalo de confianza para la media al 95% Límite superior Límite inferior 5.249 6.067 5.877 6.517 5.742 6.523 5.437 7.299 5.853 6.268 100 © Universidad de Deusto - ISBN 978-84-9830-628-6 Mínimo .00 .00 .00 .00 .00 Máximo 10.00 11.00 11.00 11.00 11.00 Prueba de homogeneidad de varianzas vNueva Estadístico de Levene 2.251 gl1 gl2 493 3 Sig. .082 ANOVA vNueva Inter-grupos Intra-grupos Total Suma de cuadrados 27.286 2712.903 2740.189 gl 3 493 496 Media cuadrática 9.095 5.503 F 1.653 Sig. .176 Además de no haber diferencia significativa entre las varianzas, tampoco existe diferencia significativa entre las medias de los cuatro grupos de liderazgo en el colectivo hombres tal como aparece en la significación del ANOVA (17.6%) y a su vez también en la tabla de Comparaciones múltiples en la que ninguno de los cuatro grupos presenta diferencia significativa con ninguno de los demás. Comparaciones múltiples Variable dependiente: vNueva Scheffé (I) Liderazgo Bajo (J) Liderazgo Regular Medio Alto Bajo Medio Alto Bajo Regular Alto Bajo Regular Medio Regular Medio Alto Diferencia de medias (I-J) -.538 -.474 -.710 .538 .064 -.172 .474 -.064 -.236 .710 .172 .236 Error típico .274 .287 .437 .274 .256 .417 .287 .256 .426 .437 .417 .426 Sig. .278 .436 .451 .278 .996 .982 .436 .996 .959 .451 .982 .959 Intervalo de confianza al 95% Límite superior Límite inferior -1.307 .230 -1.279 .331 -1.935 .515 -.230 1.307 -.655 .783 -1.342 .999 -.331 1.279 -.783 .655 -1.430 .958 -.515 1.935 -.999 1.342 -.958 1.430 1.c.) Repetirlo para las mujeres. Para las mujeres Descriptivos vNueva Sexo mujer N Bajo Regular Medio Alto Total 178 198 125 23 524 Media 4.135 5.485 6.392 5.957 5.263 Desviación típica 2.554 2.343 2.155 1.965 2.513 Error típico .191 .167 .193 .410 .110 Intervalo de confianza para la media al 95% Límite superior Límite inferior 3.757 4.513 5.156 5.813 6.011 6.773 5.107 6.806 5.048 5.479 Mínimo .00 .00 .00 1.00 .00 Máximo 10.00 11.00 11.00 9.00 11.00 Descriptivos vNueva Sexo mujer N Bajo Regular Medio Alto Total 178 198 125 23 524 Media 4.135 5.485 6.392 5.957 5.263 Desviación típica 2.554 2.343 2.155 1.965 2.513 Error típico .191 .167 .193 .410 .110 Intervalo de confianza para la media al 95% Límite superior Límite inferior 3.757 4.513 5.156 5.813 6.011 6.773 5.107 6.806 5.048 5.479 101 © Universidad de Deusto - ISBN 978-84-9830-628-6 Mínimo .00 .00 .00 1.00 .00 Máximo 10.00 11.00 11.00 9.00 11.00 Prueba de homogeneidad de varianzas vNueva Sexo mujer Estadístico de Levene 3.377 gl1 3 gl2 520 Sig. .018 ANOVA vNueva Sexo mujer Inter-grupos Intra-grupos Total Suma de cuadrados 406.689 2896.967 3303.656 gl 3 520 523 Media cuadrática 135.563 5.571 F 24.333 Sig. .000 En este caso, aunque la diferencia de varianzas no es signficativa el 99%, sí se aprecia diferencia significativa entre las medias de los cuatro grupos de liderazgo de las mujeres (sig.=0.0%) siendo el grupo de liderazgo bajo el que se diferencia de todos los demás. Comparaciones múltiples Variable dependiente: vNueva Scheffé Sexo mujer (I) Liderazgo Bajo Regular Medio Alto (J) Liderazgo Regular Medio Alto Bajo Medio Alto Bajo Regular Alto Bajo Regular Medio Diferencia de medias (I-J) Error típico -1.350* .244 -2.257* .275 -1.822* .523 1.350* .244 -.907* .270 -.472 .520 2.257* .275 .907* .270 .435 .536 1.822* .523 .472 .520 -.435 .536 Sig. .000 .000 .007 .000 .011 .844 .000 .011 .882 .007 .844 .882 Intervalo de confianza al 95% Límite superior Límite inferior -2.034 -.666 -3.030 -1.485 -3.289 -.355 .666 2.034 -1.663 -.151 -1.930 .987 1.485 3.030 .151 1.663 -1.066 1.937 .355 3.289 -.987 1.930 -1.937 1.066 *. La diferencia de medias es significativa al nivel .05. Pero si tal grupo se deja de considerar en un nuevo análisis se verifica que, de distinto modo a como sucedía con los datos de toda la muestra, entre las mujeres sigue habiendo diferencia significativa entre los tres grupos restantes tal como muestra la tabla de ANOVA (sig.=0.2%) y tal como lo ratifica la tabla de Comparaciones múltiples donde se aprecia que el grupo de los de liderazgo regular y medio se diferencian entre sí según la prueba de Scheffé. ANOVA vNueva Sexo mujer Inter-grupos Intra-grupos Total Suma de cuadrados 63.369 1742.203 1805.572 gl 2 343 345 Media cuadrática 31.685 5.079 F 6.238 Sig. .002 Comparaciones múltiples Variable dependiente: vNueva Scheffé Sexo mujer (I) Liderazgo Regular Medio Alto (J) Liderazgo Medio Alto Regular Alto Regular Medio Diferencia de medias (I-J) Error típico -.907* .257 -.472 .496 .907* .257 .435 .511 .472 .496 -.435 .511 Sig. .002 .637 .002 .696 .637 .696 Intervalo de confianza al 95% Límite superior Límite inferior -1.540 -.274 -1.692 .749 .274 1.540 -.822 1.693 -.749 1.692 -1.693 .822 *. La diferencia de medias es significativa al nivel .05. 102 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 1 2. Realizar el mismo ejercicio anterior pero únicamente para los que tienen Más de 55 años (v4). Verificar e interpretar la diferencia de resultados. Algunas soluciones numéricas relevantes: ANOVA vNueva Inter-grupos Intra-grupos Total Suma de cuadrados 138.534 1552.005 1690.539 gl 3 289 292 Media cuadrática 46.178 5.370 F 8.599 Sig. .000 Comparaciones múltiples Variable dependiente: vNueva Scheffé (I) Liderazgo Bajo Regular Medio Alto (J) Liderazgo Regular Medio Alto Bajo Medio Alto Bajo Regular Alto Bajo Regular Medio Diferencia de Error típico medias (I-J) -1.094* .318 -1.661* .363 -1.536 .617 1.094* .318 -.567 .377 -.442 .625 1.661* .363 .567 .377 .125 .650 1.536 .617 .442 .625 -.125 .650 Sig. .009 .000 .105 .009 .520 .919 .000 .520 .998 .105 .919 .998 Intervalo de confianza al 95% Límite Límite inferior superior -1.987 -.201 -2.683 -.639 -3.272 .200 .201 1.987 -1.627 .493 -2.200 1.316 .639 2.683 -.493 1.627 -1.702 1.952 -.200 3.272 -1.316 2.200 -1.952 1.702 *. La diferencia de medias es significativa al nivel .05. 103 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 2 3. Comprobar si existe diferencia significativa entre las medias de los cuatro grupos de Clase Social (v35) del fichero “ESCUEL.sav” en la variable Métodos de Relajación (v17). Algunas soluciones numéricas relevantes: ANOVA Métodos reljación Inter-grupos Intra-grupos Total Suma de cuadrados 8.631 565.676 574.308 gl 3 113 116 Media cuadrática 2.877 5.006 F .575 Sig. .633 Síntesis para el Ejercicio 3 4. En el fichero “CAMPAÑA.sav” analizar la posible diferencia significativa entre las medias de los tres niveles de Estudios (v24) en la variable Amor (v22). Algunas soluciones numéricas relevantes: ANOVA V22 campaña sólo lleva a atracción Inter-grupos Intra-grupos Total Suma de cuadrados 5.769 210.136 215.905 gl 2 165 167 Media cuadrática 2.884 1.274 F 2.265 104 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sig. .107 Síntesis para el Ejercicio 4 5. Comprobar si las medias de los 5 grupos de edad de la variable Edad (v5) respecto a la variable Bohemio (v16) en el fichero “DROGODE.sav” presentan diferencia significativa. Algunas soluciones numéricas relevantes: ANOVA Bohemio Inter-grupos Intra-grupos Total Suma de cuadrados 46.240 362.957 409.196 gl 4 102 106 Media cuadrática 11.560 3.558 F 3.249 Síntesis para el Ejercicio 5 105 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sig. .015 8.7. ANOVA DE DOS FACTORES 8.7.0. Fórmulas y Aplicación 8.7.0.1. Fórmulas Estadísticos F de Fisher Prueba de Homogeneidad de Varianzas SC A GL A CM ( A) V ( A) FA = = = SC e CM ( E ) V ( E ) GLe Hay un sistema de comprobación de la homogeneidad de varianzas cuando se trata de análisis de varianza doble (o, incluso, del análisis de varianza multivariante). Se trata de comprobar la igualdad de varianzas del error (residual), es decir, de comprobar si las varianzas de los diferentes conjuntos de datos que componen cada celdilla son similares o no lo son. Para ello, también se realiza un anova simple creando una nueva variable cualitativa en la que aparezcan identificados todos los sujetos según pertenezcan a una u otra celdilla (el número total de celdillas es P·Q). En la otra nueva variable obviamente de carácter cuantitativo se adjudica a cada sujeto un nuevo valor que será el valor absoluto de la resta entre su valor original y la media de esa celdilla a la que el sujeto pertenezca. Con estas dos variables se realiza el análisis de varianza y se atiende a la significación de la F con P·Q - 1 y N - P·Q grados de libertad. Si tal F no resulta significativa se admite la homogeneidad de las varianzas del error y, por tanto, las varianzas similares entre los diferentes grupos de datos. SC B GL B CM ( B ) V ( B) FB = = = SC e CM ( E ) V ( E ) GLe F AB SC AB GL AB CM ( AB) V ( AB) = = = SC e CM ( E ) V (E) GLe 2 Q  N   ∑ X   ∑ X  P  1  − 1  SC A = ∑  n⋅Q N 1 2 2 P  N   X   ∑ X  Q ∑ SCB = ∑  1  −  1  n⋅P N 1 2 2 SC AB N  n   ∑ X   ∑ X  P Q  = ∑ ∑  1  −  1  − SC A − SC B n N 1 1 SCe= SCT - SCA- SCB - SCAB N   ∑ X  N SCT = ∑ X 2 −  1  N 1 2 P = número de categorías del Factor A Q = número de categorías del Factor B GLA= P-1 GLB= Q-1 GLAB= (P-1)(Q-1) GLe =(N - 1) - GLA - GLB - GLAB En este apartado son útiles todo el resto de fórmulas expuestas en el apartado anterior 8.6.0.1 dentro del capítulo de Análisis de Varianza de un Factor. 8.7.0.2. Tipo de variables requeridas Si el Análisis Simple de Varianza permitía establecer la influencia de un Factor o variable independiente respecto a una variable dependiente; el ANOVA de 2 factores requiere el empleo de 2 o más Factores. En este caso, la variable dependiente tendrá un carácter cuantitativo, mientras que los factores serán, en todo momento, variables cualitativas. Ejemplo: Se quiere analizar si existen diferencias en la capacidad de decisión(v11) tomando como criterio de análisis la clase social(v35) y el centro de estudios(v36). La v35, así como la v36, son los factores; mientras que la v11 en una variable de carácter cuantitativo en el fichero “ESCUEL.sav” 106 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.7.0.3. Utilidades e interpretación El Análisis de Varianza de 2 factores sirve, al igual que el ANOVA de un Factor, para determinar si existe diferencia significativa de medias entre los grupos o categorías de cada uno de los 2 factores respecto a la variable dependiente. Siguiendo con el ejemplo del apartado anterior del fichero ESCUEL.sav queremos estudiar si existe diferencia significativa entre las medias de los grupos de clase social(v35) y del centro de estudios(v36) con respecto a la capacidad de decisión(v11). Es decir, si la clase social y el centro de estudios tiene algo que ver con lo que la gente opina sobre que se eche en falta o no que se les haya enseñado a tener una cierta capacidad de decisión. 8.7.1. Manejo del SPSS El Análisis Simple de Varianza (Análisis de un Factor o Anova one-way), a través de la razón F de Fisher y otras técnicas, permite llegar a la conclusión de si una variable o Factor tomado como Independiente influye en la variable Dependiente de forma que quede patente la posible diferencia significativa entre las medias de los diferentes grupos de las variable o factor. En el Análisis de Varianza de Dos Factores (Análisis Doble de Varianza o Anova Two-Way) son dos las variables o factores Independientes (Factor A y Factor B) los que en principio influyen en la Dependiente, como por ejemplo la posible influencia en las calificaciones estudiantiles de por una parte las asignaturas y por otra el hecho de que los alumnos pertenezcan a un determinado club, o la posibilidad de que el rendimiento de un producto agrícola esté influido por el tipo de tierra y por la capacidad genética de la semilla, etc. Cuando hay dos variables o factores independientes (pueden ser tres, cuatro o incluso más con lo cual el análisis de varianza sería análisis “three-way”, “four-way”, etc) que influyen sobre una variable dependiente aparece un nuevo factor decisivo a tener en cuenta y es el factor "Interacción", es decir, la posibilidad de que, por ejemplo, una semilla con capacidad genética alta unida a la tierra de tipo caliza rindan enormemente más debido a que multiplican juntas su influencia, es decir, unen sus efectos, o, lo que es lo mismo, presentan interacción. Tal "Interacción" supone que la variación total de los datos ya no sólo se deberá al influjo del Factor A (1ª Variable Independiente) más el influjo del Factor B (2ª Variable Independiente) más el influjo del azar o residual, sino también al influjo de la "Interacción" entre las dos variables (Factor A y Factor B). Esto significa en sentido estricto que cuando hay interacción no puede saberse cuál es la influencia exacta del factor A y del factor B. Por tanto, el análisis de varianza doble en estas circunstancias presenta la desventaja de tener que subrayar tan sólo la influencia de la interacción pero no de los factores aunque, a veces, el propio descubrimiento de la existencia de interacción es ya un hallazgo importante en cualquier investigación, más importante incluso que el conocimiento del efecto o influencia de uno y otro factor. No obstante, y merced a una argucia estratégica, puede entenderse la influencia de la interacción como un factor más e independiente de los otros dos factores. Conviene tener presente las condiciones estadísticas que deben cumplirse para realizar el análisis de Varianza de Dos Factores con Interacción: 1) Las Variables Independientes (Factores) serán Variables Cualitativas, es decir Variables Discretas y la Variable Dependiente será Variable Continua. 2) Los datos deben haber sido elegidos al azar de una población normal. 3) Los errores se distribuyen normalmente. 4) No existe correlación entre los datos de los diferentes grupos y 5) Los distintos grupos o subgrupos, en su caso, comparten supuestamente una varianza común. Si se toman como ejemplo los siguientes datos de un Diseño No Equilibrado y Modelo de Efectos Fijos de Análisis Doble de Varianza que aparecen en la tabla adjunta y que tras ser introducidos en SPSS10 como un fichero de datos llamado “ANVAD12.SAV” (donde v1 = “Clase Social”, v2 = ”Sexo” y v3 = ”Satisfacción Estudios Universitarios” se puede averiguar si existe Interacción y si, 107 © Universidad de Deusto - ISBN 978-84-9830-628-6 además, existe diferencia significativa entre los tres grupos de “Clase Social” y entre los dos de “Sexo”. FACTOR B (v2: Sexo) Hombre Mujer FACTOR A (v1: Origen Social) C. Baja C. Media 7,7,8 2,2,3,4 9,10,11,12,11 3,2,4 C. Alta 7,7,5,5,8 20,16,15 Se PULSA, en primer lugar, en la Opción Analizar, posteriormente se elige Modelo lineal general y finalmente Univariante (Fig. 80) Figura 80. Figura 81. Como fruto de esa elección aparecerá la ventana principal de diálogo donde deben concretarse tanto las variables que entran en el análisis como los coeficientes y resultados requeridos así como otros aspectos formales (Fig. 81). Efectivamente, en la Figura 80 ya aparecen elegidas y colocadas en su correspondiente recuadro la variable dependiente y las dos variables independientes. Esto se realiza PULSANDO la variable “Clase Social (v1)”, en el recuadro de la izquierda, donde aparecen las tres variables, que quedará inmediatamente señalada (coloreada) y después PULSANDO el pequeño recuadro con la flecha dirigida hacia el recuadro titulado “Factores fijos”. La misma operación se realiza con la variable “Sexo (v2)”. También de idéntica forma se PULSA en las variables “Satisfacción E. Univ.(v3)”que también quedará señalada (coloreadas) y después PULSANDO en el pequeño recuadro con la flecha dirigida hacia el recuadro titulado “Dependientes:”. Una vez concluido el proceso anterior, se van eligiendo entre los botones que aparecen en la parte derecha de la ventana principal de diálogo aquellos que necesarios para determinar los tipos de cálculos (Fig. 82). PULSANDO en Modelo aparecerá el siguiente cuadro de diálogo (Fig. 83) en el que propio programa ya ofrece la especificación del modelo, según las variables (Factores fijos) determinadas anteriormente, que es el “Factorial completo”. Este ofrece todos los efectos principales del factor, todos los efectos principales de las covariables si las hay así como las interacciones factor por factor. Si se quiere un modelo 108 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 82. “Personalizado” se señala esta opción y se especifican en el recuadro “Construir términos” qué efectos se desean someter a análisis. Figura 83. Es muy importante determinar en la parte inferior izquierda (Fig. 83) cómo se va a calcular la “Suma de Cuadrados”, es decir, con qué Tipo de método se va a dividir la suma de cuadrados, en definitiva, la varianza. Es bastante usual utilizar el Tipo III porque considera la fuerza de todos los efectos a la vez. El Tipo I, denominado “descomposición jerárquica de la suma de cuadrados” calcula el efecto de cada componente teniendo en cuenta solamente al componente que le precede. El Tipo II calcula la suma de cuadrados considerando sólo los efectos pertinentes entendiendo por efecto pertinente aquél que no está contenido en el efecto que se está comprobando. El tipo IV está diseñado para las situaciones en las que haya casillas vacías. Una vez especificado el Modelo y el Tipo de Suma de Cuadrados se PULSA Continuar y se vuelve a la ventana principal de diálogo (Fig. 81). Figura 84. En este caso concreto, se va a utilizar el Tipo II para comprobar el efecto de la Interacción tenido en principio como inexistente y, por tanto, averiguar la influencia de las otras dos variables (factores). El botón Contrastes (Fig. 84) se utiliza para contrastar las diferencias entre los grupos de un factor. Puede haber contrastes Simples (cada grupo se compara con todos los demás tomando como grupo de control normalmente el último o el primero), de Desviaciones (todos los grupos menos normalmente el último o el primero se comparan con la media total general de todos los grupos), de las Diferencias (cada grupo menos el primero se compara con la media de los grupos anteriores), de Herlmert (cada grupo menos el último se compara con la media de los grupos posteriores, Repetido (cada grupo menos el primero se compara con la media del grupo anterior. Y también pueden establecerse contrastes de tendencia entre los parámetros de los grupos de cada factor para averiguar si ésta es lineal, cuadrática, etc.). En este ejemplo no se ha elegido a priori ningún tipo de contraste. Para volver a la ventana principal de diálogo se PULSA Continuar. El botón Gráficos (Fig. 85) proporciona para cada factor o variable independiente la representación gráfica en la variable dependiente del valor alcanzado en ella por cada uno de los grupos. 109 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 85. En este caso, como se puede apreciar, no se ha solicitado tampoco ningún gráfico. PULSANDO en Continuar de nuevo se vuelve a la ventana principal de diálogo. El botón Post Hoc (Fig. 86) es de los de uso más frecuente porque ofrece la posibilidad de verificar las diferencias significativas entre las medias de los grupos existentes en los factores. Figura 86. Una explicación resumida de los diferentes coeficientes ofrecidos por el programa están expuestos en el Apartado 8.6.1. y siguientes dentro del ”Análisis de Varianza Simple” diferenciando las dos grandes alternativas: Asumiendo Varianzas Iguales en los grupos o No Asumiendo Varianzas Iguales. En el ejemplo se ha elegido, en primer lugar realizar comparaciones de medias entre los tres grupos de la v1 “Clase Social” y para ello se señala la “v1” en el recuadro Factores y se traslada al recuadro de la derecha Contrastes Post Hoc para: utilizando el pequeño recuadro con la flecha en dirección hacia la derecha. Posteriormente, se han elegido las comprobación de C de Dunnett simplemente pulsando en el pequeño recuadro blanco correspondiente. Figura 87 El botón Guardar (Fig. 87) ofrece entre otras posibilidades la de almacenar los resultados de la predicción, en base a la ecuación de regresión, en un fichero al que se le debe poner el nombre tras pulsar la opción Estadísticos de los coeficientes en el recuadro Guardar en archivo nuevo. Este archivo es un archivo “.sav” al que se accede y manipula desde el SPSS Archivo de datos. Puede calcular también Valores Pronosticados así como Residuos y Diagnósticos. 110 © Universidad de Deusto - ISBN 978-84-9830-628-6 Aquí sólo se ha optado por guardar el fichero de resultados al que se le ha puesto el nombre de “Anvad12coef.sav”. Tener a disposición este fichero de resultados, aunque de difícil manejo interno, puede resultar muy útil no sólo para consultas puntuales sino para comparaciones entre unos coeficientes y otros, etc., y todo ello en un mismo documento de datos global y conjunto. El botón Opciones (Fig. 88) ofrece una amplia gama de posibilidades entre las cuáles hay sobre todo dos de interés prioritario: la opción Estadísticos descriptivos y la opción Pruebas de homogeneidad ambas en el recuadro Mostrar que, por una parte, informan de las medias y desviaciones típicas de todos los grupos de las variables independientes (factores) en la variable dependiente y, por otra, del cumplimiento de la homocedasticidad o igualdad de varianzas de los grupos. En el recuadro de Medias marginales estimadas puede solicitarse la media estimada que se desea bien para el GLOBAL, bien para cada variable (factor) o bien para la interacción. Figura 88. En este ejemplo, sólo se han solicitado los Estadísticos descriptivos y la Prueba de Homogeneidad. Al PULSAR Continuar, como se hace en el resto de cuadros de diálogo, se vuelve a la ventana principal de diálogo (Fig. 81). Una vez señaladas todas las opciones pertinentes requeridas se PULSA en esa ventana principal de diálogo en Aceptar y el programa calcula todo lo solicitado. 8.7.2. Resultados e Interpretación Expuestos los resultados solicitados en su totalidad son los siguientes: 111 © Universidad de Deusto - ISBN 978-84-9830-628-6 Análisis de varianza univariante Estadísticos descriptivos Variable dependiente: v3. Satisfacción E. Univ. v1. Clase social 1.clase baja 2.clase media 3.clase alta Total v2. Sexo 1.hombre 2. mujer Total 1.hombre 2. mujer Total 1.hombre 2. mujer Total 1.hombre 2. mujer Total Media 7.33 10.60 9.38 2.75 3.00 2.86 6.40 17.00 10.38 5.42 10.27 7.74 Desv. típ. .577 1.140 1.923 .957 1.000 .900 1.342 2.646 5.755 2.234 5.623 4.798 N 3 5 8 4 3 7 5 3 8 12 11 23 a Contraste de Levene sobre la igualdad de las varianzas error Variable dependiente: v3. Satisfacción E. Univ. F 2.866 gl1 gl2 5 Significación .047 17 Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos. a. Diseño: Intersección+v1+v2+v1 * v2 Pruebas de los efectos inter-sujetos Variable dependiente: v3. Satisfacción E. Univ. Fuente Modelo corregido Intersección v1 v2 v1 * v2 Error Total Total corregida Suma de cuadrados tipo III 474.618a 1343.540 289.790 120.776 102.966 31.817 1884.000 506.435 gl 5 1 2 1 2 17 23 22 Media cuadrática 94.924 1343.540 144.895 120.776 51.483 1.872 F 50.719 717.868 77.419 64.532 27.508 Significación .000 .000 .000 .000 .000 a. R cuadrado = .937 (R cuadrado corregida = .919) Pruebas post hoc v1. Clase social Comparaciones múltiples Variable dependiente: v3. Satisfacción E. Univ. C de Dunnett (I) v1. Clase social 1.clase baja 2.clase media 3.clase alta (J) v1. Clase social 2.clase media 3.clase alta 1.clase baja 3.clase alta 1.clase baja 2.clase media Diferencia entre medias (I-J) 6.52* -1.00 -6.52* -7.52* 1.00 7.52* Error típ. .760 2.145 .760 2.063 2.145 2.063 Intervalo de confianza al 95%. Límite superior Límite inferior 4.26 8.78 -7.32 5.32 -8.78 -4.26 -13.60 -1.44 -5.32 7.32 1.44 13.60 Basado en las medias observadas. *. La diferencia de medias es significativa al nivel .05. Del primer cuadro, Estadísticos descriptivos, ya pueden deducirse las primeras conclusiones, sobre todo referidas a la sustancial diferencia entre las medias de la v2: 1(Hombre) = 5.42 y 2(Mujer) = 10.27 y también de la v1 principalmente entre 2(Clase media) = 2.86 y los otros dos grupos 1(Clase baja) = 9.38 y 3(Clase alta) = 10.38. Respecto a la desviación típica se dan así mismo enormes diferencias, por ejemplo, 5.62 del grupo 2(Mujer) de la v2 frente a 2.23 del grupo 1(Hombre) y una 112 © Universidad de Deusto - ISBN 978-84-9830-628-6 desviación típica tan pequeña como 0.90 del grupo 2(Clase media) de la v1 o 1.92 del grupo 1(Clase baja) frente a 5.76 del grupo 3(Clase alta). El cuadro Pruebas de los efectos inter-sujetos en realidad no hace sino refrendar esas diferencias existentes y consecuentemente ratificar el influjo de la v1, de la v2 y de la Interacción sobre la variable cuantitativa “Satisfacción con los Estudios Universitarios” (FA = 77.419; FB = 64.532 y FAB = 27.508, todas ellas muy significativas en los tres casos: Sig. = 0.000 0.0%). No es de extrañar, dentro de esta misma lógica, que el Contraste de Levene sobre la igualdad de varianzas error considerando todos los grupos resulte significativa anunciando que los datos no provienen de una única población dado que sus respectivas varianzas grupales no son homogéneas. Como ya se sabe, este dato exigiría que el análisis de varianza doble se detuviera por incumplir la exigencia estadística de homogeneidad de las varianzas. Si se continúa, sin embargo, a efectos de mera constatación de qué grupos presentan medias distintas en la v1 aparece el grupo 2 diferenciado muy significativamente del grupo 1 y del grupo 3 (2.86 frente a 9.38 y 10.38 respectivamente) utilizando la prueba C de Dunnett que asume varianzas desiguales tal y como queda expuesto en el cuadro de Comparaciones múltiples. 8.7.3. Ejercicios y Sintaxis 1. Del fichero “SALUD.sav” 1.a.) ¿Se puede decir que existen diferencias en el consumo de alcohol el fin de semana (v57) según las variables Tarea Ocupacional (v4) y Nivel de Estudios (v1) recodificada (1 Sin estudios =1-2; 2 Básicos = 3-4 y 3 Superiores = 5-7)? Obviamente se trata de un análisis de varianza doble con posible interacción. Para resolverlo se solicitan los necesarios cálculos con el fin de ayudar a la interpretación. Estadísticos descriptivos Variable dependiente: Consumo medio alc. fin sem. v1r Sin estudios Básicos Superiores Total Tarea ocupacional no si Total no si Total no si Total no si Total Media 52.71 24.27 42.78 19.67 16.27 17.72 8.33 8.10 8.19 31.69 17.11 24.20 Desv. típ. 103.558 38.825 87.270 58.106 24.491 42.053 10.309 12.600 11.432 78.833 27.233 58.658 N 41 22 63 60 81 141 6 10 16 107 113 220 a Contraste de Levene sobre la igualdad de las varianzas error Variable dependiente: Consumo medio alc. fin sem. F 5.643 gl1 5 gl2 214 Significación .000 Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos. a. Diseño: Intersección+v1r+v4+v1r * v4 113 © Universidad de Deusto - ISBN 978-84-9830-628-6 Pruebas de los efectos inter-sujetos Variable dependiente: Consumo medio alc. fin sem. Fuente Modelo corregido Intersección v1r v4 v1r * v4 Error Total Total corregida Suma de cuadrados tipo III 43746.757a 45774.992 20505.269 2812.498 6726.941 709768.443 882356.000 753515.200 gl 5 1 2 1 2 214 220 219 Media cuadrática 8749.351 45774.992 10252.634 2812.498 3363.470 3316.675 F 2.638 13.801 3.091 .848 1.014 Significación .024 .000 .047 .358 .364 a. R cuadrado = .058 (R cuadrado corregida = .036) La prueba de Levene evidencia una clara diferencia significativa entre las varianzas de los grupos constituidos por la v1r y la v4. Siguiendo con el análisis, la Prueba de efectos Inter.-sujetos destaca en primer lugar la no existe diferencia significativa en la interacción de ambos factores (0.364) por lo que es necesario a continuación realizar un análisis doble de varianza sin interacción. Los resultados de este nuevo análisis son: Pruebas de los efectos inter-sujetos Variable dependiente: Consumo medio alc. fin sem. Fuente Intersección v1r v4 Hipótesis Error Hipótesis Error Hipótesis Error Suma de cuadrados tipo III 55948.970 11361.135 25328.165 716495.383 5246.596 716495.383 gl 1 2.652 2 216 1 216 Media cuadrática 55948.970 4283.499a 12664.082 3317.108b 5246.596 3317.108b F 13.062 Significación .044 3.818 .023 1.582 .210 a. .501 MS(v4) + .499 MS(Error) b. MS(Error) De este nueva tabla Prueba de efectos inter-sujetos se deduce que v1r Nivel de estudios es significativa, es decir, si hay diferencia significativa entre las medias de los tres grupos recodificados respecto a v57 Consumo de alcohol el fin de semana (Sig.=0.023). No ocurre lo mismo con v4 Tarea ocupacional dado que su Sig. Llega a 0.210 (21.0%) y, por tanto no existe diferencia significativa de medias entre los que sí tienen y los que no tienen tarea ocupacional o actividad. Esto supone seguir con el análisis más detallado utilizando la v1r y con ella realizar un análisis de varianza simple respecto de la v57 teniendo en cuenta que de la Prueba de Levene se sabe que la diferencia de varianzas entre los tres grupos es significativa y, en consecuencia, al solicitar las comparaciones Post-hoc se habrá de elegir la opción de No asumiendo varianzas iguales. Descriptivos Consumo medio alc. fin sem. N Sin estudios Básicos Superiores Total 63 143 16 222 Media 42.78 17.47 8.19 23.98 Desviación típica 87.270 41.808 11.432 58.436 Error típico 10.995 3.496 2.858 3.922 Intervalo de confianza para la media al 95% Límite Límite inferior superior 20.80 64.76 10.56 24.38 2.10 14.28 16.25 31.71 114 © Universidad de Deusto - ISBN 978-84-9830-628-6 Mínimo 0 0 0 0 Máximo 573 412 33 573 ANOVA Consumo medio alc. fin sem. Inter-grupos Intra-grupos Total Suma de cuadrados 32314.993 722360.935 754675.928 gl 2 219 221 Media cuadrática 16157.497 3298.452 F 4.899 Sig. .008 A partir de estos resultados del anova simple se verifica (Sig.=0.008) que ciertamente existe diferencia significativa de medias entre los tres grupos de nivel de estudios respecto al consumo de alcohol el fin de semana siendo el mayor consumo el de los “Sin estudios” y mucho menor el de los estudios “Superiores”. La determinación de qué grupos difieren entre sí se lleva a cabo mediante las Comparaciones múltiples donde se verifica que tanto el grupo de “Sin estudios” como el grupo de estudios “Superiores” difieren significativamente del grupo de estudios “Básicos”. Tengase en cuenta que los asteriscos en la columna de Diferencia de medias (I-J) tiene precisamente ese significado: señalar que hay diferencia significativa entre los dos grupos comparados. Cuando no hay asterisco no hay diferencia significativa. A estas mismas conclusiones se llega sabiendo que comparando los signos de los valores de las columnas de Limite Inferior y de Límite Superior no habrá diferencia significativa si tales signos no son iguales y habrá diferencia si tales signos son iguales. Comparaciones múltiples Variable dependiente: Consumo medio alc. fin sem. Games-Howell (I) v1r Sin estudios Básicos Superiores (J) v1r Básicos Superiores Sin estudios Superiores Sin estudios Básicos Diferencia de Error típico medias (I-J) 25.309 11.537 34.590* 11.360 -25.309 11.537 9.281 4.516 -34.590* 11.360 -9.281 4.516 Sig. .079 .009 .079 .106 .009 .106 Intervalo de confianza al 95% Límite Límite inferior superior -2.28 52.90 7.38 61.80 -52.90 2.28 -1.51 20.08 -61.80 -7.38 -20.08 1.51 *. La diferencia de medias es significativa al nivel .05. El paso último en ese caso concreto consiste en realizar Análisis de Varianza Simple en Cascada eliminando aquél grupo más diferente de los demás, en el ejemplo el grupo “Sin estudios”. Por tanto, se comparan el grupo de estudios “Básicos” con el grupo de estudios “Superiores”. ANOVA Consumo medio alc. fin sem. Inter-grupos Intra-grupos Total Suma de cuadrados 1239.514 250164.046 251403.560 gl 1 157 158 Media cuadrática 1239.514 1593.402 F .778 Sig. .379 La Sig.= 0.379 (37.9%) deja claro que entre los dos grupos no existe diferencia significcativa con lo que la conclusión final debe reconocer la importancia del grupo no considerado en este último análisis, el de “Sin estudios”. Este grupo es el verdadera y significativamente distinto de los demás y es el responsable de que pueda hablarse de diferencia significativa de medias en el consumo de alcohol los fines de semana según sea el nivel de estudios. Los de estudios básicos y superiores no se diferencian pero sí es diferente el de sin estudios. 115 © Universidad de Deusto - ISBN 978-84-9830-628-6 Deben recordarse varios pasos metodológicos que en este ejemplo concreto no ha habido oportunidad de realizar. Se trata de si en el análisis doble de varianza hay Interacción. En ese caso, debe crearse una nueva variable que identifique los distintos grupos (tantos como casillas haya en el cruce de las variables/factores fijos, o sea, multiplicando el número de categorías de una variable/factor fijo por el número de categorías de la otra variable/factor fijo) y realizar con esa nueva variable un Análisis de Varianza Simple completo respecto de la variable dependiente para determinar no sólo la presencia de diferencias significativas de medias sino qué casillas se diferencian de otras mediante las correspondientes comparaciones múltiples. Por otra parte, puede ocurrir que las dos variables/factores fijos presenten significación, es decir, presenten diferencias significativas de medias. En esos casos, se toma la variable con mayor significación (menor valor en Sig.) que corresponde al mayor valor de F de Fisher. Y con ella se lleva a cabo el necesario Análisis de Varianza Simple completo respecto de la variable dependiente. Sintaxis para el Ejercicio 1 2. Del fichero “CITEC.sav” realizar un Análisis de Varianza de Dos factores con las variables independientes v5 Sexo y v8 Años de Educación respecto a la variable dependiente v23 Científicos peligrosos. Algunas soluciones numéricas relevantes: Pruebas de los efectos inter-sujetos Variable dependiente: Científicos peligrosos Fuente Modelo corregido Intersección v5 v8 v5 * v8 Error Total Total corregida Suma de cuadrados tipo III 71.113a 6881.460 1.317 57.372 15.198 1735.526 9818.000 1806.639 gl 7 1 1 3 3 1013 1021 1020 Media cuadrática 10.159 6881.460 1.317 19.124 5.066 1.713 F 5.930 4016.604 .769 11.162 2.957 a. R cuadrado = .039 (R cuadrado corregida = .033) 116 © Universidad de Deusto - ISBN 978-84-9830-628-6 Significación .000 .000 .381 .000 .032 Sintaxis para el Ejercicio 2 3. Con el fichero “DROGODE.sav” averiguar si existe diferencia de medias entre los grupos de la variable v3 Religiosidad y entre los grupos de la variable v4 Estudios respecto a la variable v9 Txikitero averiguando también si hay Interacción entre las dos variables independientes v3 y v4. Algunas soluciones numéricas relevantes: Contraste de Levene sobre la igualdad de las varianzas error a Variable dependiente: Txikitero F 1.972 gl1 gl2 8 99 Significación .058 Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lo largo de todos los grupos. a. Diseño: Intersección+v3+v4+v3 * v4 Pruebas de los efectos inter-sujetos Variable dependiente: Txikitero Fuente Modelo corregido Intersección v3 v4 v3 * v4 Error Total Total corregida Suma de cuadrados tipo III 24.743a 1184.957 8.715 2.261 4.376 419.257 3144.000 444.000 gl 8 1 2 2 4 99 108 107 Media cuadrática 3.093 1184.957 4.358 1.130 1.094 4.235 F .730 279.806 1.029 .267 .258 a. R cuadrado = .056 (R cuadrado corregida = -.021) Sintaxis para el Ejercicio 3 117 © Universidad de Deusto - ISBN 978-84-9830-628-6 Significación .664 .000 .361 .766 .904 4. Con el fichero “ESCUEL.sav” tomando las variables v35 (clase social) y v36 (centro) ¿Qué conclusiones pertinentes se obtienen sobre la influencia o relación con la v16 (expresión corporal)? Realizarlo también sólo para el colectivo de mujeres. Algunas soluciones numéricas relevantes: Pruebas de los efectos inter-sujetos Variable dependiente: Expresión corporal Fuente Modelo corregido Intersección v35 v36 v35 * v36 Error Total Total corregida Suma de cuadrados tipo III 116.360a 3719.179 58.796 1.910 23.131 549.433 6128.000 665.793 gl 7 1 3 1 3 108 116 115 Media cuadrática 16.623 3719.179 19.599 1.910 7.710 5.087 F 3.268 731.065 3.852 .375 1.516 Significación .003 .000 .012 .541 .215 a. R cuadrado = .175 (R cuadrado corregida = .121) Sintaxis para el Ejercicio 4 5. Con el fichero “CAMPAÑA.sav” analizar si existe diferencia de medias en la variable v19 teniendo en cuenta las v24 y v25 recodificada como sigue: 1-2 = 1 3=2 4=3 5-8 = 4 Algunas soluciones numéricas relevantes: Pruebas de los efectos inter-sujetos Variable dependiente: V19 irresponsabilidad criticar campaña Fuente Modelo corregido Intersección v24 v25r v24 * v25r Error Total Total corregida Suma de cuadrados tipo III 38.032a 1208.872 6.176 9.789 17.050 183.537 2229.000 221.569 gl 11 1 2 3 6 155 167 166 Media cuadrática 3.457 1208.872 3.088 3.263 2.842 1.184 F 2.920 1020.914 2.608 2.756 2.400 a. R cuadrado = .172 (R cuadrado corregida = .113) 118 © Universidad de Deusto - ISBN 978-84-9830-628-6 Significación .002 .000 .077 .044 .030 Sintaxis para el Ejercicio 5 6. Con el fichero “CITEC.sav” analizar si existe diferencia de medias en la variable resultante de sumar los aciertos desde la v9 a la v20 de la escala de conocimiento científico según las variables v7 y v8. Se otorgará un punto si la respuesta es acertada y cero puntos si la respuesta no es acertada. Código de respuestas acertadas. v9 v10 v11 v12 v13 v14 Æ Æ Æ Æ Æ Æ 1 1 1 1 2 1 v15 v16 v17 v18 v19 v20 2 1 2 2 1 1 Æ Æ Æ Æ Æ Æ Algunas soluciones numéricas relevantes: Pruebas de los efectos inter-sujetos Variable dependiente: TConoc Fuente Modelo corregido Intersección v7 v8 v7 * v8 Error Total Total corregida Suma de cuadrados tipo III 1943.492a 23119.729 51.158 865.264 37.823 5139.628 50370.000 7083.120 gl 15 1 3 3 9 1005 1021 1020 Media cuadrática 129.566 23119.729 17.053 288.421 4.203 5.114 F 25.335 4520.819 3.334 56.398 .822 a. R cuadrado = .274 (R cuadrado corregida = .264) Sintaxis para el Ejercicio 6 119 © Universidad de Deusto - ISBN 978-84-9830-628-6 Significación .000 .000 .019 .000 .596 8.8. CORRELACION 8.8.0. Fórmulas y Aplicación 8.8.0.1. Fórmulas Correlación r de Pearson _ _ ∑ ( X − X ) ⋅ (Y − Y ) r= r= ρ = 1− ∑ ZxZ y r= ó N ⋅Sx ⋅S y Coeficiente de correlación ρ de Spearman ∑ XY − ∑ X ∑ Y [N ∑ X − (∑ X ) )] [N ∑ Y − (∑ Y ) )] 2 2 ryz.x = ryx .zw = ryz − ryx rzx (1 − ryz2 )(1 − rzx2 ) ryz − ryx rzx (1 − r )(1 − r ) 2 yw . z 2 xw . z − D yi Dyy Dii D = matriz inversa de la matriz original de correlaciones C  r yy   r1 y  ⋅ C = ⋅  ⋅ r  my un individuo en una serie respecto al orden alcanzado en la otra. N = número de sujetos 2⋅ A N ( N − 1) A es la diferencia entre el número de órdenes lógicos y el número de alteraciones del orden. τ= En general, la correlación Parcial es Ryi.234... = N ( N 2 − 1) Correlación τ de Kendall Si se trata de la correlación parcial entre Y X teniendo en cuenta dos variables que intervienen Z y W, ryx.zw será 2 i 2 Correlaciones Parciales ryx − ryz rxz ryx.z = (1 − ryz2 )(1 − rxz2 ) y si se trata de ∑d d i = diferencia entre el orden o puesto alcanzado por N N 2 6 Para calcular A: Se ordenan los sujetos (desde el primero hasta el enésimo) en una de las variables. Se adjudica a cada uno de esos sujetos ordenados el orden que les corresponde en la otra variable. Tomando esta última ordenación se calcula el número de órdenes lógicos existentes otorgándoles a cada uno un punto positivo (+1) y se calcula el número de desordenes otorgándoles a cada uno un punto negativo. Finalmente A = ∑ (+1) − ∑ (−1) r y1 r y 2 ⋅ ⋅ ⋅ r ym   r11 r12 ⋅ ⋅ ⋅ r1m   ⋅ ⋅ ⋅ ⋅ ⋅   ⋅ ⋅ ⋅ ⋅ ⋅  ⋅ ⋅ ⋅ ⋅ ⋅  rm1 rm 2 ⋅ ⋅ ⋅ rmm  8.8.0.2. Tipo de variables requeridas Se trabaja con variables continuas o cuantitativas como ingresos, puntuaciones... esto es, todas aquellas cuyos datos son mediciones. Al realizar las correlaciones se analiza en realidad el porcentaje de la varianza de la variable dependiente explicado por la variable independiente. 120 © Universidad de Deusto - ISBN 978-84-9830-628-6 8.8.0.3. Utilidades e interpretación La correlación contesta a preguntas del tipo: ¿depende la variable y de la variable x?. El coeficiente de correlación más utilizado es la r de Pearson. Este va de -1 a 1 y se interpreta de forma que si el coeficiente r de Pearson es negativo significa que “a más de x, menos de y” y si es positivo “a más de x, más de y”. El coeficiente también puede ser cero o próximo a ese valor, lo que significa que la relación que hay entre ambas variables es prácticamente nula. Las correlaciones en las que sólo se señala una variable dependiente y una independiente se denominan correlaciones de orden cero o correlación neta (rxy). De este coeficiente se puede extraer el coeficiente de determinación que refleja el porcentaje de la varianza de la variable dependiente explicado por la independiente y matemáticamente se calcula como el cuadrado del coeficiente de correlación r de Pearson denominado coeficiente de determinación. Pero también es conveniente atender a la existencia de otras variables independientes que ejercen su influencia tanto sobre la variable dependiente como sobre la independiente. Así, nos podemos encontrar con una variable z que ejerce su influencia sobre la variable y y sobre la x. Al tener en cuenta esta variable pasamos a la realización de las correlaciones parciales (rxy.z). En este caso al estudiar este coeficiente hallaríamos lo que explica x de y si le quitamos la influencia de z. Así cuanto más descienda el coeficiente de correlación parcial mayor es la influencia de z y si desciende mucho podríamos encontrarnos frente a una correlación inexistente o espúrea. En lo que se refiere a la matriz de correlaciones hay que tener en cuenta que tal matriz es simétrica (rxy=ryx) dado que la diagonal de esa matriz es 1 (ya que es la correlación de cada variable consigo misma). Por otra parte, para el estudio de los resultados en esa matriz es importante detenerse en los coeficientes de correlación elevados y detectar aquellos subconjuntos de variables con coeficientes de correlación elevados porque ello significará que existe relación entre todas ellas. Inicialmente la matriz se hace con correlaciones directas por lo que es conveniente posteriormente realizar otra matriz de correlaciones parciales quitando el influjo de la variable que parezca más influyente. Puede pasar que al quitar esa variable no exista relación entre las demás con lo que podemos deducir que la causa explicativa está en esa variable. Si al eliminar el influjo de esa variable no pasa nada es debido a su escasa influencia. 8.8.1. Manejo del SPSS Antes de iniciar los pasos operativos, es necesario localizar el fichero de datos con el que se va a trabajar, en este caso el fichero ”ESCUEL.sav”, y abrirlo de manera que se sitúe en pantalla. Para ello, se pulsa Archivo, Abrir y por último señalando el nombre del fichero y PULSANDO Aceptar. Para obtener los diversos coeficientes de correlación se PULSA la opción Analizar, posteriormente Correlaciones y finalmente PULSANDO Bivariadas (Fig. 89) 121 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 89. Como resultado de la elección se obtiene la ventana de Correlaciones bivariadas (Fig. 90). Figura 90. En el recuadro de la izquierda nos encontramos con la lista de variables numéricas del archivo de datos. De ella, seleccionamos las que se precisan obtener el coeficiente de correlación deseado. Como siempre se PULSAN las variables seleccionadas y se pasan al recuadro Variables PULSANDO el pequeño recuadro con la flecha hacia la derecha. En el recuadro Coeficientes de correlación se ofrecen tres coeficientes aunque siempre viene señalado por defecto el coeficiente de Pearson. 1. Pearson: Coeficiente de correlación r de Pearson. Medida apropiada para medir la relación lineal entre dos variables cuantitativas. Los valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la fuerza. 2. Tau b de Kendall: Medida no paramétrica de relación para variables ordinales o de rangos (tiene en consideración los empates). El signo del coeficiente indica la dirección de la relación y su valor absoluto indica la magnitud de la misma de tal modo que los mayores valores absolutos indican relaciones más fuertes. Los valores posibles van de -1 a 1 aunque un valor de -1 ó +1 sólo se puede obtener a partir de tablas cuadradas. 3. Spearman: Versión no paramétrica del coeficiente de correlación de Pearson, que se basa en los rangos de los datos en lugar de hacerlo en los valores reales. Resulta apropiada para datos ordinales o los de intervalo que no satisfagan el supuesto de normalidad. Los valores del coeficiente van de -1 a +1. Como en los otros coeficientes, 122 © Universidad de Deusto - ISBN 978-84-9830-628-6 el signo indica la dirección de la relación y el valor absoluto la intensidad. Los valores absolutos mayores indican que la relación es mayor. El recuadro Prueba de significación está referido a la prueba de hipótesis de que el coeficiente de correlación es cero. Las alternativas son las siguientes: 1. Bilateral: Probabilidad de obtener resultados tan extremos como el obtenido, y en cualquier dirección, cuando la hipótesis nula es cierta 2. Unilateral: Probabilidad de obtener un resultado tan extremo como el observado, y en la misma dirección, cuando la hipótesis nula es cierta. Contrasta la hipótesis nula en la que se especifica con antelación la dirección del efecto. El recuadro Marcar las correlaciones significativas muestra los niveles de significación de la prueba de hipótesis arriba seleccionada. Una vez especificadas estas preferencias y antes de pulsar el botón Aceptar para obtener los resultados se puede PULSAR el botón Opciones el cual permite solicitar estadísticos adicionales y determinar el tratamiento de los valores perdidos (Fig. 91) Figura 91. Seleccionando Medias y desviaciones típicas muestra para cada variable la media, la desviación típica y el número de casos no perdidos. Productos cruzados y covarianzas muestra los productos cruzados diferenciales y las covarianzas para cada par de variables. Dentro del recuadro valores perdidos se dan dos opciones: 1. Excluir casos según pareja: excluye del análisis los casos que tengan valores perdidos en cualquiera (o en ambas) de las variables de una pareja implicada en el cálculo de un estadístico específico. 2. Excluir casos según lista: excluye los casos que tienen valores perdidos en cualquiera de las variables utilizadas en cualquiera de los análisis. Una vez finalizada la elección de los Opciones, se PULSA Continuar para volver a la ventana original (Fig. 89) y PULSAR definitivamente Aceptar para obtener los resultados en la ventana de resultados Navegador de resultados del SPSS. Cuando se desean calcular los coeficientes de correlación r de Pearson entre varias variables tomadas de dos en dos los resultados se presentan como una matriz de correlaciones. Obviamente, la correlación de una variable consigo misma es 1 y la correlación de X con Y es la misma que la correlación de Y con X, con lo cuál tal matriz de correlaciones resulta simétrica y aporta los siguientes datos. Ejemplo: 123 © Universidad de Deusto - ISBN 978-84-9830-628-6 Correlaciones Hablar Hablar Análisis-Síntesis Capacidad de decisión Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N 1 117 .544** .000 115 .201* .030 117 AnálisisCapacidad Síntesis de decisión .544** .201* .000 .030 115 117 1 .243** .009 115 115 .243** 1 .009 115 117 **. La correlación es significativa al nivel 0,01 (bilateral). *. La correlación es significante al nivel 0,05 (bilateral). Con estos resultados se conocen las correlaciones de cada una de las variables con todas las demás. En ocasiones, sin embargo, se quiere conocer cuál es la correlación parcial o neta de una variable con otra pero eliminando el posible influjo de otra u otras variables. En ese caso, se PULSA secuencialmente: Analizar, Correlaciones y Parciales y aparecerá la ventana de diálogo Correlaciones parciales. En ella se puede pedir, por ejemplo, la correlación parcial de la v6 con la v9 eliminando el influjo de la v11(Fig. 92). Figura 92. Si se pulsa el botón Opciones aparece un cuadro similar al de la Fig. 91 pero con una nueva posibilidad: las Correlaciones de orden cero (Fig. 93) que en realidad son los coeficientes de correlación ordinarios sin variables de control. Figura 93. Una vez realizado el cálculo resulta una correlación parcial entre v6 y v9 controlando la v11 de r=0.525 con 112 sujetos y una significación de 0,000. Es evidente que se ha perdido algo de correlación ordinaria o de orden cero (r=0.544) entre v6 y v9 porque se ha eliminado la influencia de la v11. Correlaciones Variables de control Capacidad de decisión Hablar Análisis-Síntesis Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Hablar 1.000 . 0 .525 .000 112 124 © Universidad de Deusto - ISBN 978-84-9830-628-6 AnálisisSíntesis .525 .000 112 1.000 . 0 8.8.2. Ejercicios, Resultados e Interpretación 1. Del fichero de datos “DROGODE.sav” hallar la matriz de correlación de las variables v6 a la v13 señalando aquellas variables con mayor intercorrelación entre ellas. Estadísticos descriptivos Borracho-penas Chico-litronas Yonki Txikitero Borracho-finsemana Heroína Porros-diario Cocaína Media 7.16 5.46 8.64 5.01 6.12 7.46 6.79 7.41 Desviación típica 1.869 1.865 1.007 2.030 1.947 1.704 1.594 1.759 N 107 107 106 109 109 108 107 107 Correlaciones Borracho-penas Chico-litronas Yonki Txikitero Borracho-finsemana Heroína Porros-diario Cocaína Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Borrachopenas 1 Chico-litronas .359** .000 107 106 .359** 1 .000 106 107 .294** .200* .002 .042 105 104 .349** .533** .000 .000 107 107 .422** .677** .000 .000 107 107 .350** .444** .000 .000 107 107 .308** .393** .001 .000 106 105 .338** .346** .000 .000 105 105 Borracho-fi nsemana Yonki Txikitero Heroína Porros-diario Cocaína .294** .349** .422** .350** .308** .338** .002 .000 .000 .000 .001 .000 105 107 107 107 106 105 .200* .533** .677** .444** .393** .346** .042 .000 .000 .000 .000 .000 104 107 107 107 105 105 1 .133 .215* .375** .132 .310** .174 .027 .000 .179 .001 106 106 106 105 105 104 .133 1 .447** .342** .094 .327** .174 .000 .000 .334 .001 106 109 109 108 107 107 .215* .447** 1 .531** .402** .310** .027 .000 .000 .000 .001 106 109 109 108 107 107 .375** .342** .531** 1 .376** .588** .000 .000 .000 .000 .000 105 108 108 108 106 106 .132 .094 .402** .376** 1 .290** .179 .334 .000 .000 .003 105 107 107 106 107 106 .310** .327** .310** .588** .290** 1 .001 .001 .001 .000 .003 104 107 107 106 106 107 **. La correlación es significativa al nivel 0,01 (bilateral). *. La correlación es significante al nivel 0,05 (bilateral). Las variables v7 Chico-litronas, v9 Txikitero, v10 Borracho-finsemana y v11 Heroina son las que presentan entre ellas mayores correlaciones debido principalmente a que están referidas al tema del alcohol, así como v6 Borracho-penas, v8 Yonki y v13 Cocaína también presentan intercorrelación, aunque más baja, mezclando el tema de heroína y cocaina con alcohol. El resto tienden a ser correlaciones más bajas y, en algún caso, incluso no significativas. Sintaxis para el Ejercicio 1 2. Partiendo de la matriz de correlaciones del ejercicio anterior, tomar como variable objeto de estudio a la v10 Borracho-finsemana e ir realizando análisis de correlaciones parciales con el resto de variables ligadas a ella, es decir v7 Litronas, v9 Txikitero y v11 Heroina de manera que pueda 125 © Universidad de Deusto - ISBN 978-84-9830-628-6 conocerse la correlación v7-v10 eliminando el influjo de las demás, v9-v10 y v11-v10 eliminando en su caso el influjo de las demás variables. Correlaciones Parciales v7 y v10 controlando v9- v11 Variables de control Txikitero & Heroína Chico-litronas Borracho-finsemana Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Chico-litronas 1.000 . 0 .507 .000 103 Borracho-fi nsemana .507 .000 103 1.000 . 0 Como se puede observar, la correlación inicial entre v7 Chico-litronas y v10 Borrracho-finsemana r=0.677 ha descendido hasta r=0.,507 lo que demuestra la presencia de influencia de v9 Txikitero y v11 Heroina. Así mismo, pueden obtenerse las correlaciones parciales de v9 Txikitero-v10 Borracho-finsemana y v11 Heroina-v10 Borracho-finsemana eliminando en cada caso las otras dos variables. Tras seguir los pasos operativos oportunos, los resultados indican que la correlación inicial de v9-v10 r=0.447 desciende significativamente hasta r=0.118 (con lo que obviamente se deduce la mayor fuerza de influencia de v7 y v11 sobre la v10) y la correlación inicial de v11-v10 r=0.531 también baja a r=0.334. Sintaxis para el Ejercicio 2 3. Con el fichero “ESCUEL.sav” analizar las relaciones existentes entre las variables v2, v3, v8, v13, v14, v15 y v16 mediante las correlaciones bivariadas. Asimismo, analizar dichas relaciones cundo se neutraliza la variable v16. Algunas soluciones numéricas relevantes: correlaciones parciales de todas con todas controlando la v16 126 © Universidad de Deusto - ISBN 978-84-9830-628-6 Correlaciones Parciales v2, v3, v8, v13, v14, v15 controlando v16 Variables de control Expresión corporal Capacidades Artísticas Educación Cívica Disfrutar Trabajar en grupo Capacidad de crística Valentía Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Capacidades Artísticas 1.000 . 0 .282 .003 111 .029 .758 111 .101 .288 111 -.071 .457 111 .116 .223 111 Educación Cívica .282 .003 111 1.000 . 0 .184 .052 111 .127 .180 111 .267 .004 111 .246 .009 111 Disfrutar .029 .758 111 .184 .052 111 1.000 . 0 .216 .022 111 .416 .000 111 .226 .016 111 Trabajar en grupo .101 .288 111 .127 .180 111 .216 .022 111 1.000 . 0 .389 .000 111 .328 .000 111 Capacidad de crística -.071 .457 111 .267 .004 111 .416 .000 111 .389 .000 111 1.000 . 0 .249 .008 111 Valentía .116 .223 111 .246 .009 111 .226 .016 111 .328 .000 111 .249 .008 111 1.000 . 0 Sintaxis para el Ejercicio 3 4. Con el fichero “SALUD.sav” analizar las relaciones existentes entre las variables v5, v7, v11, v13 y v17. ¿Qué ocurre en dichas relaciones cuando se neutraliza la variable v13?. Algunas soluciones numéricas relevantes: Correlaciones Consumo regular alcohol Consumo regular de tabaco Opiáceos consumo regular Consumo regular cocaína Consumo regular heroína Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Consumo regular alcohol 1 Correlación de Pearson Sig. (bilateral) N Correlación de Pearson Sig. (bilateral) N Consumo Opiáceos regular de consumo tabaco regular .398** .296** .000 .002 180 179 107 .398** 1 .209* .000 .023 179 217 117 .296** .209* 1 .002 .023 107 117 119 .350** .000 154 .336** .000 179 .310** .000 173 .268** .000 214 .630** .000 110 .732** .000 119 **. La correlación es significativa al nivel 0,01 (bilateral). *. La correlación es significante al nivel 0,05 (bilateral). 127 © Universidad de Deusto - ISBN 978-84-9830-628-6 Consumo regular cocaína .350** .000 154 .310** .000 173 .630** .000 110 1 174 .764** .000 173 Consumo regular heroína .336** .000 179 .268** .000 214 .732** .000 119 .764** .000 173 1 216 Correlaciones Parciales v5, v7, v11, v13, v17 controlando v13 Variables de control Consumo regular cocaína Consumo regular alcohol Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Consumo regular de tabaco Opiáceos consumo regular Consumo regular cocaína Consumo regular heroína Correlación Significación (bilateral) gl Correlación Significación (bilateral) gl Consumo regular alcohol 1.000 . 0 .399 .000 97 .099 .330 Consumo regular de tabaco .399 .000 97 1.000 . 0 .088 .387 Opiáceos consumo regular .099 .330 97 .088 .387 97 1.000 . 97 97 . . 97 .141 .164 97 . . 97 .156 .123 97 Sintaxis para el Ejercicio 4 128 © Universidad de Deusto - ISBN 978-84-9830-628-6 Consumo regular cocaína . . 97 . . 97 . . Consumo regular heroína .141 .164 97 .156 .123 97 .499 .000 0 97 97 . . 97 .499 .000 97 1.000 . 0 . . 97 . . 97 1.000 . 0 8.9. REGRESIÓN MÚLTIPLE Y REGRESIÓN SIMPLE 8.9.0. Fórmulas y Aplicación 8.9.0.1. Fórmulas Ecuación de Regresión Múltiple Lineal Yp = ao + b1 X1 + b2 X2 + ... + bm Xm Correlación Tolerancia Para hallar los coeficientes bi debe cumplirse ∑ [Y-(a + b X + b X + ...)] = mínimo 1 1 2 2 Semiparcial y En general, la fórmula de la Correlación Parcial es − D yi R yi .234... = D yy Dii N o Parcial, 2 1 la solución de la ecuación anterior se convierte matricialmente D la matriz inversa de la matriz original de correlaciones en X'Y =(X'X)bi pudiéndose hallar, por tanto, el valor de los C coeficientes mediante  r yy r y1 r y 2 ⋅ ⋅ ⋅ r ym    bi = (X'X)-1 X'Y  r1 y r11 r12 ⋅ ⋅ ⋅ r1m  X matriz de todos los datos de X   Y matriz de todos los datos de Y ⋅ ⋅ ⋅ ⋅ ⋅ ⋅   C= X' es la matriz transpuesta de la matriz X ⋅ ⋅ ⋅ ⋅ ⋅ ⋅  ao = Y - Xi bi   ⋅ ⋅ ⋅ ⋅ ⋅ ⋅  r  ⋅ ⋅ ⋅ r r r mm  Ecuación de Regresión Múltiple Lineal  my m1 m 2 Yp = a + b X Significatividad de los coeficientes bi estimados Correlación Semiparcial La significatividad se calcula mediante el estadístico t de R yx1. x 2 = Student bi bi t= = SE (B ) Ve ⋅ d ii r yx1 − r yx 2 rx1x 2 1 − rx21x 2 Tolerancia= 1 − Ri2. j R i2. j el cuadrado de la correlación entre la variable bi = coeficiente de cada variable SE(B) = Error típico de los coeficientes de la ecuación independiente i que no está incluída en la ecuación y el conjunto de variables j ya incluidas en la ecuación = Ve ⋅d ii Ve= Varianza del error 1 dii = el elemento diagonal propio de la variable i de la matriz (Factor Inflacción de la Varianza) = F.I.V. -1 [X´X] 1 − Ri2. j ( Test de Durbin-Watson La correlación múltiple Ry . x1x 2... y el análisis de N Varianza R2 = S 2y.x1x 2... S 2y N ∑ (Y p N 2 ∑ (Y p − Y ) = 1 N 2 ∑ (Y − Y ) 1 ∑ (e − e i −1 i También R 2 = D= b´ X ´Y Y ´Y ) )2 2 N ∑ e 2 i 1 ei es el residuo: la diferencia entre el verdadro valor Yi y el valor pronosticado Yi . − Y ) 2 Influjo de X1,X2,,….,Xm 1 129 © Universidad de Deusto - ISBN 978-84-9830-628-6 N ∑ (Y − Y ) 2 Varianza Total de los datos Y 1 Mahalanobis Coeficiente de Correlación Múltiple Corregido Rc2 = N −1 m R2 − N − m −1 N − m −1 ∑ (Y X −X D =  i  Sx     2 Cook N p −Y) Ci = m N ∑ (Y − Y p) ∑ (Y ( ) − Y ) N 2 1 Estadístico F = Distancias 2 2 i j =1 j i ( p + 1)S 2 Error Típico de Estimación 1 N − m −1 m es el número de variables independientes Se = N S y 1− R2 N − m −1 Relación entre el estadístico F y el coef. Correl. Múltiple R R2 R 2 ( N − m − 1) m F= = 1− R2 m (1 − R ) ( N − m − 1) 8.9.0.2. Tipo de variables requeridas El procedimiento estadístico de la regresión múltiple exige que todas las variables que vayan a ser objeto de estudio, tanto la dependiente Y como las variables independientes X, sean cuantitativas. Así, por ejemplo, y tomando como punto de referencia el fichero ESCUEL.sav, podríamos utilizar en la regresión múltiple cualquiera de las variables 15(valentía para enfrentarse), v12(destrezas manuales), v19(no comprometerse tanto), v22(escuchar atentamente), v23(todos cometemos errores) y v31(compasión); ya que todas ellas son escalas y por lo tanto de carácter cuantitativo. 8.9.0.3. Utilidades e interpretación Tanto la regresión simple como la regresión múltiple tienen como utilidad establecer en que medida una variable dependiente viene explicada por el resto de las variables independientes. Ejemplo: del fichero ESCUEL.sav, deseamos conocer en que medida la variable “detectar los engaños”(v20) viene explicada, para toda la población, por las variables “Valentía para enfrentarse”(v15), “Expresión corporal”(v16), “Métodos de relajación”(v17), “Preguntas estúpidas”(v18) y “Pasar”(v19). En este sentido, y una vez realizado el análisis (método introducir), detectamos que la v20 tiene una relación baja (0,5) con el resto de las variables independientes. Por lo tanto, la interpretación que se hará será la siguiente; “Detectar los engaños” viene explicada por el resto de las variables independientes (v15, v16, v17, v18 y v19) en un 25%, dejando el 75% al influjo del azar o de otras variables no contempladas. 8.9.1. Manejo del SPSS Antes de iniciar los pasos operativos, debe lógicamente localizarse el fichero de datos con el que se va a trabajar y recuperarlo de modo que aparezca en pantalla. Esto se lleva a cabo PULSANDO en Archivo, después en Abrir, seguidamente señalando el nombre del fichero y PULSANDO Aceptar. 130 © Universidad de Deusto - ISBN 978-84-9830-628-6 El procedimiento para la obtención de los distintos estadísticos (coeficiente de regresión múltiple R2, ecuación de regresión múltiple, significación de los coeficientes de la ecuación, etc.) comprendidos en la técnica de la regresión múltiple se realiza (Fig. 94) PULSANDO el ratón en la opción Analizar, PULSANDO en la opción Regresion y finalmente PULSANDO en Lineal. Esta última elección significa admitir que la relación entre las variables es lineal y no curvilínea ni de otro estilo y que los cálculos matemáticos se realizan mediante la técnica del mínimo error cuadrático de predicción. Como puede apreciarse en la Fig. 94 existen, en la opción Regresión otras alternativas de cálculo que no van a ser consideradas aquí: • Estimación curvilínea. • Logistica. • Probit. • No lineal. • Estimación ponderada. • Mínimos cuadrados en dos fases. Figura 94. Como resultado de la elección Lineal aparece la ventana de diálogo de la Fig. 95. En él hay un recuadro a mano izquierda con la lista de variables del fichero de datos. Para elegir la Variable Dependiente se PULSA sobre ella y después se PULSA el pequeño recuadro con la flecha dirigida hacia la derecha. Inmediatamente esta variable quedará ubicada en el recuadro titulado Dependiente. Con la misma forma de proceder se van seleccionando aquellas variables consideradas independientes y se PULSA el pequeño recuadro inferior con la flecha dirigida hacia la derecha para que queden colocadas en el recuadro con el título Independientes.. Bloque 1 de 1 Siguiente. Suele ser lo normal Hacia la mitad del cuadro se lee Anterior seleccionar un sólo bloque de variables independientes para explicar la variable dependiente. Pero el programa posibilita el que se incorporen dos bloques o más de variables independientes. Caso de ser así, el programa trabaja siempre con el primer bloque y aparecerá Bloque 1 de 2. PULSANDO en Siguiente se cambiará al segundo bloque de variables y aparecerá Bloque 2 de 2, etc. 131 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 95. Debajo del recuadro de las variables independientes aparece la importantísima opción de Método, es decir, el modo estratégico de cálculo de la regresión múltiple. El programa ofrece en principio el modo: Introducir. Significa que todas las variables independientes van a ser tenidas en cuenta para explicar la variable dependiente. Pero hay otras posibilidades para elegir si se PULSA el pequeño recuadro adjunto con la flecha dirigida hacia abajo (Fig. 96). Figura 96. • El método Pasos sucesivos: incluye sucesivamente en la ecuación de regresión múltiple aquellas variables independientes con mayor grado de influencia significativa sobre la variable dependiente. El propio programa se detiene cuando ninguna de las variables independientes restantes es capaz de añadir un grado significativo de explicación. Este proceso se realiza teniendo en cuenta fundamentalmente la correlación parcial de las variables no incluidas. • Eliminar: es un procedimiento que toma en consideración las variables independientes que han quedado sin utilizar en un determinado método. Quiere esto decir que entra en funcionamiento siempre después de utilizar un primer método. • Hacia atrás: para el cálculo de la ecuación de regresión múltiple, toma al inicio todas las variables independientes. Después va eliminando sucesivamente la variable que menos fuerza explicativa presenta. Luego, la siguiente y así hasta que no elimina ninguna y queda el conjunto de variables independientes que más capacidad significativa de explicación. • Hacia adelante: consiste, como en el caso del método Pasos sucesivos, en introducir sucesivamente en la ecuación de regresión múltiple la variable independiente con más alta influencia aunque se diferencia de él porque una vez introducida la variable en la ecuación ya no es sacada de la misma a pesar de que en las sucesivas ecuaciones no llegue a tener significatividad su test de la F. 132 © Universidad de Deusto - ISBN 978-84-9830-628-6 En la parte inferior de la Fig. 95 hay una serie de botones que ofrecen distintas posibilidades: • MCP>>-Ponderación mínimo cuadrática-: otorga diferente peso o ponderación a los datos de las variables multiplicándolos por la raíz cuadrada del valor de su ponderación. Para ello deber estar creada esa variable de ponderación, la MCP que no será ninguna de las variables independientes ni tampoco la dependiente. Si se PULSA MCP aparecerá un recuadro en el que deberá incluirse esa variable de ponderación de los datos. • Estadísticos-: Al PULSARLO (Fig. 97) surge un cuadro de selección de diferentes coeficientes, matrices, etc. 1. Estimaciones-: el programa siempre ofrece esta posibilidad. Se trata de la estimación de los coeficientes de las variables independientes en la ecuación de regresión múltiple. 2. Intervalos de confianza se refiere a los límites de confianza de los coeficientes de la ecuación para un nivel de confianza determinado. 3. Matriz de covarianzas se trata de la matriz de varianzas y covarianzas entre los coeficientes de la ecuación de regresión múltiple. Figura 97. En la parte superior central también se ofrecen otras posibilidades: 1. Ajuste del modelo: aporta la R múltiple, la R2 o coeficiente de Determinación, la R2 ajustada o corregida, el error típico de la R y la tabla del Análisis de Varianza. 2. Cambio en R cuadrado. Cambio en el estadístico R cuadrado que se produce al añadir o eliminar una variable independiente. Si es grande el cambio en R cuadrado asociado a una variable es grande, esto significa que esa variable es un buen predictor de la variable dependiente. 3. Descriptivos: aporta la media, desviación típica y la matriz de correlaciones tanto de la variable dependiente como de las independientes. 4. Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y parcial. 5. Diagnóstico de colinealidad. Muestra las tolerancias para las variables individuales y una variedad de estadísticos para diagnosticar los problemas de colinealidad. La colinealidad (o multicolinealidad) es una situación no deseable en la que una de las variables independientes es una función lineal de otras variables independientes. En la parte inferior se dan las siguientes posibilidades: 1. Durbin-Watson: el test de Durbin-Watson para la correlación/independencia de los residuos o errores. 2. Diagnóstico por caso. Genera diagnósticos por casos, para todos los casos que cumplan el criterio de selección (los valores atípicos por encima de n desviaciones típicas). Todas estas posibilidades se refieren a los resultados que se van produciendo paso a paso según el método utilizado y no sólo a los resultados finales definitivos. 133 © Universidad de Deusto - ISBN 978-84-9830-628-6 Una vez finalizado con la elección de los Estadísticos- se PULSA en Continuar para poder elegir nuevas opciones. • Gráficos: ofrece un conjunto variado de gráficos que completa e ilustra los resultados obtenidos y posibilita una mejor interpretación a partir del análisis del cumplimiento de las condiciones exigibles a la regresión múltiple. (Fig. 98) 1. En el recuadro de la izquierda aparecen las abreviaturas de DEPENDNTVar.Dependiente-, ZPRED-Valores de predicción, ZRESID-Errores tipificados, DRESID-Errores no considerados-,ADJPRED-Valores de predicción ajustados, SRESID-Errores estudentizados- y SDRESID-Errores estudentizados no consideradosCon cualquiera de estas nuevas variables puede establecerse un gráfico de coordenadas. Basta con PULSAR en ella y PULSAR el recuadro pequeño con la flecha en dirección a la derecha para colocarla en la ordenada Y o en el eje de abcisas X. Por ejemplo, con ZPRED-Valores de predicción tipificados- y ZRESID-Errores tipificados- para detectar la posible linealidad entre ellos, es decir, la posible relación entre ambos que, lógicamente, no debe existir. El gráfico no debe demostrar la relación entre ellas. Figura 98. 2. Generar todos los gráficos parciales: se refiere a los gráficos de regresión parcial de cada una de las variables independientes con la dependiente. 3. Gráficos de residuos tipificados: 3.1. Histograma: ofrece el histograma de los residuos o errores tipificados incorporando también la curva normal. 3.2. Gráfico de probabilidad normal: aporta el gráfico de probabilidad acumulada de los errores en X (observada) e Y (esperada). • Guardar: la posibilidad de guardar en un archivo o en varios archivos todos los cálculos adicionales solicitados es una opción interesante (Fig. 99) 134 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 99. 1. En el recuadro superior de la izquierda aparecen los Valores pronosticados: • No tipificados. Valor que predice el modelo para la variable dependiente. • Tipificados. Transformación de cada valor pronosticado a su forma tipificada. Es decir, se sustrae el valor pronosticado medio al valor pronosticado y el resultado se divide por la desviación típica de los valores pronosticados. Los valores pronosticados tipificados tienen una media de 0 y una desviación típica de 1. • Corregidos. Valor pronosticado para un caso cuando dicho caso no se incluye en los cálculos de los coeficientes de regresión. • E.T. de pronósticos promedio. Error típico de los valores pronosticados. Estimación de la desviación típica del valor promedio de la variable dependiente para los casos que tienen valores iguales en las variables independientes. 2. En el recuadro inmediatamente inferior aparecen los cálculos de diferentes tipos de Distancias. En regresión es importante localizar los casos que tienen mayor influencia o ejercen un efecto más grande a la hora de establecer el modelo. Estos casos o sujetos pueden ser aquellos que influyen en las B del modelo y por tanto, en las predicciones, que aumentan las varianzas de los coeficientes o que tienen un ajuste deficiente al modelo. Una forma de localizar estos sujetos es calculando la distancia que en la variable independiente tienen los mismos respecto a la media aritmética. • Mahalanobis. Esta distancia aunque resulta más compleja de calcular es más valiosa en el caso de la regresión múltiple, en donde intervienen todas las distancias a todas las variables independientes del modelo. Señalar finalmente que el hecho de que un individuo tenga un valor extremo en la variable independiente no necesariamente conlleva que su residual sea también extremo. • De Cook. Tiene en consideración el valor de los cambios en todos los residuales cuando una puntuación determinada es eliminada de la regresión y calcula, por tanto, esos cambios para cada sujeto. En concreto: • Valores de influencia Medida de la influencia de un punto en el ajuste de la regresión. La influencia centrada varía entre 0 (no influye en el ajuste) y (N-1)/N. 135 © Universidad de Deusto - ISBN 978-84-9830-628-6 3. Más abajo, aparece el recuadro Intervalos de pronóstico. • Medias: intervalos de la media para un nivel de confianza dado. • Individuo: intervalo de confianza para un determinado valor de predicción a un nivel de confianza dado. • Nivel de confianza-: por defecto, el programa ofrece el 95%. Puede elegirse otro cualquiera, 99%, 90%, etc. 4. En el primer recuadro superior a la derecha aparecen los Residuos: • No tipificados. Diferencia entre un valor observado y el valor pronosticado por el modelo. • Tipificados. Residuo dividido por una estimación de su error típico. Los residuos tipificados, que son conocidos también como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una desviación típica de 1. • Estudentizados. Residuo dividido por una estimación de su desviación típica que varía de caso en caso, dependiendo de la distancia de los valores de cada caso en las variables independientes respecto a las medias en las variables independientes. • Eliminados. Residuo para un caso cuando éste se excluye del cálculo de los coeficientes de la regresión. Es igual a la diferencia entre el valor de la variable dependiente y el valor pronosticado corregido. • Eliminados estudentizados. Residuo eliminado para un caso dividido por su error típico. La diferencia entre un residuo eliminado estudentizado y su residuo estudentizado asociado indica la diferencia que implica el eliminar un caso sobre su propia predicción. 5. En el siguiente recuadro aparecen los Estadísticos de influencia: • DfBetas. La diferencia en el valor de beta es el cambio en el valor de un coeficiente de regresión que resulta de la exclusión de un caso particular. Se calcula un valor para cada término del modelo, incluyendo la constante. • DfBetas tipificadas. Valor de la diferencia en beta tipificada. El cambio tipificado en un coeficiente de regresión cuando se elimina del análisis un caso particular. Puede interesarle examinar aquellos casos cuyos valores absolutos sean mayores que 2 dividido por la raíz cuadrada de N, donde N es el número de casos. Se calcula un valor para cada término del modelo, incluyendo la constante. • DfAjuste. La diferencia en el valor ajustado es el cambio en el valor pronosticado que resulta de la exclusión de un caso particular. • DfAjuste tipificados. Diferencia tipificada en el valor ajustado. El cambio, tipificado, en el valor pronosticado que resulta de la exclusión de un caso particular. Puede interesarle examinar aquellos valores tipificados cuyo valor absoluto sea mayor que 2 dividido por la raíz cuadrada de p/N, donde p es el número de variables independientes en la ecuación y N es el número de casos. • Razón entre covarianzas. Razón del determinante de la matriz de covarianza con un caso particular excluido del cálculo de los coeficientes de regresión, respecto al determinante de la matriz de covarianza con todos los casos incluidos. Si la razón se aproxima a 1, el caso no altera significativamente la matriz de covarianza. 136 © Universidad de Deusto - ISBN 978-84-9830-628-6 Una vez finalizada la elección de Guardar se PULSA en Continuar y se vuelve a la ventana original (Figura 74.) en las que se pueden seleccionar otras opciones • Opciones: determina las condiciones matemáticas y operativas para la construcción del modelo de regresión (Fig. 100) 1. En el primer recuadro aparece Criterios del método por pasos. Se refiere a usar el criterio de Probabilidad de F o el criterio del valor de F como baremo operativo de los diversos cálculos finales. 1.1 Usar la probabilidad de F: distingue dos momentos. Entrada si se trata de permitir la entrada de una nueva variable a la ecuación. Por defecto, utiliza el .05 pero puede ser modificado por el .01 o por .10, etc. según el propio investigador. Salida si se trata de eliminar una variable de la ecuación. Por defecto, utiliza el .10 pero también puede ser modificado. 1.2 Usar el valor de F: también se ofrecen por defecto pero pueden ser modificados. 2. Incluir la constante en la ecuación: se da por defecto. Si no se desea, basta con PULSAR en el recuadro y dejarlo en blanco. Figura 100. 3. Valores Perdidos 3.1 Excluir casos según lista: excluye aquellos casos con valores missing, o sea con valores despreciados. 3.2 Excluir casos según pareja: excluye los casos que en cualquiera de las variables que entran a formar parte de la ecuación de regresión presentan missing o valores despreciados. 3.3 Reemplazar por la media: se reemplaza el valor missing de cualquier caso en una determinada variable con el valor de la media de esa variable. Tras finalizar la elección de las Opciones se PULSA en CONTINUAR para volver a la ventana original (Fig. 94) y PULSAR definitivamente en Aceptar para obtener los resultados en la ventana de Navegador de Resultados. 8.9.2. Ejercicios, Resultados, Interpretación y Sintaxis 1. Realizar el análisis de regresión múltiple obteniendo los resultados más básicos a partir de los datos del fichero denominado “REGRE1.sav”. 137 © Universidad de Deusto - ISBN 978-84-9830-628-6 Una vez abierto el fichero, se PULSA en la opción Analizar, posteriormente en Regresion y a continuación en Lineal. Dado que la v1 (Nivel de Frustración) es la variable dependiente se PULSA sobre ella y se traslada al recuadro de Dependiente tras pulsar en el recuadro pequeño que tendrá la flecha dirigida hacia la derecha. Después se PULSA sobre v2 (Horas TV/Semana) y sobre v3 (Nivel Socioec.) y se trasladan al recuadro de Independientes. El método de cálculo, en este caso, es Introducir porque se desea conocer la influencia de las dos variables sobre la dependiente. PULSANDO en el botón inferior Estadísticos se opta por Descriptivos para conocer las medias, las desviaciones típicas y la matriz de correlaciones entre las tres variables. Una vez elegido se PULSA en Continuar y se vuelve al cuadro de diálogo inicial donde ya se puede PULSAR Aceptar para obtener los resultados, que son los siguientes: Estadísticos descriptivos Desviación típ. 18.006 7.718 16.059 Media 63.70 19.30 59.90 v1. NIVEL DE FRUSTRACION v2. Horas TV/Semana v3. Nivel Socioec. N 10 10 10 Correlaciones Correlación de Pearson Sig. (unilateral) N v1. NIVEL DE FRUSTRACION v2. Horas TV/Semana v3. Nivel Socioec. v1. NIVEL DE FRUSTRACION v2. Horas TV/Semana v3. Nivel Socioec. v1. NIVEL DE FRUSTRACION v2. Horas TV/Semana v3. Nivel Socioec. v1. NIVEL DE FRUSTRACION 1.000 .766 .967 . .005 .000 10 10 10 v2. Horas TV/Semana .766 1.000 .831 .005 . .001 10 10 10 v3. Nivel Socioec. .967 .831 1.000 .000 .001 . 10 10 10 Resumen del modelo Modelo 1 R .970a R cuadrado corregida .924 R cuadrado .941 Error típ. de la estimación 4.971 a. Variables predictoras: (Constante), v3. Nivel Socioec., v2. Horas TV/Semana ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 2745.118 172.982 2918.100 gl 2 7 9 Media cuadrática 1372.559 24.712 F 55.543 Sig. .000a a. Variables predictoras: (Constante), v3. Nivel Socioec., v2. Horas TV/Semana b. Variable dependiente: v1. NIVEL DE FRUSTRACION Coeficientesa Modelo 1 (Constante) v2. Horas TV/Semana v3. Nivel Socioec. Coeficientes no estandarizados B Error típ. -2.623 6.624 -.290 .386 1.201 .186 Coeficientes estandarizad os Beta -.124 1.071 t -.396 -.751 6.467 Sig. .704 .477 .000 a. Variable dependiente: v1. NIVEL DE FRUSTRACION Los resultados dejan en evidencia varias cosas: por una parte, el cuidado que debe tenerse en la interpretación de los coeficientes de correlación porque, efectivamente, v2 Horas de TV/Semana influye mucho en v1 Nivel de Frustración (r=0.766) pero, sin embargo, la verdadera influencia está en v3 Nivel socioec. y no solo porque r=0.967 sino porque en la ecuación de regresión se nota con 138 © Universidad de Deusto - ISBN 978-84-9830-628-6 claridad que el coeficiente de la variable v2 (-0.290) no resulta significativo (t=-0.751 Sig.=0.477 o sea, 47.7% de que se deba al azar) mientras que el coeficiente de v3 (1.201; t=6.467 Sig.=0.000 o sea, no puede deberse al azar) resulta muy influyente y decisivo. Por otra parte, en el recuadro de resultados Resumen del Modelo aparece que la correlación múltiple R=0.970 y la R2=0.941, es decir el 94.1% de la Varianza de v1 queda explicada por la acción conjunta de v2 y v3. En realidad, debe precisarse que en esa correlación quien más peso tiene es la v3 Nivel socioec. y no tanto la v2 Horas TV/Semana. Sintaxis para el Ejercicio 1 2. Averiguar cómo es explicada la v14 (Crítica) mediante la v6 (Hablar en público), v7 (Técnicas de estudio) y v9 (Análisis-síntesis) del fichero “ESCUEL.sav” mediante el método de Pasos Sucesivos. Figura 101. Cuando se elige el método de Pasos sucesivos (Fig. 101), tras PULSAR en la opción Pasos suc. en el recuadro correspondiente de Método, es muy útil obtener los datos descriptivos de las variables, sobre todo la matriz de correlaciones para poder posteriormente comparar esas correlaciones de orden cero con las correlaciones parciales. Por tanto, se PULSA el botón inferior de Estadísticos para señalar Descriptivos además de Estimaciones y Ajuste del modelo que los proporciona automáticamente el propio programa. Tras PULSAR Continuar el programa vuelve al cuadro de diálogo inicial y ahí se PULSA Aceptar para obtener los resultados. Los resultados son los siguientes: 139 © Universidad de Deusto - ISBN 978-84-9830-628-6 Estadísticos descriptivos Desviación típ. 2.355 1.953 2.213 2.329 Media 7.11 7.68 7.07 6.87 Capacidad de crística Hablar Técnicas de Estudio Análisis-Síntesis N 114 114 114 114 Correlaciones Correlación de Pearson Sig. (unilateral) N Capacidad de crística Hablar Técnicas de Estudio Análisis-Síntesis Capacidad de crística Hablar Técnicas de Estudio Análisis-Síntesis Capacidad de crística Hablar Técnicas de Estudio Análisis-Síntesis Capacidad de crística 1.000 .490 .491 .729 . .000 .000 .000 114 114 114 114 Técnicas de Estudio .491 .597 1.000 .616 .000 .000 . .000 114 114 114 114 Hablar .490 1.000 .597 .533 .000 . .000 .000 114 114 114 114 AnálisisSíntesis .729 .533 .616 1.000 .000 .000 .000 . 114 114 114 114 Resumen del modelo Modelo 1 R R cuadrado .729a .531 R cuadrado corregida .527 Error típ. de la estimación 1.620 a. Variables predictoras: (Constante), Análisis-Síntesis ANOVAb Modelo 1 Regresión Residual Total Suma de cuadrados 332.651 294.086 626.737 gl 1 112 113 Media cuadrática 332.651 2.626 F 126.687 Sig. .000a a. Variables predictoras: (Constante), Análisis-Síntesis b. Variable dependiente: Capacidad de crística Coeficientesa Modelo 1 (Constante) Análisis-Síntesis Coeficientes no estandarizados B Error típ. 2.046 .474 .737 .065 Coeficientes estandarizad os Beta .729 t 4.312 11.256 Sig. .000 .000 a. Variable dependiente: Capacidad de crística Variables excluidasb Modelo 1 Hablar Técnicas de Estudio Beta dentro .142a .068a t 1.882 .821 Sig. .062 .414 Correlación parcial .176 .078 Estadísticos de colinealidad Tolerancia .716 .620 a. Variables predictoras en el modelo: (Constante), Análisis-Síntesis b. Variable dependiente: Capacidad de crística La interpretación puede partir de este último cuadro de resultados “Variables excluidas” en el que precisamente por su mismo título se sabe que v6.Hablar y v7.Técnicas de Estudio no entran a formar parte de la ecuación de regresión sobre v14.Crítica. Desde luego sus correlaciones parciales con ella así lo manifiestan (r=0.176 y r=0.078 respectivamente) puesto que son muy bajas y descienden bastante de las correlaciones de orden cero (r=0.490 y r=0.491 respectivamente). Quiere esto decir que la variable, 140 © Universidad de Deusto - ISBN 978-84-9830-628-6 en definitiva, más importante para explicar v14 es v9.Análisis-Síntesis. Alcanza una R=0.729 y una R2=0.531, es decir, ella sola logra explicar el 53.1% de la varianza de v14. Por otra parte, el coeficiente de la ecuación (0.737) es claramente significativo y no se debe al azar (t=11.256 Sig.=0.000) lo que certifica desde otra perspectiva la importancia de esta variable v9. Las otras dos, sin embargo, no añaden prácticamente a lo que v9 aporta en solitario. Sintaxis para el Ejercicio 2 3. Tomando el fichero “ESCUEL.sav” realizar un estudio completo en el que se muestre como la variable v15. “Valentía” viene explicada por las variables v19 “Pasar”, v22 “Hacer algo difícil y bien”, y v31 “Compasión”mediante el método de Pasos sucesivos. Realizar también el mismo estudio pero para los sujetos de clase social alta. Comparar ambos resultados. Algunas soluciones numéricas relevantes: Para toda la muestra Coeficientesa Modelo 1 2 3 (Constante) Compasión (Constante) Compasión Hacer algo difícil (Constante) Compasión Hacer algo difícil "Pasar" Coeficientes estandarizad os Beta Coeficientes no estandarizados B Error típ. 4.233 .517 .380 .081 3.301 .659 .309 .086 .203 .091 2.375 .732 .277 .084 .248 .091 .205 .078 .408 .332 .205 .298 .250 .223 t 8.188 4.685 5.010 3.600 2.222 3.244 3.280 2.738 2.625 Sig. .000 .000 .000 .000 .028 .002 .001 .007 .010 a. Variable dependiente: Valentía Para los de clase social alta Coeficientesa Modelo 1 (Constante) Compasión Coeficientes no estandarizados B Error típ. 1.925 1.107 .682 .157 Coeficientes estandarizad os Beta .609 t 1.739 4.346 a. Variable dependiente: Valentía 141 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sig. .092 .000 Sintaxis para el Ejercicio 3 4. Del mismo fichero “ESCUEL.sav” ¿cómo es explicada v14 por v9, v12, v30 y v29 mediante el método Introducir?. Realizar el mismo ejercicio sólo para el grupo de hombres y sólo para el grupo de mujeres comparando los tres tipos de resultados. Algunas soluciones numéricas relevantes: Para toda la muestra Coeficientesa Modelo 1 (Constante) Análisis-Síntesis Destrezas Manuales Política Educación deportiva Coeficientes no estandarizados B Error típ. 2.961 .749 .724 .070 -.090 .078 -.008 .067 -.039 .078 Coeficientes estandarizad os Beta .735 -.082 -.008 -.038 t 3.954 10.405 -1.155 -.123 -.505 Sig. .000 .000 .251 .903 .615 a. Variable dependiente: Capacidad de crística Para el grupo de Hombres y el grupo de Mujeres Coeficientesa Sexo HOMBRE MUJER Modelo 1 1 (Constante) Análisis-Síntesis Destrezas Manuales Política Educación deportiva (Constante) Análisis-Síntesis Destrezas Manuales Política Educación deportiva Coeficientes no estandarizados B Error típ. 2.828 1.371 .744 .120 -.069 .191 .082 .143 -.213 .160 3.216 .927 .668 .095 -.084 .089 -.040 .078 .033 .090 Coeficientes estandarizad os Beta .824 -.052 .075 -.191 .647 -.087 -.044 .036 a. Variable dependiente: Capacidad de crística 142 © Universidad de Deusto - ISBN 978-84-9830-628-6 t 2.062 6.185 -.359 .569 -1.334 3.467 7.039 -.953 -.516 .361 Sig. .050 .000 .723 .574 .194 .001 .000 .343 .607 .719 Sintaxis para el Ejercicio 4 5. ¿Cómo es explicada la v23 del fichero “CITEC.sav” mediante la v25, v38, v40 y v43 mediante el método de Pasos sucesivos? Algunas soluciones numéricas relevantes: Resumen del modelo Modelo 1 R R cuadrado .111a .012 R cuadrado corregida .011 Error típ. de la estimación 1,323 a. Variables predictoras: (Constante), Productos Coeficientesa Modelo 1 (Constante) Productos Coeficientes no estandarizados B Error típ. 2.423 .114 .123 .035 Coeficientes estandarizad os Beta .111 t 21.222 3.556 Sig. .000 .000 a. Variable dependiente: Científicos peligrosos Variables excluidasb Modelo 1 Futuro Economía competitiva Beneficios Beta dentro -.049a .007a -.051a t -1.588 .218 -1.646 Sig. .113 .827 .100 Correlación parcial -.050 .007 -.052 a. Variables predictoras en el modelo: (Constante), Productos b. Variable dependiente: Científicos peligrosos 143 © Universidad de Deusto - ISBN 978-84-9830-628-6 Estadísticos de colinealidad Tolerancia 1.000 .998 .994 Sintaxis para el Ejercicio 5 6. Del mismo fichero y mediante el método Introducir averiguar la dependencia de la v28 respecto de las variables v21, v25, 29 y v42 con especial atención a las correlaciones parciales y a la significación de los coeficientes de la ecuación de regresión múltiple. Algunas soluciones numéricas relevantes: Resumen del modelo Modelo 1 R R cuadrado .308a .095 R cuadrado corregida .091 Error típ. de la estimación 1,223 a. Variables predictoras: (Constante), Computers, Futuro, Confortabilidad, Trabajo más interesante Coeficientesa Modelo 1 (Constante) Confortabilidad Futuro Trabajo más interesante Computers Coeficientes no estandarizados B Error típ. 2.000 .156 .081 .039 .210 .035 .140 .036 .061 .028 Coeficientes estandarizad os Beta .065 .200 .130 .066 a. Variable dependiente: Progreso Sintaxis para el Ejercicio 6 144 © Universidad de Deusto - ISBN 978-84-9830-628-6 t 12.794 2.052 5.949 3.892 2.203 Sig. .000 .040 .000 .000 .028 8.10. FIABILIDAD DE LOS TEST 8.10.0. Fórmulas y Aplicación 8.10.0.1. Fórmulas Alfa (α) de Crombach χ r2 de Friedman k    S 2j   k  α= 1 − 1 2  k −1  S      k = número de ítems S 2j =varianza de cada item   k  G 2j  − 3 ⋅ N (k + 1) ) 2  N k + k  1  N = número de sujetos G = suma de los rangos de los sujetos en cada ítem ∑ χ r2 = )∑ Q de Cochran (para datos dicotomizados) Q= Dos mitades k ∑T k ⋅ (k − 1) S 2 =varianza de las puntuaciones totales R= ( 12 1 N k⋅N − 2 ⋅ rip − (k − 1)⋅N 2 2 j ∑T i 2 1 1 + rip rip = coeficiente de correlación entre las puntuaciones totales T cuadrado de Hotteling obtenidas con la mitad de los items del test y las puntuaciones totales obtenidas con la otra mitad. T2 = traza | S A ⋅ S e−1 | = suma de los elementos diagonales de la matriz resultante. Guttman SA = Matriz de Suma de Cuadrados Intergrupo  S2 +S2  S e−1 = Matriz de Suma de Cuadrados del Error. R = 2 ⋅ 1 − 1 2 2    S   N −n S12 =varianza de las puntuaciones de la primera mitad F =T2 (N − 1) n ⋅ S 22 =varianza de las puntuaciones de la segunda mitad n = grados de libertad = k-1 Prueba de aditividad de Tukey Fnoadit = SC noadit SC resto [(a − 1)⋅ (b − 1) − 1] 8.10.0.2. Tipo de variables requeridas La fiabilidad se utiliza para averiguar si el instrumento de medida (test, escalas,...) es consistente. En el caso concreto de los test dicotómicos se ofrecen varias preguntas y se responde, a cada una, verdadero o falso (además del no sabe/no contesta). Con esto se pretende averiguar los aciertos de un determinado sujeto y otorgarle una puntuación con respecto al conjunto de sujetos que ha contestado. En el caso de las escalas, las respuestas de cada sujeto pueden oscilar entre el Muy en Desacuerdo y el Muy de Acuerdo. Para que los resultados de los test o de las escalas tengan sentido es necesario que el instrumento de medición (el test) sea fiable, es decir, esté compuesto por una batería de ítems con capacidad para medir en la misma dirección aportando puntuaciones robustas y sólidas de modo que si el test o la escala fuera respondida por segunda vez o tercera vez o enésimas veces los resultados alcanzaran valores similares. 8.10.0.3. Utilidades e interpretación. Fiabilidad significa en términos coloquiales poder fiarse uno de lo que se dice, de lo medido. Así La fiabilidad significa consistencia y constancia en la medida. Pero es importante tener en cuenta que 145 © Universidad de Deusto - ISBN 978-84-9830-628-6 un instrumento puede ser fiable pero no válido, esto es, un instrumento puede medir igual siempre pero su medición puede no ser verdadera. Para el análisis de fiabilidad se suele utilizar como estadístico el coeficiente de fiabilidad Alpha de Cronbach y por lo general se considera que una fiabilidad es relevante cuando este coeficiente es superior a 0.70. La estrategia procedimental consistirá en ir eliminando aquellos items que hacen disminuir el coeficiente de fiabilidad y que pueden ser desechables al no medir lo mismo que el resto por lo que en realidad estorban. Para averiguar si un item sobra se realiza el análisis de fiabilidad con todos los items y se averigua si la fiabilidad aumenta al eliminar ese ítem. Si, por el contrario, la fiabilidad disminuye significa que el item era importante y necesario. Se acabará el proceso cuando los resultados de la fiabilidad no sufran un aumento aunque no consideren otros ítems. 8.10.1. Manejo del SPSS La obtención de la fiabilidad de un test o escala se obtiene PULSANDO en la opción del menú Analizar, seleccionando Escalas y posteriormente PULSANDO en Análisis de fiabilidad (Fig. 102). Las operaciones citadas se realizan una vez localizado el fichero de datos PULSANDO en la opción del menú principal Archivo, Abrir y PULSANDO en Datos con lo que podrá buscarse donde está el fichero deseado que aparecerá en pantalla tras seleccionarlo y PULSANDO en Abrir de la ventana de diálogo. Figura 102. Como resultado aparece en pantalla el siguiente cuadro (Fig. 103). Figura 103. 146 © Universidad de Deusto - ISBN 978-84-9830-628-6 A continuación deben seleccionarse las variables o ítems que formen parte de la escala cuyo coeficiente se desee calcular. La selección se lleva a cabo marcando las variables dentro del primer cuadro y, pulsando el botón que separa ambos cuadros, se pasan al de la derecha. Debajo del cuadro que contiene el listado de variables aparece otro cuadro más pequeño con los distintos modelos con los que se puede calcular el coeficiente de fiabilidad. Los métodos que para ello ofrece el SPSS son los siguientes (Fig. 104): Figura 104. El método Alfa (Crombach) realiza el cálculo del coeficiente de fiabilidad por medio de la fórmula de alfa de Crombach. El método Dos mitades calcula el coeficiente de fiabilidad mediante la división de los elementos en dos mitades utilizando dos métodos diferentes: Sperarman-Brown y Guttman. (ATENCION: si no es debidamente programado, el SPSS no realiza la división entre items pares e impares sino entre la primera mitad de los ítems y la segunda mitad de ellos) El procedimiento Spearman-Brown estima el coeficiente de fiabilidad mediante el cálculo de las correlaciones entre las dos mitades. La utilización de este procedimiento exige homogeneidad de las varianzas correspondientes a las dos mitades; por ello es necesario previamente a la aplicación del mismo una prueba de contraste de homogeneidad de las varianzas (mediante análisis de varianza u otros estadísticos). El procedimiento Guttman realiza la estimación del coeficiente de fiabilidad mediante la comparación de las varianzas de las dos mitades. El método Paralelo asume que todos los elementos tienen varianzas iguales y varianzas de error iguales a lo largo de las réplicas. El método Estricto paralelo realiza los supuestos del modelo paralelo y también asume medias iguales a lo largo de los elementos. Eligiendo la opción listar etiquetas de los elementos aparecerán las etiquetas correspondientes a las variables objeto de estudio. El botón Estadísticos ofrece la siguiente ventana de diálogo (Fig. 105): 147 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 105. El cuadro Descriptivos para ofrece las siguientes opciones: - Elemento: proporciona la media, desviación típica y el número de casos de cada variable o ítem. Escala: proporciona los estadísticos para la escala analizada: la media de la escala ( compuesta por la suma de las medias de cada ítem), la varianza (suma de las varianzas de cada ítem), la desviación típica y el número de variables de que se compone la escala. Escala si se elimina elemento: ofrece el resumen de los estadísticos comparando cada ítem con la escala compuesta por los otros ítems. Los estadísticos incluyen la media y varianza de la escala si el ítem fuera eliminado de la escala, la correlación entre el ítem y la escala compuesta por los otros ítems, y el alpha de Crombach si el ítem fuera eliminado de la escala. En el cuadro Resúmenes se puede optar por: - Media: la media conjunta de los items de la escala, la media mínima y máxima, el rango, la diferemncia entre máxima y mínima y la varianza entre las medias. Varianzas: la media de las varianzas de los ítems, la media de varianza mínima y máxima, el rango, la diferencia entre varianza máxima y mínima y la varianza de las mismas. Covarianzas: la media de las covarianzas, la media de covarianza mínima y máxima, el rango, la diferencia entre covarianza máxima y mínima y la varianza de las mismas. Correlaciones: la media de las correlaciones, la media de mínima y máxima, el rango, la diferencia entre máxima y mínima y la varianza de las mismas. En el cuadro Entre-elementos aparece: - Correlaciones: la matriz de correlaciones entre los ítems y los estadísticos de las correlaciones Covarianzas: la matriz de covariaciones y los estadísticos de correlaciones. En el cuadro Tabla de Anova se tienen las siguientes opciones: - Ninguno. Prueba F. Chi-cuadrado de Friedman. Sujeto por sujeto se van asignando los rangos de cada uno de ellos en las variables test y posteriormente por variables se suman estos rangos y se promedian en toda la muestra. 148 © Universidad de Deusto - ISBN 978-84-9830-628-6 - Chi-cuadrado de Cochran. Al final del cuadro aparece: - T cuadrado de Hotelling. Es una generalización de la t de Student. La suma de los productos de la forma (X i − µ i )(X j − µ j )s ij (n − 1) de una muestra de n datos que siguen la distribución normal multidimensional con parámetros µ i σ ij siguen la distribución Τ 2 de Hotelling. - Prueba de aditividad de Tukey. Idea un procedimiento para averiguar si la interacción es nula calculando Fnoadit que se distribuye según F con 1 y (a-1)(b-1)-1 grados de libertad. 8.10.2. Ejercicios, Resultados, Interpretación y Sintaxis 1. Calcular la fiabilidad de la subescala compuesta por los ítems v26 a v33 del fichero de datos “ESCUEL.sav” mediante el coeficiente α de Cronbach y averiguar si tal fiabilidad puede aumentarse eliminando algunos ítems de baja aportación. Es muy conveniente una vez abierto el fichero de datos y antes de iniciar las operaciones comprobar el estado de la(s) variable(s) que van a entra en el análisis: etiquetas de las variables, tipo de variable, formato de columna, y lo más importante: los valores que no deben entrar en el análisis (valores perdidos). Una vez realizadas las comprobaciones se PULSA secuencialmente Analizar, Escalas y Análisis de fiabilidad. Se seleccionan a continuación las variables que se van a incluir como pertenecientes a la escala, se PULSA una vez y se transportan al recuadro situado a la derecha pulsando en el rectángulo que separa a ambos. En la opción Modelo se selecciona el método alfa Fig. 106. Figura 106. A continuación se PULSA el botón Estadísticos y en el cuadro Descriptivos para se selecciona la casilla Elemento para obtener con ello la media, desviación típica y otros estadísticos de cada ítem así como Escala si se elimina elemento que servirá como criterio para decidir qué items no incluir en la escala a fin de obtener un coeficiente de fiabilidad más alto que el inicial (Fig. 107). 149 © Universidad de Deusto - ISBN 978-84-9830-628-6 Figura 107. A continuación se PULSA Continuar y en la ventana de diálogo Análisis de fiabilidad (Fig. 106) se PULSA Aceptar. Acto seguido aparecerá en pantalla la pantalla Resultados – Visor SPSS. En este caso los resultados tal y como aparecen en el Spss son los siguientes: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .644 N de elementos 8 Estadísticos de los elementos Ciencia-Tec. Ver TV Cultura Educación deportiva Política Compasión Desarrollo Educ.Sexual Media 1.84 1.98 7.05 6.14 5.72 5.92 6.86 7.32 Desviación típica .776 .747 2.342 2.298 2.224 2.248 2.339 1.839 N 87 87 87 87 87 87 87 87 Estadísticos total-elemento Ciencia-Tec. Ver TV Cultura Educación deportiva Política Compasión Desarrollo Educ.Sexual Media de la escala si se elimina el elemento 40.99 40.85 35.78 36.69 37.10 36.91 35.97 35.51 Varianza de la escala si se elimina el elemento 68.546 65.966 50.405 57.519 58.745 47.829 49.964 54.765 Correlación elemento-tot al corregida .105 .327 .439 .221 .200 .567 .456 .453 Alfa de Cronbach si se eleimina el elemento .653 .632 .581 .650 .654 .539 .576 .583 La fiabilidad de esta subescala medida a través del coeficiente α es 0.644 pero del análisis de los diferentes ítems se deduce que v26 y v30 presentan por una parte las menores correlaciones itemstest y, por otra, si se eliminan las subescalas resultantes aumentan la fiabilidad como puede apreciarse en la columna de Alpha if Item is Deleted. Por ello, se va a calcular la fiabilidad de la subescala pero sin contar con esos ítems porque más que aportar calidad a la medición más bien la perjudican. 150 © Universidad de Deusto - ISBN 978-84-9830-628-6 Efectivamente, calculada la fiabilidad siguiendo los mismo pasos anteriores pero tan sólo con v27, v28, v29, v31, v32 y v33 los resultados son: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .670 N de elementos 6 Estadísticos de los elementos Ver TV Cultura Educación deportiva Compasión Desarrollo Educ.Sexual Media 1.98 7.05 6.14 5.92 6.86 7.32 Desviación típica .747 2.342 2.298 2.248 2.339 1.839 N 87 87 87 87 87 87 Estadísticos total-elemento Ver TV Cultura Educación deportiva Compasión Desarrollo Educ.Sexual Media de la escala si se elimina el elemento 33.29 28.22 29.13 29.34 28.40 27.94 Varianza de la escala si se elimina el elemento 53.533 37.801 44.158 36.043 38.778 43.520 Correlación elemento-tot al corregida .280 .481 .252 .595 .443 .422 Alfa de Cronbach si se eleimina el elemento .674 .597 .685 .550 .613 .622 La fiabilidad de la subescala ha aumentado hasta 0.670 lo cual significa que, en efecto, varios ítems no aportaban prácticamente nada al sentido de la medición del resto de los ítems. Aunque en este caso no se da un gran aumento de fiabilidad, en otras ocasiones tal aumento sí es más notorio e importante lo cual sirve para determinar qué items deberán formar definitivamente la escala de medición y qué items no. Lógicamente, no siempre los items o variables eliminadas resultan inservibles o no aportan mediciones interesantes. Simplemente ocurre que no están conectadas/relacionadas con el resto de los ítems y, por tanto, miden cuestiones distintas de lo que miden los demás items. Por otra parte, hay una cuestión importante referida a cuántos ítems o variables deben/pueden ser eliminadas. La respuesta no puede ser concreta ni pueden darse cifras porque todo depende de la fiabilidad inicial de la escala o test, es decir de lo bien construida o elaborada que esté. Por ello, el número de ítems o variables eliminables suele ser por lo general bastante reducido. Debe mencionarse también la posibilidad de eliminar sujetos porque o bien han respondido de forma claramente aleatoria o porque sus respuestas son todas iguales o, incluso, porque utilizan demasiado el No Sabe/No Contesta codificado como cero en esa respuesta. Esta estrategia metodológica presenta el inconveniente de que puede alterarse la muestra de forma significativa si el número de los sujetos que no se quieren tener en cuenta son numerosos. 151 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 1 2. Con el fichero de datos “DROGODE.sav” y tomando las variables v9 a v21, realizar un estudio completo de la FIABILIDAD del test intentando aumentarla. Realizar también ese estudio completo de la fiabilidad del test para los Hombres que sean Poco Católicos. Obtener el máximo de conclusiones posibles. Algunas conclusiones numéricas relevantes: Para toda la muestra: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .919 N de elementos 13 Estadísticos de los elementos Txikitero Borracho-finsemana Heroína Porros-diario Cocaína Bebe-aguanta Científico Bohemio Tabaco Joven-colocarse Chica-coca-a veces Anfetaminas-examen Tranquilizantes Media 4.95 5.99 7.42 6.75 7.43 6.20 7.69 5.23 5.49 6.68 6.90 5.79 5.33 Desviación típica 2.061 1.947 1.739 1.615 1.774 1.924 1.684 1.949 1.978 1.703 1.735 1.851 2.065 N 101 101 101 101 101 101 101 101 101 101 101 101 101 152 © Universidad de Deusto - ISBN 978-84-9830-628-6 Estadísticos total-elemento Txikitero Borracho-finsemana Heroína Porros-diario Cocaína Bebe-aguanta Científico Bohemio Tabaco Joven-colocarse Chica-coca-a veces Anfetaminas-examen Tranquilizantes Media de la escala si se elimina el elemento 76.89 75.85 74.43 75.09 74.42 75.64 74.15 76.61 76.36 75.16 74.94 76.05 76.51 Varianza de la escala si se elimina el elemento 263.418 252.468 252.847 263.902 252.465 252.372 257.028 246.259 251.772 252.835 249.376 248.908 244.412 Correlación elemento-tot al corregida .406 .624 .705 .540 .696 .635 .648 .732 .624 .723 .775 .728 .715 Para Hombres Poco Católicos: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .927 N de elementos 13 Estadísticos de los elementos Txikitero Borracho-finsemana Heroína Porros-diario Cocaína Bebe-aguanta Científico Bohemio Tabaco Joven-colocarse Chica-coca-a veces Anfetaminas-examen Tranquilizantes Media 4.65 5.71 7.22 6.76 7.31 6.00 7.64 5.09 5.49 6.71 6.85 5.60 5.47 Desviación típica 2.075 1.921 1.812 1.478 1.794 1.953 1.603 2.021 1.942 1.685 1.592 1.852 2.124 N 55 55 55 55 55 55 55 55 55 55 55 55 55 153 © Universidad de Deusto - ISBN 978-84-9830-628-6 Alfa de Cronbach si se eleimina el elemento .924 .914 .911 .917 .912 .914 .913 .910 .914 .911 .909 .910 .911 Estadísticos total-elemento Txikitero Borracho-finsemana Heroína Porros-diario Cocaína Bebe-aguanta Científico Bohemio Tabaco Joven-colocarse Chica-coca-a veces Anfetaminas-examen Tranquilizantes Media de la escala si se elimina el elemento 75.85 74.80 73.29 73.75 73.20 74.51 72.87 75.42 75.02 73.80 73.65 74.91 75.04 Varianza de la escala si se elimina el elemento 271.904 263.533 258.914 273.527 261.052 266.625 264.372 255.989 262.166 262.163 260.971 258.640 246.665 Correlación elemento-tot al corregida .430 .616 .745 .613 .714 .552 .743 .705 .631 .745 .820 .732 .816 Alfa de Cronbach si se eleimina el elemento .931 .923 .918 .923 .919 .926 .919 .920 .923 .919 .917 .919 .915 Sintaxis para el Ejercicio 2 3. Con el fichero de datos “CITEC.sav” y tomando las variables v21 a v43, realizar un estudio completo de la FIABILIDAD del test intentando aumentarla. Realizar también ese estudio para los mayores de 40 años. Comparar resultados. Algunas conclusiones numéricas relevantes: Para toda la muestra: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .622 N de elementos 23 154 © Universidad de Deusto - ISBN 978-84-9830-628-6 Estadísticos de los elementos Media 2,04 3,56 2,80 3,56 2,30 2,74 3,25 3,21 2,49 2,45 3,49 2,24 3,34 3,36 3,99 3,89 2,03 3,07 2,82 2,30 1,61 3,62 2,17 Confortabilidad Medio ambiente Científicos peligrosos Recursos Futuro Ciencia-Fe 1ºsalud, después animales Progreso Trabajo más interesante Vida mejor Importa en vida diaria Cambio forma de vida Números dan suerte Nueva tecnologia Desarrollo industrial Más trabajo Gobierno debe financiar Productos Nuevas invenciones Economía competitiva Curar enfermedades Computers Beneficios Desviación típica 1,024 1,334 1,331 1,291 1,221 1,374 1,499 1,283 1,189 1,203 1,399 1,177 1,442 1,211 1,166 1,245 1,057 1,197 1,156 1,075 ,888 1,400 1,096 N 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 1021 Estadísticos total-elemento Confortabilidad Medio ambiente Científicos peligrosos Recursos Futuro Ciencia-Fe 1ºsalud, después animales Progreso Trabajo más interesante Vida mejor Importa en vida diaria Cambio forma de vida Números dan suerte Nueva tecnologia Desarrollo industrial Más trabajo Gobierno debe financiar Productos Nuevas invenciones Economía competitiva Curar enfermedades Computers Beneficios Media de la escala si se elimina el elemento 64,29 62,78 63,54 62,77 64,04 63,59 63,09 63,12 63,85 63,89 62,85 64,10 63,00 62,98 62,34 62,45 64,30 63,26 63,52 64,04 64,72 62,71 64,17 Varianza de la escala si se elimina el elemento 81.996 79.443 81.065 77.350 78.298 79.271 81.514 77.468 79.001 79.799 80.727 81.794 80.742 80.958 81.503 81.804 84.863 83.206 78.875 82.409 84.382 79.963 81.267 Correlación elemento-tot al corregida .202 .234 .165 .342 .324 .230 .112 .340 .301 .258 .163 .170 .153 .200 .186 .152 .041 .098 .320 .165 .099 .194 .218 Alfa de Cronbach si se eleimina el elemento .611 .607 .616 .594 .597 .608 .624 .594 .600 .605 .616 .615 .618 .611 .613 .617 .627 .623 .598 .615 .621 .612 .610 Para Mayores de 40 años: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .630 N de elementos 23 155 © Universidad de Deusto - ISBN 978-84-9830-628-6 Estadísticos de los elementos Media 2,07 3,38 2,71 3,41 2,35 2,52 3,18 3,12 2,54 2,39 3,12 2,16 3,22 3,20 3,86 3,86 2,17 3,03 2,77 2,37 1,68 3,37 2,19 Confortabilidad Medio ambiente Científicos peligrosos Recursos Futuro Ciencia-Fe 1ºsalud, después animales Progreso Trabajo más interesante Vida mejor Importa en vida diaria Cambio forma de vida Números dan suerte Nueva tecnologia Desarrollo industrial Más trabajo Gobierno debe financiar Productos Nuevas invenciones Economía competitiva Curar enfermedades Computers Beneficios Desviación típica 1,010 1,300 1,253 1,267 1,223 1,284 1,490 1,231 1,187 1,156 1,441 1,106 1,383 1,085 1,136 1,238 1,090 1,116 1,094 1,001 ,892 1,422 1,076 N 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 503 Estadísticos total-elemento Confortabilidad Medio ambiente Científicos peligrosos Recursos Futuro Ciencia-Fe 1ºsalud, después animales Progreso Trabajo más interesante Vida mejor Importa en vida diaria Cambio forma de vida Números dan suerte Nueva tecnologia Desarrollo industrial Más trabajo Gobierno debe financiar Productos Nuevas invenciones Economía competitiva Curar enfermedades Computers Beneficios Media de la escala si se elimina el elemento 62,58 61,27 61,94 61,24 62,30 62,13 61,47 61,53 62,11 62,26 61,53 62,50 61,43 61,45 60,79 60,79 62,48 61,62 61,88 62,28 62,97 61,28 62,46 Varianza de la escala si se elimina el elemento 77.949 78.473 78.592 75.184 73.858 77.359 79.058 74.281 74.265 75.804 78.257 77.956 78.285 79.845 80.112 80.025 80.119 81.454 77.517 78.984 80.461 77.931 78.058 Correlación elemento-tot al corregida .273 .159 .165 .321 .403 .214 .097 .379 .399 .332 .137 .238 .148 .145 .120 .103 .130 .056 .266 .216 .161 .155 .243 Alfa de Cronbach si se eleimina el elemento .613 .625 .624 .606 .596 .619 .635 .599 .597 .606 .629 .616 .627 .626 .629 .631 .627 .635 .613 .619 .624 .627 .616 Análisis para el Ejercicio 3 156 © Universidad de Deusto - ISBN 978-84-9830-628-6 4. Con el fichero de datos “ESCUEL.sav” y tomando las variables v5 a v33 realizar un estudio completo de la FIABILIDAD del test intentando aumentarla. Realizar también ese estudio para las mujeres comparando los resultados. Algunas soluciones numéricas relevantes: Para toda la muestra: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .906 N de elementos 29 Estadísticos de los elementos Conocerse Hablar Técnicas de Estudio Disfrutar Análisis-Síntesis Valorarse Capacidad de decisión Destrezas Manuales Trabajar en grupo Capacidad de crística Valentía Expresión corporal Métodos reljación Preguntas estúpidas "Pasar" Detectar engaños Escuchar Hacer algo difícil Errores Guerra nuclear Mundo Ciencia-Tec. Ver TV Cultura Educación deportiva Política Compasión Desarrollo Educ.Sexual Media 7.36 7.96 7.12 7.24 7.01 7.30 6.63 5.99 6.30 7.26 6.51 6.80 6.32 6.31 3.63 5.94 6.33 6.80 2.06 1.74 2.02 1.81 1.99 7.05 6.21 5.70 5.93 6.87 7.30 Desviación típica 2.264 1.732 2.257 2.199 2.372 2.138 2.189 1.991 2.301 2.440 2.159 2.473 2.314 2.206 2.270 2.581 2.288 1.987 .700 .730 .744 .768 .752 2.384 2.239 2.238 2.232 2.379 1.861 N 157 © Universidad de Deusto - ISBN 978-84-9830-628-6 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 84 Estadísticos total-elemento Conocerse Hablar Técnicas de Estudio Disfrutar Análisis-Síntesis Valorarse Capacidad de decisión Destrezas Manuales Trabajar en grupo Capacidad de crística Valentía Expresión corporal Métodos reljación Preguntas estúpidas "Pasar" Detectar engaños Escuchar Hacer algo difícil Errores Guerra nuclear Mundo Ciencia-Tec. Ver TV Cultura Educación deportiva Política Compasión Desarrollo Educ.Sexual Media de la escala si se elimina el elemento 160.13 159.52 160.37 160.25 160.48 160.19 160.86 161.50 161.19 160.23 160.98 160.69 161.17 161.18 163.86 161.55 161.15 160.69 165.43 165.75 165.46 165.68 165.50 160.44 161.27 161.79 161.56 160.62 160.19 Varianza de la escala si se elimina el elemento 904.332 919.843 890.934 895.732 876.951 877.939 898.678 945.723 886.277 871.647 894.698 903.686 933.803 932.582 936.630 896.781 892.494 913.180 962.874 976.358 962.179 972.968 967.747 917.767 928.611 954.676 905.623 879.781 913.843 Correlación elemento-tot al corregida .527 .555 .632 .612 .702 .779 .592 .257 .654 .719 .633 .480 .297 .324 .284 .503 .610 .533 .410 .094 .399 .159 .275 .400 .348 .155 .525 .678 .567 Para Mujeres: Análisis de fiabilidad Estadísticos de fiabilidad Alfa de Cronbach .878 N de elementos 29 158 © Universidad de Deusto - ISBN 978-84-9830-628-6 Alfa de Cronbach si se eleimina el elemento .902 .902 .900 .900 .898 .897 .901 .907 .900 .898 .900 .903 .907 .906 .907 .903 .900 .902 .905 .907 .905 .907 .906 .905 .906 .909 .902 .899 .902 Estadísticos de los elementos Conocerse Hablar Técnicas de Estudio Disfrutar Análisis-Síntesis Valorarse Capacidad de decisión Destrezas Manuales Trabajar en grupo Capacidad de crística Valentía Expresión corporal Métodos reljación Preguntas estúpidas "Pasar" Detectar engaños Escuchar Hacer algo difícil Errores Guerra nuclear Mundo Ciencia-Tec. Ver TV Cultura Educación deportiva Política Compasión Desarrollo Educ.Sexual Media 7.46 8.31 7.29 7.25 7.17 7.57 6.54 5.80 6.40 7.60 6.62 7.09 6.51 6.49 3.65 6.23 6.40 6.78 2.06 1.78 2.03 1.85 2.00 6.95 6.20 5.78 6.06 7.18 7.34 Desviación típica 2.092 1.249 2.141 2.208 2.028 1.750 2.201 1.906 2.269 1.998 2.044 2.220 2.187 2.130 2.204 2.454 2.290 1.883 .704 .739 .749 .795 .750 2.452 2.195 2.118 2.142 1.983 1.726 N 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 65 Estadísticos total-elemento Conocerse Hablar Técnicas de Estudio Disfrutar Análisis-Síntesis Valorarse Capacidad de decisión Destrezas Manuales Trabajar en grupo Capacidad de crística Valentía Expresión corporal Métodos reljación Preguntas estúpidas "Pasar" Detectar engaños Escuchar Hacer algo difícil Errores Guerra nuclear Mundo Ciencia-Tec. Ver TV Cultura Educación deportiva Política Compasión Desarrollo Educ.Sexual Media de la escala si se elimina el elemento 162.94 162.09 163.11 163.15 163.23 162.83 163.86 164.60 164.00 162.80 163.78 163.31 163.89 163.91 166.75 164.17 164.00 163.62 168.34 168.62 168.37 168.55 168.40 163.45 164.20 164.62 164.34 163.22 163.06 Varianza de la escala si se elimina el elemento 664.215 686.460 647.535 629.163 638.180 639.862 627.309 678.556 627.156 632.350 638.984 662.810 676.504 673.523 680.001 655.518 640.813 656.959 693.102 706.772 690.299 701.126 697.150 656.970 668.131 695.897 647.977 642.765 656.684 Correlación elemento-tot al corregida .362 .299 .509 .664 .637 .731 .684 .256 .662 .709 .623 .349 .231 .267 .198 .366 .531 .488 .377 .007 .425 .138 .249 .355 .305 .065 .504 .605 .542 Alfa de Cronbach si se eleimina el elemento .875 .876 .872 .867 .868 .867 .867 .878 .867 .867 .869 .876 .879 .878 .880 .876 .871 .872 .876 .880 .876 .878 .877 .876 .877 .883 .872 .869 .871 159 © Universidad de Deusto - ISBN 978-84-9830-628-6 Sintaxis para el Ejercicio 4 160 © Universidad de Deusto - ISBN 978-84-9830-628-6 BIBLIOGRAFIA 1. FRECUENCIAS Y DESCRIPTIVOS (MEDIAS, DESVIACIÓN TIPICA, ETC) CALVO, F. (1978). Estadística Aplicada. Bilbao: Ediciones Deusto CALVO, F. y SARRAMONA, J. (1983). Ejercicios de Estadística Aplicados a las Ciencias Sociales, Barcelona: CEAC. CASAS SÁNCHEZ, J. M., GARCÍA PÉREZ, C., RIVERA GALICIA, L. F. y ZAMORA SANZ, A. I.. (1998). Problemas de Estadística Descriptiva, Probabilidad e Inferencia. Madrid: Pirámide. COLL, S., GUIJARRO, M. (1998). Estadística aplicada a la historia y a las ciencias sociales. Madrid: Pirámide. FERNÁNDEZ CUESTA, C. y FUENTES GARCÍA, F. (1995). Curso de Estadística Descriptiva. Teoría y Práctica. Barcelona: Ariel. FERNÁNDEZ, M. J., GARCÍA, J. M.., et. al. (1992). Resolución de Problemas de Estadística Aplicada a las Ciencias Sociales. Madrid: Síntesis. GARCÍA BARBANCHO, A.. (1986), Estadística Elemental Moderna. Barcelona: Ariel. GOMEZ BARRANTES, M. (1998). Elementos de Estadística Descriptiva. Madrid: Editorial UNED. JUAN, J. et al. (2000). Problemas resueltos de estadística. Madrid: Síntesis. LÓPEZ DE LA MANZANARA, J. (1994), Problemas de estadística. Madrid: Pirámide. MARTÍN PLIEGO, F.,J. (2.004) Introducción a la Estadística Económica y Empresarial. Madrid: Thomson. MONTERO LORENZO, J.M. (2007). Problemas resueltos de estadística descriptiva para ciencias socides. Madrid: Thompson Paraninfo. MONTERO LORENZO, J.M. (2007). Estadística Descriptiva. Madrid: Thompson Paraninfo. NORTE CHECA, A. ( ). Estadística Teórica y Aplicada. Barcelona: PPU. PÉREZ SUÁREZ, R.. (1993). Análisis de datos económicos I. Métodos descriptivos. Madrid: Pirámide. PORTILLA (2004). Estadística Descriptiva para Comunicadores. Pamplona: Eunsa. PULIDO SAN ROMAN, A. (1992). Estadística y Técnicas de Investigación Social. Madrid. Pirámide. PEÑA, D., ROMO, J. (1994) Introducción a la estadística para las ciencias sociales. Madrid: Ed.: MacGraw Hill. QUESADA, V., ISIDORO A., LÓPEZ, L.A. (1989). Curso y Ejercicios de Estadística. Madrid: Alhambra TOMEO, V., UÑA, I. (1997). Doce Lecciones de Estadística Descriptiva. Madrid: AC. UÑA JUAREZ I., TOMEO PERUCHA V. (2.003) Lecciones de Estadística Descriptiva. Madrid: Thomson VILES, E. (2001). Estadística básica para universitarios. Pamplona: EUNSA WEINBERG, S. L., GOLDBERG, K.P. (1982). Estadística Básica para las Ciencias Sociales. México. Nueva Editorial Interamericana. 2. TABLAS DE CONTINGENCIA. ASOCIACIÓN ENTRE VARIABLES AGRESTI, A.(1984). Analysis of ordinal categorical dat. Nueva York: Jojn Wiley and Sons. AGRESTI, A.(1990). Categorical data analysis. Nueva York: Jojn Wiley and Sons. AMON, J.(1980). Estadística para psicólogos (vol.2). Madrid: Pirámide. CALVO, F. (1978). Estadística Aplicada. Bilbao: Deusto. 161 © Universidad de Deusto - ISBN 978-84-9830-628-6 COBO, E.(1986). El análisis de tablas de contingencia. Barcelona: Facultad de medicina. Univ. de Barcelona. COCHRAN, W. G. (1954). "Some methods for strengthening the common c2 tests". Biometrics, 10, 417-451. COCHRAN, W. G.(1950). "The comparison of percentages in matched samples". Biometrika, 37, 256-266. COCHRAN, W. G.(1952)."The c2 test of goodness of fit". Annals of Mathematical Statistics, 23, 315-345. COHEN, J. (1960). "A coefficient of agreement for nominal scales". Educational and Psychological Measurement, 20, 37-46. DAVIS, J. A. (1980). Contingency tables analysis: proportions and flow graphs. En J.Alt (ed.) ”Advanced in quantitative analysis”. Quantity and cuality, Vol.1. EVERITT, B. S. (1977). The analysis of contingency tables. Londres: Chapman and Hall. FIENBERG, S. E. (1980). The analysis of cross-classified categorical data. Cambribge: MIT Press. FISHER, R. A. (1924). "The conditions under which c2 measures the discrepancy between observations and hypothesis". Journal of the Royal Statistical Society, 87, 442-450. FLEISS, J. L.(1981). Statistical methods for rates and proportions. Nueva York: John Wiley and Sons. FRIEDMAN, M. (1937). "The use of ranks to avoid the assumption of normality implicit in the analysis of variance". Journal of the Amarican Statistical Association, 61, 1081-1096. GABRIEL, K. R. (1969). "Simultaneous test procedures: Some theroy of multiple comparisons". Annals of Mathematical Statistics, 40, 224-240. GAMES, P. A. y HOWELL, J. F. (1976). "Pairwise multiple comparison procedures with unequal n’s and/or variances: A Monte Carlo study". Journal of Educational Statistics, 1, 113-125. GOODMAN, L. A. y Kruskal, W. H.(1979). Measures of associaton for cross classifications. Nueva York: Springer-Verlag. GUILFORD, J. P. y FRUCHTER, B. (1984). Estadística aplicada a la Psicología y la Educación. México: McGraw-Hill. HABERMAN, S. J. (1973). "The analysis of residuals in cross-classification tables". Biometrics, 29, 205-220. KKENDALL, M. G. (1963). Rank correlation methods. Londres: Griffin. KENDALL, M. G. y BABINGTON-SMITH, B. (1939). "The problem of m rankings". The Annals of Mathematical Statistics, 10, 275-287. MANTEL, N. y BYAR, D. P. (1978). "Marginal homogeneity, symmetry and independence". Comm. Stat. Theor. Meth., A7, 953-976. McCULLAGH, P.(1980). Regression models for ordinal data. Journal of the Royal Statistical Society, 42, 109-142. McNEMAR, Q.(1947). Note on the sampling error of the difference between correlated proportions or percentages. Psycometrika, 12, 153-75. NEWMAN, D. (1939). The distribution of teh range in samples of a normal population, expressed in terms of an independent estimate of standard deviation. Biometrika, 31, 20-30. NEWMAN, J. y PEARSON, E. S. (1928). On the use and interpretation of certain test criteria for purposes of statistical inference (2ª parte). Biometrika, 20, 263-294. PAGANO, M. Y HALVORSEN, K. T. (1981). "An algoritm for finding the exact significance levels of R·C tables". Journal of the American Statistical Association, 76, 931-934. PALMER, A.L.(1999). Analisis de datos: etapa exploratoria. Madrid: Pirámide. PARDO, A. y SAN MARTIN, R. (1998). Análisis de datos en Psicología II. Madrid: Pirámide. RAO, J. K. y SCOTT, A.J. (1981). The analysis of categorical data from complex sample surveys: chi-squared test of goodness-of-fit and independence in two-way tables. Journal of the American Statistical Association, 76, 221-230. 162 © Universidad de Deusto - ISBN 978-84-9830-628-6 RINCON (Del), D. y OTROS. (1995). Técnicas de investigación en ciencias sociales. Madrid: Dykinson. RUDAS, T. (1998). Odds ratio in the analysis of contingency tables. California: Sage. RUIZ-MAYA, L. (1983). Métodos estadísticos de investigación. Madrid: I.N.E. RUIZ-MAYA, L. y Otros. (1990). Metodología estadística para el análisis de datos cualitativos. Madrid: ICO-CIR. SÁNCHEZ CARRION, J. J.(1995). Manual de análisis de datos. Madrid: Alianza. SLOANE, D. y MORGAN, P. (1996). "An introduction to categorical data analysis". Annual review of sociology, 351-374. SOMERS, R. H.(1962). "A new asymmetric measure of association for ordinal variables". American Sociological Review, 27, 799-811. SPEARMAN, C. (1904). "The proof and measurement of association between two things". American Journal of Psychology, 15, 72-101. TARONE, R. E.; GART, J. J. y HAUCK, W. W. (1983). "On the asymptotic relative efficiency of certain non-iterative estimators of a common relative risk or odds ratio". Biometrika, 70, 519522. THEIL, H. (1970). "On the estimation of relationships involving qualitative variables". American Journal of Sociology, 76, 104-154. WALLIS, W. A. (1939). "The correlation ratio for ranked data". Journal of the American Statistical Association, 34, 533-538. WICKENS, T. D. (1989). Multiway contingency tables analysis for the social sciences. New Jersey: Lawrence Erlbaum. YATES, F. (1934). "Contingency tables involving small numbers and the c2 test". Journal of the Royal Statistical Society, supplement 1, 217-235. 3. ANÁLISIS DE VARIANZA DE UN FACTOR Y DE DOS FACTORES. ARNAU, J. ( 1990). Diseños Experimentales Multivariables. Madrid: Alianza. BOX, G.E.P. (1954a). "Some theorems on quadratic forms applied in the study of analysis of variance problems: I. Effects of inequality of variance in the one-way classification". Annals of Mathematical Statistics, 25, 290-302. BOX, G.E.P. (1954a). "Some theorems on quadratic forms applied in the study of analysis of variance problems: II. Effects of inequality of variance and of correlation between errors in the two-way classification". Annals of Mathematical Statistics, 25, 484-498. BRESLOW, N. y DAY, N.E. (1980). Statistical methods in cancer researcher. Vol I: The analysis of case-control studies. Lyon: IARC. BRESLOW, N. y DAY, N.E. (1987). Statistical methods in cancer researcher. Vol II: The design and analysis of cohort studies. Lyon: IARC. BRYK, A.S. y RAUDENBUSH, S.W. (1988). Heterogeneity of variance in experimental studies: A challenge to conventional interpretations. Psychological Bulletin, 104, 396-404. COCHRAN, W. G. y COX, G. M.(1980). Diseños experimentales. México: Trillas. DAVIS, C.S. (2002). Statistical Methods for the análisis of repeated measurements. Springer DELADO, J. (1992). Algunos problemas básicos del análisis de varianza. Salamanca: Universidad de Salamanca. DUNCAN, D.B. (1955). "Multiple range and multiple F test". Biometrics, 11, 1-42. DUNN O, J. y CLARK, V. A.(1987). Applied statistics: analysis of variance and regression. Nueva York: John Wiley and Sons. DUNN, C. W. (1961). "Multiple comparison procedure for comparing several treatments with a control". Journal of the American Statistical Association, 56, 52-64. 163 © Universidad de Deusto - ISBN 978-84-9830-628-6 DUNNETT, C. W. (1955). "A multiple comparison procedure for comparing several treatments with a control". Journal of the American Statistical Association, 50, 1096-1121. DUNNETT, C. W. (1980). "Pairwise multiple comparison procedure for comparing several treatments with a control". Journal of the American Statistical Association, 75, 795-800. EDWARDS, A. L.(1985). Multiple regression and the analysis of variance and covariance. San Francisco: Freeman. EINOT, I. y GABRIEL, K. R. (1975). "A study of the powers of several methods of multiple comparisons". Journal of the American Statistical Association, 70, 574-583. FISHER, R. A. (1935). Statistical methods for research workers. Edimburgo: Oliver and Boyd . GIRDEN, E. R. (1992). ANOVA Repeated Measures. California: Sage. HAND, D. J. y TAYLOR, C. C. (1987). Multivariate analysis of variance and repeated measures. Londres: Chapman and Hall. HUITEMA, B. E. (1980). The analysis of covariance and alternatives. Nueva York: John Wiley and Sons. IVERSEN, G. R. y NORPOTH, H. (1976). Analysis of variance. Beverly Hills: Sage. KEULS, M. (1952). "The use of studentized range in connection with an analysis of variance". Euphytica, 1, 112-122. KIRK, R. E. (1982). Experimental design. Procedures for the behavioral sciences. Belmont, CA: Brooks/Cole. KLOCKARDS, A. J. (1986). Multiple comparisons. Londres: Sage. LEVENE, H. (1960). "Robust tests for the equality of variances". En J. Olkin (Ed.): Contributions to probability and statistics. Palo Alto, CA: Stanford University Press. LINDMAN, H. R. (1974). Analysis of variance in complex experimental designs. San Francisco: Freeman & Co. NARVAIZA, J. L. y OTROS. (2000). Estadística aplicada a la gestión y a las ciencias sociales. Análisis de la Varianza y de la Regresión. Bilbao: Desclee de Brouwer. NEWMAN, J. y PEARSON, E. S. (1928). On the use and interpretation of certain test criteria for purposes of statistical inference. Biometrika, 20, 263-294. RAO, C. R. (1973). Linear statistical inference and its applications. Nueva York: Wiley. RIBA, A.(1989). Modelo lineal de análisis de varianza. Barcelona: Herder. RYAN, T. A. (1960). "Significance test for multiple comparisons of proportions, variances and other statistics". Psychological Bulletin, 57, 318-328. SAN MARTIN, R. y PARDO, A. (1989). Psicoestadística. Contrastes paramétricos y no paramétricos. Madrid: Pirámide. SCHEFFE, H. A. (1953). "A method for judging all possible contrasts in the analysis of variance". Biometrika, 40, 87-104. SCHEFFE, H. A. (1959). The analysis of variance. Nueva York: Wiley. SHAPIRO, S. S. y WILK, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52, 591-611. SIDAK, Z. (1967). "Rectangular confidence regions for the means of multivariate normal distributions". Journal of the American Statistical Association, 62, 626-633. TAMHANE, A. C. (1977). "Multiple comparisons in model I one-way ANOVA with unequal variances". Communications in Statistics, A6(1), 5-32. TAMHANE, A. C.(1979). A comparison of procedures for multiple comparisons of means with unequal variances. Journal of the American Statistical Association, 74, 471-480. TEJEDOR, F. J. (1999). Análisis de varianza: introducción conceptual y diseños básicos. Madrid: Muralla. TUKEY, J. W.(1953). The problem of multiple comparisons. Ditto: Princeton University. WALD, A. y WOLFOWITZ, J. (1940). "On a test whether two samples are from the same population". Annals of Mathematical Statistics, 11, 147-162. WALLER, R.A. y DUNCAN, D. B. (1969). "A Bayes rule for the symetric multiple comparison problem". Journal of the American Statistical Association, 64, 1484-1503. 164 © Universidad de Deusto - ISBN 978-84-9830-628-6 WELSCH, B. L. (1938). "The significance of the difference between two means when the population variances are unequal". Biometrika, 29, 350-362. WELSCH, R. E.(1977). "Stepwise multiple comparison procedures". Journal of the American Statistical Association, 72, 566-575. WINER, B.J., BROWN, D.K. y MICHELS, K.M. (1971). Statistical Principles in Experimental Design. New York: McGraw-Hill. 4. ANALISIS DE REGRESIÓN MÚLTIPLE Y LINEAL ACHEN, C.H. (1982). Interpreting and using Regression. Beverly Hills: Sage. ARNOLD, S. (1981). The Theory of Linear Models and Multivariate Analysis. Nueva York: John Wiley & Sons. BERRY W.D. y FELDMAN, S. Multiple Regression in Practice. Beverly Hills: Sage. BIRKES, D. y DODGE, Y. (1993). Alternative methods of Regression. New York: John Wiley & Sons. BIRBAUM, I. (1981). An introduction to Causal Analysis in Sociology. London: McMillan Press. BUNKE, O. y OTROS. (1986). Statistical Inference in Linear Models. Vol I. Chichester: John Wiley & Sons. CALVO, F. (1991). Ejercicios Resueltos de Estadística con ayuda de Programas de Ordenador: SPSS, PROGSTAD y STATVIEW. Bilbao: Universidad de Deusto, Bilbao, 1991. CEHESSAT, R. (1975). Exercices Commentés de Statisque et Informatique Appliqués. Paris: Dunod. COHEN, J. y COHEN, P. (1983). Applied Multiple Regression/Correlation Analysis for the Behavior Sciences.New York: LEA. COOK, R.D. (1977). "Detection of influential observations in linear regression". Technometrics, 19, 15-18. DRAPER, N.R. and Smith, H. (1998). Applied Regression Analysis: New York, 3rd Edition: Wiley & Sons. HUTCHEDSON, G. y Sofroniu, N. (1999). The multivariate social scientist: introductory statistics using generalized linear models. Londres: Sage. KING, M. y GILES, D. (1985). Specification Analysis in the Linear Model. London: Routledge & Kegan Paul. MARAVALL, A. (1988). Two Papers on ARIMA Signal Extraction. Madrid: Banco de España. NETER, J. y WASSERMAN, W. (1974). Applied Linear Statistical Models, Regression, Analysis of Variance and Experimental Designs.Illinois: Irwin Homewood. PEDHAZUR, E. (1982). Multiple Regression in Behavioral Research. New York: Holt, Rinehart and Winston. RAO, C.R. (1983). Inferencia Estadística Lineal. Vitoria: Gobierno Vasco. RUIZ MAYA, L. (1989). Problemas de Estadística. Madrid: Ediciones AC. SCHRIVER, A. (1987). Theory of Linear and Integer Programming. Chichester: John Wiley & Sons. 4. FIABILIDAD DE LOS TEST AMERICAN PSYCHOLOGICAL ASSOCIATION, AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AND NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Standars for educational and psychological testing. DC: American Psychological Association. 165 © Universidad de Deusto - ISBN 978-84-9830-628-6 ANASTASI, A. (1988). Psychological Testing. New York: MacMillan Publishing Company. ANGOFF, W.H. (1982): “Use of difficulty and discrimination indices for detecting item bias”. En BERK, R.A. (Ed.) Handbook of methods for detecting item bias. Baltimore: John Hopkins University Press. BLISCHKE, W.R. and MURTHY, D.N.P. (2000). Reliability Modelling, Prediction and Optimization. Chichester: Wiley. CRONBACH, L.J. (1951): “Coeficient apha and the internal structure of tests”. Psycometrika.16. FULLER, W.A. (1987): Measuremnent error models. New York: Wiley. GUILFORD, J.P. (1956): Psycometric Methods. New York: McGraw-Hill. GUTTMAN, L. (1984): “Bases para elaborar escalas con datos cualitativos”. En SUMMERS, G.F. Medición de Actitudes. México: Trillas. HAMBLETON, R.K. y SWAMINATHAN, H. (1985): Item response theory: principles and applications. Boston: Kluwer-Nijhoff. HANEY, W. y MADAUS, S. (1991). “The evolution of ethical and technical standars for testing. En R.K. Hambleton y J.N. Zaal (Eds). Advances in educational and psychological testing: theroy and applications. Boston: Kluver Academic Publishers HOUGAARD, P (2000). Analysis of Multivariate Survival Data. Springer HOLLAND, P.W. y WAINER, H. (Eds) (1993). Differential item functioning. Hillsdale, NJ: LEA. KLINE, P. (1993): The Handbook of Psycological Testing”. Londres: Routledge. KNOTT, M. y BARTHOLOMEW, D.J. (1993): “Constructing measures with maximum reliability”. Psyhchometrika 58 (2). LICKERT, R. (1984): “Una técnica para medir actitudes”. En SUMMERS, G.F. Medición de Actitudes. México: Trillas. MUÑIZ, J. (1990): Teoría de respuesta a los ítems. Madrid: Pirámide. NUNNALLY, J. C. (1967). Psychometric Theory (Chapters 6 and 7). New York: McGraw-Hill Book Company. RICHARDSON, M.W. y KUDER, G.F.(1939): “The calculation of test reliability coefficients base upon the method of rational equivalence”. Journal of Educational Psychology. 30. SANTISTEBAN, C. (1.990): Psicometría. Teoría y práctica en la construcción de tests. Madrid: Norma. SERRANO, J. y Otros. (1995): “Aportaciones recientes en medición y evaluación educativas”. Revista de Investigación Educativa. 26. SINHA, S.K. (1986): Reliability and life testing. New York. Halsted. SUMMERS, G.F. (1984): Medición de Actitudes. México. Trillas. TRAUB, R.E. (1997). “Classical test theory in historical perspective”. Educational measurement: issues and practice. 16. TREVISAN, M.S. and Others (1994): “Estimating the optimum number of options per item using and incremental option paradigm”. Educational and Psycological Measurement. 54 (1). THERNEAU,T,M. and GRAMBSCH, P. ( 2000). Modeling survival data. Springer MANEJO Y USO DEL PROGRAMA ESTADÍSTICO: SPSS WINDOWS ALVAREZ CACERES, R.. (1995). Estadística multivariante y no paramétrica con SPSS. Aplicación a las ciencias de la salud. Madrid. Díaz de Santos, cop. BRYMAN, A. y CRAMER, D. (1997). Quantitative data analysis with SPSS for Windows: a guide for social scientists. Londres: Routlege. COORDSTON, R. y COOLMAN, A. (2000). A Crash Course in SPSS for Windows. Oxford: :Blackwell Publishers. DOMETRIUS, N. C.(1992). Social statistics using SPSS. Londres: Harper-Collins. 166 © Universidad de Deusto - ISBN 978-84-9830-628-6 FERRAN, M. (1996): SPSS para Windows. Programación y análisis estadístico. Madrid:McGrawHill. MEULMAN, J.J. and HEISER, W.J. (2004). SPSS Castegories 13.0. Chicago, IL: Spss Inc. NORUSIS. Marija J. (2005). SPSS 13.0 Statistical Procedures Companion. Chicago: SPSS, Inc. NORUSIS. Marija J. (2005). SPSS 13.0 Advanced Statistical Procedures Companion. Chicago: SPSS, Inc. PARDO MERINO, A.. (2002). SPSS 11. Guía para el análisis de datos. Madrid. McGraw-Hill. PARDO A. y RUIZ, M.A. (2002) SPSS 11 Guía para el análisis de datos. Mc Graw Hill PEREZ, C. (2001). Técnicas estadísticas con SPSS. Madrid: Prentice Hall. QUIROZ, G. y OTROS. (1987). SPSS Enfoque Aplicado. México: MacGraw-Hill. SÁNCHEZ CARRION, J.J. (1988). Introducción al Análisis de Datos con SPSS-PC(+). Madrid: Alianza Universidad Textos. SPSS Inc. (2005). SPSS 13.0. Base Users Guide. Prentice hall. SPSS Inc. (2005). SPSS 13.0 Regression Models. Prentice hall. SPSS Inc. (2005). SPSS 13.0 Student Version Chicago: SPSS, Inc. SPSS Inc.(2005). SPSS 14.0: SPSS Advanced Models, SPSS Categories, SPSS Complex Samples, SPSS Conjoint, SPSS Data Validation, SPSS Exact Tests, SPSS Maps, SPSS Missing Value Analysis, SPSS Regression Models, SPSS Tables, SPSS Trends, and SPSS Classification Trees VISAUTA VINACUA, B. (2001). Análisis Estadístico con SPSS para Windows. Madrid: McGrawHill. VOELKL, K. E. y GERBER, S. B. (1999). Using SPSS for Windows. Nueva York: Springer. 167 © Universidad de Deusto - ISBN 978-84-9830-628-6 CODIGOS DE INTERPRETACIÓN ENCUESTA-TEST EUROPEO DE CULTURA Y ACTITUDES Fichero: CITEC.sav SUJETOS = 1.021 VARIABLES = 43 VARIABLES DE IDENTIFICACION V1. V2. V3. V4. Numero de Encuesta Nación (En el Fichero el dígito que aparece es el 12=España) Peso de la representatividad de cada sujeto en dato numérico Edad (Recodificada) V5. Sexo V6. Use media (Grado de Información) 1. 15-24 años V7. V8. 1. Hombre 1. Alta 2. 25-39 años 3. 40-54 años 2. Mujer 2. Media 4. Más de 55 años 0. NS/NC 0. No Sabe/No contesta 3. Regular 4. Baja 0. NS/NC 4. Alta 0. NS/NC 4. Estudiante 0. NS/NC Leadership (Capacidad de liderazgo) 1. Baja 2. Regular 3. Media Años de Educación (Recodificada) 1. 15 o menos 2. 16-19 años 3. 20 o más ESCALA DE CONOCIMIENTOS CIENTIFICOS ATENCION: - Desde la V9. hasta la Var.20 la codificación es: 1. Acertado 2. No acertado V9. V10. V11. V12. V13. V14. V15. V16. V17. V18. V19. V20. The centre of the earth is very hot The oxygen we breathe comes from plantes Radioactive milk can be made safe by boiling it Electrons are samller than atoms The continents on which we live have been moving their location for millions of years and will continue to move in the future It is the father’s gene which decides whether the baby is a boy or a girl The earliest humans lived at the same time as the dinosaurs Antibiotics kill viruses as well as bacteria Lasers work by focusing sound waves All radioactivity is man-made Human beings, as we know them today, developed from earlier species of animals Does the earth go around the sun or does the sun go around the earth? 168 © Universidad de Deusto - ISBN 978-84-9830-628-6 Codigo de Resp. Acertada 1 1 1 1 2 1 2 1 2 2 1 1 ESCALA DE ACTITUDES ANTE EL DESARROLLO TECNOLOGICO ATENCION: - Desde la V21. hasta la V.43 la codificación es: 1. Muy de Acuerdo 2. De acuerdo 3. Indiferente 4. En desacuerdo 5. Muy en desacuerdo 0. NS/NC A) ESCALA DE CONTENIDO GENERAL V21. V22. V23. V24. V25. V26. V27. V28. V29. V30. V31. V32. Science and tecnology are making our lives healthier, easier and more comfortable Scientific and tchnological research cannot play an important role in protecting the environement and repairing it Because of their knowledge, scientific researchers have a power that makes them dangerous Thanks to scientific and technological advances, the Earth’s natural resources will be inexaustible Thanks to science and tchnology, there will be more oportunities for the future generations We depend too much on science and not enough on faith Scientifics should be allowed to do research that causes pain and injury to animals like dogs and chimpanzees if it can produce new information about serious human health problems Technological progrress will make possible higher levels of consumption and the same time, and unpolluted environement The application of science and new techonology, will make work more interesting Most scientitist want to work on things that will make life better for the average person For me, in my daily life, it is not important to know about science Science makes aour way of life change too fast B) ESCALA DE CONTENIDO PRÁCTICO V33. V34. V35. V36. V37. V.38. V39. V40. V41. V42. V43. Some numbers are especially lucky for some people New Technology does not depend on basic scientific research Scientific research does not make industrial products cheaper On balance, computers and factory automotion will create more jobs than they will eliminate Even if brings inmediate benefits, scientific research... is necessary and... supported by the governement Scientific and tchnological research do not play an important role in industrial development New inventions will always be found counterat any harmful consequences of scientific and technological development Only by applyiing the most modern technology can our economy become more competitive Scientific and technological progress will help to cure illness such as AID, cancer... Computers have made the use of bank services more compicated The benefits of science are greater then any harmful effects it may have 169 © Universidad de Deusto - ISBN 978-84-9830-628-6 ENCUESTA SOBRE LA CAMPAÑA : ”SEXUALIDAD SEGURA” FICHERO DE DATOS: CAMPAÑA.sav SUJETOS = 171 VARIABLES = 26 Estamos realizando un estudio sobre las opiniones que pueda suscitar la campaña “Sexualidad Segura”. Para ello, te agradeceríamos que contestaras a las siguientes preguntas Las siguientes frases hacen referencia a la campaña “Sexualidad Segura“. Lee cada frase y dí si estás : 5 - Muy de acuerdo con la frase. 4 - De acuerdo con la frase. 3.- Indiferente, no me dice nada la frase. . 2.- En desacuerdo con la frase. 1.- Muy en desacuerdo con la frase. V1. Es necesaria una asignatura en el colegio para explicar correctamente la sexualidad a los adolescentes....................................................................... 1 2 3 4 5 V2. El sexo aparece trivializado en la campaña................................................ 1 2 3 4 5 V3. Los católicos deben rechazar esta campaña............................................... 1 2 3 4 5 V4. Sería una irresponsabilidad del gobierno esconder la cabeza ante el hecho 1 2 3 4 5 de los embarazos no deseados y sus consecuencias.................................. V5. Esta iniciativa servirá para que muchos padres expliquen a sus hijos qué es un condón, las relaciones sexuales, las enfermedades sexuales, 1 2 3 4 5 etc.................................................................................................................... V6. Más necesaria que esta campaña es una buena educación sexual............ V7. La campaña fomenta la promiscuidad sexual y da a los jóvenes una falsa seguridad....................................................................................................... 1 2 3 4 5 V8. No se puede esperar comprensión o solidaridad de los obispos, cuando sólo admiten la castidad como método anticonceptivo............................. 1 2 3 4 5 V9. El condón no gusta a nadie, pero si de su uso se derivan beneficios, veo la razón de poner reparos................................................................................ 1 2 3 4 5 V10. Se hacen pocas campañas informativas...................................................... V11. La reacción de la Iglesia y de los sectores católicos ante la campaña, es sin duda poco realista, desproporcionada......................................................... V12. Con esta campaña se va a conseguir que cualquier chico que no tenga relaciones crea que es un pardillo................................................................ 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 V13. Es hora de usar imágenes y explicaciones claras y concisas, no 1 2 3 4 5 camufladas........................................................................................... V14. Estas campañas son necesarias porque la sociedad debe estar informada....................................................................................................... 170 © Universidad de Deusto - ISBN 978-84-9830-628-6 1 2 3 4 5 V15. La campaña sirve para distraer la atención de otros problemas más 1 2 3 4 5 urgentes.......................................................................................................... V16. La campaña me parece bien, porque se va a mejorar la higiene y la seguridad en las relaciones sexuales............................................................ V17. Con supuestas razones de higiene y salud pública, se trata de esconder un intento de fabricar un modelo de juventud............................................... V18. A mí me parece una iniciativa muy cuerda y muy oportuna, pero es una pena que se haga tan tarde......................................................................... V19. Con el nivel del SIDA y de abortos en adolescentes que España tiene, me parece una irresponsabilidad la crítica de esta campaña......................... V20. El lema “ póntelo - pónselo” no dice que se fornique sino que en caso de hacerlo se haga con seguridad.................................................................... V21. La solución de fomentar el uso del preservativo es de parche y muy a 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 corto plazo...................................................................................................... 1 2 3 4 5 V22. Esta campaña convierte el amor en mera atracción de cuerpos............... 1 2 3 4 5 V23. Respecto a las relaciones sexuales completas con personas del otro sexo , selecciona una opción de las siguientes : 1. Nunca he tenido 2. Sólo esporádicamente con la misma persona 3. Sólo esporádicamente con diferentes personas 4. De modo habitual y más o menos estable V24. ¿ Que estudios completados tienes? 1. Estudios básicos (ninguno , primarios y Bachiller elemental , EGB , y / o F.P.I graduado escolar) 2. Estudios medios (Bachiller superior , B.U.P, R E M , y / o F.P.II) 3. Estudios superiores ( Titulación media, Licenciatura o Doctorado) V25. En cuestión de religión te consideras 1. Muy buen/a católico/a 2. Católico/a practicante 3. Católico/a no muy practicante 4. Católico/a no practicante 5. Indiferente 6. Ateo 7. Creyente de otra religión 8. Otros V26. Número de Encuesta 171 © Universidad de Deusto - ISBN 978-84-9830-628-6 MENTALIDAD DE LA SOCIEDAD ANTE EL PROBLEMA DE LAS DROGAS FICHERO DE DATOS: DROGODE.sav SUJETOS = 111 VARIABLES = 33 V1. Número de encuesta . V2. Sexo 1. Hombre 2. Mujer V3. En materia religiosa, ¿cómo se considera usted? 1. No creyente 2. Muy católico 3. Poco católico V4. ¿Cual es su nivel de estudios ? (estudios acabados de mayor nivel) 1. Básicos 2. Medios 3. Universitarios V5. ¿Podría decirme qué edad tiene Ud.? 1. Menos de 25 años 2. Entre 26 - 35 años 3. Entre 36 - 45 años 4. Entre 46 - 55 años 5. Más de 56 años Dígame, por favor: según la puntuación de 1 a 9 (1= Nada toxicómano 9= Muy toxicómano) ¿qué opinión le merecen cada uno de estos casos? V6. El borracho que bebe excesivamente para olvidar las penas.. 1 2 3 4 5 6 7 8 9 V7. El chico que bebe esas cervezas de litro en la calle................. 1 2 3 4 5 6 7 8 9 V8. El yonki o persona que se droga diariamente........................... 1 2 3 4 5 6 7 8 9 V9. El txikitero de todos los días....................................................... 1 2 3 4 5 6 7 8 9 V10. El que se emborracha todos los fines de semana...................... 1 2 3 4 5 6 7 8 9 V11. El joven que consume heroína de vez en cuando..................... 1 2 3 4 5 6 7 8 9 V12. Una persona que fuma porros todos los días........................... 1 2 3 4 5 6 7 8 9 V13. Un agente comercial que consume cocaína a menudo para poder trabajar más.................................................................... 1 2 3 4 5 6 7 8 9 V14. El señor que bebe mucho, pero aguanta sin emborracharse.. 1 2 3 4 5 6 7 8 9 V15. Un científico ( médico , biólogo,...) que , como tiene heorína a mano , la consume a menudo por gusto................................. 1 2 3 4 5 6 7 8 9 V16. Un bohemio ( un Hippie , un artesano , un artista ) que 1 2 3 4 5 6 7 8 9 fuma porros de vez en cuando................................................... V17. Una señora que fuma más de un paquete de tabaco al día.... 1 2 3 4 5 6 7 8 9 V18. El joven que toma tranquilizantes para colocarse con los amigos.......................................................................................... 1 2 3 4 5 6 7 8 9 172 © Universidad de Deusto - ISBN 978-84-9830-628-6 V19. Una chica que consume cocaína de vez en cuando para animarse...................................................................................... 1 2 3 4 5 6 7 8 9 V20. Un estudiante, que consume anfetaminas en exámenes......... 1 2 3 4 5 6 7 8 9 V21. El ama de casa que toma normalmente tranquilizantes para dormir.......................................................................................... 1 2 3 4 5 6 7 8 9 Puntúe según la misma escala de 1 a 9 cada una de las siguientes razones por las que se puede llegar a consumir Alcohol. ALCOHOL OTRAS DROGAS Porque hay familias con muchos problemas, y alguno de sus miembros puede llegar a refugiarse en el alcohol (o en la droga).................................................................................................. V22. ----- ------ Porque no quieren responsabilidades, sólo quieren pasarlo bien y conocer cosas nuevas...................................................................... V23. V29. ----V24. ----V30. ----- ----- V25. V31. ----V26. ----V32. ----- ----- V27. V33. ----- ----- Porque no todos pasamos por las mismas circunstancias, muchas personas sufren mucho y se refugian en el alcohol................................................................................................. Por hacer lo mismo que hacen los amigos y compañeros, para poder alternar y no ser un raro....................................................... Porque hay gente que rechaza la hipocresía y las normas de esta sociedad y una forma de mostrar su rebeldía es consumiendo drogas.......................................................................... Porque son víctimas de la crisis social, que estamos viviendo: Paro, marginación, consumismo, falta de valores.......................... Puntúe según la misma escala de 1 a 9 cada una de las siguientes razones por las que se puede llegar a consumir Otras Drogas 173 © Universidad de Deusto - ISBN 978-84-9830-628-6 V28. LO QUE NO ME ENSEÑARON EN LA ESCUELA FICHERO: ESCUEL.sav SUJETOS = 117 VARIABLES = 36 V1 . Número de encuesta........... A continuación se exponen algunos temas que en mayor o menor medida “ no se enseñan en la escuela”. Valora Cada item de 1 a 9 , puntuando con 9 lo que más echas en falta ( es decir, lo que menos te han enseñado ) y con 1 lo que menos echas en falta ( lo que más te han enseñado) V2. Desarrollo de las capacidades artísticas ........................................ 1 2 3 4 5 6 7 8 9 V3. Conocer los derechos básicos ante las injusticias:Educ.Cívica ...1 2 3 4 5 6 7 8 9 V4. Vida sana, amor al propio cuerpo ................................................. 1 2 3 4 5 6 7 8 9 V5. Conocerse a sí mismo ...................................................................... 1 2 3 4 5 6 7 8 9 V6. Hablar en público ............................................................................ 1 2 3 4 5 6 7 8 9 V7. Técnicas de estudio.......................................................................... 1 2 3 4 5 6 7 8 9 V8. Disfrutar de la vida ......................................................................... 1 2 3 4 5 6 7 8 9 V9. Análisis síntesis ................................................................................ 1 2 3 4 5 6 7 8 9 V10. Valorarse a si mismo ..................................................................... 1 2 3 4 5 6 7 8 9 V11. Capacidad de decisión .................................................................. 1 2 3 4 5 6 7 8 9 V12. Destrezas manuales ....................................................................... 1 2 3 4 5 6 7 8 9 V13. Saber trabajar en grupo ............................................................... 1 2 3 4 5 6 7 8 9 V14. Capacidad de crítica ..................................................................... 1 2 3 4 5 6 7 8 9 V15. Valentía para enfrentarse (...) ...................................................... 1 2 3 4 5 6 7 8 9 V16. Baile , teatro,expresión corporal .................................................. 1 2 3 4 5 6 7 8 9 V17. Métodos de relajación ................................................................... 1 2 3 4 5 6 7 8 9 V18. No tener miedo de hacer preguntas estúpidas ............................ 1 2 3 4 5 6 7 8 9 V19. No comprometerse tanto (“pasar”) ............................................. 1 2 3 4 5 6 7 8 9 V20. Detectar los engaños...................................................................... 1 2 3 4 5 6 7 8 9 V21. Escuchar atentamente................................................................... 1 2 3 4 5 6 7 8 9 174 © Universidad de Deusto - ISBN 978-84-9830-628-6 V22. Elegir algo difícil y hacerlo bien .................................................. 1 2 3 4 5 6 7 8 9 V23. ”todos cometemos errores”.................................................................... 1 2 3 V24. Guerra Nuclear ...................................................................................... 1 2 3 V25. Conocer nuestro planeta ........................................................................ 1 2 3 V26. Ciencia y Tecnología .............................................................................. 1 2 3 V27. No pasarse la vida viendo televisión ..................................................... 1 2 3 V28. Cultura ........................................................................................... 1 2 3 4 5 6 7 8 9 V29. Política ............................................................................................ 1 2 3 4 5 6 7 8 9 V30. Compasión ..................................................................................... 1 2 3 4 5 6 7 8 9 V31. Educación físico deportiva ........................................................... 1 2 3 4 5 6 7 8 9 V32. Desarrollo de la afectividad .......................................................... 1 2 3 4 5 6 7 8 9 V33. Educación sexual ........................................................................... 1 2 3 4 5 6 7 8 9 V34. Sexo: 1.Hombre 2.Mujer V35. Clase social : 1.Clase social Alta 2.Clase social Media Alta 3.Clase social Media Baja 4.Clase Baja V36. Centro en el que estudió en BUP: 1.Colegio Privado 2.Instituto 175 © Universidad de Deusto - ISBN 978-84-9830-628-6 ENCUESTA DE SALUD ORGANICA Y PSICOSOCIAL FICHERO: SALUD.sav Sujetos = 222 Variables = 63 V1. ¿Cuál es su nivel de estudios? (Se refiere a estudios finalizados) 1 Analfabeto 2 Sin estudios(sabe leer y escribir) 3 Estudios primarios (EGB) 4 FP1, Bachiller elemental 5 FP2, Bachiller superior 6 Estudios superiores 7 Otros 0 NS/NC V2. ¿Abandonó Vd sus estudios? 1 No 2 Sí 0 NS/NC V3. ¿Cuántos años en total ha estado Vd estudiando, es decir, escolarizado? ____ Años V4. ¿Actualmente tiene Vd alguna actividad o tarea ocupacional? 1 No 2 Sí 0 NS/NC CONSUMO DE DROGAS TIPO DE DROGA Edad del primer Consumo último consumo regular Regular mes (*) Alcohol Tabaco Alucinógenos (LSD, Acidos) Opiáceos (Buprex) Cocaína Cannabis (Porro) Heroína Tranquilizantes (Transilium, Roinoles) Anfetaminas (Extasis, Estimulantes) V5. V7. V9. V6. V8. V10. V11. V12. V13. V15. V14. V16. V17. V19. V18. V20. V21. V22. (*) - Frecuencia de consumo de droga en el último mes: 0 1 2 3 4 NS/NC Ninguno Menos de una vez al mes Entre 1 y 3 veces al mes Una vez a la semana 5 Entre 2 y 3 veces por semana 6 entre 4 y 6 veces por semana 7 Una vez al día 8 Entre 2 y 3 veces al día 9 4 o más veces al día - Frecuencia de consumo de tabaco en el último mes 0 NS/NC 1 Menos de 10 cigarrillos 2 Entre 11 y 20 3 Más de 1 paquete 23. ¿Le han detenido alguna vez la policía por motivos distintos de los políticos o sindicales? 1 Sí 2 No 0 NS/NC 176 © Universidad de Deusto - ISBN 978-84-9830-628-6 24. ¿Cuánto tiempo ha cumplido condena en la cárcel en toda su vida? ____ Meses ESTADO DE SALUD PSICOPATOLOGICO Codificación V25-V52: 0 = NO AFECTADO 1 = SI AFECTADO 25. ¿Se ha sentido perfectamente bien de salud y en plena forma? 26. ¿Ha tenido la sensación de que necesitaba un reconstituyente? 27. ¿Se ha sentido agotado y sin fuerzas para nada? 28. ¿Ha tenido la sensación de que estaba enfermo? 29. ¿Ha padecido dolores de cabeza? 30. ¿Ha tenido sensación de opresión en la cabeza o que la cabeza le va a estallar? 31. ¿Ha tenido oleadas de calor o escalofríos? 32. ¿Sus preocupaciones le han hecho perder mucho sueño? 33. ¿Ha tenido dificultades para seguir durmiendo de un tirón toda la noche? 34. ¿Se ha notado constantemente agobiado y en tensión? 35. ¿Se ha sentido con los nervios a flor de piel malhumorado? 36. ¿Se ha asustado o ha tenido pánico sin motivo? 37. ¿Ha tenido la sensación de que todo se le viene encima? 38. ¿Se ha notado nervioso y a punto de explotar constantemente? 39. ¿Se las ha arreglado para mantenerse ocupado y activo? 40. ¿Le cuesta más tiempo hacer las cosas? 41. ¿Ha tenido la impresión en conjunto de que está haciendo las cosas bien? 42. ¿Se ha sentido satisfecho con su manera de hacer las cosas? 43. ¿Ha sentido que está jugando un papel útil en la vida? 44. ¿Se ha sentido capaz de tomar decisiones? 45. ¿Ha sido capaz de disfrutar de sus actividades normales de cada día? 46. ¿Ha pensado que Vd es una persona que no vale para nada? 47. ¿Ha venido viviendo la vida totalmente sin esperanza? 48. ¿Ha tenido el sentimiento de que la vida no merece la pena vivirse? 49. ¿Ha pensado en la posibilidad de "quitarse de en medio"? 50. ¿Ha notado que a veces no puede hacer nada porque tiene los nervios desquiciados? 51. ¿Ha notado que desea estar muerto y lejos de todo? 52. ¿Ha notado que la idea de quitarse la vida viene repetidamente a la cabeza? 53. Puntuación total desde la V.25 hasta V.52 (Suma de las respuestas1) 54. ¿Ha sufrido Hepatitis? 1 = SI 2 = NO 55. ¿El paciente está diagnosticado de SIDA? 1 = SI 2 = NO 56. Consumo medio de alcohol entre semana (Lunes a Jueves) ____ cc de Alcohol 57. Consumo medio de alcohol fin de semana (Viernes a Domingo) ____ cc de Alcohol 58. Consumo medio de alcohol por día ____ cc de Alcohol 177 © Universidad de Deusto - ISBN 978-84-9830-628-6 59. Sexo 1 Hombre 2 Mujer 0 NS/NC 60. ¿Cuál es el lugar de nacimiento? 1 Logroño 2 Resto Provincia 0 NS/NC 61 ¿Cuál es su estado civil actual? 1 Soltero 2 Casado 3 Viudo 4 Separado 5 Divorciado 0 NS/NC 62. En la actualidad está viviendo con... 1 Sus padres 2 Familia propia 3 En pareja 4 Solo 5 Otros familiares 6 Con otras personas 7 Otros 0 NS/NC 63. Número de Encuesta 178 © Universidad de Deusto - ISBN 978-84-9830-628-6 Serie Manuales didácticos Deusto Publicaciones Universidad de Deusto

Técnicas estadísticas de investigación social

Documentos relacionados

Productos

Apoyo

Técnicas estadísticas de investigación social

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib