DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S AUTORES: LUIS MANUEL LOZANO EMILIA INMACULADA DE LA FUENTE SOLANA 1. INTRODUCCIÓN Este texto tiene la intención de mostrar los diferentes pasos para elaborar un test. La intención del autor es mostrar los pasos que hay que seguir sin realizar excesivas disquisiciones teóricas. Por ello, este documento trata de ser eminentemente práctico. Para el lector interesado en las diferentes teorías para la elaboración de cuestionarios se le recomienda la lectura de Drowning y Haladyna (2006). © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA D I S E Ñ O Y VA L I D A C I Ó N DE CUESTIONARIOS1 2. TIPOS DE TEST Atendiendo a la finalidad con la que elabora el cuestionario pueden diferenciarse dos grandes grupos de test (Crocker y Algina, 1986; Cronbach, 1985; Muñiz, Fidalgo, García-Cueto, Martínez y Moreno, 2005; Nunally y Bernstein, 1995). Por un lado están los cuestionarios que pretenden evaluar el rendimiento máximo de las personas (ya sea en memoria, atención...) y por otro el rendimiento típico (donde tendrían cabida los cuestionarios de personalidad, actitudes...). Otra clasificación admisible diferencia entre Test Referidos al Criterio o Test Referidos a la Norma. Sobre estos últimos versará este capítulo. 1. Adaptación del capítulo, con el mismo nombre, publicado en el liibro: Pantoja, A. (Coord.) (2009). Manual básico para la realización de tesinas, tesis y trabajos de investigación (pp. 219-248). Madrid: Editorial EOS. [Esta adaptación ha sido realizada respetando la elaboración de los autores del texto original. Todos los derechos cedidos a FUNIBER]. 1 Y VA LID AC IÓ N D E CU EST IO NA RIO S 2.1. Tipos de test. Fuente: Elaboración FUNIBER, 2010. TEST REFERIDOS A LA NORMA Bajo esta denominación se agrupan todos los cuestionarios psicométricos que tratan de comparar a los sujetos entre sí. Se trata de ordenar a los sujetos en función de las puntuaciones que obtienen en los test, ya sean de personalidad, actitudes, aptitudes o de cualquier otro tipo. En este caso si decimos que Manuel Fernández tiene un percentil 95 estamos indicando que en la variable medida obtiene una puntuación tal que deja por debajo de sí al 95% de su grupo de referencia. Este tipo de test son los más frecuentes y son sobre los que versará este capítulo. Para este tipo de test todas las respuestas son válidas y correctas, el sujeto que responde sólo debe señalar la que mejor le define o la que más se ajusta a su conducta diaria. Figura 2: 2 Tests referidos a la norma. Fuente: Elaboración FUNIBER, 2010. FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Figura 1: © DISEÑO DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S 3. PASOS PARA LA ELABORACIÓN DE UN CUESTIONARIO 3.1. DEFINICIÓN DE LA VARIABLE MEDIDA © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Antes de comenzar con la labor de construir los ítems que forman un cuestionario un paso fundamental es definir operativamente la variable. El primer paso, por tanto, es definir con la máxima precisión posible el constructo que se quiere medir, ya que de esta forma estaremos en disposición de elaborar ítems que abarquen todo el espectro de la definición. Para realizar una buena definición de la variable a medir se debe acudir a las diferentes fuentes bibliográficas. También puede ser muy útil la ayuda de expertos en aquello que se quiera evaluar, a la hora de construir los ítems de un test. De no hacer esto, probablemente, se podrán hacer diferentes ítems que evalúen el constructo pero dejamos de lado partes relevantes, y difíciles de preguntar, del constructo en cuestión. Sin contar con el hecho de que nos puede indicar la correcta forma de redactar el ítem para que la población que queremos evaluar lo comprenda de forma correcta. 3.2. ELABORACIÓN DE ÍTEMS Una vez se ha definido aquello que se quiere medir se deben elaborar los ítems que lo evalúen. Pero, antes de redactar los ítems se deben responder a varias preguntas: ¿a quién se va a evaluar con el cuestionario?, ¿qué formato de respuesta van a tener los ítems? La respuesta de la primera pregunta es esencial para no cometer errores a la hora de redactar los ítems. En el caso de que no nos planteemos de antemano la población objetivo del cuestionario nos arriesgamos a elaborar preguntas que no van a ser entendidas, que van a ser malinterpretadas o que no van a poder ser contestadas. Otras variables a tomar en cuenta para determinar el número de ítems, así como para decidir la forma de redacción son: La edad de las personas que se va a evaluar (no se debe realizar la pregunta de la misma manera a adolescentes que a ancianos). El grado de instrucción alcanzado (¿saben leer las personas que vamos a evaluar?, ¿saben el significado de todas las palabras que componen los ítems?...). 3 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S El origen de las personas (¿es el idioma en el que realizamos el cuestionario la lengua madre de quien responde?). El nivel de desarrollo cognitivo de las personas (¿pueden trabajar con conceptos abstractos?...). Elaboración de un cuestionario. Fuente: Elaboración FUNIBER, 2010. © Figura 3: FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Las posibles minusvalías tanto físicas como psíquicas (¿puede escribir la respuesta?, ¿puede mantener la atención en preguntas largas?...). Para responder a la segunda pregunta existen multitud de formatos que pueden ser elegidos. Los más populares en los Test referidos a la norma son: - Adjetivos bipolares. El sujeto debe seleccionar uno de los adjetivos que se le presentan: Intrépido - Reflexivo - Las respuestas dicotómicas. Me gusta estar solo a) Sí. b) No. 4 DISEÑO - Y VAL ID ACIÓ N DE CUEST IO NAR IO S Las escalas tipo Likert. Me gusta estar solo 1. Nunca. 2. Pocas veces. 3. A veces. 4. Muchas veces. 5. Siempre. Si bien existen investigaciones (Muñiz, García-Cueto y Lozano, 2005) que recomiendan el uso de las escalas tipo Likert también para los test de personalidad. El motivo de esto, aparte de que se mejoran las propiedades psicométricas de los cuestionarios, es que permiten al sujeto matizar la respuesta. Si se analizan los ejemplos anteriores se puede apreciar que se fuerza al sujeto a definirse como intrépido o reflexivo, si prefiere estar solo o acompañado, pero no se le deja ninguna posibilidad de elegir opciones intermedias. En ocasiones una persona puede ser reflexiva y en otras situaciones intrépidas. En ciertos momentos se puede preferir estar solo y en otras estar rodeado de amigos. Al contrario de los formatos anteriores, las escalas tipo Likert sí dejan a la persona que responde al test ese margen de matización, lo que además revierte en el hecho de que responde a las preguntas de una forma más cómoda. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Tradicionalmente tanto el formato de adjetivos bipolares como el de respuesta dicotómica se emplean en test de personalidad y las escalas tipo Likert se emplean fundamentalmente en los test de actitudes. Me gusta estar solo: 1. Nunca. 2. Pocas veces. 3. A veces. 4. Muchas veces. 5. Siempre. Para construir de forma adecuada escalas tipo Likert, se deben seguir ciertas normas: - Sólo se puede preguntar una cosa en cada ítem. Los ítems en los que se les solicita a los sujetos que se posicionen en dos aspectos diferentes son incorrectos. 5 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S La construcción de colegios y los hospitales son fundamentales para el desarrollo del país. 1. Totalmente en desacuerdo. 2. En desacuerdo. 3. Posición neutra. 4. De acuerdo. 5. Totalmente de acuerdo. - La redacción de las preguntas debe ser clara y concisa. Se debe evitar cualquier tipo de redacción que pueda confundir a las personas que respondan el test (dobles negaciones, vocabulario excesivamente complejo para las personas que van a responder...). No puedo hacer nunca nada que no esté mal hecho. 1. Totalmente en desacuerdo. 2. En desacuerdo. 3. Posición neutra. © 4. De acuerdo. FUNDACIÓN UNIVERSITARIA IBEROAMERICANA En este caso nos podemos encontrar con personas que crean que sólo uno de ellos es necesario para el desarrollo del país, y por lo tanto no podrán responder adecuadamente al ítem. Para solucionar este problema se desdoblaría el ítem construyendo dos diferentes. En uno se preguntaría por las escuelas y en otro diferente por los hospitales. 5. Totalmente de acuerdo. Cuándo se responde que está Totalmente en desacuerdo ¿se sabe exactamente lo que se está respondiendo? Sin duda alguna requiere un serio esfuerzo para responder a la pregunta que no está en absoluto relacionado con el constructo medido. Con preguntas como la anterior se puede estar evaluando capacidad de comprensión lectora y no el rasgo que se pretende medir. - El enunciado debe ser coherente con el formato de respuesta. Se deben evitar incoherencias debidas a cómo se redacta la pregunta y la forma de redacción de las alternativas. Siempre me gusta estar rodeado de gente. 1. Nunca. 2. Pocas veces. 3. A veces. 6 DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S 4. Muchas veces. 5. Siempre. Como se puede observar no existe coherencia entre la forma en la que la pregunta se ha realizado y la forma en la que se debe responder a la misma. - Las alternativas de respuesta deben ser equidistantes. Debe existir la misma distancia entre la opción 5 y la 4 que entre la 4 y la 3. Me gusta estar solo. 1. Nunca. 2. A veces. 3. Muchas veces. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA 4. Siempre. No existe la misma distancia entre las alternativas 1 y 2 que entre la 2 y la 3. De esta forma estamos generando un sesgo que provoca que haya más opciones de respuesta en el lado positivo que en el negativo. - Existe mucha investigación en la que se debate cuál es el número de alternativas de respuesta más adecuado a la hora de elaborar una escala tipo Likert. Aunque ninguna proporciona un número exacto se suele recomendar entre 5 y 7 alternativas de respuesta (Lozano, 2004; Lozano, García-Cueto y Muñiz, 2008). El motivo de esta decisión es que se maximizan tanto la fiabilidad como la validez del test. Como se puede ver dentro de ese abanico de alternativas (de 5 a 7) cabe la posibilidad de elegir un número par o impar. Esa decisión debe tomarla el investigador. Elegir un número par implica no tener una alternativa intermedia (neutra) a la que los sujetos puedan acogerse cuando no tienen una opinión formada sobre lo que se les pregunta o simplemente no quieren decantarse. Por ello, en función de si se quiere forzar a responder o no se debe elegir una u otra. 7 Figura 4: 3.3. Escala tipo Likert. Fuente: Elaboración FUNIBER, 2010. ANÁLISIS DE LOS ÍTEMS Una vez se han construido los ítems estos deben ser aplicados a una muestra piloto – o de prueba - para poder comprobar que funcionan correctamente, que los sujetos entienden las instrucciones del cuestionario, la redacción de los ítems... De este modo se pueden corregir errores que invalidarían la aplicación del cuestionario a la muestra total. Dado que el paquete estadístico más frecuente es el SPSS2, los siguientes apartados se ejemplificarán usando el citado programa. Introducción de datos Lo primero que se debe saber es que las filas hacen referencia a los sujetos y las columnas a los ítems que componen la escala. La primera pantalla que se encontrará en el SPSS es la que se muestra en la figura 5. 2. Statistical Package for the Social Sciences (SPSS) es un programa estadístico informático muy usado en las ciencias sociales y las empresas de investigación de mercado. Existen múltiples versiones, y la más actualizada es SPSS for windows 18 (2009), en la que cambia su denominación de SPSS por PASW 18. No obstante, versiones anteriores son factibles de uso. (Nota FUNIBER, 2010). 8 FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Y VA LID AC IÓ N D E CU EST IO NA RIO S © DISEÑO © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA DISEÑO Figura 5: Y VAL ID ACIÓ N DE CUEST IO NAR IO S Editor de datos del SPSS. Para definir las variables se debe seleccionar la pestaña “Vista de variables”. En esta pantalla se pueden nombrar las variables, definir el tipo de medida que son, determinar el código que permitirá al programa tratar a valores como valores perdidos, señalar las etiquetas en el caso de variables nominales (1=hombre, 2=mujer)... La figura 6 refleja la pantalla que se obtiene al presionar “Vista de variables”. 9 Figura 6: Vista de variables. Análisis del índice de discriminación o de homogeneidad de los ítems Como se ha visto anteriormente en los test referidos a la norma lo que pretendemos es escalar a las personas. Por ello es de esperar que los ítems que componen un test sean capaces de diferenciar entre las personas que obtienen una puntuación alta en el test y los que obtienen una puntuación baja. Es decir, si se pretende conocer la conducta prosocial de una persona y se le plantea un ítem: Robaría y pegaría a un niño perdido. 1. Totalmente en desacuerdo. 2. En desacuerdo. 3. Posición neutra. 4. De acuerdo. 5. Totalmente de acuerdo. Se estaría empleando un ítem que, es esperable, no diferencia entre las personas con alta y con baja conducta prosocial, ya que para realizar la conducta presentada en el 10 FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Y VA LID AC IÓ N D E CU EST IO NA RIO S © DISEÑO DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S ítem hay que tener un nivel en la variable medida nula. Es decir, la pregunta es tan extrema que difícilmente se encontrará a alguien que responda favorablemente al ítem. El índice de discriminación u homogeneidad se puede definir como la correlación entre la puntuación obtenida en el ítem y la obtenida en el test. De la puntuación total en el test se debe eliminar la parte que corresponde al ítem, ya que si no se hace esto se estaría aumentando artificialmente la correlación entre ambas puntuaciones. Para realizar este análisis con el SPSS se deben seguir los siguientes pasos: Analizar → Escalas → Análisis de fiabilidad. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Una vez seguidos los pasos anteriores, se deben seleccionar los ítems que quieren ser analizados pasándolos (usando para ello la flecha) al apartado Elementos. Posteriormente se debe seleccionar Estadísticos solicitando Escala si se elimina el elemento (tal y como se presenta en la figura 7). Figura 7: Cálculo del Índice de Discriminación de los ítems. Tras Continuar y Aceptar la salida que se obtiene será muy parecida a la que aparece en la tabla 1. 11 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S ESTADÍSTICOS TOTAL-ELEMENTO 01 02 03 04 05 06 07 08 09 Correlación elementototal corregida 15,73 16,32 16,78 17,24 16,09 16,18 16,93 15,97 16,43 21,925 19,316 21,667 23,157 20,196 19,118 21,644 20,178 21,948 ,385 ,460 ,372 ,324 ,413 ,361 ,399 ,378 ,300 Índice de discriminación de los ítems. Para estudiar el índice de discriminación de los ítems se debe observar la columna Correlación elemento-total corregido. Se deben eliminar aquellos ítems que tengan un índice de discriminación inferior a 0,20. Los puntos de corte fueron propuestos por Ebel (1965) y se presentan en la tabla 2. VALORES Tabla 2. INTERPRETACIÓN Igual o mayor que 0,40 El ítem discrimina muy bien Entre 0,30 y 0,39 El ítem discrimina bien Entre 0,20 y 0,29 El ítem discrimina poco Entre 0,10 y 0,19 Ítem límite. Se debe mejorar Menor de 0,10 El ítem carece de utilidad para discriminar Interpretación del índice de discriminación. Como se puede apreciar todos los ítems del ejemplo tienen un índice de discriminación superior a 0,20 (el más bajo tiene un valor de 0,30), por lo que no se debe eliminar ninguno de ellos. En el caso de que el valor de alguno fuese inferior a 0,20 se debería eliminar y volver a realizar el análisis. Fiabilidad El problema de la fiabilidad afecta a todas las ciencias. Cuando aplicamos un test nos debe preocupar qué cantidad de error cometemos a la hora de calcular la puntuación. Precisamente ese aspecto es el que se aborda desde la fiabilidad. 12 FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Tabla 1. Varianza de la escala si se elimina el elemento © Ítem Ítem Ítem Ítem Ítem Ítem Ítem Ítem Ítem Media de la escala si se elimina el elemento DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Existen dos posibles definiciones de la fiabilidad de un cuestionario. Por un lado está la de “estabilidad en la medida”. Según esta definición un test es fiable si obtenemos la misma puntuación en dos aplicaciones diferentes del mismo test o de dos test paralelos (para profundizar más en el concepto de test paralelos acudir a Muñiz, 2002 o GarcíaCueto, 1993). Según esta definición, para calcular la fiabilidad sólo es necesario calcular el coeficiente de correlación de Pearson entre las puntuaciones obtenidas en ambas aplicaciones. El principal inconveniente de este método para calcular la fiabilidad es precisamente la necesidad de aplicar el cuestionario dos veces. Esto conlleva el riesgo de que las personas que han respondido recuerden lo que contestaron y por lo tanto la segunda vez respondan en función de lo que pusieron en la primera aplicación. Para solucionar este problema se puede demorar más tiempo la segunda aplicación del cuestionario, pero entonces se corre el riesgo de no poder reunir de nuevo a todos los miembros a los que se les realizó la primera aplicación perdiendo sujetos que sí se tendrían si sólo se tuviese que realizar una única aplicación (mortandad experimental). La segunda definición que se puede realizar de fiabilidad es “consistencia interna entre dos mitades aleatorias de un test”. Siguiendo esta lógica se debería dividir un test en dos partes aleatorias y calcular el coeficiente de correlación de Pearson entre las puntuaciones obtenidas en ambas partes por los sujetos, corrigiéndola posteriormente mediante Spearman-Brown (cualquier texto de psicometría explica este procedimiento en detalle). Si en vez de calcular la consistencia entre dos mitades aleatorias de un cuestionario, se calcula la consistencia entre todos los ítems que componen el cuestionario, también se está calculando la fiabilidad del test. Lo único que se estaría haciendo es saber hasta qué punto todos los ítems que componen el test están midiendo lo mismo. Basándose en esta idea Cronbach (1951) propone otra forma de acercarse a la fiabilidad, el coeficiente α. Para calcular el coeficiente alfa mediante el SPSS, se deben seguir las siguientes instrucciones Analizar → Escalas → Análisis de fiabilidad (al igual que cuando se estudia el índice de discriminación de los ítems). Una vez hemos obtenido el desplegable, sólo se deben introducir los ítems del cuestionario en la casilla de Elementos, tal y como se aprecia en la figura 8. 13 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S Figura 8: Análisis de fiabilidad mediante el coeficiente alfa. Tabla 3. Alfa de Cronbach N de elementos ,695 9 Resultado del coeficiente de fiabilidad. Tal y como se puede apreciar en este ejemplo el coeficiente de fiabilidad es de 0,695. El coeficiente de fiabilidad oscila entre 0 y 1, comenzando a ser aceptables valores superiores a 0,80. Por ello el valor que se obtiene se puede considerar bajo, siendo necesario incrementar el número de ítems (ya que sólo son 9 ítems los que se analizan) para incrementar la fiabilidad del test. Otra forma de incrementar la fiabilidad del cuestionario es modificar el número de alternativas de respuesta de una escala tipo Likert. Cuanto mayor sea el número de alternativas mayor será la varianza que se genere, incrementando de este modo la fiabilidad del cuestionario (Lozano, García-Cueto y Muñiz, 2008, Muñiz, García-Cueto y Lozano, 2005). A la hora de aumentar el número de alternativas hay que tener en cuenta que no se puede superar la capacidad discriminativa de los sujetos. Es decir, el número de alternativas debe estar muy relacionado con las características de la muestra a la que se le va a aplicar el cuestionario. Un estudiante universitario puede diferenciar perfectamente en una escala de 0 a 10 puntos (intervalo en el que se califica a los estudiantes), pudiendo distinguir entre un 6 y un 7. Por el contrario una persona sin estudios puede tener más problemas a la hora de diferenciar entre un 6 y un 7 si no está acostumbrada a trabajar en dicha escala. Por ello, como norma general, no es recomendable superar las 7 alternativas de respuesta cuando se trate de evaluar población general. 14 © ESTADÍSTICOS DE FIABILIDAD FUNDACIÓN UNIVERSITARIA IBEROAMERICANA El coeficiente de fiabilidad que se obtiene en el ejemplo se puede observar en la tabla 3. DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S Tal y como se dijo anteriormente, la fiabilidad del cuestionario evaluada mediante el coeficiente alfa, es consistencia interna. Por ello, al calcular la fiabilidad de un cuestionario se debe hacer para cada factor por separado (en el siguiente apartado se introduce el concepto de factor y análisis factorial), ya que, de no hacerlo así, se estarían obteniendo valores más bajos de la fiabilidad del cuestionarios sólo por el hecho de estar analizando conjuntamente dimensiones que están midiendo aspectos diferentes. Validez © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Empleamos los cuestionarios para poder realizar inferencias sobre la conducta de las personas. Cuando se comprueba la validez de un cuestionario, lo que realmente se está realizando es garantizar la pertinencia de tales inferencias (Muñiz, 2002). Existen múltiples definiciones de validez, pero todas ellas con un claro denominador común “un test es válido si mide aquello para lo que fue creado”: • “Podemos definir la validez de un test como el grado con el que mide o predice cualquier criterio de interés” (Lord y Novick, 1968). • “Un test es válido si mide lo que pretende medir” (Allen y Yen, 1979). • “Un test es válido si sirve para lo que con él se pretende” (Yela, 1987). • “Un test, como cualquier otro instrumento de medida, es válido si sirve para medir adecuadamente aquello para lo que fue pensado como instrumento de medida” (García-Cueto, 1993). Existen diferentes tipos de validez, lo que lleva asociado la necesidad de realizar una clasificación. La que se presenta a continuación si bien no es la única es la más extendida: • Validez de contenido: hace referencia al punto en que los ítems de un cuestionario son una muestra representativa del contenido o contenidos que se pretende evaluar. Un test tendrá una buena validez de contenido si sus ítems cubren correctamente todo el espectro de la conducta que se trata de evaluar. El paso imprescindible para poder asegurarse de que el test posee una adecuada validez de contenido es realizar una correcta revisión bibliográfica. De este modo se asegurará de conocer todos los aspectos relevantes sobre los que realizar los ítems. Para demostrar esta validez hay que recurrir a expertos en la temática evaluada por el cuestionario que nos señalen que todas las dimensiones del constructo han sido evaluadas. 15 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S • Validez predictiva: hace referencia hasta qué punto se pueden emplear las puntuaciones obtenidas en el cuestionario para predecir conductas futuras. Un test tendrá una correcta validez predictiva si el cuestionario sirve para predecir correctamente conductas futuras. • Validez de constructo: hace referencia a la recogida de evidencia empírica que garantice la existencia de un constructo psicológico (Cronbach y Meehl, 1955). Es decir, trata de comprobar qué constructos está evaluando un test. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Cada una de estas categorías está compuesta a su vez por múltiples tipos de subcategorías. Para el lector interesado en profundizar más se le recomienda la lectura de Muñiz (2002), García-Cueto (1993) y la lectura más especializada Messick (1996). En este capítulo sólo se hará referencia a la validez de constructo, ya que es la más frecuentemente comprobada en la literatura científica. Figura 9: Análisis de los ítems. Fuente: Elaboración FUNIBER, 2010. Validez de constructo Dentro de esta validez se pueden diferenciar a su vez dos subtipos; la validez convergente-discriminante y la validez factorial. Dentro de la validez convergente-discriminante se evalúa la validez convergente como la correlación alta con otros test que midan lo mismo que se pretende medir con el cuestionario elaborado, aunque se hayan realizado por diferentes métodos. Para evaluar la validez divergente se deben obtener correlaciones bajas con otros cuestionarios que 16 DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S evalúan diferente constructo aunque sea por medio del mismo método. La matriz en la que se representan estas correlaciones se denomina matrices multirrasgo-multimétodo. Como se puede apreciar, para realizar esta matriz sólo es necesario realizar correlaciones. Mediante el SPSS sólo se debe seguir el siguiente procedimiento: Analizar → Correlaciones → Bivariadas A continuación se representa una matriz multirrasgo-multimétodo en la que se correlaciona el test que se está elaborando sobre depresión infantil (Depresión 1) con otro cuestionario que ya está en el mercado pero en el que se pregunta a los padres en vez de responder el propio niño (Depresión 2). Asimismo se correlaciona el test con otros de habilidades sociales (Habilidades 1 y Habilidades 2) en el que se pregunta al niño y a los padres respectivamente. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA DEPRESIÓN 1 DEPRESIÓN 2 HABILIDADES 1 DEPRESIÓN 1 0,900 DEPRESIÓN 2 0,773 0,880 HABILIDADES 1 0,003 0,004 0,890 HABILIDADES 2 0,000 0,001 0,790 Tabla 4. HABILIDADES 2 0,900 Matriz Multirrasgo-Multimétodo. Como se puede apreciar, la diagonal principal (en negrita) es la correlación del test consigo mismo (obviamente en dos aplicaciones diferentes), es decir, es la fiabilidad de cada uno de los test. La correlación entre los test que evalúan depresión es alta (0,773) lo que indica que el cuestionario tiene una buena validez convergente. Al tener bajas correlaciones con los test de habilidades sociales (0,003 y 0,000 respectivamente) también se puede defender que el test que se está realizando tiene una buena validez divergente. Así pues se puede afirmar que el test tiene una adecuada validez de constructo. El inconveniente principal de este método es el hecho de tener que aplicar varios cuestionarios, e incluso aplicarlos dos veces (para poder obtener los valores de la fiabilidad, la diagonal principal). Por ello el método más empleado para comprobar la validez de constructo es la validez factorial, ya que sólo requiere una aplicación del cuestionario al que se le está comprobando la validez. 17 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S Para comprender el significado de la validez factorial en primer lugar es necesario comentar la técnica estadística que se emplea, el Análisis Factorial. A un nivel casi profano, se puede decir que esta técnica tiene como objeto agrupar los ítems en función de sus correlaciones. Es esperable que los ítems que miden lo mismo tengan altas correlaciones entre sí, agrupándose estos ítems como un factor. Así pues, puede decirse que un test tiene validez factorial cuando al observar que los ítems elaborados para medir una dimensión se agrupan diferenciándose de otros ítems destinados a evaluar otra dimensión diferente. Para poder realizar un Análisis Factorial con el SPSS se deben seguir los siguientes pasos: Analizar → Reducción de datos → Análisis Factorial © La pantalla que nos ofrece el programa es la que se ofrece en la figura 11. FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Figura 10: Validez de constructo. Fuente: Elaboración FUNIBER, 2010. Figura 11: Análisis Factorial. 18 DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S En esta situación se deben seleccionar los ítems que se quieran analizar (usualmente todo el cuestionario) y pasarlos a la ventana de variables. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Como se dijo anteriormente el análisis factorial requiere que las variables estén intercorrelacionadas. Para comprobarlo se emplea el test de esfericidad de Bartlett, que somete a prueba la hipótesis nula de que las correlaciones entre las variables son cero. Otra medida que nos permite saber si es adecuada la realización del análisis factorial es el índice de Kaiser-Mayer-Olkin (KMO). Cuanto más próximo esté a 1, más aconsejable resulta la utilización del análisis factorial, indicando los valores inferiores a 0,5 que dicha prueba no es adecuada. Para calcular estas pruebas en el menú anterior se debe seleccionar la opción de Descriptivos, obteniendo una ventana como la que se muestra a continuación (figura 12). En dicha ventana se debe seleccionar la opción de KMO y prueba de esfericidad de Bartlett. Figura 12: KMO y prueba de esfericidad de Bartlett. El siguiente paso es la selección del método de extracción de factores. Los más frecuentes son Componentes (si bien entonces no se habla de análisis factorial si no de análisis de componentes), Ejes Principales y Máxima Verosimilitud. Las diferencias entre los diferentes métodos supera la intención de este capítulo por lo que al lector interesado en las diferencias entre los tipos de extracción se le recomienda el libro de Ferrando (1993). 19 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S Cuando se obtienen dos o más dimensiones, conviene utilizar algún tipo de rotación (por defecto el SPSS no utiliza ninguna rotación) que clarifique la interpretación de los factores. Para determinar qué rotación se desea realizar hay que desplegar la opción de Rotación que aparece en la figura 11, obteniéndose un menú como el que aparece en la figura 14. Figura 14: Método de Rotación en el Análisis Factorial. 20 © También se debe determinar cuál es el número de factores que se quiere retener, es decir, cuántos factores se quieren obtener (pueden extraerse tantas dimensiones como ítems compongan el cuestionario). La opción que el SPSS tiene programada por defecto la opción de extraer autovalores mayores que uno (criterio de Kaiser), que es el que aparece señalado en la figura 13. Otra alternativa es señalar el número de factores que se quieren extraer con independencia del autovalor (varianza de cada dimensión). Otro procedimiento utilizado para determinar cuántas dimensiones hay que extraer es el estudio del gráfico de sedimentación (también aparece señalado en la figura 13). Usualmente se realiza primero un análisis factorial para comprobar en el gráfico de sedimentación cuántas dimensiones se pueden extraer y posteriormente se fuerza al SPSS a que extraiga tantas dimensiones como indica el gráfico. FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Figura 13: Método de extracción en el Análisis Factorial. DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S Existen diversos métodos de rotación. Los más utilizados son la rotación ortogonal “Varimax” y la rotación oblicua “Oblimin”. Si se emplea el método Varimax, se respeta la ortogonalidad de los factores, es decir, la independencia de los factores. Mediante este método se trata de obtener coeficientes lo más altos posibles en una dimensión y bajos en la otra. Por el contrario, mediante la rotación Oblimin las dimensiones que se obtengan no serán independientes sino que tendrán algún tipo de relación entre ellas. Es el psicólogo el que debe determinar si las dimensiones pueden estar relacionadas o no y por tanto emplear una rotación u otra. Tras realizar todos estos pasos, ya se puede comenzar con el Análisis Factorial. Entre los resultados que aporta el SPSS hay que destacar en primer lugar la prueba de esfericidad de Bartlett y el KMO (ver tabla 5). KMO Y PRUEBA DE BARTLETT © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Medida de adecuación muestral de Kaiser-Meyer-Olkin Prueba de esfericidad de Bartlett Tabla 5. ,956 Chi-cuadrado aproximado 28561,255 gl 1225 Sig. ,000 Prueba de esfericidad y KMO. Como se puede apreciar en la tabla 5, tanto el valor de KMO (0,956) como la prueba de Bartlett (p<0,001) indican que se cumplen las condiciones necesarias para realizar un Análisis Factorial. En segundo lugar se debe saber cuántos factores se deben extraer. Para ello se puede utilizar el Gráfico de Sedimentación (figura 15). 21 Figura 15: Gráfico de Sedimentación. La forma de interpretar esta figura es la siguiente. En el eje horizontal están los factores (tantos como ítems tenga el cuestionario), y en el eje vertical el autovalor de cada uno de ellos. El criterio para determinar cuántas dimensiones retener es analizar el gráfico de derecha a izquierda, observar donde cambia de forma brusca la pendiente y retener los factores a partir de ese punto. Como se puede apreciar en la figura 15, la pendiente cambia bruscamente en el 2º factor, por lo que sólo hay una única dimensión en este cuestionario. Al concluir que sólo hay una única dimensión, se deben repetir todos los pasos anteriores para realizar el análisis factorial pero en este caso pidiendo que se extraiga sólo un único factor (esto se programa en la figura 13). En la tabla 6 se muestran los autovalores de cada componente y el porcentaje de varianza total que explica la dimensión extraída. Como se puede observar, la dimensión extraída explica el 26,68% de la varianza total generada por todos los ítems que componen el cuestionario. 22 FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Y VA LID AC IÓ N D E CU EST IO NA RIO S © DISEÑO DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S VARIANZA TOTAL EXPLICADA Sumas de las saturaciones al cuadrado de la extracción Autovalores iniciales Factor 1 2 3 4 5 6 7 8 9 10 % de la varianza % acumulado 13,340 2,170 1,723 1,566 1,406 1,280 1,255 1,210 1,118 1,003 26,679 4,339 3,445 3,132 2,811 2,559 2,510 2,420 2,236 2,005 26,679 31,019 34,464 37,596 40,408 42,967 45,477 47,897 50,133 52,138 Total % de la varianza % acumulado 12,607 25,214 25,214 Varianza total explicada por el factor. Una vez que se sabe que sólo existe una dimensión, se puede apreciar el orden de importancia de los ítems dentro del factor (ver tabla 7). Así en este ejemplo el ítem más importante es el 5 seguido por el 10 y así sucesivamente. MATRIZ FACTORIAL Factor 1 © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Tabla 6. Total v5 v10 v7 v2 v3 v1 v8 v4 v9 v6 Tabla 7. ,488 ,462 ,452 ,443 ,443 ,440 ,430 ,397 ,376 ,359 Matriz factorial. Cuando se extraen dos o más factores, la tabla que hay que analizar en los resultados es la Matriz de Configuración, en la que nos indicará a qué dimensión pertenece cada ítem. En estos casos la asignación es muy simple, el ítem se va al factor en el que tenga un valor numérico (en valor absoluto) más alto. 23 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S Una vez que se sabe en qué dimensión se han agrupado los diferentes ítems le corresponde al investigador analizar con detenimiento si la agrupación tiene sentido o no. Es decir, le corresponde interpretar qué es lo que se está midiendo con ese factor. Si la dimensión o las diferentes dimensiones miden aquello para lo que fueron elaborados los ítems, se puede defender que el cuestionario tiene Validez Factorial y por tanto Validez de Constructo. Baremación del cuestionario Figura 16: Baremar el cuestionario. Fuente: Elaboración FUNIBER, 2010. Una de las escalas más populares es la de los centiles. Un percentil se interpreta como el porcentaje de gente que obtiene menos puntuación que el sujeto. Así, si decimos que Manuel Fernández obtiene un percentil 75 en inteligencia, estamos defendiendo que es más hábil que el 75% de la población (lo que también lleva asociado que es más torpe que el 25% de la población). Para obtener los centiles con el SPSS sólo es necesario calcular la puntuación total en el factor. Para sumar las puntuaciones se deben seguir los siguientes pasos: Transformar → Calcular Variable 24 © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Con lo que se tiene hasta el momento ya se puede conocer cuál es la puntuación directa de un sujeto en el test que se esté construyendo. Sólo es necesario sumar la puntuación obtenida en cada uno de los ítems de las diferentes dimensiones que se estén evaluando. Lo que ocurre con esto es que no nos permite determinar si alguien tiene mucha o poca puntuación en la variable medida. Para ello es necesario tener tablas de conversión que permitan transformar las puntuaciones directas de los sujetos en puntuaciones que puedan ser interpretadas, teniendo en cuenta las puntuaciones que obtenga el grupo con el que se quiera comparar al sujeto. DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S Se debe nombrar una variable de destino (variable que se va a crear) y se construye la expresión numérica correspondiente (p. ej. v1+v2+...+vn). Con esa puntuación final se pueden calcular los percentiles: Analizar → Estadísticos descriptivos → Frecuencias Posteriormente una vez que se está en el menú de Frecuencias se debe pasar la variable de la puntuación directa a Variables y solicitar los Estadísticos. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Una vez en los estadísticos se pueden solicitar los cuartiles (25%, 50% y 75%) así como los valores de los percentiles que nos interesen (5%, 10%, 20%,...,90%, 95%, 99%). Los pasos anteriores se ven reflejados en la figura 17. Figura 17: Pasos para el cálculo de los percentiles. Como resultado de lo anteriormente calculado se puede obtener una tabla como la que aparece a continuación. 25 DISEÑO Y VA LID AC IÓ N D E CU EST IO NA RIO S ESTADÍSTICOS Total Tabla 8. 5 10 20 25 30 40 50 60 70 75 80 90 95 99 1748 0 60,00 66,00 75,00 79,00 83,00 90,00 97,00 103,00 110,00 114,75 119,00 132,00 148,00 169,51 Baremación por percentiles. Como se puede apreciar en la tabla 8 aquella persona que obtenga una puntuación directa de 110 obtiene un percentil de 70, es decir, el 70% de la población de referencia tiene menos puntuación que él en la variable medida. Tras la consecución de los pasos anteriormente expuestos se posee un cuestionario fiable, válido y baremado para poder usarlo con la garantía de que el cuestionario mide exactamente y de forma correcta el constructo deseado. 4. REFERENCIAS BIBLIOGRÁFICAS 26 [1] Allen, M. J. y Yen, W. M. (1979). Introduction to measurement theory. California: Brooks/Cole Publishing Company. [2] Crocker, L. y Algina, G. (1986). Introduction to classical and modern test theory. New York: Holt, Rinehart and Winston. [3] Cronbach, L.J. (1951). Coefficient alpha and the internal structure of test. Psychometrika, 12, 1-16. [4] Cronbach, L. J. (1985). Fundamentos de la exploración psicológica. Madrid: Biblioteca Nueva. FUNDACIÓN UNIVERSITARIA IBEROAMERICANA Percentiles Válidos Perdidos © N DISEÑO Y VAL ID ACIÓ N DE CUEST IO NAR IO S [5] Cronbach, L.J. y Meehl, P.E. (1955). Construct validity in Psychological test. Psychological Bulletin, 52, 281-302. [6] Drowning, S.M. y Haladyna, T.M. (2006). Handbook of test development. Londres: Routledge. [7] Ebel, R.L. (1965). Measuring educational achievement. Englewoods Cliffs, N. J.: Prentice-Hall. [8] Educational Measurement: Issues and Practice (1994). Número monográfico dedicado a los treinta años los Test Referidos al Criterio, 13(4). [9] Ferrando, P. J. (1993). Introducción al Análisis Factorial. Barcelona: PPU. [10] García-Cueto, E. (1993). Introducción a la psicometría. Madrid: Siglo XXI de España Editores, S.A. [11] Glaser, R. (1963). Instructional Technology and the measurement of learning outcomes some questions. American Psychologist, 18, 519-521. © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA [12] Hambleton, R.K. (1994). The rise and fall of criterion-referenced measurement. Educational Measurement: Issues and Practice, 13(4), 21-26. [13] Lozano, L.M. (2004). Efecto del número de alternativas en las propiedades psicométricas de las escalas tipo Likert. Oviedo: Universidad de Oviedo. [14] Lozano, L.M., García-Cueto, E. y Muñiz, J. (2008). Effect of the number of response categories on the reliability and validity of rating scales. Methodology, 4(2), 73-79. [15] Lord, F.M. y Novick, M.R. (1968). Statistical theories of mental test scores. Massachusetts: Addison-Wesley. [16] Messick, S. (1996). Validity of Performance Assessment. En Philips, G. (1996). Technical Issues in Large-Scale Performance Assessment. Washington, DC: National Center for Educational Statistics. [17] Moreno, R., Martínez, R.J. y Muñiz, J. (2004). Directrices para la construcción de ítems de elección múltiple. Psicothema, 16(3), 490-497. [18] Muñiz, J. (2002). Teoría Clásica de los Test. Madrid: Pirámide. [19] Muñiz, J., Fidalgo, A. M., García-Cueto, E., Martínez, R. y Moreno, R. (2005). Análisis de los ítems. Madrid: La Muralla. [20] Muñiz, J., García-Cueto, E. y Lozano, L.M. (2005). Item format and the psychometric properties of the Eysenck Personality Questionnaire. Personality and Individual Differences, 38(1), 61-69. [21] Nunnally, J. C. y Bernstein, I. J. (1995). Teoría Psicométrica. México: McGraw-Hill. [22] Yela, M. (1987). Apuntes de psicología matemática, II. Madrid: Facultad de Psicología. 27 Y VA LID AC IÓ N D E CU EST IO NA RIO S © FUNDACIÓN UNIVERSITARIA IBEROAMERICANA DISEÑO 28