Tema IV. El proceso general de elaboración de tests INDICE o Introducción o Los pasos del proceso de elaboración de tests Identificar el objetivo por el que se utiliza el test Definir el constructo Diseñar el test Elaboración de los ítems Revisión de los ítems Los pasos siguientes... BIBLIOGRAFÍA RECOMENDADA Introducción La mayoría de los tests de rendimiento, aptitud y actitudes utilizados tradicionalmente por los psicólogos son elaborados desde una aproximación al escalamiento centrada en la persona. Las razones de esta preponderancia son la sencillez del modelo de escalamiento necesario para localizar a las personas en el continuo (suma de la puntuación obtenida en cada ítem como valor de escala del sujeto); y, en mayor medida, la inexistencia de requisitos y comprobaciones difíciles de cumplir sobre el nivel de medida de los valores de escala obtenidos. Para paliar estas insuficiencias, los instrumentos elaborados 2 desde esta perspectiva suelen reflejar un interés serio en alcanzar un nivel óptimo de precisión y utilidad de las mediciones que proporcionan. El objetivo general de este tema es familiarizar al lector con el procedimiento general de elaboración de tests. Los aspectos de este proceso en los que debería fijar su atención son los sucesivos “controles de calidad” por los que pasa el instrumentos antes de estar listo para su utilización. La elaboración de tests siguiendo los pasos que vamos a exponer, si no pueden asegurar la elaboración de un tests de calidad, sin duda evitarán cometer los defectos más comunes en los tests no elaborados por profesionales expertos. El contenido del tema es una presentación de cada uno de los pasos del proceso general para la elaboración de tests. El desarrollo en profundidad de cada paso junto a la aplicación “real” de sus contenidos tiene lugar en la asignatura optativa “Elaboración de tests, escalas y cuestionarios”; donde el alumno los pone en práctica elaborando por sí mismo un test de rendimiento o un cuestionario. Los pasos del proceso de elaboración de tests La versión general del procedimiento puede aplicarse, de forma general, a una gran variedad de tests (tests de rendimiento, tests de aptitudes, tests de actitudes, etc). Los pasos en que suele secuenciarse el proceso de elaboración de un tests son: 1. Identificar el objetivo principal para el que va a utilizarse el test. 2. Definir el constructo. 3. Diseñar el test. 4. Elaborar el conjunto inicial de ítems. 5. Revisar los ítems. 6. Realizar ensayos preliminares con los ítems. 7. Realizar estudios de campo con los ítems sobre una muestra representativa de la población futura de personas que va a responder al test. 3 8. Determinar las propiedades estadísticas de las respuestas a los ítems; eliminado, si fuera necesario, los ítems que no cumplieran los criterios establecidos. 9. Diseñar y realizar estudios de fiabilidad y validez con la forma final del test. 10. Elaborar los criterios de administración, puntuación e interpretación de las puntuaciones. La estrategia de elaboración puede representarse con el siguiente esquema: CONSTRUCTO DEF. SINTACTICA DEF. SEMANTICA ELABORACION DE ITEMS CALIDAD DE LOS ITEMS TEST PRECISION UTILIDAD TEST FINAL El esquema presenta sólo las etapas y las relaciones entre ellas más significativas. La rigidez inevitable en cualquier esquema no hace justicia a la enorme flexibilidad del proceso, ya que los resultados obtenidos en cualquier etapa pueden conducir a re-elaborar lo realizado en etapas anteriores. Estos pasos representan el trabajo mínimo necesario para asegurar que las puntuaciones tienen la calidad técnica suficiente, y que servirán para el objetivo por el que se recogieron. En este tema expondremos los contenidos de los pasos del 1 al 6, ya que recogen el núcleo principal del proceso de elaboración del test; el resto serán objeto de temas sucesivos... 4 1. Identificar el objetivo por el que se utiliza el test Parece obvio que cuando se decide elaborar un test, no se hace “porque sí ...” (aunque en muchos casos, a la vista del test no podemos descartar esta idea), sino que la decisión de elaborar un test parte de la necesidad de recoger información para una posterior toma de decisiones: educativas, clínicas, orientadoras, etc, (Crocker y Algina, 1986). Por tanto, el primer paso en el proceso de construcción de un test debe ser especificar los propósitos para los que van a utilizarse las puntuaciones obtenidas con el test, es decir, para qué se utilizarán las puntuaciones, qué tipo de interpretación haremos de ellas, qué grupos de personas responderán al test, qué consecuencias, intencionadas o no, puede tener la utilización del test, etc. Todo el tiempo que se invierta en identificar y clarificar para qué van a utilizarse las puntuaciones es positivo. Si el objetivo no está claramente identificado, el proceso de elaboración del test tiene grandes posibilidades de producir un mal test. De hecho, no es arriesgado afirmar que la mayoría de las críticas más frecuentes dirigidas a los tests, tienen su origen en la vaguedad o confusión del objetivo para el que se emplean (Ebel y Frisbie, 1986). Es habitual que el responsable de la construcción del test se lance al, aparentemente claro, proceso de elaboración del test, sin antes haber aclarado para qué quiere dicho test. La influencia del objetivo a lo largo del proceso de elaboración del test es constante. Pongamos un ejemplo: llega a determinar características tan aparentemente técnicas de los ítems como es su dificultad. La Tabla I muestra la relación entre posibles objetivos de un test de rendimiento y la dificultad promedio de los ítems del test. 5 POSIBLES OBJETIVOS DE UN TESTS DE RENDIMIENTO Asignar notas al finalizar un proceso de enseñanza Seleccionar estudiantes para cursos avanzados de una materia Identificar estudiantes que necesiten clases de apoyo DIFICULTAD PROMEDIO DE LOS ÍTEMS DEL TEST Ítems fáciles, de dificultad media y difíciles Ítems difíciles Ítems fáciles Tabla I: Relación entre objetivos y dificultad promedio de los ítems de rendimiento. La clave para entender la importancia que atribuimos a la identificación clara del objetivo, puede exponerse de forma sencilla: el objetivo para el que se emplee el test determina las características del test. De hecho, durante el proceso de elaboración, las dudas sobre que decisión resultará más acertada (e. g., el formato para los ítems) se resuelve con el siguiente criterio: optar por la decisión que contribuya más a alcanzar el objetivo del test. Definir el constructo Hay que recordar que el constructo es una "etiqueta verbal", por lo que es necesario establecer una regla para determinar qué conductas van a considerarse evidencias de las presencia del constructo. A esta regla, como es habitual, debemos pedirle que este lo más formalizada posible de forma que cualquier persona que la utilice pueda recoger las mismas muestras de conducta. Pero además, la definición de un constructo, como indicamos en temas anteriores, debe realizarse a dos niveles: 1) en términos de comportamientos observables, y 2) en términos de las relaciones lógicas o matemáticas del constructo con otros constructos y/o con otros comportamientos observables no indicadores del constructgo, dentro de un esquema teórico. Este segundo nivel de definición es el que permite interpretar las puntuaciones. Es necesario reconocer que esta situación -definición del constructo a los dos niveles- no ha sido habitual, predominando las definiciones subjetivas o idiosincráticas que el autor del test hacía del constructo. Para evitar esta situación, el autor del test dispone de un conjunto de procedimientos que garantizan una aproximación sistemática a la definición de los constructos. 6 Entre los más habituales: 1. Análisis de contenido. El procedimiento consiste en hacer preguntas abiertas sobre el constructo que se pretende medir, categorizar las respuestas y utilizar las categorías "más frecuentes" como los "comportamientos" o "componentes" del constructo. 2. Revisión de la literatura. El autor del test debe utilizar para medir el constructo los comportamientos que otros autores han estudiado más frecuentemente como indicadores del constructo. Evidentemente, es el procedimiento común a todo tipo de test que se quiera elaborar. 3. Incidentes críticos. La lista de comportamientos procede de la información que proporcionan expertos en el constructo sobre los comportamientos que caracterizan a las personas que estarían situadas en los extremos del continuo. 4. Observación directa. El autor identifica los comportamientos por observación directa de personas que manifiestan el constructo. 5. Juicio de expertos. El autor del test recurre a un grupo de expertos en el constructo para que le informen de los comportamientos que lo representan. 6. Identificación de los objetivos instruccionales. Se utiliza sobre todo para los tests de rendimiento. Estos tests suelen elaborarse para medir los resultados de la enseñanza de un determinado contenido. Para medir los resultados necesitamos conocer los objetivos que se pretendían alcanzar con esa enseñanza. Estos objetivos son los objetivos instruccionales, que en este paso de la elaboración del test son los comportamientos que representan el constructo. Los procedimientos anteriores no son igualmente útiles para todo tipo de tests. El autor del test deberá elegir el procedimiento, o procedimientos, que pueden resultar más adecuados para el test que desea elaborar. 7 Diseñar el test El diseño del test se suele plasmar en las denominadas “especificaciones del test”. Las especificaciones del test sirven para describir de forma completa y fácil la estructura y contenido del test. En los dos pasos anteriores, además de concretar el propósito para el que hemos decidido elaborar el test hemos relatado los objetivos instruccionales que pretendemos medir con él. Las especificaciones del test resumen toda esta información de manera que alguien que no haya participado en los dos pasos anteriores pueda hacerse una idea completa de lo que pretendemos medir con el test. Podemos proponer una analogía para transmitir el alcance de las especificaciones del test. Intentemos comparar la planificación del test con la elaboración de un proyecto para construir una casa. La persona que decide construirse una casa parte de una idea general y vaga sobre como que le gustaría que fuese su casa. En los primeros contactos con el arquitecto debe precisar esa idea. Después, el arquitecto le pedirá que concrete qué habitaciones quiere tener y como situarlas. A continuación, el arquitecto intentará reflejar con la mayor precisión posible toda esa información en unos planos que entregará al constructor para su ejecución. ¿Donde está la semejanza con el proceso de elaboración del test? Bien, la persona que decide construirse una casa puede ser quien necesita la información que puede aportarle el test. La relación de habitaciones y donde situarlas es similar a redactar los objetivos instruccionales que el test intentará medir. Por último, la concreción en unos planos del proyecto presenta muchas semejanzas con la elaboración de las especificaciones del test: los “planos” del test son sus especificaciones. ¿Quién debe realizar las especificaciones del test? La preparación de las especificaciones del contenido del test es una responsabilidad del autor del test. Esta tarea debe preceder al trabajo del escritor de ítems. El escritor utilizará esta información para plasmar las intenciones del autor del test. Frecuentemente, sin embargo, el trabajo del autor del test y del escritor de ítems es desarrollado por la misma persona o grupo de personas. Este rol dual puede ser óptimo para la elaboración de un buen test, dado que los objetivos del test pueden comprenderse con más precisión si el escritor de ítems es la misma persona que elaboró originariamente los objetivos. Sin embargo, debemos tener cuidado con este rol dosen-uno, ya que puede resultar tentador atajar en el proceso de 8 elaboración del test esbozando simplemente las especificaciones del test en lugar de escribirlas realmente. El término "especificaciones" puede resultar algo confuso. El sentido con el que se utiliza en este contexto es el de "características generales", "diseño general", etc. En definitiva, se trata de estructurar el constructo que se pretende medir indicando los comportamientos que lo evidencian, las dimensiones en que estos pueden agruparse, y la importancia relativa que cada uno de los comportamientos debe recibir. La "importancia relativa" se traducirá en el número de ítems utilizados para medir cada uno de dichos comportamientos. Las "especificaciones del test" tienen un sentido más evidente en el caso de los tests de rendimiento (tests elaborados para medir los resultados de un proceso de aprendizaje). Una vez que se han elaborado los objetivos instruccionales -resultados del aprendizaje expresados en términos medibles-, el autor del test suele elaborar las especificaciones del tests atendiendo a dos propiedades independientes de los ítems: el contenido y los procesos cognitivos u operaciones mentales que la persona debe emplear para resolver la tarea recogida en el ítem. Esta separación entre "contenido" y "procesos cognitivos" queda clara en el siguiente ejemplo. Dos objetivos instruccionales para un test de rendimiento en Estadística podrían ser: A. Definir la media aritmética. B. Calcular la media aritmética de una distribución de valores. Si examinamos los dos objetivos instruccionales ambos miden resultados de aprendizaje sobre un mismo contenido: la media aritmética; pero, mientras el objetivo A requiere el recuerdo de un material previamente memorizado, el objetivo B demanda el recuerdo y la aplicación de principios de cálculo en un ejemplo concreto. Las especificaciones del test para la elaboración de tests de rendimiento suelen incluir tres elementos: 1) la descripción del contenido que se pretende evaluar; 2) los procesos cognitivos que las personas deberán aplicar para resolver las tareas: y 3) la importancia relativa de cada dimensión, reflejada en el número de ítems del test que recibirán cada apartado y nivel de procesamiento. Para ayudar al autor del test y al escritor de los ítems hay disponibles en la literatura diversos sistemas de clasificación de las operaciones cognitivas. Estos sistemas de clasificación -denominados genéricamente "taxonomías"- suelen organizar jerárquicamente las posibles operaciones cognitivas, presentan descripciones de cada una de ellas, y suelen ofrecer las condiciones psicológicas necesarias -como 9 formular las tareas- para poner de manifiesto los diferentes niveles de procesamiento. Tal vez la más conocida de estas taxonomías es la Taxonomía de Objetivos Instruccionales de Bloom et al. (1956). El formato más habitual con el que suelen presentarse las especificaciones del test es la Tabla de Especificaciones del Test. Es una tabla bidimensional en la que por convención la descripción del contenido se sitúa en las filas de la tabla y los niveles de procesamiento en las columnas, dentro de cada casilla aparece el número de ítems que va a utilizarse para cada cruce de contenido x nivel de procesamiento. El número de ítems que aparece en las casillas de la Tabla refleja la importancia que el autor del test quiere conceder a cada apartado del contenido, y a cada nivel de procesamiento. Dicho número tendrá importantes implicaciones para la interpretación de las puntuaciones en el test, cuestión que remite a la necesidad de que los resultados de aprendizaje que van a medirse con el test deban reflejar la dinámica de la actividad instruccional seguida para la enseñanza del contenido. La Tabla II muestra un ejemplo de tabla de especificaciones del test para un test de rendimiento en el área de estadística descriptiva: AREA DE CONTENIDO Medidas de Tendencia Central Medidas de variabilidad Medidas de relación NIVELES DE PROCESAMIENTO CONOCIMIENTO COMPRENSION APLICACION 15 5 1 10 5 1 10 5 1 Un mero examen superficial revela que, por ejemplo, en este test priman los objetivos instruccionales de conocimiento sobre los otros dos niveles, el apartado del contenido que más atención recibe es el dedicado a las “medidas de tendencia central”, y sólo habrá tres ítems que propongan a las personas tareas de aplicación, etc. Hay varios factores que suelen considerarse a la hora de asignar los ítems por las celdillas de la tabla: tiempo dedicado a la enseñanza, importancia adjudicada a un determinado contenido o tipo de tarea, necesidad de unos contenidos concretos para una enseñanza posterior, etc. El carácter de estos criterios justifica la advertencia de que no es obligatorio completar todas las casillas de la 10 tabla. Sea cual sea, el autor del test debe conocer que el reparto de ítems que realice determinará las futuras líneas de interpretación de las puntuaciones que reciban las personas en el test. También para la elaboración de tests de actitudes puede ser útil la elaboración de las especificaciones del tests -sea en el formato que sea-, ya que pueden orientar al autor del test hacia que comportamientos o componentes del constructo actitudinal deben recibir más o menos atención durante la elaboración de los ítems. La elaboración de los ítems En esta etapa de la elaboración del test la tarea a la que se enfrenta el autor del test puede resumirse en una sola expresión: cómo medir lo que quiere medir (lo que quiere medir es el resultado de los pasos anteriores). Elaborar un conjunto inicial de ítems conlleva habitualmente las actividades siguientes: 1. Elegir un formato adecuado para los ítems. 2. Comprobar que el formato elegido es adecuado para la población de personas que responderán al test. 3. Seleccionar y entrenar a los escritores de ítems. 4. Escribir los ítems. 5. Supervisar el trabajo de los escritores de ítems y comprobar la calidad de los ítems. La elección del formato adecuado para los ítems debe basarse en consideraciones como: qué formatos han sido utilizados antes en tests similares, las capacidades de la población de personas para enfrentarse a los diferentes formatos, el tiempo a invertir en responder a los ítems con distintos formatos, etc. La elección del formato puede adquirir tal importancia que se decida hacer un pequeño estudio -previo a la redacción final de los ítems- con diferentes formatos sobre una muestra de la población final de personas, para obtener información objetiva de la idoneidad de cada formato. Por la importancia atribuida al formato de los ítems es necesario detenerse un momento en los distintos formatos más utilizados; agrupándolos en "formatos para los tests de ejecución óptima" y "formatos para los tests de ejecución típica". Comencemos por los primeros. 11 Formatos para los tests de ejecución óptima Para los tests de ejecución óptima -tests de rendimiento o tests de aptitudes- hay disponibles una gran variedad de formatos. También, habitualmente suelen agruparse en dos categorías principales: 1) los que requieren que la persona produzca -genere- la respuesta (e. g., preguntas abiertas, ensayos, etc.), y 2) los que ofrecen una serie de alternativas de respuestas para que la persona elija la que considere que es la respuesta correcta a la pregunta. Los primeros suelen recibir el nombre de formatos de respuesta elaborada, y los segundos, formatos de respuesta elegida. Por el sistema de puntuación a los primeros también es habitual nombrarlos como formatos subjetivos, y a los segundos, formatos objetivos. Los formatos objetivos más utilizados son: Formatos verdadero-falso. Presentan un frase y dos posibles respuestas, habitualmente: acuerdo-desacuerdo, si-no, verdaderofalso, etc. Formatos de elección múltiple. Consiste en un enunciado que plantea una pregunta o problema, y un conjunto de posibles respuestas a la pregunta o problema. Del conjunto de posibles respuestas sólo una es la respuesta correcta. Formatos de emparejamiento. Encabezando el ítem aparece un enunciado que relaciona dos conjuntos de elementos: autores y obras, descubrimientos y fechas, síntomas y enfermedades. La tarea de la persona consiste en relacionan los elementos de los dos conjuntos. La regla de puntuación habitual para este tipo de ítems es asignar un punto a la respuesta correcta a la pregunta y/o problema, y cero puntos a las respuestas incorrectas. La puntuación total de la persona suele ser el resultado de sumar los puntos obtenidos en cada una de las preguntas. La asignatura “Elaboración de tests, escalas y cuestionarios” aborda en detalle las características de cada uno de estos formatos y sus ventajas e inconvenientes. Como introducción puede bastar con uno de los criterios más importantes para juzgar la calidad de estos ítems: los sujetos que conocen la respuesta correcta a la pregunta no deben tener problemas a la hora de seleccionar la alternativa de respuesta adecuada, y los sujetos que no conocen la respuesta correcta, deben encontrar todas las alternativas de respuesta igual de creíbles. 12 No podemos olvidar las recientes críticas que reciben los formatos de respuesta elegida. En líneas generales, suele decirse que sólo miden comportamientos memorísticos y difícilmente niveles de procesamiento más elevados: comprensión, relación de conceptos, etc. Sin entrar en detalle, es necesario hacer dos puntualizaciones: 1) el formato del ítem no condiciona el nivel de procesamiento que pueda medirse, los casos de ítems que sólo miden comportamientos memorísticos suelen ser ítems mal elaborados; 2) el formato debe estar condicionado al resultado del aprendizaje que se pretenda medir con el, debiéndose elegir siempre el formato más adecuado a cada resultado del aprendizaje. Formatos para los tests de ejecución típica Los tres formatos más utilizados para la elaboración de los ítems de cuestionarios de actitudes, inventarios de personalidad, etc, son el formato de acuerdo-desacuerdo, el formato de Likert y la lista de adjetivos bipolares. La descripción y análisis de cada uno de estos formatos se aborda en la asignatura “Elaboración de tests, escalas y cuestionarios”. Revisión de los ítems Una vez que se han redactado los ítems el autor del test debería empezar a revisarlos. En un primer momento, el autor puede solicitar la colaboración de colegas para que informalmente revisen la precisión, corrección gramatical, ambigüedad, y otros posibles defectos técnicos. Los ítems con algún problema deben revisarse tantas veces como sea necesario. Cuando los defectos más evidentes hayan sido corregidos, el autor del test debe someter el test a un proceso de revisión más formal en el que debe examinar aspectos como: 1) la precisión (i.e. el grado en el que el ítem es una buena medida de la variable), 2) la adecuación de las especificaciones del test, 3) posibles defectos técnicos en la redacción de los ítems, 3) la corrección gramatical, 4) la presencia de estereotipos hacia determinados grupos de personas, y 6) el nivel de legibilidad. Puede ser necesario recurrir a diferentes tipos de expertos para revisar cada uno de los aspectos anteriores. Por ejemplo, puede pedir la colaboración de expertos en el contenido o variable que mide el test para examinar la precisión y adecuación de las especificaciones; expertos en la elaboración de tests para que revisen los posibles 13 defectos técnicos en los ítems; miembros de los posibles grupos minoritarios afectados para que detecten la posible presencia de estereotipos o prejuicios, etc. La revisión de los ítems puede realizarse antes o después de los primeros ensayos con los ítems. Criterios económicos suelen determinar el orden de estos dos procesos para analizar la calidad de los ítems. Así, si los expertos están fácilmente disponibles y su colaboración no es excesivamente costosa, la revisión puede hacerse antes de llevar a cabo los primeros ensayos con los ítems. Por otra parte, es habitual que de estos primeros ensayos salgan ítems que de nuevo necesitan ser revisados o redactados. De ahí que, si además la participación de los expertos es costosa, muchos autores de tests prefieran hacer la revisión una vez que se han hecho los primeros ensayos con los ítems. Antes de que los ítems vayan a editarse para la forma final del test suelen presentarse a una muestra pequeña de sujetos. El número de personas que participen en estos primeros ensayos puede oscilar de 15 a 30, cuando se pueden disponer de pocas personas, o de 100 a 200, en el caso de los tests comerciales. Los primeros ensayos con los ítems deben ser pruebas bastante informales. El autor del test debe aprovecharlos para observar el comportamiento de las personas mientras responden a los ítems, registrando las pausas, dudas, cambios de respuesta, etc, que pueden ser indicadores de confusión en los ítems. Tras terminar la administración de los ítems es aconsejable realizar un pequeño debate con los participantes para que cuenten sus impresiones y puedan sugerir posibles mejoras en los ítems. También es recomendable calcular algunos estadísticos descriptivos de las distribuciones de respuestas a los ítems. De estos estadísticos el autor del test puede obtener información sobre aspectos como la dificultad promedio de los ítems para el grupo de personas, la variabilidad en las respuestas a los ítems, etc. La revisión de los ítems es una actividad que conlleva números pasos. Además, los resultados de cada uno de estos pasos genera revisiones y modificaciones adicionales en la redacción de los ítems. Sea como sea, el resultado de la revisión debe ser un conjunto de ítems sobre los que el autor del test tenga la confianza suficiente como para realizar con ellos los estudios de campo a gran escala. 14 Los pasos siguientes... Una vez revisados los ítems, el siguiente paso en la construcción del test es realizar un estudio de campo con el test. Generalmente, el estudio de campo se realiza administrando el test a una muestra representativa de la población posible de personas que en un futuro va a responder al test. Del estudio de campo proceden los datos con los que estudiar las propiedades estadísticas de las distribuciones de respuestas a los ítems. Las técnicas para analizar dichas propiedades se conocen con el nombre genérico de "Análisis de Items". El resultado de este análisis de ítems es la forma final del test. A continuación, la forma final del test es estudiada para conocer la precisión de las puntuaciones que proporciona y su utilidad para el objetivo que se pretendía alcanzar con el test. Aspectos que han sido objeto de los tradicionalmente denominados estudios de fiabilidad y validez. Para finalizar con la elaboración de las normas de administración, puntuación e interpretación de las puntuaciones obtenidas con el test.