Wiggins, G. (1998) Rúbricas para la Evaluación (capítulo 7). En: Educative Assessment. Designing Assessments to Inform and Improve Student Performance. San Franciso. Jossey-Bass. (En castellano: Evaluación Educativa. Diseñando evaluaciones para informar y mejorar el desempeño de los estudiantes). Selección y traducción del capítulo 7, realizada en el Instituto de Evaluación Educativa por Jennifer Viñas y Pedro Ravela. Capítulo 7 Rúbricas para la Evaluación ¿Qué es una rúbrica? La palabra rúbrica viene de ruber, palabra del latín que significa rojo. En los tiempos medievales, una rúbrica era un conjunto de instrucciones o un comentario adjunto a una ley o a un texto litúrgico, que típicamente era escrito en rojo. De este modo, el término “rúbrica” llegó a significar algo derivado de una autoridad que instruye a la gente. En la evaluación de estudiantes una rúbrica es un conjunto de guías de valoración y/o calificación para evaluar el trabajo de los estudiantes. Las rúbricas responden a las siguientes preguntas: ❑ ¿Con qué criterios debería juzgarse el desempeño? ❑ ¿Dónde y qué deberíamos buscar para juzgar el logro de un desempeño? ❑ ¿Cómo es el rango de calidades del desempeño? ❑ ¿Cómo podemos determinar en forma válida, confiable y justa la calificación que debería otorgarse y su significado? ❑ ¿Cómo deberían describirse los diferentes niveles de calidad y lo que distingue a un nivel de otro? Una rúbrica ofrece descriptores para cada nivel de desempeño, para permitir una valoración más confiable e imparcial. A veces se usan indicadores dentro de un descriptor, para dar ejemplos o señales concretas de evidencia para cada nivel. Dado que los descriptores contienen criterios y a menudo están referidos a estándares, una buena rúbrica hace posible una distinción válida y confiable de los desempeños. La figura 7.1 ilustra el uso de criterios, descriptores e indicadores en una rúbrica para evaluar un ensayo del último grado del secundario. Los criterios son las condiciones que cualquier desempeño debe cumplir para ser considerado exitoso; definen qué significa cumplir con los requisitos de la tarea. Para una tarea intelectual como “escuchar efectivamente”, por ejemplo, quizás decidamos establecer dos criterios: comprender el mensaje (o dar los pasos adecuados para comprenderlo), y hacer que quien habla se sienta escuchado. Ofrecer indicadores o comportamientos específicos que indican si los criterios han sido cumplidos o no, resulta en una guía más específica. Los indicadores de que un estudiante está dando pasos para !2 comprender lo que ha oído incluyen, por ejemplo, el tomar notas, hacer preguntas adecuadas, parafrasear el mensaje, estar atento, y otros por el estilo. La razón por la que no construimos rúbricas a partir de indicadores, que pueden parecer más concretos y útiles para estudiantes y evaluadores, es que los indicadores no son infalibles. Los criterios deben ser logrados; los indicadores son una ayuda, pero un estudiante puede lograr los criterios sin cumplir con todos los indicadores específicos descriptos. Un indicador dice a los evaluadores por dónde pueden buscar y qué deberían mirar al valorar un desempeño. Pero ningún indicador es 100% confiable. Por ejemplo, el estudiante aparentemente atento puede no estar haciendo esfuerzos para comprender lo que se le dice, mientras que un estudiante que parece distante del que habla y no toma notas puede, no obstante, estar escuchando atentamente y comprendiendo lo que se le dice. Muchas rúbricas comenten el error de confiar demasiado en indicadores que son fácilmente observables pero poco confiables. Debemos tener cuidado y asegurarnos que los criterios que elegimos son necesarios y suficientes, como conjunto, para asegurar que se logró lo que se buscaba. Los primeros intentos que los educadores realizan con las rúbricas, a menudo pasan por alto los modos más difíciles de ver pero más válidos de evaluar el logro. !3 Figura 7.1. Rúbrica del Colegio Heritage High School de Littleton, Colorado, para evaluar ensayos de bachilleres 9--8 El rango superior de respuestas satisface los siguientes criterios: a. Síntesis. La síntesis debe identificar la idea principal [de la lectura]. b. Foco del acuerdo. El acuerdo y/o desacuerdo pueden ser completos o parciales, pero el escritor debe dejar claro con que está de acuerdo o en desacuerdo. Específicamente, los trabajos de 9-8 deben discutir la tesis del autor, no el abuso de sustancias en general. c. Sustento para el acuerdo / desacuerdo. La fundamentación debe proporcionar un análisis de los argumentos y/o ejemplos relevantes y concretos. d. Estilo y coherencia. Estos trabajos tienen un estilo claro, organización general y una progresión del pensamiento. Contienen unos pocos errores repetidos de uso, gramática o tipeo. [Las cuatro frases en cursiva representan las dimensiones que están siendo valoradas. Dos de los criterios están subrayados.] 7. Esta calificación es usada para trabajos que cumplen los requisitos básicos de los calificados con 9-8, pero tienen menos desarrollo, fundamentación o análisis. 6--5 Trabajos de rango intermedio, que omiten o son deficientes en uno de estos cuatro criterios: a. Síntesis. La síntesis está ausente o incompleta, solo se lista la tesis del autor. b. Foco del acuerdo / desacuerdo. Aquello con lo que quien escribe está en acuerdo/desacuerdo no es claro o no se relaciona con las propuestas del autor. Ejemplo: el escritor no usa suficientes frases como "por un lado… por otro lado…" [Un indicador]. c. Sustento. El escritor solo contra-afirma; los ejemplos son muy generales o no distinguibles de los ejemplos en el artículo. El análisis puede ser pesado, irrelevante o débil. d. Estilo y coherencia. Estos trabajos están organizados sin demasiado rigor o contienen errores notables de uso, gramática o tipeo. 4. Esta calificación es usada para trabajos que son algo más flojos que los trabajos de 6-5. También un estudiante que escribe su propio ensayo paralelo en un estilo competente debería recibir un 4. 3--2 Estos trabajos son deficientes en dos o más criterios. Típicamente, parafrasean débilmente el artículo o tienen serios problemas de organización / coherencia. Trabajos con serios y repetidos errores de uso, gramática o tipeo deben situarse en este rango. [Todo este párrafo, como todos los previos, es un descriptor para este punto en la escala.] !4 Figura 7.2. Rúbrica para Problemas Matemáticos Abiertos Competencia Demostrada Respuesta Ejemplar: Puntaje = 6 Da una respuesta completa con una explicación clara, coherente, no ambigua y elegante; incluye un diagrama claro y sencillo; se comunica efectivamente con la audiencia estipulada; muestra comprensión de las ideas y procesos matemáticos involucrados en el problema; identifica todos los elementos importantes del problema; puede incluir ejemplos y contra-ejemplos; presenta fuertes argumentos de apoyo. Respuesta Competente: Puntaje = 5 Da una respuesta bastante completa con explicaciones razonablemente claras; puede incluir un diagrama apropiado; se comunica efectivamente con la audiencia estipulada; muestra comprensión de las ideas y procesos involucrados en el problema; identifica los elementos más importantes del problema; presenta sólidos argumentos de apoyo. Respuesta Satisfactoria Con Errores Menores Pero Satisfactoria: Puntaje = 4 Completa el problema satisfactoriamente, pero la explicación puede ser confusa; la argumentación puede ser incompleta; el diagrama puede ser inapropiado o poco claro; comprende las ideas matemáticas subyacentes; usa las ideas en forma efectiva. Con Errores Serios Pero Casi Satisfactoria: Puntaje = 3 Comienza el problema apropiadamente pero puede no lograr completarlo u omitir partes significativas del problema; puede no lograr mostrar una comprensión completa de las ideas y procesos matemáticos implicados; puede cometer errores de cálculo serios; puede hacer mal uso o no lograr usar términos matemáticos; la respuesta puede reflejar una estrategia inapropiada para resolver el problema. Respuesta Inadecuada Comienza, Pero Falla en Completar el Problema: Puntaje = 2 La explicación no es comprensible; el diagrama puede no ser claro; no muestra comprensión de la situación planteada en el problema; puede cometer errores de cálculo importantes. Incapaz de Comenzar Efectivamente: Puntaje = 1 Las palabras usadas no reflejan el problema; los dibujos distorsionan la situación planteada en el problema; no logra indicar qué información es apropiada. No hay Intento: Puntaje = 0 Diseño de Rúbricas !5 Las mejores rúbricas seguirán una lógica. Esto significa que, aunque no hay una receta establecida para construir rúbricas, necesitamos un método útil (aunque no rígido) y lineamientos; más importante todavía, necesitamos criterios para revisar constantemente la efectividad del trabajo de diseño que se está llevando a cabo. Los lineamientos del diseño son como el itinerario de un viajero; los criterios son como las condiciones que el viajero debe cumplir para tener un viaje que valga la pena. En términos educacionales, los lineamientos son como las instrucciones que se dan a los estudiantes para realizar una tarea y los criterios son como la rúbrica que el educador proporciona a los estudiantes para su auto-evaluación y auto-ajuste a lo largo del camino. Las rúbricas facilitan la autoevaluación de los estudiantes. Pero la autoevaluación es un medio. ¿Para qué fin? Para el auto-ajuste y el logro de un mejor desempeño y pericia. Ningún desempeño puede dominarse simplemente siguiendo reglas, itinerarios o recetas. Todo desempeño complejo se alcanza a través de la devolución, referida a criterios y estándares. La pregunta, ¿llegamos a nuestro destino?, es muy diferente de preguntarse, ¿intentamos tener un viaje agradable? Aprender requiere devoluciones permanentes (a través de la evaluación y la autoevaluación), para asegurar que el estudiante obtenga del viaje el impacto que se propuso el director del paseo (el docente). De la misma manera, una rúbrica diseñada para valorar el desempeño de un estudiante debe ser diseñada en referencia a criterios y estándares, y a la autoevaluación y autoajustes continuos. Al diseñar rúbricas necesitamos considerar los tipos de rúbricas disponibles. Las rúbricas pueden ser holísticas o analíticas. La rúbrica holística tiene un solo descriptor general del desempeño como un todo. La rúbrica analítica contiene múltiples rúbricas que corresponden a cada dimensión del desempeño que está siendo calificado. Por ejemplo, podemos tener diferentes rúbricas para “sintaxis”, “foco” y “expresión” al escribir, y para “precisión de los cálculos” y “comprensión del método científico” en la ciencia. Las rúbricas también pueden ser genéricas, o específicas para un género, un tema o una tarea. Una rúbrica genérica juzga un criterio muy amplio, como “persuasivo” o “preciso”. Una rúbrica específica de género se aplica a un género de desempeño específico, al interior de una categoría de desempeño amplia (por ejemplo, ensayo, discurso, narrativa o gráficas y cuadros). Una rúbrica específica para un tema tiene criterios referidos a las habilidades relacionadas con los contenidos o al conocimiento (por ejemplo, informe oral de historia o razonamiento matemático). Las rúbricas específicas para una tarea refieren a criterios únicos o altamente específicos, derivados de una tarea en particular. Finalmente, una rúbrica puede enfocarse en un evento o ser longitudinal. En una rúbrica enfocada en un evento, el desempeño se describe en términos particulares para esa tarea, contenido y contexto. Una rúbrica longitudinal (o de desarrollo) mide el progreso a lo largo del tiempo hacia un dominio más general de objetivos educacionales (por ejemplo, capacidad de lectura o fluidez); el desempeño se evalúa en un continuo que va de principiante a experto y los avances se miden en términos de sofisticación o nivel de desempeño a lo largo del tiempo. Rúbricas holísticas y analíticas La habilidad de diseñar una rúbrica válida depende mucho de cómo se definen los criterios. Para comenzar, Las rúbricas pueden ser holísticas o analíticas. La rúbrica holística tiene un solo descriptor general del desempeño como un todo. La rúbrica analítica contiene múltiples rúbricas que !6 corresponden a cada dimensión del desempeño que está siendo calificado. Por ejemplo, podemos tener diferentes rúbricas para “sintaxis”, “foco” y “expresión” al escribir, y para “precisión de los cálculos” y “comprensión del método científico” en la ciencia. Los criterios nos dicen qué buscar para distinguir logro de no-logro; los rasgos nos dicen dónde buscarlo. Por ejemplo, “peso” e “índice de colesterol” son rasgos personales; “peso saludable” y “colesterol bajo” son criterios para la salud. El criterio supone valoraciones: hay un rango de masa corporal mínima y máxima para ser considerado saludable, y hay cifras por encima de las cuales se considera que la persona tiene un índice demasiado alto de colesterol. Pero si cambiamos el criterio a “ser feliz comiendo”, el valor del rango de colesterol aceptable puede cambiar. Para cumplir el criterio de tener un buen estado de salud, debo al menos cumplir con los criterios establecidos para estos dos rasgos de mi perfil de salud. Una rúbrica analítica aísla cada rasgo principal en una rúbrica separada junto con sus propios criterios. A la inversa, una rúbrica holística da una valoración única basada en una impresión general. Pero generalmente es necesario que las rúbricas analíticas combinen diferentes rasgos para hacerlas factibles y aplicables. Por ejemplo, expresión, organización, foco, estructura de las oraciones, elección de palabras, coherencia, precisión del contenido, adecuación de los recursos y referencias y capacidad persuasiva, son criterios adecuados para juzgar los ensayos. Pero usar 10 rúbricas con los criterios que las acompañan, superaría incluso a un devoto de las rúbricas. Por cuestiones prácticas, los 10 rasgos podrían agruparse en tres rúbricas: calidad de las ideas y argumentos, calidad de la escritura y calidad de la investigación, por ejemplo. O, en ciertas instancias, pueden unirse en un único criterio y rúbrica: ¿Se trata de un trabajo persuasivo? En este caso, los criterios correspondientes a cada uno de los grandes encabezados, podrían servir como indicadores. La aproximación holística puede parecer más simple, pero puede también comprometer la validez, confiabilidad y calidad de la devolución al estudiante en nombre de la eficiencia. Volvamos al ejemplo de la comida. La presentación es independiente del gusto y de lo saludable que sea el alimento, y cada una debe evaluarse por separado si queremos hacer inferencias válidas de los resultados. Es raro que los tres aspectos vayan en la misma línea, estando a la vez todas bien o todas mal. Consideremos la confusión que puede resultar de una rúbrica holística para un desempeño complejo. Dos trabajos son evaluados como no persuasivos, pero sus defectos son bastante diferentes. Uno es un texto desordenado, pero lleno de buenos argumentos. El otro es claro, pero superficial y basado en hechos imprecisos. Con una rúbrica holística se asignaría la misma calificación a ambos trabajos. La validez y la calidad de las devoluciones requieren el uso de rúbricas analíticas. La Figura 7.2 es un ejemplo de rúbrica holística. La figura 7.5 muestra una rúbrica analítica que contiene un grupo de cuatro rasgos o dimensiones para evaluar distintos aspectos de la investigación científica y la resolución de problemas. Abrir la rúbrica en rasgos no solo hace a la evaluación más precisa, sino que además enseña a los estudiantes acerca de los resultados deseados. !7 Figura 7.5 Rúbrica analítica para experimentos de ciencias de quinto grado 4 3 Diseño del Experimento Resultados científicos El diseño muestra que el estudiante ha analizado el problema y ha diseñado y conducido un experimento en forma reflexiva e independiente. 4 El reporte explica con claridad convincente la solución al problema. Se utiliza información de otras fuentes u otros experimentos en la explicación. 3 El reporte muestra que el estudiante comprende los resultados y sabe cómo explicarlos. 2 El reporte muestra resultados del experimento. Las conclusiones alcanzadas son incompletas o fueron explicadas sólo luego de que se le hicieran preguntas. 1 El reporte muestra resultados del experimento. Las conclusiones a que se llegó fueron insuficientes, incompletas, o confusas. El diseño muestra que el estudiante comprende la idea básica del proceso científico, conduciendo experimentos que controlan las variables obvias. 2 El diseño muestra que el estudiante comprende la idea básica del proceso científico, pero necesita algo de ayuda para controlar las variables obvias. 1 El diseño muestra que el estudiante puede conducir un experimento cuando recibe una cantidad de ayuda considerable por parte del profesor. Recolección de datos 4 Los datos fueron recogidos y registrados de modo ordenado, reflejando con precisión los resultados del experimento. 3 Los datos fueron registrados de un modo que probablemente representa los resultados del experimento. Expresión Verbal 4 La exposición presenta un punto de vista claramente definido que puede ser apoyado por la investigación. El interés de la audiencia fue considerado, ya que hubo gestos, expresión y contacto visual. 3 La exposición fue preparada con algo de ayuda adulta, pero utiliza los resultados del experimento. El discurso fue lógico y utilizó gestos, expresión y contacto visual para clarificar significados. 2 Los datos fueron registrados de modo desorganizado, o sólo con asistencia del profesor. 2 La exposición fue dada luego de instrucción activa por parte de un adulto. El discurso fue lógico y utilizó gestos, expresión y contacto visual para clarificar significados. 1 Los datos fueron registrados de modo incompleto, caótico o sólo luego de considerable asistencia del profesor. 1 La exposición fue dada después de recibir instrucción activa de un adulto.