Subido por atehkari

Rúbricas para la Evaluación

Anuncio
Wiggins, G. (1998) Rúbricas para la Evaluación (capítulo 7).
En: Educative Assessment. Designing Assessments to Inform and Improve Student
Performance. San Franciso. Jossey-Bass.
(En castellano: Evaluación Educativa. Diseñando evaluaciones para informar y mejorar el
desempeño de los estudiantes).
Selección y traducción del capítulo 7, realizada en el Instituto de Evaluación Educativa por Jennifer
Viñas y Pedro Ravela.
Capítulo 7
Rúbricas para la Evaluación
¿Qué es una rúbrica?
La palabra rúbrica viene de ruber, palabra del latín que significa rojo. En los tiempos medievales, una
rúbrica era un conjunto de instrucciones o un comentario adjunto a una ley o a un texto litúrgico, que
típicamente era escrito en rojo. De este modo, el término “rúbrica” llegó a significar algo derivado de
una autoridad que instruye a la gente.
En la evaluación de estudiantes una rúbrica es un conjunto de guías de valoración y/o calificación
para evaluar el trabajo de los estudiantes. Las rúbricas responden a las siguientes preguntas:
❑
¿Con qué criterios debería juzgarse el desempeño?
❑
¿Dónde y qué deberíamos buscar para juzgar el logro de un desempeño?
❑
¿Cómo es el rango de calidades del desempeño?
❑
¿Cómo podemos determinar en forma válida, confiable y justa la calificación que debería
otorgarse y su significado?
❑
¿Cómo deberían describirse los diferentes niveles de calidad y lo que distingue a un nivel de
otro?
Una rúbrica ofrece descriptores para cada nivel de desempeño, para permitir una valoración más
confiable e imparcial. A veces se usan indicadores dentro de un descriptor, para dar ejemplos o
señales concretas de evidencia para cada nivel. Dado que los descriptores contienen criterios y a
menudo están referidos a estándares, una buena rúbrica hace posible una distinción válida y
confiable de los desempeños. La figura 7.1 ilustra el uso de criterios, descriptores e indicadores en
una rúbrica para evaluar un ensayo del último grado del secundario.
Los criterios son las condiciones que cualquier desempeño debe cumplir para ser considerado exitoso;
definen qué significa cumplir con los requisitos de la tarea. Para una tarea intelectual como “escuchar
efectivamente”, por ejemplo, quizás decidamos establecer dos criterios: comprender el mensaje (o
dar los pasos adecuados para comprenderlo), y hacer que quien habla se sienta escuchado. Ofrecer
indicadores o comportamientos específicos que indican si los criterios han sido cumplidos o no,
resulta en una guía más específica. Los indicadores de que un estudiante está dando pasos para
!2
comprender lo que ha oído incluyen, por ejemplo, el tomar notas, hacer preguntas adecuadas,
parafrasear el mensaje, estar atento, y otros por el estilo.
La razón por la que no construimos rúbricas a partir de indicadores, que pueden parecer más
concretos y útiles para estudiantes y evaluadores, es que los indicadores no son infalibles. Los
criterios deben ser logrados; los indicadores son una ayuda, pero un estudiante puede lograr los
criterios sin cumplir con todos los indicadores específicos descriptos. Un indicador dice a los
evaluadores por dónde pueden buscar y qué deberían mirar al valorar un desempeño. Pero ningún
indicador es 100% confiable. Por ejemplo, el estudiante aparentemente atento puede no estar
haciendo esfuerzos para comprender lo que se le dice, mientras que un estudiante que parece
distante del que habla y no toma notas puede, no obstante, estar escuchando atentamente y
comprendiendo lo que se le dice.
Muchas rúbricas comenten el error de confiar demasiado en indicadores que son fácilmente
observables pero poco confiables. Debemos tener cuidado y asegurarnos que los criterios que
elegimos son necesarios y suficientes, como conjunto, para asegurar que se logró lo que se buscaba.
Los primeros intentos que los educadores realizan con las rúbricas, a menudo pasan por alto los
modos más difíciles de ver pero más válidos de evaluar el logro.
!3
Figura 7.1. Rúbrica del Colegio Heritage High School de Littleton, Colorado, para evaluar
ensayos de bachilleres
9--8
El rango superior de respuestas satisface los siguientes criterios:
a. Síntesis. La síntesis debe identificar la idea principal [de la lectura].
b. Foco del acuerdo. El acuerdo y/o desacuerdo pueden ser completos o
parciales, pero el escritor debe dejar claro con que está de acuerdo o en
desacuerdo. Específicamente, los trabajos de 9-8 deben discutir la tesis del
autor, no el abuso de sustancias en general.
c. Sustento para el acuerdo / desacuerdo. La fundamentación debe
proporcionar un análisis de los argumentos y/o ejemplos relevantes y
concretos.
d. Estilo y coherencia. Estos trabajos tienen un estilo claro, organización
general y una progresión del pensamiento. Contienen unos pocos errores
repetidos de uso, gramática o tipeo.
[Las cuatro frases en cursiva representan las dimensiones que están siendo
valoradas. Dos de los criterios están subrayados.]
7.
Esta calificación es usada para trabajos que cumplen los requisitos básicos de los
calificados con 9-8, pero tienen menos desarrollo, fundamentación o análisis.
6--5
Trabajos de rango intermedio, que omiten o son deficientes en uno de estos cuatro
criterios:
a. Síntesis. La síntesis está ausente o incompleta, solo se lista la tesis del
autor.
b. Foco del acuerdo / desacuerdo. Aquello con lo que quien escribe está en
acuerdo/desacuerdo no es claro o no se relaciona con las propuestas del
autor. Ejemplo: el escritor no usa suficientes frases como "por un lado… por
otro lado…" [Un indicador].
c. Sustento. El escritor solo contra-afirma; los ejemplos son muy generales o
no distinguibles de los ejemplos en el artículo. El análisis puede ser pesado,
irrelevante o débil.
d. Estilo y coherencia. Estos trabajos están organizados sin demasiado rigor
o contienen errores notables de uso, gramática o tipeo.
4.
Esta calificación es usada para trabajos que son algo más flojos que los trabajos de
6-5. También un estudiante que escribe su propio ensayo paralelo en un estilo
competente debería recibir un 4.
3--2
Estos trabajos son deficientes en dos o más criterios. Típicamente, parafrasean
débilmente el artículo o tienen serios problemas de organización / coherencia.
Trabajos con serios y repetidos errores de uso, gramática o tipeo deben situarse en
este rango. [Todo este párrafo, como todos los previos, es un descriptor para este
punto en la escala.]
!4
Figura 7.2. Rúbrica para Problemas Matemáticos Abiertos
Competencia Demostrada
Respuesta Ejemplar:
Puntaje = 6
Da una respuesta completa con una explicación clara, coherente, no ambigua
y elegante; incluye un diagrama claro y sencillo; se comunica efectivamente
con la audiencia estipulada; muestra comprensión de las ideas y procesos
matemáticos involucrados en el problema; identifica todos los elementos
importantes del problema; puede incluir ejemplos y contra-ejemplos; presenta
fuertes argumentos de apoyo.
Respuesta Competente:
Puntaje = 5
Da una respuesta bastante completa con explicaciones razonablemente
claras; puede incluir un diagrama apropiado; se comunica efectivamente con la
audiencia estipulada; muestra comprensión de las ideas y procesos
involucrados en el problema; identifica los elementos más importantes del
problema; presenta sólidos argumentos de apoyo.
Respuesta Satisfactoria
Con Errores Menores Pero
Satisfactoria:
Puntaje = 4
Completa el problema satisfactoriamente, pero la explicación puede ser
confusa; la argumentación puede ser incompleta; el diagrama puede ser
inapropiado o poco claro; comprende las ideas matemáticas subyacentes; usa
las ideas en forma efectiva.
Con Errores Serios Pero
Casi Satisfactoria:
Puntaje = 3
Comienza el problema apropiadamente pero puede no lograr completarlo u
omitir partes significativas del problema; puede no lograr mostrar una
comprensión completa de las ideas y procesos matemáticos implicados; puede
cometer errores de cálculo serios; puede hacer mal uso o no lograr usar
términos matemáticos; la respuesta puede reflejar una estrategia inapropiada
para resolver el problema.
Respuesta Inadecuada
Comienza, Pero Falla en
Completar el Problema:
Puntaje = 2
La explicación no es comprensible; el diagrama puede no ser claro; no
muestra comprensión de la situación planteada en el problema; puede cometer
errores de cálculo importantes.
Incapaz de Comenzar
Efectivamente:
Puntaje = 1
Las palabras usadas no reflejan el problema; los dibujos distorsionan la
situación planteada en el problema; no logra indicar qué información es
apropiada.
No hay Intento:
Puntaje = 0
Diseño de Rúbricas
!5
Las mejores rúbricas seguirán una lógica. Esto significa que, aunque no hay una receta establecida
para construir rúbricas, necesitamos un método útil (aunque no rígido) y lineamientos; más
importante todavía, necesitamos criterios para revisar constantemente la efectividad del trabajo de
diseño que se está llevando a cabo. Los lineamientos del diseño son como el itinerario de un viajero;
los criterios son como las condiciones que el viajero debe cumplir para tener un viaje que valga la
pena. En términos educacionales, los lineamientos son como las instrucciones que se dan a los
estudiantes para realizar una tarea y los criterios son como la rúbrica que el educador proporciona a
los estudiantes para su auto-evaluación y auto-ajuste a lo largo del camino.
Las rúbricas facilitan la autoevaluación de los estudiantes. Pero la autoevaluación es un medio. ¿Para
qué fin? Para el auto-ajuste y el logro de un mejor desempeño y pericia. Ningún desempeño puede
dominarse simplemente siguiendo reglas, itinerarios o recetas. Todo desempeño complejo se alcanza
a través de la devolución, referida a criterios y estándares. La pregunta, ¿llegamos a nuestro
destino?, es muy diferente de preguntarse, ¿intentamos tener un viaje agradable? Aprender requiere
devoluciones permanentes (a través de la evaluación y la autoevaluación), para asegurar que el
estudiante obtenga del viaje el impacto que se propuso el director del paseo (el docente). De la
misma manera, una rúbrica diseñada para valorar el desempeño de un estudiante debe ser diseñada
en referencia a criterios y estándares, y a la autoevaluación y autoajustes continuos.
Al diseñar rúbricas necesitamos considerar los tipos de rúbricas disponibles. Las rúbricas pueden ser
holísticas o analíticas. La rúbrica holística tiene un solo descriptor general del desempeño como un
todo. La rúbrica analítica contiene múltiples rúbricas que corresponden a cada dimensión del
desempeño que está siendo calificado. Por ejemplo, podemos tener diferentes rúbricas para
“sintaxis”, “foco” y “expresión” al escribir, y para “precisión de los cálculos” y “comprensión del
método científico” en la ciencia.
Las rúbricas también pueden ser genéricas, o específicas para un género, un tema o una tarea. Una
rúbrica genérica juzga un criterio muy amplio, como “persuasivo” o “preciso”. Una rúbrica específica
de género se aplica a un género de desempeño específico, al interior de una categoría de desempeño
amplia (por ejemplo, ensayo, discurso, narrativa o gráficas y cuadros). Una rúbrica específica para un
tema tiene criterios referidos a las habilidades relacionadas con los contenidos o al conocimiento (por
ejemplo, informe oral de historia o razonamiento matemático). Las rúbricas específicas para una tarea
refieren a criterios únicos o altamente específicos, derivados de una tarea en particular.
Finalmente, una rúbrica puede enfocarse en un evento o ser longitudinal. En una rúbrica enfocada en
un evento, el desempeño se describe en términos particulares para esa tarea, contenido y contexto.
Una rúbrica longitudinal (o de desarrollo) mide el progreso a lo largo del tiempo hacia un dominio
más general de objetivos educacionales (por ejemplo, capacidad de lectura o fluidez); el desempeño
se evalúa en un continuo que va de principiante a experto y los avances se miden en términos de
sofisticación o nivel de desempeño a lo largo del tiempo.
Rúbricas holísticas y analíticas
La habilidad de diseñar una rúbrica válida depende mucho de cómo se definen los criterios. Para
comenzar, Las rúbricas pueden ser holísticas o analíticas. La rúbrica holística tiene un solo descriptor
general del desempeño como un todo. La rúbrica analítica contiene múltiples rúbricas que
!6
corresponden a cada dimensión del desempeño que está siendo calificado. Por ejemplo, podemos
tener diferentes rúbricas para “sintaxis”, “foco” y “expresión” al escribir, y para “precisión de los
cálculos” y “comprensión del método científico” en la ciencia.
Los criterios nos dicen qué buscar para distinguir logro de no-logro; los rasgos nos dicen dónde
buscarlo.
Por ejemplo, “peso” e “índice de colesterol” son rasgos personales; “peso saludable” y “colesterol
bajo” son criterios para la salud. El criterio supone valoraciones: hay un rango de masa corporal
mínima y máxima para ser considerado saludable, y hay cifras por encima de las cuales se considera
que la persona tiene un índice demasiado alto de colesterol. Pero si cambiamos el criterio a “ser feliz
comiendo”, el valor del rango de colesterol aceptable puede cambiar. Para cumplir el criterio de tener
un buen estado de salud, debo al menos cumplir con los criterios establecidos para estos dos rasgos
de mi perfil de salud.
Una rúbrica analítica aísla cada rasgo principal en una rúbrica separada junto con sus propios
criterios. A la inversa, una rúbrica holística da una valoración única basada en una impresión general.
Pero generalmente es necesario que las rúbricas analíticas combinen diferentes rasgos para hacerlas
factibles y aplicables. Por ejemplo, expresión, organización, foco, estructura de las oraciones, elección
de palabras, coherencia, precisión del contenido, adecuación de los recursos y referencias y
capacidad persuasiva, son criterios adecuados para juzgar los ensayos. Pero usar 10 rúbricas con los
criterios que las acompañan, superaría incluso a un devoto de las rúbricas. Por cuestiones prácticas,
los 10 rasgos podrían agruparse en tres rúbricas: calidad de las ideas y argumentos, calidad de la
escritura y calidad de la investigación, por ejemplo. O, en ciertas instancias, pueden unirse en un
único criterio y rúbrica: ¿Se trata de un trabajo persuasivo? En este caso, los criterios
correspondientes a cada uno de los grandes encabezados, podrían servir como indicadores.
La aproximación holística puede parecer más simple, pero puede también comprometer la validez,
confiabilidad y calidad de la devolución al estudiante en nombre de la eficiencia. Volvamos al ejemplo
de la comida. La presentación es independiente del gusto y de lo saludable que sea el alimento, y
cada una debe evaluarse por separado si queremos hacer inferencias válidas de los resultados. Es
raro que los tres aspectos vayan en la misma línea, estando a la vez todas bien o todas mal.
Consideremos la confusión que puede resultar de una rúbrica holística para un desempeño complejo.
Dos trabajos son evaluados como no persuasivos, pero sus defectos son bastante diferentes. Uno es
un texto desordenado, pero lleno de buenos argumentos. El otro es claro, pero superficial y basado
en hechos imprecisos. Con una rúbrica holística se asignaría la misma calificación a ambos trabajos.
La validez y la calidad de las devoluciones requieren el uso de rúbricas analíticas.
La Figura 7.2 es un ejemplo de rúbrica holística. La figura 7.5 muestra una rúbrica analítica que
contiene un grupo de cuatro rasgos o dimensiones para evaluar distintos aspectos de la investigación
científica y la resolución de problemas. Abrir la rúbrica en rasgos no solo hace a la evaluación más
precisa, sino que además enseña a los estudiantes acerca de los resultados deseados.
!7
Figura 7.5 Rúbrica analítica para experimentos de ciencias de quinto grado
4
3
Diseño del Experimento
Resultados científicos
El diseño muestra que el estudiante ha analizado el
problema y ha diseñado y conducido un
experimento en forma reflexiva e independiente.
4
El reporte explica con claridad convincente
la solución al problema. Se utiliza
información de otras fuentes u otros
experimentos en la explicación.
3
El reporte muestra que el estudiante
comprende los resultados y sabe cómo
explicarlos.
2
El reporte muestra resultados del
experimento. Las conclusiones alcanzadas
son incompletas o fueron explicadas sólo
luego de que se le hicieran preguntas.
1
El reporte muestra resultados del
experimento. Las conclusiones a que se
llegó fueron insuficientes, incompletas, o
confusas.
El diseño muestra que el estudiante comprende la
idea básica del proceso científico, conduciendo
experimentos que controlan las variables obvias.
2
El diseño muestra que el estudiante comprende la
idea básica del proceso científico, pero necesita
algo de ayuda para controlar las variables obvias.
1
El diseño muestra que el estudiante puede conducir
un experimento cuando recibe una cantidad de
ayuda considerable por parte del profesor.
Recolección de datos
4
Los datos fueron recogidos y registrados de modo
ordenado, reflejando con precisión los resultados
del experimento.
3
Los datos fueron registrados de un modo que
probablemente representa los resultados del
experimento.
Expresión Verbal
4
La exposición presenta un punto de vista
claramente definido que puede ser
apoyado por la investigación. El interés de
la audiencia fue considerado, ya que hubo
gestos, expresión y contacto visual.
3
La exposición fue preparada con algo de
ayuda adulta, pero utiliza los resultados del
experimento. El discurso fue lógico y utilizó
gestos, expresión y contacto visual para
clarificar significados.
2
Los datos fueron registrados de modo
desorganizado, o sólo con asistencia del profesor.
2
La exposición fue dada luego de
instrucción activa por parte de un adulto. El
discurso fue lógico y utilizó gestos,
expresión y contacto visual para clarificar
significados.
1
Los datos fueron registrados de modo incompleto,
caótico o sólo luego de considerable asistencia del
profesor.
1
La exposición fue dada después de recibir
instrucción activa de un adulto.
Descargar