Prof. Juan AQUINO

Anuncio
LA VALIDEZ:
ATRIBUTO FUNDAMENTAL DE LAS PRUEBAS DE AULA
Prof. Juan AQUINO
MSC. Investigación Educativa
Cuando concebimos el instrumento o prueba adecuada para medir y posteriormente evaluar los
resultados de su aplicación, se impone de manera necesaria resolver el dilema que se plantea en
torno a si los resultados atienden al propósito central de la evaluación. O sea, que se trata de
establecer en base a dichos resultados, si la prueba estaba bien orientada hacia la búsqueda de la
información que se requería para conocer el nivel de aprendizaje cognoscitivo que los educandos
han alcanzado. Algo similar ocurre cuando disponemos de un reloj como instrumento adecuado
para medir el tiempo y nos planteamos la duda acerca de si la marca o calidad de dicho reloj,
realmente nos garantizará que efectivamente vamos a obtener una medida exacta de lo que
queremos conocer (que en este caso es la hora legal).
En este sentido, deberíamos admitir que el referido requisito, la validez, puede considerarse
como un atributo indispensable de los instrumentos de medición y evaluación en el campo del
trabajo escolar.
Este planteamiento, a nuestro juicio, encuentra su justificación en la siguiente observación: aun
respetándose la casi totalidad de los atributos que debe reunir el proceso evaluativo en lo
referente a las pruebas, los resultados obtenidos a través de éstas no serían representativos de la
característica que se intenta medir si no reúnen esta principalísima cualidad de la validez. Es
decir, que la validez garantiza que los resultados obtenidos estén ligados en forma directamente
proporcional a los objetivos y propósitos de la evaluación.
Como se desprende de lo expresado anteriormente, si no se obtuvieron resultados válidos, en
mayor o menor grado, ¿de qué habrían valido los esfuerzos realizados en practicar una
evaluación integral, continua, acumulada, etc.?
Por ejemplo, si un determinado docente diseña y emplea equívocamente un instrumento con afta
tendencia a medir conductas memorísticas, aún cuando el propósito de él era explorar la
capacidad de razonamiento de sus educandos, dicho docente estaría obteniendo, quizás
resultados objetivos, fiables, científicos, etc., pero en ningún caso representarían la característica
que él deseaba medir. Y es allí donde radica la importancia de la validez, pues, ¿para qué sirven
dichos resultados? Pudiera ser que sirvan para la medición de otras características no previstas,
pero no serían un indicador seguro de la capacidad de razonamiento del grupo, que era
exactamente lo que se deseaba explorar.
En este orden de ideas, pudieron haberse obtenido puntuaciones altas y sentirnos muy satisfechos
como docentes, o también muy bajas y sentir nuestra proporción de responsabilidad; pero en
ningún caso debería sentirse ni una cosa ni la otra, ya que tales resultados sólo muestran la
capacidad memorística del grupo y no su capacidad de razonamiento.
Lo anteriormente señalado es avalado por C. Selltiz en su obra METODOS DE
INVESTIGACION EN LAS RELACIONES SOCIALES, cuando textualmente expresa: "Ciertas
preguntas básicas deben ser hechas a cualquier instrumento de medida: ¿Qué es lo que mide?
¿Son relevantes los datos que proporciona para la característica en que se está interesado?
¿Representan las diferencias en la característica que se intenta medir, o también reflejan la
influencia de otros factores?".
Más aún, Norman Gronlund, destacado investigador y profesor de Psicología Educativa de la
Illinois University y reconocido autor de actualizados textos en esta especialidad, afirma al
respecto: "Si los resultados han de usarse para describir los logros del alumnado, nos gustaría
que representaran el logro específico que deseamos describir, que represente todos los aspectos
del logro que deseamos describir y que represente esto, nada más y nada menos" (1).
Creemos que ante tales afirmaciones y puntos coincidentes, la validez representa, sin duda, lo
que hemos denominado un atributo básico de las pruebas de aula y en efecto debe reconocerse
como un requisito fundamental de las mismas.
PREMISAS FUNDAMENTALES A CONSIDERAR EN EL ENFOQUE DE LA VALIDEZ
En virtud de que creemos haber demostrado fehacientemente que la validez es, en efecto, un
atributo, pensamos que se debe fundamentar su enfoque en atención a tres planteamientos de
ineludible consideración y que en forma general han sido comentados al inicio de este trabajo.
Tales planteamientos representan la esencia misma de la validez y, en gran medida, deben tener
absoluta vigencia en todos aquellos procesos que conduzcan a determinar el grado de validez de
los resultados de la evaluación escolar.
Estas premisas son:
1.- La validez se refiere a los resultados obtenidos con un determinado instrumento y no al
instrumento mismo. Es decir, que la validez se refiere a la interpretación que se haga de
los resultados obtenidos. Podríamos agregar, a manera de ejemplo, que una situación
como la descrita en la Pág. N° 86, revela una interpretación errática de los resultados
obtenidos, ya que éstos son reflejo de la capacidad memorística del grupo y no de la
capacidad de razonamiento del mismo.
Es ésta la razón por la cual la gran mayoría de los autores coincide en afirmar que muy poco se
logra si los resultados de la evaluación suministran constantemente una información equivocada.
2.- La validez es gradual y debe ser graduada a los efectos de interpretarla. En tal sentido,
asimilamos lo que los especialistas en la materia sostienen al respecto, y que consiste en
afirmar que ningún resultado obtenido de la evaluación escolar será del todo válido (r ,2
=1) ni del todo inválido (r ,2 = 0). O sea, que los resultados podrán ser considerados más
o menos válidos en atención a la interpretación que de ellos se haga. Por ejemplo, los
resultados que se obtienen en una prueba construida con el propósito de medir la
capacidad para traducir de un idioma a otro, no sólo sirven para medir esa característica
sino que además podrían servir para medir la cantidad de vocabulario que los alumnos
poseen acerca de uno de los dos idiomas o de ambos. Lo que ocurre es que para la
primera característica (capacidad para traducir), la validez debería ser considerada
elevada; mientras que para la segunda característica (cantidad de vocabulario), el grado
de validez debería ser considerado alto, moderado o bajo. Por tales motivos debe
interpretarse la validez dentro de una escala de valores que refleje todas las alternativas
posibles de ocurrir: desde muy alta validez hasta una muy baja validez, ambas inclusive.
A tales efectos proponemos la siguiente escala, sin que esto signifique que sea la única o la
mejor:
3.- La validez debe interpretarse en función del uso específico de los resultados obtenidos.
Esta posición induce al docente a interpretar de acuerdo al propósito de la evaluación
practicada, pues ello garantiza un mayor grado de validez en sus resultados.
Constituiría una actitud un tanto ingenua utilizar los resultados para una gran diversidad de usos;
por ejemplo, un grupo de atletas especialistas en la prueba de 100 mts. planos, cuyas marcas
promedio giran alrededor de los 11 segundos, podrían considerarse como atletas potencialmente
"medallistas" en la distancia de su especialidad. Incluso podrían considerarse como atletas de
"afta competencia". Estos juicios, sin duda, van provistos de una afta validez. Pero si se emplean
sus marcas promedio (11 segundos en 100 metros) para explicar la pasión deportiva de dichos
atletas, tendríamos que admitir que el índice de validez bajaría notoriamente.
La explicación es muy sencilla: la prueba de 100 mts. planos está destinada a medir cualidades
físicas relacionadas con la velocidad, arranque y potencia del atleta, y no es una prueba apta para
la medición directa de sus actitudes y preferencias en su formación ciudadana.
A esta altura de nuestro trabajo, pensamos que valdría la pena presentar la validez en esencia
pura, cual es "el grado en que las diferencias de puntuación reflejan verdaderas diferencias entre
individuos, grupos o situaciones en la característica que se pretende medir... " (2).
También el destacado investigador Norman Gronlund nos orienta en el mismo sentido al
expresar que "la validez se refiere siempre al uso específico que ha de hacerse de los resultados y
al grado de veracidad de nuestras interpretaciones propuestas" (3).
PARTE II
ANALISIS DE LOS TIPOS DE VALIDEZ
TIPOS DE VALIDEZ
Tradicionalmente, los estudiosos y autores especializados han señalado alrededor de seis (6)
tipos de validez, todas ellas dependiendo de la interpretación que se haga de los resultados de la
evaluación y de los fines para los cuales se haya destinado el instrumento diseñado.
Estos tipos de validez son: de contenido, aparente, de criterio, concurrente, predictiva y de
construcción. No obstante para los efectos de este trabajo hemos considerado necesario y
justificadamente pedagógico, hacer un agrupamiento que corresponda a la relación existente
entre algunas de ellas, de tal manera que se logre evitar una indeseada dispersión con respecto a
los planteamientos que se harán a continuación. De acuerdo a este agrupamiento se contemplan
sólo tres (3) categorías: validez de contenido, validez ligada a un criterio y validez de
construcción.
Valga la oportunidad para destacar que el orden de presentación de dichas categorías
corresponde a su importancia y relación con las pruebas de aula (objetivo fundamental del
presente trabajo) y en ningún caso a una razón formal o, menos aún, a efectos del azar.
Dicho esto, observemos el agrupamiento realizado:
VALIDEZ DE CONTENIDO
Este tipo de validez es, a nuestro juicio, el más importante a considerar en un estudio que esté
ligado estrechamente a las pruebas de aula y a sus resultados. Las razones que nos asisten para
hacer esta afirmación son las siguientes:
1.- Las consideraciones acerca de este tipo de validez están ligadas al proceso de evaluación
y medición de los aspectos cognoscitivos y de los cambios de comportamiento que se
esperan de los educandos en particular y del grupo en general; ya que todo proceso de
evaluación contiene y va precedido de un conjunto de mediciones de rasgos y
características que deben plantearse con representatividad en aquellos aspectos que
constituyan el propósito central de la medición y la evaluación educativas.
2.- Tales consideraciones inciden positiva o negativamente en la elaboración de las Tablas de
Especificaciones, listado de objetivos y elaboración de las pruebas de aula.
Los juicios que se hicieren acerca de los resultados de la evaluación, jamás podrían ser más
ajustados a la realidad si no se considera el grado aproximado de validez de contenido que posee,
ya que ésta vendría a imponer el grado de veracidad de los juicios emitidos. Es decir, que la
validez de contenido será quien determinará si efectivamente las calificaciones obtenidas por el
grupo, se corresponden con sus niveles de preparación previos a la realización de la evaluación.
No obstante lo anteriormente señalado, no será sino en lo sucesivo cuando explique con lujo de
detalles la forma cómo concurren e influyen estas consideraciones sobre los resultados de la
medición y evaluación educativas.
En efecto, la validez de contenido se refiere a la exacta adecuación entre la prueba y aquellos
contenidos de asignaturas y de los cambios de comportamiento que se consideran en un
momento determinado. Esto significa, que la prueba a diseñarse debe corresponder exactamente
tanto a los contenidos a evaluar como a los cambios de comportamiento que se han intentado
generar en los educandos a través de adecuados métodos y técnicas de enseñanza-aprendizaje.
Por ejemplo, si el caso en el cual el propósito del docente fuese medir la capacidad de
razonamiento aritmético de los educandos, para resolver problemas empleando métodos
estadísticos correlacionales el instrumento (la prueba) debería contener un número de preguntas
representativas de todos y cada uno de los coeficientes de correlación considerados y, además,
dichas preguntas deberían plantearse en el estilo de explorar en el alumno su capacidad para
razonar (por ejemplo, planteando problemas novedosos y sugiriendo el cálculo y demostración
de la gran mayoría de los coeficientes).
Pero si por el contrario, la planificación de la prueba se centrara en uno de los dos aspectos
solamente, ésta no poseería sino una validez de tipo aparente, es decir, una validez en la que se
presume que ambos elementos están contenidos en la prueba (contenidos y cambios de
comportamiento) pero que en realidad excluye uno de ellos.
Las consecuencias que se derivan de errores de este tipo, serán objeto de un análisis exhaustivo
en las páginas siguientes.
Otra acotación distinta a las anteriores, pero igualmente importante, es la que se refiere al hecho
de que este tipo de validez no puede calificarse mediante un índice matemático o estadístico, sino
que se deduce mediante un proceso de análisis lógico y de comparación. Dicho análisis se
efectúa mediante la revisión del Plan de Evaluación, el cual contiene una lista de objetivos a
evaluar, contenidos y Tabla de Especificaciones con las ponderaciones del caso. Entonces, el
proceso de análisis comparativo y lógico habrá de abarcar tanto a la prueba a construir, como al
Plan de Evaluación, de tal manera que la prueba acabada obedezca a una muy intensa correlación
entre ambos elementos. Es éste el proceso idóneo para garantizar una elevada validez de los
contenidos y de los resultados.
Sin duda que los docentes más experimentados en el quehacer educativo, con más habilidad,
conocimiento de la asignatura, creatividad y mayor ponderación de criterios, habrán de obtener
cada vez resultados más válidos con respecto a aquellos docentes que se inician en estos
menesteres.
Ahora bien, como un intento de analizar en forma detallada los distintos casos en que ocurre la
validez de contenido en las aulas escolares, trataremos de ofrecer ejemplos ilustrativos al
respecto. Comenzaremos con el menos común, como es el que se refiere al que reúne todos los
requisitos de este tipo de validez: elegiremos como propósito "Evaluar a los educandos en la 1ra.
Unidad de la asignatura Estadística I de la Facultad de Ciencias de la Educación de la
Universidad de Carabobo". Para ello se ha elaborado la siguiente Tabla de Especificaciones
(Tabla N° 1):
Tabla N° 1 > Tabla de especificaciones que contiene ponderación de la unidad I de
Estadística Aplicada a la Educación I.
Como se desprende de la Tabla de Especificaciones anterior, se va a intentar la evaluación de la
unidad N' 1 de la asignatura Estadística I, tomando en cuenta en un 70% los objetivos a nivel de
conocimiento yen un 30% aquellos de nivel de comprensión.
De resultar esto así, podríamos admitir que los resultados obtenidos poseen una alta validez de
contenido a evaluar y de los cambios de conducta esperados, ya que ambas características han
sido contempladas en la elaboración del instrumento. No obstante, vale destacar que la validez de
contenido puede verse afectada (en la mayoría de los casos podría disminuir considerablemente)
debido a otros factores ajenos a las características que se han señalado; por ejemplo: mala
redacción del instrumento, preguntas de muy alta dificultad o de muy baja dificultad,
instrucciones vagas e imprecisas, número de preguntas poco representativas del universo de
preguntas deseadas, adopción de criterios erráticos para otorgar las calificaciones, etc.
Ahora supongamos que se va a intentar la medición de los objetivos referentes a la ara. unidad de
la mencionada asignatura, para cuyos efectos se ha elaborado la siguiente Tabla de
Especificaciones, contentiva de los contenidos de dicha unidad y de los cambios de
comportamiento esperados. Veamos (Tabla Nº 2):
Tabla N° 2> Tabla de especificaciones que contiene ponderación de la unidad III de
Estadística I
Observamos que el propósito esencial en esta evaluación es explorar en el grupo de educandos,
sus conocimientos y capacidades de comprensión y resolución de problemas novedosos
(aplicación) referentes a los contenidos de la unidad N° 3.
Si se diseñare un instrumento que contenga el 40% de preguntas de comprensión y un 60%
referentes a aplicación de conceptos, no podríamos negar la existencia de una alta validez de
contenido. Para ello sólo bastaría con recordar el ejemplo anterior (ver Tabla de Especificaciones
N° 1).
Ahora bien, si por una determinada razón, que bien pudiera ser ahorro de espacio, tiempo,
material, o sencillamente por descuido, se elaborase un instrumento que contuviera la casi
totalidad de los contenidos (por ejemplo, 30 de comprensión y 50% de aplicación) tendríamos
que admitir que la validez de los resultados no sería tan elevada como en el caso anterior, en
razón de que el instrumento excluyó un 20% de los contenidos y objetivos a evaluar.
Además de esta discriminación, vale la pena señalar que también dicha validez tendería a bajar
por cuanto se han afectado las dos categorías de comportamiento que se pretendían medir.
Observemos que el nivel de comprensión bajó del 40% al 30% y el de aplicación se redujo
también en un 10% (del 60% bajó hasta el 50%).
Otro caso muy común y del que hacemos referencia en atención a la frecuencia con el cual se
presenta en las aulas escolares, es el siguiente: si se incluye la totalidad de los contenidos
haciéndose caso omiso de las categorías de objetivos a evaluar, se produciría una reducción
evidente de la validez de contenido, ya que ésta es, en esencia, el punto hasta el cual una prueba
mide un ejemplo representativo del contenido de la materia y de los cambios de comportamiento
que se consideren. Vale decir entonces, que el énfasis de la validez de contenido se da sobre la
adecuación de los objetivos y preguntas respecto de los contenidos a evaluar, y no simplemente a
la adecuación entre preguntas y contenidos.
En un intento de ejemplificar lo expuesto anteriormente, podríamos establecer que si las
preguntas incluidas en el instrumento fuesen de corte eminentemente memorístico, como por
ejemplo: "Enumere las medidas de Tendencia Central", "Escriba el concepto de Modo", etc., no
cabría la menor duda de la adecuación de tales preguntas al contenido, pero también habríamos
de reconocer su inadecuación para la medición de niveles del comportamiento de Comprensión y
Aplicación. De allí, pues, que la validez que se infiera sólo poseería un carácter aparente y de un
grado bastante bajo.
Otro caso digno de exponer a la consideración de los colegas educadores, es aquél que se
presenta con mucha frecuencia en ciertas asignaturas en las cuales los educandos han
manifestado una tendencia sostenida a dar bajo rendimiento (Matemática, Física, Química,
Cálculo, Análisis Matemático, Fisicoquímica, Estadística, etc.). Veamos el ejemplo: a veces
suele darse el caso de que se elabora un instrumento con el objeto de exigir del grupo, que
reflejen su capacidad de razonamiento abstracto (resolver problemas, por ejemplo), pero las
preguntas se redactan y se plantean detal manera que representan más una aparente elevada
dificultad, que la deseada adecuación a los objetivos y contenidos a considerar.
En otras palabras, se elaboran preguntas de niveles de aplicación, análisis, etc., con un alto grado
de dificultad, dejándose de lado la ya comentada adecuación que debe existir. Por ejemplo: a la
pregunta "Calcule las medidas de Tendencia Central", el educando respondería aplicando los
conocimientos y habilidades desarrollados en el transcurso de su proceso de enseñanzaaprendizaje. Pero si la pregunta hubiese sido: "Justifique matemáticamente el procedimiento de
cálculo de las medidas de Tendencia Central", en verdad existiría una adecuación entre las
preguntas y los contenidos; pero ésta iría más allá del propósito original de la evaluación, como
es el de establecer en su justa medida la conducta que se espera del educando, que no es otra que
su capacidad para calcular las medidas de Tendencia Central.
Evidentemente que en este caso la validez de contenido se ve afectada por el grado de dificultad
del ejercicio, el cual rebasa los niveles de aprendizaje alcanzados por el educando.
También es frecuente encontrarnos con situaciones propias de las Tablas de Especificaciones que
se han elaborado haciendo una distribución de las ponderaciones (pesos específicos de los
contenidos y objetivos a evaluar) que favorecen de manera ciertamente exagerada a algunos
contenidos con respecto a los otros, dejando a estos últimos como recursos adicionales de
evaluación, que no reciben, por consiguiente, la importancia real que deben tener con respecto a
la totalidad del material a evaluar. Veamos el ejemplo siguiente (Tabla N° 3):
Tabla N° 3 > Tabla de especificaciones que contiene ponderación de la unidad III de
Estadística Aplicada a la Educación I.
El aspecto que más llama la atención en la Tabla anterior, es la exagerada desproporción
existente en la distribución del contenido y en las categorías de objetivos. Observemos que hay
una diferencia del 80% entre las categorías Conocimiento y Aplicación, ya que la primera tiene
un peso específico del 10% y la segunda un peso de 90%. Algo similar ocurre a nivel de los
contenidos, ya que al aspecto "Relaciones entre los promedios" se le ha otorgado un peso
específico del 70%, el cual debe ser considerado sumamente elevado si se toma en cuenta que
hay otros tres aspectos más que evaluar. A todas luces se percibe una contradicción en esta
distribución porque si el aspecto "Relaciones entre los promedios" es sólo uno del total del
contenido, es decir, sólo el 25% del contenido a evaluar, ¿cómo es posible que su peso específico
sea equivalente a un 70% del total a considerar?
Tal distribución genera una incidencia directa en la validez que estamos considerando (la de
contenido) ya que no existe argumento válido alguno que pueda explicar cómo un determinado
aspecto del contenido puede garantizar por sí solo el alcance de todos y cada uno de los otros
objetivos representados en este contenido. Aquí vale la pena destacar que los educandos, que
hayan hecho hincapié en el estudio del contenido "Relaciones entre los promedios", podrían
obtener elevadas calificaciones gracias al exagerado peso del cual fue objeto el mencionado
contenido; pero en ningún caso dichas calificaciones serían un indicador con suficiente validez
para enjuiciar el rendimiento de los educandos en la referida unidad. Además, la experiencia nos
indica que el educando tiende a abarcar equitativamente la totalidad de los contenidos en sus
actividades de estudio, y sólo con algunas excepciones se tiende a centrar el interés en una sola
área extremadamente específica. Por lo tanto, las calificaciones derivadas de instrumentos que
obedezcan a planeamientos de este tipo, casi siempre van a generar calificaciones con una
insuficiente validez de contenido.
Sin embargo, existen proposiciones y sugerencias muy serias dirigidas a contrarrestar este tipo de
problemas. Entre esas sugerencias podemos anotar las siguientes:
1.- "Los tópicos principales del contenido de materias, así como los tipos principales de
transformaciones del comportamiento que van a medirse con la prueba, se presentan en
listas por separado. Dichas listas usualmente derivan del contenido, del tópico y de los
objetivos en que se hace hincapié dentro del programa de instrucción. Si la prueba es para
medir el aprovechamiento de un curso específico, quizás pudiera elaborar las listas el
maestro que imparte las clases de dicho curso. Si la prueba va a usarse para toda la
escuela, puede ser que un comité de maestros maneje mejor la preparación de las listas".
2.- "Los varios tópicos y tipos de materiales correspondientes a las transformaciones del
comportamiento se ponderan en términos de importancia relativa. No hay procedimiento
sencillo para determinar los pesos relativos apropiados. Depende del criterio personal que
se guía por el tiempo que se consagra a cada área durante la instrucción, la filosofía de la
escuela, la opinión de los expertos en el área y en criterios similares así".
3.- "Una tabla de Especificaciones se elabora a partir de las listas ponderadas de tópicos de
materias y de transformaciones esperadas del comportamiento. Esta Tabla, entonces,
especifica el énfasis relativo que la prueba debe dar a cada tópico de materia y cada tipo
de transformación del comportamiento.
4.- "La prueba de aprovechamiento se construye o se selecciona de acuerdo con la Tabla de
Especificaciones. Mientras más correspondan las partes de la prueba a las
especificaciones que se indican en la Tabla, mayor será la probabilidad de que las
respuestas de los alumnos a la prueba tengan un elevado grado de validez de contenido"
(4)
.
VALIDEZ LIGADA A UN CRITERIO
Sin duda alguna, este tipo de validez posee características muy particulares que la diferencian de
la validez de contenido y de la validez de construcción.
Por primera vez en el desarrollo de este trabajo veremos cómo se determina el coeficiente de
validez mediante una metodología estadística que permitiría, de una manera sencilla,
representarlo de una forma cuántica y, por supuesto, mensurable. Recordemos que en la validez
de contenido sólo se deduce su grado mediante métodos lógicos y comparativos que, sin ánimo
de menospreciar su fiabilidad y veracidad, pensamos que no reúne los requisitos necesarios para
emitir juicios enteramente válidos acerca del grado de validez de los resultados (tampoco
debemos pasar por alto el conjunto de recomendaciones que se hicieron en esa oportunidad en
pro de mejorar aquella metodología).
Pues bien, tal y como veníamos señalando en el párrafo anterior, la validez de criterio posee
características muy particulares, las cuales se extienden desde su procedimiento y metodología
para calcularla, hasta su capacidad para efectuar interpretaciones en dos sentidos claramente
distintos entre sí. Es necesario decir que este tipo de validez sirve para emitir juicios de carácter
predictivo (validez de predicción) y para la emisión de juicios acerca del estado actual de los
educandos (validez concurrente) en torno a una característica previamente definida.
Actualmente las designaciones de validez predictiva y concurrente han sido desechadas y
reemplazadas por una categoría que se ha denominado validez ligada a criterio. Esta
modificación ha sido aceptada gracias a que, para ambos casos (concurrente y predictiva), el
método a emplear es el mismo (método correlacional) y la expresión del coeficiente también es
la misma (la validez es una cuestión de grados cualquiera sea su tipo).
La única diferencia que existe viene dada por el periodo de tiempo transcurrido entre las dos
variables a correlacionar. En tal sentido hay que señalar que la validez de predicción se emplea
cuando deseamos hacer alguna inferencia acerca de la actuación futura de los educandos. Es por
ello que el lapso a transcurrir entre las dos medidas por obtener, debería ser lo más prolongado
posible (trimestral, semestral o anual), con el objeto de que se garantice mayor veracidad y
menos error en la predicción que habrá de hacerse con respecto a un grupo. Por ejemplo: si al
comienzo de un período académico en cualquier instituto de educación superior del país,
interesase predecir la actuación futura de los educandos en la asignatura Estadística I, podrían
correlacionarse los resultados obtenidos por el grupo al comienzo y al final del período
semestral. Evidentemente que si la relación existente entre ambos grupos de calificaciones
resultase elevada, no habría razón para negar que los resultados de la prueba exploratoria poseen
una alta validez predictiva, ya que una relación alta indica que efectivamente se produjo entre los
educandos una elevada tendencia a dar un rendimiento similar en ambas pruebas.
A manera de conclusión, diríamos que los resultados de la prueba exploratoria quedarían
validados y que el criterio seleccionado ha sido el conjunto de calificaciones obtenidas al final
del semestre.
Para ilustrar este ejemplo observemos el siguiente planteamiento en el cual se desea conocer, con
fines predictivos, la validez de los resultados de una prueba exploratoria (columna 2), habiendo
seleccionado como criterio las calificaciones definitivas de una hipotética asignatura (columna
3). Ver Tabla N° 4:
Tabla N° 4 > Calificaciones de un grupo de 15 alumnos en prueba exploratoria y definitiva,
sus respectivos rangos lineales y cuadrados.
Obsérvese que las columnas N° 2 y N° 3 representan a las variables en juego (calificaciones en la
prueba exploratoria y calificaciones definitivas, respectivamente). Las columnas N° 4 y N° 5
sustituyen a las calificaciones de ambas variables por sus respectivos rangos o lugares; y las
columnas N° 6 y N° 7 ilustran las diferencias de rango en términos lineales y al cuadrado,
respectivamente.
Es ese el procedimiento metodológico de corte estadístico conocido con el nombre de
correlación por diferencia en colocación de Spearman Brown, cuyo símbolo es la letra griega p,
y que tiene la siguiente fórmula:
Este índice obtenido de p = 0.95 nos indica el grado y dirección de la relación existente entre
ambas variables (la predictora y el criterio). Es de señalar que la correlación es de signo positivo
y, en consecuencia, directa; lo cual es un indicador de que los educandos han manifestado una
tendencia muy elevada a dar similar rendimiento en ambas pruebas.
También es de destacar que una correlación de 0.95 revela que la relación es muy estrecha, ya
que la magnitud del coeficiente es de una dimensión tal alta que se aproxima mucho al límite
máximo de las correlaciones lineales (rho = 1).
A manera de conclusión, podría señalarse que entre las variables predictora (calificaciones en la
prueba exploratoria) y el criterio (calificaciones definitivas) existe una correlación muy elevada y
directa que indica, a todas luces, que hay una muy elevada tendencia, por parte de los educandos,
a alcanzar en ambas pruebas un rendimiento similar. Siendo esto así, tendríamos necesariamente
que admitir el poder predictivo de los resultados obtenidos con la prueba exploratoria aplicada a
comienzos del período.
Con el objeto de profundizar en este aspecto, hemos elegido un ejemplo hipotético en el cual se
pretende determinar el poder predictivo de las calificaciones del primer parcial, empleando como
criterio las calificaciones definitivas de un curso en una determinada asignatura. La Tabla que se
presenta a continuación (Tabla N'5) ilustra, similarmente al ejemplo anterior, todos los pasos
procedimentales conducentes a obtener el coeficiente de correlación por diferencias en
colocación para las variables mencionadas. Veamos:
Tabla N° 5> Calificaciones de un grupo de 15 alumnos en un primer parcial y definitiva,
sus respectivos rangos lineales y cuadrados.
Sustituyendo en la fórmula
Este índice de 0.06 nos indica una relación muy baja -casi nula- entre las dos variables; lo que
viene a revelar que casi no hay relación entre ellas. Ahora bien, si "casi no existe" relación entre
ellas, esto equivale a decir que los alumnos se comportaron de una manera muy distinta ante
cada prueba, lo cual viene a comprobar la poca capacidad predictiva de los puntajes de la prueba
exploratoria aplicada a comienzos del período.
Estas interpretaciones se derivan de la misma esencia del método correlacional, el cual se emplea
para determinar el punto hasta el cual dos o más variables están relacionadas. Este método posee
el siguiente campo de variación o rango:
Como puede verse, los extremos 1 y -1 representan las máximas relaciones que pueden darse
entre dos variables. Estas se califican de relaciones perfectas directas e inversas,
respectivamente. "Si fuese de signo positivo, significaría que todo el grupo mantuvo su
rendimiento en ambas pruebas; y si fuese negativa igual a -1, significaría que todo el grupo
cambió radicalmente su rendimiento de una prueba a otra" (5).
En caso de que la correlación resulte igual a cero (rho = 0), se interpretaría como que ambas
variables no guardan ningún tipo de relación; es decir, que son completamente independientes
entre sí.
En virtud de que ambos extremos representan las correlaciones más altas (perfecta positiva y
perfecta negativa) todos aquellos coeficientes que se aproximen a esas cifras representarían
relaciones altas; y en la medida en que se aproximen a cero, las relaciones han de interpretarse
como relaciones bajas. De todas maneras, creemos que la mejor forma de ubicar un índice de
correlación con fines de enjuiciar el tipo de relación, es disponiendo de una escala como la que
sigue:
La otra aplicación de la validez ligada aun criterio es la que se conoce con el nombre de Validez
Concurrente, en la cual el factor decisivo es el lapso transcurrido entre los dos conjuntos de
calificaciones a relacionar.
Cuando se trata de determinar la Validez Concurrente, hay que tener muy claro que lo que se
desea es conocer el estado actual en que se encuentran los educandos con respecto a un rasgo o
característica determinada. En tal sentido, el lapso a transcurrir entre la obtención del conjunto de
calificaciones que interesa validar, y el criterio elegido, tiene, necesariamente, que ser bastante
corto, precisamente para que la relación refleje el "estado actual de los educandos" y no "el
estado futuro" de los mismos.
Obsérvese el ejemplo, en el cual se intenta validar un conjunto de calificaciones del 1er.
trimestre escolar, en una asignatura de Lenguaje Extranjero que posee una prueba teórica
(columna N° 2) y conversación (columna N° 3).
Ha de suponerse que, siendo la misma asignatura, tanto los aspectos concernientes al lenguaje en
sentido teórico, como en el práctico (vocabulario, por ejemplo), deberían coincidir en algún
grado. Si esto resultase así, la relación entre ambas variables debería ser alta e indicar que
aquellos educandos que han manifestado mayor rendimiento en la prueba teórica, también han
dado un rendimiento elevado en la prueba de vocabulario (contenido en la prueba práctica).
La Tabla que sigue (Tabla N° 6) ilustra el ejemplo en cuestión.
Tabla Nº 6> Calificaciones de un grupo de 15 alumnos en Teoría del Lenguaje y
Vocabulario, en el 1er. Trimestre, sus respectivos rango lineales y cuadrados.
Si con los datos obtenidos de la Tabla anterior, sustituimos en la fórmula
Un índice de este tipo (p = 0.87) señala que estamos en presencia de una correlación directa y
alta que revela una gran relación entre ambas variables. Esta gran relación vendría a indicar que
el rendimiento de los educandos en ambas pruebas ha sido similar; razón por la cual hay que
afirmar que los resultados obtenidos con la prueba que mide los aspectos teóricos (la del 1er.
trimestre) poseen una alta validez concurrente.
No obstante, no podríamos decir lo mismo del ejemplo siguiente (Tabla N° 7).
Tabla N° 7> Calificaciones de un grupo de 15 alumnos en el 1er. y 2do. Trimestre de una
hipotética asignatura sus respectivos rangos lineales y cuadrados.
Si sustituimos, considerando los valores parciales derivados de la Tabla anterior, en la fórmula
del coeficiente de correlación por diferencia en colocación de Spearman-Brown, obtendremos lo
siguiente:
Esto revela que entre las calificaciones del 1er. trimestre y el 2do. trimestre de esta hipotética
asignatura, hay muy poca relación, lo que indica que el rendimiento de los educandos en ambas
pruebas ha sido muy distinto. Es decir, educandos con alto rendimiento en el 1er. trimestre han
dado un bajo rendimiento en el 2do. trimestre, y viceversa.
Esto significa, en términos ligados a la validez de la prueba y de sus resultados, que las
calificaciones del 1er. trimestre no deben considerarse suficientemente válidas.
CONSIDERACIONES ACERCA DEL CRITERIO SELECCIONADO
Como hemos podido observar, cuando se intenta validar un conjunto de calificaciones y, por
ende, la prueba mediante la cual se obtuvieron dichas calificaciones, es necesario tomar muy en
cuenta la relevancia que tiene el criterio seleccionado para tales efectos, puesto que es ésta la
variable con la cual se efectúa la correlación para obtener el índice de validez.
Esto significa que el criterio seleccionado debe reunir un conjunto de requisitos que garanticen
sus bondades como elemento validador. De no suceder así, los índices de validez obtenidos
serían falsos y, en consecuencia, las interpretaciones y conclusiones a las cuales se llegue
estarían impregnadas de márgenes de error muy elevados.
Entre estos requisitos podemos anotar:
1.- La afinidad con los contenidos y objetivos. Pues no creemos que tenga sentido lógico
alguno, el correlacionar dos variables que provengan de fuentes distintas. No guardan
relación directa la Matemática con la Formación Social, Moral y Cívica, así como
tampoco la Literatura con la Física. En todo caso deben seleccionarse asignaturas afines;
y en el mejor de los casos, deben seleccionarse calificaciones obtenidas en las mismas
asignaturas. Por ejemplo, para los estudios de Idiomas podrían correlacionarse los
resultados obtenidos en una prueba de Vocabulario, con aquéllas obtenidas en
Conversación o Traducción. Las calificaciones obtenidas con las pruebas de aula en
Biología, Química y Física, podrían correlacionarse con las calificaciones obtenidas en
las prácticas de laboratorio.
Este planteamiento se hace en razón de que se supone (teóricamente) que los educandos que den
mayor rendimiento en los aspectos teóricos, rendirían de manera similar en los aspectos
prácticos; ya que entre ambos existe una comprobada concordancia, siendo esto lo que
garantizaría una correlación directa y elevada entre ambas variables.
2.- La validez del criterio. Pues si hemos admitido que la validez es un atributo esencial de
las pruebas de aula, de sus resultados, sería deseable que el criterio hubiese sido validado
antes de utilizarlo para efectuar una validación. Aquí cabe la pregunta: ¿Podría un criterio
no valido, ser un instrumento seguro y fiable para conocer la validez de otro instrumento?
3.- La confiabilidad. Ya que si dichos resultados no han sido obtenidos con la precisión
adecuada, es decir, con suficiente exactitud, definitivamente no deberían emplearse en la
validación de una prueba, porque aunque obtuviésemos una elevada correlación entre
ambas variables, ésta representaría un índice engañoso de la veracidad de los valores
validados.
4.- La contaminación del criterio. Esta contaminación proviene de dos fuentes: el maestro y
los educandos. En el primer caso, por descuido, ingenuidad o desconocimiento, el
maestro elige calificaciones que guarden relación con la variable a validar; pero
obviamente, si dichas calificaciones no provienen de la misma asignatura o de otra que
esté íntimamente relacionada con aquélla, la correlación obtenida nada podrá indicar con
respecto a la validez de la primera variable. Sólo indicará la relación existente entre las
variables correlacionadas, pero nada más.
En el segundo caso, si los educandos se enteran de que la aplicación de una determinada prueba
(criterio) obedece a razones de experimentación, ellos pudieran dar respuestas que no se
corresponden con su real rendimiento, lo que afectaría grandemente la correlación a obtener en el
proceso de validación. Por el contrario, si la aplicación de una prueba (criterio) se hace dentro de
los parámetros de normalidad en un proceso de evaluación escolar, los educandos se esforzarían
en dar un rendimiento acorde con su nivel. Evidentemente, los resultados provenientes de un
caso como éste sí reunirían un mínimo de condiciones para validar un conjunto de calificaciones.
MAGNITUD DE UN COEFICIENTE DE VALIDEZ Y EL ERROR ESTANDAR DE
ESTIMACIÓN
A decir verdad, no es posible dar una respuesta general a la pregunta: ¿Cuán grande debe ser un
coeficiente de validez? Lo que sí es bien cierto es que la correlación obtenida entre las dos
variables (predictora y el criterio) debe ser muy elevada para que resulte estadísticamente
significativa aun nivel de confianza del 0.01 ó del O.05. En otras palabras, antes de establecer
conclusiones acerca de la validez de una prueba y sus resultados, debemos estar seguros de que
el coeficiente de validez obtenido no puede ser consecuencia de fluctuaciones casuales de
muestreo: por ejemplo, si se desea predecir la calificación de un educando, debe interpretarse el
coeficiente de validez en términos del error típico de estimación.
Este, error típico "indica el margen de error que hay que esperar en la calificación de criterio
pronosticada al individuo. Como resultado de la imperfecta validez del test" (6).
Este error de estimación se halla mediante la fórmula
en la cual
De tal manera que si la validez fuese perfecta (r12 =1), la predicción de la calificación de un
educando sería exacta, ya que el error típico de estimación sería:
lo que significaría que la calificación en la variable de criterio no presentaría ningún tipo de
variación, amén de la influencia de los otros factores que pueden incidir en el rendimiento del
educando.
Sin embargo, en el ejemplo expuesto en la Tabla N° 5, página 102, puede observarse el error de
estimación siguiente:
Este error significa que la calificación a predecir para los educandos, presentará una variación de
4.67 puntos; de manera que si alguno de ellos posee un puntaje obtenido (calificación) de Xo =
07, el valor predicho variará desde 11.67 hasta 2.33 puntos. Veamos:
Según pudo observarse, una predicción hecha sobre la base de un error tan elevado revela una
elevada probabilidad de equivocarnos. En el ejemplo anterior puede observarse cómo fluctúa el
puntaje del educando. Esta fluctuación indica a las claras que no sabríamos cuál sería el real
rendimiento futuro de éste, pues su puntuación oscila desde un límite de reprobado (2.33 puntos)
hasta un límite de aprobación (11.67 puntos).
Si analizamos el error típico de estimación para el coeficiente de validez de la Tabla N° 4 de la
página 100, encontramos:
Este error, igual a Uest =1.38, es un dato interesante si lo analizamos comparativamente con el
anterior (Uest = 4.67). En este nuevo ejemplo (= 1.38), la seguridad en la predicción estará
provista de una menor probabilidad de equivocación, porque la calificación predictora apenas
varía en 1.38 puntos. Veamos:
Esto significa que existe una elevada probabilidad de acertar en la predicción cuando se afirme
acerca del éxito o fracaso futuro del educando. No pasemos desapercibidos el hecho de que la
calificación de éste no sería ni mayor de 08, ni menor de 06 (redondeados para efectos de otorgar
una calificación), cuestión que indica a las claras que el educando poseería un bajo rendimiento.
Una vez presentados estos ejemplos, no vacilaríamos en aceptar que "a medida que aumente el
coeficiente de validez, aumenta la probabilidad de acertar en la predicción, al disminuir el error
de estimación; y de manera análoga, a medida que disminuye el primero, aumenta el error de
estimación y se dificulta la posibilidad de acertar en la predicción".(7)
VALIDEZ DE CONSTRUCCIÓN
La aparente intención que se manifiesta en la aplicación de una prueba diseñada para la medición
de una capacidad específica, puede resultar un recurso colateral para lograr del educando una
información sobre alguna cualidad o rasgo psicológico ajeno a la dirección u orientación original
de la prueba.
En efecto, de las respuestas que los educandos ofrecen a las preguntas de una prueba, pueden
deducirse dos (2) interesantes cuestiones: en primer lugar, su capacidad con relación a los
contenidos de la asignatura objeto de medición; y en segundo lugar, su capacidad intelectual
específica que le permite dar respuestas acertadas a los planteamientos. Esto último es lo que
viene a representar la validez de construcción de una prueba. Tal y como lo señalan Crombach y
Meehl (1966) en obra de Louis Karmel (1974): "Un constructo es un atributo postulado que
supuestamente se refleja en el desempeño de los individuos"(8).
Con el objeto de clarificar el planteamiento anterior, presentamos el siguiente ejemplo: Si un
determinado maestro diseña una prueba de apareamiento con el propósito de determinar si los
educandos " identifican los símbolos de algunos elementos químicos" (ver anexo 3), es de
esperar que éstos, los alumnos, den respuestas acertadas no sólo porque hayan estudiado y
revisado cuidadosamente el material, sino porque su capacidad intelectual les permitió
memorizar los símbolos de aquellos elementos.
Como podemos ver, la capacidad específica de los educandos es la que permite que éstos
aprendan y asimilen los contenidos de materias, de manera que ¿cómo podrían dar respuestas
acertadas a preguntas memorísticas si no tuvieran capacidad para memorizar?
Esta es realmente la esencia de la validez de construcción. Así nos lo deja ver Anastasi (1974):
"La validez estructural de un test es el grado en que éste mide una elaboración o un rasgo teórico.
Como ejemplo de esta hipótesis citemos la inteligencia, la comprensión mecánica, la fluidez
verbal, la velocidad de marcha, el neurotismo, la ansiedad" (9).
Si consideramos como cierto este planteamiento, podríamos deducir que las pruebas de aula
miden, en mayor o menor grado, algunos de los rasgos señalados por el precitado autor, puesto
que la capacidad memorística (ejemplo anterior) se encuentra muy presente en las respuestas de
los educandos a la prueba de apareamiento del anexo 3 y en todas las pruebas de selección
elaboradas por el maestro. También la capacidad de abstracción está presente en las respuestas a
las pruebas de ensayo y orales. La fluidez verbal también lo está en pruebas de ensayo, orales y
trabajos monográficos. La velocidad de marcha también se explora y se conoce a través de las
pruebas prácticas ligadas a la Educación Física y los Deportes.
En otras palabras, todas las capacidades mencionadas forman parte de la inteligencia humana, y
todas son necesarias y básicas para la producción de algún tipo de respuesta. Es ésta la razón
fundamental por la cual hemos sido partidarios de considerar que "la actuación en la prueba
puede interpretarse en términos de ciertos elementos psicológicos de construcción" (10), por
cuanto que ello representa "una cualidad psicológica que nosotros suponemos que existe con el
fin de explicar algún aspecto del comportamiento" (11).
También James Popham W., quien conceptualiza la validez de construcción con la expresión
"validez de selección de campo", señala que "existe un tercer método de conceptualizar el grado
en que una prueba que hace referencia a un criterio (pruebas de aula), mide lo que supone que
mide y está en relación con la precisión con que se hizo la selección de campo. El creador de
pruebas. referidas aun criterio debe primero determinar el campo de conducta del alumno que
mejor indica la situación de éste con respecto a una dimensión más amplia y peor definida, tal
como un objetivo general" (12).
Y más adelante agrega: "Una prueba referida a criterio, goza de selección decampo cuando
puede establecerse que el campo particular escogido por su autor, sirve, en la práctica,
adecuadamente, como indicador de la dimensión más general para cuyo reflejo se ha creado" 03)
En virtud de que reconocemos el poco uso y la poca importancia que se da a la validez de
construcción, hemos pensado contribuir a su esclarecimiento, brindando algunas técnicas y
procedimientos adecuados para realizar una validación de construcción en los tests psicológicos.
Sin embargo, aconsejamos que se haga la correspondiente extrapolación para que dichas técnicas
sean extensivas a las pruebas de aula. Estas técnicas y procedimientos son, a juicio de Louis
Karmel, las siguientes:
1.- "Correlaciones con otros tests. El test construido recientemente se correlaciona con tests
establecidos, ya que son medidas aceptadas de la cualidad o rango que se vaya a
examinar. Por ejemplo, el test de Stanford-Binet ha servido por muchos años como
criterio para la validación de tests colectivos de inteligencia (también se usa en la validez
relacionada con el criterio). El constructo que se va a medir es la inteligencia. Se supone
que el Stanford-Binet mide la inteligencia; por tanto, una correlación alta entre la prueba
nueva y el Binet, significará que aquél también mide la inteligencia".
2.- "Análisis factorial. Este procedimiento estadístico es de particular importancia para la
validez de constructo. Básicamente, el análisis factorial es una técnica usada para analizar
las interpretaciones de datos psicológicos. Su propósito principal es el de simplificar la
descripción conductual reduciendo el número de categorías partiendo de una
multiplicidad de variables de medición (test) hasta obtener unos cuantos rasgos.
Identificando éstos, podrán usarse para describirla composición factorial de un test. Por
tanto, un test puede identificarse tanto en términos de los factores principales que determinan sus puntuaciones, como del peso de cada factor".
3.- "Efectos inducidos experimentalmente. Para averiguar cómo respondería una prueba a los
cambios de las condiciones externas cuando están presentes las variables inducidas
experimentalmente.
Por ejemplo, podría administrársele un test de ansiedad a un individuo en tensión. Y las
puntuaciones de ansiedad y psicológicas durante y después del test" (14).
ANEXO 3. Prueba de apareamiento.
INSTRUCCIONES
En la siguiente prueba de apareamiento, coloque dentro del paréntesis que antecede a cada
símbolo de la columna N° 2, el número del elemento químico de la columna N° 1 que le
corresponde.
NOTAS
(1)
GRONLUND, Norman. Medición y Evaluación en la enseñanza. 2da. edic. Edil. Pax.
México, 1973. Pág. 85.
(2)
SELLTIZ, C. JAHODA, M. DEUSTCH Y S. COOK. Métodos en las relaciones sociales.
Edit. Rialp S.A., Madrid, 1973. Pág. 180.
(3)
GRONLUND, Norman. Op. cit. Pág. 86.
(4)
GRONLUND, Norman. Op. Cit. Pág. 89.
(5)
GILBERT, Norma. Estadística. Nueva editorial Interamericana. México. Cedro 512,
1980. Pág. 268.
(6)
ANASTASI, Anne. Los Tests Psicológicos. Edil. Aguilar S.A. ara. edic. Madrid, 1974.
Pág. 136.
(7)
KERLINGER, Fred N. Investigación del Comportamiento. Teoría y Métodos. Edil.
Interamericana, S. A. 2 da Edic. México, 1981. Pág. 326.
(8)
KARMEL, Louis J. Medición Escolar.
Edil. Trillas, S.A. México D.F. 3ra. edic.
1974. Pág. 125.
(9)
ANASTASI, Anne. Tests Psicológicos. Edic. Aguilar, S.A. 3ra. edic. Madrid 1974, Pág.
119.
(10) GRONLUND, Norman. Op. Cit. Pág. 102.
(11) GRONLUND, Norman. Ibídem. Pág.
(12) POPHAM W., James. Problemas y Técnicas de la Evaluación Educativa. Edil. Amaya/2.
S.A. Madrid, Iriarte 4, 1980. Pág. 176.
(13) POPHAM, W. James. Ibídem. Pág. 177.
(14) KARMEL, Louis J. Op. Cit. Pág. 126.
Descargar