LA VALIDEZ: ATRIBUTO FUNDAMENTAL DE LAS PRUEBAS DE AULA Prof. Juan AQUINO MSC. Investigación Educativa Cuando concebimos el instrumento o prueba adecuada para medir y posteriormente evaluar los resultados de su aplicación, se impone de manera necesaria resolver el dilema que se plantea en torno a si los resultados atienden al propósito central de la evaluación. O sea, que se trata de establecer en base a dichos resultados, si la prueba estaba bien orientada hacia la búsqueda de la información que se requería para conocer el nivel de aprendizaje cognoscitivo que los educandos han alcanzado. Algo similar ocurre cuando disponemos de un reloj como instrumento adecuado para medir el tiempo y nos planteamos la duda acerca de si la marca o calidad de dicho reloj, realmente nos garantizará que efectivamente vamos a obtener una medida exacta de lo que queremos conocer (que en este caso es la hora legal). En este sentido, deberíamos admitir que el referido requisito, la validez, puede considerarse como un atributo indispensable de los instrumentos de medición y evaluación en el campo del trabajo escolar. Este planteamiento, a nuestro juicio, encuentra su justificación en la siguiente observación: aun respetándose la casi totalidad de los atributos que debe reunir el proceso evaluativo en lo referente a las pruebas, los resultados obtenidos a través de éstas no serían representativos de la característica que se intenta medir si no reúnen esta principalísima cualidad de la validez. Es decir, que la validez garantiza que los resultados obtenidos estén ligados en forma directamente proporcional a los objetivos y propósitos de la evaluación. Como se desprende de lo expresado anteriormente, si no se obtuvieron resultados válidos, en mayor o menor grado, ¿de qué habrían valido los esfuerzos realizados en practicar una evaluación integral, continua, acumulada, etc.? Por ejemplo, si un determinado docente diseña y emplea equívocamente un instrumento con afta tendencia a medir conductas memorísticas, aún cuando el propósito de él era explorar la capacidad de razonamiento de sus educandos, dicho docente estaría obteniendo, quizás resultados objetivos, fiables, científicos, etc., pero en ningún caso representarían la característica que él deseaba medir. Y es allí donde radica la importancia de la validez, pues, ¿para qué sirven dichos resultados? Pudiera ser que sirvan para la medición de otras características no previstas, pero no serían un indicador seguro de la capacidad de razonamiento del grupo, que era exactamente lo que se deseaba explorar. En este orden de ideas, pudieron haberse obtenido puntuaciones altas y sentirnos muy satisfechos como docentes, o también muy bajas y sentir nuestra proporción de responsabilidad; pero en ningún caso debería sentirse ni una cosa ni la otra, ya que tales resultados sólo muestran la capacidad memorística del grupo y no su capacidad de razonamiento. Lo anteriormente señalado es avalado por C. Selltiz en su obra METODOS DE INVESTIGACION EN LAS RELACIONES SOCIALES, cuando textualmente expresa: "Ciertas preguntas básicas deben ser hechas a cualquier instrumento de medida: ¿Qué es lo que mide? ¿Son relevantes los datos que proporciona para la característica en que se está interesado? ¿Representan las diferencias en la característica que se intenta medir, o también reflejan la influencia de otros factores?". Más aún, Norman Gronlund, destacado investigador y profesor de Psicología Educativa de la Illinois University y reconocido autor de actualizados textos en esta especialidad, afirma al respecto: "Si los resultados han de usarse para describir los logros del alumnado, nos gustaría que representaran el logro específico que deseamos describir, que represente todos los aspectos del logro que deseamos describir y que represente esto, nada más y nada menos" (1). Creemos que ante tales afirmaciones y puntos coincidentes, la validez representa, sin duda, lo que hemos denominado un atributo básico de las pruebas de aula y en efecto debe reconocerse como un requisito fundamental de las mismas. PREMISAS FUNDAMENTALES A CONSIDERAR EN EL ENFOQUE DE LA VALIDEZ En virtud de que creemos haber demostrado fehacientemente que la validez es, en efecto, un atributo, pensamos que se debe fundamentar su enfoque en atención a tres planteamientos de ineludible consideración y que en forma general han sido comentados al inicio de este trabajo. Tales planteamientos representan la esencia misma de la validez y, en gran medida, deben tener absoluta vigencia en todos aquellos procesos que conduzcan a determinar el grado de validez de los resultados de la evaluación escolar. Estas premisas son: 1.- La validez se refiere a los resultados obtenidos con un determinado instrumento y no al instrumento mismo. Es decir, que la validez se refiere a la interpretación que se haga de los resultados obtenidos. Podríamos agregar, a manera de ejemplo, que una situación como la descrita en la Pág. N° 86, revela una interpretación errática de los resultados obtenidos, ya que éstos son reflejo de la capacidad memorística del grupo y no de la capacidad de razonamiento del mismo. Es ésta la razón por la cual la gran mayoría de los autores coincide en afirmar que muy poco se logra si los resultados de la evaluación suministran constantemente una información equivocada. 2.- La validez es gradual y debe ser graduada a los efectos de interpretarla. En tal sentido, asimilamos lo que los especialistas en la materia sostienen al respecto, y que consiste en afirmar que ningún resultado obtenido de la evaluación escolar será del todo válido (r ,2 =1) ni del todo inválido (r ,2 = 0). O sea, que los resultados podrán ser considerados más o menos válidos en atención a la interpretación que de ellos se haga. Por ejemplo, los resultados que se obtienen en una prueba construida con el propósito de medir la capacidad para traducir de un idioma a otro, no sólo sirven para medir esa característica sino que además podrían servir para medir la cantidad de vocabulario que los alumnos poseen acerca de uno de los dos idiomas o de ambos. Lo que ocurre es que para la primera característica (capacidad para traducir), la validez debería ser considerada elevada; mientras que para la segunda característica (cantidad de vocabulario), el grado de validez debería ser considerado alto, moderado o bajo. Por tales motivos debe interpretarse la validez dentro de una escala de valores que refleje todas las alternativas posibles de ocurrir: desde muy alta validez hasta una muy baja validez, ambas inclusive. A tales efectos proponemos la siguiente escala, sin que esto signifique que sea la única o la mejor: 3.- La validez debe interpretarse en función del uso específico de los resultados obtenidos. Esta posición induce al docente a interpretar de acuerdo al propósito de la evaluación practicada, pues ello garantiza un mayor grado de validez en sus resultados. Constituiría una actitud un tanto ingenua utilizar los resultados para una gran diversidad de usos; por ejemplo, un grupo de atletas especialistas en la prueba de 100 mts. planos, cuyas marcas promedio giran alrededor de los 11 segundos, podrían considerarse como atletas potencialmente "medallistas" en la distancia de su especialidad. Incluso podrían considerarse como atletas de "afta competencia". Estos juicios, sin duda, van provistos de una afta validez. Pero si se emplean sus marcas promedio (11 segundos en 100 metros) para explicar la pasión deportiva de dichos atletas, tendríamos que admitir que el índice de validez bajaría notoriamente. La explicación es muy sencilla: la prueba de 100 mts. planos está destinada a medir cualidades físicas relacionadas con la velocidad, arranque y potencia del atleta, y no es una prueba apta para la medición directa de sus actitudes y preferencias en su formación ciudadana. A esta altura de nuestro trabajo, pensamos que valdría la pena presentar la validez en esencia pura, cual es "el grado en que las diferencias de puntuación reflejan verdaderas diferencias entre individuos, grupos o situaciones en la característica que se pretende medir... " (2). También el destacado investigador Norman Gronlund nos orienta en el mismo sentido al expresar que "la validez se refiere siempre al uso específico que ha de hacerse de los resultados y al grado de veracidad de nuestras interpretaciones propuestas" (3). PARTE II ANALISIS DE LOS TIPOS DE VALIDEZ TIPOS DE VALIDEZ Tradicionalmente, los estudiosos y autores especializados han señalado alrededor de seis (6) tipos de validez, todas ellas dependiendo de la interpretación que se haga de los resultados de la evaluación y de los fines para los cuales se haya destinado el instrumento diseñado. Estos tipos de validez son: de contenido, aparente, de criterio, concurrente, predictiva y de construcción. No obstante para los efectos de este trabajo hemos considerado necesario y justificadamente pedagógico, hacer un agrupamiento que corresponda a la relación existente entre algunas de ellas, de tal manera que se logre evitar una indeseada dispersión con respecto a los planteamientos que se harán a continuación. De acuerdo a este agrupamiento se contemplan sólo tres (3) categorías: validez de contenido, validez ligada a un criterio y validez de construcción. Valga la oportunidad para destacar que el orden de presentación de dichas categorías corresponde a su importancia y relación con las pruebas de aula (objetivo fundamental del presente trabajo) y en ningún caso a una razón formal o, menos aún, a efectos del azar. Dicho esto, observemos el agrupamiento realizado: VALIDEZ DE CONTENIDO Este tipo de validez es, a nuestro juicio, el más importante a considerar en un estudio que esté ligado estrechamente a las pruebas de aula y a sus resultados. Las razones que nos asisten para hacer esta afirmación son las siguientes: 1.- Las consideraciones acerca de este tipo de validez están ligadas al proceso de evaluación y medición de los aspectos cognoscitivos y de los cambios de comportamiento que se esperan de los educandos en particular y del grupo en general; ya que todo proceso de evaluación contiene y va precedido de un conjunto de mediciones de rasgos y características que deben plantearse con representatividad en aquellos aspectos que constituyan el propósito central de la medición y la evaluación educativas. 2.- Tales consideraciones inciden positiva o negativamente en la elaboración de las Tablas de Especificaciones, listado de objetivos y elaboración de las pruebas de aula. Los juicios que se hicieren acerca de los resultados de la evaluación, jamás podrían ser más ajustados a la realidad si no se considera el grado aproximado de validez de contenido que posee, ya que ésta vendría a imponer el grado de veracidad de los juicios emitidos. Es decir, que la validez de contenido será quien determinará si efectivamente las calificaciones obtenidas por el grupo, se corresponden con sus niveles de preparación previos a la realización de la evaluación. No obstante lo anteriormente señalado, no será sino en lo sucesivo cuando explique con lujo de detalles la forma cómo concurren e influyen estas consideraciones sobre los resultados de la medición y evaluación educativas. En efecto, la validez de contenido se refiere a la exacta adecuación entre la prueba y aquellos contenidos de asignaturas y de los cambios de comportamiento que se consideran en un momento determinado. Esto significa, que la prueba a diseñarse debe corresponder exactamente tanto a los contenidos a evaluar como a los cambios de comportamiento que se han intentado generar en los educandos a través de adecuados métodos y técnicas de enseñanza-aprendizaje. Por ejemplo, si el caso en el cual el propósito del docente fuese medir la capacidad de razonamiento aritmético de los educandos, para resolver problemas empleando métodos estadísticos correlacionales el instrumento (la prueba) debería contener un número de preguntas representativas de todos y cada uno de los coeficientes de correlación considerados y, además, dichas preguntas deberían plantearse en el estilo de explorar en el alumno su capacidad para razonar (por ejemplo, planteando problemas novedosos y sugiriendo el cálculo y demostración de la gran mayoría de los coeficientes). Pero si por el contrario, la planificación de la prueba se centrara en uno de los dos aspectos solamente, ésta no poseería sino una validez de tipo aparente, es decir, una validez en la que se presume que ambos elementos están contenidos en la prueba (contenidos y cambios de comportamiento) pero que en realidad excluye uno de ellos. Las consecuencias que se derivan de errores de este tipo, serán objeto de un análisis exhaustivo en las páginas siguientes. Otra acotación distinta a las anteriores, pero igualmente importante, es la que se refiere al hecho de que este tipo de validez no puede calificarse mediante un índice matemático o estadístico, sino que se deduce mediante un proceso de análisis lógico y de comparación. Dicho análisis se efectúa mediante la revisión del Plan de Evaluación, el cual contiene una lista de objetivos a evaluar, contenidos y Tabla de Especificaciones con las ponderaciones del caso. Entonces, el proceso de análisis comparativo y lógico habrá de abarcar tanto a la prueba a construir, como al Plan de Evaluación, de tal manera que la prueba acabada obedezca a una muy intensa correlación entre ambos elementos. Es éste el proceso idóneo para garantizar una elevada validez de los contenidos y de los resultados. Sin duda que los docentes más experimentados en el quehacer educativo, con más habilidad, conocimiento de la asignatura, creatividad y mayor ponderación de criterios, habrán de obtener cada vez resultados más válidos con respecto a aquellos docentes que se inician en estos menesteres. Ahora bien, como un intento de analizar en forma detallada los distintos casos en que ocurre la validez de contenido en las aulas escolares, trataremos de ofrecer ejemplos ilustrativos al respecto. Comenzaremos con el menos común, como es el que se refiere al que reúne todos los requisitos de este tipo de validez: elegiremos como propósito "Evaluar a los educandos en la 1ra. Unidad de la asignatura Estadística I de la Facultad de Ciencias de la Educación de la Universidad de Carabobo". Para ello se ha elaborado la siguiente Tabla de Especificaciones (Tabla N° 1): Tabla N° 1 > Tabla de especificaciones que contiene ponderación de la unidad I de Estadística Aplicada a la Educación I. Como se desprende de la Tabla de Especificaciones anterior, se va a intentar la evaluación de la unidad N' 1 de la asignatura Estadística I, tomando en cuenta en un 70% los objetivos a nivel de conocimiento yen un 30% aquellos de nivel de comprensión. De resultar esto así, podríamos admitir que los resultados obtenidos poseen una alta validez de contenido a evaluar y de los cambios de conducta esperados, ya que ambas características han sido contempladas en la elaboración del instrumento. No obstante, vale destacar que la validez de contenido puede verse afectada (en la mayoría de los casos podría disminuir considerablemente) debido a otros factores ajenos a las características que se han señalado; por ejemplo: mala redacción del instrumento, preguntas de muy alta dificultad o de muy baja dificultad, instrucciones vagas e imprecisas, número de preguntas poco representativas del universo de preguntas deseadas, adopción de criterios erráticos para otorgar las calificaciones, etc. Ahora supongamos que se va a intentar la medición de los objetivos referentes a la ara. unidad de la mencionada asignatura, para cuyos efectos se ha elaborado la siguiente Tabla de Especificaciones, contentiva de los contenidos de dicha unidad y de los cambios de comportamiento esperados. Veamos (Tabla Nº 2): Tabla N° 2> Tabla de especificaciones que contiene ponderación de la unidad III de Estadística I Observamos que el propósito esencial en esta evaluación es explorar en el grupo de educandos, sus conocimientos y capacidades de comprensión y resolución de problemas novedosos (aplicación) referentes a los contenidos de la unidad N° 3. Si se diseñare un instrumento que contenga el 40% de preguntas de comprensión y un 60% referentes a aplicación de conceptos, no podríamos negar la existencia de una alta validez de contenido. Para ello sólo bastaría con recordar el ejemplo anterior (ver Tabla de Especificaciones N° 1). Ahora bien, si por una determinada razón, que bien pudiera ser ahorro de espacio, tiempo, material, o sencillamente por descuido, se elaborase un instrumento que contuviera la casi totalidad de los contenidos (por ejemplo, 30 de comprensión y 50% de aplicación) tendríamos que admitir que la validez de los resultados no sería tan elevada como en el caso anterior, en razón de que el instrumento excluyó un 20% de los contenidos y objetivos a evaluar. Además de esta discriminación, vale la pena señalar que también dicha validez tendería a bajar por cuanto se han afectado las dos categorías de comportamiento que se pretendían medir. Observemos que el nivel de comprensión bajó del 40% al 30% y el de aplicación se redujo también en un 10% (del 60% bajó hasta el 50%). Otro caso muy común y del que hacemos referencia en atención a la frecuencia con el cual se presenta en las aulas escolares, es el siguiente: si se incluye la totalidad de los contenidos haciéndose caso omiso de las categorías de objetivos a evaluar, se produciría una reducción evidente de la validez de contenido, ya que ésta es, en esencia, el punto hasta el cual una prueba mide un ejemplo representativo del contenido de la materia y de los cambios de comportamiento que se consideren. Vale decir entonces, que el énfasis de la validez de contenido se da sobre la adecuación de los objetivos y preguntas respecto de los contenidos a evaluar, y no simplemente a la adecuación entre preguntas y contenidos. En un intento de ejemplificar lo expuesto anteriormente, podríamos establecer que si las preguntas incluidas en el instrumento fuesen de corte eminentemente memorístico, como por ejemplo: "Enumere las medidas de Tendencia Central", "Escriba el concepto de Modo", etc., no cabría la menor duda de la adecuación de tales preguntas al contenido, pero también habríamos de reconocer su inadecuación para la medición de niveles del comportamiento de Comprensión y Aplicación. De allí, pues, que la validez que se infiera sólo poseería un carácter aparente y de un grado bastante bajo. Otro caso digno de exponer a la consideración de los colegas educadores, es aquél que se presenta con mucha frecuencia en ciertas asignaturas en las cuales los educandos han manifestado una tendencia sostenida a dar bajo rendimiento (Matemática, Física, Química, Cálculo, Análisis Matemático, Fisicoquímica, Estadística, etc.). Veamos el ejemplo: a veces suele darse el caso de que se elabora un instrumento con el objeto de exigir del grupo, que reflejen su capacidad de razonamiento abstracto (resolver problemas, por ejemplo), pero las preguntas se redactan y se plantean detal manera que representan más una aparente elevada dificultad, que la deseada adecuación a los objetivos y contenidos a considerar. En otras palabras, se elaboran preguntas de niveles de aplicación, análisis, etc., con un alto grado de dificultad, dejándose de lado la ya comentada adecuación que debe existir. Por ejemplo: a la pregunta "Calcule las medidas de Tendencia Central", el educando respondería aplicando los conocimientos y habilidades desarrollados en el transcurso de su proceso de enseñanzaaprendizaje. Pero si la pregunta hubiese sido: "Justifique matemáticamente el procedimiento de cálculo de las medidas de Tendencia Central", en verdad existiría una adecuación entre las preguntas y los contenidos; pero ésta iría más allá del propósito original de la evaluación, como es el de establecer en su justa medida la conducta que se espera del educando, que no es otra que su capacidad para calcular las medidas de Tendencia Central. Evidentemente que en este caso la validez de contenido se ve afectada por el grado de dificultad del ejercicio, el cual rebasa los niveles de aprendizaje alcanzados por el educando. También es frecuente encontrarnos con situaciones propias de las Tablas de Especificaciones que se han elaborado haciendo una distribución de las ponderaciones (pesos específicos de los contenidos y objetivos a evaluar) que favorecen de manera ciertamente exagerada a algunos contenidos con respecto a los otros, dejando a estos últimos como recursos adicionales de evaluación, que no reciben, por consiguiente, la importancia real que deben tener con respecto a la totalidad del material a evaluar. Veamos el ejemplo siguiente (Tabla N° 3): Tabla N° 3 > Tabla de especificaciones que contiene ponderación de la unidad III de Estadística Aplicada a la Educación I. El aspecto que más llama la atención en la Tabla anterior, es la exagerada desproporción existente en la distribución del contenido y en las categorías de objetivos. Observemos que hay una diferencia del 80% entre las categorías Conocimiento y Aplicación, ya que la primera tiene un peso específico del 10% y la segunda un peso de 90%. Algo similar ocurre a nivel de los contenidos, ya que al aspecto "Relaciones entre los promedios" se le ha otorgado un peso específico del 70%, el cual debe ser considerado sumamente elevado si se toma en cuenta que hay otros tres aspectos más que evaluar. A todas luces se percibe una contradicción en esta distribución porque si el aspecto "Relaciones entre los promedios" es sólo uno del total del contenido, es decir, sólo el 25% del contenido a evaluar, ¿cómo es posible que su peso específico sea equivalente a un 70% del total a considerar? Tal distribución genera una incidencia directa en la validez que estamos considerando (la de contenido) ya que no existe argumento válido alguno que pueda explicar cómo un determinado aspecto del contenido puede garantizar por sí solo el alcance de todos y cada uno de los otros objetivos representados en este contenido. Aquí vale la pena destacar que los educandos, que hayan hecho hincapié en el estudio del contenido "Relaciones entre los promedios", podrían obtener elevadas calificaciones gracias al exagerado peso del cual fue objeto el mencionado contenido; pero en ningún caso dichas calificaciones serían un indicador con suficiente validez para enjuiciar el rendimiento de los educandos en la referida unidad. Además, la experiencia nos indica que el educando tiende a abarcar equitativamente la totalidad de los contenidos en sus actividades de estudio, y sólo con algunas excepciones se tiende a centrar el interés en una sola área extremadamente específica. Por lo tanto, las calificaciones derivadas de instrumentos que obedezcan a planeamientos de este tipo, casi siempre van a generar calificaciones con una insuficiente validez de contenido. Sin embargo, existen proposiciones y sugerencias muy serias dirigidas a contrarrestar este tipo de problemas. Entre esas sugerencias podemos anotar las siguientes: 1.- "Los tópicos principales del contenido de materias, así como los tipos principales de transformaciones del comportamiento que van a medirse con la prueba, se presentan en listas por separado. Dichas listas usualmente derivan del contenido, del tópico y de los objetivos en que se hace hincapié dentro del programa de instrucción. Si la prueba es para medir el aprovechamiento de un curso específico, quizás pudiera elaborar las listas el maestro que imparte las clases de dicho curso. Si la prueba va a usarse para toda la escuela, puede ser que un comité de maestros maneje mejor la preparación de las listas". 2.- "Los varios tópicos y tipos de materiales correspondientes a las transformaciones del comportamiento se ponderan en términos de importancia relativa. No hay procedimiento sencillo para determinar los pesos relativos apropiados. Depende del criterio personal que se guía por el tiempo que se consagra a cada área durante la instrucción, la filosofía de la escuela, la opinión de los expertos en el área y en criterios similares así". 3.- "Una tabla de Especificaciones se elabora a partir de las listas ponderadas de tópicos de materias y de transformaciones esperadas del comportamiento. Esta Tabla, entonces, especifica el énfasis relativo que la prueba debe dar a cada tópico de materia y cada tipo de transformación del comportamiento. 4.- "La prueba de aprovechamiento se construye o se selecciona de acuerdo con la Tabla de Especificaciones. Mientras más correspondan las partes de la prueba a las especificaciones que se indican en la Tabla, mayor será la probabilidad de que las respuestas de los alumnos a la prueba tengan un elevado grado de validez de contenido" (4) . VALIDEZ LIGADA A UN CRITERIO Sin duda alguna, este tipo de validez posee características muy particulares que la diferencian de la validez de contenido y de la validez de construcción. Por primera vez en el desarrollo de este trabajo veremos cómo se determina el coeficiente de validez mediante una metodología estadística que permitiría, de una manera sencilla, representarlo de una forma cuántica y, por supuesto, mensurable. Recordemos que en la validez de contenido sólo se deduce su grado mediante métodos lógicos y comparativos que, sin ánimo de menospreciar su fiabilidad y veracidad, pensamos que no reúne los requisitos necesarios para emitir juicios enteramente válidos acerca del grado de validez de los resultados (tampoco debemos pasar por alto el conjunto de recomendaciones que se hicieron en esa oportunidad en pro de mejorar aquella metodología). Pues bien, tal y como veníamos señalando en el párrafo anterior, la validez de criterio posee características muy particulares, las cuales se extienden desde su procedimiento y metodología para calcularla, hasta su capacidad para efectuar interpretaciones en dos sentidos claramente distintos entre sí. Es necesario decir que este tipo de validez sirve para emitir juicios de carácter predictivo (validez de predicción) y para la emisión de juicios acerca del estado actual de los educandos (validez concurrente) en torno a una característica previamente definida. Actualmente las designaciones de validez predictiva y concurrente han sido desechadas y reemplazadas por una categoría que se ha denominado validez ligada a criterio. Esta modificación ha sido aceptada gracias a que, para ambos casos (concurrente y predictiva), el método a emplear es el mismo (método correlacional) y la expresión del coeficiente también es la misma (la validez es una cuestión de grados cualquiera sea su tipo). La única diferencia que existe viene dada por el periodo de tiempo transcurrido entre las dos variables a correlacionar. En tal sentido hay que señalar que la validez de predicción se emplea cuando deseamos hacer alguna inferencia acerca de la actuación futura de los educandos. Es por ello que el lapso a transcurrir entre las dos medidas por obtener, debería ser lo más prolongado posible (trimestral, semestral o anual), con el objeto de que se garantice mayor veracidad y menos error en la predicción que habrá de hacerse con respecto a un grupo. Por ejemplo: si al comienzo de un período académico en cualquier instituto de educación superior del país, interesase predecir la actuación futura de los educandos en la asignatura Estadística I, podrían correlacionarse los resultados obtenidos por el grupo al comienzo y al final del período semestral. Evidentemente que si la relación existente entre ambos grupos de calificaciones resultase elevada, no habría razón para negar que los resultados de la prueba exploratoria poseen una alta validez predictiva, ya que una relación alta indica que efectivamente se produjo entre los educandos una elevada tendencia a dar un rendimiento similar en ambas pruebas. A manera de conclusión, diríamos que los resultados de la prueba exploratoria quedarían validados y que el criterio seleccionado ha sido el conjunto de calificaciones obtenidas al final del semestre. Para ilustrar este ejemplo observemos el siguiente planteamiento en el cual se desea conocer, con fines predictivos, la validez de los resultados de una prueba exploratoria (columna 2), habiendo seleccionado como criterio las calificaciones definitivas de una hipotética asignatura (columna 3). Ver Tabla N° 4: Tabla N° 4 > Calificaciones de un grupo de 15 alumnos en prueba exploratoria y definitiva, sus respectivos rangos lineales y cuadrados. Obsérvese que las columnas N° 2 y N° 3 representan a las variables en juego (calificaciones en la prueba exploratoria y calificaciones definitivas, respectivamente). Las columnas N° 4 y N° 5 sustituyen a las calificaciones de ambas variables por sus respectivos rangos o lugares; y las columnas N° 6 y N° 7 ilustran las diferencias de rango en términos lineales y al cuadrado, respectivamente. Es ese el procedimiento metodológico de corte estadístico conocido con el nombre de correlación por diferencia en colocación de Spearman Brown, cuyo símbolo es la letra griega p, y que tiene la siguiente fórmula: Este índice obtenido de p = 0.95 nos indica el grado y dirección de la relación existente entre ambas variables (la predictora y el criterio). Es de señalar que la correlación es de signo positivo y, en consecuencia, directa; lo cual es un indicador de que los educandos han manifestado una tendencia muy elevada a dar similar rendimiento en ambas pruebas. También es de destacar que una correlación de 0.95 revela que la relación es muy estrecha, ya que la magnitud del coeficiente es de una dimensión tal alta que se aproxima mucho al límite máximo de las correlaciones lineales (rho = 1). A manera de conclusión, podría señalarse que entre las variables predictora (calificaciones en la prueba exploratoria) y el criterio (calificaciones definitivas) existe una correlación muy elevada y directa que indica, a todas luces, que hay una muy elevada tendencia, por parte de los educandos, a alcanzar en ambas pruebas un rendimiento similar. Siendo esto así, tendríamos necesariamente que admitir el poder predictivo de los resultados obtenidos con la prueba exploratoria aplicada a comienzos del período. Con el objeto de profundizar en este aspecto, hemos elegido un ejemplo hipotético en el cual se pretende determinar el poder predictivo de las calificaciones del primer parcial, empleando como criterio las calificaciones definitivas de un curso en una determinada asignatura. La Tabla que se presenta a continuación (Tabla N'5) ilustra, similarmente al ejemplo anterior, todos los pasos procedimentales conducentes a obtener el coeficiente de correlación por diferencias en colocación para las variables mencionadas. Veamos: Tabla N° 5> Calificaciones de un grupo de 15 alumnos en un primer parcial y definitiva, sus respectivos rangos lineales y cuadrados. Sustituyendo en la fórmula Este índice de 0.06 nos indica una relación muy baja -casi nula- entre las dos variables; lo que viene a revelar que casi no hay relación entre ellas. Ahora bien, si "casi no existe" relación entre ellas, esto equivale a decir que los alumnos se comportaron de una manera muy distinta ante cada prueba, lo cual viene a comprobar la poca capacidad predictiva de los puntajes de la prueba exploratoria aplicada a comienzos del período. Estas interpretaciones se derivan de la misma esencia del método correlacional, el cual se emplea para determinar el punto hasta el cual dos o más variables están relacionadas. Este método posee el siguiente campo de variación o rango: Como puede verse, los extremos 1 y -1 representan las máximas relaciones que pueden darse entre dos variables. Estas se califican de relaciones perfectas directas e inversas, respectivamente. "Si fuese de signo positivo, significaría que todo el grupo mantuvo su rendimiento en ambas pruebas; y si fuese negativa igual a -1, significaría que todo el grupo cambió radicalmente su rendimiento de una prueba a otra" (5). En caso de que la correlación resulte igual a cero (rho = 0), se interpretaría como que ambas variables no guardan ningún tipo de relación; es decir, que son completamente independientes entre sí. En virtud de que ambos extremos representan las correlaciones más altas (perfecta positiva y perfecta negativa) todos aquellos coeficientes que se aproximen a esas cifras representarían relaciones altas; y en la medida en que se aproximen a cero, las relaciones han de interpretarse como relaciones bajas. De todas maneras, creemos que la mejor forma de ubicar un índice de correlación con fines de enjuiciar el tipo de relación, es disponiendo de una escala como la que sigue: La otra aplicación de la validez ligada aun criterio es la que se conoce con el nombre de Validez Concurrente, en la cual el factor decisivo es el lapso transcurrido entre los dos conjuntos de calificaciones a relacionar. Cuando se trata de determinar la Validez Concurrente, hay que tener muy claro que lo que se desea es conocer el estado actual en que se encuentran los educandos con respecto a un rasgo o característica determinada. En tal sentido, el lapso a transcurrir entre la obtención del conjunto de calificaciones que interesa validar, y el criterio elegido, tiene, necesariamente, que ser bastante corto, precisamente para que la relación refleje el "estado actual de los educandos" y no "el estado futuro" de los mismos. Obsérvese el ejemplo, en el cual se intenta validar un conjunto de calificaciones del 1er. trimestre escolar, en una asignatura de Lenguaje Extranjero que posee una prueba teórica (columna N° 2) y conversación (columna N° 3). Ha de suponerse que, siendo la misma asignatura, tanto los aspectos concernientes al lenguaje en sentido teórico, como en el práctico (vocabulario, por ejemplo), deberían coincidir en algún grado. Si esto resultase así, la relación entre ambas variables debería ser alta e indicar que aquellos educandos que han manifestado mayor rendimiento en la prueba teórica, también han dado un rendimiento elevado en la prueba de vocabulario (contenido en la prueba práctica). La Tabla que sigue (Tabla N° 6) ilustra el ejemplo en cuestión. Tabla Nº 6> Calificaciones de un grupo de 15 alumnos en Teoría del Lenguaje y Vocabulario, en el 1er. Trimestre, sus respectivos rango lineales y cuadrados. Si con los datos obtenidos de la Tabla anterior, sustituimos en la fórmula Un índice de este tipo (p = 0.87) señala que estamos en presencia de una correlación directa y alta que revela una gran relación entre ambas variables. Esta gran relación vendría a indicar que el rendimiento de los educandos en ambas pruebas ha sido similar; razón por la cual hay que afirmar que los resultados obtenidos con la prueba que mide los aspectos teóricos (la del 1er. trimestre) poseen una alta validez concurrente. No obstante, no podríamos decir lo mismo del ejemplo siguiente (Tabla N° 7). Tabla N° 7> Calificaciones de un grupo de 15 alumnos en el 1er. y 2do. Trimestre de una hipotética asignatura sus respectivos rangos lineales y cuadrados. Si sustituimos, considerando los valores parciales derivados de la Tabla anterior, en la fórmula del coeficiente de correlación por diferencia en colocación de Spearman-Brown, obtendremos lo siguiente: Esto revela que entre las calificaciones del 1er. trimestre y el 2do. trimestre de esta hipotética asignatura, hay muy poca relación, lo que indica que el rendimiento de los educandos en ambas pruebas ha sido muy distinto. Es decir, educandos con alto rendimiento en el 1er. trimestre han dado un bajo rendimiento en el 2do. trimestre, y viceversa. Esto significa, en términos ligados a la validez de la prueba y de sus resultados, que las calificaciones del 1er. trimestre no deben considerarse suficientemente válidas. CONSIDERACIONES ACERCA DEL CRITERIO SELECCIONADO Como hemos podido observar, cuando se intenta validar un conjunto de calificaciones y, por ende, la prueba mediante la cual se obtuvieron dichas calificaciones, es necesario tomar muy en cuenta la relevancia que tiene el criterio seleccionado para tales efectos, puesto que es ésta la variable con la cual se efectúa la correlación para obtener el índice de validez. Esto significa que el criterio seleccionado debe reunir un conjunto de requisitos que garanticen sus bondades como elemento validador. De no suceder así, los índices de validez obtenidos serían falsos y, en consecuencia, las interpretaciones y conclusiones a las cuales se llegue estarían impregnadas de márgenes de error muy elevados. Entre estos requisitos podemos anotar: 1.- La afinidad con los contenidos y objetivos. Pues no creemos que tenga sentido lógico alguno, el correlacionar dos variables que provengan de fuentes distintas. No guardan relación directa la Matemática con la Formación Social, Moral y Cívica, así como tampoco la Literatura con la Física. En todo caso deben seleccionarse asignaturas afines; y en el mejor de los casos, deben seleccionarse calificaciones obtenidas en las mismas asignaturas. Por ejemplo, para los estudios de Idiomas podrían correlacionarse los resultados obtenidos en una prueba de Vocabulario, con aquéllas obtenidas en Conversación o Traducción. Las calificaciones obtenidas con las pruebas de aula en Biología, Química y Física, podrían correlacionarse con las calificaciones obtenidas en las prácticas de laboratorio. Este planteamiento se hace en razón de que se supone (teóricamente) que los educandos que den mayor rendimiento en los aspectos teóricos, rendirían de manera similar en los aspectos prácticos; ya que entre ambos existe una comprobada concordancia, siendo esto lo que garantizaría una correlación directa y elevada entre ambas variables. 2.- La validez del criterio. Pues si hemos admitido que la validez es un atributo esencial de las pruebas de aula, de sus resultados, sería deseable que el criterio hubiese sido validado antes de utilizarlo para efectuar una validación. Aquí cabe la pregunta: ¿Podría un criterio no valido, ser un instrumento seguro y fiable para conocer la validez de otro instrumento? 3.- La confiabilidad. Ya que si dichos resultados no han sido obtenidos con la precisión adecuada, es decir, con suficiente exactitud, definitivamente no deberían emplearse en la validación de una prueba, porque aunque obtuviésemos una elevada correlación entre ambas variables, ésta representaría un índice engañoso de la veracidad de los valores validados. 4.- La contaminación del criterio. Esta contaminación proviene de dos fuentes: el maestro y los educandos. En el primer caso, por descuido, ingenuidad o desconocimiento, el maestro elige calificaciones que guarden relación con la variable a validar; pero obviamente, si dichas calificaciones no provienen de la misma asignatura o de otra que esté íntimamente relacionada con aquélla, la correlación obtenida nada podrá indicar con respecto a la validez de la primera variable. Sólo indicará la relación existente entre las variables correlacionadas, pero nada más. En el segundo caso, si los educandos se enteran de que la aplicación de una determinada prueba (criterio) obedece a razones de experimentación, ellos pudieran dar respuestas que no se corresponden con su real rendimiento, lo que afectaría grandemente la correlación a obtener en el proceso de validación. Por el contrario, si la aplicación de una prueba (criterio) se hace dentro de los parámetros de normalidad en un proceso de evaluación escolar, los educandos se esforzarían en dar un rendimiento acorde con su nivel. Evidentemente, los resultados provenientes de un caso como éste sí reunirían un mínimo de condiciones para validar un conjunto de calificaciones. MAGNITUD DE UN COEFICIENTE DE VALIDEZ Y EL ERROR ESTANDAR DE ESTIMACIÓN A decir verdad, no es posible dar una respuesta general a la pregunta: ¿Cuán grande debe ser un coeficiente de validez? Lo que sí es bien cierto es que la correlación obtenida entre las dos variables (predictora y el criterio) debe ser muy elevada para que resulte estadísticamente significativa aun nivel de confianza del 0.01 ó del O.05. En otras palabras, antes de establecer conclusiones acerca de la validez de una prueba y sus resultados, debemos estar seguros de que el coeficiente de validez obtenido no puede ser consecuencia de fluctuaciones casuales de muestreo: por ejemplo, si se desea predecir la calificación de un educando, debe interpretarse el coeficiente de validez en términos del error típico de estimación. Este, error típico "indica el margen de error que hay que esperar en la calificación de criterio pronosticada al individuo. Como resultado de la imperfecta validez del test" (6). Este error de estimación se halla mediante la fórmula en la cual De tal manera que si la validez fuese perfecta (r12 =1), la predicción de la calificación de un educando sería exacta, ya que el error típico de estimación sería: lo que significaría que la calificación en la variable de criterio no presentaría ningún tipo de variación, amén de la influencia de los otros factores que pueden incidir en el rendimiento del educando. Sin embargo, en el ejemplo expuesto en la Tabla N° 5, página 102, puede observarse el error de estimación siguiente: Este error significa que la calificación a predecir para los educandos, presentará una variación de 4.67 puntos; de manera que si alguno de ellos posee un puntaje obtenido (calificación) de Xo = 07, el valor predicho variará desde 11.67 hasta 2.33 puntos. Veamos: Según pudo observarse, una predicción hecha sobre la base de un error tan elevado revela una elevada probabilidad de equivocarnos. En el ejemplo anterior puede observarse cómo fluctúa el puntaje del educando. Esta fluctuación indica a las claras que no sabríamos cuál sería el real rendimiento futuro de éste, pues su puntuación oscila desde un límite de reprobado (2.33 puntos) hasta un límite de aprobación (11.67 puntos). Si analizamos el error típico de estimación para el coeficiente de validez de la Tabla N° 4 de la página 100, encontramos: Este error, igual a Uest =1.38, es un dato interesante si lo analizamos comparativamente con el anterior (Uest = 4.67). En este nuevo ejemplo (= 1.38), la seguridad en la predicción estará provista de una menor probabilidad de equivocación, porque la calificación predictora apenas varía en 1.38 puntos. Veamos: Esto significa que existe una elevada probabilidad de acertar en la predicción cuando se afirme acerca del éxito o fracaso futuro del educando. No pasemos desapercibidos el hecho de que la calificación de éste no sería ni mayor de 08, ni menor de 06 (redondeados para efectos de otorgar una calificación), cuestión que indica a las claras que el educando poseería un bajo rendimiento. Una vez presentados estos ejemplos, no vacilaríamos en aceptar que "a medida que aumente el coeficiente de validez, aumenta la probabilidad de acertar en la predicción, al disminuir el error de estimación; y de manera análoga, a medida que disminuye el primero, aumenta el error de estimación y se dificulta la posibilidad de acertar en la predicción".(7) VALIDEZ DE CONSTRUCCIÓN La aparente intención que se manifiesta en la aplicación de una prueba diseñada para la medición de una capacidad específica, puede resultar un recurso colateral para lograr del educando una información sobre alguna cualidad o rasgo psicológico ajeno a la dirección u orientación original de la prueba. En efecto, de las respuestas que los educandos ofrecen a las preguntas de una prueba, pueden deducirse dos (2) interesantes cuestiones: en primer lugar, su capacidad con relación a los contenidos de la asignatura objeto de medición; y en segundo lugar, su capacidad intelectual específica que le permite dar respuestas acertadas a los planteamientos. Esto último es lo que viene a representar la validez de construcción de una prueba. Tal y como lo señalan Crombach y Meehl (1966) en obra de Louis Karmel (1974): "Un constructo es un atributo postulado que supuestamente se refleja en el desempeño de los individuos"(8). Con el objeto de clarificar el planteamiento anterior, presentamos el siguiente ejemplo: Si un determinado maestro diseña una prueba de apareamiento con el propósito de determinar si los educandos " identifican los símbolos de algunos elementos químicos" (ver anexo 3), es de esperar que éstos, los alumnos, den respuestas acertadas no sólo porque hayan estudiado y revisado cuidadosamente el material, sino porque su capacidad intelectual les permitió memorizar los símbolos de aquellos elementos. Como podemos ver, la capacidad específica de los educandos es la que permite que éstos aprendan y asimilen los contenidos de materias, de manera que ¿cómo podrían dar respuestas acertadas a preguntas memorísticas si no tuvieran capacidad para memorizar? Esta es realmente la esencia de la validez de construcción. Así nos lo deja ver Anastasi (1974): "La validez estructural de un test es el grado en que éste mide una elaboración o un rasgo teórico. Como ejemplo de esta hipótesis citemos la inteligencia, la comprensión mecánica, la fluidez verbal, la velocidad de marcha, el neurotismo, la ansiedad" (9). Si consideramos como cierto este planteamiento, podríamos deducir que las pruebas de aula miden, en mayor o menor grado, algunos de los rasgos señalados por el precitado autor, puesto que la capacidad memorística (ejemplo anterior) se encuentra muy presente en las respuestas de los educandos a la prueba de apareamiento del anexo 3 y en todas las pruebas de selección elaboradas por el maestro. También la capacidad de abstracción está presente en las respuestas a las pruebas de ensayo y orales. La fluidez verbal también lo está en pruebas de ensayo, orales y trabajos monográficos. La velocidad de marcha también se explora y se conoce a través de las pruebas prácticas ligadas a la Educación Física y los Deportes. En otras palabras, todas las capacidades mencionadas forman parte de la inteligencia humana, y todas son necesarias y básicas para la producción de algún tipo de respuesta. Es ésta la razón fundamental por la cual hemos sido partidarios de considerar que "la actuación en la prueba puede interpretarse en términos de ciertos elementos psicológicos de construcción" (10), por cuanto que ello representa "una cualidad psicológica que nosotros suponemos que existe con el fin de explicar algún aspecto del comportamiento" (11). También James Popham W., quien conceptualiza la validez de construcción con la expresión "validez de selección de campo", señala que "existe un tercer método de conceptualizar el grado en que una prueba que hace referencia a un criterio (pruebas de aula), mide lo que supone que mide y está en relación con la precisión con que se hizo la selección de campo. El creador de pruebas. referidas aun criterio debe primero determinar el campo de conducta del alumno que mejor indica la situación de éste con respecto a una dimensión más amplia y peor definida, tal como un objetivo general" (12). Y más adelante agrega: "Una prueba referida a criterio, goza de selección decampo cuando puede establecerse que el campo particular escogido por su autor, sirve, en la práctica, adecuadamente, como indicador de la dimensión más general para cuyo reflejo se ha creado" 03) En virtud de que reconocemos el poco uso y la poca importancia que se da a la validez de construcción, hemos pensado contribuir a su esclarecimiento, brindando algunas técnicas y procedimientos adecuados para realizar una validación de construcción en los tests psicológicos. Sin embargo, aconsejamos que se haga la correspondiente extrapolación para que dichas técnicas sean extensivas a las pruebas de aula. Estas técnicas y procedimientos son, a juicio de Louis Karmel, las siguientes: 1.- "Correlaciones con otros tests. El test construido recientemente se correlaciona con tests establecidos, ya que son medidas aceptadas de la cualidad o rango que se vaya a examinar. Por ejemplo, el test de Stanford-Binet ha servido por muchos años como criterio para la validación de tests colectivos de inteligencia (también se usa en la validez relacionada con el criterio). El constructo que se va a medir es la inteligencia. Se supone que el Stanford-Binet mide la inteligencia; por tanto, una correlación alta entre la prueba nueva y el Binet, significará que aquél también mide la inteligencia". 2.- "Análisis factorial. Este procedimiento estadístico es de particular importancia para la validez de constructo. Básicamente, el análisis factorial es una técnica usada para analizar las interpretaciones de datos psicológicos. Su propósito principal es el de simplificar la descripción conductual reduciendo el número de categorías partiendo de una multiplicidad de variables de medición (test) hasta obtener unos cuantos rasgos. Identificando éstos, podrán usarse para describirla composición factorial de un test. Por tanto, un test puede identificarse tanto en términos de los factores principales que determinan sus puntuaciones, como del peso de cada factor". 3.- "Efectos inducidos experimentalmente. Para averiguar cómo respondería una prueba a los cambios de las condiciones externas cuando están presentes las variables inducidas experimentalmente. Por ejemplo, podría administrársele un test de ansiedad a un individuo en tensión. Y las puntuaciones de ansiedad y psicológicas durante y después del test" (14). ANEXO 3. Prueba de apareamiento. INSTRUCCIONES En la siguiente prueba de apareamiento, coloque dentro del paréntesis que antecede a cada símbolo de la columna N° 2, el número del elemento químico de la columna N° 1 que le corresponde. NOTAS (1) GRONLUND, Norman. Medición y Evaluación en la enseñanza. 2da. edic. Edil. Pax. México, 1973. Pág. 85. (2) SELLTIZ, C. JAHODA, M. DEUSTCH Y S. COOK. Métodos en las relaciones sociales. Edit. Rialp S.A., Madrid, 1973. Pág. 180. (3) GRONLUND, Norman. Op. cit. Pág. 86. (4) GRONLUND, Norman. Op. Cit. Pág. 89. (5) GILBERT, Norma. Estadística. Nueva editorial Interamericana. México. Cedro 512, 1980. Pág. 268. (6) ANASTASI, Anne. Los Tests Psicológicos. Edil. Aguilar S.A. ara. edic. Madrid, 1974. Pág. 136. (7) KERLINGER, Fred N. Investigación del Comportamiento. Teoría y Métodos. Edil. Interamericana, S. A. 2 da Edic. México, 1981. Pág. 326. (8) KARMEL, Louis J. Medición Escolar. Edil. Trillas, S.A. México D.F. 3ra. edic. 1974. Pág. 125. (9) ANASTASI, Anne. Tests Psicológicos. Edic. Aguilar, S.A. 3ra. edic. Madrid 1974, Pág. 119. (10) GRONLUND, Norman. Op. Cit. Pág. 102. (11) GRONLUND, Norman. Ibídem. Pág. (12) POPHAM W., James. Problemas y Técnicas de la Evaluación Educativa. Edil. Amaya/2. S.A. Madrid, Iriarte 4, 1980. Pág. 176. (13) POPHAM, W. James. Ibídem. Pág. 177. (14) KARMEL, Louis J. Op. Cit. Pág. 126.