Tema VI. Procedimientos empíricos para estimar la

Anuncio
Tema VI. Procedimientos empíricos para estimar la
precisión de las puntuaciones proporcionadas por los tests
INDICE
o
o
o
o
o
Introducción
Procedimientos basados en la correlación entre dos conjuntos de
puntuaciones
Procedimientos que requieren una sóla administración del test
Factores que afectan al coeficiente de fiabilidad
 La variabilidad de la muestra
 La longitud del test
 Limitaciones temporales para responder al test
Estimación de la puntuación verdadera
BIBLIOGRAFÍA RECOMENDADA
Muñiz, J. (1998). Teoría Clásica de los Tests. Madrid: Pirámide.
Contenidos:
Capítulo 2, apartados: 2.2; 2.3; 2.6 (no 2.6.3); y 2.7 (hasta 2.7.3,
incluido).
2
Introducción
En el tema anterior presentamos la TCT para el estudio de la
precisión de las puntuaciones aportadas por el test. El estudio de fiabilidad
es uno de los controles de calidad a los que el test debe ser sometido antes
de poder ser utilizado para el objetivo de medición.
El coeficiente de fiabilidad es un indicador de la precisión de las
puntuaciones observadas, en el sentido del grado de confianza que
podemos tener en ellas como "estimadores" de las puntuaciones verdaderas
de los sujetos. Sin embargo, el coeficiente de fiabilidad es una cantidad
teórica, que tampoco puede conocerse de forma directa sino que debe ser
estimada por algún procedimiento empírico diseñado de manera que se
respeten los supuestos teóricos del modelo de tests paralelos para
mantener la relación entre el coeficiente y el índice de fiabilidad. Esta
condición suele cumplirse fundamentalmente de dos formas:
1. Administrando únicamente un test: obviamente el test es una
forma paralela de sí mismo.
2. Administrando dos tests paralelos. Aunque es imposible en la
práctica construir dos tests estrictamente paralelos, existen
desarrollos teóricos que muestran como es posible el cálculo del
estimador del coeficiente cuando se cuentan con formas
“razonablemente” paralelas.
Existen diversos procedimientos para el cálculo del estimador del
coeficiente de fiabilidad. Presentar tales procedimientos, las condiciones de
realización, las posibles fuentes de error que es necesario tener en cuenta y
su interpretación, son los objetivos de este tema. A ellos habría que añadir
el estudio de los factores que afectan al coeficiente de fiabilidad, y de la
estimación de la puntuación verdadera.
Existen dos criterios a la hora de elegir el procedimiento para estimar
la fiabilidad más adecuado (Crocker y Algina, 1986). Uno sería elegir aquel
que alcance la estimación basándose en el supuesto de que se dispusiera de
medidas estrictamente paralelas. Por tanto el estudio de fiabilidad se
diseñaría para minimizar el efecto de la falta de paralelismo utilizando
medidas lo “más” paralelas posibles. El segundo criterio es elegir aquel
procedimiento más ajustado al objetivo final del test. El usuario debe
identificar las fuentes de error más probables que pueden contaminar sus
puntuaciones y diseñar el estudio de forma que estos errores pudieran
ocurrir para evaluar su efecto.
En general, el procedimiento elegido debe ser aquel que dicte el
objetivo del test. La exposición de este tema sigue este criterio.
3
1. Procedimientos basados en la correlación entre dos
distribuciones de puntuaciones
Se trata de procedimientos empíricos que requieren bien la
administración de dos formas paralelas de un test o bien la administración
en dos ocasiones del mismo test. A continuación, se describen cada uno de
ellos.
1. 1 Procedimiento de Formas Paralelas
En general, es frecuente encontrar la utilización de diferentes formas
de un test (formas o tests paralelos) en la evaluación de rendimiento y
aptitudes, ya que los usos de las puntuaciones suelen requerir que los
sujetos sean re-evaluados, y no es deseable someterlos al mismo conjunto
de ítems. También suele ocurrir que se desea tener dos formas paralelas del
test para evitar que los sujetos copien sus respuestas.
Imagine que se está celebrando una oposición para cubrir la oferta de
empleo público de la Junta de Andalucía. Para evitar que los candidatos
copien las respuestas de otros opositores próximos, se administran dos
exámenes diferentes: tipo A y tipo B. Es sensato pensar que los opositores
tienen derecho a que su puntuación no dependa del tipo de examen que les
haya tocado realizar, es decir, que su puntuación hubiese sido
aproximadamente la misma de haber realizado la otra forma del examen.
En este caso, el constructor del test debe estar interesado en minimizar el
error de medida cometido por diferencias en el contenido de ambos
exámenes. Por supuesto, existen también otras fuentes de error de medida
que están influyendo en las puntuaciones. Para intentar resolver la cuestión
de hasta qué punto los errores de medida están afectando en esa situación,
el constructor del test debe estimar el coeficiente de fiabilidad del test a
través del procedimiento de formas paralelas.
Este procedimiento requiere construir dos formas paralelas del test
que son administradas al mismo grupo de sujetos, dejando entre ambas
administraciones un intervalo de tiempo. Es decir, se administra el test 1,
se deja pasar un tiempo, y se administra el test 2. En concreto, el
procedimiento detallado sería como sigue.
1. Selección de una muestra representativa de sujetos. El término
“representativa” hace alusión, no sólo a que el número de sujetos
debe ser suficientemente alto, sino también, a que los sujetos deben
ser de características similares a aquellos con los que está previsto
usar finalmente el test. Esta obligatoriedad de contar con una
muestra de sujetos representativa es extensible al resto de los
4
procedimientos aunque en adelante no repitamos esta consideración
en la presentación de los distintos métodos.
2. Administración del test. Un test es un instrumento de medida
estandarizado. Dicha estandarización afecta de manera fundamental
a la forma de administrar el test. En otras palabras, las condiciones
de administración del test (tiempo dado a los sujetos, instrucciones,
etc.) deben ser similares a las condiciones en las que está previsto
usar finalmente el test. Por otro lado, a la hora de determinar dichas
condiciones es necesario tener en cuenta que el momento de la
administración es una importante fuente de error de medida. Por
tanto, el responsable del estudio deberá diseñar un “control
experimental” para minimizar en lo posible dichos errores (p. e.,
ruido excesivo, posibilidad de que los sujetos copien, de que adivinen
las respuestas, mala iluminación, etc.). Por último, y al igual que con
el paso anterior, todas estas consideraciones son extensivas al resto
de los procedimientos por lo que no se repetirán en adelante.
3. Dejar transcurrir un intervalo de tiempo. Si recordamos la lógica
general de los procedimientos para el cálculo de la fiabilidad veremos
como éstos se basan en obtener medidas repetidas de los mismos
objetos bajo las mismas condiciones. Con esta premisa principal la
determinación del intervalo de tiempo tendrá como objetivo
minimizar la posibilidad de cambios tanto de los sujetos (debidos a
aprendizaje, fatiga, recuerdo, etc.), como de las condiciones. En el
caso que nos ocupa, no es previsible la influencia del recuerdo dado
que los sujetos no volverán a enfrentarse a la misma tarea (los tests
no son idénticos en contenido, aunque están muy relacionados). Por
tanto, como norma general, se aconseja que el intervalo de tiempo
sea breve, para evitar cambios en los sujetos, pero lo
suficientemente largo para evitar la aparición de la fatiga. En
definitiva, el intervalo temporal en la aplicación de este
procedimiento puede consistir en unos pocos minutos, los suficientes
para que los sujetos descansen entre una y otra medición.
4. Administración de una forma paralela del test a la misma
muestra de sujetos. Podemos reinterpretar la definición formal de
tests paralelos diciendo que son dos tests que miden lo mismo y de la
misma manera. Esta característica es congruente con nuestro
objetivo de medir a los mismos sujetos bajo las mismas condiciones.
Sin embargo, la falta de paralelismo entre las formas del test
constituye habitualmente el principal atentado que se comete en la
estimación de la fiabilidad mediante este procedimiento. En efecto, es
prácticamente imposible construir dos formas de un test que sean
completamente paralelas y, a pesar de que existen desarrollos
teóricos que demuestran que no es necesario un paralelismo estricto,
sino que bastaría con formas “razonablemente” equivalentes,
cualquier coeficiente calculado mediante este procedimiento se verá
influido tanto por errores aleatorios de medida como por la falta de
similitud entre las formas. También es conveniente contrabalancear el
orden de administración de los tests, de forma que para la mitad de
los sujetos el orden de administración sea test1-test2, mientras que
5
para el resto sea test2-test1.
5. Cálculo de la correlación entre las puntuaciones de ambas
administraciones. Este coeficiente de correlación constituiría
directamente una estimación del coeficiente de fiabilidad del test.
Debido a la influencia ya señalada del grado de paralelismo entre las
formas, el coeficiente obtenido mediante este procedimiento se
denomina coeficiente de equivalencia. Cuanto mayor sea el
coeficiente, más seguro puede estar el usuario del test de que las
diferentes formas (test1 y test2) pueden ser intercambiables.
Aunque no existen criterios rígidos a la hora de evaluar el coeficiente
de equivalencia, los manuales de tests de rendimiento estandarizados
muestran coeficientes desde 0.8 hasta incluso más de 0.9.
Es necesario mencionar que el informe de fiabilidad del test debe ir
acompañado de datos como medias, desviaciones típicas y errores típicos
de medida para cada forma, y deben ser bastantes similares si el coeficiente
de equivalencia es interpretado como un estimador de la fiabilidad del test.
El cuadro siguiente muestra las características más relevantes de
este procedimiento.
Procedimiento
Fuentes de error
Apropiado
No apropiado
Formas paralelas
(Coeficiente de
equivalencia)
Falta de
equivalencia
entre las formas
Rasgos
inestables, tareas
fáciles de
recordar.
Rasgos estables,
tareas difíciles de
recordar.
1. 2 Procedimiento del Test-Retest
Hay ocasiones en que, para el objetivo de medida, es suficiente con
la administración de un solo test, pero el usuario está interesado en conocer
el grado de estabilidad de las puntuaciones del test en momentos
diferentes. ¿Variaría la puntuación si en lugar de pasar el test en esta
ocasión lo hiciera dentro de un tiempo? En esta situación, el mismo test se
administra en diferentes ocasiones. El procedimiento de cálculo para la
estimación del coeficiente de fiabilidad consiste en pasar el test en dos
ocasiones diferentes, dejando transcurrir un intervalo entre ambas
administraciones, y calcular la correlación entre los dos conjuntos de
puntuaciones.
En este procedimiento, además de los consabidos errores aleatorios
de medida, la principal fuente de error que puede atentar contra la
fiabilidad será el cambio en las puntuaciones de los sujetos debido a las
fluctuaciones que puedan producirse en los mismos como consecuencia del
paso del tiempo entre una administración y otra. Estas fluctuaciones pueden
6
ser de diferentes tipos: aprendizaje, maduración, etc. Al mismo tiempo, es
necesario controlar la posibilidad de recuerdo de las respuestas por parte
del sujeto (dejando pasar un lapso de tiempo suficientemente largo). El
coeficiente de fiabilidad, en este caso, nos dará información sobre la
estabilidad de las puntuaciones y, por ello, se denomina coeficiente de
estabilidad.
Este procedimiento es muy similar al anterior, las diferencias radican
en la duración del intervalo entre administraciones y en la ausencia de una
forma alternativa del test. Es el mismo test el que se pasa en las dos
ocasiones (el test se considera paralelo a sí mismo). Concretamente los
pasos para realizarlo son:
1. Selección de una muestra representativa de sujetos.
2. Administración del test.
3. Dejar transcurrir un intervalo de tiempo. Al igual que en el
procedimiento de formas paralelas será necesario fijar el intervalo de
tiempo con el objetivo de que no varíen ni los sujetos ni las
condiciones de medida. En este caso sí es posible la influencia del
recuerdo puesto que los sujetos volverán a contestar a los mismos
ítems. Esto aconsejaría aumentar la duración del intervalo pero tal
incremento podría tener consecuencias sobre las características de
los sujetos. Por tanto, como norma general se aconseja establecer un
intervalo de tiempo entre administraciones lo suficientemente amplio
como para que los sujetos olviden las respuestas que dieron en la
primera administración del test, pero no tan amplio como para que
los sujetos cambien (en términos de aprendizaje, maduración, etc.).
La determinación de dicho intervalo dependerá, por tanto, de:
a) La naturaleza de la tarea que se demanda a los sujetos (más o
menos fácil de recordar), y
b) Las características o naturaleza de la variable medida (más o
menos estable a través del tiempo).
Habitualmente, el intervalo empleado en este procedimiento es
sensiblemente mayor que el usado en el procedimiento de formas
paralelas.
4. Administrar nuevamente el test a la misma muestra de
sujetos.
5. Cálculo de la correlación entre las puntuaciones de ambas
administraciones. El resultado será una estimación del coeficiente
de fiabilidad que, en este caso y como se ha comentado con
anterioridad, recibe el nombre de coeficiente de estabilidad, debido
precisamente a que uno de los factores por los que se ve afectado es
la estabilidad temporal de las puntuaciones que proporciona.
Existen, de nuevo, pocos criterios a la hora de interpretar el
coeficiente de estabilidad. Entre los coeficientes más altos que se
7
encuentran en los manuales de tests de aptitudes, están aquellos que van
desde más de 0.7 hasta aquellos que sobrepasan el 0.9. Respecto a tests
de personalidad, suelen estar en torno a 0.8.
La interpretación del coeficiente de estabilidad supone responder a
algunas cuestiones. Un coeficiente bajo, ¿debe interpretarse como una falta
de estabilidad de las puntuaciones que ofrece el test o en el sentido de que
el rasgo medido en sí es inestable?
Si el usuario del test tiene razones para pensar que la variable puede
cambiar a lo largo del tiempo, ha violado uno de los supuestos de la TCT y
el coeficiente obtenido no es adecuado para estimar la fiabilidad de las
puntuaciones del test. Una cuestión diferente es si las puntuaciones de los
sujetos en la segunda administración del test se han visto influenciadas por
la primera, en términos de efectos de memoria, práctica, aburrimiento,…, o
cualquier otra consecuencia. Este procedimiento, por tanto, representa una
forma no del todo segura a la hora de estimar el coeficiente de fiabilidad
teórico. Sin embargo, la información acerca de la estabilidad de las
puntuaciones es crítica para los usuarios de los tests en muchas situaciones
prácticas de medida.
Procedimiento
Fuentes de error
Apropiado
No apropiado
Test-Retest
(Coeficiente de
estabilidad)
Cambio en los
sujetos. Recuerdo
o aprendizaje de
la tarea.
Rasgos estables,
tareas difíciles de
recordar.
Rasgos
inestables, tareas
fáciles de
recordar.
1. 3 Procedimiento del Test-Retest con formas paralelas
El coeficiente de fiabilidad también puede ser estimado a través de
una combinación de los dos procedimientos anteriormente descritos.
Puede ser definido como un procedimiento de formas paralelas en el
que se incrementa la duración del intervalo entre administraciones o bien
como un procedimiento test-retest en que la segunda administración se
realiza con una forma paralela. El coeficiente obtenido se ve afectado por
los elementos que influyen en los dos procedimientos anteriores, por lo que
recibe el nombre de coeficiente de estabilidad y equivalencia. Por ello,
habitualmente se obtiene coeficientes más bajos que los de estabilidad o
equivalencia con el mismo grupo de sujetos.
El procedimiento, en resumen, seria el siguiente:
1. Selección de una muestra representativa de sujetos.
2. Administración de una forma del test. Conviene contrabalancear
el orden de presentación de los dos tests, al igual que en el
procedimiento de formas paralelas.
3. Dejar transcurrir un intervalo de tiempo. En este caso, el lapso
8
sería más semejante al del procedimiento Test-Retest, con las
mismas consideraciones salvo en lo referente a la posibilidad de
recuerdo o efectos de práctica, ya que los dos tests difieren en
contenido.
4. Administrar el segundo test a la misma muestra de sujetos.
5. Cálculo de la correlación entre las puntuaciones de ambas
administraciones. En este caso el coeficiente se denomina de
coeficiente de equivalencia y estabilidad.
Procedimiento
Fuentes de error
Test-Retest con Formas
paralelas
(Coeficiente de
equivalencia y
estabilidad)
Cambio en los sujetos. Recuerdo
o aprendizaje de la tarea. Falta
de equivalencia entre las formas.
2. Procedimientos que requieren una sóla administración
del test
Hay ocasiones en que el usuario del test está interesado en la
fiabilidad de las puntuaciones obtenidas en una sola administración del test.
Además el usuario no tiene especial interés en comprobar la estabilidad de
esas puntuaciones a lo largo del tiempo porque, por ejemplo, espera que
varíen. Ese suele ser el caso de los tests de rendimiento en el que el paso
del tiempo significa una modificación en las puntuaciones de los sujetos
bien porque éstos olvidan la materia de examen, bien porque aprenden más
contenidos. Tampoco tiene especial interés en las respuestas de los sujetos
a un conjunto específico de ítems, sino que su objetivo principal es conocer
hasta qué punto la puntuación en ese conjunto puede ser generalizable a
todos los ítems que podría haber sido utilizados para operativizar el área de
contenido. Una forma de examinar el grado de generalizabilidad de esas
puntuaciones al dominio es determinar el grado de consistencia de las
respuestas de los sujetos, es decir, ver si los sujetos responden
consistentemente a lo largo del conjunto de ítems utilizados en esa ocasión
concreta. Los procedimientos desarrollados para dar cumplimiento a ese
objetivo se denominan métodos de consistencia interna.
Los procedimientos de consistencia interna que vamos a presentar
aquí se basan en las correlaciones entre diversas partes del test, bien entre
dos mitades, bien entre todos los ítems. En ese sentido, el supuesto de
medidas paralelas se cumplen desde la perspectiva de utilizar partes del
tests o ítems como medidas, más que el test en conjunto (p.e. test-retest)
9
o dos tests (p.e. formas paralelas). Es decir, se trata de evaluar si dos
mitades del test se comportan como subtests paralelos, o si los ítems del
test son paralelos unos a otros.
Si la ejecución de los sujetos es consistente a lo largo de las
subpartes del test (mitades o ítems), el usuario del test puede tener
confianza en que esa ejecución concreta traducida en la puntuación del test,
puede ser generalizable al dominio de interés (al resto de ítems que podrían
haberse utilizado para el mismo objetivo).
En los procedimientos de consistencia interna, la mayor fuente de
error viene representada por errores en la elección de los ítems. Estos
pueden no ser homogéneos, y por tanto la correlación entre conjuntos de
ítems no será elevada. Items homogéneos son aquellos que miden lo
mismo, es decir, representan el mismo dominio. Cuando los ítems
representan diversas áreas (geografía, matemáticas, arte,…), los sujetos
probablemente no mostrarán el mismo nivel de ejecución para todos los
ítems y el coeficiente calculado será bajo. En tal caso convendría calcular
coeficientes de consistencia interna para cada área o dividir el test en dos
mitades de forma que estén emparejados en el contenido respecto a cada
área. Incluso cuando los ítems representan una única área (p.e. historia),
pero presentan diferentes grados de dificultad, también el coeficiente será
bajo. Uno de los procedimientos descrito más adelante, dos mitades,
permite soslayar esta dificultad al emparejar ambas mitades con respecto a
la dificultad de los ítems. Por último, incluso si representan el mismo área y
son semejantes en cuanto a dificultad pero están pobremente redactados
(son técnicamente deficientes), los sujetos tendrán problema a la hora de
responder a ellos y se obtendrá una baja consistencia interna. Por tanto, la
consistencia interna es un índice tanto de la homogeneidad de los ítems
como de su calidad técnica.
Los procedimientos vistos anteriormente tenían como rasgo común la
necesidad de dos administraciones, en cambio, los procedimientos que
vamos a presentar en este apartado necesitan una sola administración del
test para ser realizados.
Vamos a ver a continuación dos grupos fundamentales de tales
procedimientos:
2. 1 Procedimientos basados en la correlación entre dos mitades
Los procedimientos anteriores tenían como rasgo común la necesidad
de dos administraciones, en cambio, el procedimiento de dos mitades y el
coeficiente alfa, necesitan de una sola administración para ser realizados. A
pesar de que en este procedimiento los sujetos responden una sola vez a un
único test, la lógica de la repetición sigue estando presente. En este caso
las “medidas repetidas” del mismo objeto se obtienen separando el test en
dos mitades y calculando la puntuación del sujeto en cada mitad. Ambos
subtests se consideran paralelos.
10
Vamos a presentar dos formas de estimar el coeficiente de fiabilidad:
a) través del cálculo de la correlación entre las dos mitades del test
aplicando la fórmula de Spearman-Brown; y b) mediante la fórmula de
Rulon.
Las etapas comunes para llevar a cabo estos procedimientos son:
1. Selección de una muestra representativa de sujetos.
2. Administración del test.
3. Dividir el test en dos mitades. Este es el punto más conflictivo del
procedimiento. El usuario del test dispone de muchas posibilidades a
la hora de dividir el test en dos mitades y es previsible que el
resultado final no sea el mismo en todos los casos. Para decidir cual
es la mejor forma de dividir el test debemos recordar el principio de
que la fiabilidad se calcula como la estabilidad en las puntuaciones de
los mismos objetos en las mismas circunstancias. En este caso las
“mismas circunstancias” aluden a las dos mitades del test. Al igual
que en el caso de los tests paralelos ambas mitades (dos medios
tests en definitiva) deben ser equivalentes. Una posible estrategia
consiste en asignar aleatoriamente los ítems a las dos mitades del
test. Sin embargo, este método puede producir dos mitades no
paralelas si, por ejemplo, los ítems representan más de un área de
contenido o difieren en la dificultad que suponen para la muestra de
sujetos. Otra estrategia clásica para conformar las dos mitades
consiste en ordenar los ítems en dificultad, numerarlos, y asignar los
impares a uno mitad y los pares a otra. Sin embargo, puede ser
necesario refinar la estrategia anterior cuando se trate de tests
heterogéneos que abarquen más de un área de contenido o
ejecución. En esta situación resulta conveniente agrupar primero los
ítems por áreas de contenido para posteriormente realizar la
ordenación por dificultad y la asignación a las mitades dentro de cada
conjunto de ítems. De esta forma se obtendría dos mitades
semejantes en cuanto a contenido, lo que siempre favorecería la
consistencia interna.
* Pasos específicos para el procedimiento mediante SpearmanBrown:
4. Calcular la correlación entre las puntuaciones de las dos
mitades. Conviene señalar que, al contrario que en los casos
anteriores, el coeficiente de correlación obtenido no corresponde al
coeficiente de fiabilidad del test. Tal coeficiente de correlación se ha
calculado entre dos medios tests paralelos. Indica, por tanto, el
coeficiente de fiabilidad de “medio test” obtenido por el
procedimiento de formas paralelas. Esto es, indica el coeficiente de
equivalencia entre las mitades del test.
5. Estimación del coeficiente de fiabilidad del test. Para ello es
necesario corregir el valor de correlación obtenido en el punto
11
anterior mediante la fórmula Spearman-Brown:
R12= 2 rAB/(1+rAB)
Donde R12
indica el coeficiente de fiabilidad del test y rAB la
correlación entre las dos mitades. Como hemos visto, el coeficiente
de fiabilidad obtenido es una función del grado de equivalencia entre
sus partes. Su valor representa el grado en que el test es
homogéneo, por esta razón el coeficiente de fiabilidad obtenido por el
procedimiento de dos mitades es un coeficiente de consistencia
interna.
*Paso específicos para el procedimiento de Rulon:
Calcular las puntuaciones D: para cada sujeto se calcula la
puntuación D que viene definida como: D = A - B; donde A es la
puntuación del sujeto en la mitad A y B, la puntuación del sujeto en
la mitad B. La varianza de estas deferencias se utiliza como
estimación de la varianza de las puntuaciones error en la definición
del coeficiente de fiabilidad según la TCT, como se describe a
continuación:
 X1 X 2
Sustituyendo
muestrales:
las
  E2
 1   2
 X
varianzas
 X1 X 2
por



sus
respectivos
estimadores
 S E2 
 1   2 
 SX 
A continuación, se debe sustituir la varianza error por la varianza de
las puntuaciones D:
 X1 X 2
 S D2 
 1   2 
 SX 
Debe plantearse la pregunta de bajo qué condiciones los dos
procedimientos, Spearman-Brown y Rulon, proporcionan resultados
semejantes. En el caso en que las varianzas de las puntuaciones observadas
(SA2 y SB2) de las dos mitades sean iguales o casi iguales (la relación entre
ambas, SA2/SB2 , esté entre 0.9 y 1.1), ambos procedimientos dan
resultados virtualmente idénticos. Sin embargo, según difieren ambas
varianzas, el procedimiento de Spearman-Brown da resultados mayores.
El problema de utilizar cualquiera de estos procedimientos basados
12
en las dos mitades es que, en función de qué ítems contengan cada mitad,
el coeficiente será distinto. En concreto, existen 1/2k! [(1/2k)!]2 formas de
combinar los ítems del test en dos mitades (k es el número de ítems) y, por
tanto, ese es el número de diferentes coeficientes de fiabilidad que pueden
calcularse a través del procedimiento de dos mitades.
Este problema suscitó intentos para desarrollar procedimientos que
dieran lugar a una única estimación del coeficiente de fiabilidad. Estos
procedimientos son los que veremos a continuación.
2. 2 Procedimientos basados en las covarianzas entre los ítems
Los dos procedimientos que vamos a ver a continuación fueron
desarrollados independientemente por Cronbach (1951), y Kuder y
Richardson (1937). Los tres estimadores llegan al mismo resultado y, por
ello, se los conoce por el nombre genérico de coeficientes alfa.
Los pasos comunes para el cálculo del estimador serían:
1. Selección de una muestra representativa de sujetos
2. Administración del test
3. Cálculo del estimador
2. 2. 1 Coeficiente alfa
Fue desarrollado para calcular el grado de consistencia interna de los
ítems. La siguiente fórmula es aplicable tanto a ítems dicotómicos (sólo
admiten dos respuestas: verdadero/falso, sí/no, acuerdo/desacuerdo,..),
como a ítems de elección múltiple (con más de una alternativa de
respuesta). La expresión formal es:
2
k   ˆ i 
ˆ 
1 2

k  1  ˆ X 
, donde ˆ es el estimador del coeficiente de fiabilidad, k el número de
ítems del test, ˆ i2 es la varianza de las respuestas de los sujetos al ítem i, y
ˆ X2 la varianza de las puntuaciones observadas del test.
Si asumimos que todos los ítems son paralelos entre sí, el coeficiente
ˆ sería un estimador directo del coeficiente de fiabilidad del test. Sin
embargo, en la mayoría de las situaciones de medida esta suposición es
insostenible al 100 %, por lo que la afirmación se restringe y se dice que
ˆ   X1X 2 , es decir, ˆ es el límite inferior del coeficiente de fiabilidad. Si ˆ
13
=0.8, podremos decir que  X1 X 2 es, al menos, 0.8. Puede ser mayor, pero no
menor.
2. 2. 2 Fórmulas de Kuder-Richarson
Como se ha comentado anteriormente, también este procedimiento
llega a la misma estimación que el anterior. Sin embargo, las fórmulas KR20
y KR21 sólo son utilizables con ítems dicotómicos, lo que restringe su
utilización. Para ítems con más de dos alternativas de respuesta se debe
utilizar el alfa de Cronbach. La expresión para el estimador KR20 es:
KR20 
k   pi qi 
1 2 

k 1
ˆ X 
Donde piqi es la expresión de la varianza para el ítem dicotómico i. Como
puede observarse, la fórmula es idéntica a la de Cronbach pero está
expresada únicamente para su utilización con ítems dicotómicos.
Si se asume que todos los ítems poseen la misma dificultad, podría
utilizarse la fórmula KR21, más simple de calcular porque no necesita
computarse la varianza ítem por ítem.
KR21 
k  ˆ k  ˆ  
1 

2
ˆ
k 1
k X 
, donde ̂ es la media de la puntuación total de los sujetos en el test. Sin
embargo, si la dificultad de los ítems varía, es necesario tener en cuenta
que la estimación a través de la fórmula KR21 será sistemáticamente menor
que la obtenida a través de la KR20.
2. 2. 3 Consideraciones sobre alfa y Kuder-Richarson
Se trata de consideraciones generales sobre la interpretación de las
estimaciones proporcionadas por ambos procedimientos:
1. El coeficiente alfa puede ser utilizado como un índice de consistencia
interna. Al interpretarlo es necesario tener en cuenta que no aporta
información sobre la estabilidad de las puntuaciones del test ni sobre
la equivalencia de las puntuaciones respecto a otra forma paralela del
test.
2. Puede ser considerado como el límite inferior del coeficiente de
fiabilidad. Si ˆ =0.7, podemos decir que al menos el coeficiente de
fiabilidad es de 0.7. No podemos asegurar que sea mayor, ni cuanto
mayor.
14
3. El coeficiente alfa sería la media teórica de todos los posibles
estimadores del coeficiente de fiabilidad calculado a través de la
fórmula de Rulon. Dicho de otra forma, si se estima el coeficiente a
través del procedimiento de dos mitades asignando aleatoriamente
los ítems a cada una de ellas y se calcula con la fórmula de Rulon,
alfa sería el valor esperado de esa estimación.
4. Una interpretación errónea de alfa es que un valor relativamente alto
de alfa implica que los ítems del test son unidimensionales. Debido a
que alfa depende de la covariación entre los ítems del test, otros
factores diferentes de la unidimensionalidad pueden estar afectando a
la covarianza.
Finalmente considerar los aspectos más
procedimiento reflejados en el siguiente cuadro.
Procedimientos
Fuentes de error
Dos mitades
Falta de equivalencia entre
las mitades
Coeficientes alfa.
Falta de calidad técnica de
los ítems o ausencia de
homogeneidad
relevantes
Apropiado
de
este
No apropiado
Test
velocidad1.
Pruebas
de
contenido
homogéne
o.
3. Factores que afectan a la estimación del coeficiente de
fiabilidad
Es necesario considerar que la estimación del coeficiente de fiabilidad
es sensible a una serie de factores. En concreto la estimación depende de:
1. La homogeneidad de la muestra donde ha sido calculado.
2. La longitud del test
3. El límite de tiempo que se les da a los sujetos para completar el test.
3. 1 La variabilidad de la muestra
Se ha dicho anteriormente que el coeficiente de fiabilidad era una
cantidad teórica que no podía conocerse con exactitud, sino que era
necesario estimarla a través de las respuestas de un conjunto de sujetos a
1
Más adelante, en el apartado de Factores que afectan al coeficiente de fiabilidad, se ofrecerá una
explicación al respecto.
15
un conjunto de ítems. Pues bien, es necesario tener en cuenta que si
queremos utilizar la información proporcionada por la estimación del
coeficiente de fiabilidad, ésta será útil en la medida en que se aplica a otra
muestra de semejante homogeneidad a aquella donde fue calculado.
De no ser así, la estimación del coeficiente variará sensiblemente. En
concreto, la fiabilidad del test disminuirá si el test ha de aplicarse a una
muestra más homogénea. Recuérdese que más homogénea implica menor
variabilidad entre los sujetos, es decir, menores diferencias entre ellos.
Siempre que elijamos una muestra donde se espera una reducción en la
varianza de las puntuaciones observadas, ˆ X2 , será necesario modificar la
estimación del coeficiente de fiabilidad para adaptarlo a esta nueva
condición. Por ejemplo, si se calcula el coeficiente en un grupo de sujetos,
pongamos un curso de matemáticas de 3º de B.U.P., pero queremos aplicar
el test en un grupo de sujetos con un expediente académico elevado en
matemáticas, es de esperar que entre este segundo grupo las diferencias
con respecto al rendimiento en matemáticas será menores que la existente
en toda la clase. Esta reducción en la variabilidad de los sujetos con
respecto a la puntuación en el test supondrá una reducción en la fiabilidad
del test. El estimador debe ser corregido.
Considérese el cálculo del coeficiente en cada una de las dos
muestras. Dado que en las dos muestras se utiliza el mismo test, el error
típico de medida (una propiedad del test) será el mismo en cada una de
ellas.
S X21 1  RXX '   S X2 2 1  RXX ' 
,donde los subíndice 1 y 2 hacen referencia a las dos muestras. Asumamos
que hemos calculado el coeficiente Rxx en la muestra 1, con variabilidad S X2 1 ,
y queremos saber cuál sería el valor de RXX en la muestra dos, con
variabilidad S X2 2 . Sólo nos resta despejar RXX :
 S X2 1 1  R XX ' 
R 1 

2
S X2


'
XX
Esta expresión nos permite corregir la estimación del coeficiente de
fiabilidad cuando queremos aplicar el test en una muestra con variabilidad
S X2 2 , diferente a aquella correspondiente a la muestra donde fue estimado
originalmente, S X2 1 .
Nótese que el nuevo coeficiente es inversamente proporcional a la
fracción S X2 1 / S X2 2 . Por tanto, cuanto menor sea esta fracción mayor será el
coeficiente. O lo que es igual, cuanto mayor sea S X2 2 , la variabilidad de la
nueva muestra, con respecto a S X2 1 , mayor será el nuevo estimador.
16
Como consecuencia, a la hora de utilizar un test es necesario
comparar las varianzas de la muestra donde queremos aplicarlo con aquella
en la que fue calculado. Si las varianzas son muy diferentes, será necesario
realizar un estudio de fiabilidad en una muestra apropiada a las
características de nuestra nueva población de sujetos.
3. 2 La longitud del test
Un aspecto del test que afecta tanto a la varianza de las
puntuaciones observadas como a la varianza de las puntuaciones
verdaderas y, por tanto, al coeficiente de fiabilidad, es la longitud del test.
Ya se adelantó esta idea en el apartado del cálculo del estimador
mediante el procedimiento de división del test en dos mitades. Allí se indicó
la necesidad de corregir la correlación entre las mitades A y B, RAB, ya que
esa estimación correspondía a un test de longitud ½ respecto del test
original.
Imagínese la situación en que disponemos de dos tests para medir el
mismo constructo, el primero con un solo ítem y el segundo con 10 ítems.
Obviamente, tendremos más confianza en la puntuación del segundo test,
ya que hace un muestreo más a fondo el constructo que queremos medir.
La fórmula de Spearman-Brown proporciona la relación entre
coeficiente de fiabilidad y longitud del test:
R XX 
kR12
1  k  1R12
,donde R XX  es el estimador del coeficiente de fiabilidad del nuevo test con
longitud k veces el test original, y R12 el estimador del coeficiente de
fiabilidad del test original. Obsérvese que k no es el número de ítems del
test original ni del test final, sino el número de veces que es necesario
multiplicar la longitud original para obtener la longitud actual. Por ejemplo,
en el procedimiento de dos mitades, k es igual a 2. Por tanto k no tiene por
qué ser entero ni mayor que 1. En efecto, podríamos estar interesados en
conocer cuál sería el valor del estimador para un test con un tercio de ítems
de nuestro test original. En ese caso k=1/3 , es decir, k= 0.33.
Para calcular k se puede utilizar la siguiente fórmula: k= nº ítems del
test final/nº de ítems del test original.
Cuando la longitud del test para el cual queremos aplicar la fórmula
crece con respecto al número de ítems del test original, k será mayor que
uno. Si el test actual posee menos ítems que el test original, k será menor
que 1.
Según aumenta el número de ítems, lo hará el estimador del
coeficiente de fiabilidad. Sin embargo este crecimiento no se corresponde
17
con un incremento lineal, sino que viene definido por una curva
negativamente acelerada. Esto supone que los incrementos en el estimador
del coeficiente de fiabilidad serán cada vez menores según va aumentando
k. Por ejemplo, duplicar la longitud de un test con R12=0.60, supone
obtener un nuevo estimador R XX  =0.75; triplicar la longitud dará como
resultado R XX  =0.81; pero quintuplicar la longitud supondría un incremento
solo de R XX  =0.88. Obsérvese que de triplicar la longitud a quintuplicarla
sólo se ganan 7 centésimas, mientras que al duplicarlo se ganan 15. Por
tanto, llegados a cierto punto los débiles incrementos en el estimador no
justifican el esfuerzo de construir más ítems para añadir al test.
Es necesario hacer notar que la fórmula de Spearman-Brown es un
reflejo de la fiabilidad sólo cuando los ítems que se añaden (o eliminan) son
paralelos en contenido y dificultad respecto a los ítems originales del test. Si
se añaden ítems que no sean paralelos, el incremento en la fiabilidad no
será real.
3. 3 Restricciones temporales
En los llamados tests de velocidad el sujeto se enfrenta a ítems de
dificultad baja, pero debe responder en un tiempo limitado, que está
pensado para que nadie conteste todos los ítems. Interesa conocer cuántos
ítems ha realizado correctamente. En los tests de potencia, la dificultad de
los ítems es mayor, pero el sujeto dispone de un tiempo más que suficiente
para completar los ítems cuya respuesta conoce.
En los tests de velocidad, el grado de rapidez que un sujeto es capaz
de desarrollar entra a formar parte de la varianza de las puntuaciones
verdaderas. Este grado influirá en todas las repetidas administraciones del
test. Por tanto cuanto se calcula es estimador del coeficiente con los
procedimientos de dos administraciones, como ese factor influye en ambas
administraciones, no tiene importancia a la hora de comparar ambas
ejecuciones del sujeto.
Sin embargo, cuando el usuario del test está interesado en conocer la
consistencia interna del test, ésta se verá inflada artificialmente en los tests
de velocidad. Este efecto es especialmente importante cuando se utiliza el
procedimiento de dos mitades a través de la numeración de los ítems y la
asignación de pares-impares a las dos mitades. Una vez que se ha acabado
el tiempo de realización del examen, todos los ítems no contestados, pares
e impares, estarán perfectamente correlacionados (sus puntuaciones serán
cero) independientemente de si los ítems son homogéneos en contenido o
no. Lo mismo puede aplicarse a cualquiera de los procedimientos de
consistencia interna.
Por ellos, se aconseja utilizar el procedimiento de test-retest o formas
paralelas para estimar la fiabilidad de los tests de velocidad.
18
4. Estimación de la puntuación verdadera
Aunque la puntuación verdadera de un sujeto nunca puede
determinada con exactitud. Sin embargo es posible estimarla utilizando los
datos de un grupo de sujetos que contestan al test. Esta estimación se basa
en la ecuación de regresión para predecir un valor de Y a partir de un valor
conocido de X:
Y '   XY
Y
 X   X   Y
X
Sustituyendo Y por V, la puntuación verdadera, la ecuación de
regresión nos permite estimar V a partir de X, la puntuación observada del
sujeto en el test:
V '   XV
V
 X   X   V
X
Dado que  XV es el índice de fiabilidad del test y es igual a v/x,
podemos sustituir la expresión del recuadro por el coeficiente de fiabilidad,
que es el cuadrado del índice, y como V   X , podemos formular la
ecuación así:
V '   XX ' X   X   V
Expresando las puntuaciones en diferenciales (recuérdese que la
puntuación diferencial se obtiene restando la media de la puntuación
directa):
v '   XX ' x
Donde v’ es la puntuación verdadera diferencial predicha por la
ecuación, XX’ el coeficiente de fiabilidad el test, y x la puntuación observada
diferencial. ¿Qué relación existe entre la predicción de la puntuación
verdadera, v’, y el coeficiente de fiabilidad? Cuando éste es bajo, v’ tiende a
estar cerca de la media del test, X , por un fenómeno denominado
regresión a la media. Con una fiabilidad baja, esa es la predicción que nos
da la fórmula. Según aumenta el coeficiente de fiabilidad, v’ tenderá a estar
mas alejado de la media del grupo y más cercano a x. Si el coeficiente fuese
1 (no habría errores de medida) v coincidiría exactamente con x.
Cuando la interpretación de las puntuaciones se quiere hacer
comparándolas con la media del grupo, no es necesario estimar la
puntuación verdadera, ya que obtendremos la misma ordenación que
19
utilizando las puntuaciones observadas en el test (puesto que V=X). El
cálculo de la estimación de la puntuación verdadera es más útil cuando se
quiere interpretar las puntuaciones comparándolas con un criterio. Veamos
un ejemplo de esta última utilidad.
Supongamos que se construye un test para asignar a estudiantes a
grupos especiales de enseñanza. Los sujetos con puntuación igual o menor
a 80 pasarán a una clase para sujetos con problemas de aprendizaje,
mientras que aquellos con una puntuación igual o superior a 130 pasarán a
una clase para sujetos con habilidades superiores. Dos sujetos obtienen las
puntuaciones observadas 79 y 132. ¿Qué decisión debe tomarse respecto a
cada uno? Si nos fijamos sólo en las puntuaciones observadas el primero
pasaría a la clase de sujetos con problemas de aprendizaje y el segundo a
aquella para sujetos con habilidades superiores. Pero, ¿están justificadas
estas decisiones a la luz de sus puntuaciones verdaderas estimadas?
Sea 100 la media del test y 0.9 el estimador del coeficiente de
fiabilidad. Las respectivas puntuaciones verdaderas serían:
T´= 0.9 (79-100)+100=81.1
T’=0.9 (132-100)+100=128.8
Como puede verse, ninguna de las dos decisiones sería correcta
teniendo en cuenta la fiabilidad del test. Las puntuaciones verdaderas de los
sujetos difieren de las puntuaciones observadas. Aunque sigue siendo cierto
que la puntuación del primer sujeto es menor que el del segundo, ninguno
cae dentro de los intervalos ( X80, X130) pensados para sujetos
especiales.
Otra forma de estimar la puntuación verdadera es construir un
intervalo de confianza en torno a la puntuación observada utilizando el error
típico de medida del test. Cuando el sujeto responde al test, la desviación
esperada de sus errores de media es el error típico de medida del test, SE.
Como las distribuciones de las puntuaciones observada y error siguen,
según el modelo, una distribución normal, podemos decir que el 68% de las
puntuaciones observadas están a 1SE de la media de la distribución de
puntuaciones observadas, esto es, de la puntuación verdadera. El 95% de
las puntuaciones observadas estarán a 2SE de la puntuación verdadera. Por
tanto, si elegimos una puntuación observada al azar, X, podemos decir que
la puntuación verdadera estará incluida en el intervalo X1SE con una
probabilidad del 68%. O que estará incluida en el intervalo X2SE con una
probabilidad del 95%. Como puede deducirse de este razonamiento, cuanto
menor sea el error típico de medida del test, menor será el intervalo en
torno a X y, como consecuencia, menor será el rango de puntuaciones
dentro del intervalo, es decir, afinaremos más en torno a X. Por ello, cuanto
más fiable sea el test, más “finos” podemos ser a la hora de construir el
intervalo.
Descargar