Subido por Marye Elías

Principios de psicometría - Carmen Santisteban Requena

Anuncio
PRINCIPIOS DE PSICOMETRÍA
Consulte nuestra página web: www.sintesis.com
En ella encontrará el catálogo completo y comentado
PRINCIPIOS DE PSICOMETRÍA
CARMEN SANTISTEBAN REQUENA
EDITORIAL
SINTESIS
Vallehermoso, 34
28015 MADRID
Telf: (91) 593 20 98
Fax: (91) 445 86 96
Diseño y óleo de cubierta: Verónica Rubio
Reservados todos los derechos. Está prohibido, bajo las sanciones
penales y el resarcimiento civil previstos en las leyes, reproducir, registrar
o transmitir esta publicación, íntegra o parcialmente,
por cualquier sistema de recuperación y por cualquier medio,
sea mecánico, electrónico, magnético, electroóptico, por fotocopia
o por cualquier otro, sin la autorización previa por escrito
de Editorial Síntesis, S. A.
© Carmen Santisteban Requena
© EDITORIAL SÍNTESIS, S. A.
Vallehermoso, 34. 28015 Madrid
Teléfono 91 593 20 98
http://www.sintesis.com
ISBN:
ISBN:978-84-975663-0-8
978-84-975683-4-0
Depósito Legal: M. 11.211-2009
Impreso en España - Printed in Spain
Índice
Prólogo
13
1. Psicometría y teoría de tests: Introducción
La medición de los atributos psicológicos y los instrumentos
que la hacen posible
1.1. Cuantificación y experimentación: Los inicios de la psicología
como ciencia cuantitativa
1.2. Los fundamentos de la psicometría
1.3. La medición de las aptitudes mentales
Algunos antecedentes
1.4. Tipos de tests
1.5. Variabilidad de las puntuaciones
Distribución de las puntuaciones
1.6. La interpretación de las puntuaciones
Las puntuaciones tipificadas (puntuaciones z)
Las escalas y las normas
1.7. Teorías y modelos
1.8. La construcción del test
La redacción de los ítems
La administración de los tests
Puntos clave
Actividades
2. Teoría clásica de los tests
El modelo lineal de Spearman
2.1. Formalización del modelo de Spearman
Hipótesis
19
19
21
22
24
27
28
30
35
36
38
39
46
48
48
50
51
53
54
54
6
Principios de Psicometría
2.2. Relaciones e índices que se deducen de las hipótesis
2.3. Condiciones de paralelismo entre medidas: Consecuencias
Medidas paralelas
Medidas tau-equivalentes
Comprobación del paralelismo
Consecuencias prácticas
Puntos clave
Actividades
3. Fiabilidad
Precisión de las medidas
55
60
60
64
65
66
73
73
75
3.1. El concepto de fiabilidad
3.2. Ecuaciones para definir y calcular la fiabilidad
76
78
Definiciones
Ecuación para un test compuesto por subtests
Valores e interpretación
78
80
81
3.3. Formas usuales de generar medidas repetidas
83
Test-retest
Formas paralelas
División en dos partes
3.4. Cálculo práctico de los coeficientes e índices de fiabilidad
3.5. Otras ecuaciones para el cálculo de la fiabilidad
Ecuación de Rulon
Ecuación de Flanagan y Guttman
Puntos clave
Actividades
4. Fiabilidad
Variabilidad y longitud de las pruebas
4.1. Fiabilidad y variabilidad de las puntuaciones
4.2. Fiabilidad y longitud de las pruebas
Ecuación de Spearman-Brown
Los valores de k
Variaciones de la fiabilidad con la longitud
Cambios en la longitud para valores prefijados de la fiabilidad
4.3. Relaciones entre fiabilidad, longitud y varianza
Puntos clave
Actividades
84
84
85
86
90
91
94
95
96
99
99
103
104
108
108
111
116
119
119
Índice
5. Fiabilidad
Consistencia interna: El coeficiente α
5.1. El coeficiente α y las ecuaciones de Kuder-Richardson
Coeficiente α
Ecuaciones de Kuder-Richardson
5.2. El coeficiente α: Cota inferior de la fiabilidad en tests compuestos
5.3. Casos particulares del coeficiente α
Ecuaciones de Rulon y de Flanagan y Guttman
Ecuación de Hoyt
5.4. El coeficiente β
5.5. Cálculo de α con técnicas de análisis de varianza
5.6. Coeficientes derivados del análisis factorial
El coeficiente Ω
El coeficiente θ
5.7. Variaciones de la fiabilidad
Cuantía
La fórmula de cálculo
Aplicación de la ecuación de Spearman-Brown
Puntos clave
Actividades
6. Inferencias
Estimación y contrastes de significación
6.1. Predicciones de la puntuación verdadera
6.2. Errores de medida, de estimación y de predicción
Tipos de errores
Relación entre los errores
6.3. Intervalos de confianza para la puntuación verdadera
6.4. Contrastes de medias
Diferencias entre la media de una muestra y la de la población
Diferencia de medias en muestras independientes
Diferencia de medias en muestras relacionadas
6.5. Significación e inferencias de los coeficientes de fiabilidad
Contrastes de coeficientes de correlación
Contrastes para coeficientes α
Puntos clave
Actividades
7
121
122
123
123
125
130
130
131
136
138
141
141
143
144
144
145
146
149
150
153
153
156
157
159
159
164
165
167
168
173
174
176
179
180
8
Principios de Psicometría
7. Teoría de la generalizabilidad
¿Cómo afectan a las medidas distintas facetas y fuentes de error?
7.1. Conceptos básicos y terminología
7.2. Estudios G
Diseño de una faceta
Diseño de dos facetas
7.3. Estudios D
Coeficientes de generalizabilidad y toma de decisiones
Diseño de una faceta
Diseño de dos facetas
7.4. Diseños anidados versus diseños cruzados
Puntos clave
Actividades
8. La validez
¿Qué es la validez?
8.1. El concepto de validez
8.2. Tipos de validez
8.3. Validez en relación con el contenido
Validez de contenido versus validez aparente
8.4. Asociaciones con otras variables: Evidencias de validez convergente
y discriminante
8.5. Validez en los procesos de respuesta
8.6. Validez en relación con el criterio
8.7. Validez de la estructura interna del test
8.8. Validez de constructo
Puntos clave
Actividades
9. La validez
Evaluación de las evidencias de validez
9.1. Validación del contenido
9.2. El coeficiente de validez
Validez y fiabilidad
Validez y longitud
Acotación del valor del coeficiente de validez
Coeficientes derivados del coeficiente de validez
Validez y representación muestral
183
184
189
189
193
196
197
198
201
204
205
206
209
209
211
216
218
218
221
222
223
224
227
227
229
230
231
232
236
239
240
243
Índice
9.3. Validez relativa al criterio
Pronóstico mediante regresión lineal simple
Pronósticos mediante una batería de predictores
Selección de las variables predictoras
9.4. Evaluación de la validez convergente y discriminante
Red nomológica y correlaciones
El método de Westen y Rosenthal
Matrices multirrasgo-multimétodo
9.5. Validez de la estructura interna del test
Puntos clave
Actividades
10. La validez
Coeficiente de validez y toma de decisiones
10.1. Detección, clasificación y diagnóstico
Sensibilidad y especificidad
Curvas ROC
10.2. Interpretaciones y uso práctico del coeficiente de validez
9
247
247
250
252
253
255
256
257
260
264
265
267
267
270
273
276
BESD
Tablas de Taylor-Russell
276
279
10.3. Análisis de la utilidad
Puntos clave
Actividades
284
290
291
11. Teoría de la respuesta al ítem
Aspectos generales
11.1. Orígenes y objetivos de la teoría de la respuesta al ítem
11.2. Aspectos generales
Dimensionalidad del espacio del rasgo
Independencia local
La curva característica del ítem (CCI)
Regresión y curvas características
11.3. La puntuación verdadera y la escala de aptitud
Puntos clave
Actividades
293
294
297
297
299
306
307
310
312
313
10
Principios de Psicometría
12. Teoría de la respuesta al ítem
Modelos
12.1. Modelos ojiva normal
Tipos de modelos ojiva normal
12.2. Significado de los parámetros ai y bi
12.3. Modelos logísticos
Modelo logístico de dos parámetros
Modelo logístico de tres parámetros
Modelo logístico de cuatro parámetros
12.4. El modelo de Rasch
12.5. Otros modelos
12.6. Estimación de los parámetros de los modelos
El método de máxima verosimilitud
Métodos condicionales y no condicionales
Puntos clave
Actividades
13. Teoría de la respuesta al ítem
Funciones de información y aplicaciones
13.1. Funciones de información
Función de información del ítem
Función de información del test
13.2. Las funciones de información en diferentes modelos
13.3. Curvas de información
Ponderaciones
Aplicabilidad
Bancos de ítems
Tests adaptativos computarizados
13.4. Eficiencia relativa
13.5. La métrica y los valores de las funciones de información
13.6. Resumen de los procedimientos
Puntos clave
Actividades
14. El sesgo en los tests
Sesgos y comportamiento diferencial de los ítems
14.1. El sesgo en los tests
14.2. Detección y estimación de sesgo en la evaluación del constructo
315
316
317
319
325
327
331
333
335
339
341
343
346
350
351
353
354
354
357
358
361
363
367
368
368
369
372
373
374
375
377
378
379
Índice
Consistencia interna
Índices de discriminación
Rango de dificultad
Análisis factorial
Funcionamiento diferencial de los ítems
14.2. El método Mantel-Haenszel para estimar el DIF
Significación estadística de los valores α MH
14.3. Estimación del DIF haciendo uso de las CCI
Puntos clave
Actividades
15. Medición y psicometría
Medición, escalas e interpretación de las puntuaciones
15.1. Psicología, psicometría y medición
15.2. Métrica y espacios métricos
15.3. Medición, estructuras, representación y escalas
El problema de la representación
El problema de la unicidad
El problema del significado
11
380
380
380
381
382
384
386
392
398
399
401
402
404
405
406
407
408
15.4. Medición directa e indirecta
15.5. Tipos de escalas
409
411
Escalas ordinales
Escalas de intervalo y de razón
Transformaciones admisibles
413
413
415
15.6. Interpretación de las puntuaciones: Escalas y normas
Escalas estandarizadas
Normas centiles
Escalas de puntuaciones normalizadas
Equiparación de puntuaciones
La escala de aptitud θ en la TRI
Puntos clave
Actividades
417
419
419
421
423
426
427
428
Bibliografía
431
Índice de contenidos
445
Prólogo
Los avances científicos y tecnológicos están cimentados en la cuantificación y en la
experimentación, estableciendo la diferenciación entre ciencia y creencia. Esta diferenciación no es específica de las ciencias sociales y de la conducta, al enfrentarse
con el reto de hacer ciencia en su intento de comprender y predecir la conducta
humana, sino que abarca todos los campos del saber. La contraposición entre Astronomía y Astrología o entre Química y Alquimia son sólo dos ejemplos clásicos del
divorcio entre ciencias y creencias, aunque estas últimas puedan incluir un gran bagaje de conocimientos acumulados durante siglos y se aborden con el mayor rigor filosófico, con la máxima seriedad y buenas intenciones. La aportación indiscutible del
experimento, debidamente cuantificado, para la comprobación de teorías y de hipótesis generadas por el desarrollo científico, es la que ha convertido a la Psicología en
una de las Ciencias con un desarrollo más espectacular durante el siglo XX, siendo
la Psicometría la parte de la Psicología que sirve de soporte a esta cuantificación.
Los conceptos métricos se introducen en ciencia para que, aprehendiendo el
significado de algunas propiedades de los elementos, sujetos y objetos, poder estudiarlos de forma sistematizada y, a ser posible, de una forma generalizada. La
medición es el núcleo de la ciencia y de sus aplicaciones, incluyendo a las ciencias
del comportamiento. Los estudios que se abordan desde la psicología, la educación u otras ciencias sociales y políticas se basan en la posibilidad de obtener
mediciones adecuadas de los atributos psicológicos y conductuales de los sujetos.
Este libro trata de cómo obtener mediciones utilizando tests psicológicos
como instrumentos de medida, evaluar la calidad de esas medidas y su aplicabilidad, que es el objetivo de la Psicometría. La exposición de estos temas se hace
desde el supuesto de que el lector pueda no tener conocimientos previos de esta
materia, por lo que los contenidos van fluyendo, desde el concepto a la técnica,
14
Principios de Psicometría
de forma monótona hasta alcanzar un nivel en el que, si se quiere ir más allá, no
se requieran nuevos conceptos, sino el uso de métodos y técnicas más avanzadas
que permitan abordar muchos de los temas que ya se apuntan en el texto. El libro
está dirigido a universitarios, tanto de grado como de posgrado, y a los profesionales de las ciencias de la conducta (psicología, educación, medicina, sociología, etc.), quienes pueden encontrar en este texto los fundamentos y la lógica de
muchos de los procedimientos que utilizan en la práctica. Este libro no sustituye, ni es su objetivo, a aquellos textos que se centran en aspectos puramente técnicos en la construcción de tests, sin embargo, puede servir de ayuda y ser un
buen complemento de esos otros. Para hacer su lectura comprensiva al mayor
número de lectores posible, a veces se ponen ejemplos y se clarifican conceptos
o expresiones provenientes de otros contextos. También se aclara el significado
de algunos términos que son propios del ámbito de la estadística.
Al ser un libro de fundamentos, se ha puesto el acento en los aspectos más
básicos y conceptuales, aunque tratando en lo posible de dar una visión aplicada
de cada uno de ellos, vinculando esos conceptos con aspectos técnicos y aplicaciones. Con esta finalidad en este libro se incluyen ejercicios, tablas, gráficos y ejemplos tomados de la literatura, que ilustran los métodos y los procedimientos. Para
conseguir una mejor y más inmediata comprensión de dichos fundamentos, todos
los ejercicios y ejemplos se han simplificado de tal manera que el lector pueda replicarlos con ayuda de una simple calculadora manual, sin que tenga necesariamente que acudir (aunque lógicamente puede hacerlo) a ninguno de los múltiples programas informáticos que hay disponibles. Por otra parte, un texto de fundamentos
debe incluir deducciones formales que justifiquen el porqué de muchas de las afirmaciones y ecuaciones que se proponen. Este libro incluye deducciones cuyo grado de complejidad no exceda en exceso el propio de esta obra. Aun así, esos contenidos se insertan en el texto generalmente en forma de cuadros cuya lectura
puede omitir el lector, al menos en una primera fase, sin que ello sea óbice para
seguir adecuadamente el desarrollo del tema que se esté tratando, procurando en
todo momento hacerlo asequible al tipo de lector al que va destinado.
La organización de los contenidos de los capítulos se hace procurando que el
lector vaya adentrándose en ellos de forma paulatina y que cada uno de los conocimientos que adquiere demande alguno o algunos de los que se exponen a continuación. Por ello, al finalizar cada capítulo se hace una breve recopilación de
aquellos puntos o conceptos (Puntos clave) que el lector debe revisar antes
de pasar al siguiente capítulo. El primer capítulo se dedica a introducir al lector
Prólogo
15
en el significado de la medición psicológica, de sus orígenes y desarrollo, incidiendo en la importancia y el significado de las puntuaciones que se obtienen utilizando los tests, haciendo mención expresa a los modelos psicométricos. Se trata pues de una visión general que de alguna manera anticipa cuáles son los temas
que se van a tratar posteriormente. Se recomienda, especialmente a aquellos lectores con un conocimiento previo de algunos aspectos de la Psicometría, que tras
este capítulo primero aborden la lectura del capítulo 15. Probablemente habrá
partes de dicho capítulo 15 que les resulten demasiado complejas o difíciles de
entender, pero pueden pasar muy ligeramente por todo el capítulo y seguir con
el normal ordenamiento del libro para reemprender su lectura cuando hayan asimilado los contenidos del resto de capítulos.
En el capítulo 2 se presenta el modelo lineal que ha dado origen a la teoría clásica de los tests, dedicándose los capítulos 3 al 5 a tratar el concepto de fiabilidad,
que es un concepto central en la teoría clásica, su estimación y su importancia en
la construcción, desarrollo y aplicaciones de los tests. En esos capítulos se insiste en la diferenciación entre diversos tipos de fiabilidad, en los conceptos y en los
procedimientos, dedicando en exclusiva el capítulo 5 al tratamiento de la consistencia interna. La comprobación de la significación de los indicadores de la fiabilidad, así como la de las estimaciones de las puntuaciones, se pone a prueba
mediante los procedimientos de inferencia estadística, y es a lo que se dedica el
capítulo 6. Una extensión del modelo clásico que intenta superar las limitaciones
que el contexto clásico impone a la fiabilidad, aunque manteniéndose en el seno
de los modelos lineales, se presenta en el capítulo 7, donde se exponen los conceptos básicos de la teoría de la generalizabilidad. Se incluyen en este capítulo
explicaciones y ejemplos de los métodos y de las técnicas más básicas que se utilizan en esta teoría para realizar estudios de generalización y de decisión.
Los capítulos 8, 9 y 10 se dedican al tratamiento de la validez. Se examina el
concepto de validez, sus diferentes acepciones y clasificaciones en psicometría,
posicionándonos en la visión más actualizada que reflejan las Normas de 1999
(AERA, APA & NCME, 1999, las últimas publicadas cuando este libro se imprime). Se examinan los diferentes métodos para evaluar la validez y su utilidad en
el pronóstico y en el diagnóstico cuando para ello se utilizan tests. A lo largo de
esos capítulos se ha tratado de poner el énfasis en el significado de la validez en
cuanto a que es crucial que la posean los tests, desde su gestación hasta la interpretación de las puntuaciones que con ellos se obtienen, puesto que la validez es
una condición imprescindible para poder establecer conclusiones.
16
Principios de Psicometría
En los capítulos 11 al 13 se presenta la teoría de la respuesta al ítem. Los conceptos básicos se abordan en el capítulo 11, dedicando el 12 al tratamiento de los
modelos concretos (ojiva normal, logísticos y el modelo de Rasch). Se explicita la
forma y el significado de los modelos y de sus parámetros y cómo realizar la estimación, tanto de esos parámetros como del rasgo, esto es, del nivel de aptitud del
sujeto que realiza la prueba. El capítulo 13 trata de la evaluación de la información que cada ítem aporta al test y la cantidad de información que proporcionan
cada ítem y el test en los diferentes niveles del rasgo. Se introducen las expresiones de las funciones de información para los diferentes modelos, presentando
algunas de sus aplicaciones.
En el capítulo 14 se abordan los problemas de sesgo en los tests y sus conexiones con la validez, ya que la validez de un test implica ausencia de sesgos. Se
presentan algunos métodos para detectar las fuentes y evaluar el sesgo, en los que
se incluyen el estudio del comportamiento diferencial de los ítems. Especial énfasis se pone en advertir que diferentes fuentes de sesgo pueden llevar a la no equidad en la valoración de los sujetos y en las repercusiones personales y sociales que
el uso de tests sesgados puede tener en diversos ámbitos (educativos, empresariales, jurídicos, clínicos, etc.).
Finalmente, el capítulo 15 se dedica a exponer el significado de la medición
en general y de la medición psicológica en particular, y las propiedades que
deben poseer las representaciones numéricas para que legítimamente estén
representando las magnitudes de aquello que se desea evaluar. Se explicitan esas
propiedades y cómo dan origen a las diferentes escalas. Por último, se presentan algunos tipos de escalas, cómo se puede operar con ellas, las transformaciones que admiten conservando sus propiedades y cómo se interpretan sus
puntuaciones. Muchos lectores se pueden preguntar por qué este capítulo se
ha situado al final, cuando debería ser el primero, pues las bases de la psicometría están en la medición. Las razones son que el tema de la medición no es
un tema fácil que se pueda abordar en un primer capítulo, sin más conocimientos
de sus implicaciones. Sin embargo, es más fácilmente comprensible si se presenta después de haber tratado con modelos, con puntuaciones, con transformaciones de las puntuaciones y haber percibido los problemas estructurales
que conlleva la medición. Por ello, se ha recomendado que se aborde la lectura, aunque sea superficial, de este capítulo antes de empezar con el segundo,
para volver a él cuando el lector lo considere conveniente y retomándolo como
capítulo final.
Prólogo
17
Hay que añadir que, además de los ejercicios y de las aclaraciones y deducciones que se dan en los cuadros que se insertan en los capítulos, se ha considerado
que el conocimiento de los orígenes y de la evolución de aspectos cruciales en psicometría pueden ayudar a comprender mejor los conceptos y ser un incentivo
sobre todo para aquellos lectores para los que ésta es su primera aproximación a
la psicometría, además de que les permite situar en el marco adecuado los conocimientos actuales y contemplar con perspectiva una prospectiva hacia donde conducen los nuevos desarrollos. Para no interrumpir la lectura del tema, esta información se da en cuadros a los que el lector puede prestar atención en ese u otro
momento.
Con la convicción de que la información no es formación y que el conocimiento se adquiere con el trabajo personal, se proponen al final de cada capítulo, además del examen de los puntos más importantes tratados en el mismo, un
conjunto de actividades que es recomendable que el lector realice, unas porque
son una aplicación directa de lo expuesto en el capítulo, y otras porque suponen
que el lector dé un paso más con su elaboración personal.
Este libro está dedicado a Ángel Santisteban y Angustias Requena, mis padres,
y a mi esposo Manuel Cortijo.
Psicometría y teoría de tests:
Introducción
La medición de los atributos psicológicos y
los instrumentos que la hacen posible
1
El término psicometría indica medición en psicología. La psicometría actual
trata de las teorías, modelos, métodos, procedimientos y herramientas que
se utilizan en la medición psicológica, en sentido amplio. En este texto se
exponen las teorías y los modelos para el estudio de las diferencias individuales. Es conveniente conocer los orígenes de los tests e interpretar el significado de las puntuaciones que con ellos se obtienen para entender los
principios básicos de la psicometría. Todo ello sin perder la perspectiva de
que otras materias, entre las que se incluyen la medición psicofísica, son
temas psicométricos que también estudian las diferencias individuales.
En este capítulo se va a tratar:
ã Los inicios de la psicología como ciencia cuantitativa.
ã La psicometría y la medición de las aptitudes mentales.
ã Los tipos de tests.
ã La variabilidad e interpretación de las puntuaciones.
ã Qué es un test y una breve reseña de las teorías y de los modelos
que dan soporte a la construcción de los tests psicométricos.
m1.1. Cuantificación y experimentación: Los iniciosm
de la psicología como ciencia cuantitativam
La psicología cuantitativa y experimental se puede decir que empieza con la publicación en 1860 de Elemente der psychophysick por el científico alemán Fechner, un
físico preocupado por estudiar cuestiones psicológicas desde la medición y la
experimentación. La medición y la experimentación son los procedimientos que
20
Principios de Psicometría
comúnmente se consideran válidos en Ciencia, y son los que Fechner adopta
para abordar la investigación de las relaciones entre estímulos y sensaciones,
naciendo entonces la psicofísica como una nueva área científica de estudio. Tras
la publicación de esta obra, y durante varias décadas, la psicofísica fue la principal rama de la psicología en la que se intentó la cuantificación y el establecimiento
de relaciones entre las magnitudes, hasta que surgió el interés por la medición de
las aptitudes mentales. A principios del siglo XX, la medición de aptitudes y el
desarrollo de técnicas que la hicieran posible, fue cobrando tanta importancia
que colocó a la psicofísica en un segundo plano, dejando de ser el ámbito único
y preponderante de la psicología científica. Hacia mediados del siglo XX se avanza en la formalización y aparecen modelos para el estudio de algunos procesos
psicológicos, así como el desarrollo de métodos para su medición. Se puede decir
que la psicometría ha sido una de las mayores contribuciones que la psicología
moderna ha hecho a la sociedad a lo largo del siglo XX.
Es usual que muchos autores clasifiquen las tareas de cuantificación de las
que se ocupa la psicometría en dos grandes grupos: a) la de las diferencias individuales, utilizando tests psicológicos como instrumentos de medición, que es
lo que comúnmente se suele identificar con la psicometría y b) la cuantificación
de los estímulos y de los efectos percibidos, o más precisamente, la de las características de las señales y la de los comportamientos de los sujetos que las reciben, que se suele identificar con la psicofísica, como materia independiente de
la psicometría. No obstante, tanto si se utiliza una cuestión (ítem) planteada en
el contexto de los clásicamente denominados tests (psicometría), como si se utiliza un estímulo físico (psicofísica), ambos se podrían considerar como señales
o como estímulos. A esos estímulos son a los que el sujeto debe dar una respuesta, que es la que se evalúa en relación con las condiciones experimentales,
entre las que deben destacarse las propias características del estímulo. Además,
consideramos que tampoco está justificado llamar estudios de las diferencias
individuales sólo a aquellos que se derivan de la aplicación de tests psicológicos,
pues también existe un comportamiento diferencial de los sujetos cuando se aplican otros métodos como los psicofísicos. Lo que se puede afirmar es que una y
otra rama, unas veces juntas y aliadas, otras veces independientes y aparentemente contrapuestas, se han enfrentado al reto de la medición y de la experimentación en el ámbito de la psicología, utilizando para su estudio y para la construcción de sus modelos métodos estadísticos y matemáticos, casi siempre de
naturaleza probabilística. Ambas disciplinas han generado sus propios procedi-
Capítulo 1. Psicometría y teoría de tests: Introducción
21
mientos de medición y han dado normas para la interpretación de las medidas
con la determinación de umbrales, la construcción de escalas de puntuaciones,
el escalamiento de los estímulos, etc. En la actualidad están emergiendo nuevas
teorías y, sobre todo, nuevas técnicas para el estudio del comportamiento humano, abordándolo a través de la medida de la activación cerebral, son las llamadas
técnicas de imagen o de neuroimagen. Las más relevates son la magnetoencefalografía (MEG), la resonancia magnética funcional (fMRI) y la tomografia de
emisión de positrones (PET). Utilizando estas técnicas se están abriendo nuevos horizontes en el conocimiento de las actitudes, procesos atencionales, rasgos de personalidad, etc., cuyo estudio hasta ahora se había abordado con técnicas tradicionales. Las relaciones estímulo/s-respuesta/s se habían evaluado
fundamentalmente mediante puntuaciones, número de errores, tiempos de reacción y tiempos de respuesta. Estos datos ahora se ven implementados con los
que se obtienen a través de la medición de la activación cerebral.
m1.2. Los fundamentos de la psicometríam
La psicometría es un campo de conocimiento cuyo nombre, compuesto por psico y metría, la define como la medición de lo psicológico, o la medición en psicología. Esta definición es aparentemente tan amplia e inespecífica que hay autores que mencionan las dos ramas principales cuyo desarrollo se ha impulsado
desde la psicometría, los métodos psicofísicos y los de construcción de tests. Algunos autores también definen la psicometría por sus objetivos, diciendo que sirve
para obtener estimaciones de las características de los sujetos, y otros la consideran sólo en su acepción de herramienta para distintos fines, con lo que en casi
todos los casos se está tomando la parte por el todo. Revisando la definición que
se da en los manuales de diferentes países y en diferentes épocas, lo más frecuente
es que todos los autores mantengan en sus definiciones ese carácter general de
que la psicometría es medición en psicología, pero también muchas veces, bajo
esa amplia generalización hay alguna palabra que la restringe, como llamarla método, o técnica, aunque la extiendan a todos los aspectos de la psicología. El alto
grado en que la psicometría está al servicio de la medición psicológica y de los
instrumentos adecuados para efectuarla hace olvidar que tiene un bagaje teórico
propio y bien estructurado, que constituye un campo de conocimiento de donde
se nutren sus modelos y se inspiran muchas de sus técnicas.
22
Principios de Psicometría
En la literatura también se dan definiciones de la psicometría por extensión,
enumerando y describiendo los aspectos que la integran, tanto los teóricos como
sus aplicaciones. Por ello, al relacionar sus contenidos, hay autores que los reducen a la teoría de tests y otros que incluyen no sólo las teorías, sino los métodos
estadísticos que se van desarrollado para contrastar y validar los modelos formales que se ajustan a esas teorías, dándoles soporte, permitiendo la experimentación y, por ende, avances tanto en la teoría como en la práctica psicométrica.
m1.3. La medición de las aptitudes mentalesm
Es una creencia común, y de hecho es de fácil comprobación, que las personas
difieren en sus capacidades o aptitudes mentales. Basta con proponer un problema que implique algún tipo de razonamiento y muy probablemente, se presentarán distintas aproximaciones al problema y diferentes formas de solucionarlo, aun cuando los sujetos que responden tengan la misma edad, el mismo
nivel cultural, vivan en la misma ciudad, etc. Se supone que las aptitudes mentales son características propias de las personas y también se asume que esas
aptitudes son las principales responsables de las diferencias individuales que se
observan en la resolución de diferentes tareas intelectivas, aunque hay que admitir la posible influencia de otras muchas variables, como por ejemplo, la motivación, los diferentes rasgos de personalidad, así como la de algunos factores
ambientales o de contexto.
Las teorías que se han desarrollado bajo la hipótesis de la existencia de diferencias individuales en las aptitudes mentales son muchas y variadas. Los primeros intentos formales de medición de las aptitudes mentales aparecen en la
literatura con los trabajos de Binet (1903) y de Spearman (1904a, 1904b), intentándose su medición a través de determinadas pruebas. Estas pruebas, que se
conocen universalmente bajo la denominación de tests psicométricos, y que se
aplican bajo condiciones relativamente estandarizadas, suelen estar compuestas por un conjunto de cuestiones o de problemas que se presentan a las personas para que den su respuesta, a veces eligiendo entre diferentes alternativas
o llegando a una determinada solución u otro tipo de respuesta, de acuerdo con
unos criterios previamente establecidos. Las formas de plantear las cuestiones,
así como los formatos de respuesta, son muy variados. Los tests son de diversa complejidad y las cuestiones que se plantean pueden ir desde una simple ase-
Capítulo 1. Psicometría y teoría de tests: Introducción
23
veración con la que se pide consignar si se está o no de acuerdo, o el grado en
que se está de acuerdo, o marcar o descubrir el elemento que sigue en una determinada secuencia lógica, hasta responder a algo más complejo, como puede ser
dar la resolución de un problema del que se pide que se especifiquen los pasos
para llegar a esa solución.
A cada una de las cuestiones o problemas que se plantean en la prueba (test)
es a lo que se le llama elemento, o más universalmente, ítem del test. El uso de las
denominaciones test, en lugar de prueba, e ítem, en lugar de elemento, se han
generalizado en la literatura, aun en los textos en español. En esta obra, salvo que
se indique lo contrario de forma expresa, se utilizan indistintamente los términos
prueba y test, como términos indiferenciables e intercambiables dentro de su contexto. Igualmente se hace con los términos elemento e ítem del test aunque, en
algunos casos, se verá que está justificado el que se consideren elementos que son
un compuesto, o sea, elementos que a su vez pueden estar compuestos por un
conjunto de otros elementos o de ítems.
Las respuestas a los ítems del test proporcionan una puntuación, que es la
que se pone en relación con los niveles de la aptitud u otro rasgo que se pretende medir en los sujetos a los que se aplica la prueba. Otra cuestión relevante es
saber si la prueba es aplicable a toda la población o solamente a algunos grupos
específicos, así como las condiciones que se han de dar para poder extrapolar
y/o generalizar los resultados.
Por lo tanto, un test es un instrumento diseñado para inferir una medida de
capacidades o ciertas características de los sujetos a través de las respuestas que
dan a los ítems de ese test. Se puede decir también que es un instrumento para
obtener una muestra de un comportamiento individual. Cada aptitud, actitud o
característica que se quiera medir necesitará la construcción de una prueba o test
diferente que contenga al menos un elemento que dé cuenta de ello.
Los tests, los cuestionarios y otras medidas estandarizadas han sido las herramientas más utilizadas en psicología, extensiva e intensivamente, tanto en los
ámbitos aplicados de la psicología clínica, del trabajo, educativa, etc., como en
investigación. Su aplicación se demanda desde las empresas, generalmente en los
procesos de selección de personal, o desde los ámbitos educativos, o por los servicios de salud, los gobiernos, etc. El uso de los tests está tan extendido que es
difícil imaginar que cualquier persona a lo largo de su vida no haya cumplimentado algunas decenas de tests. Desafortunadamente en algunos casos se encuentran tests y cuestionarios que están escritos, administrados y/o interpretados por
24
Principios de Psicometría
personas que no tienen un entrenamiento adecuado. Esta obra pretende ayudar
a comprender los principios, los métodos y las destrezas técnicas necesarias para
generar y usar los tests responsablemente.
Algunos antecedentes
Desde que Galton (1822-1911) tuvo la idea de medir las diferencias individuales de las aptitudes mentales por métodos puramente objetivos, son muchos
los trabajos y procedimientos que se han desarrollado con el fin de construir
instrumentos que sean adecuados para realizar tales mediciones. Entre los pioneros más destacados se encuentran Catell, quien acuñó en 1890 la expresión
de test mental, y Binet (1857-1911), quien generó el primer test de inteligencia
que resultó ser útil en la práctica y en el que, en su tiempo y posteriormente, se
han inspirado un amplio grupo de tests muy conocidos y utilizados. En 1895
Binet y Henri publican un artículo en el que se alejan de la medición simple de
aspectos sensoriales y motores, defendiendo el uso de tareas de carácter más
complejo y, en consecuencia, la construcción de pruebas para medir memoria,
atención, comprensión, etc. Mientras tanto, Ebbinghaus también trabaja con
escolares aplicando tests de este tipo, proponiendo tareas como completar frases, hacer cálculos aritméticos, recordar palabras, etc. En 1904 el Ministerio de
Instrucción Pública de Francia crea una comisión para tratar el problema de la
instrucción a niños con bajos niveles de inteligencia, e implica a Binet en la búsqueda de una solución a este problema, quien, dada su experiencia, propone
un test de inteligencia que se comienza a utilizar para la selección de estudiantes en las escuelas de París (Binet y Simon, 1905). También se debe a Binet la
introducción del concepto de edad mental. Este concepto fue utilizado por Stern
(1912) para establecer el denominado cociente de inteligencia (CI), definido como
el cociente entre la edad mental y la edad cronológica y que ha tenido una gran
trascendencia a lo largo de la primera mitad del siglo XX, al menos por su influencia en los numerosos estudios dirigidos a la determinación de las diferencias
individuales en el campo de los procesos intelectivos. Con la definición del CI
se estableció en el marco de la teoría psicométrica la primera escala de puntuaciones referida a las aptitudes mentales, o bien, se puede decir que se realizó la
primera normalización de las puntuaciones, si la consideramos bajo ciertas condiciones de estandarización.
Capítulo 1. Psicometría y teoría de tests: Introducción
Cuadro 1.1
Alfred Binet (Niza, 1857-1911) estudiaba derecho en París, cuando teniendo veinte años se interesó por los estudios de hipnosis del neurólogo francés Jean Charcot, quien trabajaba en el hospital Salpetriere de París, de
tal manera que abandonó sus estudios de leyes y se dedicó a las ciencias y la medicina. Se doctoró en ciencias naturales y comenzó a trabajar como investigador asociado en el laboratorio de la Sorbona en 1891,
llegando en 1895 a ser director del laboratorio de Psicología Fisiológica
de L’Ecole Pratique des Hautes Etudes, cargo que mantuvo hasta su muerte. Binet empezó trabajando sobre hipnosis e histeria, los temas de trabajo de su mentor, Charcot, para pasar posteriormente a realizar estudios
sobre personalidad y psicología experimental. Binet estaba interesado en
estudiar el razonamiento y en buscar formas de medir las funciones mentales superiores, como muestran sus publicaciones de esa época: La psychologie du raisonnement (1886), Le magnétisme animal (1887), On double consciousness (1887) y L’étude expérimentale de l’intelligence (1903),
en la que utiliza los datos obtenidos examinando a sus propias hijas,
Armande y Marguerite. En 1895 Binet fundó un laboratorio (en la Escuela de la Rue de la Grange aux Belles) para el estudio del desarrollo de la
inteligencia y la revista L’Année Psychologique, donde publicó gran parte de su obra.
Binet se interesó por los estudios de Galton y se inspiró en sus métodos para examinar a muchas personalidades famosas de la época, entre
los que se encontraban brillantes jugadores de ajedrez, matemáticos,
escritores y artistas. Pero son los estudios sobre la inteligencia de los
niños, impelido por las demandas del gobierno, que deseaba poder distribuirlos en clases de acuerdo con sus capacidades cognitivas, los que
producen el resultado de una herramienta útil para la medición de las diferencias individuales, la primera escala Binet-Simon (1905), que tiene de
inmediato gran aceptación. Esta escala constaba de 30 ítems con tareas
intelectivas complejas, aunque no estaba exenta de algunas senso-motoras y se aplicaba a niños con edad mental entre 3 y 13 años, edad que
podía coincidir o no con su edad cronológica. Esta escala sufre sucesivas revisiones (Binet y Simon, 1908 y 1911) y se internacionaliza, adaptándola para su uso en Vineland (Nueva Jersey, EE UU), sobre todo tras
la revisión que hace Terman (1916) de la Universidad de Stanford, siendo
el test de Stanford-Binet y sus sucesivas revisiones (Terman y Merril, 1937,
1973; Becker, 2003) el test de inteligencia más conocido y comúnmente
utilizado durante décadas.
25
26
Principios de Psicometría
Por otra parte, los principios de la correlación y de la regresión enunciados
por Galton, así como su hipótesis acerca de la existencia de un término único,
al que se le podría denominar aptitud mental general de los humanos, ayudaron a
Spearman a descubrir las intercorrelaciones positivas entre todas las medidas
de las diferencias individuales en pruebas mentales complejas y a concluir que
las actividades cognitivas son todas función de un factor general g y de un factor s específico de cada operación. Spearman es así pionero en el desarrollo de
los métodos ahora conocidos bajo la denominación genérica de Análisis Factorial.
Es imprescindible reseñar en este contexto psicométrico que, junto a las
aportaciones anteriormente mencionadas, se fue desarrollado un importante
cuerpo teórico acerca de las escalas de medida y que tiene su figura más significada en Thurstone.
Cuadro 1.2
Sir Francis Galton (Birmingham, 1822-1911), para apoyar sus teorías sobre
la herencia próximas a las de su pariente Darwin, hace experimentos y toma
multitud de medidas sobre millares de sujetos. Aunque no es un matemático, es el primero en aplicar razonamientos estadísticos al estudio de las aptitudes mentales. La idea de la correlación (co-relation originalmente), como
índice cuantitativo de la mayor o menor aproximación en ciertas características físicas entre personas relacionadas por un parentesco específico y la
de la regresión, como la tendencia que en el proceso hereditario tienen los
valores extremos en las estaturas de los sujetos a regresar hacia la media,
son conceptos propuestos por Galton. Es Karl Pearson (1857-1936), estadístico de la Universidad de Londres, contemporáneo y colaborador de Galton, al que comúnmente se cita como fundador de la ciencia estadística,
quien formaliza ambos conceptos y los hace manejables.
Volviendo a las primeras décadas del siglo XX, hay que reseñar que la participación de EEUU en la primera Guerra Mundial (1914-1918) impulsa el desarrollo de los tests, pues los ejércitos se encuentran con la necesidad de evaluar y clasificar a los reclutas. Se da el paso definitivo de la aplicación individual a la colectiva
Capítulo 1. Psicometría y teoría de tests: Introducción
27
y a los tests no verbales (los llamados tests beta), pues esos tests son imprescindibles para hacer posible su aplicación a analfabetos, o a extranjeros desconocedores de la lengua inglesa.
Son muchos los autores cuyas aportaciones e influencia han sido relevantes, tanto en aspectos teóricos como metodológicos y de divulgación, así como
en la generación de tests, aunque los objetivos y las limitaciones propias de esta
obra no permiten que se haga mención a muchos de ellos. En un tratado sobre
el tema ocuparían un lugar muy destacado, por ejemplo, obras como Theory of
mental tests de Gulliksen (1950a), las aportaciones en la construcción de escalas
de Guttman (1941) y de Stevens (1946) o uno de los tests de inteligencia más
difundidos, el de Wechsler (1939) que se sigue utilizando en sus versiones WAIS
para adultos (Wechsler, 1997), y WISC para niños (Wechsler, 2003), pues permiten diferenciar distintos tipos de inteligencia a través de las puntuaciones en
sus subtests. También habría que hacer mención a las acciones individuales o
institucionales que ayudaron a investigar, a difundir y a propiciar la utilización
masiva de los tests. La creación de empresas para la difusión de los tests, como
la de Catell, en los años veinte del siglo XX, y muy especialmente la creación del
Educational Testing Service en 1947, han propulsado el gran desarrollo de la psicometría.
m1.4. Tipos de testsm
Los tests se han desarrollado con distintos propósitos y se identifican mediante multiplicidad de denominaciones, pues hay tests que reciben su nombre de
los contenidos, o de la forma en que se van a interpretar las puntuaciones, o de
la forma de dar la respuesta, o si hay un tiempo limitado que afecta a la ejecución, etc. También hay diferentes términos que se usan como sinónimos para
la palabra test en diversos contextos, como son denominaciones tales como
cuestionario, inventario y escala.
Los tests referidos al contenido son los tests de inteligencia, de personalidad, de memoria, de actitudes, etc. Entre las denominaciones que se refieren a la interpretación y al uso destacan los tests referidos a la norma y los referidos al criterio, o al dominio. Los tests referidos a la norma se utilizan más en la
interpretación que los referidos al criterio, cuyo uso está más ligado a la toma
de decisiones, especialmente en el ámbito educativo. En los tests referidos al
28
Principios de Psicometría
criterio se fija una puntuación de corte, en relación con un criterio, para establecer una división de los sujetos en dos categorías, los que sus calificaciones
superan esa puntuación y los que no. Luego las interpretaciones de las puntuaciones de un sujeto en el rasgo y las decisiones que se derivan de ello están
referenciadas al criterio establecido. En los tests referidos a la norma, lo que
se comparan son las puntuaciones del sujeto en el test con las de una muestra representativa o con las de una población, es decir, con las del denominado grupo normativo.
En las clasificaciones en relación con el tipo de respuesta, se suele distinguir entre los tests de respuesta abierta, en la que los sujetos pueden responder
diciendo lo que les parezca oportuno, y los de respuesta cerrada, en los que los
sujetos deben elegir entre diferentes alternativas que se les proponen. Los de
respuesta cerrada a su vez pueden recibir la denominación en relación con el
número de alternativas que presenta la respuesta, tests de respuesta multicategórica, o del tipo de variable con el que se valora la respuesta, tests de respuesta dicotómica, etc. Otra clasificación que se suele hacer es distinguir entre los que se
denominan tests de velocidad y los tests de potencia o de fondo. La diferencia entre
ambos es que, en un test de velocidad, los ítems suelen ser muy homogéneos,
de similar dificultad y las diferencias individuales se manifiestan principalmente por el número de ítems resueltos correctamente en un tiempo limitado, que
se considera que es insuficiente para que se cumplimente la totalidad del test.
Por el contrario, un test de potencia suele comenzar con ítems fáciles que aumentan en dificultad a medida que se avanza en el test, y no hay teóricamente tiempo límite. En ambos casos, la puntuación en el test se suele obtener contabilizando el número de respuestas correctas, pero la interpretación de esa
puntuación en uno y otro caso puede ser diferente. La identificación de un test
como de velocidad o de potencia a veces no es obvia, y se han presentado algunos procedimientos para su clasificación que suelen basarse en el análisis de los
errores por comisión y por omisión (algunos de estos procedimientos pueden
consultarse en Santisteban, 1990a).
m1.5. Variabilidad de las puntuacionesm
Las puntuaciones de los tests se utilizan para establecer e interpretar las diferencias interindividuales e intraindividuales en las mediciones de los rasgos. Por
Capítulo 1. Psicometría y teoría de tests: Introducción
29
lo tanto, una de las cuestiones más inmediatas es saber cómo se distribuyen esas
puntuaciones. Esto implica conocer alrededor de qué valor se concentran esas puntuaciones, así como cuál es su dispersión y sus relaciones. Las medidas de tendencia central se obtienen con los valores de los estadísticos tales como la media aritmética, o la mediana. Las medidas de dispersión usuales son la varianza y su raíz
cuadrada, la desviación típica. Entre las medidas que evalúan la asociación entre
variables están la covarianza y la correlación.
Todas estas medidas se van a utilizar muy a menudo en el texto, así que indicamos brevemente sus expresiones y notación. Usualmente se utilizarán letras
latinas para los estadísticos calculados con valores muestrales, y las griegas para
los parámetros poblacionales o cuando se da la forma genérica de una expresión.
Medidas de tendencia central
La media aritmética de una variable X de la que se tienen N observaciones es
X = ∑Xi / N
y se sustituirá X por µ si se refiere a la media poblacional. También se utilizará el
operador esperanza matemática E para indicar esta operación: E (X) = X .
Medidas de dispersión
La varianza es una medida de dispersión, pues es un valor promedio de las
desviaciones de los valores Xi con respecto a la media. Para una muestra de
tamaño N es:
s
2
( X i − X )2
∑
=
N
que se denotará por σ2 si es la varianza de la población. Las desviaciones típicas
son s y σ respectivamente. También se utilizará el operador esperanza matemática para indicar esta operación, ya que: σX2 = E[X – E(X )]2.
30
Principios de Psicometría
Medidas de asociación
La covarianza entre dos variables X e Y se refiere a cómo covarían ambas
variables. Es decir, como covaría Y con X y X con Y. La covarianza de X con Y
se calcula mediante la expresión:
Cov ( X , Y ) =
∑( X i − X ) ( Yi − Y )
N
y de esta expresión se puede deducir que Cov (X, Y) = Cov (Y, X). Por ello, en
esta obra, cuando se haga referencia a la covarianza de forma general, diremos
covarianza entre las variables, pero cuando en una expresión hay que incluir la
cuantificación de esa covarianza, se expresará como 2 Cov (X, Y). Si se usa el operador E, la covarianza responde a la expresión E {[X – E(X)] [Y – E (Y)]}.
La correlación entre las variables X e Y viene dada por la expresión:
rXY =
Cov ( X , Y )
sX sY
Distribución de las puntuaciones
La representación gráfica de la distribución de las puntuaciones es un medio
sencillo y muy útil para obtener información del test y de los sujetos a los que
se les administra ese test. Un ejemplo y algunas de estas representaciones se dan
a continuación.
Ejemplo 1.1
La distribución de puntuaciones de un test X constituido por 6 ítems dicotómicos que se han administrado a una muestra de 200 sujetos se da en
la Tabla 1.1, donde Ni es el número de sujetos que obtienen la puntuación Xi.
En este caso la puntuación Xi se corresponde con el número de aciertos y
fi = Ni / N es la frecuencia relativa. Cualquier puntuación, por ejemplo X 6 = 5,
31
Capítulo 1. Psicometría y teoría de tests: Introducción
Tabla 1.1. Distribución de las puntuaciones de un test
administrado a 200 sujetos.
Xi
0
1
2
3
4
5
6
Ni
fi
0
0
10
0.05
20
0.10
40
0.20
80
0.40
30
0.15
20
0.10
con frecuencia relativa f6 = 0.15 (f6 = 30 / 200), indica que de los 200 sujetos
sólo un pequeño número obtiene esa puntuación. Esta simple descripción
permite conocer, por ejemplo, que el 25% de la muestra presentan puntuaciones muy altas (5 o 6), en tanto que puntuaciones muy bajas (0, 1 o 2) las obtienen el 15%.
Figura 1.1. Representación gráfica de la distribución de frecuencias de la Tabla 1.1.
Los estadísticos que definen a la distribución anterior son:
a) La media de las puntuaciones, que es X = 3.80.
b) La desviación típica, que es sx = 1.25.
c) La moda como valor más frecuente, que es Mo = 4.
32
Principios de Psicometría
Las representaciones gráficas que corresponden a las distribuciones de las
puntuaciones tendrán una forma geométrica u otra dependiendo de los valores
de sus medidas de tendencia central (media, mediana, moda) y de sus medidas de
dispersión (desviación típica o varianza, coeficiente de variación u otros momentos). El estudio de esas gráficas es muy útil para una primera aproximación al
conocimiento del test y de cómo pudiera estar distribuido el rasgo en distintas
muestras o en diferentes poblaciones.
Distribución normal
Si las puntuaciones se distribuyen según una ley normal, la media, la mediana y la moda coinciden. Las frecuencias se distribuyen simétricamente con
respecto a esos valores pues la media es el centro de la distribución y el valor
de mayor probabilidad. Una varianza o desviación típica mayor o menor indica que la curva estará más o menos apuntada, ya que la desviación típica mide
la distancia entre la media y los puntos de inflexión. Un ejemplo de distribuciones normales con distinto apuntamiento se presenta en la Figura 1.2, en
donde se puede observar que hay mayor concentración de puntuaciones (mayor
número de sujetos) con valores próximos a la media en la más apuntada que
en la más aplanada. Distribuciones de puntuaciones con estas características
indican que el test tiene muchas cuestiones (ítems) de dificultad intermedia a
las que responden correctamente la mayor parte de los sujetos. También se
presupone que están incluidos en el test algunos ítems de muy alta dificultad,
pues son muy pocos los sujetos que también los responden correctamente.
También se podría inferir que el rasgo se distribuye normalmente en la población.
Distribución uniforme
Una curva de distribución de frecuencias que sea una línea recta paralela al
eje X de las puntuaciones respondería a una distribución uniforme o rectangular, donde se puede considerar que todos los valores son modales, o bien,
que no hay moda, pues todos tienen la misma frecuencia. Un test que genere
este tipo de distribución en que todas las puntuaciones, sean altas, bajas o intermedias, las obtienen el mismo porcentaje de sujetos, sería muy poco útil para
extraer conclusiones.
Capítulo 1. Psicometría y teoría de tests: Introducción
33
Figura 1.2. Representación gráfica de dos distribuciones normales con media cero
y desviaciones típicas 0.5 y 1.
Distribuciones asimétricas
Distribuciones asimétricas se obtienen cuando las frecuencias se concentran en un valor alejado de la media. En la Figura 1.3 se representan dos distribuciones asimétricas, una desviada a la izquierda (a) y otra a la derecha (b).
Un test tendrá una distribución de puntuaciones desviada a la derecha si tiene
muchos ítems fáciles, por lo que la mayor parte de los sujetos obtienen altas
puntuaciones. En caso contrario, si el test tiene un gran número de ítems de
alta dificultad, la mayor parte de los sujetos no darán respuesta correcta a ellos
y la curva estaría desviada a la izquierda. Puesto que las desviaciones tienen
relación con la diferencia que haya entre la puntuación media y la mediana, una
distribución será más asimétrica cuanto mayor sea esta diferencia y un índice
de esa asimetría es:
δ=
µ − Me
σ
34
Principios de Psicometría
denotando por Me a la mediana y siendo µ y σ la media aritmética y la desviación
típica. Diversos índices de asimetría, así como el coeficiente de asimetría de Fisher se suelen incluir en los manuales de estadística.
Figura 1.3. Distribuciones asimétricas de puntuaciones X en el test.
Distribuciones con más de una moda
La representación de las distribuciones de las puntuaciones permite que se pueda detectar si en esa población hay dos o más grupos que estén bien diferenciados
con respecto a las mediciones del rasgo que representan esas puntuaciones. Esto se
evidencia cuando en las distribuciones de puntuaciones de una población se presentan varios máximos o valores modales, lo que sugiere que en la población hay
grupos que se comportan de forma diferente en el test, o que se diferencian en sus
valores del rasgo (por ejemplo, hombres y mujeres, niños y adultos, etc.), o que el
test esté sesgado a favor de alguno de esos grupos. Por ejemplo, una distribución
bimodal como la que se presenta en la Figura 1.4 sugiere que hay dos grupos en esa
población que se comportan diferencialmente, y si no era esperable, habrá que averiguar cuáles son las razones.
Se han expuesto aquí algunas de las formas de las distribuciones más comunes y su significado. Entre otras, una de las cuestiones en las que se puede estar
interesado es en la concentración de puntuaciones en torno a la media (apuntamiento) y sobre todo en la evaluación de la asimetría. Los índices para valorar tanto el apuntamiento (curtosis) como la asimetría se encuentran en los manuales de
estadística y también se pueden consultar en Santisteban (1990a).
Capítulo 1. Psicometría y teoría de tests: Introducción
35
Figura 1.4. Distribución bimodal.
m1.6. La interpretación de las puntuacionesm
Obtener una puntuación de 35 puntos en un cuestionario de agresividad, o de
neuroticismo, o 22 puntos en un test de inteligencia no tiene ningún significado.
Sin embargo, lo tiene decir que la distancia entre dos ciudades es de 200 km.
La diferencia entre una información y otra es que la medida física va acompañada de la unidad de medida, en tanto que las psicológicas que se han dado no
lo están. La medida física se ha realizado con un instrumento, el metro, que
aunque es una medida arbitraria, se ha adoptado como unidad para medir longitudes. Para realizar las medidas psicométricas también se han generado instrumentos adecuados, que son los tests, sin embargo, las unidades de medida
en los tests, además de ser arbitrarias, no cuentan con una unidad aceptada universalmente con la que comparar la medición de cada rasgo. No hay una unidad de medida de la inteligencia, ni del neuroticismo, ni de la agresividad o de
otras características de los sujetos. Así pues, cuando se construye un test hay
que tener muy claro desde su inicio qué es lo que se quiere medir, cómo se va
a medir, cómo se van a obtener las puntuaciones, qué reflejan esas puntuaciones, cómo se pueden organizar para que se puedan establecer las correspon-
36
Principios de Psicometría
dientes diferencias individuales que reflejen adecuadamente las diferencias que
existen entre los sujetos en el rasgo, y cómo expresar todo ello para que quienes utilicen ese test puedan interpretar correctamente las puntuaciones que con
él se obtienen.
Son muchos los conceptos y los procedimientos implicados en todo lo anteriormente dicho, y se irán tratando a lo largo de esta obra. Sin embargo, antes de
entrar a estudiar los modelos concretos en los que se puede basar la construcción de los tests, es conveniente clarificar algunos aspectos. Por ejemplo, que los
números que representan puntuaciones en los tests deben estar conectados con
el significado y la cuantía de aquello que se mide, que con ellos se puedan expresar tanto similitudes como diferencias, que se pueda operar con esas puntuaciones, que sean susceptibles de comparación con otras puntuaciones, etc.
Otra cuestión interesante es el significado del número cero. El número cero es
una puntuación que puede tener muchos significados. Una es la ausencia del atributo que se mide y otra puede corresponder a una cantidad, en principio arbitraria, para fijar el origen de una escala. Por ejemplo, el cero en una escala centígrada
es un valor arbitrario que no significa ausencia de temperatura, sino el origen de
esa escala, pudiendo existir temperaturas en grados centígrados menores y mayores que cero, es decir, positivas y negativas, que serán diferentes a las expresadas
en otra escala (por ejemplo en grados Fahrenheit o en Kelvin). En psicología es
difícil definir qué significa el cero, pues la ausencia del rasgo difícilmente se corresponde con la realidad, nadie tiene inteligencia cero, ni ausencia total de neuroticismo, o de agresividad. Se asigna el valor cero a multitud de situaciones, cuando
no se ha alcanzado un cierto nivel en el rasgo, cuando se ha cometido un error,
cuando no se completa una prueba, etc. También se suele utilizar el cero para fijar
el origen de las escalas. Por lo tanto, la interpretación de las puntuaciones en los
tests psicológicos, está relacionada con el significado que tiene el cero en ese test.
Las puntuaciones tipificadas (puntuaciones z)
Una puntuación aislada y sin referencia a alguna unidad de medida no tiene una
clara interpretación. Al menos habría que conocer cómo es de alta o de baja esa
puntuación en relación con otros sujetos y hacia qué valores tienden las puntuaciones de la población. Las puntuaciones tipificadas permiten algunas de esas
comparaciones.
Capítulo 1. Psicometría y teoría de tests: Introducción
37
Se llama puntuación tipificada z de una puntuación X a la que se obtiene
mediante la relación:
z=
X−X
X −µ
o bien z =
s
σ
Las puntuaciones tipificadas o puntuaciones estándar indican, por un lado,
cuánto se desvían de la media µ de la población (o de la de la muestra), usando la
desviación típica como unidad de medida de esas diferencias.
Las puntuaciones estandarizadas permiten hacer algunas comparaciones. Por
ejemplo, MC tiene 32 puntos en un test con µ = 30 y σ2 = 4 y JL y JM obtienen
42 puntos y 33 respectivamente en otro test que mide el mismo rasgo y cuya
media y varianza son µ = 36 y σ2 = 9. ¿Se diferencian esos tres sujetos en sus
niveles en el rasgo? Las puntuaciones directas de JL y JM son comparables en
algún sentido, pues se obtienen con el mismo test. Para compararlas con las de
MC se obtienen las correspondientes puntuaciones tipificadas de los tres sujetos, que son:
z1 =
32 − 30
=1
2
z2 =
42 − 36
=2
3
z3 =
33 − 36
= −1
3
Esas puntuaciones z, en las que incluso una es negativa, se interpretarían mejor
en ciertos contextos si vinieran dadas en valores enteros y positivos. Para ello se
podría hacer una transformación a otras puntuaciones también tipificadas, pero
con media y desviación típica determinadas.
T = z σT + T
o sea, z =
T−T
σT
Si para la escala de puntuaciones transformadas se elige que la media sea 100
y la desviación típica 10, entonces las puntuaciones de MC, JL y de JM serían 110,
120 y 90, respectivamente.
A estas puntuaciones y a su correspondiente escala se les suele llamar puntuaciones estandarizadas derivadas.
38
Principios de Psicometría
Por lo tanto, una vez ordenadas las puntuaciones, la escala primaria estaría
constituida por las puntuaciones directas, que hay que transformar en otras para
hacerlas comparables.
Las escalas y las normas
La escala primaria de un test estaría constituida por todas las puntuaciones X
ordenadas por su cuantía. Si calculadas la media µ y la desviación típica σ se resta µ y esas diferencias se dividen por σ, entonces se tendrá una nueva escala, formada por puntuaciones z, con origen en µ y cuya unidad de medida es σ. El paso
de esta escala a una escala estandarizada con media cero y desviación típica uno
es muy simple, ya que como se ha indicado antes, la puntuación z se puede asimilar a la de otra T, cuya distribución tenga media cero y desviación típica uno.
El paso de puntuaciones directas a puntuaciones z (las estamos llamando típicas
o estandarizadas) se ha realizado mediante una transformación lineal y posteriormente se ha pasado a puntuaciones estandarizadas derivadas también mediante otra transformación lineal. Luego mediante transformaciones lineales se pueden transformar las puntuaciones directas en estandarizadas y pasar de una escala
estandarizada a otra.
El paso de puntuaciones estandarizadas a normalizadas (que las puntuaciones z sigan distribuciones normales) no es posible hacerlo con una transformación lineal, además de que no es adecuado cuando la distribución de las puntuaciones se desvíe mucho de la normalidad, como se ha visto en los gráficos
del Apartado 1.5. Desviaciones de la normalidad se dan en numerosos casos y
es mucho más probable encontrarlas cuando se trata con muestras pequeñas.
Entre las escalas que no resisten las transformaciones lineales están las escalas
percentílicas (estas escalas y algunas escalas normalizadas más usuales se dan
en el Apartado 15.6).
A las transformaciones de las puntuaciones que mantienen su orden relativo
y su significado, se les llama transformaciones admisibles.
El establecimiento de esas puntuaciones y lo que ello conlleva en la ordenación de los sujetos, en relación con su nivel en el rasgo que se evalúa, dan
origen a las normas del test, que son las que indican la posición del sujeto en el
rasgo. Si el test se ha construido en el contexto de los modelos lineales, modelos que trataremos en los siguientes capítulos, esa posición se interpreta en rela-
Capítulo 1. Psicometría y teoría de tests: Introducción
39
ción con la distribución de las puntuaciones en el grupo o población a la que
pertenece (grupo normativo). El nivel del sujeto en el rasgo (la puntuación verdadera) se infiere y se interpreta en relación con esos parámetros y con el grado de precisión estimado para el test. Si el test se ha construido bajo los supuestos de modelos no lineales (que trataremos como modelos TRI) la interpretación
de la posición del sujeto en el rasgo (su nivel en el rasgo), se hace de acuerdo
con su respuesta y con las características del ítem (o de los ítems). Estas características las recoge una curva de probabilidad que proporciona información
de cómo se relaciona la puntuación del sujeto con los valores del rasgo. La estimación y la interpretación de los niveles de un sujeto en el rasgo no se hace
depender en estos modelos de cuántos sujetos del grupo han respondido correctamente a ese ítem o cuáles han sido sus puntuaciones en el test, sino que sólo
va a depender de la forma de la curva que caracteriza a ese ítem y de cuál es la
posición de esa curva (indica la dificultad de ítem) en relación con la escala de
valores del rasgo.
m1.7. Teorías y modelosm
Desde que Galton en el siglo XIX tuvo la idea de medir las diferencias individuales de las aptitudes mentales por métodos puramente objetivos, son muchos los
trabajos y procedimientos que se han desarrollado con el fin de construir instrumentos que sean adecuados para realizar tales mediciones. En esos desarrollos
han intervenido figuras destacadas como algunas de las anteriormente citadas, o
como Thomson, Thurstone, Hurt, Vernon, Jöreskog, etc., pero son las aportaciones de Galton, Pearson, Binet y Spearman las que constituyeron los pilares
básicos en los que durante más de medio siglo se han sustentado las teorías de los
tests psicométricos:
– El modelo lineal de Spearman.
– La tipificación o normalización de las puntuaciones.
– La evaluación de las intercorrelaciones.
Durante años, y aún hoy en día, se construyen instrumentos para la medida
de las diferencias individuales utilizando los procedimientos que han surgido
tomando como base teórica el modelo lineal de Spearman, propuesto en 1904 y des-
40
Principios de Psicometría
de el que se ha generado la denominada teoría clásica de los tests (TCT). Una de las
principales características de los tests construidos en el contexto de esta teoría
es que las puntuaciones que obtiene un sujeto en el test se supone que están
linealmente relacionadas con las que se consideran que son sus puntuaciones
verdaderas, y hay que interpretarlas en relación a aquellas que se obtuvieron en
el grupo normativo, que es el grupo que constituyó la muestra con la que se determinaron las características psicométricas del test y con la que se construyó la
escala. Esta necesidad de referenciar la puntuación individual a la del grupo normativo no deja de ser una limitación, además de que puede producir importantes
distorsiones en la interpretación de las puntuaciones, si los sujetos a los que se
les administra el test no pertenecen a la población de la que la muestra era representativa.
Cuadro 1.3
Las limitaciones arriba reseñadas propias de estos instrumentos de medida
no justifican la fuerte corriente crítica que en los años cincuenta del siglo XX
se produjo, especialmente en EE UU, contra la aplicación de los tests, acusándolos de toda clase de inexactitudes, arbitrariedades y sesgos provocadores de la toma de decisiones socialmente discriminadoras e injustas. La
teoría y la práctica han demostrado que las deficiencias que a priori parecen
ser propias de los instrumentos que tratan de medir capacidades humanas
complejas a través de simples manifestaciones observables, son generalmente conocidas y controlables y que, por lo tanto, basta considerarlas para
hacer un uso correcto del test. Asimismo se deberán tener en cuenta esas
limitaciones al hacer la interpretación de las puntuaciones, puesto que es
obvio que en cualquier proceso de medición, al hacer la interpretación de la
medida, hay que tomar también en consideración las características del instrumento con el que se ha realizado esa medida.
Una de las limitaciones del modelo de Spearman es que en su formulación
se considera que una única variable error resume todos los errores aleatorios
provenientes de distintas fuentes. Sin embargo, en cualquier modelo es fundamental identificar y separar los errores de medida, pues unos estarán directamente relacionados con el procedimiento de medición, otros con las condicio-
Capítulo 1. Psicometría y teoría de tests: Introducción
41
nes ambientales, etc. Por ello, se han propuesto muchos modelos identificando
diferentes componentes del error, como el denominado modelo platónico, pero
un modelo que persiste y que permite un buen tratamiento de los datos es el que
se conoce bajo la denominación de la teoría de la generalizabilidad (Cronbach et al.,
1963; Gleser et al., 1965; Cronbach et al., 1972). En este modelo se reconoce que
cada puntuación observada es una entre las muchas posibles, que todas están
afectadas por múltiples fuentes de error y que, por lo tanto, el interés y la utilidad de esas puntuaciones está en el grado en que sean generalizables, con las
debidas garantías, a una multiplicidad de situaciones, lo que los propios autores
denominan universo de generalización. En estos modelos la cuestión clave no es preguntarse sólo por la fiabilidad del test, sino por la precisión con la que se puede realizar la generalización. El modelo estadístico que conecta la teoría de la
generalizabilidad con el análisis de los datos es el análisis de la varianza, que sirve para identificar y evaluar las principales fuentes de error que afectan a las
medidas.
Otro modelo que se puede considerar como una extensión de la TCT es
el modelo factorial simple. Spearman, al mismo tiempo que propone el modelo
lineal anteriormente citado (Spearman, 1904a), publica otro artículo (Spearman, 1904b) mostrando cómo se puede reconocer si ese test mide un atributo común, a partir de los datos que aporta el test. Al igual que décadas después
y tras múltiples desarrollos el primer artículo da origen a la TCT, este otro conduce al establecimiento del denominado modelo factorial simple, que en un
principio se utilizó para comprobar la teoría sobre la estructura factorial de la
inteligencia y que, posteriormente, se ha utilizado y se viene utilizando para
detectar factores fundamentales en los procesos de cognición, factores de la
personalidad, etc.
El alejamiento del modelo de Spearman da lugar al inicio de una nueva concepción de la teoría de los tests donde el foco de atención se centra en la respuesta individualizada al ítem, más que en cómo los sujetos de un determinado grupo responden al test. Los modelos se expresan en función de las
características del ítem, en lugar de en las del test. Por lo tanto, estos modelos
están basados en la independencia entre los ítems y en las distribuciones probabilísticas de cada uno de ellos, a las que se les llama curva característica del ítem,
que son las que describen el comportamiento de las puntuaciones en los ítems
y sus relaciones con las medidas del rasgo. Un tema crucial en estos modelos
es la búsqueda de estadísticos suficientes para las estimaciones de sus pará-
42
Principios de Psicometría
metros, y esta cuestión es el eje fundamental sobre el que giran muchas de estas
aproximaciones. Esta búsqueda de alternativas tratando de evitar las limitaciones del modelo de Spearman genera modelos que se desarrollan bajo la
denominación de la teoría del rasgo latente, denominación que posteriormente fue sustituida en parte por la de teoría de la respuesta al ítem (TRI). Casi
todos los aspectos, modelos y teorías del rasgo latente se contemplan y son
objeto de posteriores desarrollos bajo la TRI. Esta última denominación se
ajusta más fielmente a los conceptos ya citados que subyacen en dicha teoría
y a los métodos de construcción de tests basados en ella, en cuanto a que en
estos modelos el elemento central es el ítem, caracterizado por su forma probabilística y por las características diferenciales de las que lo dotan sus parámetros, con independencia de las características de las muestras particulares
sobre las que que se aplican. No obstante, la consideración de la latencia del rasgo podría considerarse común a todos los métodos y teorías de los tests, puesto que son los tests psicométricos y otros instrumentos de medición estandarizados los que vienen a resolver el problema de la medición de esos rasgos
inobservables (latentes), infiriéndose esas medidas desde las de sus manifestaciones observables.
Las propuestas de modelos no lineales (TRI y de clase latente) se desarrollan
a comienzos de los años sesenta del siglo XX, aunque se gestan con anterioridad, y generan nuevas formas de concebir los tests, de abordar el análisis de sus
elementos y de inferir las medidas de los inobservables en los que se está interesado. Estas teorías y procedimientos no sustituyen ni destierran a los anteriores, sino que ambos conviven. Por ejemplo, cuando hay que indicar las propiedades psicométricas de un test o cuestionario, se suele dar su coeficiente alfa
de consistencia interna, casi siempre calculado con métodos derivados de las
teorías y modelos que hemos dado en denominar clásicos. En cuanto a la variable de interés, en la teoría clásica, al inobservable que se quiere evaluar se le llama puntuación verdadera (V) y en los desarrollos posteriores, a estas capacidades inobservables se las suele denominar genéricamente aptitud o rasgos (θ).
En los modelos no lineales se pueden incluir modelos basados en las distribuciones probabilísticas como la distribución binomial de donde se deriva el modelo de error binomial, o en distribuciones de Poisson, que dieron lugar a los modelos
poissonianos que usa Rasch, o en la distribución normal acumulada, con la que se
generan los modelos de ojiva normal. Sin embargo, han sido las distribuciones logísticas, y en algunos casos la normal, las que se consideran de mayor interés y han
Capítulo 1. Psicometría y teoría de tests: Introducción
43
recibido y siguen recibiendo mayor atención, siendo sus modelos objeto de un
desarrollo espectacular. Entre los que originalmente fueron más tratados y mejor
conocidos se encuentran los modelos logísticos de dos, tres o cuatro parámetros,
pero es el modelo logístico de dos parámetros y sobre todo el denominado modelo de Rasch, que se puede asimilar a un modelo logístico de un parámetro, los
modelos que más se han desarrollado tanto teóricamente como en las aplicaciones y de los que se han derivado muchos otros modelos. Actualmente muchos
de estos modelos y procedimientos para generar tests a partir de ellos se han
clasificado dentro de la denominación de modelos de la teoría de la respuesta al
ítem (TRI).
Una de las características de los modelos de la TRI, y la más destacada por
todos los autores, porque establece una de las más claras diferencias con la teoría clásica, es que la interpretación de las puntuaciones de los sujetos no se realiza en relación con las puntuaciones del grupo normativo, sino que la estimación del
nivel del rasgo que pretende medir el test está determinada por la forma matemática y la posición sobre el rasgo (la dificultad) que tenga la curva característica de
cada ítem, expresada en forma probabilística, pues es la que relaciona la probabilidad de éxito en un ítem con la aptitud.
Cuadro 1.4
Los antecedentes de la TRI se pueden situar en las primeras décadas del
siglo XX, con los trabajos de Binet y Simon (1911) y los de Thurstone (1925)
quien retoma la idea de los anteriores, escalando los ítems de acuerdo con
la edad. En las décadas posteriores, Richardson (1936), Lawley (1943),
Ferguson (1942) y Tucker (1946) son principalmente quienes establecen
conexiones formales entre la TCT y la TRI, siendo a este último a quien se
le debe la acuñación del término curva característica del ítem. En estas
contribuciones se basan otras posteriores, como las de Lord (Lord, 1952,
1953a, 1953b; Lord y Novick, 1968). La figura clave en el desarrollo de
estos modelos es Rasch, que en 1960 presenta un conjunto de modelos,
entre los que el conocido modelo de Rasch es el que hasta el momento
ha sido el más relevante en la TRI. Trabajos tan conocidos como los de
Wright y Stone (1979) o los de Fischer y Molenaar (1995) tienen como base
el modelo de Rasch.
44
Principios de Psicometría
No dedicaremos en este capítulo mayor atención a los modelos TRI ni a sus
referencias, ya que se tratan en otros capítulos de esta obra. Sin embargo, conviene clarificar aquí algunos conceptos sobre el análisis de estructura latente,
pues algunos de los modelos que se incluyen en esa teoría no se tratan en esta
obra, al igual que no podemos hacerlo con muchos otros modelos derivados
del modelo de Rasch, o con modelos de respuesta politómica o los modelos
multidimensionales, que son y se consideran modelos TRI, aunque los modelos clásicos TRI sólo tratan con modelos unidimensionales y con respuestas
dicotómicas.
En algunas clasificaciones, el análisis de estructura latente comprende un conjunto de modelos que abarca a todos los de la TRI y a los denominados de clase latente. La distinción entre ambos grupos de modelos se hace en relación con
la distribución del rasgo (θ) en la población de sujetos, según se considere continua o discreta. En los modelos TRI se asume la continuidad del rasgo, suponiéndose que θ es discreta en los modelos de clase latente. Por otra parte, aun admitiendo la continuidad, el rasgo θ puede ser unidimensional, bidimensional o
multidimensional y los ítems pueden ser dicotómicos o politómicos, aunque los
modelos más desarrollados son los unidimensionales con ítems dicotómicos. La
familia de modelos de Rasch, los logísticos de uno, dos o tres parámetros, el modelo de respuesta graduada de Samejima, los modelos de crédito parcial y muchos otros forman parte de los modelos TRI, y los modelos de clase latente, se clasifican según
el número de clases que contienen, distinguiéndose a su vez unos modelos de
otros, dentro del mismo tipo de clase, por las restricciones que se impongan a
sus parámetros.
La denominación de latente, como se ha indicado anteriormente, se desechó en los modelos anteriormente mencionados que se han encuadrado dentro de la denominación TRI. Sin embargo, se consideran en psicometría otro
grupo de modelos a los que se les ha dado la denominación de modelos de variables latentes (LVM, usando sus siglas en inglés). Estos modelos incluyen tanto
variables no observadas (latentes) como variables observadas (manifiestas) y el
modelo expresa las relaciones matemático-probabilísticas entre las variables
latentes y las observadas. El estudio de estos modelos es de gran interés en
muchos campos y muy especialmente en sociología, economía, psicología y, en
general, en todos aquellos ámbitos en los que el objeto de estudio puede considerarse como un conjunto o red de relaciones que constituyen un constructo hipotético, cuya medición no puede hacerse directamente, sino a través de
Capítulo 1. Psicometría y teoría de tests: Introducción
45
esas relaciones. En una obra dirigida a quienes investigan en ciencias sociales,
indicando cómo deben hacer los análisis e interpretar datos multivariantes
(Bartholomew et al., 2002), se describen bastante minuciosamente esas relaciones para algunos constructos como la inteligencia, o en la medición de actitudes. Un tema básico en estos modelos es conocer la naturaleza de la escala
de medición que se va a considerar, tanto para las variables latentes como para
las manifiestas. Según sea la métrica que se adopte en una u otra escala, se tendrán diferentes modelos. La más simple de esas clasificaciones es la que dan
Knott y Bartholomew (1999), que se resume en la Tabla 1.2. En esa tabla, se
denominan variables métricas, a las que son medibles, es decir, aquellas que
pueden tomar valores numéricos, ya sea de forma aislada (variables discretas)
o continua. Cuando las variables categóricas son las manifiestas, los indicadores que se dan a las categorías son de tipo binario u ordinal y, por lo tanto, las
distribuciones condicionales para los modelos LTM y LCM son distribuciones
binomiales o multinomiales.
Aun cuando la descripción de los modelos LVM ha sido muy somera, nos
hemos permitido incluirla, pues éste será probablemente el único lugar de la obra
donde se haga mención a estos modelos. Por el contrario, el modelo lineal (TCT)
se tratará ampliamente en extensión y profundidad en diversos capítulos y de los
modelos TRI se darán los conceptos básicos y se estudiarán con suficiente detalle los modelos unidimensionales más relevantes.
Tabla 1.2. Modelos LVM según la métrica de las variables latentes
y de las observadas.
Variables latentes
Variables observadas
Métricas
Categóricas
Métricas
Análisis Factorial
(AF)
Modelos de Rasgo
Latente (LTM)
Categóricas
Modelos de Perfiles
Latentes (LPM)
Modelos de Clases
Latentes (LCM)
46
Principios de Psicometría
m1.8. La construcción del test m
El proceso de construcción de un test requiere, en primer lugar, tener una definición clara y concreta del rasgo que se quiere medir. Tener definido el rasgo con
precisión es una premisa ineludible que debe ir acompañada por una detallada
exposición de cuáles son las relaciones existentes entre ese rasgo y sus manifestaciones observables, pues son imprescindibles para realizar las inferencias de los
valores del rasgo.
Las fases que se siguen en el proceso de construcción de un test son esencialmente las mismas, sea cual sea la teoría o el tipo de modelo que se adopte,
siendo diferentes los supuestos y los métodos de análisis dentro de algunas de
esas fases. Vamos a considerar algunas de ellas, aunque sea muy esquemáticamente.
Como ya se ha indicado, el primer paso es tener una definición precisa del
rasgo y establecer sus manifestaciones, indicando cuáles son medibles y cómo
se van a utilizar para la medición del rasgo, teniendo en cuenta los objetivos del
test. Este proceso debe ser realizado por expertos. El paso a una segunda etapa, que es en la que propiamente se puede considerar que se comienza el proceso técnico de construcción del test, exige que se haya cubierto de forma satisfactoria y rigurosa esa primera fase de discusión teórica mencionada. Insistiendo
en que en esa fase se incluye que se hayan hecho las consideraciones pertinentes en relación con el tipo de test, por ejemplo, si es un test referido al criterio,
así como el modelo de puntuación y el tipo de respuesta (si el ítem va a ser dicotómico o politómico, etc.) que se va a considerar. En una segunda etapa se procede a la enunciación de los ítems, en concordancia con lo establecido en la
fase anterior. Esta tarea de producción o invención de ítems suele estar a cargo de especialistas, que enuncian un gran número de ellos, sometiendo posteriormente esos ítems enunciados a un minucioso análisis crítico o a un sistema
de jueces. Como resultado de ese análisis se obtiene un grupo seleccionado de
ítems, después de haberse desechado aquellos que se hubieran considerado inadecuados, o mal formulados, etc. El análisis subjetivo y racional de los ítems se
complementa con una nueva depuración basada en datos cuantitativos obtenidos con procedimientos experimentales (estudios piloto). Una vez que se tiene un conjunto satisfactorio de ítems se administran a muestras representativas, a través de las cuales se determinan objetivamente las características de
dichos ítems (del ítem en la TRI) o del test en su conjunto (en la TCT). En la
Capítulo 1. Psicometría y teoría de tests: Introducción
47
TCT no es posible el análisis individualizado del ítem y todas las características (e.g., fiabilidad, dificultad, etc.) se refieren a las del test. En la TRI se suelen
referir sólo al ítem y es también usual que los valores en el rasgo y los que caracterizan el ítem (e.g., dificultad, discriminación) se estimen conjuntamente a partir de los datos que aportan muestras muy grandes de las puntuaciones de los
sujetos que han dado respuesta a ese ítem. Ello también conlleva que sea diferente la construcción de la escala con unos u otros modelos. En cualquier caso,
la construcción de la escala y el establecimiento y redacción de las normas es
la fase final en la construcción del test. Un punto importante que no se ha mencionado es el de la determinación de la estructura del constructo, es decir, si el
test mide una sola dimensión, o si se está considerando a priori, o se puede
deducir del análisis de los datos que el test está midiendo más de una dimensión de ese constructo.
Una vez seleccionados los ítems que se consideran idóneos para la formación
del test, se estudian las características del test resultante y se aplican técnicas para
su estandarización o normalización, de manera que pueda hacerse una correcta
interpretación de los resultados de su aplicación.
El estudio de las características del test conlleva el análisis de su fiabilidad y
de su validez, así como del alcance de sus predicciones. El concepto de fiabilidad y su cálculo sólo está asociado a aquellos tests que se construyan bajo los
supuestos y métodos del modelo clásico. En cuanto a la interpretación de las
puntuaciones que obtiene el sujeto en el test, y que son reveladoras del rasgo
evaluado, en la teoría clásica se hace siempre con referencia al denominado grupo normativo, dando la puntuación tipificada, o el percentil al que pertenece la
puntuación del sujeto, etc. En el contexto de la teoría del rasgo latente o de la
respuesta al ítem, el procedimiento comúnmente utilizado es el de la estimación
simultánea, tanto de los parámetros que describen las propiedades de los ítems
como del nivel individual del rasgo, resultando así que ese valor obtenido para
el rasgo no depende más que de la forma que tengan las denominadas curvas
características (CCI) de cada uno de los ítems, y no depende de cuántos individuos de su grupo se sitúan en el mismo nivel en el rasgo.
Dentro de los modelos de la respuesta al ítem, los tests se pueden componer trazando previamente la curva característica que se corresponda teóricamente con la del test deseado y eligiendo del banco de ítems aquellos que proporcionan la mayor cantidad de información, de acuerdo con las condiciones
establecidas y en concordancia también con los objetivos del test. Esto permi-
48
Principios de Psicometría
te que en estos tests se puedan construir tests “a la medida” de los sujetos y para
propósitos específicos.
La redacción de los ítems
Una vez establecido que antes de construir el instrumento de evaluación hay que
tener perfectamente especificada la naturaleza del concepto de aquello que se
desea medir, las cuestiones (los ítems) deben expresarse de la forma más clara
posible, utilizando palabras que sean usuales y expresiones que no sean ambiguas.
Además, el lenguaje debe ser el apropiado para el tipo de personas a quienes está
dirigido. Es evidente que no se pueden utilizar los mismos términos sobre un
tema de participación política si la prueba está dirigida a juristas o si es para toda
la población. En general, es preferible usar palabras cortas y evitar caer en frases
gramaticalmente complejas o difíciles de comprender en una primera lectura,
como puede suceder, por ejemplo, cuando se incluyen en la misma frase dos negaciones. Tampoco se deben enunciar frases que induzcan a dar una determinada
respuesta, o aquellas difíciles de responder porque la persona considere que se le
pregunta por algo estrictamente reservado, confidencial o de su intimidad.
En la redacción de los ítems, en principio, es deseable la participación o el
asesoramiento de expertos que sean buenos conocedores del tema de aquello
que se desea medir, ya sea un determinado rasgo, una aptitud, actitud, conocimientos, etc.
La administración de los tests
Alfred Binet (Binet y Simon, 1905) ya entró en detalles sobre las condiciones de
aplicación de los tests. Al presentar una de las escalas que construyó para la medición de la inteligencia, sugería que a los niños se les debería administrar el test
en una habitación aislada y tranquila en la que el niño estuviese solo con la persona que administra el test y, a ser posible, con la presencia de un adulto responsable del niño, aunque en ningún momento y de ninguna manera podría intervenir. Después de más de un siglo, se sigue insistiendo en la importancia que
tiene la correcta administración de los tests, que los administren personas entrenadas y que se sigan rigurosamente todas las condiciones establecidas para su
Capítulo 1. Psicometría y teoría de tests: Introducción
49
administración. Generalmente estas normas se suelen tener por escrito, especialmente las instrucciones que se dan a los sujetos para que cumplimenten adecuadamente el test. La realización de la prueba es siempre individual, pero su
aplicación puede hacerse de forma individual o administrarla en el mismo momento y lugar a muestras, o grupos concretos, en cuyo caso se habla de administración o aplicación colectiva, y a los tests que son suceptibles de este tipo de administración se les llama tests colectivos. Hay pruebas especialmente diseñadas para
que su administración requiera que se realice de una de estas dos formas, aunque la administración individual o colectiva de muchas de ellas depende de las
circunstancias y del propósito por el que se aplica.
En cuanto a las interpretaciones que se hagan de las puntuaciones que se obtienen con los tests, hay que insistir en que deben ser consistentes con los datos
estandarizados obtenidos de su administración a muestras muy amplias. El test
debe venir acompañado de la información que muestre que cumple todas las propiedades psicométricas exigibles, así como de los datos estadísticos estandarizados que sean necesarios para que el usuario del test pueda interpretar correctamente las puntuaciones de los sujetos a los que ha administrado ese test. A esta
información es a lo que generalmente se denomina normas del test, y su estandización es imprescindible para hacer las comparaciones e interpretaciones de los
datos que se obtienen con su aplicación. De hecho, hay tests cuyas normas son
diferentes para diferentes géneros, o grupos de edad, etc.
Tests y otras medidas estandarizadas se han construido para la medición de
la inteligencia, de diversas actitudes, rasgos de personalidad, etc. y se puede acceder a muchos de ellos porque están comercializados. No obstante, algunos tests
tienen limitado su acceso y utilización, quedando restringida a expertos, como sucede en algunos casos de psicología clínica. Por el contrario, otros son de acceso libre
y se pueden obtener solicitándolos a los autores, o están publicados en libros, o en
revistas científicas o en sitios web, lo que es cada día más frecuente. El uso de tests
ya construidos con probadas buenas cualidades psicométricas es deseable, no sólo
porque la construcción de un test suele tener un coste elevado, tanto económico
como en recursos humanos, sino también, y esto es mucho más importante, porque permite las comparaciones de diferentes estudios, ya sean aplicados o con propósitos investigadores. Aun así, muchos tests ya construidos necesitan modificaciones o adaptaciones y, en otros casos, se necesita su construcción porque no hay
ningún test o cuestionario que con las debidas garantías dé cuenta de la variable
que se desea evaluar.
50
Principios de Psicometría
Puntos clave
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
La psicometría es una ciencia cuantitativa.
La definición de la psicometría, en sentido amplio, se corresponde con su nombre, la medición en psicología.
A veces se confunde psicometría con teoría y/o construcción de tests, reduciendo así su extensión y significado.
El test (o el cuestionario) es el instrumento para hacer mediciones.
Las primeras escalas de puntuaciones de las aptitudes mentales pueden considerarse que son el cociente intelectual (CI) y la escala de Binet-Simon.
El primer modelo formal de puntuaciones fue el modelo lineal propuesto por
Spearman, y su desarrollo ha dado lugar a la denominada teoría clásica de los
tests (TCT). También se debe a Spearman la primera propuesta del modelo
factorial simple.
Los estadísticos descriptivos y las representaciones gráficas de las distribuciones de las puntuaciones en la población (o en la muestra), obtenidas con un test,
o con un ítem, ayudan a conocer algunas de las características de ese test, o
de ese ítem.
La tipificación de las puntuaciones es un primer paso para poder compararlas
y para el posterior establecimiento de la escala.
El paso de puntuaciones directas a tipificadas y de ellas a otros valores estandarizados se hace mediante transformaciones lineales.
La normalización de la escala no se hace mediante transformaciones lineales y
no se debe realizar (ni a veces es factible) para distribuciones muy alejadas de
la normalidad.
A las transformaciones de las puntuaciones que mantienen su orden relativo y
su significado, se las denomina transformaciones admisibles.
Las inferencias sobre el valor del rasgo (puntuación verdadera) en los modelos
TCT hay que hacerlas en relación con las características del grupo normativo.
En los modelos TRI las inferencias son independientes del grupo al que pertenece el sujeto, pues se hacen en relación con las características del ítem al que
responde.
En la actualidad, la psicología, las ciencias sociales y de la conducta utilizan los
modelos psicométricos llamados modelos de variables latentes, basados en las
relaciones entre las denominadas variables latentes y las observadas o manifiestas.
En la construcción de un test hay muchos aspectos técnicos que hay que considerar en cada una de las fases de su construcción, pero hay que ser extremadamente cuidadosos con los aspectos sustantivos, pues son los que dan
soporte y sentido al test.
51
Capítulo 1. Psicometría y teoría de tests: Introducción
Actividades
r Discuta en un foro si la psicología merece o no el título de ciencia cuantitativa.
r Abra un foro similar sobre la psicometría.
r Reseñe las similitudes y diferencias entre psicometría y psicofísica, si cree que
las hay.
r Haga una breve reflexión sobre el test, concebido como instrumento de medida,
comparándolo con otros instrumentos como, por ejemplo, el termómetro.
r Discuta las diferencias, si las hay, entre teoría de los tests, psicometría y el uso
de los tests.
r La distribución de frecuencias que se dan en la siguiente tabla corresponde a
un test con puntuaciones X. Calcule sus estadísticos, discuta la forma de su
distribución, represéntela y discuta su significado.
Xi
0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
Ni
0
10
20
50
80
50
20
10
0
r Repita la actividad anterior con los datos de la tabla siguiente. Verifique si todos
los valores se presentan con la misma frecuencia relativa (f = 0.20). ¿Es la puntuación media igual a la varianza? ¿El 50% de los sujetos tienen valores iguales o inferiores a la media? ¿Se habría obtenido mayor varianza si la distribución de las puntuaciones de esos 100 sujetos hubiese sido normal? ¿Qué
significado psicométrico se puede dar a esta distribución?
Xi
0
1
2
3
4
Ni
20
20
20
20
20
r En la siguiente tabla se dan las distribuciones de frecuencias de las puntuaciones de una misma muestra de sujetos en dos tests. Represente ambas distribuciones de frecuencias y discuta las características de ambos tests.
Puntuaciones
0
10
20
30
40
50
Test X1
600
1200
100
50
30
20
Test X2
20
30
50
100
1200
600
52
Principios de Psicometría
r Calcule los valores de los índices de asimetría de las dos distribuciones de la actividad anterior y discuta si es aconsejable la normalización de sus puntuaciones.
r Obtenga los datos estandarizados de las cuatro distribuciones dadas en las
actividades anteriores. Discuta qué significado tienen esos valores y si sería
conveniente pasarlos a una escala estandarizada derivada.
r Busque en la literatura las referencias y haga un resumen de las contribuciones de Guttman, Stevens y Thurstone en la construcción de escalas.
Teoría clásica de los tests
El modelo lineal de Spearman
2
El objetivo de los modelos psicométricos es inferir con la precisión adecuada las puntuaciones de los sujetos en un rasgo, mediante las puntuaciones que se obtienen al aplicar una prueba diseñada para tal fin. El primer modelo de puntuación observada, a través del cual se intentó tratar
el problema de la incertidumbre o error inherente a cualquiera de las
medidas realizadas mediante la aplicación de un test, fue el presentado
por Spearman en 1904, estableciendo las bases del modelo lineal de puntuaciones. La introducción de este modelo ha dado lugar a que se desarrolle
una de las teorías más prolíficas en el campo de la psicometría, que por
su utilidad y sencillez se ha adoptado para la construcción de numerosísimos tests estándar. Aun cuando posteriormente se han desarrollado
nuevas teorías, la teoría basada en el modelo de Spearman, denominada
teoría clásica de las puntuaciones verdaderas o también teoría clásica de los tests
(TCT), sigue siendo influyente en nuestro tiempo, aun cuando se ha producido la expansión de una teoría más potente como es la teoría de la
respuesta al ítem (TRI), en cuyo seno se han generado modelos no lineales y formas de análisis que vienen a resolver, no sólo algunos de los problemas inherentes a la TCT, sino otros muchos de gran importancia,
como la determinación del sesgo que pueden conllevar los ítems que forman las pruebas.
En este capítulo se va a tratar:
ã Las hipótesis del modelo de Spearman, siendo una de ellas su forma algebraica.
ã El significado de cada una de las variables que intervienen en el
modelo.
54
Principios de Psicometría
ã Los índices estadísticos que se derivan de las hipótesis del modelo
y su significado.
ã La definición de paralelismo entre medidas y sus implicaciones en
el cálculo de la fiabilidad (precisión) de las pruebas.
m2.1. Formalización del modelo de Spearmanm
Las hipótesis básicas son las de un modelo aditivo lineal, donde la variable endógena o dependiente es la que corresponde a la puntuación X observada en las
pruebas. La variable exógena o independiente V es la correspondiente a la
supuesta puntuación verdadera de los sujetos en el rasgo, cuyo valor se pretende estimar.
El modelo que propone Spearman es un modelo lineal muy simple cuyas características se encuentran en los manuales de estadística, de álgebra o incluso en los
de otras disciplinas, puesto que es un modelo que se ajusta a muchas situaciones.
Sin embargo, aquí se exponen las hipótesis y el significado del modelo que son
específicas del contexto psicométrico.
Hipótesis
1. Hipótesis fundamental: Cualquier puntuación observada X es función de
dos componentes, que son la puntuación verdadera V del sujeto y el
error e:
X=V+e
(2.1)
En esta relación X juega el papel de una variable aleatoria sobre una
población Π de individuos, que toma valores X = {xg} sobre g sujetos de
una población de tamaño N (g = 1, …, N). La variable V es otra variable
aleatoria asociada que toma valores V = vg sobre Π.
2. Hipótesis de nulidad de los errores: La media aritmética de los errores es cero,
es decir que su esperanza matemática es cero:
E (e) = 0
Capítulo 2. TCT: Modelo lineal de Spearman
55
Se supone además que los errores se distribuyen según una ley normal
y que el modelo es homocedástico, es decir, que para cualquier i, j las varianzas de los errores son iguales:
( )
var (e i ) = σ e2i = σ e2j = var e j
3. No existe correlación entre las puntuaciones verdaderas y el error en una misma
prueba:
ρVe = 0
4. No existe correlación entre los errores. Para todo i, j se cumple:
ρei ej = 0
5. No existe correlación entre las puntuaciones verdaderas y los errores en formas
distintas de un mismo test o en tests diferentes. Esto es, para todo i, j, con i ≠ j,
se tiene que:
ρVi ej = 0
De estos cinco supuestos o hipótesis iniciales se deducen las relaciones que
son básicas para el desarrollo de la TCT y se refieren a los valores esperados, a las
varianzas de las puntuaciones y a las correlaciones entre ellas.
m2.2. Relaciones e índices que se deducen de las hipótesism
De las hipótesis precedentes se deducen importantes relaciones que son de gran
utilidad, tanto en los desarrollos teóricos como en sus aplicaciones prácticas,
puesto que permiten poner en conexión las distintas variables y dar significado
a dichas relaciones. Las más importantes son las que llevan a poder estimar la
precisión de las pruebas e inferir los valores de las variables no directamente
observables (como V y e) a partir de la variable observable X, cuyos valores son
los que se obtienen empíricamente en la aplicación de las pruebas. A estas puntuaciones las llamaremos indistintamente puntuaciones empíricas o puntuaciones observadas.
56
Principios de Psicometría
Las más básicas y relevantes de estas relaciones son las siguientes:
a) El valor esperado de la puntuación verdadera es igual al valor esperado de
la puntuación observada:
E [ V] = E [ X]
(2.2)
Es decir, bajo los supuestos del modelo, las medias de las puntuaciones observadas y las de las verdaderas coinciden.
En efecto, puesto que X = V + e y que E (operador esperanza matemática) opera linealmente, la esperanza de la expresión anterior es:
E [ X ] = E [ V + e] = E [ V ] + E [ e]
Al ser E [e] = 0 por hipótesis del modelo, la ecuación anterior se reduce a E [X] = E [V], lo que indica que la media de las puntuaciones verdaderas es igual a la media de las puntuaciones observadas, siempre que éstas
se hayan obtenido en pruebas repetidas y de forma independiente.
b) La ecuación de regresión de la puntuación observada sobre la puntuación
verdadera es la ecuación de una línea recta que pasa por el origen y cuya
pendiente es la unidad.
Esto se debe a que para todo valor g = 1, …, N, las medias condicionadas de las puntuaciones observadas sobre las verdaderas son:
[
]
E X V = vg = vg
Cuadro 2.1
La consecuencia b) se deduce fácilmente recordando que la línea de regresión de una variable X sobre otra Y es la línea representativa de las medias
aritméticas de la variable X, condicionadas a cada uno de los valores o modalidades de la variable Y.
En este caso, la regresión es de la variable X sobre cada uno de los
valores V = vg, con g = 1, ... , N, por lo que las medias condicionadas son:
57
Capítulo 2. TCT: Modelo lineal de Spearman
[
] [
] [
] [
E X V = vg = E V + e V = vg = E V V = vg + E e V = vg
]
Ahora bien, en la expresión anterior se tiene que, al ser E (e) = 0, y puesto que las puntuaciones verdaderas son independientes del error, dada una
determinada puntuación verdadera V = vg, la esperanza matemática condicionada E [e V = vg] también es cero. Al ser E [e V = vg]=0, se tiene que:
E [XV = vg] = E [VV= vg].
El valor medio de la variable V condicionado a que V tome exactamente
el valor Vg es exactamente el valor vg , o sea, una constante.
Por lo tanto, para todo valor g = 1, …, N, las medias condicionadas de
las puntuaciones observadas sobre las verdaderas son:
[
]
E X V = vg = vg
La línea de regresión E [XV ] = V es una recta con pendiente unidad que
pasa por el origen. Su gráfico es la bisectriz del primer cuadrante con V en
abscisas y E [XV] = V en ordenadas.
c) La varianza de las puntuaciones observadas es igual a la suma de la varianza de las puntuaciones verdaderas más la varianza de los errores.
σ 2X = σ 2V + σ 2e
(2.3)
Ésta es una consecuencia inmediata de la hipótesis enunciada de no
correlación entre la puntuación verdadera y el error. Para comprobarlo,
basta tener en cuenta que la varianza de una suma de variables aleatorias
es igual a la suma de las varianzas de cada una de las variables más las
covarianzas de todos los posibles pares distintos de variables que se pueden formar.
En este caso, se trata de la variable aleatoria X como suma de otras
dos. Así,
var (X ) = var (V + e) = var (V ) + var (e) + 2 cov (V , e) = σ 2V + σ e2 + 2 ρ Ve σ V σ e
58
Principios de Psicometría
ya que la correlación entre las variables V y e es:
ρ Ve =
cov (V , e)
σV σe
y al ser por hipótesis ρVe = 0, el numerador de la expresión anterior es cero.
Por lo tanto, la varianza de la puntuación observada se obtiene como la
suma de las varianzas de la puntuación verdadera y la del error.
d) El cuadrado del coeficiente de correlación lineal entre las puntuaciones
observadas y sus correspondientes puntuaciones verdaderas es igual al
cociente entre la varianza de las puntuaciones verdaderas y la varianza de
las observadas.
ρ2XV
=
σ 2V
σ 2X
(2.4)
Este coeficiente sirve para establecer posteriormente el concepto de
fiabilidad del test.
Cuadro 2.2
La relación (2.4) se obtiene como consecuencia inmediata de la linealidad
de la regresión. En efecto, si se considera la covarianza:
(
)
cov X,V = E
[ [X − E (X)] [V − E (V)] ] = E (X V) − E (X) E (V)
sustituyendo X por V + e, y teniendo en cuenta las hipótesis del modelo, se
obtiene:
(
)
[(
) ]
[ ] [ ]
2
2
= E [ V 2 + Ve] − [ E [ V ]] = E [ V 2 ] − [E [ V ]] = var ( V )
cov X,V = E V + e V − E V + e E V =
Capítulo 2. TCT: Modelo lineal de Spearman
59
Se tiene pues que, bajo las hipótesis del modelo, se da la igualdad:
(
)
( )
cov X,V = var V = σ 2V
que sustituida en la expresión general del cuadrado del coeficiente de correlación:
ρ2XV
( )
σ 2V
 cov ( X, V ) 2
σ2
=
 = 2 2 = 2V
 σX σV 
σX σV σX
2
que es la igualdad (2.4) que se pretendía obtener.
e) De las expresiones (2.3) y (2.4) se deduce la igualdad:
ρ2XV =
σ 2X − σ 2e
σ 2X
= 1−
σ 2e
σ 2X
(2.5)
f) El cuadrado de la correlación entre la puntuación observada y el error es
igual a la razón de la varianza de los errores con respecto a la varianza de
las puntuaciones observadas:
ρ2Xe =
σ 2e
σ 2X
(2.6)
Esta relación la puede deducir el lector siguiendo un proceso análogo
al que se ha seguido en el punto d) .
g) Una nueva relación es la complementariedad a uno del cuadrado de los coeficientes de correlación dados en (2.5 ) y (2.6),
ρ2XV + ρ2Xe = 1
cuya deducción es inmediata.
(2.7)
60
Principios de Psicometría
m2.3. Condiciones de paralelismo entre medidas: Consecuenciasm
Una de las cuestiones de mayor importancia en el contexto de la TCT es el establecimiento de las condiciones de paralelismo entre las medidas. El cálculo práctico de los índices, como se definen en el modelo, no se puede llevar a cabo al
tener que utilizar valores de variables no directamente observables, como ocurre
por ejemplo con el de ρXV. El cálculo de esos índices y de algunos estadísticos es
viable a través de las relaciones formales existentes entre medidas paralelas.
Medidas paralelas
Definición:
Dos conjuntos de puntuaciones, sean estas X y X', se dice que son medidas
paralelas si se cumplen las dos condiciones siguientes:
a) Ambas tienen la misma puntuación verdadera:
X′ = V + e′
X = V +e
(2.8)
b) Ambas poseen la misma varianza error:
σ 2e = σ 2e′
(2.9)
De estas condiciones es inmediato deducir importantes consecuencias, tales
como que las medias aritméticas de las puntuaciones observadas en medidas paralelas coinciden, así como sus varianzas; que la correlación entre medidas paralelas es igual al cuadrado de la correlación entre las puntuaciones observadas y las
verdaderas, o que la varianza de la puntuación verdadera es equivalente a la covarianza entre dos puntuaciones observadas que sean paralelas. Comprobemos que
se verifican tanto las relaciones enunciadas como otras de interés.
Relaciones derivadas de las condiciones de paralelismo:
1) Para dos variables X y X', con medidas supuestamente paralelas, se verifica que ambas variables tienen la misma media aritmética.
Capítulo 2. TCT: Modelo lineal de Spearman
E [ X ] = E [ X′]
61
(2.10)
En efecto: Teniendo en cuenta la linealidad del operador esperanza
matemática y la hipótesis del modelo de Spearman, que considera que los
errores aleatorios se anulan en media, se tiene que:
E [ X ] = E [ V + e] = E [ V ] + E [ e] = E [ V ]
E [ X′] = E [ V′ + e′] = E [ V′] + E [e′] = E [ V′]
Al ser E [e] = E [e' ] = 0 por hipótesis del modelo, y siendo además
V = V' por las hipótesis de paralelismo, los segundos miembros de ambas
igualdades coinciden y, por lo tanto, también coinciden los primeros, dándose la igualdad de medias entre ambas variables X y X' observadas.
2) Las varianzas de las puntuaciones observadas en dos variables X y X' son
iguales, cuando se trata de medidas paralelas:
Var (X) = Var (X' )
(2.11)
Es inmediato comprobarlo en el modelo ya que las varianzas de ambas
variables son:
Var (X) = Var (V + e) = Var (V) + Var (e) + 2 cov (V, e)
Var (X' ) = Var (V' + e' ) = Var (V' ) + Var (e' ) + 2 cov (V' , e' )
Si se considera que se cumplen las condiciones de paralelismo (2.8) y
(2.9) y la hipótesis de no correlación entre las puntuaciones verdaderas y
los errores, se obtiene que para medidas X y X' paralelas σ X2 = σ X2 ' .
3) La correlación entre medidas paralelas es igual al cuadrado de la correlación
entre las puntuaciones observadas y las verdaderas e igual al cociente entre
las varianzas de las puntuaciones verdaderas y las observadas (Cuadro 2.3).
ρ XX ′ = ρ2XV
=
σ 2V
σ 2X
(2.12)
62
Principios de Psicometría
Cuadro 2.3
Para obtener (2.12) basta con explicitar la expresión de la correlación lineal
entre dos variables y hacer uso de las propiedades y restricciones del modelo anteriormente señaladas.
ρ XX′ =
(
) = E [(X − E (X)) (X ′ − E (X ′))] =
cov X, X ′
σ X σ X′
=
[
]
σ X σ X′
[ ] [ ]
E X X′ − E X E X′
σ X σ X′
Como consecuencia del paralelismo E [X] = E [X' ] y Var (X) = Var (X' ). Sustituyendo X y X' por sus componentes, de acuerdo con (2.1), se obtiene que
ρ XX' =
y
[ ] [ [ ]]
E X X' − E X
σ 2X
2
=
[ ] [ [ ]]
E V2 − E V
σ 2X
2
=
σ 2V
σ 2X
= ρ2XV
Así, en la práctica, pueden calcularse las cantidades inobservables σ 2V
a partir de los valores de σ 2X y ρXX' .
ρ2XV
4) Como consecuencia de lo anterior, es inmediato comprobar que la varianza de la puntuación verdadera es igual a la covarianza entre dos medidas
paralelas.
Var (V) = cov (X , X' )
(2.13)
De la relación (2.12), se deduce que:
σ V2 = σ X2 ρXX'
(2.14)
Sustituyendo el coeficiente de correlación por el cociente entre la covarianza y el producto de las desviaciones típicas de ambas variables se
tiene que:
Capítulo 2. TCT: Modelo lineal de Spearman
σ 2V = σ 2X ρ XX ′ = σ 2X
cov (X , X′)
σ X σ X′
63
= cov (X , X′)
ya que σ X = σ X' debido al paralelismo.
5) Las intercorrelaciones entre formas paralelas de un test son todas iguales,
y todas las formas paralelas de un mismo test tendrán la misma correlación
con otro test cualquiera.
Esta afirmación se deduce del teorema que enunciamos a continuación
pero que no demostraremos aquí.
Teorema: Si X1, X2, ... , Xj, ... , Xn son medidas paralelas, y es Z otra medida arbitraria distinta, no paralela a las anteriores, para todos los pares i, j,
se verifica que:
ρ X 1X 2 = ρ X 1X 3 = . . . = ρ X i X j = . . .
y que
ρ X1Z = ρ X 2Z = . . . = ρ X i Z = . . .
6) La varianza de las puntuaciones verdaderas es igual o menor que la de las
observadas.
En la relación (2.14) se observa que al multiplicar σ 2X (que es un valor
positivo) por ρXX' (que sólo puede tomar valores entre 0 y 1), la varianza
de la puntuación verdadera tomará valores menores a los de la observada,
o iguales si ρXX' = 1.
7) La varianza de la variable error es igual a la varianza de las puntuaciones
observadas por la diferencia a uno de la correlación entre medidas paralelas
σ 2e = σ 2X (1 − ρ XX ′ )
(2.15)
Esta relación se obtiene despejando σ 2e de la ecuación (2.3), y sustituyendo el valor de σ 2V por el de la ecuación (2.14)
σ 2e = σ 2X − σ 2V = σ 2X − ( σ 2X ρ XX ′ ) = σ 2X (1 − ρ XX ′ )
64
Principios de Psicometría
8) La correlación entre la puntuación observada y el error se puede calcular
a través de la correlación entre dos medidas paralelas, según la siguiente
expresión:
ρ Xe = 1 − ρ XX ′
(2.16)
ya que
ρ2Xe
=
σ 2e
σ 2X
=
σ 2X − σ 2V
σ 2X
= 1−
σ 2V
σ 2X
= 1 − ρ XX ′
9) La exigencia de paralelismo entre medidas es lo que permite hacer uso
de las ventajas de los modelos homocedásticos, ya que la igualdad
de varianzas entre los errores es una condición necesaria para el paralelismo.
Los nueve puntos anteriores hacen explícito cómo, utilizando medidas
paralelas, es posible obtener el valor de magnitudes o de relaciones tales
como la varianza de las puntuaciones verdaderas, la correlación lineal
existente entre las puntuaciones observadas y sus correspondientes verdaderas, etc.
Medidas tau-equivalentes
Las condiciones de paralelismo, que obliga a la igualdad de medias y de varianzas
de las variables, es muy poco probable que se den en la práctica. Por ello, se han
propuesto definiciones alternativas a la de paralelismo, con condiciones menos
estrictas para las relaciones entre las puntuaciones con las que se va a calcular el
coeficiente de fiabilidad. Entre esas definiciones están las de:
Medidas tau-equivalentes, que exigen que sean iguales las puntuaciones verdaderas, pero no las varianzas error. Por lo tanto, en estas medidas se está suponiendo la igualdad entre las medias y las varianzas de las puntuaciones verdaderas,
pero no entre las empíricas u observadas. Entre las puntuaciones observadas sólo
se dará la igualdad de las medias, pero no la de varianzas.
Capítulo 2. TCT: Modelo lineal de Spearman
65
Medidas esencialmente tau-equivalentes son las que no exigen la igualdad entre las
varianzas error, pero tampoco entre las puntuaciones verdaderas, pues admiten
que difieran en una constante aditiva. Por lo tanto, no se dará la igualdad de varianzas entre las puntuaciones observadas y tampoco entre sus medias, que diferirán
en una constante aditiva.
Además de las tau-equivalentes se han propuesto medidas congenéricas. Éstas son
medidas en las que no se supone la igualdad entre las varianzas error y se admite
que la relación entre las puntuaciones verdaderas sea una transformación lineal.
Por lo tanto, no es de esperar ni la igualdad de medias ni la de varianzas entre las
puntuaciones observadas.
Comprobación del paralelismo
La comprobación del paralelismo se realiza verificando si se cumplen los supuestos dados en (2.8) y (2.9). En la práctica lo que se comprueba es si se da la igualdad de medias y varianzas entre las puntuaciones observadas en dos pruebas
con puntuaciones supuestamente paralelas. Es muy poco probable que se observe una estricta igualdad entre las medias y entre las varianzas, aun en el supuesto de que ambos conjuntos de puntuaciones correspondiesen a pruebas realmente paralelas. Por ello, hay que comprobar que las variaciones observadas se
deben a causas ajenas a las pruebas, que han sido bien controladas las condiciones de su aplicación, etc. y que se pueda afirmar que las diferencias son efectivamente fluctuaciones aleatorias atribuibles al azar. Esta afirmación se hace en
términos probabilísticos, tras los correspondientes contrastes, usando métodos
estadísticos formales.
Por lo tanto, cuando los valores de las medias y/o de las varianzas de las
puntuaciones empíricamente obtenidas no coincidan, se procederá al contraste de hipótesis de las diferencias entre las medias, o entre las varianzas o a ambos
contrastes.
Finalmente, hay que puntualizar que en el paralelismo entre pruebas hay que
analizar lo sustantivo, es decir, los contenidos, pues es previo a cualquier cuestión
sobre la igualdad de los parámetros.
66
Principios de Psicometría
Cuadro 2.4
En la literatura se encuentran trabajos como el de Gulliksen (1950a) en los
que se presentan procedimientos adecuados para la justificación estadística del paralelismo pero, como bien señalan Lord y Novick (1968), no solamente es preciso comprobar que se cumplen las condiciones formales de
paralelismo, sino que también es preciso examinar el contenido de los tests
supuestamente paralelos.
Consecuencias prácticas
Se ha expuesto a lo largo de los apartados anteriores que la introducción de las
condiciones de paralelismo proporciona un método de obtención de medidas a
través de las cuales se puede conocer el valor de estadísticos o de los parámetros,
cuyo cálculo en la práctica no se puede realizar aplicando las ecuaciones con las
que originalmente se habían definido, puesto que ello entraña la utilización de
valores inobservables.
Los supuestos del paralelismo de las puntuaciones permiten calcular:
a) La variabilidad de las puntuaciones verdaderas y la de los errores, medida
a través de sus varianzas.
Como consecuencia de las hipótesis del modelo, la media de las puntuaciones observadas es igual a la de las puntuaciones verdaderas, por lo
que es necesario conocer cuál es la dispersión de esas puntuaciones con
respecto a sus respectivas medias y compararlas.
La comparación entre σ 2V y σ 2X puede realizarse por simple diferencia:
σ 2X − σ 2V = σ 2e
La razón σ 2V /σ 2X permite conocer el peso de la variabilidad atribuible
al error:
1−
σ 2V
σ 2X
=
σ 2e
σ 2X
Capítulo 2. TCT: Modelo lineal de Spearman
67
b) La correlación entre las puntuaciones observadas y las verdaderas es el dato
fundamental en el proceso de construcción de una prueba y en su aplicación. Carecería de sentido una prueba en la que no exista relación entre las
puntuaciones que proporcione la prueba y las correspondientes puntuaciones verdaderas de los sujetos en el rasgo que con esa prueba se pretende evaluar. La correlación lineal entre puntuaciones verdaderas y observadas es posible conocerla a través del coeficiente de correlación lineal entre
pruebas paralelas (ecuación (2.12)):
c) La correlación lineal entre las puntuaciones observadas y los errores ρ Xe,
también se puede calcular, sin más información que la que proporciona
la correlación entre dos pruebas cuyas puntuaciones sean paralelas (ecuación (2.16)).
d) La correlación entre medidas paralelas también permite conocer la varianza del error, mediante la expresión (2.15), que es un dato relevante en cualquier proceso de inferencia.
A continuación se presentan algunos ejemplos para ilustrar lo anteriormente
expuesto.
Ejemplo 2.1
Antes de abordar un experimento, se quiere conocer la variabilidad de las
puntuaciones verdaderas en un cierto rasgo de un grupo específico compuesto por 800 sujetos. Para la medición del rasgo se va a usar una prueba que contiene 50 ítems, pero de la que aún no se conoce su precisión. Para ello se han
seguido los siguientes pasos:
a) La variabilidad de las puntuaciones verdaderas se va a medir a través de su
varianza.
b) Los 800 sujetos han respondido a los 50 ítems en dos ocasiones separadas
en el tiempo, manteniéndose las condiciones de aplicación de la prueba.
c) Se han calculado las puntuaciones medias y las varianzas de las puntuaciones obtenidas en ambas ocasiones.
d) Se ha contrastado el paralelismo entre ambas y con α = 0.05 se acepta la
igualdad de medias y varianzas, siendo esos valores:
X = 32 ; σ 2X = 6
68
Principios de Psicometría
e) Se ha calculado el coeficiente de correlación lineal entre los dos conjuntos
de puntuaciones obtenidas de ambas aplicaciones, siendo éste ρXX' = 0.82.
f) Haciendo uso de la relación σ 2V = σ 2X ρXX' se obtiene que σ 2V = 4.92, que es la
varianza que se pretendía conocer.
Como se puede observar, la variabilidad de las puntuaciones verdaderas,
medida a través de su varianza, es menor que la de las puntuaciones observadas.
Ejemplo 2.2
El experimentador quiere elegir entre dos nuevas pruebas X1 y X2, de 50 ítems
cada una, que han cumplimentado 900 sujetos. De las puntuaciones observadas se obtiene que:
X 1 = 38 ; σ 2X = 12
1
X 2 = 42; σ 2X = 12
2
y los valores de los coeficientes de correlación lineal, calculados entre las puntuaciones iniciales y las obtenidas en las réplicas respectivas, son:
ρ X1 X1′ = 0.72; ρ X 2 X′2 = 0.66
De esos datos, el psicómetra puede deducir que
( )(
)
( )(
)
σ 2V = 12 0.72 = 8.64
1
y usando la prueba X2:
σ 2V = 12 0.66 = 7.92
2
La varianza de las puntuaciones observadas es la misma en ambas pruebas, pero la variabilidad de las puntuaciones verdaderas es menor para la
prueba X2 que para la prueba X1. De donde se deduce, según (2.3), que la
varianza atribuible a la componente error para la prueba X2 sería mayor que
la de la X1. Esto es,
σ 2e = 12 − 8.64 = 3.36
1
σ 2e
2
= 12 − 7.92 = 4.08
Capítulo 2. TCT: Modelo lineal de Spearman
por lo tanto, debe elegirse la prueba X1 frente a la X2, pues tiene menor varianza error. Esta conclusión se deriva de la menor fiabilidad del test X2, teniendo
la misma varianza que el test X1.
Ejemplo 2.3
Con el fin de medir un rasgo psíquico en escolares entre 8 y 10 años, se han
enunciado veinte ítems para que constituyan un test, y se quiere conocer la precisión de ese test. Para ello, se ha construido una prueba análoga y se estudian
las puntuaciones obtenidas al administrar esas pruebas, procediendo de la
siguiente manera:
a) Se eligió una muestra aleatoria representativa de la población objetivo, donde estaban debidamente representados todos los tipos de centros escolares con alumnos entre 8 y 10 años. Esa muestra tenía un tamaño de N = 1200
escolares.
b) Todos los sujetos respondieron a los 20 ítems de ambas pruebas y a las puntuaciones de una se las denotó X y a las de la otra X' , en la presunción de
que existiría paralelismo entre ambos conjuntos de puntuaciones.
c) Se calcularon las medias y las estimaciones de las varianzas (las cuasivarianzas) s2 de las puntuaciones de ambas pruebas, siendo esos valores:
X = 16.4 ; s2X = 12
X ′ = 14.2 ; s2X′ = 12
y ya que de cada escolar se tenían las puntuaciones de cada ítem en una y
otra prueba, se calculó también la desviación típica de las diferencias entre
los pares de valores (muestras apareadas), siendo ese valor sd = 4.
d) Se observa la igualdad de varianzas, pero no la de las medias. ¿Se puede
considerar que también las medias son iguales y que las diferencias son atribuibles al azar?
e) Para resolver la cuestión anterior, se plantea un contraste estadístico. La
hipótesis nula es que no existen diferencias entre las medias de ambos grupos, considerados como muestras relacionadas.
f) El estadístico de contraste es:
t=
X − X'
sd
N−1
=
16.4 − 14.2
4
1199
= 19.01
69
70
Principios de Psicometría
g) Al ser grande el tamaño muestral, bajo la curva de la distribución normal se
delimitan las áreas de aceptación y de rechazo de la hipótesis nula de no
diferencia entre las medias. El valor z = 19.01 sobre el eje de la variable, se
encuentra entre los valores contenidos en el área de rechazo de la hipótesis
nula, a niveles de probabilidad p > 0.99.
Este resultado indicó que las pruebas X y X' no se podían considerar paralelas, e incluso que esos dos conjuntos de ítems pudieran estar midiendo aspectos diferentes.
Ejemplo 2.4
En el experimento mencionado en el ejemplo anterior, se hicieron modificaciones. Se examinó el contenido de los ítems, en algunos de ellos se reformuló su redacción y cinco se redefinieron y se sustituyeron por otros nuevos.
Se administraron nuevamente ambas pruebas a una muestra de similares características y con el mismo número de escolares. Los valores de las medias y de
las varianzas obtenidas con ambas pruebas fueron:
X = 16.80 ; s2X = 15.21 ; X ′ = 16.61 ; s2X′ = 13.69 ; sd = 4.37
Se desea conocer si tras estos cambios, ambos conjuntos de medidas se
pueden considerar paralelas.
Puesto que ni las medias ni las varianzas coinciden, lo indicado es hacer
sendos contrastes de hipótesis, aunque ahora se observa que los valores de
las medias son muy similares.
a) Para contrastar la hipótesis H0 de igualdad de medias en la población
H0 : µ = µ'
H1 : µ ≠ µ'
se utiliza el mismo estadístico de contraste que en el ejemplo anterior, obteniéndose que es:
t=
0.19
= 1.46
0.13
Capítulo 2. TCT: Modelo lineal de Spearman
Este valor experimental pertenece a la región de aceptación de H0, bajo
la distribución normal, con un nivel crítico α = 0.05. Al ser una muestra
grande z ≈ t y la zona de aceptación de la hipótesis nula comprende valores
de la variable entre – 1.96 y + 1.96. Por lo tanto, con un nivel de confianza
1 – α = 0.95, se puede afirmar que no existe diferencia significativa entre
ambas medias.
b) El contraste de igualdad de varianzas se realiza mediante el estadístico
(s
t=
2
X
− s2X′
)
N− 2
2
2 s X s X′ 1− rXX
′
= 1.94
Este estadístico, t de Student, al ser N suficientemente grande, se asimila a una distribución normal (también en este caso, al ser N = 1200 grande, varianzas y cuasivarianzas muestrales dan valores análogos). Delimitando bajo la curva de probabilidad N (0,1) las áreas de aceptación (1 – α) y de
rechazo (α) de H0 se tiene que con a = 0.05 los valores que delimitan esas
áreas son z = ± 1.96.
Como el valor 1.94 está dentro de la región de aceptación de la hipótesis
nula, se acepta con probabilidad 1 – α ≥ 0.95 la hipótesis nula de igualdad.
Consecuencia. Se puede aceptar que las dos pruebas X y X' construidas al modificar las previas, podrían considerarse formalmente paralelas.
Ejemplo 2.5
Se desea estudiar la fluidez verbal de 4 personas usando una prueba que
consiste en que durante tres minutos escriban una columna de palabras
que tengan sentido de las que se les ha dado escrita la primera sílaba. En
una nueva ocasión, y en las mismas condiciones se les suministra una prueba supuestamente paralela a la anterior, con el fin de utilizar las relaciones
entre medidas paralelas y discutir su variabilidad en relación con la de las
puntuaciones verdaderas, así como su relación con el coeficiente de determinación.
Las puntuaciones que cada persona obtiene en cada una de las pruebas se
corresponden con el número de palabras con significado. Esas puntuaciones
se dan en la Tabla 2.1.
71
72
Principios de Psicometría
Tabla 2.1. Puntuaciones de cuatro sujetos en dos pruebas.
Sujetos
Pruebas
X
X'
1
2
3
4
30
22
18
14
40
32
40
28
El primer objetivo es comprobar si, en efecto, estas pruebas se comportan
como paralelas con ese número reducido de sujetos. Las medias y las varianzas de las puntuaciones son:
X = 32; s2X =
4 + 196 + 64 + 64
= 82; s X = 9.06
4
X ′ = 24 ; s2X′ =
4 + 100 + 64 + 16
= 46 ; s X′ = 6.78
4
Es evidente que ni las medias ni las varianzas coinciden. Realizados los
respectivos contrastes, también se han rechazado las hipótesis de igualdad.
Por lo tanto, no puede considerarse que estas pruebas se comporten como
paralelas, ni tampoco como tau-equivalentes. El valor de la covarianza entre
ambas puntuaciones tampoco se corresponde con la varianza de la puntuación verdadera. Ahora bien, si se calcula el coeficiente de correlación lineal
entre ambos conjuntos de puntuaciones se obtiene que:
rXX′ =
[
]
[ ] [ ]=
E X X′ − E X E X′
s X s X′
60
60
=
= 0.98
(9.06) (6.78) 61.43
lo que indica que existe una alta correlación lineal positiva entre las variables
asociadas con ambos conjuntos de puntuaciones. Esto no implica, sin embargo, que exista paralelismo entre ellas.
Capítulo 2. TCT: Modelo lineal de Spearman
73
Puntos clave
3
3
3
3
3
3
3
Un modelo lineal que relaciona la puntuación verdadera de un sujeto en un rasgo con la observada cuando realiza una prueba para la medición de ese rasgo,
es el primer modelo formal y el pilar donde se ha apoyado el desarrollo de la
denominada teoría clásica de los tests.
Ese modelo lo propuso Spearman y, además de la linealidad en la relación entre
la puntuación observada y la verdadera del sujeto, introduce otras hipótesis que
afectan fundamentalmente al tratamiento de la componente error.
En el contexto de este modelo se introduce el concepto de medidas paralelas
entre puntuaciones observadas en las pruebas.
Magnitudes no directamente calculables, como las varianzas de las puntuaciones verdaderas, o la de los errores, o la correlación entre puntuaciones observadas y verdaderas, se pueden obtener utilizando las propiedades de las correlaciones entre puntuaciones observadas que sean paralelas.
El cuadrado de la correlación entre la puntuación observada y la verdadera es
el coeficiente de determinación que, bajo los supuestos del modelo, equivale
a la correlación entre medidas paralelas.
La correlación entre medidas paralelas se utiliza como medida de precisión (fiabilidad), como se verá en los próximos capítulos.
Es poco probable que en la práctica se obtengan medidas que cumplan las condiciones de paralelismo definidas en el modelo. Por ello, se ha propuesto que la
fiabilidad se pueda calcular con medidas cuyas relaciones sean menos exigentes que las de paralelismo, como es la tau-equivalencia.
Actividades
r Explicite de forma adecuada cuál es el sentido y la importancia que tiene
en el modelo de Spearman la hipótesis de nulidad de los errores.
r Comente qué importancia tiene en el modelo de Spearman la hipótesis de
no correlación entre puntuación verdadera y error.
r Haga una reflexión escrita acerca de por qué es falso lo siguiente: por definición, son medidas paralelas aquellas en que sean iguales sus medias y sus varianzas.
r Comente la afirmación que se hace en el texto de que es ilustrativo, útil y
necesario conocer el error típico de medida.
r Razone por qué dos conjuntos de medidas pueden estar muy altamente
correlacionadas y no ser paralelas.
Fiabilidad
Precisión de las medidas
3
Una característica común a cualquier Ciencia es la evaluación de las variables implicadas en una determinada medida. Para ello, es primordial la
determinación, tanto de la precisión con la que se realizan dichas medidas,
como la que es exigible en cada caso concreto, ya sea bajo supuestos teóricos o empíricos. En la literatura psicométrica, a la precisión de los instrumentos de medida, o sea, la de los tests y de los cuestionarios, se la denomina fiabilidad.
En este capítulo se va a tratar:
ã La fiabilidad como índice o indicador de la precisión de las medidas obtenidas mediante los tests o los cuestionarios.
ã Diversas expresiones que en la práctica se utilizan para calcular la
fiabilidad.
ã Hay diferentes tipos de fiabilidad, que no son formas alternativas
para evaluar lo mismo, sino que son distintos caminos para evaluar
diferentes aspectos de la fiabilidad.
ã Los coeficientes (o los índices) de fiabilidad pueden evaluar la estabilidad de las medidas a lo largo del tiempo.
ã Mediante los coeficientes (o índices) de fiabilidad se puede evaluar
la consistencia intra-ítems, o sea, la homogeneidad de los elementos que componen la prueba u otras relaciones entre los ítems de
un mismo test.
ã La fiabilidad está afectada por el propio instrumento de medida, por
el propósito para el que se construye y por el contexto.
76
Principios de Psicometría
m3.1. El concepto de fiabilidadm
Una vez que se ha generado un cuestionario o un test hay que conocer la fiabilidad y la validez de las medidas que se obtengan cuando se les administren esas
pruebas a los sujetos a los que se desee evaluar. Al hablar de la fiabilidad de un test
nos estamos refiriendo a la precisión de ese test, considerado como instrumento
de medida, en correspondencia con el concepto de precisión que se tiene acerca
de los instrumentos utilizados para las medidas físicas. El término fiabilidad se
acuña en el contexto de la teoría clásica de los tests.
Teniendo en cuenta que el objetivo de un test es el de poder inferir magnitudes que reflejen los inobservables psíquicos a través de sus manifestaciones observables, hay que ser cuidadosos con la interpretación dada a la fiabilidad pues, a
veces, se confunde con otros conceptos como el de adecuación o de validez. La
fiabilidad de una prueba o test se refiere, exclusivamente, a la precisión de esa
prueba, utilizada como instrumento de medida, y nunca a si ese instrumento es
idóneo para la medida de la aptitud, actitud, destreza o cualquier otro tipo de rasgo que se quiere evaluar a través de esa prueba. La cuestión de la idoneidad del
instrumento de medida con respecto al rasgo que se desea evaluar es un problema de validez, que es otra de las características necesariamente exigibles a las pruebas psicométricas, cuya problemática se trata en los Capítulos 8, 9 y 10. Tanto la
fiabilidad como la validez presentan distintas facetas, que reciben diferentes denominaciones y que tienen sus propios métodos de cálculo e interpretaciones.
Cuadro 3.1
Si de una forma intuitiva y muy elemental queremos ilustrar el concepto de
lo fiable incardinado con el de lo válido bastará con unos ejemplos muy asequibles a cualquier lector, si nos remitimos a instrumentos de medida que
nos son familiares, porque habitualmente los manejamos. Pensemos en una
báscula y en un reloj, pudiendo hacer, por ejemplo, las siguientes preguntas:
a) ¿Sería aceptable en una prueba de velocidad que se diera como ganador a un corredor por una diferencia de un segundo con respecto a
su inmediato seguidor si el cronómetro con el que se ha realizado el
control de tiempos no precisa más que hasta segundos?
Capítulo 3. Fiabilidad: Definiciones
77
b) ¿Estaría usted de acuerdo si al comprar unos gramos de un bien cuyo
precio en el mercado es elevado, por ejemplo azafrán, observara que
se utiliza para determinar su peso una balanza cuyas indicaciones
vienen señaladas de cinco en cinco gramos?
Las respuestas a ambas preguntas coinciden y son negativas. No nos
parecería adecuado aceptar las medidas realizadas en cualquiera de los dos
supuestos.
Evidentemente, los instrumentos utilizados, el cronómetro y la balanza, son los instrumentos más adecuados para medir el tiempo y el peso,
por lo tanto, son instrumentos válidos. Sin embargo, no aceptamos como
buenas las medidas realizadas con ellos porque, aun siendo instrumentos
válidos, no son lo suficientemente precisos como para servir a los propósitos a los que están dirigidos, no son fiables.
Tampoco serían fiables un cronómetro que pudiera precisar hasta los
milisegundos y una balanza de precisión, si las medidas que se obtuvieran
con esos instrumentos estuvieran sujetas a variaciones ambientales no controladas, como pudiera ser la humedad, la temperatura, el nivel de carga de
la batería que los alimenta, la posición, etc.
Que el instrumento proporcione la medida con la precisión adecuada es
necesario, pero no es suficiente para aceptarla, porque también debe mostrar que es válida. Por ejemplo, una balanza de precisión es fiable, pero no es
un instrumento válido para medir tiempos. En psicología, una medida antropométrica, como el perímetro craneal, por precisa que sea, no se considera
que sea válida para hacer inferencias acerca de la medida de la inteligencia.
Sin embargo, aunque no están exentos de críticas, los tests psicométricos se
consideran instrumentos adecuados para la medida de la inteligencia. La validez hay que determinarla para cada uno de los tests o cuestionarios que se
construya, pues hay que asegurarse de que miden aquello que se pretende
medir, y no otra cosa. Por lo tanto, a los instrumentos que se construyan para
evaluar aptitudes, rasgos de personalidad, actitudes, etc., hay que exigirles
que tengan la suficiente precisión (fiabilidad) y además hay que comprobar
su validez.
El problema de cómo medir la fiabilidad de los tests se aborda conceptualmente desde la misma perspectiva con la que otras ciencias plantean el problema
de la precisión de sus instrumentos de medida, si bien la metodología de la que
la psicometría hace uso suele ser diferente, llevando a veces a tener que construir
otro instrumento análogo e intercambiable al que se denomina test paralelo.
78
Principios de Psicometría
El control de la fiabilidad se realiza partiendo del mismo supuesto que en las
medidas físicas. Si el instrumento de medida es preciso, las medidas repetidas
serán semejantes y, salvo errores accidentales, se dará la constancia en las medidas. La constancia o estabilidad de las puntuaciones se evalúa mediante el coeficiente de correlación lineal entre dos conjuntos de puntuaciones, consideradas
como paralelas, que usualmente se obtienen de la aplicación de dos formas del
test a los mismos sujetos de la población que se estudia, o de la aplicación del mismo test en al menos dos ocasiones diferentes. La consistencia interna de las medidas se suele evaluar con correlaciones intra-test.
La denominación genérica que se da a las correlaciones que son indicadoras de la fiabilidad de una prueba, es la de coeficiente de fiabilidad, o índice de fiabilidad. Formalmente, el valor del coeficiente de fiabilidad se corresponde con el
cuadrado del valor del índice, expresando el primero la correlación entre dos
conjuntos de medidas observadas, bajo la condición de que sean paralelas.
El índice se corresponde conceptualmente con el coeficiente de correlación
entre las puntuaciones observadas y sus correspondientes puntuaciones verdaderas. En el siguiente apartado se definen formalmente los coeficientes
e índices de fiabilidad y la relación entre ellos, así como sus relaciones con
las propiedades y características propias de las medidas consideradas como
paralelas.
m3.2. Ecuaciones para definir y calcular la fiabilidadm
La fiabilidad se da en el contexto de la TCT y relaciona la medida X observada
mediante el test con la puntuación verdadera V, que es inobservable.
Definiciones
La fiabilidad de un test se define como la variación relativa de la puntuación verdadera con respecto a la puntuación observada, calculada como la razón entre sus
respectivas varianzas.
Por lo tanto, la relación σ V2 / σ X2 es por definición la medida de la fiabilidad.
Esta relación entre varianzas es formalmente igual al cuadrado del coeficiente
de correlación lineal obtenido entre las puntuaciones observadas y las verdade-
Capítulo 3. Fiabilidad: Definiciones
79
ras, como se demostró anteriormente (Cuadro 2.2). El coeficiente de fiabilidad se
define como:
ρ2XV =
σ 2V
σ 2X
(3.1)
A esta razón de varianzas se la llamó coeficiente de determinación en la ecuación (2.4) y se refiere en concreto a la determinación de la fiabilidad del test X.
Al coeficiente de correlación ρXV se le denomina índice de fiabilidad.
Como ya se ha indicado, es necesario buscar expresiones equivalentes a éstas
para que, operando con valores observados, se calculen dichos coeficientes. La
solución la encontramos en la definición de medidas paralelas y en sus propiedades expuestas en el Apartado 2.3, en donde se deduce la ecuación (2.12). Por lo
tanto, la fiabilidad se puede obtener calculando la correlación lineal entre dos conjuntos de medias paralelas:
ρ2XV
=
ρ XV =
σ 2V
σ 2X
= ρ XX ′ =
cov( XX′)
= coeficiente de fiabilidad
σ X σ X′
σV
= ρ XX ′ = índice de fiabilidad
σX
Cuadro 3.2
Las ecuaciones (3.2) no tienen erratas, aunque desde un punto de vista
formal no se puede hacer coincidir un coeficiente de correlación (entre X
y X' ) con el cuadrado de otro (entre X y V), pues un coeficiente de correlación simple puede ser positivo o negativo, lo que nunca puede ser un cuadrado. Del mismo modo, aunque ρXX' fuese positivo, su raíz cuadrada podría
ser un número tanto positivo como negativo, en cuyo caso, el valor del
índice carecería de sentido. Las igualdades dadas en (3.2) se definieron
así originalmente y han perdurado en la literatura del tema, por lo que
hemos preferido conservarlas, en vez de hacer unas definiciones formalmente más correctas, pero que podrían inducir a confusiones al no ser
usuales en el campo.
(3.2)
80
Principios de Psicometría
El cálculo de la fiabilidad, de acuerdo con las ecuaciones (3.2) presenta algunos problemas en la práctica, puesto que es poco probable que se dé la igualdad de medias y varianzas entre las puntuaciones muestrales observadas, como
exigen las condiciones de paralelismo. Por ello, se han propuesto condiciones
menos estrictas para las relaciones entre las puntuaciones, como las expuestas
en el Apartado 2.3, pudiéndose realizar el cálculo del coeficiente de fiabilidad
con puntuaciones empíricas que sean medidas paralelas o tau-equivalentes.
Ecuación para un test compuesto por subtests
La expresión general de cálculo de la fiabilidad como coeficiente de correlación
entre medidas paralelas, como se indica en las ecuaciones (3.2), también es aplicable al cálculo de la fiabilidad de tests compuestos por varios subtests o por
una batería de tests. Lo que hay que considerar, en este caso, es que el test X
del que se quiere conocer su fiabilidad, está compuesto por k componentes:
X = X1, …, Xk, y que al calcular la correlación entre las puntuaciones observadas y las verdaderas habrá que tener en cuenta toda la covarianza entre las variables. Esto es, hay que considerar todas las covariaciones posibles entre los pares
de variables, que serán varianzas cuando sea i = j y términos de covarianza cuando i ≠ j, formándose así matrices cuadradas de dimensiones (k x k), en las que
las varianzas serán los elementos de la diagonal principal.
Si se denotan por
∑ VV ; ∑ XX ; ∑ XV
las respectivas matrices de varianzas y covarianzas entre las puntuaciones verdaderas, entre las observadas y entre las observadas y las verdaderas, la correlación
(que es el cociente entre la covarianza y las desviaciones típicas), se calculará
mediante la expresión:
ρ XV =
I′ ∑ XV I
[I′ ∑ XX I] 1 2 [I′ ∑ VV I] 1 2
(3.3)
81
Capítulo 3. Fiabilidad: Definiciones
donde por I' e I se indican los correspondientes vectores unidad. Cuando se considera que los diferentes subtests no tienen la misma importancia, sino que se
supone que unos tienen más influencia (más peso) que otros en la medición del
constructo, a los subtests se les asigna una determinada ponderación, ai. En ese
caso el test X es una combinación lineal de sus componentes, que se puede expresar como: X = a1X1 +... + akXk, y la ecuación (3.3) adopta la forma
ρ XV =
A′ ∑ XV A
[A′ ∑ XX A]
12
[A′ ∑ VV A]
12
(3.4)
donde A' (traspuesto de A) es el vector A' = (a1, …, ak). La asignación de los
pesos a cada una de las componentes no es arbitraria, sino que se les asignan
aquellos pesos que maximizan la fiabilidad del compuesto.
Valores e interpretación
Tanto el coeficiente como el índice de fiabilidad son valores positivos y están acotados. Pueden ser valores cualesquiera del intervalo [0, 1].
Que estos valores no pueden ser negativos se deduce del concepto y de la propia definición del coeficiente de fiabilidad, como cociente entre dos varianzas,
que necesariamente son magnitudes positivas. El método de cálculo, como coeficiente de correlación lineal entre dos conjuntos de medidas X y X', pudiera llevar a pensar que pueden tomar valores en el intervalo [–1, 1], pero también por
esta vía es fácil concluir que no es posible obtener valores menores que cero, si
se tiene en cuenta que esas medidas son paralelas y se consideran las condiciones
establecidas para el paralelismo.
Que el coeficiente y el índice de fiabilidad no pueden tomar valores mayores que la unidad se debe a que σ V2 ≤ σ X2 . También se explica porque el cociente σ V2 / σ X2 se ha establecido que es equivalente a un coeficiente de correlación
lineal. El coeficiente de fiabilidad alcanzará la cota superior de su valor cuando el cociente entre ambas varianzas sea la unidad, o bien, cuando la correlación lineal entre medidas paralelas sea la unidad. El menor valor del coeficiente, que es el valor cero, se alcanza cuando σ V2 = 0, o bien, cuando el coeficiente
82
Principios de Psicometría
de correlación ρXX' resulte ser nulo, lo que indica que la covarianza entre las
variables X y X' es cero.
Por lo tanto:
0 ≤
σ 2V
σ 2X
= ρ XX ′ ≤ 1
(3.5)
La interpretación de la bondad de un test en relación con su precisión se
hace estableciendo un cierto paralelismo entre los valores que se obtienen para
los coeficientes o los índices de fiabilidad y categorías tales como poco fiable,
moderadamente fiable o muy fiable, consideradas entre las dos categorías extremas que son la ausencia de fiabilidad y la fiabilidad perfecta, pero no hay puntos de corte fijos y definidos para ningún tipo de partición entre esas supuestas
categorías.
La ausencia de fiabilidad se identifica con el valor ρXX' = 0. La fiabilidad perfecta se identifica con el valor ρXX' = 1 y esto teóricamente supone que no existe
varianza error y que por lo tanto σ X2 = σ V2 , esto es, que toda la varianza de la puntuación observada se debe a la de la puntuación verdadera. Valores diferentes de
cero y de uno son los usuales, diciendo que hay una escasa fiabilidad para valores próximos a cero, y que la fiabilidad es elevada cuando los valores de ρXX' son
próximos a uno.
Cuadro 3.3
Un test de fiabilidad moderada podría tener asociado un coeficiente de fiabilidad con un valor, por ejemplo 0.72, u otro similar, no pudiéndose dar normas fijas ni valores concretos que establezcan con exactitud si una prueba
debe ser o no admitida como fiable, salvo que estos valores no sean significativamente diferentes de cero. Esta significación se obtiene, a determinados niveles de probabilidad, mediante el correspondiente contraste de
hipótesis, poniendo a prueba la hipótesis nula de que el coeficiente de fiabilidad es cero.
El nivel de precisión exigible al test está en función del tipo de prueba
y del objetivo, u objetivos, para el que esa prueba se construye. El valor
Capítulo 3. Fiabilidad: Definiciones
83
anterior de 0.72 puede considerarse una fiabilidad alta en algunos tipos de
pruebas y baja para otras.
Una forma rigurosa de proceder es la siguiente. Una vez estudiado y
decidido cuál es el nivel mínimo de precisión exigible al instrumento de
medida (test, cuestionario, etc.), se materializa esa exigencia fijando un
cierto valor para el coeficiente de fiabilidad, por debajo del cual una menor
precisión no sería admisible.
Si el valor experimentalmente obtenido para ρXX' es un valor mucho menor
que el fijado, se rechaza esa prueba, puesto que no alcanza el nivel mínimo
de precisión deseado. Sin embargo, la apreciación de las simples diferencias
entre el valor observado y el esperado puede ser equívoca. Antes de tomar la
decisión, se debe hacer un contraste de hipótesis estadístico que revele a qué
nivel de confianza se puede aceptar o rechazar la hipótesis de que el valor
obtenido es significativamente igual al valor dado, y si el test debe ser admitido o no como fiable, bajo las condiciones previamente establecidas.
La forma que en la práctica se utiliza para calcular la correlación que va a proporcionar el valor del coeficiente de fiabilidad ρXX' depende de la forma en que
se obtengan las medidas supuestamente paralelas y es a lo que se va a dedicar el
siguiente apartado.
m3.3. Formas usuales de generar medidas repetidasm
Puesto que la fiabilidad se determina formalmente mediante el coeficiente de correlación lineal entre medidas repetidas, realizadas con el mismo test y en las mismas
condiciones, o con tests considerados equivalentes por proporcionar medidas paralelas, existen procedimientos que han venido a ser clásicos en el diseño de las pruebas para la obtención de la fiabilidad. Éstos son los denominados test-retest, formas paralelas y división del test en dos partes. Cada una de las modalidades tiene
asociada una problemática distinta y, como se verá más adelante, no responden
exactamente al mismo concepto de fiabilidad, pues en tanto que unos diseños llevan a su medida en el sentido de la estabilidad de las puntuaciones, otros indican
cuál es la consistencia interna de la prueba.
84
Principios de Psicometría
Test-retest
Bajo esta denominación se indica que las puntuaciones repetidas X y X' se han
obtenido aplicando el mismo test a los mismos sujetos y en las mismas condiciones en dos ocasiones diferentes, generalmente separadas en el tiempo. Si las
correlaciones entre ambas aplicaciones son elevadas y las condiciones de aplicación de la prueba en las dos ocasiones son esencialmente iguales, entonces se considerará que la prueba es fiable en el sentido de que se observa una significativa
estabilidad en las puntuaciones.
Es evidente que, si se determina que el test se debe aplicar a los mismos sujetos y en las mismas condiciones, hay que ser extremadamente cuidadosos en la
verificación de que esas premisas se cumplen. Uno de los problemas a los que
con mayor frecuencia se hace alusión en la literatura es al posible efecto de aprendizaje del sujeto durante la realización de la prueba, que influirá en sus resultados cuando esa misma prueba la realiza por segunda vez. Este efecto se elimina, o al menos puede quedar paliado, si se deja transcurrir un tiempo suficiente
entre ambas aplicaciones de la prueba. Esta solución, sin embargo, no siempre
es posible, bien porque no se puedan tener disponibles los mismos sujetos, o
porque no se puedan reproducir las mismas condiciones en un tiempo posterior, o bien, porque el rasgo que se está evaluando pueda también sufrir variaciones en ese intervalo de tiempo, porque se produzca algún hecho o alguna
intervención que lo modifique. Este último sería el caso, por ejemplo, cuando
se aplicara un test para valorar un tipo de disfunción o patología, y entre una
aplicación y otra de la prueba algunos de los sujetos estuvieran recibiendo tratamiento terapéutico.
Formas paralelas
Formalmente se entiende por formas paralelas de un mismo test a las que cumplen las condiciones dadas en el Apartado 2.3. En la práctica, se suelen construir
dos pruebas de forma paralela que resulten ser prácticamente equivalentes, de
manera que las pruebas pudieran ser intercambiables.
Esta forma de obtener medidas repetidas, destinadas a la posterior obtención del coeficiente de fiabilidad de la prueba, elimina una de las dificultades
que presenta el método del test-retest, puesto que ambas pruebas se aplicarían
Capítulo 3. Fiabilidad: Definiciones
85
a los sujetos en el mismo momento y, por lo tanto, se tiene un control más directo de que el sujeto las realiza en las mismas condiciones, aunque se alargaría el
tiempo de aplicación. En este caso, habría que tener en cuenta si la respuesta
de una forma influye en la otra y la longitud de las pruebas. A veces es conveniente hacer un pequeño descanso entre aplicaciones, para que las respuestas
no estén contaminadas por un efecto de fatiga en los sujetos que las cumplimentan.
El gran inconveniente que tiene esta modalidad es el de que multiplica el
esfuerzo en el proceso de construcción y selección de ítems. En la actualidad, en
bastantes tipos de pruebas ya se han construido los ítems con anterioridad y
se tiene disponible un gran banco de ítems de los que se conocen sus características, gracias a las técnicas de la teoría de la respuesta al ítem (TRI) que trataremos en capítulos posteriores.
División en dos partes
Se trata en este caso de poner en relación las puntuaciones entre dos partes del
mismo test, actuando ambas como si fuesen dos formas paralelas. La división del
test en dos partes se puede llevar a cabo de muy distintas formas, sin embargo,
para realizarla correctamente con el propósito de calcular la fiabilidad, hay que
tener en cuenta cómo se ha diseñado el test. En un test con ítems muy homogéneos, cualquier división en dos partes iguales se puede aceptar como adecuada.
Por el contrario, en aquellos casos, muy usuales en la práctica del diseño y la construcción, en los que el test va creciendo en dificultad a medida que se avanza en
su ejecución; o bien, en aquellos otros en que sin ser de dificultad creciente, se les
ha introducido al principio un cierto número de ítems de pequeña dificultad con
el fin de motivar al sujeto, no sería conveniente realizar una división en dos partes sin tener en cuenta dichas características. Los primeros ítems de una de las
partes serían más fáciles que los de la otra si se hiciese, por ejemplo, la división
eligiendo los n/2 primeros para una de las partes.
Una de las divisiones en dos partes, que tiende a paliar las dificultades anteriormente mencionadas, es aquella en que se eligen por un lado los elementos que
ocupan los lugares pares del test y por otro los impares, para utilizarlos como dos
formas paralelas. De esta forma los ítems que componen las dos partes en las que
queda dividido el test tienen dificultades similares.
86
Principios de Psicometría
La fiabilidad obtenida correlacionando las partes de un mismo test proporciona coeficientes que no se pueden interpretar en el mismo sentido que la fiabilidad calculada utilizando los datos obtenidos al administrarlo de forma repetida,
ya sea el mismo test en distintas ocasiones o sus formas equivalentes.
Cuadro 3.4
Cuando en el Capítulo 5 se estudie el significado del coeficiente de fiabilidad alfa, se hará una discusión más amplia de la conveniencia de usar una
u otra forma, dependiendo del contexto y de la finalidad del test.
Otra de las anotaciones que debemos hacer aquí, saliendo al paso de
posibles confusiones, es la de que las medidas repetidas (entre las que son
usuales el test-retest, formas paralelas y división en dos partes) deben cumplir las condiciones formales de paralelismo para que se las utilice como
medidas paralelas. Si las medias y las varianzas de las medidas repetidas no
son significativamente iguales, no se puede hacer uso de todas aquellas propiedades de las medidas que se han deducido de las condiciones de paralelismo.
Es relativamente frecuente encontrar en nuestro idioma la expresión división en dos mitades en vez de división en dos partes. Preferimos utilizar esta
última, aclarando que aunque frecuentemente las dos partes son iguales, no
es necesariamente así en todas las ocasiones y en esos casos de no equivalencia o de diferentes longitudes de las partes, el tratamiento es ligeramente distinto (véase por ejemplo Feldt y Brennan, 1989). Quizá con la expresión dos mitades se trate de evitar confusiones sobre la equivalencia e
igualdad de longitud entre las partes.
m3.4. Cálculo práctico de los coeficientes e índices de fiabilidadm
En este apartado se dan tres ejemplos de cómo pueden calcularse en la práctica
los coeficientes e índices de fiabilidad. Se utiliza un número reducido de sujetos
para facilitar los cálculos, pero el lector debe entender que en realidad habrá que
utilizar un número de sujetos muy superior para poder generalizar a una pobla-
87
Capítulo 3. Fiabilidad: Definiciones
ción, cumpliendo siempre la condición de que las muestras sean representativas
de dicha población.
Ejemplo 3.1
Las puntuaciones X y X' que se dan en la Tabla 3.1 se han obtenido como
resultado al administrar dos pruebas supuestamente paralelas a siete sujetos
que se asume que son una muestra representativa de la población para la que
se construye esa prueba. Las puntuaciones de X y X' varían entre cero y 15 puntos. Se trata de calcular la fiabilidad de la prueba y de discutir los procedimientos,
así como los resultados.
Tabla 3.1. Puntuaciones de siete sujetos en un cuestionario de quince ítems.
Sujetos
Puntuaciones
1
2
3
4
5
6
7
X
7
10
14
13
6
9
4
X'
9
11
13
13
7
7
3
Comoquiera que la modalidad elegida para calcular la fiabilidad de la prueba ha sido la de correlación lineal entre dos formas paralelas, el primer paso es
comprobar si las puntuaciones X y X' se pueden considerar paralelas, contrastando la igualdad de sus medias y varianzas.
Calculados esos estadísticos en ambas pruebas sus valores son:
X = E( X ) =
1 i=7
63
∑ Xi = = 9 ;
N i=1
7
∑ ( X i − X )2
X ′ = E( X ′) =
7
s2X =
i=1
N
1 i=7
63
∑ X i′ = = 9
N i=1
7
∑ ( X i′ − X ′)2
7
=
80
= 11.43 ; s2X′ =
7
i=1
N
=
80
= 11.43
7
obteniéndose que sX = sX' = 3.38.
Los resultados permiten el uso de ambas pruebas como medidas paralelas,
y puede calcularse el coeficiente de fiabilidad de la prueba, que según (2.12) es:
88
Principios de Psicometría
rXX′ =
1
N
∑ ( X i − X )( X ′i − X ′)
s X s X′
=
1 74
= 0.92
7 11.43
Por lo tanto, se infiere que el coeficiente e índice de fiabilidad de las pruebas son:
ρ XX′ = 0.92 ; ρ XV = ρ XX′ = 0.96
El resultado obtenido indica que la prueba tiene una fiabilidad elevada.
Puesto que el coeficiente de fiabilidad rXX' es menor (o igual) que la unidad, el
valor del índice siempre será mayor (o igual) que el del coeficiente. En este
ejemplo, los valores obtenidos para el índice y coeficiente de fiabilidad indican que la prueba es muy fiable. Si los datos, como se ha supuesto, se han
obtenido de muestras representativas de las poblaciones, tanto de ítems como
de sujetos, la prueba tiene suficiente precisión para utilizarla como instrumento
de medida.
Ejemplo 3.2
Supóngase ahora que los valores de X y X ' dados en la Tabla 3.1 no se
han obtenido aplicando dos pruebas diferentes, supuestamente paralelas,
sino en replicaciones de una misma prueba y que se desea conocer la fiabilidad de la prueba.
Si las condiciones de aplicación en este ejemplo responden a las exigidas
a la modalidad test-retest, detalladas en el Apartado 3.3, y los datos son idénticos a los de la Tabla 3.1, no hay necesidad alguna de contrastar nuevamente
la hipótesis de paralelismo. El cálculo de la fiabilidad y su interpretación ya están
dados en el ejemplo anterior.
Ejemplo 3.3
En la Tabla 3.2 se presentan los datos de tres sujetos que han respondido
a los ocho ítems de los que consta una prueba. Se quiere calcular la fiabilidad
de la prueba de la que sólo es posible disponer de los datos relativos a una sola
aplicación.
En este caso hipotético, el único método posible es el de la división en dos
partes. Una opción es la de correlacionar las puntuaciones de los ítems 1, 3, 5
y 7 con las de los ítems 2, 4, 6 y 8. Es decir, establecer la correlación entre los
89
Capítulo 3. Fiabilidad: Definiciones
ítems que ocupan los lugares pares con los de los impares. Se trata de calcular la correlación entre los valores que se dan en la Tabla 3.3:
Tabla 3.2. Datos de tres sujetos en una prueba de ocho ítems.
Ítems
Sujetos
1
2
3
4
5
6
7
8
a
b
c
10
9
10
10
12
8
8
6
10
4
4
6
6
7
8
9
8
6
8
9
10
8
6
8
Total
29
30
24
14
21
23
27
22
Tabla 3.3. Puntuaciones de los ítems en lugares impares y pares.
Impares: X
Pares: X '
29
24
30
21
14
27
23
22
Calculada la correlación, el coeficiente es rXX' ≅ 0.52. En este caso se concluiría que la prueba es fiable, pero que su fiabilidad es muy moderada y que,
salvando las precisiones que se han hecho en el Cuadro 3.3, esa fiabilidad debería mejorarse antes de aplicar la prueba. En otros apartados de esta obra (4.1,
4.2, 4.3 y 5.7) se dan indicaciones de cómo mejorar la fiabilidad de las pruebas.
Cuadro 3.5
Los ejemplos anteriores se presentan en el marco de la TCT, que es donde
se acuña el término fiabilidad, y están sujetos a más limitaciones de las que
serían deseables en cuanto al número de ítems y de sujetos, habiendo acudido a pequeños tamaños con la finalidad de que el lector pueda hacer los
cálculos sin el uso de programas de computador. Sin embargo, en los casos
reales el volumen de cálculo no es un problema, pues los cálculos de coeficientes de fiabilidad en muchas de sus formas vienen implementados en
programas de software como el SPSS. En todo caso, el lector debe tener
90
Principios de Psicometría
siempre en cuenta que en un supuesto real debe asegurarse de que se cumplen las condiciones básicas que legitiman los procesos de inferencia que
se realizan.
En cualquier supuesto en el que sea necesario construir una prueba y,
por lo tanto, conocer la fiabilidad de esa prueba, se tiene que tener en cuenta el tipo de prueba, la forma de obtener las medidas repetidas, las condiciones de aplicación, etc. Si, como es lo usual, el cálculo de la fiabilidad es
uno de los pasos en el proceso de construcción de una prueba; cuyo objetivo último es el de aplicarla de forma estándar a una determinada población, hay que asegurarse de que los sujetos a quienes, con carácter experimental, se les administra la prueba, constituyen una muestra representativa
de aquella población y de que el tamaño muestral elegido permite hacer posteriores inferencias con el nivel de confianza deseado. Esto significa que
habrá que controlar, entre otras, variables socio-culturales, así como la edad
y el sexo o el género, u otras. Además habrá que documentarse sobre los
procedimientos estadísticos para que los tamaños de muestra sean los adecuados para hacer las inferencias con las debidas garantías.
m3.5. Otras ecuaciones para el cálculo de la fiabilidadm
En el caso en que se calcule la fiabilidad correlacionando los elementos situados
en los lugares pares con los de los impares, se puede hacer uso de la ecuación de
Rulon o de la de Flanagan y Guttman. Ambas ecuaciones, aunque se desarrollaron de forma independiente, son similares.
Si se hace la división del test en dos partes, se puede poner en relación cada
elemento situado en el lugar impar con su correspondiente par. Así, para un test
con un número par de elementos n, si se denomina a los ítems por su número de
orden en la composición del test, se pondrían en relación los elementos de las
parejas: (1, 2), (3, 4), …, (2n –1, 2n).
Conocidos los valores de la variable X (puntuación) de todos los sujetos en
todos y cada uno de los ítems o elementos de la prueba, se pueden poner en relación todas las parejas de puntuaciones (Xi, Xp ), denotando por Xi a los ítems que
ocupan una posición impar, y por Xp a aquellos que ocupan la posición par correspondiente.
91
Capítulo 3. Fiabilidad: Definiciones
Ejemplo 3.4
Se quiere conocer las medias, las varianzas y las desviaciones típicas de
los datos de la Tabla 3.4, que son los valores obtenidos en los 16 ítems de una
prueba, que se administran a 8 sujetos, dando separadamente los valores en
los ítems que ocupan un lugar impar o par, así como los valores de las diferencias entre ellos.
Tabla 3.4. Valores obtenidos en una prueba que consta de 16 ítems.
Sujetos
Ximpar = Xi
Xpar = Xp
Xp-i = Xp – Xi
1
2
3
4
5
6
7
8
15
16
1
14
19
5
16
12
–4
10
18
8
9
10
1
10
7
–3
12
10
–2
10
12
2
Los valores medios, varianzas y desviaciones típicas de las tres variables
consideradas son:
σ 2X = 6.25
σ X i = 2.50
X p = 13
σ 2X = 15.75
σ X p = 3.97
X p−i = X p − X i = 1
σ 2X
σ X p − i = 3.81
X i = 12
i
p
p−i
= 14.50
Ecuación de Rulon
Es una forma de cálculo de la fiabilidad mediante la expresión:
ρ XX ′ = 1 −
σ 2X p−i
σ 2X
(3.6)
donde la puntuación total es X = Xp + X i y la de la diferencia entre los ítems
que ocupan lugares pares e impares es Xp–i = Xp – X i .
92
Principios de Psicometría
Cuadro 3.6
La ecuación (3.6) puede deducirse a partir de la expresión de la varianza de
las variables Xp y X p–i, bajo los supuestos del modelo de Spearman.
Si es n el número total de elementos de la prueba, la variable Xp–i tendrá
n/2 elementos y la varianza de esa variable es:
∑ ( X p−i − X p−i )2
n/ 2
σ 2X
p−i
=
1
n/2
∑ [( X p − X i ) − ( X p − X i )]
n/ 2
=
2
1
n/2
Sustituyendo las puntuaciones observadas por sus correspondientes
verdaderas, y teniendo en cuenta que tanto para los elementos de los
lugares pares como para los de los impares se trata de una prueba realizada por los mismos sujetos en las mismas condiciones, estas puntuaciones verdaderas serán idénticas tanto si los ítems están en un lugar par
o impar. Es decir, X p = V + e p y X i = V + e ¡, por lo tanto, X p = V = X i .
Luego:
σ 2X
p−i
=
∑ [( V + ep − V ) − ( V + ei − V )]
n/2
2
=
∑ ( ep − ei )2
n/2
Esta expresión es equivalente a las siguientes:
σ 2x
p−i
=
+
∑ {[ep − E(ep )] − [ei − E(ei )]}
2
∑ [ei − E(ei )]
n/2
n/2
2
−2
=
∑ [ep − E(ep )]
∑ [ep − E(ep )]
n/2
2
+
[ei − E(ei )] = σ 2
n/2
ep
+ σ e2
i
en las que se han sustituido los términos ep y ei por [ep – E(ep)] y [ei – E(ei)],
respectivamente. Ello es posible ya que, si se tienen en cuenta las hipótesis del modelo E(ep ) = E(ei ) = 0.
Por otra parte, al desarrollar el cuadrado de la diferencia, el término del
doble producto expresa la covarianza entre los errores ep y ei que es nula,
ya que por hipótesis los errores no están correlacionados.
Luego σ 2Xp – i = σ 2e i + σ 2e p = σ 2e .
Capítulo 3. Fiabilidad: Definiciones
93
Al sustituir σ 2e por su equivalente σ 2Xp – i en la expresión general del coeficiente de fiabilidad, se tiene que:
ρ XX' =
σ 2V
σ 2X
σ e2
= 1−
σ 2X
= 1−
σ 2X
p−i
σ 2X
que es la expresión dada para la ecuación de Rulon.
De la ecuación de Rulon se deduce que la fiabilidad de una prueba se puede
conocer si se conoce la varianza total de la prueba y la de la variable de las diferencias entre los elementos que ocupan los lugares pares e impares.
La interpretación de esta expresión, como coeficiente de fiabilidad, es inmediata. Puesto que σ X2 ≥ σX2 p-i , el cociente entre ambas varianzas es positivo y menor
o igual a la unidad, al estar σ X2 p-i en el numerador de (3.6). Por lo tanto:
a) ρXX' toma los valores de un coeficiente de fiabilidad 0 ≤ ρXX' ≤ 1.
b) El valor 0 para ρXX' se obtiene cuando σ X2 p-i = σ X2 . Toda la varianza es
varianza error.
c) El valor 1 para el coeficiente de fiabilidad (su cota superior) se alcanza cuando la varianza de las diferencias es cero.
Cuadro 3.7
Siguiendo con el ejemplo de la Tabla 3.4, para calcular la fiabilidad mediante la ecuación de Rulon, además de la varianza de la variable Xp–i, habrá que
calcular la de la variable X. Al ser esta variable aleatoria suma de otras dos,
X = Xi + Xp, su varianza es la suma de las varianzas de cada una, más la covarianza entre ellas [2 cov (Xp, Xi)]. Las varianzas de ambas variables y la de las
diferencias ya se han calculado anteriormente y la covarianza puede obtenerse de la relación:
σ 2X
p−i
= σ 2X + σ 2X − 2 cov( X p , X i )
p
i
94
Principios de Psicometría
de donde
2 cov( X p , X i ) = σ 2X + σ 2X − σ 2X
p
i
p−i
= 15.75 + 6.25 − 14.50 = 7.50
resultando
σ 2X = σ 2X + σ 2X + 2 cov( X p , X i ) = 15.75 + 6.25 + 7.50 = 29.50
p
i
Sustituyendo estos valores se obtiene:
ρ XX′ = 1−
σ 2X
p−i
σ 2X
= 1−
14.5
= 0.51
29.5
para el valor de la fiabilidad de esa prueba.
Ecuación de Flanagan y Guttman
La ecuación que dan estos autores responde a la expresión:
 σ2 + σ2  4 ρ
Xp
Xi 
X pX i σ X p σ X i
ρ XX ′ = 2 1 −
=


σ 2X
σ 2X


(3.7)
donde todos los términos tienen el mismo significado que el dado anteriormente.
Cuadro 3.8
La ecuación de Flanagan y Guttman se puede derivar directamente de la
dada por Rulon, aunque, como ya se ha dicho, estos autores la desarrollan
independientemente.
Capítulo 3. Fiabilidad: Definiciones
95
La comprobación es inmediata, ya que:
ρ XX′ = 1−
=
σ 2X
p−i
σ 2X
=
σ 2X − σ 2X
σ 2X
p−i
=


σ 2X + σ 2X + 2 ρ X p X i σ X p σ X i −  σ 2X + σ 2X − 2 ρ X p X i σ X p σ X i 

 p
p
i
i
σ 2X
que se obtiene sustituyendo las varianzas de una suma (X = X p + Xi) y una
diferencia (Xp –Xi) de variables por sus correspondientes expresiones, siendo ρXpXi el coeficiente de correlación lineal entre las variables Xp y Xi.
Reordenando términos se obtiene la expresión:
ρ XX′ =
4 ρ Xp Xi σ Xp σ Xi
σ 2X
que es equivalente a la ecuación de Rulon, pero cuyo cálculo aparenta ser
más simple.
Usando los datos de la Tabla 3.4 se obtiene que
 15.75 + 6.25 
ρ XX′ = 2 1−
 = 0.51
29.5


Sabiendo que ρXpXi σXpσXi = 3.75 (Cuadro 3.7) se obtiene también:
ρ XX′ =
(4 )( 3.75)
= 0.51
29.5
resultados que coinciden con el obtenido anteriormente con la fórmula de
Rulon.
Puntos clave
3
La fiabilidad mide la precisión de las medidas en los tests y cuestionarios. Conceptualmente indica con qué fuerza (cuantía de la correlación) están linealmente correlacionadas las puntuaciones que se observan al aplicar la prueba y las
96
Principios de Psicometría
3
3
3
3
3
3
que serían las puntuaciones verdaderas de los sujetos en el rasgo que se pretende evaluar.
La puntuación verdadera del sujeto no es directamente observable, por lo que
se hacen hipótesis, en el contexto del modelo lineal de Spearman, para poder
calcular esas correlaciones, utilizando solamente puntuaciones empíricas. Esto
es posible cuando las correlaciones se calculan entre medidas paralelas o tauequivalentes.
En tests compuestos por varios grupos formando una batería, la fiabilidad también se evalúa mediante correlación entre puntuaciones observadas y verdaderas, teniendo en cuenta que el cálculo de esa correlación se hace con puntuaciones empíricas y que intervienen todas las variables componentes.
La fiabilidad en el sentido de estabilidad de las puntuaciones se obtiene con
aplicaciones repetidas de una misma prueba, o de pruebas equivalentes.
La fiabilidad que da cuenta de la consistencia interna entre los ítems o elementos de la prueba se puede obtener correlacionándolos. Hay diferentes formas
de hacerlo, una de ellas es dividir el test en dos partes y correlacionar las puntuaciones de cada uno de los ítems de una parte con las de su correspondiente ítem en la otra.
Las fórmulas de Rulon y de Guttman miden la consistencia interna y calculan la
fiabilidad a partir de una sola aplicación del test, correlacionando (en el orden
en que están dadas) las puntuaciones de los ítems que ocupan los lugares pares
con los correspondientes que ocupan los lugares impares.
La consistencia interna se suele calcular mediante coeficientes que no exigen
el paralelismo, como el denominado coeficiente alfa, que se va a introducir en
el quinto capítulo de este texto.
Actividades
r Piense en alguna característica que desee medir y formule un conjunto de
preguntas. Discútalas con algún compañero y con el profesor. Prepare con
ello un test.
r Si la fiabilidad indica precisión ¿por qué tiene sentido definir su medida
como el cociente entre dos varianzas?
r Comente cuánto tiene de formal y/o de ingenioso inferir la fiabilidad de
una prueba de la correlación entre medidas paralelas.
r Si la fiabilidad no puede ser negativa ¿es correcto hablar de índice de fiabilidad, siendo éste la raíz cuadrada (que puede ser un valor positivo o nega-
Capítulo 3. Fiabilidad: Definiciones
97
tivo) del valor de un coeficiente de correlación denominado coeficiente de
fiabilidad?
r Calcule la fiabilidad por distintos métodos, compare y discuta la diversidad
de resultados
a) desde el punto de vista de su valor
b) desde el punto de vista de sus diferentes significados
r Si no lo ha hecho en el ejercicio anterior, divida su test en dos partes, de
dos formas diferentes, una en la que se conserve el orden de presentación (una parte la constituyen los 50% primeros ítems y el otro 50% los
siguientes), la otra en pares, impares y aplique la fórmula de Rulon. ¿Cuáles son los resultados? ¿Son muy diferentes? Si es así, analice las posibles
causas.
r Explique en una página a qué se debe que distintas formas de calcular la
fiabilidad tengan diferente significado: e.g., estabilidad versus consistencia
interna.
Fiabilidad
Variabilidad de las puntuaciones
y longitud de las pruebas
4
En el capítulo anterior se explicita que el valor que se obtiene para indicar
la fiabilidad de un test puede depender, entre otras cosas, del tipo de fiabilidad que se mida, ya sea la estabilidad o la homogeneidad interna de las
puntaciones. También, con sólo observar la ecuación (3.2), se puede inferir que la fiabilidad depende de la varianza de las puntuaciones observadas.
En este capítulo se va a tratar:
ã La fiabilidad calculada para un test está afectada por la variabilidad
de las puntuaciones de la muestra sobre la que se calcula.
ã Los cambios en la longitud de una prueba, ya sea porque se añaden
nuevos elementos, o bien por supresión de algunos de los existentes, cambian la fiabilidad de esa prueba.
ã Cómo afecta la varianza de las puntuaciones en el test a su fiabilidad.
m4.1. Fiabilidad y variabilidad de las puntuacionesm
Cuando se va a estimar la fiabilidad de una prueba, el valor que se obtiene para
esa fiabilidad es mayor cuanto mayor es la varianza de las puntuaciones en esa
prueba de los sujetos que componen la muestra.
Al estudiar las propiedades de las pruebas (tests, cuestionarios, inventarios, etc.)
son muchas las posibles muestras aleatorias representativas que se pueden extraer
de una población en la que se pretende medir un rasgo mediante una determinada prueba. Por lo tanto, el coeficiente de fiabilidad de esa prueba, obtenido correlacionando medidas paralelas, mostrará valores diferentes, pues las puntuaciones,
100
Principios de Psicometría
X y X', variarán de unos grupos a otros y de unas muestras a otras. En principio,
se espera que esas diferencias no sean significativas si las muestras son realmente
representativas de la población a la que representan. Es decir, la muestra debe reflejar toda la variabilidad que exista en la población en relación con aquello que se
pretende medir. Por lo tanto, en el estudio de la fiabilidad es esencial tener en cuenta estas consideraciones, pues dado un valor para la fiabilidad, es necesario poder
determinar hasta qué punto la medida dada de la precisión de la prueba está afectada por esa variabilidad. Este estudio se realiza comparando las varianzas de las
puntuaciones obtenidas por diferentes muestras en las mismas pruebas. A continuación se van a establecer esas relaciones entre variabilidad de las puntuaciones
y fiabilidad, es decir, entre heterogeneidad de las muestras y precisión de la prueba. Por simplicidad, aquí se va a ilustrar considerando sólo dos muestras, aunque
es obvio que se puede generalizar a un número arbitrario de ellas.
Sea una prueba X, siendo X' una prueba paralela, y sean A y B dos muestras
aleatorias extraídas de la población para la que se construye la prueba X. Los dos
pares de conjuntos de puntuaciones que se obtienen aplicando pruebas paralelas
en las muestras A y B son (XA, X'A ) y (XB, X'B ) con:
{ }
{ }
{ }
{ }
X A = X A j ; X′A = X′A j ; X B = X B j ; X′B = X′B j
Correlacionando ambos pares de valores muestrales se obtienen los coeficientes de fiabilidad:
rX A X ′A ; rX BX ′B
teniendo así dos coeficientes de fiabilidad para una misma prueba. Se podrían
obtener tantos coeficientes como muestras representativas diferentes se extraigan de esa población.
Los coeficientes de fiabilidad se relacionan con las varianzas de las puntuaciones mediante (2.15)
(
)
(1 − rX X′ )
s2eA = s2X A 1 − rX A X ′A
s2eB = s2X B
B
B
Capítulo 4. Fiabilidad: Varianza y longitud
101
y estas expresiones permiten poner en relación las varianzas de ambas muestras
con los coeficientes de fiabilidad respectivos, si se tiene en cuenta la suposición
de igualdad de las varianzas de los errores, s2eA = s2eB.
En ese caso es:
s2X A (1 − rX A X ′A ) = s2X B (1 − rX BX ′B )
(4.1)
por lo que la relación entre ambas varianzas es:
s2X A
s2X B
=
1 − rX BX ′B
1 − rX A X ′A
(4.2)
de donde se deduce que la fiabilidad de un test aumenta a medida que aumenta
la varianza de las puntuaciones muestrales en dicho test, puesto que, como se
observa en la ecuación (4.2), las varianzas de las puntuaciones en dos muestras
diferentes son inversamente proporcionales a las diferencias a uno de las correspondientes fiabilidades obtenidas con esas muestras. Así, por ejemplo, si se da la
desigualdad:
rX BX ′B > rX A X ′A
y puesto que ambos coeficientes de fiabilidad no pueden tomar más valores que
aquellos contenidos en el intervalo [0,1], se tiene que:
1 − rX BX ′B < 1 − rX A X ′A ;
y por lo tanto:
s2X A
s2X B
<1
s2X A < s2X B
De aquí se deduce que, para cualquier par de muestras ( J, L) se verifica la relación:
s2X J > s2X L ⇔ rX JX ′J > rX L X ′L
102
Principios de Psicometría
es decir, que la fiabilidad de un test obtenida con una muestra más homogénea
en cuanto a sus puntuaciones en ese test, será menor que la fiabilidad obtenida
para el mismo test con otra muestra en la que haya más variabilidad entre las puntuaciones de los sujetos.
La fiabilidad en una de las muestras se puede obtener conociendo la calculada en otra y las varianzas de las puntuaciones en ambas muestras:
rX BX ′B = 1 −
s2X A
s2X B
(1− rX X′ )
A
A
(4.3)
Al hacer deducciones, téngase siempre en cuenta que estas afirmaciones se
hacen a partir del supuesto de igualdad de las varianzas error en ambas muestras.
Si este supuesto no se cumpliera, se estaría sobrestimando la fiabilidad de aquella muestra que tuviera mayor varianza error.
Si se conoce la fiabilidad de una prueba obtenida con dos muestras procedentes de la misma población, se puede inferir en qué muestra las puntuaciones
son más homogéneas y estimar la relación que existe entre las varianzas.
Ejemplo 4.1
Un cuestionario X, destinado a medir neuroticismo en estudiantes de doctorado, se ha administrado a dos muestras aleatorias, las muestras A y B. La
muestra A se ha elegido mediante el procedimiento de muestreo estratificado
con dos criterios de estratificación: tamaño de la universidad y tipo de estudios.
La muestra B se ha elegido por el procedimiento de muestreo aleatorio simple.
Los coeficientes de fiabilidad obtenidos con las muestras A y B son:
rX A X′A = 0.90 ; rXB X′B = 0.80
Aplicando (4.2), se puede conocer la homogeneidad relativa de las muestras con respecto a las puntuaciones en el test:
s2X
A
s2X
B
=
1− 0.80
=2
1− 0.90
Capítulo 4. Fiabilidad: Varianza y longitud
103
o sea, que la varianza de las puntuaciones en la muestra A es mayor (el doble
en este caso) que en la B, lo que se refleja en que la fiabilidad obtenida con la
muestra A es superior a la obtenida con la B.
Si se conociera la varianza de las puntuaciones en ambas muestras y la fiabilidad en una de ellas, se podría calcular la fiabilidad de la otra muestra utilizando la relación (4.3). Por ejemplo, a partir de:
rX A X′A = 0.90 ; s2X = 100 ; s2X = 50
A
B
se obtiene que el valor de la fiabilidad en la muestra B es 0.80.
m4.2. Fiabilidad y longitud de las pruebasm
En este apartado se estudia cómo afecta la longitud de la prueba a la precisión
con la que esa prueba realiza la medida.
La longitud de una prueba viene dada por el número de elementos o de ítems que
la componen. Se puede comprobar que la fiabilidad de un test psicométrico aumenta con su longitud. Por lo tanto, se puede aumentar la precisión de una prueba si se
aumenta su longitud mediante la adición de elementos paralelos. Aumentar la longitud de la prueba añadiendo elementos paralelos, no es, en general, directamente aplicable a los cuestionarios o inventarios que miden personalidad, o actitudes, y hay que
tener en cuenta si la prueba está constituida por grupos de ítems que miden diferentes factores o dimensiones del rasgo o del constructo que se pretende medir. En este
tipo de pruebas, la fiabilidad se suele obtener como coeficiente de consistencia interna y, además de exigir a la prueba una fiabilidad adecuada, hay que exigírsela también
a cada una de las dimensiones o factores que componen la prueba.
Cuadro 4.1
Es necesario hacer precisiones acerca de lo que se entiende por elemento,
componente o ítem de una prueba, así como longitud. Los tests psicométricos están compuestos por ítems a los que podríamos llamar de forma
redundante “elementos elementales”, y la longitud del test usualmente coin-
104
Principios de Psicometría
cide con ese número de ítems. También a veces se considera elementos a
ciertas agrupaciones de ítems, algunas de ellas conocidas en la literatura
bajo la denominación de subtests y otras como dimensiones. El cálculo de
la puntuación obtenida en el test se puede hacer sumando las puntuaciones
en cada uno de los ítems, o bien en las de cada uno de los subtests o partes
que componen la prueba. La medida total de la prueba se obtiene por adición de las medidas de sus componentes, refiriéndonos así a las componentes como a cada uno de los ítems, o bien, a cada uno de los elementos
o de las partes constituyentes de la prueba.
En adelante, a menudo se va a tratar con conceptos, ecuaciones y relaciones en los que se hace uso de la longitud de un test y, en otros casos,
nos referiremos al número de componentes de un test. En el primer caso nos
solemos referir al número de ítems del test, pero el segundo es más general,
pues llamamos número de componentes al número de elementos o partes
que integran el test, ya sean éstos de carácter elemental como son los ítems,
o bien, conjuntos de ellos. El número de componentes coincidirá con el de
ítems cuando cada una de esas componentes esté formada por un solo ítem.
Lord y Novick, en su obra Statistical theories of mental test scores (1968,
pág. 82), dicen que por longitud del test entienden el número de componentes que comprende el test compuesto, refiriéndose al test total o test
compuesto como a la suma de las componentes y a la medida como a la
medida compuesta y a sus partes como a las medidas componentes. En
todo caso, cuando la notación que se dé a la longitud n de una prueba pueda resultar equívoca se explicitará a qué se está haciendo referencia.
Ecuación de Spearman-Brown
La ecuación que expresa la relación entre la fiabilidad y la longitud de un test es la
denominada ecuación de Spearman-Brown. Esta ecuación permite calcular la fiabilidad RXX' de un nuevo test, construido a partir de otro establecido cuya fiabilidad rXX' es conocida, aumentando k veces su longitud con elementos paralelos.
R XX ′ =
k rXX ′
1 + ( k − 1) rXX ′
(4.4)
En esta ecuación se utiliza la letra r (minúscula) para indicar la fiabilidad inicial y R (mayúscula) para la obtenida por modificaciones del test inicial.
105
Capítulo 4. Fiabilidad: Varianza y longitud
La ecuación (4.4) lleva el nombre de los dos psicólogos que simultánea e independientemente la propusieron, aunque en muchas ocasiones, en la literatura se
refieren a ella como profecía, quizá porque con un simple cálculo, que no lleva
más de unos segundos, se pueden predecir las variaciones de la fiabilidad del test
inicial, al duplicar, triplicar, etc. la longitud de ese test. Esto es, con sólo calcular:
rXX ′ ;
2 rXX ′
3 rXX ′ …
k rXX ′
;
;
;
1 + rXX ′ 1 + 2 rXX ′
1 + ( k − 1) rXX ′
se puede pronosticar la validez de los nuevos tests a partir del test inicial (k = 1).
La ecuación (4.4) se suele interpretar considerando valores enteros y positivos de
k, pero como tendremos ocasión de comprobar más adelante, esta relación es
válida para cualquier valor de k real y positivo.
La deducción de la ecuación de Spearman-Brown se realiza en el Cuadro 4.2.
Por razones didácticas, se hace para k = 2 y luego se generaliza para cualquier
aumento de la longitud un número de veces k ≥ 2.
Cuadro 4.2
Deducción de la ecuación de Spearman-Brown
A) Caso de longitud doble (k = 2)
Supóngase construido un test X1 y una forma paralela de este test X'1. Si se
construye otro test X2, y una forma paralela a él X'2, que tengan la misma longitud y que a su vez sean paralelos al test X1, se puede construir un nuevo test
X, formado por X1 y por X2, cuya longitud será el doble que la del test X1 inicial.
La fiabilidad del test X1 se mide mediante el coeficiente de correlación rX1X'1.
La fiabilidad del nuevo test X = X1 + X2, en que se ha duplicado el número de elementos con respecto al contenido en el test X1, se calculará hallando la correlación lineal entre X y otro test paralelo a él, sea éste X' = X'1 + X'2:
R XX′ =
{[
][
]}
cov( XX ′) E X − E( X ) X ′ − E( X ′)
=
σ X σ X′
σ X σ X′
106
Principios de Psicometría
Desarrollemos esta expresión, sustituyendo previamente tanto X como
X' por la suma de sus componentes.
Numerador
{(
( )) (X1′ − E (X1′ ) + X 2 − E (X ′2 ))} = 4 rX X′ σ 2X
( )
E X1 − E X1 + X 2 − E X 2
1 1
1
donde el segundo miembro de la igualdad anterior resulta de considerar que
la esperanza matemática de cada uno de los cuatro productos resultantes
son covarianzas como la siguiente:
{[
] [X1′ − E ( X1′ )]} = cov (X1, X1′ ) = rX X′ σ X σ X′ = rX X′ σ 2X
E X1 − E ( X1)
1 1
1
1
1 1
1
en donde, σ X1σ X'1 = σ 2X1 por tratarse de formas paralelas.
Denominador:
Por paralelismo, la varianza de la variable X es igual a la de X', por lo
tanto, en el denominador de la expresión se tiene que σ Xσ X' = σ 2X . Como
esta varianza es:
[
]
σ 2X = E X − E( X )
2
{
= σ 2X + σ 2X + 2 rX1X 2 σ X1 σ X 2
1
]}
[
= E X 1 + X 2 − E( X 1 ) + E( X 2 )
2
=
2
y por las condiciones de paralelismo se pueden considerar las siguientes
igualdades:
σ 2X = σ 2X ; rX1X 2 = rX1X′1
1
2
tomando entonces la varianza de X la expresión:
σ 2X = 2 σ 2X + 2rX1X1′ σ 2X = 2 σ 2X (1+ rX1X1′ )
1
1
1
Sustituyendo numerador y denominador de RXX' por las expresiones obtenidas se tiene que:
Capítulo 4. Fiabilidad: Varianza y longitud
R XX′ =
4 rX1X1′ σ 2X
1
2 σ 2X (1+ rX1X1′ )
1
=
2rX1X1′
1+ rX1X1′
que es la ecuación de Spearman-Brown para un test X cuya longitud es el
doble de la del test inicial X1.
B) Caso general
Un desarrollo análogo al realizado anteriormente conduce a la ecuación general, al considerar un test X compuesto por un número k de tests
paralelos, siendo:
X = X1 + L + X k
En el numerador de la expresión RXX' se obtendrán k × k = k2 productos
covarianza, todos ellos equivalentes, pudiéndose denotar cualquiera de ellos
por una expresión como la siguiente:
(
)
cov X 1, X 1′ = rX1X1′ σ 2X
1
En el denominador, la varianza de X se puede sustituir por la expresión
general de la varianza de una suma de variables:
σ 2X = σ 2X + L + σ 2X + k (k − 1) σ X i σ X j rX iX j
1
K
que, debido a la condición de paralelismo entre cualesquiera Xi, Xj, que se
les ha impuesto, es equivalente a
σ 2X = k σ 2X + k (k − 1) σ 2X rX1X′1
1
1
por lo que:
R XX′ =
k 2 rX1X′1 σ 2X
k σ 2X
1
[1+ (k − 1) r ]
1
X 1X 1′
=
k rX1X1′
1+ (k − 1) rX1X1′
que es la ecuación general de Spearman-Brown.
107
108
Principios de Psicometría
Los valores de k
En la ecuación de Spearman-Brown se calcula el aumento de la fiabilidad cuando, bajo condiciones de paralelismo, se aumenta un número k de veces la longitud de la prueba. Sin embargo, también se puede utilizar esa expresión para recalcular la fiabilidad de una prueba al disminuir su longitud, al suprimir elementos
paralelos. En este caso k tomaría valores menores que la unidad 1 (mayores que
cero; 0 < k < 1), puesto que se ha convenido que k = 1 para el test inicial.
Este proceso de supresión de elementos paralelos, al igual que el de adición,
puede tener un interés práctico. Supóngase que se dispone de un test muy fiable
pero que a su vez es muy largo, perdiendo por esta razón parte de su utilidad a
efectos prácticos. Una primera pregunta sería ¿cuánto disminuirá la fiabilidad de
este test si se eliminan un número nj de elementos paralelos? O bien esta otra,
¿cuántos elementos se pueden eliminar para que el nivel de fiabilidad sea uno predeterminado como admisible para esa prueba, aunque éste sea menor que el actual?
Ambas cuestiones se resuelven usando la ecuación (4.4), dando a k valores positivos menores que la unidad, como se muestra posteriormente en el Ejemplo 4.4.
Variaciones de la fiabilidad con la longitud
La fiabilidad aumenta o disminuye con aumentos o disminuciones de la longitud
de la prueba, pero esas variaciones no son proporcionales al número de elementos añadidos o suprimidos, como se puede deducir de la ecuación (4.4). En la
Tabla 4.1 se dan los resultados de la fiabilidad calculada con la ecuación (4.4) para
algunos valores de k y algunas fiabilidades iniciales, teniendo en cuenta que para
el test inicial es siempre k = 1.
Las variaciones de RXX' con k para estos mismos valores de rXX' se pueden
observar también en la Figura 4.1, donde las curvas indican variaciones de la fiabilidad entre k = 0 y k = 8. Por lo tanto, en esa figura se pueden apreciar las variaciones de la fiabilidad cuando se aumenta (k > 1) o se disminuye la longitud (valores de k entre cero y uno). Se ha trazado una línea vertical (con trazo discontinuo)
paralela al eje de ordenadas en k = 1 (cuya intersección con las curvas marca la
fiabilidad inicial), con el objeto de apreciar mejor las variaciones de la fiabilidad
(creciente o decreciente) a partir de esos valores iniciales de la fiabilidad. Se ha
representado también con trazo discontinuo una línea horizontal para R = 1, que
es la asíntota a la que tienden todas las curvas, con mayor o menor velocidad.
109
Capítulo 4. Fiabilidad: Varianza y longitud
Tabla 4.1. Valores de fiabilidad (R) en función de la fiabilidad inicial (r)
para algunos valores de k.
r
k = 0.5
k=2
k=4
k=6
k=8
0.1
0.3
0.5
0.7
0.9
0.053
0.176
0.333
0.538
0.818
0.182
0.462
0.667
0.824
0.947
0.308
0.632
0.800
0.903
0.973
0.400
0.720
0.857
0.933
0.982
0.470
0.774
0.889
0.949
0.986
Figura 4.1. Curvas de variación de fiabilidad en función de la longitud,
para los valores de fiabilidad inicial dados en la Tabla 4.1.
De la observación de la Figura 4.1 y los valores de la Tabla 4.1 puede inferirse que:
a) Para un valor dado de rXX' el valor de RXX' aumenta con k.
b) Este aumento es pequeño a partir de valores de k grandes, pues si se sustituye k por k + 1 en la ecuación (4.4) se obtiene prácticamente el mismo
valor para RXX' .
110
Principios de Psicometría
c) Las curvas para valores altos de k tienen menores pendientes (crecen más
lentamente con k).
d) Cuando se parte de fiabilidades relativamente bajas (rXX' < 0.50) es necesario un valor excesivamente grande de k para llegar a tener fiabilidades
apreciables.
e) Todas las curvas tienden asintóticamente (aunque con muy diferente velocidad) al valor asintótico de RXX' = 1.
f) Al disminuir la longitud (k < 1) disminuye la fiabilidad y la cuantía de esa
disminución depende de k y de la fiabilidad inicial.
Formalmente se puede comprobar que siempre que rXX' < 1 se verifica la relación de desigualdad siguiente:
1 + (k – 1) rXX' > k rXX'
y por lo tanto siempre debe cumplirse que RXX' ≤ 1.
Consecuencias:
Las consecuencias que se derivan de las relaciones entre fiabilidad y longitud
son importantes en la práctica de la construcción de tests, pues permiten dar respuesta a preguntas tales como las siguientes:
a) ¿Se puede conseguir un test con fiabilidad apreciable o moderadamente
alta a partir de un test con muy escasa fiabilidad?
b) ¿Se puede conseguir un test con fiabilidad unidad añadiendo elementos
paralelos a un test inicial con rXX' elevada?
c) ¿Hasta qué punto se debe alargar un test para aumentar su precisión?
d) ¿Cuál sería la longitud total de un test, añadiendo elementos paralelos a uno
dado, si se quiere obtener un determinado valor para su fiabilidad?
e) ¿Se pueden acortar los tests? ¿Cómo evaluar las consecuencias en cuanto
a la modificación de su fiabilidad?
Las respuestas a estas preguntas u otras similares que se podrían plantear son
inmediatas:
A la cuestión a) hay que responder negativamente por razones prácticas, puesto que llegar a esos niveles de fiabilidad implicaría aumentos de longitud tales que
Capítulo 4. Fiabilidad: Varianza y longitud
111
el test inicial quedaría reducido a una parte insignificante con respecto al test resultante. Eso es prácticamente inviable o, al menos, incoherente. Por ejemplo, para
aumentar la fiabilidad de un test de 30 elementos y fiabilidad rXX' = 0.15 hasta
valores del coeficiente de 0.60 o de 0.78 se tendrían que añadir al test inicial 225
elementos en un caso y 573 en el otro. De esta primera cuestión se deduce que
los tests escasamente fiables deben despreciarse en su forma original y no tratar
de mejorarlos aumentando su fiabilidad adicionándoles elementos paralelos.
Para dar respuesta a la cuestión b) hay que considerar cuáles son las implicaciones
que tiene el que se pueda obtener el valor uno para RXX' . Si es RXX' = 1, entonces
1=
k rXX ′
1 + ( k − 1) rXX ′
de donde se deduce que k rXX' = 1 + (k – 1) rXX' y esta igualdad sólo puede darse
si rXX' = 1. Por lo tanto, la obtención de valores RXX' = 1 implica un test inicial en
el que necesariamente tiene que ser rXX' = 1; y si este test era perfecto en cuanto a
precisión, no cabe aumentar su longitud para aumentar su fiabilidad. Lo que sí se
puede deducir de estas cuestiones es que para obtener valores de RXX' próximos a
la unidad, es necesario partir de tests iniciales con valores de rXX' elevados.
La respuesta a la cuestión c) implica a la respuesta dada a las dos cuestiones
anteriores y a la propiedad de “frenado” que tiene la curva de crecimiento de la
fiabilidad. En primer lugar se debe llegar a un test final con un número moderado de ítems y, si prescindiéramos de todos los inconvenientes que conlleva un test
muy largo, todavía cabría preguntarse ¿para qué alargar un test si la ganancia en
precisión puede ser realmente despreciable? Las consideraciones sobre el número de ítems y la ganancia en precisión deben combinarse conjunta y adecuadamente en cada caso particular.
Las respuestas a las preguntas d) y e) están implícitas en lo anterior, sin embargo se van a tratar específicamente en el siguiente apartado.
Cambios en la longitud para valores prefijados de la fiabilidad
La cuestión sobre cuánto habrá que aumentar o disminuir la longitud de un test
para obtener un determinado grado de precisión, puede surgir en la práctica por
tres razones fundamentales:
112
Principios de Psicometría
1) Porque el objetivo último para el que se construye la prueba exige que ésta
alcance un determinado nivel de precisión.
2) Porque el autor de un test desee investigar si es posible obtener una mejora apreciable en la precisión de la prueba con economía de medios. Es decir,
si podría mejorar su precisión sin necesidad de añadir un gran número de
elementos.
3) Porque desea acortar la prueba, o que esté interesado en utilizar solamente una de sus partes.
En cualquiera de esas situaciones se puede hacer uso de la ecuación de Spearman-Brown, pues el propósito es el cálculo de k para conocer, a través de él, la
longitud del nuevo test con fiabilidad prefijada.
Esta relación viene dada por la ecuación:
k=
R XX ′ (1 − rXX ′ )
rXX ′ (1 − R XX ′ )
(4.5)
La ecuación (4.5) puede deducirse fácilmente de (4.4) y permite calcular el
número k de veces que hay que aumentar la longitud del test inicial para conseguir una precisión prefijada, dada por el valor asignado a RXX' .
En todo ello, se está dando por supuesto que se ha cuidado lo sustantivo, es
decir, que se han analizado los contenidos del test y de los ítems con los que va a
aumentar la longitud, o de los que van a suprimir, en su caso.
Ejemplo 4.2
Un test tiene 20 ítems y su coeficiente de fiabilidad es rXX' = 0.48. ¿Cuántas
veces habría que aumentar su longitud para obtener otro con coeficiente de fiabilidad de al menos 0.73? ¿Cuántos ítems nuevos y paralelos sería necesario
construir?
En primer lugar se calcula
k
(1− 0.48)
≥ 00..73
= 2.93
48 (1− 0.73)
y se observa que se necesitaría casi triplicar su longitud, o sea, habría que pasar
de 20 a 59 ítems. Por lo tanto, para conseguir el objetivo deseado habría que
113
Capítulo 4. Fiabilidad: Varianza y longitud
construir 39 nuevos ítems, o elegirlos de un banco de ítems paralelos, si lo hubiera. Dado que hay que construir el doble de los ítems que se tenían, una pregunta pertinente es si convendría desechar los 20 ítems de partida y empezar
con unos nuevos ítems que tuvieran una fiabilidad inicial mucho mayor.
Ejemplo 4.3
De un conjunto de ítems se han elegido 20 para construir un test con fiabilidad r = 0.52. Con el fin de aumentar la fiabilidad se ha convenido en añadir
más ítems. Por ello, se desea conocer:
a) Los valores de la fiabilidad en función del número de veces que se aumenta la longitud, tomando el test dado como test unidad.
b) Basándonos en la información obtenida en a) ¿qué longitud y fiabilidad tendrá el test que se seleccionaría como adecuado, construido a partir del test
inicial?
c) ¿Cuál es el menor número de elementos que hay que añadir al test dado
para conseguir un test con fiabilidad mayor, o al menos igual a r = 0.71?
¿Qué longitud resultaría para este nuevo test?
d) Se ha tomado la decisión de que la longitud del test no supere los 28 ítems.
En ese caso ¿qué fiabilidad se puede conseguir si el procedimiento seguido es el de añadir al test inicial ocho ítems paralelos?
Solución:
a) El cálculo de la variación de la fiabilidad se realiza aplicando la ecuación (4.4),
obteniéndose los valores que se dan en la Tabla 4.2.
Tabla 4.2. Valores de la fiabilidad del test X al multiplicar por k su longitud.
k
1
2
3
4
5
6
RXX'
0.52
0.68
0.76
0.81
0.84
0.87
Con estos seis valores se observa que R crece con k, que ambas magnitudes están directamente relacionadas y que el crecimiento de RXX' se ve
frenado a medida que k crece.
114
Principios de Psicometría
b) Son varias las respuestas que se pueden dar a esta cuestión, dependiendo de
los objetivos y de las condiciones en las que se construye el test, en su sentido más general. Se debe tener en cuenta la extensión, las características y
las disponibilidades del banco de ítems, así como las cualidades psicométricas de cada uno de los ítems que se van a elegir para formar parte de la prueba. Si se desea que el test tenga una fiabilidad muy elevada, no parece que el
test inicial del que aquí se parte sea muy adecuado para conseguirla añadiendo
elementos paralelos. En cualquier caso, para aumentar la fiabilidad aumentando la longitud del test, se debe ser especialmente cuidadoso en el proceso, pues se pueden plantear problemas, como por ejemplo, el no paralelismo
entre las puntuaciones que proporcionan los ítems, o que no se deba alargar
lo que parece necesario, porque a partir de una determinada longitud, la fatiga influya significativamente en las respuestas, etc.
En el caso hipotético en el que los ítems del test que se esta aquí considerando fuesen de rápida ejecución y que no aparecieran problemas especiales en su construcción, se optaría por un test conteniendo 80 elementos
(k = 4). Esta decisión sólo se tomaría si, como se está suponiendo, la prueba no resultara excesivamente larga, por ejemplo, en un test de lectura donde los ítems fuesen palabras, u otro tipo de prueba en la que se den las condiciones indicadas. Con esa longitud, la fiabilidad esperada, que se obtiene
a través de la igualdad (4.4), es un valor aceptable como medida de la precisión de la prueba. Además, a partir de ese valor, los cambios en longitud
que se podrían realizar para aumentarla no estarían justificados.
c) Para calcular el menor número de elementos que es necesario añadir al test
inicial para que el nuevo test tenga fiabilidad igual o mayor que 0.71, se usa
la ecuación (4.5), resolviendo la desigualdad:
k
≥ 0.71 (1 – 0.52) / 0.52 (1 – 0.71) = 2.26
de donde se concluye que la longitud mínima del nuevo test debe ser:
n
≥ (20) (2.26) = 45.2
y como no existen fracciones de ítems, diremos que el número mínimo de
ítems requerido para que el nuevo test cumpla las condiciones exigidas es
de 46. Al estar el test inicial constituido por sólo 20 elementos, habrá que
añadirle al menos 26 elementos paralelos. Por lo tanto, la respuesta a la cuestión es que el menor número de elementos que hay que añadir al test inicial
es 26 y que la longitud mínima que deberá tener el test con la precisión deseada es 46 elementos. Ahora bien, este resultado teórico lleva a plantearse
una nueva cuestión que sería objeto de debate, pues ¿hasta qué punto conviene añadir tantos elementos? ¿incluso en un número superior a la longitud del test inicial?
Capítulo 4. Fiabilidad: Varianza y longitud
d) Si se determina cuál es la longitud máxima del test, que en este caso particular se ha fijado en 28 elementos, el cálculo de la fiabilidad máxima
que se puede obtener con este número de elementos se puede encontrar
teniendo en cuenta el valor k en ese aumento de la longitud. Aquí, el paso
de 20 a 28 elementos supone una proporción en el aumento de la longitud de
k = 1.4.
Por lo tanto, según la ecuación (4.4), la fiabilidad que se podría conseguir para este nuevo test, añadiendo ocho elementos paralelos al test inicial, es:
R=
(1.4 )(0.52)
= 0.60
1+ (1.4 − 1) 0.52
lo que indica un aumento apreciable de la fiabilidad que pasa de 0.52 a
ser 0.60.
Ejemplo 4.4
Se ha construido un test de comprensión verbal que consta de n 1 = 125
ítems y cuyo coeficiente de fiabilidad es 0.96.
a) ¿Cuánto disminuirá la fiabilidad si, una vez determinado que por las condiciones en las que se debe administrar el test, el número idóneo de ítems es
aproximadamente igual a 90?
Planteado así, el test final tendrá una longitud n2 menor que la del inicial
y la relación entre ambas, es n2 = k n1 (pues k = n2 / n1), que proporciona
para k un valor de k = 90/125 = 0.72 < 1, ya que n2 < n1.
La fiabilidad del nuevo test es:
R XX′ =
(0.72) (0.96)
= 0.945
1 + (0.72 − 1) 0.96
que sigue siendo una fiabilidad elevada para la prueba, con la ventaja adicional de una reducción muy apreciable del número de ítems. La pérdida en
fiabilidad de sólo quince milésimas se considera pequeña y, por lo tanto, la
supresión de 35 ítems es plausible, e incluso se podría estudiar la conveniencia de eliminar algunos ítems más.
b) Se piensa que sería adecuado un coeficiente de fiabilidad igual o mayor que
0.86. ¿Cuál es el número máximo de ítems o elementos que se pueden eliminar para mantener el nivel de precisión deseado?
115
116
Principios de Psicometría
En este caso, utilizando la relación (4.5) se obtiene:
k=
0.86 (1− 0.96)
= 0.256
0.96 (1− 0.86)
La longitud del nuevo test será n2 = 125k = 32 ítems. Por lo tanto, aun reduciendo el número de ítems aproximadamente a la cuarta parte, se obtendrían
niveles de precisión que se han considerado aceptables para el test.
m4.3. Relaciones entre fiabilidad, longitud y varianzam
En los apartados anteriores se ha expuesto cómo afecta a la fiabilidad la varianza de las puntuaciones en el test obtenidas en distintas muestras. También se
ha discutido en qué condiciones varía la fiabilidad cuando cambia la longitud
del test. Estos temas, que se han expuesto de forma separada, están interrelacionados.
La razón de que al aumentar la longitud del test con elementos paralelos aumente la fiabilidad es porque se supone que se aumenta la variabilidad y la varianza de
la puntuación verdadera crece más rápidamente que la del error, disminuyéndose así la contribución de este término error a la varianza total observada, y obteniéndose tests más fiables. La comprobación formal de las relaciones entre fiabilidad, longitud y varianza, en el caso de doblar la longitud y en el caso general se
aporta en los Cuadros 4.3 y 4.4, respectivamente. Estas deducciones no son necesarias, si se aplican ciegamente las fórmulas, pero son imprescindibles para comprender cómo se producen esas relaciones.
Cuadro 4.3
Longitud doble: k = 2
Supóngase que se aumenta la longitud de un test X1 por adición de otro test
paralelo X2 de manera que el test X = X1 + X2 es un test de longitud doble de
la del test inicial Xl.
Las varianzas de las puntuaciones observadas, verdaderas y del error de
este nuevo test X vendrán dadas por las expresiones:
117
Capítulo 4. Fiabilidad: Varianza y longitud
Var (X) = Var (X 1 + X 2 ) = σ 2X + σ 2X + 2rX1X 2 σ X1 σ X 2
1
2
1
2
1
2
Var (V) = Var (V1 + V2 ) = σ 2V + σ 2V + 2rV1V2 σ V1 σ V2
Var (e) = Var (e1 + e 2 ) = σ 2e + σ 2e + 2re1e2 σ e1 σ e2
Teniendo en cuenta el supuesto del modelo re1e2 = 0, y las condiciones
de paralelismo por las que V1 = V2 ; σ 2e 1 = σ 2e 2 ; σ 2X1 = σ 2X2 ; rX1X'1 = rX1X2 = rX2X'2
las varianzas anteriores reducen sus expresiones a las siguientes:
Var (X) = 2σ 2X (1+ rX1X1′ )
1
Var (V) = 4 σ 2V
1
Var (e) = 2σ 2e
1
Al ser el coeficiente de fiabilidad, por definición,
R XX′ =
σ 2V
σ 2X
al sustituir las varianzas verdadera y observada por sus respectivas expresiones, se tiene que:
R XX′ =
σ 2V
σ 2X
=
4 σ 2V
1
2 σ 2X (1+ rX1X1′ )
1
=2
σ 2V
1
σ 2X
1
⋅
2rX1X1′
1
=
1+ rX1X1′ 1+ rX1X1′
(4.6)
que es la expresión de la ecuación de Spearman-Brown para un test de longitud doble, obtenida anteriormente por otra vía.
A través del procedimiento seguido en este cuadro se hace patente por qué
aumenta la fiabilidad con el aumento de la longitud. En la expresión (4.6) se puede advertir que cuando un test inicial X1 duplica su longitud, la varianza de la puntuación verdadera de ese test, en el numerador, se multiplica siempre por 4,
en tanto que la varianza de la puntuación observada, en el denominador, se multiplica por un valor menor (entre 2 y 4, siendo 4 solamente cuando la fiabili-
118
Principios de Psicometría
dad inicial fuese uno). Si se duplica la longitud del test y teniendo en cuenta que
σ X2 = σ V2 + σ e2 , la varianza de la puntuación verdadera crece en mayor proporción
(casi el doble) que la de la observada, por lo que necesariamente se ve reducida la
proporción de varianza error y el nuevo test resulta ser más fiable que el test inicial.
Cuadro 4.4
Caso general
Lo expuesto en el cuadro anterior se puede generalizar a la composición
de k tests paralelos. Si el test X está compuesto por k elementos paralelos,
X = X1 + … + XK, la longitud de este test es k veces la del X1 inicial. Debido
a las condiciones del modelo, referidas en el Cuadro 4.3, y teniendo en cuenta que rVi V'i = 1 para todo i, las varianzas de las puntuaciones observadas,
verdadera y error son:
σ 2X = k σ 2X + k (k − 1) σ 2X rX1X1′ = k σ 2X [1+ (k − 1) rX1X1′ ]
1
1
1
σ 2V = k σ 2V + k (k − 1) σ 2V rV1V1′ = k σ 2V [1+ (k − 1)] = k 2 σ 2V
1
σ 2e
= k σ 2e
1
1
1
+ k (k − 1) σ 2e reie j
1
= k σ e2
1
1
Por lo tanto:
R XX′ =
k 2 σ 2V
1
k σ 2X [1+ (k − 1)rX1X1′ ]
1
=k
σ 2V
1
σ 2X
1
⋅
k rX1X1′
1
=
1+ (k − 1)rX1X1′ 1+ (k − 1) rX1X1′
que es la ecuación de Spearman-Brown para el caso general en que se multiplica por k la longitud de un test.
Una discusión análoga a la que se ha hecho en el caso de k = 2 se puede hacer
con respecto a por qué hay un aumento de precisión cuando se aumenta la longitud. Esto se explica a tenor de las variaciones que sufren las varianzas de la puntuación verdadera y la del error, con respecto a las del test inicial. Al aumentar k
veces la longitud del test X1 con elementos paralelos, la varianza de la puntuación
verdadera queda multiplicada por k2 (pasa de σ V2 1 a k2 σ V2 1) y la del error sólo por
Capítulo 4. Fiabilidad: Varianza y longitud
119
k (pasa de σ 2e1 a kσ 2e1), como se puede ver en las deducciones que se han hecho
en el Cuadro 4.4. Por lo tanto, al aumentar la longitud con elementos paralelos,
la varianza de la puntuación verdadera crece más rápidamente que la del error,
disminuyéndose así la contribución de este término error a la varianza total observada, obteniéndose tests más fiables.
Puntos clave
3
3
3
3
3
3
3
3
Las muestras de los participantes en el proceso de construcción de pruebas
deben ser lo más heterogéneas posible en cuanto al rasgo del que se pretende
hacer la medición, pues se ha demostrado que a mayor varianza de las puntuaciones observadas, mayor valor del coeficiente de fiabilidad.
En el contexto del modelo de Spearman, se puede aumentar la fiabilidad de un
test, añadiéndole elementos paralelos.
La ecuación de Spearman-Brown se puede utilizar para calcular el aumento teórico de la fiabilidad cuando se aumenta k veces su longitud.
El aumento de la fiabilidad con el de la longitud se produce porque al aumentar
la varianza de las puntuaciones observadas, aumenta en mayor medida la de
las puntuaciones verdaderas que la del error.
La ecuación de Spearman-Brown puede ser útil para estimar cuántos elementos se deben añadir a un test inicial, cuya fiabilidad es conocida, para aumentar esa fiabilidad hasta un valor prefijado.
Los tests con poca fiabilidad deben reformularse y no tratar de mejorarlos añadiendo elementos paralelos.
La ecuación de Spearman-Brown también puede ser útil para estimar la reducción en el valor de la fiabilidad si se acorta la prueba.
En la práctica hay que llegar a un compromiso entre fiabilidad y longitud, sin olvidar lo sustantivo de la prueba y que la ganancia en fiabilidad no se produce si
no se aumenta la varianza de las puntuaciones.
Actividades
r Razone y escriba por qué no son ciertas o son imprecisas las siguientes afirmaciones:
1. Un test más largo es más fiable.
2. Al aumentar la longitud de un test aumenta su fiabilidad.
120
Principios de Psicometría
3. El aumento de la fiabilidad, añadiendo ítems paralelos, es proporcional
al número de elementos añadidos.
4. La fiabilidad de un test crece linealmente con el aumento de su longitud.
5. Una curva exponencial describe adecuadamente el aumento de la fiabilidad de un test en relación con el número de veces que aumenta su
longitud.
r Haga un supuesto acerca de un test (número de ítems, fiabilidad, etc.) y calcule la fiabilidad que teóricamente podría obtenerse si dobla la longitud del
test. Considere si es o no realista dicho valor, en cuanto a que se hubiera
podido alcanzar experimentalmente. Discútalo a la luz de los valores de las
varianzas.
r Calcule la fiabilidad que teóricamente tendría el test si se elimina 1/3 de
sus elementos.
r Elija al azar 1/3 de los ítems de ese test (si la longitud n no es múltiplo de
tres, redondee al número entero más próximo) y calcule la fiabilidad del
test en el que se han suprimido esos elementos. Discuta el valor de esa fiabilidad comparándolo con la que había obtenido con el test completo.
r Deduzca, explicando cada paso, las ecuaciones que justifican teóricamente que el aumento de la longitud de un test puede producir un aumento de
su fiabilidad.
r Haga consideraciones sobre lo que implica la afirmación de Lord y Novick
en su obra Statistical theories of mental test scores (1968, pág. 82), cuando expresan que por longitud del test entienden el número de componentes que comprende el test compuesto.
r Busque en la docimoteca uno o varios tests compuestos por subtests y/o
por diferentes factores. Discuta las diferencias, si las hay, entre subtest y
factor haciendo consideraciones sobre las fiabilidades del test total y de
las partes.
Fiabilidad
Consistencia interna: El coeficiente α
5
Para calcular el coeficiente de fiabilidad en el contexto de la teoría clásica
pueden seguirse distintos diseños para obtener medidas repetidas. Como
se ha expuesto en el Capítulo 3 los métodos que comúnmente se tratan en
los manuales son: (a) aplicación repetida del mismo test, método test-retest
(b) aplicación de formas equivalentes del test y (c) subdivisión del test,
generalmente en dos partes, correlacionando, por ejemplo, los elementos
que ocupan los lugares pares con aquellos que ocupan los lugares impares, o la correlación ítem-test.
Los métodos (a) y (b) de obtención de datos para calcular el coeficiente
de fiabilidad proporcionan una estimación de lo que se podría llamar estabilidad de las puntuaciones, pues las magnitudes que se correlacionan son las
puntuaciones obtenidas en la prueba en dos ocasiones diferentes, ya sea
respondiendo a formas paralelas, ya sea respondiendo a la misma prueba
en distintos momentos temporales. El diseño (c) da un sentido distinto a
la fiabilidad. En este caso, la fiabilidad habría que interpretarla como consistencia interna entre los distintos elementos o partes del test, por ejemplo,
si las partes elegidas son las dos mitades del test, la correlación entre las
puntuaciones de ambas partes es un coeficiente de fiabilidad que no será
un indicador de la estabilidad de las puntuaciones, sino de la consistencia
existente entre las partes de ese test. De forma análoga se puede interpretar la correlación ítem-test, esto es, la correlación entre las puntuaciones de cada ítem particular con el resto de los ítems que componen el test.
El coeficiente α aporta una forma diferente de concebir y calcular el
coeficiente de fiabilidad, pues se basa en la magnitud de las covariaciones
entre los distintos elementos en relación con la varianza total de la prueba, en lugar de en la correlación entre medidas paralelas.
122
Principios de Psicometría
Todas las formas que se proponen para el cálculo de la fiabilidad son
aceptables, la única condición es que se debe dar a la fiabilidad calculada
mediante cada una de ellas su correcta interpretación. Los diseños que más
se utilizan son los del tipo (c), entre otras razones, porque las dificultades
y costes que en la práctica comportan los otros dos diseños son mucho
mayores. El cálculo de la fiabilidad con valores obtenidos mediante cualquiera de los métodos es inmediato, aun cuando se maneje un gran número de datos, pues los métodos están implementados en el software de
muchos de los paquetes comerciales. Una cuestión importante que hay
que abordar es el análisis de los datos y el de las condiciones de aplicación
de la prueba, ya que con un mismo test o cuestionario se pueden obtener
distintos valores o estimaciones de su fiabilidad. Una discusión amplia
acerca de las ventajas e inconvenientes que conllevan estos diseños y aproximaciones a la fiabilidad se puede ver en Stanley (1971).
En este capítulo se va a tratar:
ã La forma general de cálculo del coeficiente de fiabilidad que indica
consistencia interna: el coeficiente α.
ã Algunas formas derivadas de la forma general, aplicables en casos
particulares y relaciones entre esas formas.
ã Que α es la cota inferior de la fiabilidad de un test.
ã El cálculo de la consistencia interna entre partes del test (subtests)
que tienen un número diferente de elementos: el coeficiente β.
ã El cálculo de α con técnicas de análisis de la varianza.
ã El cálculo de algunos coeficientes de fiabilidad derivados de valores obtenidos con técnicas de análisis factorial.
ã Cómo se interpreta la cuantía del coeficiente, cómo se puede detectar si su valor está sobrestimado o subestimado y en qué casos alguno de los métodos que se pueden considerar se cree que es el más
apropiado.
m5.1. El coeficiente α y las ecuaciones de Kuder-Richardsonm
En psicometría se puede calcular la fiabilidad de una prueba relacionando diferentes partes de ella, como ocurre, por ejemplo, cuando se hace la división en
Capítulo 5. Fiabilidad: Consistencia interna
123
dos partes. Para ello se hace uso de toda la información que proporcionan la
varianza y la covarianza de los valores muestrales en los diferentes elementos
que se considera que componen esa prueba. A este tipo de fiabilidad se la denomina consistencia interna y a la ecuación para calcularla, coeficiente alfa, que
es el valor que estima la consistencia entre los elementos que componen la
prueba.
Coeficiente α
Una forma general de cálculo de la fiabilidad como índice de la consistencia interna de las puntuaciones viene dada por la siguiente expresión:
σ 2X − ∑ σ 2X i
n
α=
n
n −1
i=1
σ 2X
n


 ∑ σ 2X i 
n  i=1

=
1−
2

n −1
σX 




(5.1)
donde X representa la prueba completa, formada por n componentes o elementos Xi (i = 1, 2, …, n), siendo σ 2X la varianza de las puntuaciones de la prueba y
σ X2 i la varianza de la i-ésima componente. La diferencia entre las varianzas en el
numerador de esta ecuación corresponde a la suma de las covarianzas entre todos
los pares de elementos o componentes de la prueba. La ecuación (5.1) fue denominada coeficiente α por Cronbach en 1951, pudiéndose obtener como la cota
inferior de la fiabilidad de un test.
Ecuaciones de Kuder-Richardson
La ecuación general del coeficiente α admite otras expresiones como casos particulares. Entre ellas, hay que considerar el caso en que cada una de las componentes Xi sea un único ítem, y que ese ítem sea dicotómico. Esto es, las componentes del test son sus n ítems y cada ítem no admite más que una de dos
alternativas de respuesta, que son exhaustivas y mutuamente excluyentes, por
ejemplo: correcto e incorrecto. Si las probabilidades asociadas a la respuesta
124
Principios de Psicometría
correcta e incorrecta son pi y qi = 1 – pi, respectivamente, la varianza para todo
elemento Xi será:
σ 2X i = pi q i = p i (1 − pi )
Al sustituir esta expresión en la ecuación del coeficiente α, se tiene la ecuación (5.2), que es la número veinte de las obtenidas por Kuder y Richardson:
n
KR 20 =
n −1
σ 2X
− ∑ pi (1 − pi )
n
i=1
σ 2X
(5.2)
donde pi es la proporción de sujetos que responden correctamente al ítem i. Esta
proporción pi es una medida de la dificultad del ítem referida al grupo que constituye la muestra de examinados o grupo normativo.
Si en lugar de tomar para cada ítem sus parámetros pi y qi se utiliza para todos
ellos el mismo índice de dificultad, sustituyendo cada uno por la media aritmética de todos ellos,
p = ∑ pi / n
i
se tiene otra versión para el coeficiente de fiabilidad, que es la ecuación número
veintiuno de las obtenidas por Kuder y Richardson.
2
n σ X − n p (1 − p )
n
KR 21 =
=
2
n −1
n −1
σX
 npq 
1 − 2 
σX 

Cuadro 5.1
Los primeros trabajos publicados siguiendo esta metodología de cálculo de
la fiabilidad fueron el de Kuder y Richardson en 1937 y el de Richardson y
Kuder en 1939, en los que desarrollan, entre otras, las ecuaciones conocidas como KR20 y KR21. La denominación corresponde a las siglas de los
autores y los números que las acompañan responden al orden en el que se
calcularon. En esta misma línea y época se encuentran también los trabajos
de Jackson y Ferguson publicados en 1941, menos citados en la literatura.
(5.3)
Capítulo 5. Fiabilidad: Consistencia interna
125
En general, entre estos dos coeficientes se da la desigualdad siguiente:
KR 20 ≥ KR 21
La igualdad se producirá solamente en el caso en que todos los ítems tengan
la misma dificultad, o sea, cuando para cualesquiera ítems i, j sea pi = pj , en consecuencia, qi = qj .
Cuadro 5.2
Es fácil comprobar que KR20 = KR21 cuando todos los ítems tienen la misma dificultad. Si es p1 = p2 = … = pn , también será q1 = q2 = … = qn . Denotando genéricamente pi = p y qi = q, el término
∑ pi qi
n
i=1
en (5.2) será igual a npq = np q que es como aparece en la ecuación (5.3).
m5.2. El coeficiente α: Cota inferior de la fiabilidadm
en tests compuestosm
Este apartado está dedicado a la obtención de la cota inferior de la fiabilidad en
un test compuesto, demostrando que se verifica la desigualdad ρXX' ≥ α. O sea, se
va a demostrar que el coeficiente de fiabilidad calculado correlacionando medidas
paralelas es mayor que el calculado mediante α, dándose la igualdad sólo en el caso
en que las componentes del test sean paralelas o, al menos, tau-equivalentes.
En el Cuadro 5.3 se presenta la demostración para el caso más simple, que es
aquel en que el test solamente está compuesto por la suma de dos componentes.
Esta demostración la realizó en primer lugar Guttman en 1945, y por ello, estas
relaciones se suelen conocer como las desigualdades o ecuaciones de Guttman.
El caso más general en que el test esté compuesto por n componentes se presenta
en el Cuadro 5.4. Las ecuaciones de Kuder-Richardson son un caso particular del
coeficiente α cuando se alcanza la cota inferior.
126
Principios de Psicometría
Estas relaciones se presentan en la literatura como dos teoremas (cuyas demostraciones se dan en los Cuadros 5.3 y 5.4), y se enuncian a continuación junto con
sus corolarios:
Teorema 1
Sean X1, X2 dos medidas cuyas respectivas puntuaciones verdaderas son V1 y V2;
y sea X = X1 + X2 una medida compuesta con puntuación verdadera V. Entonces:
 σ2 + σ2 
X
X
≥ 2 1 − 1 2 2 


σX
ρ XX ′ = ρ2XV
(5.4)
Corolario 1
Si X1 y X2 son dos tests con puntuaciones paralelas, la expresión (5.4) para
ρXX' es idéntica a la ecuación (4.4) con k = 2. Las dos componentes son el test
inicial X1 y el test X2, compuesto por los elementos paralelos adicionados, actuando X1 y X2 como dos subtests para formar el test X de longitud doble.
Cuadro 5.3
Para la demostración de (5.4) se parte de una desigualdad, que es trivial, al
ser positivo o cero el cuadrado de cualquier valor.
[σ V
1
− σ V2
]
2
≥0
y desarrollando el cuadrado se tienen las siguientes desigualdades:
σ 2V + σ 2V − 2 σ V1 σ V2 ≥ 0; σ 2V + σ 2V ≥ 2 σ V! σ V2
1
2
1
2
y teniendo en cuenta:
ρ V1V2 =
cov( V1, V2 )
y que
σ V1 σ V2
ρ V1V2 ≤ 1
127
Capítulo 5. Fiabilidad: Consistencia interna
entonces:
σ V1 σ V2 ≥ cov( V1, V2 )
(
)
(
σ 2V + σ 2V ≥ 2 cov V1 , V2 ≥ 2 cov V1 , V2
1
2
)
Por otra parte, sustituyendo esta desigualdad en:
σ 2V = σ 2V + σ 2V + 2 cov( V1, V2 )
1
σ 2V
2
≥ 4 cov( V1, V2 )
El coeficiente de fiabilidad del test resulta ser:
ρ2XV =
σ 2V
σ 2X
≥
4 cov( V1, V2 )
σ 2X
Por la igualdad de las covarianzas: cov (V1, V2) = cov (X1, X2), y teniendo
en cuenta que σ 2X = σ 2X1 + σ 2X2 + 2 cov (X1, X2)
ρ2XV ≥ 2
σ 2X − σ 2X − σ 2X
1
σ 2X
2
 σ2 + σ2 
X
X2 
= 21− 1
2


σX


con lo que queda demostrado el teorema cuando sólo hay dos componentes.
Teorema 2
Sean X1, X2, …, Xn un conjunto de n medidas con puntuaciones verdaderas
V1, V2, …, Vn y sea X una medida compuesta por una suma de Xi, cuya puntuación verdadera es V. Entonces se verifica que:
ρ XX ′ = ρ2XV
 n

2
 ∑σ X 
n  i=1 i 
≥α=
1−
n −1 
σ 2X 




(5.5)
128
Principios de Psicometría
Cuadro 5.4
Como en el teorema anterior, se parte de la desigualdad
(
)
(
σ 2V + σ 2V ≥ 2 cov Vi , Vj ≥ 2 cov Vi , Vj
i
j
)
Sumando para todo i ≠ j se tiene que:


∑ ∑σ 2Vi + σ 2Vj  ≥ 2∑ ∑ cov( Vi, Vj )
i≠ j
(a)
i≠ j
Teniendo en cuenta la identidad:


∑ ∑σ 2Vi + σ 2Vj  = n∑ σ 2Vi + n∑ σ 2Vj = 2n∑ σ 2Vi
n n
i=1 j=1
n
n
n
i=1
j=1
i=1
y la identidad:








∑ ∑σ 2Vi + σ 2Vj  = ∑ ∑σ 2Vi + σ 2Vj  + ∑ ∑σ 2Vi + σ 2Vj  = 2∑ σ 2Vi + ∑ ∑σ 2Vi + σ 2Vj 
n n
i=1 j=1
n
i= j
n
i≠ j
n
n
i=1
i≠ j
con lo que la anterior desigualdad (a) es equivalente a la siguiente desigualdad:
2n∑ σ 2V − 2∑ σ 2V ≥ 2∑ ∑ cov( Vi, Vj )
n
i=1
n
n
i=1
i
i≠ j
i
o bien, a la expresión:
(n − 1) ∑ σ 2V ≥ ∑ ∑ cov( Vi, Vj )
n
i=1
n
i≠ j
i
de donde:
∑ ∑ cov( Vi, Vj )
n
∑ σ 2Vi ≥
n
i=1
i≠ j
n−1
Capítulo 5. Fiabilidad: Consistencia interna
y al ser:
σ 2V = Var (∑ Vi ) = ∑ σ 2V + ∑ ∑ cov( Vi, Vj )
n
n
i=1
i=1
n
i≠ j
i
sustituyendo en esta expresión el término
∑ σ 2Vi
n
i=1
por el segundo miembro en la desigualdad anterior, se obtiene que:
∑ ∑ cov( Vi, Vj )
n
σ 2V ≥
i≠ j
n−1
+ ∑ ∑ cov( Vi, Vj ) =
n
i≠ j
n n
∑ ∑ cov( Vi, Vj )
n − 1 i≠ j
Al ser la varianza del test total X igual a la expresión:
σ 2X = ∑ σ 2X + ∑ ∑ cov( X i, X j )
n
i
i
i≠ j
se obtiene que las covarianzas son iguales a la diferencia:
σ 2X − ∑ σ 2X = ∑ ∑ cov( X i, X j ) = ∑ ∑ cov( Vi, Vj )
i
i
n
n
i≠ j
i≠ j
Por lo tanto, para el coeficiente ρXX' se obtiene la desigualdad siguiente:
σ 2X − ∑ σ 2X
n
ρ XX′ =
σ 2V
σ 2X
≥
n
n−1
i=1
σ 2X
i
n


 ∑ σ 2X 
n  i=1 i 
=
1−
n − 1
σ 2X 




Con lo que queda demostrado que el valor del coeficiente de fiabilidad de un test, obtenido por otro método, resultará ser mayor que el coeficiente alfa.
129
130
Principios de Psicometría
Corolario 2
Si X1, X2, …, Xn son medidas paralelas, entonces la expresión de α es idéntica a la ecuación de Spearman-Brown para la fiabilidad de un test compuesto por
n elementos.
Este resultado lo puede comprobar fácilmente el lector teniendo en cuenta
que al considerarse medidas paralelas, se da la igualdad entre las varianzas σ 2Xi
para todo i (i = 1, 2, …, n).
m5.3. Casos particulares del coeficiente αm
La expresión dada para α mediante los teoremas de la sección anterior, tomada
tanto como igualdad como desigualdad, ha generado muchas investigaciones como
las de Kuder y Richardson (1937), Rulon (1939), Dressel (1940), Hoyt (1941), Guttman (1945), Cronbach (1951), Cureton (1950), etc.; dando a veces lugar a otras
ecuaciones obtenidas como casos particulares de ésta más general. Éste es el caso
de las ecuaciones de Kuder-Richardson, ya dadas, cuando las componentes del test
son ítems dicotómicos. Es fácil demostrar que el coeficiente α se reduce a la ecuación KR20, también conocida bajo la nomenclatura α(20), así como la ecuación KR21
se conoce como α(21). Como se ha indicado anteriormente α(20) ≥ α(21), dándose
la igualdad, si y sólo si, todas las pi son idénticas.
Ecuaciones de Rulon y de Flanagan y Guttman
La ecuación (3.7) de Flanagan y Guttman es un caso particular de la expresión (5.1)
del coeficiente α, para el caso de un test que se divide en dos conjuntos de ítems
correspondientes a los lugares pares e impares. En efecto, para n = 2 y sustituyendo
∑ σ 2X i = σ 2X impares + σ 2X pares
en la expresión (5.1), se obtiene directamente la ecuación (3.7). En el Cuadro 3.8
se demostró que las ecuaciones de Flanagan y Guttman y de Rulon son equivalentes, por lo que la expresión (3.6) de la ecuación de Rulon puede considerarse
también un caso particular de la expresión general (5.1) del coeficiente α.
Capítulo 5. Fiabilidad: Consistencia interna
131
Ecuación de Hoyt
En esta forma de cálculo de la fiabilidad, además de la varianza de la puntuación
total, es necesario conocer la media de las covarianzas entre todos los pares de
elementos i, j (i ≠ j) con i, j = 1, 2, …, n. En el Cuadro 5.5 se comprueba que la
ecuación (5.6) de Hoyt se puede obtener de la expresión general (5.1) dada para
el coeficiente alfa, en la que se sustituyen las covarianzas entre las componentes
por la covarianza media:
α=
n2 ρX i X j σ X i σ X j
σ 2X
Cuadro 5.5
Para un test compuesto por n elementos: X = X1 + … + Xn se tiene que
n
n
 n

n


 ∑ σ 2X + ∑ ρ X i X j σ X i σ X j − ∑ σ 2X 
 σ 2X − ∑ σ 2X 
i
i
i

n 
i≠ j
i=1
 = n  i=1
i=1
α=


2
2


n−1
n−1
σX
σX










y teniendo en cuenta que hay n (n -1) términos de la forma ρXi Xj σ Xi σ Xj , se
tiene que
∑ ρ X iX j σ X i σ X j = n (n − 1) ρ X iX j σ X i σ X j
n
i≠ j
Sustituyendo en la ecuación anterior, se obtiene:
2
n n (n − 1) ρ X iX j σ X i σ X j n ρ X iX j σ X i σ X j
α=
=
n−1
σ 2X
σ 2X
que es la ecuación dada por Hoyt para un test compuesto en el que se conoce
la covarianza media de sus componentes, así como la varianza del compuesto.
(5.6)
132
Principios de Psicometría
En los siguientes ejemplos se obtendrá la fiabilidad con datos de muestras
pequeñas, aunque la fiabilidad de las pruebas se determina en la práctica con muestras cuyo tamaño sea suficiente para poder hacer inferencias a la población con
las suficientes garantías. Además, los cálculos se suelen hacer utilizando los programas que están implementados en muchos paquetes de software para estudios
estadísticos y psicométricos.
Ejemplo 5.1
En la Tabla 5.1 se dan las puntuaciones que han obtenido diez personas
en un test compuesto por 6 subtests que miden el mismo rasgo. La covarianza media entre estos subtests es 0.68 y se desea calcular la consistencia
interna de la prueba.
Tabla 5.1. Puntuaciones totales en un test con seis componentes.
Personas
1
2
3
4
5
6
7
8
9
10
Puntuaciones Xi
11
10
8
17
9
21
7
3
11
23
En este caso, se debe utilizar la ecuación de Hoyt (5.6), puesto que no se
tienen más datos de los subtests componentes de la prueba que el promedio
de sus covarianzas. La varianza de las puntuaciones en la totalidad de la prueba se puede calcular con los datos de la Tabla 5.1, siendo:
[
]
σ 2X = E ( X i2 ) − E ( X )
Por lo tanto:
α=
2
= 180.40 − 122 = 36.40
(36) (0.68) = 0.67
36.4
que es el valor estimado para el coeficiente de consistencia interna de la prueba.
Ejemplo 5.2
Antes de asignar sujetos a distintos grupos, se ha considerado necesario
disponer de una prueba breve donde se evidencien datos relativos a sus res-
133
Capítulo 5. Fiabilidad: Consistencia interna
pectivas capacidades en fluidez verbal, habilidad numérica y razonamiento. Para
tal fin se ha construido un test T compuesto por otros tres tests, que van a actuar
como subtests componentes de ese test.
El test A para evaluar la fluidez verbal consta de tres ítems consistentes
cada uno de ellos en escribir el máximo número de palabras que completan frases, en un tiempo determinado. La puntuación en estos ítems se corresponde
con el número de palabras escritas que tengan sentido.
El test B, diseñado para evaluar la habilidad numérica, consta de seis ítems
consistentes cada uno de ellos en la resolución de una operación numérica. En
este test se le asigna valor 1 a la respuesta correcta y cero a la incorrecta.
El test C es de razonamiento. Se plantean cuatro problemas, asignando a
cada uno el valor 0 si la solución dada es incorrecta y 1 si es correcta.
Se desea conocer la fiabilidad de cada uno de los subtests y del test compuesto usando los datos de 10 sujetos que se dan en la Tabla 5.2, considerándose que es una muestra aleatoria de la población a la que el test va destinado.
Tabla 5.2. Puntuaciones de 10 sujetos en cada uno de los ítems de tres subtests.
Test A
Test B
Test C
Sujetos
1
2
3
1
2
3
4
5
6
1
2
3
4
1
2
3
4
5
6
7
8
9
10
4
5
3
6
4
8
4
2
5
9
6
4
4
8
4
8
3
1
4
8
1
1
1
3
1
5
0
0
2
6
0
1
0
1
0
1
1
1
1
1
1
1
0
0
1
0
0
0
1
1
1
0
1
1
1
1
1
0
0
1
0
1
0
1
0
1
0
0
1
1
1
0
1
0
1
1
0
1
1
1
1
1
0
1
0
0
0
0
1
1
0
1
1
1
0
1
0
1
1
1
1
1
0
1
1
1
1
0
1
1
1
1
0
1
1
1
1
0
0
1
0
0
1
1
0
1
1
0
1
1
Total
50
50
20
7
5
7
5
7
5
7
8
7
6
Solución
En primer lugar se habrá de elegir, de acuerdo con las características de los
datos, cuál es el procedimiento más adecuado para calcular la fiabilidad, tanto de la prueba completa como la de cada subtest. La primera observación que
se puede hacer es que sólo se dispone de un dato por persona e ítem, es decir,
134
Principios de Psicometría
no se dispone de medidas repetidas obtenidas por procedimientos tales como
test-retest o la aplicación de formas paralelas.
En el test A, los sujetos pueden obtener puntuaciones cualesquiera dentro
de los números enteros y positivos. En los tests B y C, sin embargo, las puntuaciones son dicotómicas, asignando cero al error y uno al acierto. La batería,
por lo tanto, está compuesta por subtests con distinto sistema de puntuación y
en este sentido también es heterogéneo. El cálculo de la fiabilidad para los cuatro tests T, A, B y C, a partir de los datos disponibles, obliga a que éste se realice a través del coeficiente alfa, en su forma general para el test total T y para el
subtest A, y mediante las ecuaciones de Kuder-Richardson para los tests B y C.
En la Tabla 5.3, deducida de la Tabla 5.2, se dan las puntuaciones de los
sujetos en cada uno de los tests, para facilitar el cálculo de la media y de la
varianza en cada uno de los subtests A, B y C, así como las del test total T.
Subtest A
Este subtest está compuesto por tres componentes que se corresponden
con los ítems que lo forman. Las medias y las varianzas para cada una de las
tres componentes Ai son:
X A 1 = 5 ; X A 2 = 5 ; X A 3 = 2 ; σ 2A = 4.2 ; σ 2A = 5.2 ; σ 2A = 3.8
1
2
3
Los valores de la media y de la varianza de las puntuaciones en el test A
(los dados en Tabla 5.3, donde XA = {11, 10, 8, 17, 9, 21, 7, 3, 11, 23}) son:
X A = 12 ; σ 2A = 36.4
Aplicando la ecuación general de α dada en (5.1) se tiene:
αA =
3  4.2+5.2+ 3.8  3  13.2 
1−
 = 1 −
 = 0.956
2
36.4
 2  36.4 
Tabla 5.3. Puntuaciones totales de los sujetos en cada uno de los tests del compuesto.
Puntuaciones
Sujetos
Tests
1
2
3
4
5
6
7
8
9
10
A
B
C
11
4
2
10
4
3
8
2
2
17
4
4
9
3
2
21
4
4
7
2
3
3
2
1
11
5
3
23
6
4
T
17
17
12
25
14
29
12
6
19
33
Capítulo 5. Fiabilidad: Consistencia interna
Subtest B
Para calcular la fiabilidad de este subtest se utiliza la ecuación (5.2), donde
el número n de componentes coincide con el número de ítems dicotómicos, o
sea, n = 6 y sus respectivas probabilidades son:
p1 = 0.7; p2 = 0,5; p3 = 0.7; p4 = 0.5; p5 = 0.7; p6 = 0.5
q1 = 0.3; q2 = 0.5; q3 = 0.3; q4 = 0.5; q5 = 0.3; q6 = 0.5
siendo, por lo tanto:
∑ pi qi = 1.38
6
i=1
La media y la varianza de las puntuaciones en este subtest (Tabla 5.3) son:
X B = 3.6 ; σB2 = 14.6 − ( 3.6)2 =164
.
Sustituyendo los correspondientes valores calculados en la ecuación de α20,
se tiene que:
α 20 =
6  1.38 
1 −
 = 0.19
5  1.64 
La consistencia interna es un valor pequeño y habría que contrastar si es o
no significativamente diferente de cero.
Subtest C
De forma análoga a lo indicado para el test B, se calculan para el test C las
respectivas proporciones, siendo n = 4 en este caso.
p1 = 0.7; p2 = 0.8; p3 = 0.7; p4 = 0.6
q1 = 0.3; q2 = 0.2; q3 = 0.3; q4 = 0.4
∑ pi qi = 0.82
4
i=1
La varianza de las puntuaciones del test C es:
(
)
σ C2 = 8.80 − 2.80
2
= 0.96
135
136
Principios de Psicometría
luego:
α 20 =
4  0.82 
1−
 = 0.194
3  0.96 
lo que indica que, como el anterior, este subtest posee una escasa consistencia interna. Valor que, de poder admitirse, habría que contrastar previamente si
es significativamente diferente de cero.
Test compuesto
El test tiene tres componentes cuyas varianzas son:
σ 2A = 36.40; σB2 = 1.64; σ C2 = 0.96
pudiéndose obtener además la varianza de las puntuaciones totales XT, que se
dan en la Tabla 5.3.
Los valores de la media y de la varianza de la variable XT son:
(
)
X T = 18.40 ; σ 2T = 401.40 − 18.40
2
= 62.84
El coeficiente de fiabilidad para el test compuesto de los subtests A, B y C es:
α=
3  σ 2A + σB2 + σ C2  3 
38.9 
1 −
 = 1 −
 = 0.571
2
2
σT
 2  62.84 
La consistencia interna del test compuesto resulta ser moderada y al interpretarlo se debe tener en cuenta la escasa fiabilidad de los subtests componentes B y C que forman parte de la prueba.
m5.4. El coeficiente βm
En el caso en que no se disponga de los datos de todos y cada uno de los ítems de
un test, siendo los elementos de ese test los distintos subtests que lo forman, y si
estos subtests tienen distinto número de elementos, el valor que proporciona el
coeficiente α es una subestimación de la fiabilidad del compuesto. El coeficiente
β (Raju, 1977), que es una generalización del coeficiente α, viene a solucionar este
problema, coincidiendo su valor con el de α en el caso en que todos los subtests
tengan el mismo número de elementos, como se demuestra en el Cuadro 5.6. La
Capítulo 5. Fiabilidad: Consistencia interna
137
expresión de β, por lo tanto, incluye, además de las varianzas de cada uno de los
componentes del test, su número de elementos. Para Xj subtests (j = 1, 2, …, k),
que contienen un número nj de ítems, que en principio es diferente de unos subtests a otros, el coeficiente β es:
σ 2X − ∑ σ 2X
k
β=

σ 2X 1−


j=1
j
 nj 2 
∑   
j=1 n 

(5.7)
k
donde:
σ 2X
σ 2Xj
es la varianza del test global, esto es, la de todas las puntuaciones que
componen la batería.
n = ∑ nj
es la varianza de cada uno de los subtests.
k
j =1
es el número total de ítems que forman X.
Cuadro 5.6
Comprobemos que el coeficiente α = β en el caso en que todos los subtests
tuviesen la misma longitud.
En efecto, si es n1 = n2 = … = nk, entonces, el número total de elementos será k veces el número de los de cualquiera de los subtests:
n = ∑ nj = k nj
k
j =1
con lo que el término del denominador que multiplica a σ 2X en la ecuación
(5.7) es:
2
k n 
 n k 2
k k −1
j
1− ∑   = 1 − k 
 = 1− 2 =
n
n
k


k
j =1 
138
Principios de Psicometría
que sustituido en la ecuación (5.7)
σ 2X − ∑ σ 2X
k
β=
j=1
 k − 1
σ 2X 

 k 
σ 2X − ∑ σ 2X
k
j
=
k
k −1
j=1
σ 2X
j
da como resultado la ecuación (5.1), que es la del coeficiente α para un test
formado por k componentes.
m5.5. Cálculo de α con técnicas de análisis de varianzam
Los ítems de una prueba se puede considerar que son medidas repetidas de la
variable que esa prueba pretende evaluar. Bajo esta perspectiva, se puede evaluar
la consistencia interna de la prueba haciendo uso de las técnicas de análisis de la
varianza, como ya lo hiciera Hoyt en 1941. Si es Xpi la puntuación del sujeto p en
el ítem i, se pueden calcular las puntuaciones medias de N sujetos que responden
a n ítems.
En ese caso, para una prueba con n ítems o componentes, el cálculo de α se
realiza mediante la igualdad:
α=
nF
1 + nF
(5.8)
donde F es una función de las medias cuadráticas entre sujetos (MCentre ) y la media
cuadrática residual (MCres ) dada por la expresión:
F=
MCentre − MCres
n MCres
siendo cada MC igual a su suma de cuadrados (SC) dividida por los correspondientes grados de libertad (g.l.):
139
Capítulo 5. Fiabilidad: Consistencia interna
(
)
2

SCentre = n NE X p − X  = n ∑ X p2 − n N X 2


p
SCres = ∑
N
MCentre = SCentre N −1
∑ X pi2 + n N X 2 − n∑ X p2 − N∑ X 2i
n
p=1 i =1
p
i
MCres = SCres ( N − 1)( n − 1)
Los análisis suelen involucrar un número considerable de datos y los cálculos
se realizan con el software que incluyen los paquetes estadísticos para los ANOVA,
aunque esos cálculos son muy simples cuando las variables son dicotómicas y la
matriz de datos (N sujetos × n ítems) es de pequeñas dimensiones, como se ilustra en el ejemplo siguiente.
Ejemplo 5.3
En la Tabla 5.4 se muestran los datos de las N = 10 sujetos, que responden
al test C de cuatro ítems del Ejemplo 5.2, que pueden considerarse medidas
repetidas.
Tabla 5.4. Puntuaciones en los ítems y las totales de los ítems ( Ti ) y de los sujetos ( Tp ).
Sujetos
Ítems
1
2
3
4
Tp
1
2
3
4
5
6
7
8
9
10
Ti
0
1
1
0
2
1
1
1
0
3
1
0
0
1
2
1
1
1
1
4
0
1
1
0
2
1
1
1
1
4
0
1
1
1
3
1
0
0
0
1
1
1
0
1
3
1
1
1
1
4
7
8
7
6
28
140
Principios de Psicometría
El cálculo de α utilizando técnicas de análisis de varianza requiere la evaluación de las siguientes cantidades:
a) La suma de los cuadrados de todos los valores de la tabla:
∑ ∑ X pi2 = 28
p
i
b) El cuadrado de la media de todos los valores:
 T 2  28 2
X2 =   = 
 = 0.49
 nN   (4 )(10) 
c) La suma de los cuadrados de las medias de cada sujeto p:
∑ (X p )
p
2
 T 2 22 + 32 + L + 32 + 4 2
p
= ∑   =
= 5.5
n
42

p=1
10
d) La suma de los cuadrados de las medias de cada ítem:
∑ (X i )
2
i
T 
72 + 82 + 72 + 62
= ∑ i  =
= 1.98
102
1 N
2
4
con lo que se obtiene
SCentre = n∑ X p2 − nN X 2 = 4 (5.5 − 4.9) = 2.40
p
SCres = 28 + (4 )(10)(0.49) − (4 )(5.5) − (10)(1.98) = 5.80
MCentre =
MCres =
(
SCentre 2.40
=
= 0.267
N−1
9
)(
)
SCres
5.80
=
= 0.215
27
n−1 N−1
En la construcción de F para el cálculo de α, téngase en cuenta que sólo
intervienen las medias cuadráticas de los sujetos y residual, ya que se han considerado los ítems como medidas repetidas.
F=
MCentre − MCres
nF
= 0.060 ; α =
= 0.194
n MCres
1+ nF
Capítulo 5. Fiabilidad: Consistencia interna
141
El valor obtenido para α indica la escasa consistencia interna entre esos
ítems, pudiéndose comprobar que el valor obtenido para α es el mismo que el
obtenido en el Ejemplo 5.2, no dependiendo por lo tanto del procedimiento de
cálculo utilizado.
Esta forma de proceder marca los antecedentes de los conceptos y los métodos que se han generado en la teoría de la generalizabilidad que se tratará en el
Capítulo 7 de esta obra, donde nuevamente veremos que por distintas vías se puede calcular y obtener el mismo valor para el coeficiente de fiabilidad α.
m5.6. Coeficientes derivados del análisis factorial m
Cuando se construye una prueba es una práctica común realizar un análisis factorial para detectar los posibles factores o dimensiones que están implícitos en
ese rasgo o constructo que se desea medir. El análisis se realiza a partir de los
valores que se obtienen al aplicar los n ítems que componen la prueba a una muestra representativa, o sea, se analizan las Xi (i = 1, 2, …, n) variables que la componen. Algunas de las relaciones entre los ítems se ponen de manifiesto a través
de los valores de los pertinentes coeficientes que se estiman mediante esos análisis. La terminología del análisis factorial es necesaria, al menos para entender los
términos usados en los Cuadros 5.7 y 5.8 como son comunalidad o valores propios.
El lector interesado en estos índices puede consultar las referencias que de sus
autores que se dan en este texto y para las técnicas de análisis factorial lo remitimos a las obras de Lawley y Maxwell (1971), Mulaik (1972), Gorsuch (1983),
Bryant y Yarnold (1995) o Thompson (2004), entre muchas otras existentes en la
literatura.
El coeficiente Ω
Éste es un coeficiente cuyo cálculo, además de tener en cuenta las varianzas de
los ítems y las covarianzas entre ellos, incluye la denominada comunalidad del ítem
(parte de la varianza de ese ítem que queda explicada por los factores comunes),
que se estima cuando se realiza un análisis factorial. Por lo tanto, este coeficiente sólo tiene sentido calcularlo cuando se ha realizado un análisis para detectar los
142
Principios de Psicometría
distintos factores o dimensiones que componen el rasgo o el constructo que se
pretende medir. Este coeficiente omega, propuesto por Heise y Bohrnstedt (1970)
se calcula mediante las ecuaciones (5.9) o (5.10) que se dan en el Cuadro 5.7.
Cuadro 5.7
El coeficiente omega se define como
∑ σ 2X i − ∑ σ 2X i hi2
n
Ω = 1−
n
(
i =1
i =1
∑ cov X i, X j
i, j
)
(5.9)
donde σ X2 i representa la varianza de cada uno de los ítems, h2i son cada una
de sus comunalidades estimadas mediante la técnica de análisis factorial y
el denominador es la suma de las covarianzas entre todos los pares posibles (i, j; i ≠ j) de ítems.
Una forma alternativa de cálculo del coeficiente omega es:
n − ∑ hi2
n
Ω = 1−
i =1
n + 2∑ ρ X iX j
(5.10)
i≠ j
donde cada uno de los términos tiene el significado dado anteriormente y el
término
∑ ρ X iX j
i≠ j
es la suma de las correlaciones entre los ítems.
Obsérvese que en las ecuaciones (5.9) y (5.10), fijado el numerador, cuanto
mayor es la covarianza o la correlación entre los ítems, menor es el cociente y, por
lo tanto, mayor es el coeficiente Ω. Ahora bien, una mayor covarianza o correlación entre los ítems revela una mayor consistencia interna entre ellos, que es lo
143
Capítulo 5. Fiabilidad: Consistencia interna
que el coeficiente Ω mide. El coeficiente Ω sobrestima el valor α de la consistencia interna.
El coeficiente θ
La consistencia interna de los ítems de un test se puede interpretar como que
todos esos ítems miden un rasgo unitario. Si el rasgo tiene más de una dimensión,
las técnicas de análisis factorial permiten detectar los diferentes factores que lo
componen. Mediante esta técnica se obtienen los valores λ i, denominados valores
propios de cada uno de los i factores, que informan de la varianza que explica cada
uno de ellos (antes de hacer rotación de los factores). Los valores propios se ordenan de mayor a menor, de forma que el valor λ1 es el primer factor, o sea, que es el
que explica mayor varianza. Cuanta más varianza explique un solo factor, más
probable es que el test sea unidimensional.
Cuadro 5.8
Carmines y Zeller (1979) propusieron el coeficiente theta para medir la consistencia interna, el cual toma la forma:
θ=
n 
1
1− 
n − 1  λ1 
(5.11)
donde n es el número de ítems del test y λ1 es primer valor propio, es decir,
el del factor que detenta la mayor varianza explicada.
El valor del coeficiente θ está en relación directa con el de λ1. Para una longitud dada n, a mayor valor de λ1 mayor será el valor de θ, lo que indica que los
ítems están más interrelacionados y, para un λ1 suficientemente grande, el rasgo
o el constructo que mide la prueba se podría considerar que es unidimensional.
En cualquier caso, si se ha realizado un análisis factorial de los datos, es porque
se presupone que el rasgo o constructo que mide la prueba tiene más de una
dimensión, esto es, que puede estar compuesto por más de un factor, y que hay
144
Principios de Psicometría
uno o más ítems incluidos en la prueba que dan cuenta de ellos. Por lo tanto, el
coeficiente θ es un buen indicador de la unidimensionalidad. Como con cualquier
otro coeficiente, también con θ se da la desigualdad α ≤ θ, aunque este coeficiente
se haya calculado por un método aparentemente diferente a los correlacionales
anteriormente reseñados. Las relaciones entre α y los coeficientes calculados introduciendo valores estimados mediante análisis factorial es: α ≤ θ ≤ Ω.
m5.7. Variaciones de la fiabilidadm
El análisis de las variaciones de la fiabilidad es importante en los estudios psicométricos ya que, puesto que la fiabilidad no se mide en el sentido más usual del
término, sino que se infiere, el coeficiente obtenido dependerá de las características del método de estimación elegido y las de las muestras utilizadas para realizar la inferencia.
Un mismo test puede proporcionar distintas estimaciones de la fiabilidad cuando se administra a distintos sujetos y en distintas condiciones. Como se ha visto
en los desarrollos teóricos, las muestras o los grupos más homogéneos con respecto al rasgo que el test pretende medir proporcionan coeficientes de fiabilidad
menores que aquellos que son más heterogéneos, aun cuando no varíen las condiciones de aplicación. Por todo ello, hay que conocer cómo se interpreta la cuantía de los coeficientes, cuáles son los métodos y formas de cálculo más apropiadas en determinados casos, en qué casos los valores de la fiabilidad podrían estar
subestimados o sobrestimados, etc.
Cuantía
No hay normas estrictas para que se acepte o no un test por el valor de su coeficiente de fiabilidad. La aspiración al construir una prueba es que su precisión sea
la mayor posible, pero no hay valores fijos que definan a priori si el coeficiente
obtenido es adecuado. Aun cuando generalmente los coeficientes de fiabilidad de
las pruebas estándar suelen ser valores superiores a 0.80, también hay casos en
los que se aceptan valores mucho menores. Hay quienes interpretan que se pueden tomar en consideración valores del coeficiente a partir de 0.50, pero ésta no
es una regla que se deba seguir, puesto que la precisión exigida para el instrumento
Capítulo 5. Fiabilidad: Consistencia interna
145
de medida dependerá, entre otros condicionantes, de las características de aquello que se pretende medir y de los objetivos programados a los que la prueba tiene que servir. Por ejemplo, se debe exigir a los tests una mayor precisión cuando
éstos vayan dirigidos a la realización de pronósticos individuales que cuando se
destinen a realizar pronósticos colectivos.
La fórmula de cálculo
La estimación de la fiabilidad en los tests denominados de velocidad, así como
en aquellas pruebas con datos obtenidos mediante las modalidades de test-retest
o de formas equivalentes supuestamente paralelas o tau-equivalentes, no exige
el cálculo del coeficiente alfa en cualquiera de sus versiones, ya que el significado de este coeficiente es el de la consistencia y además elevaría innecesariamente el nivel de exigencias, puesto que alfa proporciona la cota inferior de la
fiabilidad del test.
El coeficiente alfa y las ecuaciones de Kuder-Richardson solamente se deben
usar cuando se trate de tests muy homogéneos, en el sentido de que midan un
rasgo unitario, ya que lo que reflejan esos índices y coeficientes es la homogeneidad de sus componentes, ya sean ítems o grupos de ítems. Para aquellas pruebas
que midan más de un rasgo, el valor obtenido por los métodos de alfa o de
Kuder-Richardson darían probablemente fiabilidades equívocamente bajas y, por
lo tanto, inapropiadas.
En aquellos tests o cuestionarios que se supone que evalúan más de un rasgo
de un mismo constructo, o cuando en un cierto rasgo interviene más de una dimensión, sería necesario hacer uso de técnicas específicas de análisis para identificar
esas dimensiones o factores. Las técnicas de análisis factorial permiten esa identificación y proporcionan los datos (valores propios, etc.) que permiten calcular
la fiabilidad, como los coeficientes θ y Ω anteriormente mencionados.
Un problema diferente es la evaluación del efecto de los factores. Esto es, cuando
se quieren estudiar los efectos que ejercen sobre la fiabilidad la heterogeneidad
de los sujetos, las variaciones en las condiciones de aplicación de la prueba u otros
factores que, sin duda, pueden estar afectando a las puntuaciones. Estos estudios
usualmente se hacen mediante las técnicas del análisis de la varianza (ANOVA).
Un caso especial de estudio de tales efectos sistemáticos sobre la fiabilidad, basado en las técnicas del ANOVA y que tiene entidad propia dentro del ámbito de
146
Principios de Psicometría
la psicometría, es la teoría de la generalizabilidad desarrollada por Cronbach que se
tratará en el Capítulo 7 de esta obra.
Aplicación de la ecuación de Spearman-Brown
Se ha demostrado que la cota inferior de la fiabilidad, dada por alfa, se iguala
al valor de la fiabilidad calculada por cualquier otro método, sólo en el caso en
que las componentes sean paralelas o tau-equivalentes. Por ello, al aumentar la
fiabilidad de los tests con elementos paralelos, hay que ser extremadamente
cuidadosos con las condiciones de paralelismo, puesto que al aplicar la ecuación de Spearman-Brown para calcular la fiabilidad del test, es fácil que se esté
sobrestimando, o subestimando, el valor de la fiabilidad. Si, por ejemplo, los
ítems son esencialmente tau-equivalentes, tanto α como KR20 subestiman la
fiabilidad.
Un caso de sobrestimación de la fiabilidad es el siguiente:
Ejemplo 5.4
En un test de n = 20 ítems y fiabilidad r = 0.60, si para aumentar su fiabilidad se le añaden otros 20 ítems, el valor de la fiabilidad del nuevo test,
calculada mediante la ecuación de Spearman-Brown, es:
ρ XX′ =
2 (0.60)
= 0.75
1+ 0.60
Limitándose estrictamente a aplicar la ecuación y dar por bueno ese resultado, se puede observar que al doblar la longitud se ha producido un aumento sustancial de la fiabilidad, pasando el valor del coeficiente de 0.60 a 0.75.
Sin embargo, habría que haber tenido en cuenta que el aumento de la fiabilidad depende directamente de la varianza de los elementos añadidos.
Supóngase el caso extremo en el que la varianza de las puntuaciones de
esos 20 elementos añadidos es nula. Si la varianza es nula, es porque todos
los sujetos dieron la misma puntuación en la prueba, es decir, las puntuaciones en los nuevos elementos son iguales para todos los sujetos. Al añadir al test esos 20 elementos, lo único que se ha conseguido realmente es
sumar una constante a cada una de las puntuaciones anteriormente obtenidas, pero, en realidad, no se ha aumentado la fiabilidad del test. Luego el
Capítulo 5. Fiabilidad: Consistencia interna
147
aumento de 0.15 en el valor de la fiabilidad es ficticio y, en este caso, la aceptación del valor obtenido aplicando la ecuación de Spearman-Brown conduce a una sobrestimación de la fiabilidad del test resultante.
Por lo tanto, la aplicación indiscriminada de la ecuación de Spearman-Brown
en tests en los que la adición de elementos paralelos se hace descuidadamente, sin
comprobar las condiciones de paralelismo y estudiar los efectos de las varianzas,
pueden dar valores equívocos para la fiabilidad.
Variaciones de la fiabilidad en relación con la longitud del test
y la homogeneidad de los grupos
Hay dos aplicaciones prácticas importantes que se pueden derivar del comportamiento de la fiabilidad a través de las ecuaciones de Spearman-Brown, una
es la de poder hacer comparaciones entre fiabilidades de tests con distintas longitudes, y la otra es la de calcular los efectos que sobre la fiabilidad tiene la composición de subtests, a partir de tests conocidos con fiabilidad dada.
En el primer caso, cuando se tienen tests con distintas longitudes y con distintas fiabilidades, el test más largo probablemente aparecerá como más fiable, y
esta mayor fiabilidad se puede deber precisamente a que es más largo. Por lo tanto, para comparar la fiabilidad de diferentes tests, se debería estimar la fiabilidad
de esos tests bajo el supuesto de que fuesen de igual longitud. Por otra parte, es
práctica común construir subtests a partir de tests dados. En este caso, también
hay que tener en cuenta los efectos que la varianza de los elementos que van a
constituir el nuevo test tiene sobre los resultados obtenidos de la aplicación directa de la ecuación de Spearman-Brown. Subtests muy cortos tienden a tener fiabilidades sustancialmente más bajas que las de aquellos más largos de los que han
sido extraídos. Por lo tanto en la práctica es necesario analizar el comportamiento de los tests acortados y cuidar los procesos de comparación entre tests muy
cortos.
Finalmente, considérese que, debido a las variaciones muestrales, se pueden
también asignar valores equívocos a la fiabilidad. Hay que vigilar especialmente
aquellos casos en los que es elevada la proporción de la varianza error σe2 en relación con la varianza σ2X .
148
Principios de Psicometría
Ejemplo 5.6
La varianza de las puntuaciones con un test en una muestra A de una población es sA2 y la fiabilidad calculada en esa muestra es r = 0.64, de donde se estimaría un valor de la varianza error s e2 = 9. El mismo test se ha aplicado a toda
la población, obteniéndose que la varianza es σ 2 = 225 y fiabilidad ρ = 0.96,
comprobándose que el valor de la varianza error es el mismo que en la muestra σ e2 = 225 (1 – 0.96) = 9. Si se hace uso de la relación (2.3), se tiene que:
25 = s2V + 9 y 225 = σ 2V + 9
A
donde se puede observar que en la muestra la aportación a la varianza total
de la componente error es del 36%, siendo sólo del 4% cuando se considera toda la población.
Aun cuando se obtuviese en distintas aplicaciones el mismo valor para la varianza error, una mayor aportación a la varianza total de la componente que corresponde a la puntuación verdadera, se traduce en un aumento de la fiabilidad. Por
lo tanto, en el cálculo de la fiabilidad debe compararse la varianza observada con
la varianza error. Si σ X2 >> σ e2, se tiene garantía de precisión del test. Si no es así,
se corre el riesgo de que σ 2X ≈ σ 2e y que gran parte de las diferencias individuales
que se aprecian con el test se deban a errores de medida.
Bajo los supuestos de igualdad de la varianza error, se pueden considerar dos
muestras X1 y X2 y utilizando la relación (4.3) se tiene que:
rX 2 X ′2 =
s2X 2 − s2X1 (1 − rX1X1′ )
s2X 2
que permite estimar el coeficiente de fiabilidad de un test, utilizando una muestra con varianza conocida.
Ejemplo 5.7
Al aplicar un test X a dos muestras A y B procedentes de una misma
población, se obtienen dos conjuntos de puntuaciones cuyas varianzas son
respectivamente s A2 = 9 y s B2 = 13. Si el coeficiente de fiabilidad calculado con
la muestra A es 0.70, calcule el coeficiente de fiabilidad de la muestra B.
Capítulo 5. Fiabilidad: Consistencia interna
rXB X′B =
149
13 − 9 (1− 0.70)
= 0.79
13
El coeficiente de fiabilidad de la prueba X es mayor si se usa la muestra
B, luego debe preferirse esta muestra a la A para construir las bases del grupo normativo, ya que es más representativa (mayor variabilidad en los datos)
de la heterogeneidad existente en la población.
Cuadro 5.9
Métodos para componer tests que permitan obtener la máxima fiabilidad
posible para el compuesto mediante la asignación de distintos pesos a
las componentes y la variación de sus longitudes pueden encontrarse en el
Capítulo 5 de Lord y Novick (1968, págs. 119-124), en el que también se da
un procedimiento de maximización de la fiabilidad del compuesto, cuando
las componentes tienen una longitud fija.
Como conclusión de este apartado diremos que, para que sean correctas las
interpretaciones que se dan a un determinado coeficiente de fiabilidad, hay que
conocer y analizar el método, las características de las muestras y en qué condiciones se ha calculado ese coeficiente. En la obra de Feldt y Brennan (1989) se
pueden consultar diferentes métodos para estimar la fiabilidad y en qué condiciones deben aplicarse. En Osburn (2000) se hace una evaluación de la adecuación de los diversos estimadores de la consistencia interna y en Santisteban y Alvarado (2001, págs. 37-51) se pueden consultar algunos aspectos no tratados aquí
sobre paralelismo, tau-equivalencia y el coeficiente alfa.
Puntos clave
3
3
3
Una forma de fiabilidad que mide la relación entre las diferentes partes de un
test es su consistencia interna.
La forma más general de estimar la consistencia interna la proporciona el coeficiente α.
Hay ecuaciones específicas para calcular la consistencia interna en tests con
ítems dicotómicos, o en pruebas en las que la consistencia interna se estable-
150
Principios de Psicometría
3
3
3
3
3
3
3
3
ce entre las dos partes en las que se ha dividido esa prueba. Todas ellas se puede considerar que son diferentes versiones del coeficiente α.
El coeficiente α es la cota inferior de la fiabilidad. En algunos casos, la fiabilidad
calculada mediante α está subestimada.
Para calcular la consistencia interna entre subtests con distinto número de elementos es más apropiado el coeficiente β que el coeficiente α, pues éste es uno
de los casos en los que utilizando α se subestima la fiabilidad.
El coeficiente α se puede obtener también a través del estadístico F, calculado
a partir de las medias cuadráticas entre sujetos y la residual.
Hay coeficientes de fiabilidad que se pueden obtener haciendo uso de algunos
de los valores derivados de la aplicación de las técnicas de análisis factorial.
Los coeficientes que hacen uso de algunos valores derivados del análisis factorial calculan la interrelación entre los factores intervinientes por lo que, de alguna manera, esos coeficientes también son indicadores de la dimensionalidad de
la prueba.
La interpretación correcta de los coeficientes de fiabilidad involucra diferentes
aspectos. La simple aplicación de las fórmulas puede conducir a decisiones
erróneas, como que se esté sobrestimando o subestimando la fiabilidad.
En todas las interpretaciones de los coeficientes de fiabilidad para establecer
las características psicométricas de una prueba hay que analizar la cuantía de
la varianza de las puntuaciones. Que la varianza de las puntuaciones observadas sea mucho mayor que la de los errores es una garantía de precisión de las
pruebas.
El coeficiente α es la cota inferior de la fiabilidad.
Actividades
r Haga una breve disertación sobre las similitudes y diferencias del coeficiente α con otros coeficientes de fiabilidad, indicando sus ventajas e inconvenientes.
r Razone por qué y en qué condiciones se da la relación de desigualdad entre
los coeficientes KR20 > KR21.
r Compruebe que, cuando las n componentes consideradas en la ecuación
de α son paralelas, esta ecuación coincide con la general de Spearman-Brown,
para la fiabilidad de un test compuesto por n elementos.
r Vuelva sobre el test o los tests que ha elaborado como una actividad llevada a cabo en el Capítulo 3. A la luz de la información dada en este capítu-
Capítulo 5. Fiabilidad: Consistencia interna
r
r
r
r
r
151
lo, calcule y compare los nuevos coeficientes de fiabilidad. Por ejemplo,
dicotomice la variable, agrupando las respuestas en sólo dos clases y calcule nuevamente la fiabilidad.
Haga una exposición razonada de los problemas que pueden surgir en la
determinación de la precisión de las pruebas, tanto en el cálculo del coeficiente de fiabilidad, como en su interpretación.
Haga nuevos supuestos sobre los diferentes ejemplos expuestos en este
capítulo y compare los resultados.
Comente las propiedades psicométricas del cuestionario de agresividad
publicado por Santisteban et al. (2007).
Los ítems del cuestionario arriba mencionado los puede encontrar en Santisteban y Alvarado (2009). Aplíquelo a muestras de escolares, y compare
los valores de los coeficientes alfa que obtenga para la prueba completa y
los de sus factores con los que proporcionan los autores.
Con la información que se da en el Ejemplo 5.2 del test compuesto por
tres subtests con 3, 6 y 4 elementos respectivamente, suponga que no se
tiene información detallada de cada persona en cada ítem. Calcule el coeficiente de fiabilidad α.
Inferencias
Estimación y contrastes de significación
6
Los procedimientos estadísticos de estimación y de contraste de hipótesis
se utilizan en la TCT, tanto para obtener estimaciones de los valores de las
puntuaciones verdaderas, como para hacer comparaciones entre las puntuaciones que se obtienen en los tests. También estos métodos se utilizan
para hacer inferencias acerca de los valores de los coeficientes de fiabilidad
de los tests, ya sean obtenidos por correlación o sean coeficientes alfa.
En este capítulo se va a tratar:
ã Cómo se puede estimar y predecir la puntuación verdadera a partir
de las puntuaciones observadas.
ã Cómo hacer comparaciones inter e intrasujeto, utilizando las puntuaciones que proporcionan uno o más tests.
ã La distinción entre distintos tipos de errores, pues es necesario conocer las desviaciones típicas de las diferentes distribuciones muestrales, para hacer correctamente las inferencias, mediante intervalos de confianza y contrastes de hipótesis.
ã Contrastes de hipótesis sobre si el coeficiente de fiabilidad poblacional es significativamente igual a cero o a un determinado valor.
ã Contrastes sobre la igualdad entre diferentes valores del coeficiente de
fiabilidad α, en muestras independientes y en muestras relacionadas.
m6.1. Predicciones de la puntuación verdaderam
La puntuación verdadera V se puede predecir haciendo uso de las puntuaciones
X observadas, en el contexto del modelo lineal de Spearman, presentado en el
154
Principios de Psicometría
Capítulo 2. Una consecuencia que se deriva de las hipótesis de este modelo es que
la media de las puntuaciones observadas es el estimador de la media de la puntuación verdadera de la población, como se comprobó en el Apartado 2.2. Partiendo de ese supuesto, los valores estimados para V se pueden obtener haciendo uso de la ecuación de regresión lineal de la variable V sobre la variable X:
V − V = ρ XV
σV
(X − X)
σX
(6.1)
en donde V se puede sustituir por X , pero tanto σV como ρXV son también valores desconocidos. Teniendo en cuenta las relaciones (2.4) y (2.12), se puede sustituir ρXV por σV / σX , obteniéndose la igualdad:
ρ XV
σ V σ 2V
=
= ρ XX ′
σ X σ 2X
(6.2)
con lo que la ecuación de regresión toma la forma:
V − V = ρ XX ′ (X − X )
(6.3)
resultando así que una vez conocidos V = X y ρXX' , (que se estiman a partir de los
valores observados) se puede predecir el valor de la variable V para cualquier valor
de la variable X, mediante la ecuación de regresión (6.3). Las predicciones de las
puntuaciones verdaderas se hacen en función de las correspondientes puntuaciones observadas, que pueden venir dadas como puntuaciones directas X, o en puntuaciones diferenciales, cuando están centradas en la media: x = ( X − X ) o bien en
puntuaciones tipificadas: zX = x / σX . En cada uno de estos casos, el valor estimado de V, que se denota por V$, se obtendrá mediante las ecuaciones siguientes:
a) Para puntuaciones directas:
V$ = ρ XX ′ (X − X ) + X
(6.4)
b) Para puntuaciones diferenciales o centradas en la media:
v$ = x ρ XX ′
(6.5)
155
Capítulo 6. Inferencias: Estimación y contrastes
donde v$ es la puntuación verdadera estimada, que al igual que las puntuaciones x, también viene dada en puntuaciones diferenciales: v$ = V$ − V .
c) Para puntuaciones X tipificadas:
z$ V = z X ρ XX ′
(6.6)
En este caso, las puntuaciones estimadas para V también serán puntuaciones
tipificadas. La ecuación (6.6) se obtiene de (6.3) teniendo en cuenta (6.2) y que
zx = x / σx y zv = v / σv .
En todos los casos se puede pasar de unas ecuaciones a otras, dependiendo
de los datos de las puntuaciones observadas de los que se disponga, ya que son
las mismas aunque se diferencian en el punto tomado como origen y/o en la unidad de medida de la escala.
Ejemplo 6.1
En un test los valores de la media, la varianza y la fiabilidad para una determinada población son respectivamente: X = µ̂ = 52 ; σ 2X = 25 y rXX´ = 0.75. ¿Qué
valor de la puntuación verdadera se podría predecir a un sujeto de esa población cuya puntuación directa observada sea de 67 puntos?
Se dispone de datos suficientes para obtener la estimación de la puntuación verdadera en cualquiera de las modalidades indicadas:
a) La puntuación verdadera estimada en puntuaciones directas es:
(
)
Vˆ = 0.75 67 − 52 + 52 = 63.25
b) La puntuación verdadera estimada en puntuaciones diferenciales (centradas en la media) es:
(
)(
)
vˆ = 0.75 67 − 52 = 11.25
c) La puntuación verdadera estimada en puntuaciones tipificadas es:
zˆ V = 3 0.75 = 2.60
ya que la puntuación tipificada zX = (67 – 52)/5 = 3.
156
Principios de Psicometría
Ejemplo 6.2
A partir de los resultados anteriores se puede inferir el valor de la varianza
de la puntuación verdadera:
σˆ V =
vˆ
11.25
=
= 4.33
zˆ V
2.60
obteniéndose para la varianza de la puntuación verdadera el valor σ 2V = 18.75.
Se puede comprobar que la estimación de la varianza no viola los supuestos del modelo, pues si se tiene en cuenta que bajo esos supuestos
se da la relación (2.3), sustituyendo los valores dados en el Ejemplo 6.1, se
tiene que:
σ 2e = σ 2X − σ 2V = 25 − 18.75 = 6.25
que es un resultado igual al valor obtenido utilizando la ecuación (2.15), pues
para la varianza error también se obtendría que es:
σ 2e = 25 (1− 0.75) = 6.25
m6.2. Errores de medida, de estimación y de predicciónm
En el modelo lineal que da soporte a la teoría clásica y en el modelo de regresión
se puede distinguir entre distintos tipos de errores: el error de medida, que se
explicita en las hipótesis del modelo, el error derivado de la estimación, que es el
que se obtiene como diferencia entre la puntuación verdadera y su correspondiente valor estimado y el error de predicción, que es la diferencia entre la puntuación estimada como verdadera y la puntuación observada. Es necesario hacer
distinciones entre cada uno de estos tipos de errores, y conocer las desviaciones
típicas de sus correspondientes distribuciones cuando se usan en casos prácticos,
en especial cuando se trata de hacer inferencias. Por ello vamos a tratar en primer
lugar los diferentes tipos de errores para estudiar posteriormente la relación
entre ellos.
157
Capítulo 6. Inferencias: Estimación y contrastes
Tipos de errores
Error de medida
El error de medida viene dado por la diferencia entre la puntuación observada y la verdadera
e=X−V
(6.7)
siendo e una variable aleatoria cuya distribución y propiedades ya se han expuesto en el Capítulo 2. A la desviación típica de la distribución de esa variable se le
denomina error típico de medida y su expresión ya dada en (2.15) es:
σ e = σ X 1 − ρ XX ′
(6.8)
Error de estimación
Se denomina error de estimación de la puntuación verdadera o simplemente
error de estimación, a la diferencia entre la puntuación verdadera y su valor predicho mediante regresión lineal.
ε = V − V$
(6.9)
La desviación típica de la distribución de los errores de estimación se puede
calcular mediante la expresión:
σ ε = σ X ρ XX ′ 1 − ρ XX ′
(6.10)
Cuadro 6.1
La expresión de σε dada en (6.10) se obtiene calculando la varianza de la
variable:
ε = V − V̂
158
Principios de Psicometría
La varianza de la variable ε es:
[
]
σ 2ε = E ε − E (ε)
[
2
]
[
]
= E (V − Vˆ ) − E ( V − Vˆ )
{ [
]}
= E V − E ( V ) + E ρ XX′ X − E ( X )
2
2
2
{[
]} =
{[V − E ( V )] [X − E ( X )]} =
] [
= E ( V − E ( V ) − Vˆ − E ( Vˆ )
− 2 ρ XX′
2
= σ 2V + ρ2XX′ σ 2X − 2 ρ XX′ ρ XV σ V σ X = ρ XX′ σ 2X + ρ2XX′ σ 2X − 2ρ2XX′ σ 2X =
= σ 2X ρ XX′ (1− ρ XX′ )
Llegando a esta última expresión sustituyendo σ 2V y ρXV σ V por su valor
dado en (6.2). Por lo tanto, la desviación típica del error de estimación es la
expresión (6.10) dada anteriormente.
Error de predicción
Este error se obtiene como diferencia entre la puntuación observada y la verdadera estimada.
∆ = X − V$
(6.11)
La desviación típica de este error es:
σ ∆ = σ X (1 − ρ XX ′ )
(6.12)
Cuadro 6.2
La expresión de σ∆ se deduce de la ecuación general para la varianza de la
variable ∆, sustituyendo V̂ por la ecuación (6.4):
[
]
σ 2∆ = E ∆ − E ( ∆ )
{[
2
]
[
] =
[X − E ( X )]} = E {[X − E (X)] [1− ρ ]}
= E ( X − Vˆ ) − E ( X − Vˆ )
= E X − E ( X ) − ρ XX′
2
2
XX ′
cuya raíz cuadrada es la expresión dada en (6.12) para σ∆.
2
(
= σ 2X 1− ρ XX′
)
2
Capítulo 6. Inferencias: Estimación y contrastes
159
Relación entre los errores
Entre los errores típicos de medida, estimación y predicción se dan las siguientes
relaciones:
σ ε2 = σ e2 ρ XX ′
σ 2∆ = σ e2 (1 − ρ XX ′ ) = σ e2 − σ ε2
(6.13)
(6.14)
Por lo tanto, las varianzas de los errores de estimación y de predicción son
menores que las de los errores de medida, dándose la igualdad sólo cuando se
obtenga fiabilidad ρXX' = 1, en cuyo caso es σ∆ = σε = σε = 0. Como se deduce
de (6.14), en este modelo el error de medida es igual a la suma de los errores de
estimación y predicción (σ 2e = σ 2ε + σ 2∆ ). Para las distribuciones de los Ejemplos
6.1 y 6.2 se obtienen los siguientes valores: σ 2ε = 6.25; σ 2ε = 4.69; σ 2∆ = 1.56.
m6.3. Intervalos de confianza para la puntuación verdaderam
La puntuación verdadera, V, correspondiente a una determinada puntuación observada, X, no se puede conocer, pero puede pronosticarse mediante regresión y
también puede estimarse que estará comprendida entre dos valores que delimitan un intervalo de confianza. Este intervalo se puede determinar suponiendo
que el error de medida, e = X – V sigue una distribución normal (o t de Student
para pequeñas muestras). Por lo tanto, se pueden fijar dos valores – zα y + zα (o
bien – tα y + tα ) entre los que, con probabilidad (1 – α) se pueda aseverar que se
encuentra esa puntuación verdadera. El intervalo es simétrico, siendo α/2 la probabilidad de que haya valores menores que – zα y mayores que + zα en una u otra
cola de la distribución, como muestra la Figura 6.1.
a) Intervalo de confianza con puntuaciones directas:
X −z α σ e ≤ V ≤ X + z α σ e
(6.15)
b) Intervalo de confianza con puntuaciones diferenciales:
x − zα σ e ≤ v ≤ x + zα σ e
(6.16)
160
Principios de Psicometría
c) Intervalo de confianza con puntuaciones tipificadas:
z X − z α 1 − ρ XX ′ ≤ z V ≤ z X + z α 1 − ρ XX ′
(6.17)
donde σe = σX (1 – ρXX' )1/2 y el factor zα es el valor de la variable que en
la distribución N(0, 1) entre – zα y + zα, (o, en su caso, entre – tα y + tα
bajo la distribución t de Student) delimita un área de probabilidad 1 – α.
Figura 6.1. Intervalo de confianza de amplitud 1 – α bajo una distribución normal.
Cuadro 6.3
Los intervalos de confianza para los valores de V se construyen al considerar que, fijado un nivel de probabilidad α, el valor tipificado del error de medida estará entre los valores –zα y + zα. Esto es, que con probabilidad 1 – α:
−z α ≤
e− e
≤ zα
σe
– = E (e) = 0, se tiene que
y al ser e = X – V y además e
−z α ≤
X−V
≤ zα
σe
o sea: – zα σe ≤ X – V ≤ zα σe. Restando X a todos los términos y cambiándolos de signo, cambiando por lo tanto el sentido de las desigualdades, se
tiene la ecuación (6.15) para ese intervalo en puntuaciones directas.
161
Capítulo 6. Inferencias: Estimación y contrastes
Si las puntuaciones observadas vienen dadas como puntuaciones diferenciales, se obtiene el intervalo restando X = V a todos los miembros de la
ecuación (6.15):
(X − X) − zα σ e ≤ V − V ≤ (X − X) + zα σ e
que es la expresión (6.16).
Si las puntuaciones están tipificadas, el intervalo será:
X−X
σ
V−V X−X
σ
− zα e ≤
≤
+ zα e
σX
σX
σV
σX
σX
Sustituyendo σe por su expresión en (6.8) y adoptando la notación para
las puntuaciones tipificadas, se obtiene la ecuación (6.17).
d) Intervalo de confianza utilizando la puntuación verdadera estimada, V$.
En el Apartado 6.1 se ha expuesto cómo pronosticar la puntuación verdadera haciendo uso de la ecuación de regresión, pero sigue sin conocerse V, ya que
esa medida también está afectada por el error del valor de estimación ε = V – V$.
Si se supone que esa variable error sigue una distribución normal de forma análoga a lo que se ha supuesto con el error de medida, e, el intervalo de confianza
será:
V$ − z α σ x ρ XX ′ 1 − ρ XX ′ ≤ V ≤ V$ + z α σ x ρ XX ′
1 − ρ XX ′
(6.18)
Ejemplo 6.3
Las puntuaciones de un test tienen media X = µ̂ = 36 , varianza σ 2X = 64 y
fiabilidad ρxx' = 0.64. La puntuación observada de un sujeto en este test es de
46 puntos. Se desea conocer:
a) El intervalo de confianza en el que, con una probabilidad p = 0.95, se encontraría la puntuación verdadera del sujeto.
b) Cuál será el valor puntual que se le estimaría para su puntuación verdadera.
c) El intervalo de confianza en el que con probabilidad p = 0.95 esté el valor
estimado de la puntuación verdadera de ese sujeto.
162
Principios de Psicometría
Solución:
La aplicación directa de lo anteriormente expuesto da respuesta a estas
cuestiones, siempre que se considere que los errores se distribuyen según una
ley normal. (Téngase en cuenta la condición de homocedasticidad exigida a los
modelos mencionada en Apartado 2.1.)
a) De acuerdo con la expresión (6.15) ese intervalo de confianza se construye
bajo una distribución normal de media cero y desviación típica:
σ e = σ X 1− ρ XX′
Para un nivel de confianza 1 – α = 0.95, los valores de la variable de la
distribución normal N(0,1) que delimitan ese área son zα = ± 1.96. El intervalo de confianza para V viene dado por Xi ± 1.96 σε. Luego en puntuaciones
directas ese intervalo es:
46 − (1.96)(8) 1− 0.64 ≤ V ≤ 46 + (1.96)(8) 1− 0.64
36.59 ≤ V ≤ 55.41
En puntuaciones centradas en la media y en puntuaciones tipificadas,
según las expresiones (6.16) y (6.17), los intervalos de confianza son respectivamente:
0.59 ≤ v ≤ 19.41
0.07 ≤ z v ≤ 2.43
luego con un nivel de confianza 1 – α = 0.95, la puntuación diferencial verdadera está entre los valores 0.59 y 19.41 y la tipificada entre 0.07 y 2.43,
obteniéndose esos valores para los extremos de este último intervalo mediante la relación:
46 − 36
46 − 36
− 1.96 1− 0.64 ≤ z V ≤
+ 1.96 1− 0.64
8
8
b) La ecuación de la recta de regresión que predice los valores de V̂ en función de los valores de X es:
Vˆ = ρ XX′ ( X − X ) + X = 0.64 ( X − 36) + 36 = 0.64 X + 12.96
Para la representación gráfica de esa recta, basta con elegir dos pares
de puntos (X, V) cualesquiera, con lo que queda determinada. Tomando, por
ejemplo, los puntos (0, 12.96) y (50, 44.96) se obtiene la Figura 6.2.
Capítulo 6. Inferencias: Estimación y contrastes
Para un valor particular de X = Xi = 46, la puntuación verdadera estimada mediante regresión es:
V̂ = (0.64)(46) + 12.96 = 42.40
que es la puntuación que se puede predecir de acuerdo con la recta de regresión ajustada.
Figura 6.2. Recta de regresión de la puntuación verdadera sobre la observada.
c) Haciendo uso de la desigualdad (6.18) el intervalo de confianza cubriendo
un área de probabilidad 1 – α = 0.95 viene dado por:
42.40 − 1.96(8) 0.64 1− 0.64 ≤ V ≤ 42.40 +1.96(8) 0.64 1− 0.64
34.87 ≤ V ≤ 49.93
Este intervalo incluye tanto al valor observado como al predicho mediante regresión, como puede observarse en la Figura 6.3. Si se toma α = 0.01,
el intervalo de confianza se amplía al aumentar la probabilidad contenida en
ese intervalo 1 – α = 0.99. El valor zα bajo la distribución N(0,1) es zα = ± 2.58,
y el intervalo resultante es:
32.49 ≤ V ≤ 52.31
Obsérvese que al aumentar la probabilidad (1 – α) de que un cierto valor
se encuentre dentro de un intervalo, el intervalo se amplía, y si se amplía sufi-
163
164
Principios de Psicometría
cientemente, siempre se puede conseguir que un cierto valor se encuentre
incluido en el intervalo. Por ello, a veces, la afirmación de que a mayor probabilidad (1 – α) mayor precisión, puede resultar equívoca.
Figura 6.3. Distribuciones de las puntuaciones poblacionales observadas (⋅⋅⋅⋅) y las verdaderas estimadas (). Intervalos de confianza de la puntuación verdadera con probabilidad 0.95, utilizando los errores de medida (flechas cerradas) y de estimación (flechas
abiertas). X = V = 36 ; Xi = 46 ; Vˆ i = 42.4 .
m6.4. Contrastes de mediasm
Mediante los tests estadísticos de hipótesis se puede contrastar si las diferencias
observadas entre diferentes conjuntos de puntuaciones son estadísticamente significativas, o si se pueden atribuir al azar. En el estudio de las diferencias entre las
puntuaciones en tests psicométricos, en muchas ocasiones es necesario realizar
algunos de estos contrastes, como se ha visto en los Ejemplos 2.3 y 2.4. El interés puede estar centrado en contrastar las diferencias entre una determinada muestra y la población, o en las diferencias interindividuales o en las intraindividuales.
En estadística a estos contrastes se les menciona generalmente como tests de contraste de una sola media, o entre medias de muestras independientes o entre muestras relacionadas, respectivamente.
165
Capítulo 6. Inferencias: Estimación y contrastes
Cuadro 6.4
La hipótesis que se contrasta es la hipótesis de no diferencia, o hipótesis
nula H0, frente a la alternativa o las alternativas. En las comparaciones entre
medias las distribuciones de probabilidad que siguen los estadísticos de contraste son aproximadamente normales (o t de Student si las varianzas son
desconocidas, o cuando las muestras son pequeñas), y los contrastes se
plantean bajo la hipótesis de igual frente a diferencia, que es un contraste
bilateral, en el que las zonas de aceptación y de rechazo se distribuyen como
se indica en la Figura 6.1. Cuando el contraste indica el signo de esa diferencia, por ejemplo, H1 : µ1 > µ2, el contraste es unilateral y el área de rechazo de H0 : µ1 = µ2 se situará en la cola de la derecha de la distribución, como
se muestra en la Figura 6.4. Esta área α estaría en la cola de la izquierda si
la hipótesis alternativa fuese H1 : µ1 < µ2.
Figura 6.4. Área de aceptación de la hipótesis nula (1 – α) y de rechazo (sombreada)
en un contraste unilateral bajo una distribución normal.
Diferencias entre la media de una muestra y la de la población
Una vez construido y estandarizado un test con media poblacional µ y desviación
típica σ, se puede contrastar si la media X de una determinada muestra de tamaño N es igual a la de la población. El estadístico de contraste es:
z=
X −µ
X −µ
=
σX
σX N
(6.19)
166
Principios de Psicometría
que se distribuye como una normal cuando la varianza de la población sea conocida. Si esta varianza fuese desconocida, el estadístico de contraste es:
t=
X −µ
X −µ
=
sX
sX N − 1
(6.20)
donde sX es la desviación típica de la muestra. La ecuación (6.20) se obtiene al
sustituir σX en (6.19) por su estimador, σ$X, que es la raíz cuadrada de la cuasivarianza muestral (6.21). En este caso, el estadístico t dado por (6.20) se distribuye
como una t de Student con n – 1 grados de libertad.
∑( X i − X )2
√
σ$ X =
N −1
(6.21)
Téngase en cuenta que:
√
σ$ X
sX
=
N
N −1
Ejemplo 6.4
La media y la desviación típica de un test estandarizado (referidas al grupo
normativo) son respectivamente µ = 100 y σ = 10. Se quiere conocer si la aptitud media de una determinada muestra de esa población, evaluada con ese
test, supera a la de la población. El tamaño de la muestra es N = 80 y la media
y la desviación típica de las puntuaciones en esa muestra han sido 110 y 8 respectivamente.
Puesto que la varianza poblacional es conocida, el estadístico de contraste y su valor son:
z=
110 − 100
10
80
= 8.94
En el caso en que la varianza de la población no fuese conocida, el estadístico de contraste sería:
t=
110 − 100
8
79
= 11.11
167
Capítulo 6. Inferencias: Estimación y contrastes
En ambos casos se rechaza la hipótesis de no diferencia entre medias, con
un nivel de significación α = 0.05.
Diferencia de medias en muestras independientes
El contraste de la diferencia de medias entre muestras independientes se realiza
cuando se quiere inferir si dos muestras pertenecen o no a la misma población.
Este contraste se suele realizar con diseños intersujeto. Se supone que las muestras que se comparan son aleatorias, que son representativas de las poblaciones
de las que se extraen y que sus medias X 1 y X 2 están normalmente distribuidas.
También se supone la homogeneidad (igualdad) de varianzas entre las poblaciones y que las observaciones son también independientes.
En el caso de comparación entre las medias de las puntuaciones de dos muestras en las que se mide un rasgo mediante un test, el estadístico de contraste es:
z=
X1 − X 2
σ 2X1
N1
+
σ 2X 2
(6.22)
N2
Este estadístico toma diversas formas, dependiendo de si se conoce o no
σ 2X1− X 2 . En el caso usual de que no se conozca, se sustituye por su estimador y
el estadístico sigue una distribución t de Student con N1 + N2 – 2 grados de libertad. Al ser las muestras independientes la covarianza es cero y por lo tanto,
σ 2X1− X 2 = σ 2X1 + σ 2X 2 . Las formas que adopta el estadístico t para diferentes casos
particulares: igualdad o diferencia en los tamaños muestrales, igualdad o diferencia de las varianzas de los estimadores de la varianza en ambas muestras para estimar el error estándar, etc. se pueden encontrar en los manuales de estadística (e.g.,
Amón, 1984; Pardo y San Martín, 1994 en español; y Howell, 2002 en inglés).
En el contexto de la TCT, generalmente tienen mayor interés los contrastes
entre muestras relacionadas que entre muestras independientes. Además, los contrastes entre muestras relacionadas son más sensibles para detectar el efecto de los
errores experimentales. Es decir, que la probabilidad de rechazar la hipótesis nula
es mayor cuando se usan muestras relacionadas que cuando se usan muestras independientes. Por ello, vamos a tratar un poco más extensamente este supuesto.
168
Principios de Psicometría
Diferencia de medias en muestras relacionadas
Este método se usa para contrastar la diferencia entre las medias de dos muestras
en las que cada una de las puntuaciones en una muestra está emparejada con una
de la otra muestra. En estadística se suele denominar contraste de la diferencia de
medias entre muestras relacionadas, o de muestras dependientes, o bien de muestras pareadas. En el contexto de las puntuaciones de los tests, el estudio de estas
diferencias se puede plantear de diferentes formas, dependiendo del objetivo que
se persiga, que estará ligado al diseño con el que se han obtenido los datos: medidas repetidas en forma de test-retest, o formas equivalentes del mismo test o en
muestras pareadas. En el primer caso, sería un estudio intrasujeto, pudiendo ser
intersujeto en el segundo.
En un diseño intrasujeto, cada sujeto aporta un par de puntuaciones (X, Y)
y la hipótesis nula es que la media de las diferencias entre las medias de esos
dos conjuntos de puntuaciones es cero. Es decir, que en la población es
µ X − µ Y = µ X − µ Y = 0 , siendo las diferencias entre las medias muestrales
– –
d = X – Y. Para una muestra con un número Np de pares de puntuaciones, el
estadístico de contraste es:
z=
d
d
( X − Y ) − (µ X − µ Y ) d
=
o t=
= =
σd σd N
sd
s d sd
d
Np − 1
(6.23)
que sigue una distribución t de Student con Np – 1 grados de libertad. La desviación típica de la distribución muestral se obtiene mediante la expresión:
sd =
∑ d 2i −  ∑ d i 
2
Np
N 
 p 
(6.24)
El error típico σ d puede adoptar diferentes formas para su expresión en el
contexto de la TCT, considerando que las medidas pareadas poseen ciertas propiedades. Por ejemplo, si las medidas X e Y son medias paralelas o si provienen
de dos formas de tests en los que a priori no se supone el paralelismo. En ambos
casos, las puntuaciones de cada par, para cada sujeto, están representadas por su
puntuación media en todos los ítems del test. En el caso particular en que las
169
Capítulo 6. Inferencias: Estimación y contrastes
medidas X e Y de esos tests fuesen paralelas, denotémoslas con X y X', la desviación típica de la media de las diferencias toma la forma:
σ d = σ X 2 1 − ρ XX ′
(6.25)
σ d = σ 2X1 (1 − ρ X1X1′ ) + σ 2X 2 (1 − ρ X 2 X ′2 )
(6.26)
2
de acuerdo con la expresión que se deduce en el Cuadro 6.5 para la varianza σ d
cuando las puntuaciones son paralelas, siendo ρXX' el coeficiente de fiabilidad
del test.
Si las puntuaciones pareadas corresponden a las de los ítems en dos tests X1
y X2 que miden el mismo rasgo, sin presumir a priori la condición de paralelismo,
entonces, la distribución de las medias de las diferencias en la población, de acuerdo con la expresión de la varianza deducida para este caso en el Cuadro 6.5, es:
Expresión que en el caso de igualdad de varianzas toma la forma:
σ d = σ X 2 − ρ X1X1′ − ρ X 2 X ′2
(6.27)
En estos casos particulares, se puede hacer uso de estas expresiones y utilizarlas para el cálculo del valor del estadístico dado en (6.23).
Cuadro 6.5
Deducción de las expresiones de σ d para muestras relacionadas, que dan lugar
a las ecuaciones (6.25) y (6.26).
Para medidas paralelas X y X´, la varianza de la distribución de las medias
de las diferencias es:
2
(
)
σ 2d = E ( X − X ′) − E ( X − X ′)
2
= E ( X − X ′) 2
ya que por paralelismo, E(X) = E(X' ) y sustituyendo X = V + e, se tiene que:
σ 2d = E ( V + e − V ′ − e′)2 = E (e − e′)2 = σ 2e + σ e2′ =
= σ 2X (1− ρ XX′ ) + σ 2X′ (1− ρ XX′ ) = 2 σ 2X (1 − ρ XX′ )
170
Principios de Psicometría
estableciéndose las últimas igualdades por ser nula la correlación entre los
errores, haciendo uso de la expresión (2.15) e igualando las varianzas de X
y X´ por ser medidas paralelas. Por lo tanto, la desviación típica de la distribución corresponde a la expresión (6.25) dada anteriormente.
Para pares provenientes de medidas X1 y X2 en pruebas equivalentes
pero no necesariamente paralelas se tiene que:
σ 2d = σ 2X
{
1− X 2
= σ 2X + σ 2X − 2 ρ XX′ σ X1 σ X 2 =
1
2
]}
[
= E ( V1 + e1 ) − ( V2 + e 2 ) − E ( V1 + e1 ) − ( V2 + e 2 )
2
Ahora bien, al medir los dos tests el mismo rasgo en las mismas personas, puede considerarse que sus puntuaciones verdaderas son iguales,
V1 = V2. Además, por hipótesis del modelo, E(e1) = E(e2) = 0. Luego:
σ 2d = σ 2X
=
1− X 2
= E (e1 − e 2 )2 = σ e2 + σ e2 =
1
σ 2X (1− ρ X1X1′ ) + σ 2X (1− ρ X 2 X′2
1
2
2
)
De donde se deduce la expresión (6.26) o su equivalente (6.27) para el
caso de igualdad de varianzas.
Ejemplo 6.5
Utilizando dos tests paralelos se ha obtenido que el coeficiente de fiabilidad del test es ρXX' = 0.91, siendo la varianza poblacional σ X2 = σ X2' = 16. La puntuación media que obtiene una muestra de sujetos en el test X es de 20 puntos, siendo 16 la que obtiene en su correspondiente paralelo. ¿Se puede decir
que son significativas esas diferencias?
Se trata de un contraste de diferencias de medias relacionadas, por lo que
el estadístico de contraste viene dado por (6.23). Ahora bien, como las medidas pareadas se han obtenido en dos tests paralelos, se puede hacer uso de
la expresión (6.25) para el error estándar de medida, y teniendo en cuenta que
se conoce la varianza poblacional, el valor del estadístico de contraste es:
z=
20 − 16
4 2 1− 0.91
= 2.36
Capítulo 6. Inferencias: Estimación y contrastes
171
Comparando este valor con los de la distribución N (0,1) se observa que,
con α = 0.05, el valor z calculado pertenece a la zona de rechazo de la hipótesis nula, en un contraste bilateral. Si se ampliara la zona de aceptación de la
hipótesis a un área de probabilidad 1 – α = 0.99, entonces el valor calculado z
pertenecería a la zona de aceptación de H0, (– 2.58 < 2.36 < 2.58), pudiéndose
aceptar esa hipótesis a ese nivel α = 0.01 de significación.
Ejemplo 6.6
Las puntuaciones de dos tests que evalúan comprensión verbal siguen distribuciones N(0,1). Las fiabilidades de esos tests son 0.92 y 0.78 respectivamente. Las puntuaciones tipificadas que se obtienen en ambos tests con una
muestra son z1 = 2.6 y z2 = 1.8 respectivamente. ¿Se puede afirmar que existen diferencias en las puntuaciones de los sujetos cuando resuelven los elementos de una y otra prueba?
Las puntuaciones son técnicamente comparables, pues en ambos casos
se da la puntuación tipificada (normalizada en este supuesto). Si las puntuaciones pareadas fuesen puntuaciones directas procedentes de mediciones en
diferentes escalas, sería necesario que se transformasen las puntuaciones a
escalas comparables, para poder interpretar la cuantía de las diferencias y hacer
comparaciones. Al ser dos tests que miden el mismo rasgo, con varianzas iguales y de los que se conocen sus fiabilidades, se puede usar la expresión (6.27)
para la desviación típica de la distribución en la expresión (6.23) y considerar
que σX = σz = 1 en las dos poblaciones. El estadístico de contraste toma el valor:
z=
σX
2.6 − 1.8
2 − 0.92 − 0.78
=
0.8
= 1.46
0.547
Comparando el valor obtenido para el estadístico con los valores de la distribución normal, en un contraste bilateral y con α = 0.05, es zα/2 = ± 1.96, luego
–1.96 < 1.46 < 1.96, aceptándose la hipótesis de no diferencia.
Lo usual es que se utilicen las medidas relacionadas no como un medio para
comparar dos tests, como en los ejemplos anteriores, sino para comparar el comportamiento de un mismo sujeto en diferentes tareas, o las diferencias entre las
puntuaciones que dan a un mismo test pares de sujetos relacionados, por ejemplo, padre e hijo, o sujeto experimental y su control. También es muy habitual uti-
172
Principios de Psicometría
lizar diseños intrasujeto para contrastar si ha habido cambios en alguna característica del sujeto después de alguna intervención dirigida a modificar sus valores,
como se trata en el Ejemplo 6.7.
Ejemplo 6.7
Un psicólogo investiga sobre una terapia que, según su opinión, reduce los
niveles de ansiedad. Para evaluar el posible efecto de la terapia en un estudio
piloto, dispone de un test estándar para la medición de la ansiedad, que aplica
a una muestra de seis pacientes antes y después de la terapia. Las puntuaciones X de los pacientes en ese test se dan en la Tabla 6.1. A la vista de tales
resultados ¿qué se podría concluir acerca de dicha terapia?
Tabla 6.1. Valores en el test de ansiedad antes y después de la terapia.
Paciente
1
2
3
4
5
6
∑ di
X1 (antes)
X2 (después)
di
35
27
8
52
41
11
29
30
–1
40
48
–8
37
34
3
43
41
2
15
Calculada la media y la varianza de las diferencias:
d=
15
225.5
= 2.5; s2d =
= 37.58; sd = 6.13
6
6
La hipótesis que se va a contrastar es la hipótesis H0 , que establece que
no hay diferencias entre los niveles medios de ansiedad antes y después de
la terapia. Comoquiera que no se conocen los valores medios de las diferencias en la población ni sus varianzas, para realizar el contraste se utilizan sus
estimaciones a partir de los valores muestrales. Aquí se conocen las puntuaciones globales de cada sujeto en el test, antes y después de la terapia. Haciendo uso de esa información, se puede obtener la media de esas diferencias y
su desviación típica y utilizar para el contraste el estadístico dado en (6.23),
obteniéndose:
t=
2.5
6.13 / 5
= 0.91
Capítulo 6. Inferencias: Estimación y contrastes
173
Comparando los valores del estadístico con los de la distribución t de Student para 5 grados de libertad y a un nivel de significación α = 0.05 (tα, 5 = 2.571),
hay que aceptar la hipótesis de no diferencia. Ahora bien, la cuestión planteada es si la terapia disminuye los niveles de ansiedad. Por lo tanto, lo que se
espera es que los valores medios de X1 sean mayores que los de X2, y lo que
se trata de contrastar es la hipótesis nula H0 frente a la alternativa H1, que se
puede expresar como:
H : d > 0
H0 : d = 0  1
H1 : µ1 > µ 2
El estadístico de contraste es el mismo, pero el contraste es unilateral, dejando sólo en la cola de la derecha de la distribución la zona de rechazo de H 0.
Para 5 grados de libertad, el valor t0.05, 5 = 2.015 delimita un área de probabilidad 1 – α = 0.95 (Figura 6.3) para la zona de aceptación de H0, pudiéndose rechazar al nivel de significación α = 0.05 sólo si el valor calculado para t hubiese sido
mayor que tα = 2.015. Luego se concluye que la terapia no disminuye los niveles de ansiedad. Sin embargo, el terapeuta observa en los datos alguna disminución en cuatro de los seis sujetos analizados. Puede deducir que con una
muestra tan pequeña y con una varianza de las diferencias tan grande, no podía
esperar un valor alto para el estadístico de contraste que le permitiese rechazar la hipótesis de no diferencia, ni que de esos datos se puedan extraer conclusiones que se puedan generalizar.
Finalmente hay que reseñar que los diseños intrasujeto son muy eficientes,
porque se puede usar un menor número de sujetos, en comparación con los diseños intersujeto, y porque este diseño incrementa la potencia del test estadístico
con respecto a H0, es decir, que aumenta la probabilidad de rechazar H0 cuando
es falsa.
m6.5. Significación e inferencias de los coeficientes de fiabilidadm
En capítulos anteriores se han dado diversas opciones de cálculo para los coeficientes de fiabilidad. Resumidamente, se podría decir que en unos casos la fiabilidad se calcula mediante correlación entre medidas paralelas ρXX' y que en otros
se hace poniendo en relación las varianzas de las componentes con respecto a la
varianza total, como se hace en el cálculo del coeficiente α y los que de él se deri-
174
Principios de Psicometría
van como casos particulares. Por ello, para hacer inferencias, se debe distinguir
entre uno u otro tipo de coeficientes. Los problemas más importantes que se plantean en cualquiera de los casos son contrastar si un valor muestral del coeficiente es significativamente igual a uno poblacional, o comparar la igualdad entre dos
o más de estos coeficientes obtenidos tanto en muestras independientes como
en muestras relacionadas.
En estos apartados se seguirán utilizando letras latinas, rXX' = r, para el coeficiente de correlación muestral y griegas, ρXX' = ρ, para el correspondiente poblacional. En el caso de coeficientes alfa, se denotará por α el coeficiente poblacional y por α$ el muestral.
Contrastes de coeficientes de correlación
Para los coeficientes de fiabilidad calculados como coeficientes de correlación,
los dos casos más usuales son contrastar si un coeficiente tiene un valor apreciable, o sea, que es significativamente diferente de cero, o si se puede considerar
igual a uno dado. Para realizar estos contrastes, se utilizan los estadísticos y sus
distribuciones, que en estadística matemática se han derivado para tal fin y cuyas
expresiones, en uno y otro caso, se encuentran en los manuales de estadística y
que aquí se corresponden con las expresiones (6.28) y (6.30).
Si es rXX' = r el coeficiente de fiabilidad obtenido en una muestra de tamaño N, la
hipótesis nula que establece que ese coeficiente proviene de una población en la que
ρXX' = 0, frente a la alternativa, de que ρXX' ≠ 0, se contrasta mediante el estadístico:
t=r
N−2
1− r
(6.28)
que sigue una distribución t de Student con N – 2 grados de libertad. Por ello, la
región crítica para un nivel α es t : t < t1-α/2; N-2 ; t > tα/2; N-2 .
Si de lo que se trata es de contrastar que ese coeficiente de fiabilidad r pertenece a una población en la que ρXX' tiene un valor ρ = ρ1 distinto de cero, entonces
se hacen las transformaciones:
1 1+ r
1 1+ ρ
z r = ln
; zρ = ln
2 1− r
2 1− ρ
(6.29)
175
Capítulo 6. Inferencias: Estimación y contrastes
y el estadístico de contraste es:
z=
z r − zρ
1
N−3
(6.30)
que sigue una distribución normal N (0,1). Por lo tanto, para un nivel α, la región
crítica, en un contraste bilateral, es z : z < z1-α/2 ; z > zα/2, siendo la región de
aceptación z : z1-α/2 ≤ z ≤ zα/2.
Las distribuciones que se usan para delimitar las zonas de aceptación y de
rechazo de la hipótesis nula son las que asintóticamente siguen los estadísticos
que se utilizan para hacer esos contrastes, bajo el supuesto de que H0 es cierta.
Por ello, hay que advertir que para realizar el contraste entre dos coeficientes
poblacionales utilizando el estadístico dado en (6.30), se debe exigir a las muestras ciertas condiciones asintóticas que, desde un punto de vista práctico, se pueden resumir en que el tamaño muestral no sea pequeño, no debiendo usarse para
este contraste tamaños de muestra menores de 30 elementos.
Ejemplo 6.8
El coeficiente de fiabilidad de un test es rXX' = 0.98. En una muestra de tamaño N = 55, se ha obtenido un coeficiente rXX' = 0.95. Se quiere contrastar si se
puede considerar que no existen diferencias significativas entre el valor muestral y el poblacional.
Para contrastar la hipótesis de no diferencia, se utiliza el estadístico de contraste dado en (6.30), obteniéndose previamente los valores de zr y de zr mediante (6.29)
zr =
1 1+ 0.95
1 1+ 0.98
ln
= 1.83 ; zρ = ln
= 2.30
2 1− 0.95
2 1− 0.98
El valor del estadístico de contraste es:
z=
1.83 − 2.30
1
55 − 3
= − 3.39
Para α = 0.05, la zona de aceptación de la hipótesis nula son los valores
incluidos en el intervalo (–1.96, 1.96). Por lo tanto, al no pertenecer el valor del
estadístico a ese intervalo, se rechaza la hipótesis de no diferencia entre ambos
176
Principios de Psicometría
coeficientes, a ese nivel de significación. Tampoco se aceptaría si se amplía el
intervalo de aceptación de H0 hasta contener un área de probabilidad de 0.99
(α = 0.01). Luego se rechaza la hipótesis de que esas diferencias no son significativas.
Contrastes para coeficientes α
La forma de los coeficientes α como relación entre varianzas explica que los estadísticos de contraste suelen seguir distribuciones F de Fisher-Snedecor (son similares a los de los procedimientos ANOVA). Los contrastes de hipótesis más usuales acerca de α generalmente se refieren a si el valor de α es significativamente
igual a otro dado, o si diferentes valores de α, calculados en muestras independientes o en muestras relacionadas son significativamente iguales. La forma de
los estadísticos y sus distribuciones se pueden seguir en las diferentes obras que
tratan la estimación de la fiabilidad mediante las técnicas del análisis de la varianza. A efectos de su utilización práctica en casos concretos, se da aquí la forma de
algunos de esos estadísticos y sus distribuciones.
Contrastes con una muestra
Si es α$ el valor del coeficiente de fiabilidad obtenido en una muestra de tamaño N al cumplimentar una prueba de n elementos, para contrastar si ese valor
muestral α$ es significativamente igual a un determinado valor α poblacional, se
ha derivado un estadístico de contraste (e.g., véase Feldt et al., 1987, págs. 94-96)
que toma la forma de la expresión (6.31):
F( N − 1),( N − 1)( n − 1) =
1− α
1 − α$
(6.31)
que sigue una distribución F de Fisher-Snedecor con (N – 1) y (N – 1)(n – 1) grados de libertad. Acudiendo a los valores de esta distribución para aceptar o rechazar la hipótesis nula de no diferencia entre α$ y α.
177
Capítulo 6. Inferencias: Estimación y contrastes
Ejemplo 6.9
Un test de fluidez verbal que consta de 60 elementos se administra a una
muestra de 51 escolares, obteniéndose un valor de la fiabilidad α$ = 0.82. Se
quiere dar respuesta a dos cuestiones, la primera es si es significativo ese coeficiente, es decir, si es diferente de cero y, la segunda, si se puede admitir que
el valor poblacional de la fiabilidad es α = 0.90.
Las hipótesis nula y alternativa en cada uno de esos dos casos son:
b) Ho : αˆ = α = 0.90
a) Ho : αˆ = α = 0
H1 : αˆ = α ≠ 0.90
H1 : αˆ = α ≠ 0
Aplicando (6.31) se obtienen los valores correspondientes de los estadísticos, que para a) y para b) son respectivamente:
a) F =
1− 0
= 5.56
1 − 0.82
b) F =
1 − 0.90
= 0.56
1 − 0.82
valores que en cada caso hay que comparar con los de la distribución F a un
nivel de significación α. Elegido α = 0.05, se rechaza la hipótesis nula en el caso a)
y se acepta en el caso b) pues el valor de Fα; (N – 1), (N – 1) (n – 1) = F0.05; 50, 2950 = 1.35.
Es decir, el coeficiente es diferente de cero y además su valor no difiere significativamente de 0.90.
Contrastes con dos o más muestras
Si lo que se quiere contrastar es la no diferencia entre los coeficientes calculados en dos muestras independientes de tamaños N1 y N2, el estadístico que se
propone en la literatura para llevar a cabo este contraste es:
F( N1 − 1),( N2 − 1) =
1 − α$ 1
1 − α$ 2
(6.32)
que sigue una distribución F con (N1 – 1) y (N2 – 1) grados de libertad.
Cuando las comparaciones se quieren realizar entre más de dos coeficientes,
tanto para muestras independientes como en muestras relacionadas, la obtención
de las distribuciones muestrales para los estadísticos que permitan realizar esos
contrastes es más complicada, teniéndose que recurrir a transformaciones artifi-
178
Principios de Psicometría
ciosas que no ha lugar a que se traten en esta obra. Los estadísticos para estos
casos de comparaciones múltiples se dan en el Cuadro 6.6 y están tomados de las
expresiones que dan Feldt et al. (1987).
Cuadro 6.6
Comparación entre K coeficientes α, obtenidos de k muestras, siendo α$i el
valor de alfa en cada muestra i, Ni el tamaño de la muestra y ni el número de
ítems.
La hipótesis que se va a contrastar es H0 : α1 = α2 = … = αk frente a la hipótesis alternativa de que algunos (dos o más) de esos valores sean diferentes.
Para muestras independientes, el estadístico de contraste es:
∑ ((1 − αˆ i )−1 3 − u)
k
χk2 −1 ≅
2
i =1
S2
Para muestras relacionadas, el estadístico de contraste es:
∑ ((1 − αˆ i )−1 3 − u)
k
χk2 −1 ≅
i =1
2
S 2 − Sjk
En ambos casos los estadísticos se distribuyen aproximadamente como
una χ2 con k – 1 grados de libertad. Por lo tanto, para aceptar o rechazar la
hipótesis de igualdad entre todos los coeficientes a un cierto nivel de probabilidad p, hay que comparar el valor del estadístico con el de la distribución χ k2 – 1
en un contraste bilateral, donde la zona de aceptación de la hipótesis nula es
un área 1 – p, bajo χ 2k – 1.
2
Los valores de u y de S que aparecen en esos estadísticos se obtienen
mediante las siguientes expresiones:
u =∑
k
i =1
1
k (1 − αˆ i )1 3
; S2 = ∑
Si2
2
; Si2 =
˜
k
9 (Ni − 1) (1− αi )2 3
i =1
k
Los valores de Ñi se obtienen de forma diferente para muestras independientes y para muestras relacionadas. Para muestras independientes es:
179
Capítulo 6. Inferencias: Estimación y contrastes
N (n − 1)
N˜ i = i i
ni + 1
Para muestras relacionadas es:
N (n˜ − 1)
N˜ i = N˜ =
; n˜ =
n˜ + 1
k
∑1 ni
k
i =1
; S jk =
2rij
9 (N˜ − 1)(1− αˆ j )
13
(1 − αˆ k )
13
; Sjk =
∑ S jk
k (k − 1) / 2
siendo rij las correlaciones entre cada uno de los tests con cada uno de los
otros k – 1 con los que se está comparando.
Para realizar los contrastes se manejan una gran cantidad de datos y los cálculos son tediosos, sobre todo cuando se trata de comparaciones múltiples, pero para
todos y cada uno de los casos hay software disponible para realizar estas comparaciones. Por ejemplo, en el paquete estadístico SPSS están implementados todos los
contrastes que aquí se exponen y, en cualquier caso, facilitan la realización de todos
los cálculos que llevan al valor del estadístico que permite tomar las decisiones.
Las ecuaciones que se presentan en el Cuadro (6.6) son una de las muchas formas que se han propuesto para establecer comparaciones entre valores del coeficiente alfa. Por ejemplo, en un artículo Woodruff y Feldt (1986) presentaron once
procedimientos estadísticos para comparar m coeficientes α, presentando algunos
ejemplos y simulación Monte Carlo para estudiar la precisión de los procedimientos
con resultados asintóticos. Además de contrastes de hipótesis, también se han propuesto formas de obtención de intervalos de confianza. Para tratar las inferencias
acerca de α, remitimos al lector interesado a las publicaciones de Feldt (e.g., Woodruff y Feldt, 1986; Feldt et al., 1987; Feldt, 1990) y a la de Fan y Thompsom (2001).
Puntos clave
3
Los métodos estadísticos inferenciales se utilizan para la estimación de las puntuaciones verdaderas y en el contraste de las diferencias entre puntuaciones y
entre coeficientes de fiabilidad.
180
Principios de Psicometría
3
3
3
3
3
3
3
3
3
La media de la puntuación observada estima la de la verdadera y para las inferencias acerca de V se utiliza la regresión lineal.
Para las inferencias (intervalos de confianza y contrastes de hipótesis), hay que
conocer la distribución muestral de la variable.
En los contrastes de hipótesis hay que conocer la distribución probabilística del
estadístico que se utiliza para el contraste y cómo se distribuyen las regiones
de aceptación y de rechazo de la hipótesis nula, de acuerdo a como se han formulado las alternativas.
En las comparaciones de medias, los diseños intrasujeto (test-retest, formas
equivalentes, etc.) son más eficientes que los intersujeto, pues necesitan menos
tamaño de muestra y el diseño incrementa la potencia del test estadístico con
respecto a H0 .
Calculado un coeficiente de fiabilidad, se puede contrastar si su valor es o no
significativamente diferente de cero, o de otro valor poblacional.
En los contrastes de coeficientes de fiabilidad los estadísticos utilizados siguen
distribuciones de probabilidad diferentes, dependiendo de si lo que se contrasta son coeficientes de correlación o coeficientes α.
Los coeficientes de fiabilidad r se contrastan, bien frente a cero o a otro valor
poblacional r, en la forma usual que en estadística se realizan los contrastes entre
correlaciones. Los estadísticos para esos contrastes siguen distribuciones normales, o t de Student.
Los coeficientes de fiabilidad α se contrastan mediante estadísticos que siguen
distribuciones F de Snedecor o χ2 de Pearson.
Pueden realizarse contrastes múltiples entre coeficientes de fiabilidad, tanto con
muestras independientes como con muestras relacionadas.
Actividades
r Replique los Ejemplos 6. 1 y 6.3 considerando intervalos de confianza más
amplios y discuta las implicaciones que conlleva esa decisión.
r En relación con la cuestión anterior, discuta si es posible construir siempre
un intervalo de probabilidad que incluya el valor que se está estimando.
r Represente gráficamente los intervalos de confianza de los Ejemplos 6.1
y 6.3, y superponga sobre el mismo gráfico los obtenidos en la actividad
anterior.
r En los Ejemplos 6.1, 6.2 y 6.3 los coeficientes de fiabilidad generalmente
se consideraría que son demasiado bajos para estandarizar un test. ¿Cuáles
Capítulo 6. Inferencias: Estimación y contrastes
r
r
r
r
r
r
r
r
r
181
serían las inferencias para la puntuación verdadera en esos tres casos si la
fiabilidad del test fuese 0.96?
Comente de forma razonada las diferencias en los resultados obtenidos en
la actividad anterior, cuando la fiabilidad es 0.65 y cuando es 0.96.
En el Ejemplo 6.2, observando las predicciones que posibilita la línea de
regresión, ¿es posible que a una persona con 0 puntos en la prueba se le
estime una puntuación verdadera de 12 puntos y que a otra que obtiene 60
puntos se le estime un valor para su puntuación verdadera menor que 52?
¿Podría en algún caso coincidir la puntuación observada con la verdadera
y con la verdadera estimada?
Razone por qué puede ser equívoco, cuando se trata de la construcción de
intervalos de confianza, afirmar que a mayor probabilidad mayor precisión.
Se ha construido un test de rendimiento y se discute si los resultados en
ese test serían o no diferentes bajo el efecto de alguna droga (e.g., cafeína).
Suponga valores medios y varianzas para las muestras de los que la toman
(o se les administra) y los que no. Contraste la hipótesis de no diferencia
entre ambas medias, considerándolas una vez como muestras independientes (los tamaños de los grupos deben ser iguales) y otra como relacionadas. Discuta los resultados.
Los coeficientes de fiabilidad obtenidos para un test son r = 0.23 y α$ = 0.19.
Desde el punto de vista estadístico, ¿se puede afirmar que ambos coeficientes son significativamente diferentes de cero?
Busque en la docimoteca un test, aplíquelo a diferentes muestras, calcule
α$i en cada una de las i muestras, compare los valores y decida si se puede
aceptar la hipótesis de igualdad entre esos coeficientes.
Con un test que evalúa agresividad administrado a 2208 escolares se han
obtenido los valores de cuatro coeficientes α$i (Santisteban et al., 2007, Tabla
1). Plantee diferentes hipótesis acerca de esos coeficientes, realice los pertinentes contrastes y discuta los resultados.
Realice una actividad similar a la anterior con los siguientes datos: Una
muestra está compuesta por adolescentes varones (n = 469) y la otra por
adolescentes hembras (n = 623). Los valores de α$i en los cuatro factores
(agresividad física, verbal, ira y hostilidad) y el de la puntuación global
fueron respectivamente 0.82, 0.76, 0.69, 0.72 y 0.88 en varones y 0.83,
0.72, 0.66, 0.68 y 0.88 en hembras. La escala contiene 29 ítems corres-
182
Principios de Psicometría
pondiendo 9 a la subescala agresión física, 5 a agresión verbal, 7 a ira y 8
a hostilidad.
r Con los datos de las actividades anteriores, haga comparaciones múltiples
entre los coeficientes α obtenidos en las cuatro muestras (preadolescentes
y adolescentes varones y hembras) en los diferentes factores.
r Discuta la influencia del número de ítems de las escalas (la global y las subescalas), así como de los tamaños muestrales, en los valores de α estimados
utilizando los datos de las actividades anteriores.
Teoría de la generalizabilidad
¿Cómo afectan a las medidas
las distintas facetas y fuentes de error?
7
La variabilidad de las mediciones psicológicas puede provenir de diversas fuentes, que son las diversas facetas que se pueden considerar al establecer las estrategias en los procedimientos de medición. Todas ellas afectarán a la calidad de esas mediciones, por lo que considerar una sola fuente
de error en la TCT puede asumirse como una simplificación de la realidad. En la teoría de la generalizabilidad (TG) se considera que los errores provendrán de diversas fuentes y habrá que analizarlos para establecer la precisión y lo adecuado de las inferencias que se deriven de esas
medidas. Por lo tanto, la teoría de la generalizabilidad se aleja del modelo de la TCT fundamentalmente en que basa sus decisiones en los resultados de los análisis de los distintos factores (facetas, en la terminología
de la TG) que influyen en las mediciones del factor o faceta de interés
(faceta diferencial).
En este capítulo se va a tratar:
ã La lógica en la que se basa la teoría de la generalizabilidad y su terminología.
ã Las principales diferencias y analogías con la TCT.
ã El análisis psicométrico y la interpretación de algunos diseños
simples.
ã La distinción entre los llamados estudios G y estudios D.
ã Las inferencias basadas en las componentes de la varianza, generadas con las técnicas del ANOVA.
ã El cálculo de algunos coeficientes de generalizabilidad y su uso en
la toma de las decisiones.
184
Principios de Psicometría
m7.1. Conceptos básicos y terminologíam
La denominada teoría de la generalizabilidad (denotada por TG, o teoría G) es el
marco psicométrico en el que se encuadran teorías y procedimientos que, abandonando el sentido correlacional dado a la fiabilidad en la TCT, permiten el análisis de múltiples aspectos o facetas que pueden afectar a la calidad de las medidas. La teoría nace de los intentos de superar las limitaciones que el contexto
clásico impone a la fiabilidad y en especial la legitimidad de sus inferencias. Esta
forma de abordar los problemas, a la que Cronbach dio la denominación de generalizability, se desarrolla a lo largo de los años cincuenta del siglo pasado, incluso
con anterioridad (Hoyt, 1941), si bien su exposición más completa y sistematizada se encuentra en la obra de Cronbach et al. (1972). Varias décadas más tarde
Cronbach y Shavelson (2004) publicaron un documento sobre el uso masivo del
coeficiente α, argumentando las ventajas que tiene la teoría de la generalizabilidad sobre este coeficiente en la evaluación de la fiabilidad.
La perspectiva de la teoría G es establecer el grado en que las puntuaciones
que se obtienen con un número limitado de observaciones, obtenidas en ciertas
condiciones, representan a las puntuaciones que se podrían obtener disponiendo
de un gran número de ellas, a lo que se le denomina el universo de observaciones admisibles. Por ejemplo, si se dispone de cuatro ítems para medir la agresividad, en el
contexto de la TG el psicómetra se puede preguntar si debe incluir ítems que
midan otros aspectos, por ejemplo, la impulsividad, o si esos ítems que está administrando, tanto por su número como por sus contenidos, pueden ser representativos de todos aquellos otros posibles ítems que midan la agresividad. Lo que
se quiere estudiar, por lo tanto, es si los ítems que se proponen generan puntuaciones que sean representativas, o sea, que las condiciones en las que se han obtenido sean generalizables, en el sentido de que esas puntuaciones sean consistentes
con las que se hubieran obtenido si todos esos posibles ítems que potencialmente miden ese rasgo (el universo de ítems) se hubieran administrado. Además, si la prueba la han administrado y evaluado distintos profesionales, el psicómetra también
puede querer estudiar ese otro factor y preguntarse si quienes han hecho la aplicación son representativos de todos los posibles evaluadores que pudieran haber
efectuado esas mediciones. Por lo tanto, el problema se puede plantear tomando
en consideración una o varias fuentes de error.
En la teoría clásica se ha expuesto la importancia que tiene para el cálculo de
la fiabilidad la identificación y el control de las condiciones en la aplicación de las
Capítulo 7. Teoría de la generalizabilidad
185
pruebas, por ejemplo, en las aplicaciones test-retest, pruebas equivalentes, etc. En
la TG, las puntuaciones que se obtienen se considera que son muestras de un universo de observaciones. El universo describe las condiciones en las que se obtienen las puntuaciones de la prueba, por lo tanto, se considera que existen diferentes universos posibles en la aplicación de una prueba, y quien construye esa
prueba debe dar cuenta del universo particular o de los universos en que se han
obtenido las puntuaciones.
En la terminología de la teoría G, a esas condiciones o estrategias que se han
utilizado para la medición se las denomina facetas y, como se ha dicho, en un estudio se pueden estar considerando una o múltiples facetas. Siguiendo el ejemplo
de la medición de la agresividad, si varios participantes cumplimentan un conjunto de ítems, el estudio es de una sola faceta, pero si además en el estudio intervienen diversos observadores, entonces también se podrán evaluar las diferencias
entre los observadores, adoptándose una estrategia de diseño de dos facetas. Se
puede advertir que en ese análisis hay tres factores que influyen en la puntuación,
los participantes, los ítems y los observadores. Sin embargo, el diseño es de dos
facetas porque el objetivo del estudio es la detección de las diferencias individuales
(las diferencias entre los sujetos), siendo los ítems y los observadores los que
el psicómetra considera que son las fuentes de error y constituyen las dos facetas de generalización. A los sujetos del estudio se les denomina a veces faceta de diferenciación.
En la TG, la puntuación universo de un sujeto se considera que es la media de sus
puntuaciones obtenidas en todas las condiciones del universo de generalización.
Esta puntuación universo se puede considerar análoga a la puntuación verdadera V en la teoría clásica, como media de las puntuaciones observadas. Ahora bien,
comoquiera que en los estudios TG se pueden definir diferentes universos de
generalización, a un sujeto se le pueden asignar diferentes puntuaciones universo, lo que no es factible en relación con la puntuación V, ya que en el contexto de
la TCT se supone que es una sola la puntuación verdadera V de cada sujeto cuando realiza una determinada prueba, o pruebas paralelas.
La TG no considera adecuado lo que la teoría clásica había establecido en psicología y en educación, que era considerar que un instrumento de medición es
adecuado si su coeficiente de fiabilidad es elevado. Desde la perspectiva de la TG,
la presentación de los problemas y las soluciones que se dan en la TCT, o teoría
débil de las puntuaciones verdaderas, se percibe como una simplificación de los problemas, incluso se les tilda de cierta ambigüedad, presentándose muchos aspec-
186
Principios de Psicometría
Cuadro 7.1
Los avances que se produjeron a principios del siglo XX en algunas técnicas
estadísticas no se aplicaron en psicometría hasta mediados de ese siglo.
Una de las razones que esgrimieron varios autores es que en la medición de
aptitudes el efecto principal se debe a los sujetos (son la principal contribución a la varianza total en un ANOVA) y que las condiciones de observación
sólo son secundarias. No obstante, se abre paso la línea crítica que surge
del análisis de las debilidades de la TCT en algunos aspectos, que llevan en
ocasiones a inconsistencias e incluso a conclusiones erróneas en la concepción de los coeficientes de fiabilidad y sus repercusiones en temas como
la atenuación o las formulaciones de Spearman-Brown.
Entre los primeros autores que defienden el análisis de las diferentes
fuentes de varianza está Thorndike (1947), quien clasifica las fuentes de variación en cinco categorías: I) duraderas y generales del sujeto, II) duraderas
pero específicas, III) temporales y generales, IV ) temporales y específicas y
V) otras. La componente duradera y general (e.g., la aptitud) es la que casi
siempre busca información de las diferencias individuales. Aunque reconoce como facetas a las distintas formas del test, o a las diferentes ocasiones
de aplicación, no dice cómo el psicómetra puede estimar su influencia. Las
publicaciones de Cronbach de esa época también aportan muy poco en
cuanto a los procedimientos, aunque da argumentos para adoptar el análisis multifaceta como una técnica estándar: I) que las consideraciones explícitas de algunas facetas en el proceso de medición disipan algunas
ambigüedades ocultas en la TCT, II) que puede dar información sobre las
interacciones, a lo que no se tiene acceso por otros métodos, III) que responde a cuestiones que formalmente requieren conjuntos separados de datos
y IV) que permite diseñar procedimientos de medición más eficientes.
En la concepción y primeros desarrollos de la TG merecen mención destacada Gulliksen, quien en 1936 realiza un análisis formal multifaceta de la
consistencia de un test. Cronbach sigue a Guttman en cuanto a llamar facetas a lo que también podría denominarse factores, para evitar evocar en los
psicólogos asociaciones con el análisis factorial. Guttman (1953) augura a
esta línea éxitos futuros en la ciencia psicométrica. Cureton dirige una tesis
doctoral (Loveland, 1952) donde se analizan las componentes sujetos, ocasiones y formas del test, así como sus interacciones. En 1955 Burt, a partir
del material de Fisher, prepara para sus alumnos un documento comprensivo sobre la aplicación del análisis de la varianza a los problemas de fiabilidad, considerando fuentes de variación separables. Referencias más actuales y muy útiles para introducirse en este tema son las obras de Shavelson
y Webb (1991) y la de Brennan (2001), incidiendo la primera más en los aspectos conceptuales y la segunda en los aspectos más técnicos.
Capítulo 7. Teoría de la generalizabilidad
187
tos de la TCT como casos particulares de los planteamientos y de los procedimientos de la teoría de la generalizabilidad.
El argumento fundamental que viene a constituir el núcleo de la TG es la
consideración de que existen distintas fuentes de variación (de error) que afectan a las puntuaciones observadas, como pueden ser las distintas formas con las
que se presenta el test, o las condiciones en las que se aplica, o las diferencias
entre evaluadores, etc. El análisis de estas fuentes de variación se realiza con la
técnica del análisis de la varianza (ANOVA), en sus distintas versiones para los
diferentes tipos de diseños. Sin embargo, la TG aporta su propia formulación
para el análisis y la interpretación de los coeficientes. Las técnicas del ANOVA
se utilizan fundamentalmente para generar los estimadores de los componentes
de la varianza para cada factor.
La TG distingue entre los estudios G y estudios D. En un estudio G se recogen los datos a partir de los cuales se pueden hacer las estimaciones de las componentes de la varianza, siguiendo un determinado procedimiento. En un estudio D se reúnen los datos proporcionados por el estudio G con el propósito de
tomar decisiones o extraer conclusiones acerca de las diferencias individuales o
en relación con algún criterio (Cronbach et al., 1972).
En la TG el término condiciones se utiliza en un sentido muy general, pudiendo referirse a los ítems, a las formas del test, a las ocasiones, etc. En la estimación
de la fiabilidad en la TG se está interesado en la extensión o generalización al universo de condiciones, a partir de un conjunto de ellas que se considera que es una
muestra aleatoria de dicho universo. Los supuestos que, en principio, subyacen a
las formulaciones son:
a) El universo debe estar descrito de forma no ambigua, de manera que en
todo momento se conozca qué condiciones están incluidas en él. El número de condiciones puede ser o no finito, y no se hacen suposiciones del
contenido del universo, ni de las propiedades estadísticas de las puntuaciones en las distintas condiciones.
b) Las condiciones son experimentalmente independientes.
c) Las puntuaciones de los sujetos, observadas en las diferentes condiciones,
son valores en una escala de intervalo.
d) Las condiciones de experimentación se muestrean aleatoriamente a partir
del universo de condiciones, y los sujetos son una muestra representativa
de la población que se estudia.
188
Principios de Psicometría
En el plan de observación, el psicómetra puede especificar el universo de las
condiciones, identificando las facetas fijas y las aleatorias, así como el plan de
muestreo y el diseño experimental que mejor se ajuste a sus condiciones y a sus
propósitos. En la TG también se han planteado cuestiones acerca de la validez
de las inferencias, distinguiendo ente validez interna y externa (Campbell, 1957;
Campbell y Stanley, 1963; Cronbach et al., 1972).
La estrategia de considerar estudios de una sola faceta es muy común en
cierto tipo de cuestionarios como los de personalidad, aunque la inclusión de
varias facetas en un estudio suele enriquecer los análisis, pues el conocimiento
de las diferentes componentes de la varianza proporciona información de cómo
cada una de ellas afecta a las puntuaciones. Desde este punto de vista se está
implícitamente considerando que las facetas que se incluyen en el estudio son
facetas aleatorias, pues los niveles o formas de cada una de ellas que se usan en
el estudio son muestras aleatorias de sus universos. Por el contrario, si en el
estudio se incluyen todos los niveles o formas de una determinada faceta, o
cuando se incluyen sólo unas pocas pero no se quiere generalizar a partir de
ellas, entonces se considera que esa faceta es una faceta fija. En los estudios multifaceta se pueden usar diseños mixtos en los que se pueden incluir una o más
facetas fijas y una o más facetas aleatorias. Los diseños comunes en la TG son
los diseños cruzados y los anidados. En los diseños cruzados, se obtienen los
datos para todas las posibles combinaciones de los niveles de las diferentes facetas. En los diseños anidados no todas esas posibles combinaciones están representadas en el diseño.
A continuación se hace una breve exposición de los procedimientos considerando las dos fases, la primera en la que se llevan a cabo los estudios G para
verificar la constancia de las mediciones en la variable de interés a través de las
diferentes condiciones, y la segunda, en la que los resultados de los estudios G
se utilizan para los estudios D, dirigidos a la toma de decisiones. En ambos apartados se pondrán ejemplos de diseños cruzados, pero estos estudios admiten
diseños experimentales más complejos, dependiendo de los objetivos y de las
condiciones que se establezcan. En cualquier caso, la elección del diseño y cómo
se ha de hacer el tratamiento de los datos para el cálculo de las medias cuadráticas que conducen a la estimación de las componentes de la varianza, se pueden encontrar en obras especializadas en el tema, como el texto clásico de Winer
(1971), o en una versión más actual (Winer et al., 1991). Se pueden seguir los
procedimientos para llevar a cabo análisis de la varianza con diferentes diseños
Capítulo 7. Teoría de la generalizabilidad
189
en textos de estadística general como el de Amón (1984) y de Pardo y San Martín (1994), en español, o el de Howell (2002), en inglés.
m7.2. Estudios Gm
Los estudios G corresponden a la fase en la que, tras planificar y diseñar el procedimiento, se estiman y se interpretan las componentes de la varianza de cada
una de las facetas.
En esta fase del estudio hay que hacer uso de los procedimientos del ANOVA,
realizando la partición de la varianza total en sus distintas componentes. Se obtienen las sumas de cuadrados para calcular las medias cuadráticas y, a partir de ellas,
se estiman las componentes de la varianza de cada una de las facetas, así como las
de las interacciones, si las hubiera.
Al comparar la magnitud de esas varianzas, si la componente de la varianza
atribuible a los sujetos es mucho mayor que las de las demás componentes, entonces se considera que la medición que proporciona el test es bastante estable, es
decir, que no está influida en demasía por las condiciones. Si, por el contrario, esa
varianza fuese relativamente pequeña en relación con el resto de las componentes de varianza estimadas, la variabilidad no sería atribuible a los sujetos, sino a las
condiciones en las que se han realizado las mediciones. A continuación se estudian los diseños más simples de una y dos facetas.
Diseño de una faceta
En un diseño de una faceta se obtienen las medias cuadráticas correspondientes a los sujetos (p), ítems (i) y residual (res), de la misma forma que se obtienen
usando las técnicas de análisis de la varianza (ANOVA) y que están implementadas en los paquetes de software estadístico. No obstante, para ayudar a la comprensión del significado de los procedimientos, en el Cuadro 7.2 se ilustra cómo
se hace la partición de la varianza total en sus distintas componentes, en el caso
de un factor y cómo se obtienen tanto la suma de cuadrados SC, como las medias
cuadráticas MC.
190
Principios de Psicometría
Cuadro 7.2
Para ilustrar el procedimiento se parte de un diseño muy simple, un diseño
cruzado p x i. Para hacer la partición de la varianza total en sus distintos
componentes, se descompone la puntuación diferencial de cada sujeto p en
cada condición i (ítem), Xpi , en los siguientes sumandos:
(
) (
) (
X pi − X = X p − X + X i − X + X pi − X p − X i + X
)
(7.1)
siendo los dos primeros sumandos las desviaciones de las medias de Xp y de
Xi respecto a la media global (los errores ep y ei respectivamente). El último sumando es lo que se denomina residual (el de la interacción epi). Estos efectos se
supone que son independientes, con media cero. Por lo tanto, la suma de cuadrados (SC) de esas diferencias, para todos los sujetos y todas las condiciones,
es la dada a continuación por la ecuación (7.2). La suma de cuadrados atribuible a los sujetos es la (7.3), la atribuible a los ítems es la (7.4) y la residual la (7.5):
(
SCtotal = ∑ ∑ X pi − X
p
i
2
) = ∑ ∑ X pi2 − npni X 2
p
(7.2)
i
SCp = ni ∑ X p2 − npni X 2
(7.3)
SCi = np ∑ X i2 − npni X 2
(7.4)
SCres = SCtotal − SCp − SCi
(7.5)
p
i
Las medias cuadráticas, en cada caso, se obtienen dividiendo cada una
de estas sumas de cuadrados por sus correspondientes grados de libertad,
que son respectivamente (np – 1) para los sujetos, (ni – 1) para las condiciones y para el residual (np – 1) (ni – 1). Por lo tanto:
MCp =
SCp
SCi
SCres
; MCi =
; MCres =
np − 1
ni − 1
(np − 1) (ni − 1)
(7.6)
Una vez obtenidas las medias cuadráticas de las diversas fuentes: sujetos (MCp ),
ítems (MCi ) y residual (MCres ), se procede al cálculo de los coeficientes. En tanto que el ANOVA proporciona información de los efectos principales (y sobre
Capítulo 7. Teoría de la generalizabilidad
191
un término error) mediante un test de significación, la TG aporta sus métodos
propios. Los estudios G no requieren llevar a cabo tests de significación. Lo que
se hace es estimar los componentes de varianza en el diseño, con el fin de calcular un coeficiente, optimizar ese coeficiente y estimar las puntuaciones del universo (generalizar).
En este diseño cruzado de una faceta, las ecuaciones que se utilizan para estimar las componentes de la varianza son las que aparecen en la Tabla 7.1, siendo
los valores relativos de estos componentes los que indican la contribución de cada
una de las facetas a la variabilidad total. En el Ejemplo 7.1 se pueden seguir estos
procedimientos.
Tabla 7.1. Ecuaciones para la estimación de las componentes de la varianza
en un diseño cruzado de una faceta.
Fuentes de variación
Componentes de varianza
Sujetos
σ p2 =
Condiciones
σ i2 =
Residual
MCp − MCres
np
MCi − MCres
ni
2
σ res
= MCres
Ejemplo 7.1
Para medir la agresividad se suministran cuatro ítems a cuatro grupos de
escolares de diferentes edades, obteniéndose las puntuaciones medias de cada
grupo que se presentan en la Tabla 7.2. Puesto que los cuatro grupos de sujetos responden a todos los ítems, el diseño es un diseño cruzado (sujetos × ítems).
En este ejemplo cada grupo actúa como un sujeto promedio (que representa al
grupo). Los grados de libertad son: para los sujetos np – 1 = 3, para los ítems
ni – 1 = 3, para el residual (np – 1) (ni – 1) = 9 y para el total np ni –1 = 15.
Realizados los cálculos pertinentes con un programa informático, o haciendo uso de las ecuaciones (7.2) a (7.6), se obtienen los valores de las sumas de
cuadrados y de las medias cuadráticas que se presentan en la Tabla 7.3. En esa
192
Principios de Psicometría
tabla se dan también los valores de las componentes de la varianza, calculadas mediante las expresiones que se han dado en la Tabla 7.1. En la última
columna de la Tabla 7.3 se da el peso relativo de cada componente, es decir,
el de su contribución a la varianza total.
Tabla 7.2. Puntuaciones medias de cuatro grupos de escolares de diferentes edades
en cuatro ítems de un cuestionario de agresividad.
Ítems del cuestionario de agresividad
Sujetos
Medias
Física
Verbal
Ira
Hostilidad
Niñas
Niños
Adoles. Hembras
Adoles. Varones
2
4
4
6
2
3
4
5
2
3
5
4
2
2
3
5
2
3
4
5
Medias
4
3.5
3.5
3
3.5
Tabla 7.3. Resultados de ANOVA y generalizabilidad para los datos de la Tabla 7.2.
Fuentes
de
variación
Sujetos
Ítems
Residual
Total
g.l.
Suma de
cuadrados
SC
3
3
9
20
2
4
15
26
Medias Componentes
cuadráticas
de
MC
varianza
6.67
0.67
0.44
%
Varianza
1.56
0.06
0.44
76
3
21
2.06
100
En los resultados de este ejemplo se puede observar el gran tamaño de la
componente de la varianza σ p2 en relación con el resto de las componentes. Este
resultado indica que el efecto principal se debe a las diferencias en agresividad
entre los grupos de participantes. Si se consideran estos resultados como relaciones señal/ruido, este efecto de los sujetos (según su género y grupo de edad)
sería una fuerte señal y el residual sería el ruido del sistema. La proporción con
que contribuye la varianza de los ítems a la varianza total es casi despreciable,
no pudiendo considerarse a los ítems como una fuente de variabilidad en la detección de las diferencias entre los cuatro grupos de escolares.
Capítulo 7. Teoría de la generalizabilidad
193
Los resultados obtenidos en el Ejemplo 7.1 pueden tomarse como representativos de lo que es deseable obtener en un estudio de una sola faceta, dirigida a evaluar las diferencias entre los sujetos, que en este caso son los cuatro
grupos de escolares. En la Tabla 7.2 puede apreciarse que los niveles de agresividad aumentan en el orden, niñas < niños < adolescentes hembras < adolescentes varones, lo que se refleja en la Tabla 7.3 como una fuerte señal de la
faceta sujeto, que permitirá que en el correspondiente estudio D esta faceta
pueda generalizarse. En la Tabla 7.2 se observa también que casi todos los grupos presentan mayores niveles en el ítem agresividad física que en los demás
ítems. Sin embargo, la contribución a la varianza total de la faceta ítem (Tabla 7.3)
es muy pequeña y probablemente no permitiría que esa faceta fuera objeto de
generalización.
Diseño de dos facetas
En muchas situaciones los diseños incluyen más de una faceta que pueden
estar influenciando la calidad psicométrica de las medidas. La mayor diferencia con los casos de una sola faceta reside en que, además de las MC de cada
una de las facetas, hay que obtener las de todas las interacciones, aumentando considerablemente los cálculos. Lo usual es usar programas diseñados para
la TG o realizar los cálculos con el software disponible para los ANOVA.
Conocidas las MC, se procede a la estimación de las varianzas. En la Tabla 7.4
se dan las ecuaciones para el cálculo de las componentes de la varianza, en el
caso de dos facetas y un diseño cruzado p × i × j (sujetos × ítems × observadores),
siendo np, ni y nj el número de elementos considerados en el diseño en cada
una de las facetas.
Para hallar las componentes de la varianza se disponen los cálculos de forma
similar a como se ha realizado en el diseño de una faceta, teniendo en cuenta que
ahora, además de los efectos principales de cada faceta, hay que tener en cuenta
las nuevas interacciones.
A continuación se da un ejemplo de un estudio de dos facetas, en el que también se ha medido la agresividad de cuatro grupos de escolares, incluyendo ahora la influencia de otra posible fuente de variabilidad, los observadores que evalúan la prueba.
194
Principios de Psicometría
Tabla 7.4. Ecuaciones para la estimación de las componentes de la varianza
en un diseño cruzado de dos facetas.
Fuentes de variación
Sujetos (p)
Componentes de varianza
σ p2 =
Ítems (i)
σ i2 =
Observadores (j)
σ 2j =
MCp − MCpj − MCpi + MCres
ni nj
MCi − MCpi − MC ji + MCres
np nj
MC j − MCpj − MC ji + MCres
np ni
Sujetos × Ítems
2
σ pi
=
Sujetos × observadores
2
σ pj
=
Ítems × observadores
σ ij2 =
Residual
MCpi − MCres
nj
MCpj − MCres
ni
MCij − MCres
np
2
σ res
= MCres
Ejemplo 7.2
Siguiendo el ejemplo de la prueba de agresividad y usando los mismos cuatro ítems, supóngase que tres observadores diferentes (A, B y C) son los que
evalúan a los escolares. Los datos medios por grupo obtenidos con un diseño
cruzado de dos facetas se muestran en la Tabla 7.5.
De forma análoga a como se hizo en el ejemplo de una faceta se calculan
(utilizando ahora las ecuaciones dadas en la Tabla 7.4) las varianzas que se dan
en la Tabla 7.6.
En este Ejemplo 7.2 puede observarse que también la componente de varianza de la variable objetivo, los sujetos, representa la mayor proporción de la
varianza total (en este caso alrededor del 50%), lo que indica una fuerte señal.
Este resultado es muy positivo pues, como veremos en los estudios D, los coeficientes de generalizabilidad usualmente están dirigidos a evaluar la precisión
195
Capítulo 7. Teoría de la generalizabilidad
Tabla 7.5. Datos en un diseño cruzado de dos facetas.
Observadores
Sujetos
Niñas
Niños
Adol. H
Adol. V
A
B
C
Ítems
Ítems
Ítems
Medias
F
V
I
H
F
V
I
H
F
V
I
H
2
4
4
5
2
3
4
5
2
3
5
4
2
2
3
4
2
3
4
5
3
3
3
4
3
3
3
3
2
2
4
3
2
3
4
5
2
2
3
4
3
2
2
3
2
3
3
3
2.25
2.75
3.50
4.00
Nota: F, V, I y H se refieren a los ítems de agresividad (física, verbal, ira y hostilidad). Adol. H y Adol. V
indican adolescentes hembras y varones respectivamente.
Tabla 7.6. Resultados de ANOVA y de generalizabilidad para los datos de la Tabla 7.5.
Fuentes
de
variación
g.l.
Suma de
cuadrados
SC
Sujetos
Ítems
Observador
Suj. × Ítem
Suj. × Obs.
Item × Obs.
Residual
3
3
2
9
6
6
18
21.75
4.417
2.0
5.083
2.5
2.058
6.617
Total
47
43.250
Medias Componentes
cuadráticas
de
MC
varianza
7.25
1.472
1.0
0.565
0.417
0.343
0.343
%
Varianza
0.551
0.086
0.044
0.069
0.019
0.000
0.343
49.6
7.7
4.0
6.2
1.7
0.0
30.8
1.112
100.0
de las estimaciones de las diferencias individuales, es decir, la consistencia
interna de sus puntuaciones a través de los ítems, los observadores, etc. En
la Tabla 7.6 se puede advertir que las contribuciones a la varianza de los ítems
o de los observadores son muy pequeñas en comparación con la proporción
debida a la variable sujetos, que era la variable de interés. Igualmente la magnitud de las interacciones sujetos × ítems y sujetos × observadores son también relativamente pequeñas, lo que indica la consistencia de las diferencias
entre los sujetos (los grupos) a través de ítems y de observadores. Por lo tanto hay que considerar que, en principio, sólo hay una señal fuerte debida a los
grupos de sujetos, siendo el resto ruido.
196
Principios de Psicometría
Al igual que se ha expuesto al evaluar la consistencia interna en la TCT (Capítulo 5), que haya mucha variabilidad entre los participantes es muy deseable y es una
cuestión relevante en los procesos de medición. Si el interés está centrado en las
diferencias individuales, o sea, que los sujetos sean la faceta de diferenciación (los
grupos, en los ejemplos dados), lo deseable es que el cociente entre σ 2p y la varianza total sea un valor alto pues, como se ha indicado anteriormente, ése es el valor
de la señal. Cuando las estrategias que se han elegido para la medición y el diseño son las adecuadas, las puntuaciones de los sujetos son estables a través de las
condiciones (ítems, observadores, ocasiones, etc.). En caso contrario, la debilidad
del estudio se muestra cuando las puntuaciones de los participantes sufren fluctuaciones a través de las condiciones, siendo las de un mismo participante unas
veces altas y otras bajas. El objetivo de los estudios G es detectar estos efectos y
extraer conclusiones.
m7.3. Estudios Dm
Puesto que la información de los estudios G se utiliza para tomar decisiones (admisión en la universidad, selección de personal, etc.), tras los estudios G se realizan
estudios D para optimizar las estrategias que lleven a la toma de decisiones adecuadas. Se puede decir, por lo tanto, que un estudio D es la segunda fase en un
estudio de generalizabilidad.
Comoquiera que las varianzas proporcionan la información de cuanto contribuye cada faceta a la varianza total, el coeficiente de generalizabilidad se puede considerar como un indicador de la intensidad de la señal, pudiéndose considerar que el coeficiente de generalizabilidad responde a la relación:
Coeficiente de generalizabilidad =
señal
señal + ruido
La señal vendrá dada por la componente de la varianza del factor en el que se
está interesado, y el ruido vendrá dado por la varianza residual, a la que se le puede
sumar la de otras componentes, variando ese término ruido en número y tipo de
componentes, dependiendo del diseño y de que la decisión sea relativa o absoluta.
Las decisiones se consideran relativas si se toman relacionando las puntuaciones del sujeto con las de los componentes de un grupo o población, considerándolas absolutas cuando se basan en si una puntuación determinada supera
Capítulo 7. Teoría de la generalizabilidad
197
o no una puntuación de corte, o si se puede considerar que pertenece a un determinado grupo o clase de puntuaciones. Por ejemplo, si en un proceso de admisión hay que seleccionar al 25% de los aspirantes que se presentan a la prueba,
entonces se elegirán aquellos sujetos cuyas puntuaciones estén por encima del
tercer cuartil, con independencia de si en términos absolutos esas puntuaciones
son realmente muy altas. Sin embargo, si la elección se hace teniendo sólo en
cuenta que se alcance una determinada puntuación, se dice que se realiza una
decisión absoluta.
Un ejemplo de decisión relativa es cuando una empresa necesita contratar a diez
personas para un puesto con un determinado perfil. A la selección se presentan
100 aspirantes y se contrata a los 10 que obtienen las mejores puntuaciones en las
pruebas. Por el contrario, para que un alumno obtenga la máxima calificación en
una disciplina, su puntuación debe pertenecer a una determinada categoría,
(por ejemplo, se califica con sobresaliente sólo si obtienen más de 9 puntos sobre
10), con independencia de cuantos alumnos de su curso o de su universidad la
hayan alcanzado.
En la TG, diferenciar entre ambos tipos de decisiones tiene importantes implicaciones, pues al realizar los estudios D a partir de los coeficientes de generalizabilidad, que son los indicadores de la relación [señal / (señal + ruido)], esta diferenciación afecta a cómo se concibe el ruido en cada caso. La diferencia entre
decisiones absolutas y relativas afecta al número de componentes de varianza que
contribuyen al ruido cuando se computan los coeficientes. Comúnmente, las decisiones absolutas conllevan la consideración de un mayor número de esas componentes que las relativas, por lo que los coeficientes de generalizabilidad que se
obtienen en las decisiones relativas suelen ser mayores que en las absolutas.
Coeficientes de generalizabilidad y toma de decisiones
Quienes usan los tests desean maximizar la calidad de sus medidas y, en consecuencia, la de sus predicciones y quieren que todo ello se realice con la mayor eficiencia posible. Por ejemplo, si la faceta de diferenciación son los sujetos y la
varianza atribuible a los ítems σ 2i es muy grande, quiere decir que esta faceta contribuye en gran medida al ruido y el psicómetra debe buscar alguna estrategia para
intentar reducir esa varianza. Por lo tanto, cuando en el estudio G se advierte que
la varianza de alguna o de varias facetas es alta, puede plantearse aumentar el
198
Principios de Psicometría
número de elementos o de niveles de una o de varias facetas, con el fin de asegurarse una mayor precisión en la generalización.
Por ejemplo, se pueden añadir nuevos ítems y alargar el test, que es una estrategia que también se adopta en la TCT para aumentar la fiabilidad. Al igual que
en la TCT parece razonable intentar añadir el menor número posible de ítems,
por economía de recursos (e.g., tiempo y dinero) entre otras razones, aunque buscando la mayor utilidad y eficiencia de la prueba. En la TCT (Apartado 4.3) se ha
demostrado que al aumentar la longitud del test con elementos paralelos, la varianza de la puntuación verdadera crece más rápidamente que la del error, disminuyéndose así la contribución de este término error a la varianza total observada,
obteniéndose tests más fiables. Desde la TG no se plantea el concepto de paralelismo, sino que se analizan las variaciones en el coeficiente de generalizabilidad
al aumentar (o disminuir) el número de niveles de la faceta o de las facetas en cuestión, el número de ítems en este caso. Éste es un caso típico en el que se recomienda realizar un estudio D.
Los coeficientes de generalizabilidad toman valores entre cero y uno, indicando el extremo inferior (cero) la ausencia de señal y el valor uno la ausencia de
ruido. Estos conceptos se comparten con los de los coeficientes de fiabilidad en
la TCT donde, si no hay varianza error, toda la varianza observada corresponde
a la de la puntuación verdadera y la fiabilidad es uno. Como se podrá comprobar
más adelante (Ejemplo 7.3), el coeficiente de generalizabilidad es igual al coeficiente α para algunos diseños.
Diseño de una faceta
En estos diseños, expondremos en primer lugar los coeficientes dirigidos a la
toma de decisiones relativas ρ2 y posteriormente los de las absolutas φ 2 .
Decisiones relativas
En un diseño (p × i), si la estrategia que se adopta para tomar decisiones es la
consideración del número de ítems, para optimizar la decisión habrá que hacer
uso de la estimación de las varianzas de cada una de las fuentes de variabilidad,
que se ha realizado en el estudio G. Si se denota por n'i el número de ítems que
se está considerando en un caso particular, la expresión:
199
Capítulo 7. Teoría de la generalizabilidad
ρ2p
=
σ 2p
σ 2p
σ 2res
+
n′i
(7.7)
es el coeficiente de generalizabilidad relativo, si la faceta de interés son los sujetos.
Este coeficiente permite estudiar las variaciones de la señal en relación con la
longitud de la prueba, tomándose las decisiones en concordancia con la información que proporciona ese coeficiente, buscando la mejor relación entre el tamaño de la prueba y el valor del coeficiente.
Los valores posibles para los coeficientes de generalizabilidad estarán entre
cero y uno, como el coeficiente α, así como otros coeficientes de fiabilidad de la
TCT. Veamos un ejemplo donde se analizan las variaciones de los valores del coeficiente dado en la expresión (7.7) para diferentes n'i, tomándose la decisión en
función del tamaño de ese coeficiente.
Ejemplo 7.3
Con el diseño y los datos de la Tabla 7.2 y con los resultados del estudio G
dados en la Tabla 7.3, tómese una decisión acerca de si se pudiera reducir, o si
se debe aumentar el número de ítems de la prueba.
Para tomar esa decisión, en primer lugar, se hace uso de la ecuación (7.7)
para obtener el coeficiente de generalizabilidad relativa, teniendo en cuenta que
en ese diseño se han utilizado 4 ítems (los niveles o condiciones) de esa faceta aleatoria. Por lo tanto:
ρp2 =
1.56
1.56
=
= 0.934
0.44 1.67
1.56 +
4
El coeficiente es suficientemente elevado y no habría que plantearse añadir nuevos ítems. Por el contrario, la propuesta sería reducir ese número si la
pérdida en precisión no fuese muy elevada. No obstante, también se quiere
valorar la ganancia en precisión que se obtendría si se añadiesen algunos ítems
y cómo se relacionarían estos valores con los que se hubieran obtenido usando los métodos de la TCT.
200
Principios de Psicometría
a) Los valores estimados para el coeficiente, si en lugar de 4 utilizaran 2 o 3
ítems, son respectivamente:
ρp2 =
1.56
1.56
=
= 0.876
0.44 1.78
1.56 +
2
ρp2 =
1.56
1.56
=
= 0.912
0.44 1.71
1.56 +
3
por lo que, a la vista de los resultados, puede tomarse la decisión de prescindir de uno de los ítems.
b) Los valores del coeficiente en los casos en que se añadiera uno, dos o cuatro ítems a los cuatro iniciales serían 0.946, 0.955 y 0.966 respectivamente.
c) Para comparar estos coeficientes con los que se hubieran obtenido usando
los métodos de la TCT, el coeficiente α se calcula con la ecuación (5.1) utilizando los datos de la Tabla 7.2
α=
4 20 − 6
= 0.933
3 20
comprobándose que el valor de ρ p2 coincide con el de α. Si para aumentar la fiabilidad del test se dobla la longitud añadiendo elementos paralelos, aplicando
la ecuación (4.4) de Spearman-Brown se obtiene:
R XX′ =
(
) = 0.966
2 0.933
1+ 0.933
que es el mismo valor que el obtenido para ρ 2p cuando en la ecuación (7.7) se
considera que n'i = 8.
Decisiones absolutas
En el diseño de una faceta descrito anteriormente, el coeficiente de generalizabilidad para decisiones absolutas, se obtiene mediante la ecuación:
φ 2p =
σ 2p
σ 2p
σ2 σ2
+ i + res
n′i
n′i
(7.8)
Capítulo 7. Teoría de la generalizabilidad
201
que, como se ha indicado anteriormente, añade más componentes al término ruido que en las decisiones relativas.
Ejemplo 7.4
Utilizando el mismo diseño del caso anterior y la información proporcionada por su estudio G (Tabla 7.3) para esa estrategia basada en cuatro ítems, se
tiene que el valor del coeficiente de generalizabilidad absoluto es:
φp2 =
1.56
= 0.926
0.06 0.44
1.56 +
+
4
4
que, como era de esperar, es menor que el coeficiente obtenido para las decisiones relativas. Aun así, el coeficiente es bastante elevado, pero si se quiere
aumentar, se puede proceder de manera análoga a lo realizado anteriormente.
Por ejemplo, si la estrategia de mejora de la prueba consiste en aumentar en
dos el número de ítems, el valor esperable es:
φp2 =
1.56
= 0.949
0.06 0.44
1.56 +
+
6
6
lo que supone un aumento considerable en el coeficiente. Por lo tanto, se deberá valorar la pertinencia y los costes de añadir dos ítems, ya que supone multiplicar por 1.5 la longitud de esa prueba.
Diseño de dos facetas
Al igual que en el caso de una faceta, se exponen los coeficientes para las decisiones relativas y a continuación los de las absolutas.
Decisiones relativas
Los coeficientes de generalizabilidad en cualquier diseño, también en los
multifaceta, se pueden considerar como la razón entre la señal y la señal más el
202
Principios de Psicometría
ruido. En el caso de un diseño de dos facetas en el que la faceta de diferenciación o faceta objetivo sean los sujetos y las de generalización sean los ítems y
los observadores, el coeficiente de generalizabilidad relativo viene dado por la
ecuación:
ρ2p
=
σ 2pi
σ 2p
2
σ pj
σ2
σ 2p +
+
+ res
n′i
n′j n′i n′j
(7.9)
siendo n'i el número de ítems y n'j el de observadores que se han considerado en
el estudio, bajo los supuestos de que esos niveles, o formas, en cada una de esas
dos facetas son muestras aleatorias de sus respectivos universos.
Conocidas las varianzas estimadas se pueden estudiar las variaciones del coeficiente de generalizabilidad, usando la ecuación (7.9), de forma similar a como
se ha hecho en el caso de una faceta. Sin embargo, con este diseño se pueden
obtener estimaciones del coeficiente variando tanto el número de ítems como el
de observadores.
Decisiones absolutas
Para la toma de decisiones absolutas, en el caso de dos facetas en el ejemplo
que se viene considerando (p × i × j), el coeficiente viene dado por la expresión:
φ 2p =
σ 2p
σ 2p
2
2
2
2
2
σ 2i σ j σ pi σ pj σ ij σ res
+
+
+
+
+
+
n′i n′j n′i
n′j n′i n′j n′i n′j
(7.10)
que contiene más términos de varianza en el denominador que el coeficiente dirigido a la toma de decisiones relativas. Concretamente aquí se incluyen los componentes de varianza para el efecto del ítem, del observador, y el de la interacción
ítem × observador, que no están incluidos en el coeficiente dado en (7.9).
Capítulo 7. Teoría de la generalizabilidad
Ejemplo 7.5
Con los datos calculados en el estudio G del Ejemplo 7.2 (Tabla 7.6) se pueden plantear al menos dos cuestiones:
a) Si hay que bajar los costes reduciendo el número de ítems y/o el de
observadores, ¿cuánto, teóricamente, se pierde en precisión en uno y otro
caso?
b) ¿Cuál sería la ganancia en precisión que teóricamente se podría obtener si
se aumenta el número de ítems y/o el de observadores?
Lo primero que hay que saber es si el coeficiente se va a utilizar para la toma
de decisiones absolutas o relativas. En cualquier caso, calculémoslos para
ambas decisiones con los datos obtenidos en el estudio G con la prueba que
se ha administrado.
Haciendo uso de la ecuación (7.9) se calcula el valor del coeficiente de generalizabilidad para la toma de decisiones relativas:
ρp2 =
0.551
0.551
=
= 0.89
0.086 0.044 0.343 0.616
0.551 +
+
+
4
3
12
Para la toma de decisiones absolutas, sustituyendo los correspondientes
valores en (7.10), se obtiene que el valor del coeficiente es:
φp2 =
0.551
= 0.86
0.086 0.044 0.069 0.019 0.00 0.343
0.551+
+
+
+
+
+
4
3
4
3
12
12
Para dar respuesta a las cuestiones que se han planteado, se pueden hacer
estimaciones teóricas manipulando el número de ítems y el de observadores.
Algunos de los valores de los coeficientes de generalizabilidad calculados para
la toma de decisiones absolutas y relativas, considerando diferentes números
de ítems y de observadores, se dan en la Tabla 7.7
El aumento del número de niveles en una o en ambas facetas aumenta el
valor de los coeficientes, tanto si son decisiones absolutas como relativas. Como
también se puede observar en el ejemplo de la Tabla 7.7, los coeficientes para
las decisiones relativas son mayores que para las absolutas. Se deberá adoptar la combinación que optimice las decisiones, teniendo siempre en cuenta que
usualmente el error que afecta a las decisiones absolutas es mayor que el que
afecta al de las relativas y que, por ello, son las decisiones relativas las que son
más generalizables.
203
204
Principios de Psicometría
Tabla 7.7. Coeficientes estimados utilizando componentes de varianza
para distintos niveles de las facetas, ítems y observadores.
Número de niveles
Coeficientes para la toma de decisiones
n'i
n'j
ρ2p
φ 2p
1
2
3
4
4
4
4
5
6
6
1
1
1
1
2
3
4
3
2
3
0.54
0.68
0.75
0.78
0.86
0.89
0.91
0.91
0.89
0.92
0.50
0.64
0.71
0.75
0.83
0.86
0.88
0.88
0.87
0.89
m7.4. Diseños anidados versus diseños cruzadosm
En todos los desarrollos anteriores se han supuesto diseños cruzados, esto es, que
todos los sujetos se cruzan con todas las condiciones. En el caso en el que se tuviese una muestra de 100 sujetos, 12 ítems y 2 observadores (evaluadores), el diseño
cruzado (p × i × j) proporcionaría un total de 100 × 12 × 2 = 2400 observaciones.
Sin embargo, si por razones de economía se decide dividir la muestra de sujetos
entre los observadores, asignándolos de forma aleatoria y de manera que cada uno
de los observadores se ocupe de evaluar sólo a la mitad de los sujetos, entonces se
tiene un diseño anidado [(p : j) × i], que daría como resultado 2 (50 × 12) = 1200
observaciones. Del mismo modo, se podría haber decidido adoptar otra estrategia, por ejemplo, dividir los ítems entre los evaluadores de manera que uno de ellos
aplicará 6 ítems a todos los sujetos y el otro los otros seis. En este caso, se tiene un
diseño anidado [p × (i : j)], que produce también 1200 observaciones.
Para los análisis hay que tener en cuenta, por lo tanto, que los sujetos reciben
sólo algunos de los niveles de las facetas de generalización. En este caso, no todas
las combinaciones de ítems y observadores están representadas en el diseño. En
general, se tiene un diseño anidado cuando no está incluida en el estudio toda
posible combinación de dos facetas.
Capítulo 7. Teoría de la generalizabilidad
205
El uso de estos diseños tiene importantes implicaciones. Por ejemplo, si en
los estudios G de una faceta (sujetos e ítems), a cada sujeto se le administra parte (una muestra aleatoria) de los ítems disponibles, entonces, los estimadores de
la varianza estarán afectados por esta restricción, como también sucederá en los
diseños multifaceta. En el diseño cruzado de dos facetas que se presenta en la
Tabla 7.4 se pueden estimar hasta un total de siete efectos, tres de ellos corresponden a los efectos principales de las facetas (sujetos, ítems y observadores),
otros tres a los pares de interacciones y el último al residual. Sin embargo, si los
ítems están anidados en observadores, entonces no se pueden estimar más que
un total de cinco efectos. La razón es que no se obtienen las varianzas estimadas
para σ 2i y para σ 2pi , ya que al estar repartidos los ítems entre los observadores, no
pueden detectarse de forma separada esos efectos.
Las exposiciones más amplias y detalladas de cómo llevar a cabo los análisis
con estos diseños escapan a los objetivos de esta obra, aunque el lector interesado puede encontrarlas en múltiples fuentes y existen programas de software libre
(e.g., MGENOVA) que son específicos para el tratamiento de la TG. Solamente
añadir que, aunque la primera fase del estudio, el estudio G, se haya realizado con
un diseño cruzado, esto no impide que el psicólogo decida optar por un diseño
anidado en los posteriores estudios D. En ese caso, deberá tener en cuenta las
diferencias en los componentes de la varianza entre uno y otro diseño.
Finalmente, reiterar que los estudios TG admiten una gran variedad de diseños experimentales más o menos complejos y que, para la elección del diseño adecuado en cada caso, remitimos al lector a la literatura sobre diseños experimentales de la que hay textos especializados y que también es muy abundante en los
contextos de la estadística aplicada. Los análisis se pueden hacer con software
específico para la TG u obteniendo las componentes de varianza con ayuda de
paquetes estadísticos (e.g., SPSS) que incluyen análisis de la varianza para diferentes diseños.
Puntos clave
3
La TG considera que las mediciones pueden estar afectadas por múltiples fuentes de error, en lugar de un término único como se considera en el modelo de
Spearman.
206
Principios de Psicometría
3
3
3
3
3
3
3
3
3
3
3
La TG amplía el concepto de fiabilidad de la TCT al considerar que diferentes
facetas pueden afectar a las mediciones y, por lo tanto, a sus cualidades psicométricas.
Los análisis de los efectos de las facetas se basan en los procedimientos del
análisis de la varianza, aunque la TG proporciona las herramientas para la estimación de los efectos de cada faceta, dando las ecuaciones para la obtención
de sus varianzas estimadas.
Los sujetos, las condiciones o niveles de las facetas que entran en el estudio, son
muestras aleatorias de sus respectivas poblaciones o universos. Sin embargo, cuando el estudio incluye todos los niveles de una determinada faceta, o no se está interesado en su generalización, esa faceta pasa a ser una faceta fija.
Las condiciones son experimentalmente independientes.
A los estudios que llevan a la estimación de los efectos de las facetas se les llama estudios de generalización o estudios G.
Los resultados de los estudios G se pueden utilizar para la toma de decisiones,
generando los denominados estudios D.
Las decisiones en los estudios D se basan en los valores de los coeficientes de
generalizabilidad, que se definen como el cociente entre la señal y la señal más
el ruido.
Los coeficientes de generalizabilidad son diferentes cuando se trata de decisiones absolutas o de decisiones relativas, pues difieren en las componentes
del ruido.
El coeficiente de generalizabilidad (precisión) se puede aumentar o disminuir
variando el número de niveles de las facetas.
Una estrategia para aumentar la precisión, análoga a la que se adopta en la TCT,
puede ser aumentar el número de ítems.
El tipo de diseño (cruzado, anidado, etc.), el número de facetas y su consideración de fijas o aleatorias tiene implicaciones en los cálculos y en las interpretaciones, tanto en los estudios G como en los D.
Actividades
r Enuncie tres ítems que midan la agresividad física en niños (puede tomarlos de Santisteban y Alvarado, 2009). Obtenga las respuestas a estos ítems
de 10 niños en dos ocasiones distintas y realice estudios G, considerando
que los ítems y las ocasiones son las facetas de generalización.
r A la vista de los datos que se dan en el Ejemplo 7.3 y ya que la prueba propuesta es muy corta, ¿cree que la mejor opción sería aumentar su longitud
Capítulo 7. Teoría de la generalizabilidad
r
r
r
r
r
207
hasta alcanzar la máxima precisión? ¿Qué supondría esa opción?¿Qué aconsejaría que se hiciera? ¿Por qué?
Compruebe que, en el caso anterior, el valor que se obtiene para el coeficiente de generalizabilidad cuando se aumenta el número de ítems es el
mismo que si al test inicial se aplica la ecuación de Spearman-Brown.
En el Ejemplo 7.5, combine distintas posibilidades, además de las dadas en
la Tabla 7.7, y discuta cuáles serían las mejores opciones, tanto para la toma
de decisiones relativas como absolutas.
Explicite con un ejemplo concreto las implicaciones que en un sistema de
selección tendrían las opciones elegidas en la actividad anterior.
En un diseño cruzado (p × i × j) = 200 × 20 × 6 plantee distintas opciones
para pasar a diseños anidados. Indique el número de observaciones que se
obtendrían en cada caso.
Genere una tabla de datos ficticios para algunos de los diseños anteriores,
y con el software adecuado haga estudios D para los diferentes supuestos.
La validez
¿Qué es la validez?
8
El concepto de validez ha ido evolucionando a lo largo de casi un siglo,
habiéndose propuesto varias definiciones de validez en el transcurso de esa
evolución. La definición más básica de validez es que un estudio es válido
cuando mide aquello que pretende medir. Por lo tanto, en psicometría, la validez es el grado en que el test (test, cuestionario o inventario) mide aquello que se supone
que está midiendo. Esta forma de definir la validez es la más común debido a
su claridad y simplicidad, pero es una simplificación de lo que actualmente
se entiende por validez, que es el grado en que la evidencia y la teoría dan
soporte a las interpretaciones que se hacen de las puntuaciones de los tests
en relación con los propósitos de uso para los que esos tests se han construido. Esta definición más compleja apunta a que hay varios tipos de validez.
En este capítulo se va a tratar:
ã El concepto de validez y su evolución.
ã Diferentes significados y denominaciones de la validez.
ã Las distintas acepciones que se han dado a la validez de los tests,
respondiendo a los distintos propósitos para los que los tests se han
utilizado.
ã Las exigencias de validez no son exclusivas de los instrumentos de
medición en psicología, sino que se extienden al ámbito de todas las
ciencias.
m8.1. El concepto de validezm
En psicometría se suele decir que un instrumento de medida (test, cuestionario, inventario, etc.) tiene validez cuando mide lo que pretende medir. A su vez, las medidas de lo
210
Principios de Psicometría
que se pretende medir, no son mediciones directas sino que casi siempre se infieren
desde otras medidas, por lo que también habrá que plantearse cuál es la validez de
esas inferencias. Por lo tanto, parece que la validez es uno de los requisitos que se
deben exigir que cumplan tanto las medidas como los instrumentos de medida.
La evaluación de la validez de los instrumentos de medida psicométricos ha
sido siempre un aspecto considerado primordial y requerido para su uso. No
obstante, la concepción actual de la validez ya no responde solamente a esa orientación puramente pragmática y empirista que caracterizó a la psicometría en la
primera mitad del siglo XX. El concepto de validez ha evolucionado como consecuencia de los cambios conceptuales que se han ido produciendo en el ámbito de la psicometría, ampliándose este concepto a otros campos de la psicología
en los que es necesaria la medición, e incorporando nuevas técnicas. En la actualidad los principios de la validez no sólo se aplican a las inferencias que se hacen
usando las puntuaciones derivadas del test, sino que también incluyen a todas
aquellas que se han ido generando en pasos intermedios, pues también esas puntuaciones deben ser consistentes con las aptitudes, las conductas o cualquier tipo
de atributos que sean objeto de evaluación. En consecuencia, no solamente el
término validez, sino también el término puntuación hay que considerarlo aquí
en un sentido amplio, pues incluye el resultado de cualquier asignación y/o codificación que se haga de las observaciones, que tienen que ser consistentes con la
realización del test, el cuestionario u otra forma de evaluación, así como con sus
posteriores interpretaciones. Por todo ello, la validación ya no se considera que
es la etapa final del proceso de construcción del instrumento de medida, sino
que es un aspecto fundamental que tiene una fuerte influencia en todo el proceso. Ha sido Messick (1989/1993, 1995) quien probablemente más ha contribuido a que se abran paso estas propuestas, defendiendo un concepto unificado de validez que integrara a todas las posibles fuentes de información que ayuden
a la validación, incluyendo desde las puntuaciones hasta las consecuencias sociales del uso de los tests, consiguiendo así que se abandone la idea más primitiva
de que primero se construye el test, procurando que sea muy fiable, para posteriormente, en la etapa final, someterlo a estudios de validación.
Al exponer las cualidades psicométricas de un test, las medidas más significativas, además de la precisión, son las que se refieren a su validez, que pueden ser varias,
pues en la validez se pueden considerar diferentes aspectos. Además, los estudios de
validez no tienen restricciones en cuanto al modelo en el que se ha basado la construcción de la prueba, lo que no sucede con los estudios de fiabilidad, en su acep-
Capítulo 8. Validez: Concepto y tipos
211
ción de correlación entre puntuación verdadera y observada, que son exlusivos del
modelo lineal clásico. Una prueba es válida si cumple los objetivos para los que se
construyó, con independencia del tipo de modelo formal que se adopte, ya sean lineales (TCT), modelos basados en distribuciones probabilísticas como la binomial (Lord,
1965), o la de Poisson (Rasch, 1960) cuyo uso actualmente es poco frecuente, u otros
modelos no lineales ampliamente utilizados, como los de la TRI (Capítulos 11 y 12),
así como otros cualesquiera que se propongan. No se debe caer en la presunción de
construir un modelo cuya cualidad fundamental sea la estética formal a través de sus
formulaciones matemáticas o computacionales, incluso de sus resultados. Hay que
validar el modelo dándole legitimidad. Los tests de inteligencia o de personalidad
serán válidos si generan puntuaciones que permitan discriminar entre sujetos que
varían en inteligencia, o que reflejan los rasgos más significativos de su personalidad.
Un test dirigido a la selección de personal para la realización de una tarea determinada será válido si sus puntuaciones están en estrecha relación con aquellas aptitudes o habilidades fundamentales que posibilitan la buena ejecución de esa tarea, incluida la adaptación del sujeto al medio, pero esto no es más que un ejemplo de uno de
los aspectos de la validez. Trataremos algunos de esos aspectos y los métodos más
usuales para valorarlos en el contexto de la teoría de tests, aunque las limitaciones
que impone un texto de estas características no nos permiten abordar el tema en
toda su extensión, dimensiones y profundidad.
m8.2. Tipos de validezm
En la literatura han venido apareciendo desde principios del siglo XX diversos
tipos y denominaciones de la validez, ligados a diferentes concepciones de la validez y al uso de los tests. En el Cuadro 8.1 se hace una breve reseña histórica, que
ilustra su evolución hasta principios de los años cincuenta del siglo XX.
Cuadro 8.1
En los albores del siglo XX, en sus intentos por generar los mejores tests posibles para evaluar la aptitudes intelectivas, Binet y Simon (1908) generaron
un procedimiento para elegir los mejores ítems utilizando el criterio de diferenciación por edad, basándose en las teorías de la psicología evolutiva. Esto
212
Principios de Psicometría
constituyó uno de los primeros intentos de dar validez a esas pruebas. Posteriormente, la validez se evaluó mediante el coeficiente de correlación entre
las medidas que proporciona el test (predictoras) y las de otra variable que
sirve como criterio de si ese test mide lo que se pretende (Hull, 1928; Gulliksen, 1950a). Los errores de medida, que afectan tanto a las variables predictoras como a las que miden el criterio, hacen que el coeficiente de correlación entre ellas sea menor del que resultaría si esas variables estuvieran
exentas de errores. Este problema lo abordó Cureton (1950), incluyendo el
concepto de atenuación en sus definiciones y fórmulas de la validez. Cureton además distinguía entre lo que es la validez del test, su poder predictivo y lo que denominó relevancia, que es la correlación entre las puntuaciones verdaderas, tanto del predictor como del criterio. Las propuestas de
Cureton no tuvieron eco en la comunidad científica, que aceptó casi unánimemente la definición de coeficiente de validez y las consideraciones de
Gulliksen (1950a), quien ligaba la validez de un test con la predicción de un
criterio específico. Esto implica que un test tendrá tantos coeficientes de validez como usos se hagan de él. El que un test sólo se puede validar como
medida de un determinado criterio fue el pensamiento dominante de la época y autores como Anastasi (1950) afirmaban también que decir que mediante un test se puede medir algo distinto a su criterio es pura especulación.
Todo ello es fiel reflejo del positivismo lógico, que es el marco filosófico en
el que se desarrolló la psicología de la época. Uno de los pocos que disintieron fue Rulon (1946), quien defendía que los tests de rendimiento académico en diferentes materias no requieren de un criterio externo para su validación, pues ellos mismos constituyen su propio criterio, ya que la revisión
del test se hace por expertos en la materia, mostrándose así la validez de su
contenido. Por su parte, Cronbach (1949/1990) distinguía entre validez lógica (qué es lo que mide el test) y la validez empírica (cuál es su relación con
un criterio), discutiendo los problemas de la validez de contenido en los tests
educativos.
A lo largo de varias décadas, el pensamiento predominante fue, por lo
tanto, que la validación consiste en comprobar la capacidad del test para
predecir un determinado criterio de conducta, ya sea ésta observable en el
futuro, o en el momento, acuñándose los términos de validez predictiva y de
validez concurrente para indicar si las medidas del test predictor y del test
criterio se han tomado o no en el mismo momento. No obstante, durante esa
época de mediados del siglo XX, aparecieron múltiples denominaciones para
designar a la validez, tomadas de las diferentes metodologías estadísticas
y/o de la aplicación de técnicas de análisis de los ítems que se iban incorporando a la psicometría. Guilford (1946) introdujo el concepto de validez
factorial, que proporciona la información de qué es lo que realmente mide el
test en términos de factores y pesos, anticipando una de las técnicas actua-
Capítulo 8. Validez: Concepto y tipos
213
les más relevantes para la validación del constructo. Gulliksen (1950b) introdujo el concepto de validez intrínseca, que es muy similar al de validez factorial, en la que los factores relevantes se detectan estudiando los patrones
de covarianza. Por su parte, Anastasi (1954) dividía la validez en aparente,
de contenido, factorial y empírica.
A mediados de los años cincuenta del siglo XX tres asociaciones norteamericanas muy implicadas en la generación y uso de los tests intentaron unificar criterios.
La American Psychological Association (APA), la American Educational Research
Association (AERA) y el National Council on Measurement in Education (NCME),
con la colaboración activa de psicómetras como Cronbach y Meehl, publicaron las
recomendaciones técnicas para la construcción de tests psicológicos y de otras técnicas diagnósticas. En estas recomendaciones (APA, 1954; Cronbach y Meehl, 1955)
se proponían cuatro tipos de validez: concurrente, predictiva, de contenido y de constructo,
donde se daba el mayor peso a la validez empírica (concurrente y predictiva), defendiéndose que el test debía validarse en función del uso que se le pretendía dar. No
obstante, ya se apuntaba también hacia un nuevo tipo de validez, la validez de constructo, como medida de un atributo o cualidad, aunque esa validación se concebía
como algo excepcional que sólo se debía usar en aquellos estudios que requiriesen
el desarrollo de tests en los que las técnicas de validación convencionales no fueran
apropiadas, por ejemplo, cuando se necesitase interpretar las puntuaciones del test
que no fuese posible definir de otro modo, o que no hubiese criterios o universos
de contenido que pudieran aceptarse como adecuados para definir la cualidad que
se iba a medir, etc. Otro paso importante hacia el futuro que se daba en estas recomendaciones fue indicar que la validación no es responsabilidad solamente del editor del test, sino que también lo es de aquellos expertos que lo utilicen.
Las revisiones a las recomendaciones técnicas que se hicieron en los años 1966
y 1974 pasaron a llamarse Normas (Standards) para tests educativos y psicológicos.
Se introdujo entonces en esas normas el concepto de la validez relativa a un criterio, que incluye la validez concurrente y la predictiva, dando lugar a que se expliciten los tres tipos de validez ya clásicos: contenido, criterio y constructo, aunque es la
validez de constructo la que con el paso del tiempo se ha considerado que es
la que incluye a las distintas facetas y fuentes de validación. Loevinger (1957)
ya había adelantado la idea de que toda la validación es de constructo, pero no es
214
Principios de Psicometría
hasta la edición de las Normas de 1985 cuando se hace explícita una concepción
unitaria de la validez, como consecuencia de las interrelaciones que se establecen
entre diferentes mediciones del rasgo o del comportamiento de interés y las puntuaciones en el test que se pretende validar, considerándose entonces los tipos de
validez mencionados en las ediciones anteriores como diferentes evidencias o fuentes de validez. No obstante, existe en la redacción de esas normas una cierta ambigüedad, ya que se elaboran conjuntamente entre psicólogos y educadores, entre
quienes se concibe y se desarrolla de forma desigual esta concepción unitaria de
la validez. Estas deficiencias las pone de manifiesto Messick (1989/1993, 1995),
quien, como se ha mencionado en el apartado anterior, defiende la validez como
un concepto único, integrando en el proceso todas las posibles fuentes que sirvan
al objetivo de la validación, incluyendo todos sus aspectos. En las Normas de 1999
(AERA, APA y NCME, 1999), se define la validez como una evaluación global del
grado en el que la teoría y la evidencia apoyan las interpretaciones de las puntuaciones que se hacen en cada uso específico de los tests, poniéndose así de manifiesto la relevancia de la validez en el desarrollo y en la evaluación de los tests. Este
cambio se debe a diversos psicómetras y al propio Cronbach (1975, 1989), quien
revisa sus planteamientos anteriores. Sin embargo, es a Embretson (1983) a quien
se debe sin duda la mayor y más relevante aportación a lo que actualmente significa la validación de constructo en la construcción de tests y en la investigación
psicológica, poniendo de manifiesto la relevancia del test como instrumento de
medición de las diferencias individuales. No bastará con establecer las redes de
relaciones entre conceptos, sino que será necesario, como requisito previo, que el
constructo esté adecuadamente representado. Es decir, en la validación del constructo se debe establecer tanto la representación del constructo como la perspectiva nomotética, basada en las características de la red de relaciones entre el test y
otras medidas del constructo (Alvarado y Santisteban, 2006).
Puede decirse que actualmente en psicología y educación hay consenso en cuanto a defender un concepto unificado de la validez. Se considera que el concepto
central es la validez de constructo con el que se conectan todas las demás evidencias de la validez: las de contenido, las empíricas y teóricas de lo apropiado de las
interpretaciones, las de las puntuaciones en relación con el dominio y la estructura
del constructo, las del contexto de evaluación, las del significado de las puntuaciones, así como las de las consecuencias que se deriven de la aplicación del test. En la
Figura 8.1 se presenta un diagrama que resume los cinco tipos de validez que se
explicitan en las Normas vigentes (AERA, APA y NCME, 1999). Así, el problema
Capítulo 8. Validez: Concepto y tipos
215
de la validez de los tests y su estudio se extiende desde la teoría que apoya el constructo objeto de medición, hasta las consecuencias derivadas de la aplicación del
test, incluidas las consecuencias adversas que se pueden derivar de la debilidad o de
la falta de validez de la prueba, ya sea porque la prueba está contaminada con ítems
irrelevantes, o porque no se han incluido en ella todos los aspectos relevantes del
constructo, o por otras causas. Aun cuando la enumeración de los diferentes aspectos de la validez parece ilimitada y no todos están presentes en el proceso de validación, se ha abierto paso un concepto unificado de la validez y que en ese proceso comparten responsabilidad tanto los que construyen las pruebas, que tienen que
dar indicios suficientes de la buena o fuerte validez de la prueba, como los usuarios,
que tienen que justificar la pertinencia de su uso en esa aplicación concreta.
Según estas normas, la actual perspectiva, no exenta de críticas, considera que
el proceso de evaluación consiste en obtener evidencias suficientes que apoyen
las interpretaciones que se hacen de las puntuaciones del test, prestando especial
atención al contenido de los tests, a su estructura interna, a los procesos psicológicos que intervienen en los procesos para dar respuesta a los tests, a las asociaciones entre las puntuaciones en el test con las de otras variables y, como se ha
mencionado, a las consecuencias del uso de los tests, que representan uno de los
aspectos más controvertidos.
Figura 8.1. Los cinco tipos de validez que se explicitan en las Normas de 1999.
216
Principios de Psicometría
El concepto unitario de validez que reflejan las Normas de 1999 integra la
evaluación de distintas facetas que se tratan con más detalle en los siguientes
apartados.
m8.3. Validez en relación con el contenidom
La validez de contenido hace referencia a la relevancia y al alcance del contenido. Imagínese que está poniendo mucho esfuerzo y tiempo en el estudio de la
disciplina de psicometría, debido a diversas razones, una porque los conceptos
que incluye le parecen de interés, otra porque los considera básicos para entender muchos otros en el ámbito psicológico y porque quisiera dedicarse en el futuro a abordar problemas de evaluación psicológica. En consecuencia, le está dedicando mucho tiempo y esfuerzo a su estudio y tiene mucho interés en obtener
una buena calificación en el examen final, al que va razonablemente confiado,
pues aunque hay temas y aspectos que conoce mejor que otros, considera que
tiene un buen nivel general de conocimientos. Realizado ese examen, no está
satisfecho y la calificación que obtiene es algo más que mediocre. ¿Por qué?, se
pregunta. Sus condiciones personales eran excelentes para rendir en ese examen.
¿Qué ha sucedido? Nada extraño, le comenta un compañero, quien justifica su
no extrañeza diciendo “acabo de suspender porque de los quince temas de los
que consta el temario, me han preguntado el único que no me sabía”. La razón
es que el examen carecía de la validez necesaria. El examen cuyo objetivo era
evaluar los conocimientos adquiridos en el curso introductorio de psicometría,
se ha centrado solamente en uno de los quince temas del programa y en un ejercicio práctico para evaluar el dominio en la ejecución de un programa computacional para la estimación de los parámetros de modelos psicométricos. Es decir,
parece ser que el problema fue que el examen carecía de la suficiente validez de
contenido. Parece razonable pensar, y era de esperar, que si lo que se iba a evaluar eran los conocimientos básicos de psicometría, las cuestiones deberían
haber estado dirigidas a detectar si el alumno había adquirido el nivel de conocimiento adecuado de esos conceptos básicos, si sabía interpretarlos correctamente y si conocía los procedimientos formales y las técnicas para aplicarlos. Lo
que se espera de este tipo de pruebas de evaluación es que no sean parciales (sesgadas) en cuanto a los contenidos, es decir, que no primen caprichosamente unos
en favor de otros y que además se centren en lo fundamental, en lo más relevante
Capítulo 8. Validez: Concepto y tipos
217
y no en lo colateral, irrelevante o anecdótico. Es decir, se debe revisar la validez
del contenido de la prueba.
Los procedimientos para la validación del contenido consisten fundamentalmente:
a) En el examen sistemático del contenido de la prueba para determinar si
cubre todos esos contenidos, es decir, que es una muestra representativa
del dominio de conducta que se pretende medir.
b) En el análisis de la relevancia de esos contenidos, pues deben incluir todo
lo que es esencial o relevante, sin perjuicio de que también se incluyan cuestiones colaterales o irrelevantes, pero sabiendo que lo son y tratándolas
como tales. Por lo tanto, en la validación del contenido se trata de analizar
tanto la representación como la relevancia del contenido (Anastasi y Urbina, 1997; Santisteban, 1990a).
Para establecer la validez de contenido se requiere un análisis sistemático del
dominio o área de conducta. Este análisis deben realizarlo expertos que constaten que los ítems del test cubren todos los aspectos importantes y que todos y
cada uno de esos aspectos están debidamente representados, incluyendo la proporción correcta de ítems. La validez del contenido no se aprecia mediante una
lectura más o menos detallada del test, que incluso puede hacerla cualquier participante en la prueba, concluyendo que es válido, pues esto sería sólo un juicio
sobre la validez aparente del test. Establecer la validez del contenido exige conocer
muy bien, en amplitud y en profundidad, el constructo del que se quiera realizar
la medición, así como las conexiones con sus manifestaciones observables. De
este modo, un experto, y sólo un experto, podrá concluir si la prueba tiene validez de contenido porque incluye todos los aspectos relevantes.
La validez de contenido se introduce desde el inicio del proceso de construcción de la prueba mediante la elección de los ítems adecuados. Tras un proceso
previo de revisión de la literatura pertinente, se establecen las especificaciones de
la prueba que han de seguir los especialistas a los que se encomienda la redacción
de los ítems, precisando las áreas o temas de contenido, los objetivos o procesos
que han de evaluarse y la importancia relativa de temas y procesos individuales.
Las especificaciones finales han de incluir el número de ítems de cada tipo que
hay que preparar para cada área de contenido.
218
Principios de Psicometría
Validez de contenido versus validez aparente
La validez aparente está muy relacionada con la validez de contenido, pero no
pueden ni deben confundirse. La validez aparente no es una validez desde un punto de vista técnico, pues es el grado en que la medición parece estar relacionada
con un determinado constructo, según el juicio emitido por una persona no experta, que en muchos casos suele ser la persona que aplica el test o quien lo cumplimenta. Esto es, la validez aparente no aporta pruebas de lo que se mide, sino de
lo que parece que se mide, por ello hay quien la ha llamado validez de sillón, pues
se establece cuando una persona examina el test y concluye que mide o no el rasgo de interés, sin más comprobaciones. Sin embargo, la validez de contenido es
el grado en que los contenidos de una medida reflejan fielmente los del dominio
del constructo que se está evaluando, y quienes deciden sobre ello no son inexpertos o aficionados, sino verdaderos expertos en el campo, tanto en la vertiente teórica como en la empírica. Ahora bien, aunque la validez aparente no suele
ser crucial cuando se considera la validez del test desde un punto de vista psicométrico, puede tener importantes implicaciones cuando se usa ese test. Por ejemplo, muchas veces el no tenerla puede provocar una escasa cooperación de las
personas que cumplimentan la prueba, por lo que es una estrategia que se debe
considerar en ciertos tests, como los que valoran rendimiento.
Por todo ello, las evidencias de la validez de contenido son las que hay que
considerar en la validación del constructo, sin olvidar que en determinadas situaciones la validez aparente puede ser necesaria y tener importantes implicaciones
cuando se usan los tests.
m8.4. Asociaciones con otras variables: Evidencias de validezm
convergente y discriminantem
La validez convergente y discriminante surge cuando se establecen las relaciones entre las puntuaciones del test con las de otras variables externas que las justifiquen, es decir, que evidencien su validez. Esas variables externas pueden
incluir medidas de algún criterio que se espera que prediga el test, o relaciones
con otros tests que se supone que miden el mismo constructo, o con los que
estén inversamente relacionados o, incluso, con algún otro con el que no está
relacionado.
Capítulo 8. Validez: Concepto y tipos
219
Las evidencias de validez convergente y discriminante reflejan el grado en que
las puntuaciones de un test muestran patrones de asociación con otras variables, que
se puedan considerar congruentes. Las evidencias de validez convergente se obtienen estableciendo relaciones entre medidas de constructos similares y las de validez
discriminante se obtienen cuando esas relaciones se establecen con medidas de constructos diferentes. La red nomológica que acompaña a un constructo sugiere que
una medida de ese constructo debe estar fuertemente asociada con algunas medidas
de otros constructos y muy débilmente relacionada con las de otros.
Se han propuesto diferentes métodos para evaluar la validez convergente y
discriminante. Las relaciones entre diferentes métodos de medida pueden ayudar
a elaborar y a comprender mejor el significado e interpretación de la puntuación.
En la literatura se proponen métodos correlacionales, entre ellos:
a) Los que están focalizados en las asociaciones entre las puntuaciones del
test y un número muy pequeño de variables específicas, que son críticas
para su evaluación. Es decir, el estudio de la validez se centra en una o en
muy pocas variables que se consideran el criterio más relevante. Por ejemplo, para publicitar las cualidades psicométricas del test SAT (Scholastic
Assesment Test) se hacen referencias a su validez relacionándola solamente
con las predicciones en el éxito académico. En el estudio mencionado sobre
el SAT, la validez está basada en las correlaciones entre las puntuaciones
en ese test y un conjunto específico de variables criterio relacionadas con
el rendimiento académico, y se argumenta que es un estudio realizado en
diversos centros, con la participación de ciento diez mil estudiantes (College Board, 2006). En realidad, para establecer este tipo de validación no es
necesario tener grandes tamaños de muestra, pues estos estudios de validez son adecuados siempre y cuando se puedan generalizar.
b) A veces el número de variables de la red nomológica no se puede restringir a un número muy pequeño de ellas. Por ejemplo, cuando la red nomológica incluya una amplia variedad de variables de otros constructos con
diferentes niveles de asociación con el que se estudia. En esos casos, se suelen establecer las correlaciones entre todas las variables, obteniéndose una
matriz de correlaciones entre los indicadores del constructo que se estudia
y las medidas con las que se considera que pueden estar relacionadas. Las
decisiones acerca de la validez se toman examinando la cuantía e interpretando las correlaciones desde el punto de vista conceptual que los autores
220
Principios de Psicometría
del test tienen acerca del constructo objeto de la medición. Aunque los psicómetras se enfrentan con un gran número de datos y no hay un criterio
claro de selección y discernimiento en cuanto a los límites de lo que se puede o no considerar para establecer la validez, esta aproximación a la evaluación de la validez es bastante común.
c) Otra aproximación es la que utiliza las matrices multimétodo-multirrasgo, en
las que se establecen las correlaciones entre dos o más rasgos medidos por
dos o más métodos. Las medidas e interpretaciones de esta aproximación
propuesta por Campbell y Fiske (1959) se exponen en el siguiente capítulo.
d) La cuantificación de la validez de constructo (QCV), que es un método
más reciente que los anteriores (Westen y Rosenthal, 2003), se basa en que
el psicómetra debe cuantificar el grado en que se ajustan sus predicciones
teóricas a un conjunto de correlaciones convergentes y discriminantes y
cómo se comportan al respecto los datos. El procedimiento QCV se puede resumir en tres pasos. En el primero, el psicómetra hace predicciones
claras y concretas sobre los patrones de correlaciones convergentes y discriminantes que espera encontrar para establecer la validez. Por ejemplo,
se puede establecer a priori que los factores que miden la sensibilidad individual al ruido en preadolescentes están correlacionados con los de la agresividad y con los de la impulsividad. En segundo lugar, se administran los
cuestionarios que miden la sensibilidad al ruido (e.g., SENSIT, Santisteban,
1990b), la agresividad (e.g., AQ, Buss y Perry, 1992; Santisteban et al., 2007)
y la impulsividad (e.g., BIS-11, Patton et al., 1995; versión española de Recio
et al., 2004). Se recogen los datos y se calculan las correspondientes correlaciones. Finalmente, los psicómetras deben evaluar el grado en que los
patrones de correlaciones obtenidos se ajustan a los predichos. Esta evaluación se realiza atendiendo al tamaño del efecto y a los resultados del test
de significación. La propia concepción del procedimiento requiere que se
sea muy cuidadoso en la elección de las variables con las que establecer las
asociaciones y en la interpretación de los resultados pues, por ejemplo, valores bajos del tamaño del efecto puede que no indiquen una escasa validez,
ya que se pueden obtener tamaños del efecto bajos si el conjunto de las
correlaciones predichas no es el apropiado. Cuestiones similares se pueden
plantear en relación con las altas correlaciones. Por lo tanto, el uso de este
método requiere el análisis minucioso, tanto de los aspectos conceptuales
como de los metodológicos y estadísticos.
Capítulo 8. Validez: Concepto y tipos
221
m8.5. Validez en los procesos de respuestam
Las evidencias de validez en los procesos de respuesta se refieren a la coincidencia o concordancia que debe existir entre los procesos psicológicos que ponen
en juego los sujetos que responden al test y los que teóricamente se supone que
deberían utilizar. Muchas medidas psicológicas están basadas en ciertos supuestos sobre cuáles son los procesos psicológicos que las personas utilizan cuando
cumplimentan el test. Sin embargo, si esos procesos no fueran los que usan los
participantes en la prueba cuando cumplimentan el test, entonces la medición
puede estar dando puntuaciones que no son interpretables en el sentido que se
pretendía por parte de quien o quienes están construyendo el test. Sirva como
ejemplo un estudio sobre si la presencia de ruido ambiental afecta al recuerdo
a corto plazo. Para ello los investigadores construyen una prueba consistente en
listas de palabras categorizadas, que tras su lectura los participantes deben recordar. Todos los sujetos realizan las pruebas en presencia (Leq = 80 dB) y en ausencia de ruido (Leq = 35dB), por lo que se les divide en grupos para contrabalancear el efecto del orden, tanto en la presentación de las listas, como en la de las
condiciones de ruido y de silencio en las que se administran las pruebas. A pesar
de que otros factores cognitivos como la inteligencia, la facilidad para establecer relaciones, etc. van a influir en los resultados individuales en la prueba, es
razonable asumirlos como una constante, esto es, suponer que esas variables
efectan de la misma manera a todos los grupos, pues la asignación de los participantes a los grupos se ha hecho de forma aleatoria. Los investigadores implícitamente están suponiendo que en presencia de ruido los sujetos deben asignar más recursos atencionales para mantener el mismo nivel de rendimiento en
el recuerdo de palabras. Los resultados indican que el número de palabras recordadas es significativamente mayor en silencio que en presencia de ruido. No obstante, analizando las respuestas se detecta que los tiempos empleados por algunos participantes son sistemáticamente menores en los ensayos que realizan en
presencia de ruido. La razón es que no han seguido las instrucciones en cuanto
a que cuando completen un ensayo pasen al siguiente presionando la tecla enter,
pues esos participantes, en lugar de intentar completar la prueba, acortan sus
tiempos de respuesta porque el ruido les resulta molesto, siendo ésta la principal razón por la que dan un menor número de palabras recordadas en presencia de ruido. Por lo tanto, las inferencias que pudiera hacer el psicólogo con esos
datos no son válidas en relación con sus propósitos, aunque podrían haberle
222
Principios de Psicometría
pasado inadvertidas porque de alguna manera las propicia el procedimiento experimental. ¿No estaría acaso midiendo, sin proponérselo, la sensibilidad individual al ruido? Por lo tanto, en los procedimientos para establecer la validez de
una prueba, y muy especialmente la de la validez de constructo, se deben incluir
la validez de los procedimientos y de los procesos que intervienen en la emisión
de la respuesta.
m8.6. Validez en relación con el criteriom
Este tipo de validez indica cuál es la eficacia del test en la predicción de algún tipo
de comportamiento futuro del sujeto en situaciones específicas. Por ejemplo,
podría utilizarse un test sobre razonamiento abstracto para predecir el éxito de
un alumno en la disciplina de matemáticas. Esta predicción será tanto más precisa cuanto mayor sea la validez del test de razonamiento como predictor del rendimiento en matemáticas. A veces se utilizan varios tests en lugar de uno solo para
predecir un criterio. Por lo tanto, la validez relativa al criterio se juzga como el grado de relación entre el test (o el conjunto de tests) que actúa como predictor y
otra variable de interés que actúa como criterio.
Las mediciones de la variable con la que se evalúa el criterio se pueden realizar al mismo tiempo que la del predictor o predictores, dándole entonces a la validez la denominación de validez concurrente. En el caso en que se haga en momentos diferentes, se denomina validez predictiva. Las diferencias entre ambas no se
basan lógicamente en el tiempo que transcurre entre una y otra medición, sino en
si el objetivo está centrado en el diagnóstico (concurrente) o en la predicción de resultados futuros (predictiva).
La validez en relación con el criterio, aunque se podría haber incluido en el
Apartado 8.4, tiene características especiales que la diferencian de otros tipos de
validez, y merece mención explícita en las clasificaciones clásicas de los tipos
de validez. Además, en torno a este tipo de validez se han desarrollado muchos
métodos para hacer más precisas las predicciones y más eficiente la toma de decisiones, como se va a comprobar en los siguientes capítulos.
Los problemas que se han identificado que afectan a la validez en relación con
el criterio son muchos de ellos comunes a otros tipos de validez. En la literatura
(e.g., Croker y Algina, 1986) se mencionan, por ejemplo, la no correcta identificación del criterio, la insuficiencia del tamaño muestral, la falta de fiabilidad del
Capítulo 8. Validez: Concepto y tipos
223
predictor, del criterio o de ambos, la contaminación o el sesgo en los juicios que
definen el criterio, así como las limitaciones que tiene en la toma de decisiones el
haber obtenido el coeficiente de validez utilizando un rango limitado de puntuaciones, pues ese coeficiente estará atenuado debido a los errores de medida. Una
exposición más detallada de estos problemas se puede consultar en la obra de
Alvarado y Santisteban (2006).
m8.7. Validez de la estructura interna del testm
La estructura interna de un test viene dada por las relaciones que se establecen
entre diferentes partes de ese test, ya sea entre todos los ítems en su conjunto, ya
sea entre aquellos que se incluyen en cada uno de los posibles grupos de ítems
que forman el test. En cualquier caso, para que un test se interprete como medida válida de un determinado constructo, es necesario verificar que la estructura
que se ha adoptado para el test coincide con la estructura en la que teóricamente está basado el constructo.
Este concepto se puede comprender fácilmente si se acude a un ejemplo concreto. Consideremos el test de agresividad AQ (Aggression Questionnaire de Buss
y Perry, 1992) o bien la adaptación que se ha hecho de ese test a preadolescentes
y adolescentes AQ-PA (Santisteban et al., 2007; Santisteban y Alvarado, 2009).
Esos tests tienen una estructura tetrafactorial, pues los 29 ítems de los que constan se agrupan en cuatro factores o componentes de agresividad: física, verbal,
ira y hostilidad. Estos tests, que proporcionan una medida global de la agresividad, también proporcionan información sobre la contribución de cada una de
esas cuatro componentes a esa medida global. La validación de constructo para
ese test requiere que se verifique que ese test mide agresividad, que se puede considerar que está formado por cuatro factores, y que esos factores tienen sentido
y significado dentro del constructo, en concordancia con la estructura teórica de
ese constructo.
El establecimiento de la estructura de un test se basa en su primer estadio en
los supuestos en los que descansa la teoría y también usualmente en estudios previos. Por ejemplo, los estudios que definen la agresión se han focalizado en las
intenciones, las expresiones y la influencia de factores afectivos, llevando a subdividirla en varias clases tales como física, verbal, directa, indirecta, impulsiva o
conscientemente controlada. El AQ, que ha mostrado tener una buena validez
224
Principios de Psicometría
de constructo, proviene de un inventario que desarrollaron Buss y Durkee (1957),
y de su interesante evolución presentamos un breve resumen en el Cuadro 9.5.
del próximo capítulo.
m8.8. Validez de constructom
La validez de constructo está fuertemente ligada a un contexto teórico en el que
se considera que la fundamentación conceptual de un constructo debe incluir las
conexiones entre ese constructo y otros constructos psicológicos. A esas interconexiones entre un constructo y otros relacionados es a lo que se le ha llamado
red nomológica (Cronbach & Meehl, 1955). En la práctica, es poco realista tratar
de especificar la red nomológica completa, como lo reconoció el propio Cronbach (1975, 1989), así como otros autores (e.g., Campbell, 1960; Payne et al., 2007),
además de que hay que considerar que las generalizaciones sobre las que se construyen las redes nomológicas sufren cambios a lo largo del tiempo. La validez de
constructo no siempre es bien entendida, o el conocimiento acerca de ella no
suele ser muy profundo. Generalmente se tiende a presentar esta validez como
una técnica, en tanto que lo que indica su concepto es que debe ser una aportación al desarrollo de la teoría y al progreso del conocimiento de aquello que se
está estudiando. Esto es, la validez de constructo concierne más a lo que es capaz
de especificar acerca de la naturaleza del constructo psicológico que subyace a
las mediciones, que a demostrar que un test mide aquello que se supone que mide.
La esencia de esa concepción de la validez de constructo la exponen Cronbach
y Meehl (1955) de una forma muy sencilla y gráfica, usando solamente simples
correlaciones entre dos variables, mediante un ejemplo muy apropiado para los
estudiantes.
Con el trabajo de Embretson (1983) se pone de manifiesto el qué y cómo se
debe abordar la validación del constructo, al considerar que en todo el proceso
es la representación del constructo (que la relaciona con la identificación de los mecanismos teóricos que subyacen a la realización de la tarea) la que debe interactuar
con la perspectiva nomotética. En el enfoque propuesto por Embretson las especificaciones del test se construyen desde la teoría y, posteriormente, las implicaciones de estas especificaciones se estudian empíricamente. De este modo, la
representación del constructo es una fase de estudio en el proceso de su validación. Las especificaciones sobre cada uno de los ítems se consideran como teoría
Capítulo 8. Validez: Concepto y tipos
225
de una tarea, y la teoría se pone a prueba mediante modelos matemáticos que
intentan explicar los constructos. Así, después, en el proceso de construcción del
test, cuando se realiza la estimación de las propiedades cuantitativas de los ítems
con respecto a los constructos teóricos, se pueden descartar aquellos ítems que
no reflejen las propiedades teóricas que se desea que estén presentes en el test
que se está construyendo (Alvarado y Santisteban, 2006).
Los aspectos de la validez de constructo que se consideran relevantes para la
medición en Psicología y en Educación (Messick, 1995) son los relativos a:
(1) Contenido: relevancia del contenido, representatividad del dominio de los
contenidos y calidad técnica del instrumento de medición.
(2) Sustantivo: justificación teórica y evidencia empírica de que los procesos
que los sujetos ponen en juego al cumplimentar las pruebas están bien
relacionados con las tareas que se proponen en esas pruebas.
(3) Estructural: evaluación de la estructura de las puntuaciones en relación
con la estructura del constructo.
(4) Generalización: examen de en qué grado las propiedades e interpretaciones que se hacen a partir de las pruebas se pueden generalizar a otros grupos, a otras situaciones o a otras tareas.
(5) Establecimiento de relaciones convergentes y discriminantes.
(6) Consecuencias: valoración de las implicaciones e interpretaciones de las
puntuaciones, así como las posibles fuentes de no-validez relacionadas
con la equidad, el sesgo, etc.
Desde esta perspectiva que engloba todos los aspectos de la validez, la correcta validación es una responsabilidad compartida entre quien construye el test y
quien lo utiliza. Quienes desarrollan el test deben especificar el marco conceptual en el que sitúan el constructo, su especificidad, los propósitos de la evaluación y cómo sus medidas se relacionan con las de otras variables. También
deben justificar la pertinencia de sus decisiones en cada uno de los pasos en el
proceso de validación, así como la generalización y las limitaciones de su uso y
aplicaciones. Quienes utilizan el test son, en último término, los responsables
de su correcta aplicación, de la corrección de las interpretaciones y de si está o
no justificado su uso con el propósito y en la situación particular para la que se
utiliza.
226
Principios de Psicometría
Volviendo nuevamente a Cronbach y Meehl (1955) se podría convenir con
ellos en que el estudio de la validez de constructo de un test no es esencialmente diferente a los procedimientos científicos generales para el desarrollo y confirmación de las teorías. Por lo tanto, estas definiciones y descripciones no son
de gran ayuda, particularmente para establecer la validez de constructo en un
determinado estudio, pues es una mera exposición que la explicita, pero la tarea
de establecer esa validez es bastante más difícil. La validacion del constructo es
tan complicada porque básicamente implica muchos aspectos diferentes.
Una perspectiva para la validación del test en la que se enfatiza la conexión
entre los tests y los constructos psicológicos es la que presentan Borsboom
et al., (2004). Estos autores sugieren que el único aspecto relevante en la validación del test es si las respuestas del test están afectadas por el constructo que
el test está intentando medir. Esto es, un test es una medida válida de un constructo si, y sólo si, ese constructo tiene influencia y es el verdadero responsable de las respuestas que dan los que responden al test. Desde este punto de
vista es desde el que estos autores rechazan el argumento de que las consecuencias de la realización del test son relevantes en la validación del test. Ellos
incluso discuten que las correlaciones entre las puntuaciones del test y las medidas de otros atributos sean directamente relevantes para la validación del test.
En lugar de ello sugieren que el objetivo primordial en el estudio de la validez
es poder ofrecer una explicación teórica del proceso que conduce a la medida
resultante.
La validez es crucial tanto en los ámbitos de la investigación como en la práctica psicológica. Concretamente en el ámbito de los tests, si no tuviesen validez,
serían inútiles en la contrastación de hipótesis en relación con las teorías, en la
medición de atributos psicológicos y en las predicciones y toma de decisiones. En
la práctica, muchas decisiones se toman basándose total o parcialmente en la información que proporcionan los tests. Se toman decisiones en la selección y contratación de personal, en la admisión en la universidad, en el diagnóstico clínico,
etc., y esas decisiones afectan a los individuos y a las organizaciones. Por ello, la
validez de los tests tiene importantes implicaciones. No se trata pues de perderse en discusiones más o menos vacías sobre una u otra denominación, sino de
proveerse de los procedimientos que aseguren que los tests poseen la validez suficiente para conducir a conclusiones acertadas.
Capítulo 8. Validez: Concepto y tipos
227
Puntos clave
3
3
3
3
3
3
3
3
La validez es el grado en que la teoría y las evidencias empíricas apoyan las
interpretaciones que se hacen de las puntuaciones del test, ya se hagan en relación con un marco conceptual o en relación con el uso específico que en cada
caso se haga del test.
El proceso de validación consiste en obtener esas evidencias empíricas que apoyen las interpretaciones.
Ni un conjunto de ítems, ni las medidas derivadas de ellos son por sí mismos
válidos o no válidos, pero sí lo son las interpretaciones que sus autores pueden
hacer de ellos. Por lo tanto, la validez no es del test, sino de su uso e interpretaciones.
La validez no es una cuestión de todo o nada, sino que tiene grados que se pueden evaluar.
Hay que elegir tests que muestren las suficientes evidencias de que su uso e
interpretación son los correctos, en el sentido de que responden a los objetivos
para los que se generó el test.
Se ha considerado la validez de constructo como el concepto esencial en la validez. Esta perspectiva engloba a las tradicionales (de contenido, relativa al criterio y de constructo), de manera que todos los otros tipos de validez se deben
considerar y analizar bajo el foco de este concepto central.
La validez de constructo depende del contenido del test, de su estructura interna, de los procesos psicológicos que intervienen al responder a los ítems del
test, de las asociaciones entre las puntuaciones del test con otras variables y
de las consecuencias que se derivan del uso del test.
El concepto de validez y sus clasificaciones han ido evolucionando a lo largo de
los años y se reflejan en las sucesivas publicaciones en los Standards for Educational and Psychological Testing. Es la visión de la validez desde la perspectiva de las tres organizaciones más importantes en la construcción y aplicación
de tests. En las normas publicadas en 1999, las exigencias de la validez se extienden a las interpretaciones que se hagan, así como a las consecuencias que se
deriven de las aplicaciones de ese test.
Actividades
r Comente la siguiente frase: La validez del test se refiere a qué es lo que el
test mide y cómo lo mide.
r Ponga ejemplos de uno o varios constructos y haga una relación de las
características más relevantes de cada uno de ellos. En paralelo, en otra
228
Principios de Psicometría
columna, especifique las características de aquellos otros con los que teóricamente se supone que deberían estar sus mediciones fuertemente asociadas y en una tercera columna, las de aquellos con los que deberían estar
no relacionadas o muy débilmente relacionadas.
r Enuncie hipótesis sobre las correlaciones (positivas o negativas) y la cuantía en la que se darían las relaciones entre las variables especificadas en la
actividad anterior.
r Si dispone de tests o cuestionarios estandarizados de algunos de los constructos elegidos en la actividad anterior, haga un estudio piloto aplicando
esos tests o cuestionarios a las personas de su círculo más próximo.
La validez
Evaluación de las evidencias de validez
9
En el capítulo anterior se han presentado los conceptos de validez desde
distintas perspectivas. En este capítulo se va a tratar cómo se pueden evaluar esas evidencias de validez, teniendo en cuenta que la validez no es una
cuestión de todo o nada, de ser válido o no válido, sino que hay grados en
cuanto a la fuerza o debilidad de las evidencias de validez encontradas. La
validez es un factor decisivo para los usuarios de los tests, pero no hay un
valor preestablecido a partir del cual se dice que el test es o no es válido,
aunque todo test, cuestionario o inventario, debe haber mostrado necesariamente que tiene validez suficiente para apoyar que, tanto su interpretación como su uso, son los adecuados.
En este capítulo se va a tratar:
ã Qué es el coeficiente de validez y cómo se estima.
ã Los procedimientos para obtener evidencias sobre la validez de contenido.
ã Cómo los coeficientes de validez están influenciados por la fiabilidad de las muestras y por la longitud de las pruebas.
ã En qué consiste la atenuación.
ã La validez de las predicciones en un criterio basándose en la información que da un test predictor o un conjunto de predictores.
ã Diferentes métodos para obtener evidencias de validez convergente y discriminante.
ã Que a los coeficientes que son indicadores de la validez del test
hay que someterlos a pruebas estadísticas, para conocer su significación y garantizar la validez de las inferencias que se hagan con
esa prueba.
230
Principios de Psicometría
ã Cómo se realiza el análisis de las evidencias de validez de la estructura interna de una prueba.
ã La evolución de un test hasta alcanzar la validez requerida.
m9.1. Validación del contenidom
El procedimiento habitual para la validación del contenido es confiar en el juicio
de los expertos que realizan un análisis racional sistemático del contenido del test
para decidir si es una muestra representativa del rasgo o conducta que se quiere
medir. Generalmente es una evaluación cualitativa, sin que apenas se hayan propuesto indicadores o índices cuantitativos que den cuenta del grado de conexión
entre los contenidos del test y los objetivos para los que se construye. Una de las
propuestas cuantitativas es la de Gulliksen (1950b), que utiliza el análisis factorial
para comparar los resultados del test con el juicio de los expertos. También Tucker (1961) hace uso del análisis factorial para comprobar el efecto del evaluador,
es decir, si los juicios de los expertos diferían sistemáticamente. Sin embargo, las
condiciones exigidas a los datos para aplicar estas técnicas hacen pensar que no
son las más apropiadas para estos propósitos. Una técnica que no requiere un
gran número de datos y de evaluadores, como los que se exigen con el análisis
factorial, es la que propuso Cronbach, que consiste en que, siguiendo las mismas
pautas, dos equipos independientes de expertos construyan un test, teniendo así
dos tests supuestamente equivalentes. Se administran ambos tests a un mismo
grupo de n sujetos, obtiéndose dos conjuntos de puntuaciones X1 y X2 y se construye un índice C (veáse Conbrach, 1971), que cuando su valor se aproxima a la
unidad, se asume que las varianzas error de ambos tests son similares.
En general, los autores de tests dirigidos a la evaluación del rendimiento académico, así como los que los construyen en relación con un criterio específico,
conceden gran importancia a la validez de contenido, dando un conjunto de normas prácticas para conseguirla. Para mejorar este tipo de validez, algunos autores como Popham (1978, 1984) han propuesto procedimientos específicos asociados al proceso de construcción y al análisis de los elementos. También Deville
y Prometric (1996) abogaron por el desarrollo de una técnica de validación empírica, que combinara las evidencias del contenido con las del constructo que se
pretende medir, utilizando para ello la información proveniente de las especificaciones para construir el test y los ítems, de los juicios de los expertos y de las
Capítulo 9. Validez: Evaluación
231
respuestas que se dan a esos ítems. Por su parte, Sireci y Geisinger (1992, 1995)
recomiendan el escalamiento multidimensional y análisis de conglomerados y de
clústers como estrategias de análisis para evidenciar la representatividad del contenido. Para evaluar la representatividad del dominio, se han hecho también propuestas desde la teoría de la generalizabilidad ( Jarjoura y Brennan, 1982; Shavelson et al., 1995) e incluso utilizando modelos de ecuaciones estructurales (Ding
y Hershberger, 2002). En cualquier caso, aunque la validez de contenido se determina a través de juicios subjetivos y no existen procedimientos ni índices adecuados para estimarla, el uso de algunos de los análisis formales, como los arriba indicados, ayuda a tomar decisiones. Muchos de esos procedimientos proveen
de buenos indicadores de cómo el contenido de los ítems se relaciona con el
objetivo, si su número y peso relativo son los adecuados en la composición de
ese test o incluso si hay aspectos que no se contemplan en ninguno de los ítems.
En cuanto a la aplicabilidad, la validación de contenido es una técnica apropiada para la evaluación del rendimiento académico y ocupacional, puesto que permite responder a cuestiones básicas como si la prueba es una muestra representativa de los contenidos o de los rendimientos que se van a medir, o si cubre todos
los contenidos relevantes y si está razonablemente libre de la influencia de los irrelevantes. Sin embargo, como indican Anastasi y Urbina (1997), la mera validación
de contenido puede ser inapropiada e incluso engañosa en los tests diseñados para
la medición de aptitudes y de la personalidad, pues aunque en la construcción de
todas las pruebas deben considerarse la representatividad y la relevancia del contenido, la validación de estas pruebas debe hacerse mediante métodos formales
para la validación de constructo. En cualquier caso, la validez de contenido en ningún caso se debe confundir con la validez aparente (Apartado 8.3), pues para la
validación del contenido existe una sistemática y algunos índices, además de que
son los expertos quienes deben realizarla.
m9.2. El coeficiente de validezm
El coeficiente de validez se define como el coeficiente de correlación entre dos
variables, una variable X que actúa como predictora y otra que evalúa lo que se
predice, a la que se denomina variable criterio Y:
ρ XY =
Cov ( X , Y )
σX σY
(9.1)
232
Principios de Psicometría
Si la relación es lineal, al ser ρXY = ρYX, la relación de validez es simétrica,
pues se obtendría el mismo valor del coeficiente si fuese Y la variable predictora
y X la variable criterio. No obstante, los procedimientos de construcción y de evaluación de pruebas son muy diferentes si van a actuar como predictoras o van a
evaluar las predicciones del sujeto en un rendimiento o en un comportamiento
particular en el que se esté interesado.
Las distinciones que se han hecho en el capítulo anterior entre validez concurrente y predictiva no afectan al cálculo formal del coeficiente. Sin embargo,
se debe tener en cuenta que en el primer caso las medidas de X e Y se toman de
forma simultánea, considerándose que no se producen cambios ni en los sujetos ni en las condiciones que pudieran afectar a X y no a Y, o viceversa. Sin
embargo, esto no se puede suponer que ocurre al evaluar la validez predictiva,
pues transcurre un período de tiempo entre la medición del predictor y del criterio, y en ese período se ha podido ganar experiencia, conocimientos o tener
lugar algún tipo de intervención que cambiara las condiciones, etc. Un coeficiente de validez concurrente se obtendría si a los instructores de vuelo de una
empresa, que llevan ejerciendo adecuadamente su trabajo durante años, se les
evaluara su rendimiento a la vez que cumplimentaran un test X. La validez predictiva se obtiene si se seleccionan los instructores con el test X y después de
varios años se les evalúa su rendimiento.
Validez y fiabilidad
La definición dada del coeficiente de validez como correlación entre la variable
predictora y el criterio se puede situar en el contexto de la teoría clásica (TCT),
incluso se podría decir que la fiabilidad, como correlación entre dos medidas paralelas X y X', es una forma de validez.
Una cuestión relevante es el tratamiento del error. Las mediciones, tanto del
predictor como del criterio, no están exentas de error. Ahora bien, bajo los supuestos de los modelos de la TCT, las correlaciones entre las puntuaciones verdaderas del predictor VX y del criterio VY serán mayores que las de sus correspondientes observadas:
ρ (VX , VY ) ≥ ρ (X , VY ) ≥ ρ (X , Y )
(9.2)
233
Capítulo 9. Validez: Evaluación
luego, el valor del coeficiente de validez empírico es menor que el que se obtendría si se dispusiera de las puntuaciones verdaderas. Es decir, el valor empírico del
coeficiente de validez está atenuado debido a los errores de medida. Para corregirlo, se ha propuesto una ecuación que tiene en cuenta la precisión de las medidas,
tanto del predictor como del criterio, es decir, sus fiabilidades. Esta ecuación es:
ρ VX VY =
ρ XY
ρ XX ′ ρ YY′
(9.3)
que es la ecuación de corrección por atenuación. Esta ecuación fue primeramente desarrollada por Spearman bajo los supuestos del modelo clásico, donde con ρXY
se denota la validez empírica y ρXX' y ρYY' son los coeficientes de fiabilidad del
test y del criterio respectivamente (Cuadro 9.1). El lector debe estar atento para
no confundir los coeficientes de validez y de fiabilidad utilizados en esta ecuación, pues se usa la misma letra griega ρ para todos ellos. Todos son coeficientes
de correlación (y formalmente iguales a la razón entre una covarianza entre dos
variables dividida por el producto de sus desviaciones típicas), pero en cada caso
las correlaciones difieren tanto en las variables como en su significado. Las variabes X, X' o Y, Y' se utilizan en los coeficientes de fiabilidad del test y del criterio,
mientras que las variables X e Y se usan en los coeficientes de validez, refiriéndose a la variable predictora y al criterio, siendo las variables VX y VY sus correspondientes puntuaciones verdaderas.
Cuadro 9.1
La ecuación de atenuación se puede obtener de forma inmediata si, bajo los
supuestos del modelo de Spearman, la covarianza entre puntuaciones verdaderas se considerara equivalente a la de sus correspondientes observadas. Entonces:
ρ VX VY =
ρ XY
Cov ( VX , VY ) Cov ( X, Y ) ρ XY σ X σ Y
=
=
=
σ VX σ VY
σ VX σ VY
σ VX σ VY
σ VX / σ X σ VY / σ Y
(
)(
)
y de acuerdo con la ecuación (2.12), los factores del denominador son los
índices de fiabilidad de X e Y respectivamente, obteniéndose la ecuación
(9.3) dada para el coeficiente de validez desatenuado.
234
Principios de Psicometría
La interpretación del cociente (9.3) es inmediata, pues en el caso en que tanto la
fiabilidad del test como la del criterio sean perfectas, valdrían uno. Al no haber errores de medida, la validez empírica tendría un valor idéntico a la que se hubiese obtenido con las puntuaciones verdaderas. En el caso en que la fiabilidad del predictor o
del criterio fuese perfecta, entonces la ecuación (9.3) respondería a una de las formas:
ρ XVY =
ρ XY
ρ
; ρVX Y = XY
ρ YY′
ρXX ′
(9.4)
A las ecuaciones (9.3) y (9.4) se las denomina fórmulas de atenuación o corrección por atenuación pues, como se ha dicho, la idea que subyace es que el valor de la
correlación lineal entre las puntuaciones observadas es menor que el que se obtendría por correlación entre sus correspondientes puntuaciones verdaderas, porque esa
correlación obtenida empíricamente está atenuada por las imprecisiones que afectan
a las medidas empíricas. Por ello, si las fiabilidades (precisión de las medidas) se conocen, se pueden utilizar para calcular las correlaciones desatenuadas entre esas medidas.
De lo anterior se deduce que la validez de los tests se puede mejorar aumentando la fiabilidad del test predictor, o la del criterio, o la de ambos. Si de los tests
iniciales X1 e Y1 se derivan otros al mejorar sus fiabilidades, sean los tests X2 e Y2,
entonces se tendrá que cumplir que:
(
) (
ρ VX1 , VY1 = ρ VX 2 , VY2
)
Si se modifican los tests, hay diversos valores de correlación implicados en
una misma ecuación, generalmente calculados con valores muestrales. Para evitar confusiones, en lugar de la letra griega ρ se van a usar las letras r y R para denotar las fiabilidades iniciales (r) y mejoradas (R) para ambos tests:
rX1X1′ , rY1Y1′ y R X 2 X ′2 , R Y2 Y2′
Por la misma razón, también se van a utilizar las letras r y R para los coeficientes de validez inicial y final, respectivamente. Usando las ecuaciones de atenuación se tiene que:
rX1Y1
R X 2 Y2
=
rX1X1′
R X 2 X ′2
rY1Y1′
R Y2 Y2′
(9.5)
235
Capítulo 9. Validez: Evaluación
y de la igualdad anterior se deduce la siguiente:
R X 2 Y2 =
rX1Y1
(9.6)
rX1X1′ rY1Y1′
R X 2 X ′2 R Y2 Y2′
que es el coeficiente de validez, una vez mejoradas las fiabilidades en el test y en
el criterio.
Como casos particulares de la ecuación (9.6), se pueden obtener las que den
el valor de la validez cuando la fiabilidad se haya mejorado sólo en uno de los tests,
o la del predictor, o la del criterio. En esos casos, las correspondientes ecuaciones se obtendrían considerando respectivamente las correlaciones de X2 con Y1,
o bien la de X1 con Y2. Esto es:
R X 2 Y1 =
rX1Y1
rX1X1′
; R X1Y2 =
R X 2 X ′2
rX1Y1
rY1Y1′
(9.7)
R Y2 Y2′
Casos especiales son aquellos en que se consigan fiabilidades perfectas en el
predictor RXX' = 1 o en el criterio RYY' = 1, lo que conduce a las ecuaciones de
atenuación (9.4) dadas anteriormente.
Ejemplo 9.1
Para predecir un criterio existe la posibilidad de elegir entre tres tests
predictores A1, A2 y A3, de los que se ha calculado su fiabilidad y su validez
empírica en relación con ese criterio, cuyos valores se dan en las dos primeras filas de la Tabla 9.1. La fiabilidad del test criterio es ρYY' = 0.98. A la
vista de esos datos, ¿cuál es el test que preferentemente se debe elegir como
test predictor?
En principio, parece razonable elegir el test que presente mayor validez
empírica. No obstante, puesto que la validez está afectada por los errores de
medida, tanto en el predictor como en el criterio, se deberá tener en cuenta la
fiabilidad de esas medidas antes de tomar la decisión. Por lo tanto, se procede a calcular la validez desatenuada, utilizando la ecuación (9.3), teniéndose
entonces los datos que figuran en la última fila de la Tabla 9.1.
236
Principios de Psicometría
Tabla 9.1. Fiabilidad, validez empírica y validez desatenuada.
Tests predictores
Coeficiente de fiabilidad
Validez empírica
Validez desatenuada
A1
A2
A3
0.40
0.50
0.80
0.50
0.55
0.79
0.20
0.40
0.90
Los resultados de la Tabla 9.1 indican que el test que potencialmente tiene
mayor validez es el A3, y el que menos el A2, aunque aparece como el de mayor
validez empírica. La decisión entonces estará condicionada a cuáles son las
características de ese test, si se puede o no mejorar su fiabilidad.
La corrección por atenuación es particularmente interesante cuando para
predecir un criterio se dispone de diferentes tests que inicialmente son muy
cortos, cada uno con distinta fiabilidad y validez, pero ninguno de ellos tiene
la suficiente validez para poderlo considerar como definitivo. En ese caso,
se debe mejorar alguno de ellos y parece razonable que para hacerlo se
elija aquel que presente la mayor validez potencial. Una forma que posiblemente sea factible para realizar esa mejora sea aumentando su longitud, con las
debidas garantías, al menos en cuanto a preservar su validez de contenido,
estructura, etc.
Validez y longitud
Una de las formas de modificar la fiabilidad de un test es cambiando su longitud.
Como se ha demostrado en el Capítulo 4, el aumento de la longitud de un test,
bajo determinadas condiciones, produce un aumento de la fiabilidad. Análogamente, la reducción en el número de elementos implica teóricamente una disminución de la fiabilidad. La atenuación y las modificaciones en la validez debidas
a cambios en la fiabilidad de los tests se pueden contemplar desde esta perspectiva haciendo uso de la ecuación (4.4) de Spearman-Brown.
Capítulo 9. Validez: Evaluación
237
Si es rXX' la fiabilidad inicial y RXX' la fiabilidad de ese test al multiplicar por
k su longitud, la validez de ese test inicial rXY se verá modificada al cambiar la
fiabilidad, pasando a tomar un valor RXY. Este valor se calcula mediante la ecuación:
R XY =
rXY
1 − rXX ′
+ rXX ′
k
(9.8)
que es la ecuación que da la validez que podría tener un test al multiplicar por k
veces su longitud, siendo sólo conocidas su fiabilidad y validez iniciales.
El valor máximo que teóricamente puede tomar la validez mediante este procedimiento es cuando aumentara indefinidamente la longitud (k → ∞), en cuyo
caso el valor de RXY viene dado por la igualdad:
R XY =
rXY
rXX ′
Cuadro 9.2
La ecuación (9.8) se deduce de la (9.5), relacionando los coeficientes inicial
y final, teniendo en cuenta que el test Y permanece inalterado:
rXY
rXX′ rYY′
rXX′
=
=
R XY
R XX′ rYY′
R XX′
Elevando al cuadrado y sustituyendo RXX' por su expresión dada en (4.4)
se tiene que:
2
rXY
R 2XY
=
(
)
1+ k − 1 rXX′
rXX′
=
k
k rXX′
1+ k − 1 rXX′
(
)
2
de donde despejando RXY
y extrayendo la raíz cuadrada, se obtiene la expresión (9.8).
238
Principios de Psicometría
En conexión con las relaciones anteriores, también se puede dar respuesta a
cuantos elementos habría que añadir a un test para que se modifique su fiabilidad y obtener así un valor prefijado para la validez. Se trata pues de conocer cuál
sería el valor de k que se debería utilizar para teóricamente obtener un valor de
la validez RXY. Ahora ese valor de la validez es conocido, porque es un valor prefijado, y lo desconocido es k, que se puede despejar de la ecuación (9.8), teniéndose que:
1 − rXX ′
k=
2
rXY
R 2XY
− rXX ′
(9.9)
Ejemplo 9.2
Se desea conocer cuántos elementos habría que añadir a un test de longitud n = 10 con fiabilidad 0.82 y validez 0.66, para conseguir una validez de 0.71
y cuál sería el máximo valor esperable para esa validez, aumentando suficientemente la longitud.
Haciendo uso de (9.9), el valor de k para alcanzar ese valor es:
k=
1− 0.82
 0.66 

 − 0.82
 0.71
2
=
0.18
=4
0.044
que indica que habría que multiplicar por 4 la longitud inicial, por lo que habría
que añadir 30 elementos. En la práctica esto sería inapropiado, y habría que descartar ese procedimiento para aumentar la validez. El mayor valor se obtendría
con k = ∞, en cuyo caso el valor de la validez sería R = 0.73.
Ejemplo 9.3
La validez inicial de los tests A, B y C es 0.70, y las fiabilidades iniciales son
0.40, 0.50 y 0.56, respectivamente. Se quiere explorar cuáles serían las varia-
239
Capítulo 9. Validez: Evaluación
ciones teóricas de la validez de esos tests cuando se aumenta la longitud dos,
cuatro o seis veces, o se disminuye pasando a la mitad de elementos, o a la
sexta parte, o al 25% de los iniciales.
Los valores calculados utilizando la ecuación (9.8) se presentan en la
Tabla 9.2.
Tabla 9.2. Valores predichos para la validez en tests con diferentes coeficientes
de fiabilidad y diferentes longitudes.
Validez al multiplicar por k la longitud
Test
A
B
C
Fiabilidad inicial
0.40
0.50
0.56
k =2
k =4
k =6
0.84
0.81
0.79
0.94
0.89
0.86
0.99
0.92
0.88
k = 1/2 k = 1/4 k = 1/6
0.55
0.57
0.58
0.42
0.44
0.46
0.35
0.37
0.39
Acotación del valor del coeficiente de validez
En los apartados anteriores se ha establecido cómo están relacionados los valores del coeficiente de validez y la fiabilidad. Es fácil deducir que el coeficiente de
validez está acotado por el índice de fiabilidad, ya que se da la desigualdad:
ρ XY ≤ ρ XV
y dadas las relaciones (3.2) y (9.2), se tiene que ρ XY < ρ XV = ρ XX ′ .
Al estar acotado el coeficiente de validez por el índice de fiabilidad, se concluye que la falta de fiabilidad de un test afecta a su validez en relación con un criterio. Además, debido a la simetría del coeficiente de correlación lineal ρXY = ρYX,
se puede afirmar que no solamente la fiabilidad del predictor, sino también la del
criterio, afectan al valor del coeficiente de validez, que se ve atenuado, o reducido, debido a los errores de medida, como se ha hecho explícito en el apartado
anterior.
Así, para valores cualesquiera entre cero y uno, si el coeficiente de fiabilidad
es, por ejemplo, ρXX' = 0.49, entonces el índice de fiabilidad es ρXV = 0.70 y el coeficiente de validez está acotado por este valor.
240
Principios de Psicometría
Ejemplo 9.4
La fiabilidad de un un test calculada con una muestra de 300 personas es
ρXX' = 0.81. ¿Se puede considerar que el coeficiente de validez podría superar
este valor?
La respuesta es afirmativa, ya que el coeficiente de validez está acotado
por el valor del índice de fiabilidad, luego la cota para el coeficiente viene dada
por la desigualdad:
ρ XY ≤
ρ XX′ = 0.90
El valor del coeficiente de validez puede siempre superar, no al índice, pero
sí al valor del coeficiente de fiabilidad (excepto cuando es 1, pues serían iguales),
ya que los valores de las raíces cuadradas de números menores que la unidad (entre
cero y uno) son mayores que los de sus radicandos.
Coeficientes derivados del coeficiente de validez
El coeficiente de validez en relación con un criterio, como valor del coeficiente
de correlación lineal entre las variables predictora y pronóstico, se presenta en la
literatura bajo diferentes modalidades y denominaciones. Algunas de ellas son las
siguientes.
Coeficiente de determinación:
Se conoce como tal al cuadrado del coeficiente de validez y expresa la proporción de la varianza del criterio que se puede predecir a partir del test. El coeficiente de determinación siempre es un valor menor que el coeficiente de fiabilidad:
ρ2XY ≤ ρ XX ′
y es un indicador de la varianza pronosticable por el test.
241
Capítulo 9. Validez: Evaluación
Coeficiente de alienación:
Se define este coeficiente K como la raíz cuadrada de la diferencia a uno del
coeficiente de determinación.
K = 1 − ρ2XY
(9.10)
El cuadrado de este coeficiente es igual a la relación entre las varianzas del
error de estimación (σ ε2 ) y la empírica (σ Y2 ) del test criterio, como se deduce en el
Cuadro 9.3 y se expresa en la siguiente ecuación:
σ ε2
K =
2
σ 2Y
= 1 − ρ2XY
(9.11)
de manera que si la validez fuese cero, toda la varianza observada en el criterio
sería varianza error. Por el contrario, un coeficiente de validez igual a la unidad
indicaría la máxima precisión en las estimaciones. Esto es:
ρ2XY = 0 → σ ε2 = σ 2Y
ρ2XY = 1 → σ ε2 = 0
En general, a medida que aumenta el coeficiente de validez, el cociente entre
la varianza del error y la observada en el criterio disminuye, y por lo tanto también lo hace el cuadrado del coeficiente de alienación. Esto es, a medida que
aumenta la validez, aumenta la precisión en el pronóstico, puesto que disminuye
la componente de varianza que se debe al error de estimación.
Cuadro 9.3
La relación entre la varianza del error de estimación ε = Y − Ŷ y la varianza empírica del test criterio, que se ha dado en la ecuación (9.11), se deduce de lo
siguiente:
[
]
σ 2ε = E ( Y − Yˆ ) − E ( Y − Yˆ )
[
=E Y−Y
]
2
[
2
]
{[
] [
]}
= E Y − E ( Y ) − Yˆ − E ( Yˆ )
[
]
+ E Yˆ − ( Yˆ ) − 2E ( Y − Y ) ( Yˆ − Yˆ )
2
2
=
242
Principios de Psicometría
Los dos primeros sumandos de este desarrollo son:
[
E Y−Y
[
]
2
]
E Yˆ − ( Yˆ )
= σ 2Y
2
= ρ2XY
σ 2Y
σ 2X
E ( X − X )2 = ρ2XY σ 2Y
donde se ha sustituido Ŷ por su equivalente en la ecuación de regresión que se da en la ecuación (9.22). Usando la misma sustitución para
Ŷ en el tercer sumando se obtiene:
[
]
[
]
σ
σ
E ( Y − Y ) ( Yˆ − Yˆ ) = ρ XY Y E ( Y − Y ) ( X − X ) = ρ XY Y Cov ( X, Y )
σX
σX
y teniendo en cuenta que ρ XY = Cov ( X, Y ) ( σ X σ Y ) , se obtiene
[
]
E ( Y − Y )( Yˆ − Yˆ ) = ρ2XY σ 2Y
Por lo tanto
σ 2ε = σ 2Y + ρ2XY σ 2Y − 2 ρ2XY σ 2Y = σ 2Y − ρ2XY σ 2Y = σ 2Y (1− ρ2XY )
de donde se deduce la relación dada en la expresión (9.11).
Coeficiente de valor predictivo:
Se denomina así al complemento a uno del coeficiente de alienación:
E = 1 − K = 1 − 1 − ρ2XY
y, consecuentemente, lo que expresa es la probabilidad del pronóstico.
(9.12)
Capítulo 9. Validez: Evaluación
243
Ejemplo 9.5
El coeficiente empírico obtenido para la validez de un test es 0.90. Se quiere responder a:
a) ¿Cuál es el porcentaje de la varianza del criterio Y que es teóricamente pronosticable por el test X?
b) ¿Es posible conocer el porcentaje de varianza que se puede atribuir al error?
c) ¿Cuál es el valor predictivo de ese test?
Por una parte, el coeficiente de determinación es 0.902 = 0.81, lo que indica
que el 81% de la varianza del criterio es teóricamente pronosticable por el test.
Para dar respuesta a b) se hace uso de las expresiones (9.10) y (9.11), con
lo que se obtiene que:
K2 =
σ 2ε
σ 2Y
= 1 − 0.81 = 0.19 ; K = 1− 0.81 = 0.44
indicando el coeficiente de alienación que la varianza asociada al error en la
predicción es el 19% de la varianza total. Sólo en el caso en que la validez tenga valor uno, la varianza error es cero, y para que esa varianza sea cero, los
errores de estimación son nulos (e = 0), o iguales a una constante.
c) El valor predictivo que se estima para ese test (según 9.12) es E = 0.56.
Validez y representación muestral
La definición del coeficiente de validez como un coeficiente de correlación entre
el predictor y el criterio está introduciendo la influencia de las varianzas de las
puntuaciones, tanto del predictor como del criterio. Por lo tanto, la variabilidad
de los sujetos de la población o de la muestra afecta al valor del coeficiente de la
validez. Cuanto menor sea la variabilidad de las puntuaciones, menor será el valor
de ese coeficiente y, por lo tanto, la validez. Se puede hacer aquí una discusión
análoga a la que se hizo en el Apartado 4.1 con respecto al efecto que la varianza
de los datos tiene sobre la fiabilidad.
El planteamiento hay que hacerlo desde el punto de vista de que, usualmente,
las pruebas no se aplican a las poblaciones, sino a muestras, y que la determina-
244
Principios de Psicometría
ción de la validez será tanto más precisa cuanto más representativa sea la muestra de aquella población de la que se extrae. Cuanta más heterogeneidad exista
entre los elementos muestrales, mejor representada está la heterogeneidad existente en esa población. El caso más habitual en los procesos de selección es que
se tengan datos en el test X de un grupo amplio, por ejemplo del grupo de aspirantes, teniéndose los datos en el test criterio Y solamente de un grupo más reducido, el de seleccionados. Por lo tanto, el coeficiente de validez solamente se puede calcular con los datos de ese grupo reducido. También se puede dar el caso en
el que la variable criterio haya sido la que incidentalmente se haya utilizado como
variable directamente selectiva. Se explicita a continuacón cómo variarían formalmente los coeficientes de validez en ambos casos:
a) Se tienen los datos X de un grupo amplio (aspirantes) y sólo se conocen
los de la variable Y de un subgrupo (seleccionados) de ese grupo. Por lo
tanto, se puede conocer la validez rXY para el grupo reducido, y se quiere
inferir cuál sería su valor RXY en el grupo amplio. Para ello se utiliza la
siguiente ecuación:
R XY =
(
S X rXY
)
2
2
S2X rXY
+ 1 − rXY
s2X
(9.13)
donde se denotan con letras mayúsculas los estadísticos correspondientes
al grupo amplio y con minúsculas los del reducido. La desviación típica de
Y se obtiene mediante la ecuación:
SY =
2
s Y S X rXY
2
2 SX
= s Y 1 − rXY
+ rXY
s X R XY
s2X
(9.14)
b) Cuando la variable Y es la que se ha utilizado como variable directamente
selectiva, entonces son sus valores los que se conocen en el grupo amplio
y el coeficiente de fiabilidad se obtiene mediante la ecuación:
R XY = 1 −
(
2
s2Y 1 − rXY
S2Y
)
(9.15)
245
Capítulo 9. Validez: Evaluación
y el valor de la desviación típica de la variable X se calcula mediante la expresión:
2
)
S2Y − s2Y (1 − rXY
sX
s S R
S X = X Y XY =
s Y rXY
(9.16)
s Y rXY
Cuadro 9.4
Las ecuaciones (9.13) a (9.16) se obtienen a partir de las relaciones de igualdad de los errores de medida
2
S Y 1− R 2XY = s Y 1− rXY
(9.17)
y de la ecuación de la igualdad de las pendientes en la regresión lineal:
R XY
SY
s
= rXY Y
SX
sX
(9.18)
Por ejemplo, si se eleva al cuadrado la igualdad (9.17) y se ordenan términos se obtiene
s2Y
S2Y
(1− r ) = 1− R
2
XY
2
XY
(9.19)
de donde se despeja RXY y se obtine directamente la expresión (9.15).
Por otra parte, si se despeja SY de (9.18), se eleva al cuadrado y se iguala al valor de S2Y despejado de (9.19) queda la igualdad
S2Y =
2
rXY
s2Y S2X
R 2XY
s2X
=
(
2
s2Y 1− rXY
1− R 2XY
)
y si se multiplican ambos miembros de esta ecuación por
1− R 2XY
s2Y
s2X
246
Principios de Psicometría
se obtiene
2
rXY
S2X
R 2XY
2
2
− S2X rXY
= (1− rXY
) s2X
de donde pasando S 2X r 2XY al segundo miembro, despejando R 2XY y hallando
la raíz cuadrada se obtiene la ecuación (9.13).
La ecuación (9.14) puede obtenerse despejando SY de (9.18) y posteriormente sustituyendo el valor de RXY por el dado en (9.13).
Se deja que el lector deduzca como un ejercicio la ecuación (9.16).
Ejemplo 9.6
Se han seleccionado 40 personas entre 200 para trabajar en una cadena de
montaje después de administrarles a todos ellos un test de habilidad manual (variable X). La varianza de las puntuaciones de los 200 aspirantes fue de 36 puntos,
y de 16 la de los seleccionados. Pasado el período de aprendizaje de esas 40 personas, se ha evaluado su rendimiento mediante el número medio de piezas por
día (variable Y) que insertan cada uno de ellos. La varianza de esos valores es 9 y
la correlación entre los valores X e Y de esas 40 personas es rXY = 0.78. Se desea
conocer cuál sería el valor que teóricamente se hubiera obtenido para la validez
si se hubiese podido calcular con los 200 aspirantes y cuál sería el valor estimado
de la varianza de sus puntuaciones en el criterio.
Haciendo uso de la ecuación (9.13) se tiene que:
R XY =
6 (0.78)
(
36 (0.78) + 16 1 − 0.78
2
2
)
= 0.88
obteniéndose el valor de la validez que se pide que es mayor que el obtenido con
40 participantes, pues se ha aumentado el tamaño y la variabilidad de la muestra.
El cálculo de la varianza de la variable criterio en el grupo amplio se puede
obtener haciendo uso del último miembro de la ecuación (9.14), aunque una vez
Capítulo 9. Validez: Evaluación
247
estimada la validez del grupo amplio, el cálculo puede reducirse utilizando la otra
forma de esa expresión (9.14):
SY =
S X s Y rXY (3)(6)(0.78)
=
= 3.99
s X R XY
4 (0.88)
Luego 15.89 sería el valor que se espera para la varianza de la variable criterio.
m9.3. Validez relativa al criteriom
Este tipo de validación indica cuál es la eficacia del test en la predicción de algún
tipo de comportamiento futuro del sujeto en situaciones específicas. Por ejemplo, un test de razonamiento abstracto se podría utilizar para predecir el éxito de
los alumnos en la disciplina de matemáticas. Esta predicción será más precisa
cuanto mayor sea la validez de esa prueba de razonamiento con respecto a poder
predecir el rendimiento en matemáticas.
La validez relativa al criterio se juzga por el grado de relación entre el test o
los tests que actúan como predictores y la variable que se va a predecir, o variable de interés, a la que se llama variable criterio. Si la relación entre predictores y
criterio se supone que es lineal, entonces, los coeficientes de correlación y de regresión lineal pueden ser medidas apropiadas para evaluar esas relaciones.
Pronóstico mediante regresión lineal simple
La distribución conjunta de los valores de las variables X e Y proporciona los
datos de las distribuciones condicionadas de una variable sobre la otra. Si las relaciones entre las variables son lineales, el modelo de regresión es una recta de la
forma dada en (9.20).
Y = aX + b
(9.20)
La ecuación de esta recta de regresión de la variable criterio sobre la predictora (Y|X) puede tomar la forma:
248
Principios de Psicometría
Y − Y = ρ XY
σY
(X − X)
σX
(9.21)
A una persona g con puntuación Xg se le pronostica una puntuación en el
criterio:
Y$ g = aX g + b
(9.22)
donde la pendiente de esa recta y la ordenada en el origen se obtienen mediante
las expresiones:
a = ρ XY
σY
σ
; b = Y − ρ XY Y X
σX
σX
Si en lugar de utilizarse puntuaciones directas se utilizan puntuaciones diferenciales o las tipificadas, la ecuación (9.21) se reduce a la (9.23) en puntuaciones
diferenciales y a la (9.24) en puntuaciones tipificadas:
σY
x
σX
(9.23)
z Y = ρ XY z X
(9.24)
y = ρ XY
Siendo:
x = X − X; y = Y − Y ; zX = x σ X ; zY = y σ Y
Intervalos de confianza
La estimación del valor de la puntuación en el criterio se puede obtener conociendo con qué probabilidad se encuentra ese valor entre dos dados. Es decir,
dando su intervalo de confianza. Para un valor estimado del criterio y fijado un
intervalo de amplitud 1 – α, el intevalo es:
I = ( Y$ − z α σ ε ; Y$ + z α σ ε )
(9.25)
249
Capítulo 9. Validez: Evaluación
donde σε es la dada en el Cuadro 9.3 (o en la ecuación (9.11)) y zα es el valor
correspondiente a la abscisa en una distribución N(0,1), para un intervalo que
contiene una probabilidad 1 – α. Este valor de zα hay que calcularlo teniendo
en cuenta la simetría del intervalo, teniéndose una probabilidad de α/2 en cada
una de las colas de la distribución. Esto es, la probabilidad contenida en el intervalo (– ∞, – zα ) es igual a α/2, y la contenida en (zα, ∞) = α/2 (a veces se adopta la notación zα/2 en lugar de la genérica zα ).
Ejemplo 9.7
Se quiere utilizar un test X de inteligencia general para predecir un criterio
Y de rendimiento escolar. Aplicando ambas pruebas de forma concurrente se
han obtenido los siguientes valores para los estadísticos:
X = 26 ; Y = 5 ; S X = 4 ; S Y = 2 ; rXY = 0.72
Se desea conocer la ecuación de regresión y la puntuación que se le puede pronosticar en rendimiento escolar a un estudiante que obtiene 30 puntos en la prueba de inteligencia general.
La predicción se hace mediante la ecuación (9.21), por lo que la ecuación
de la recta de regresión es:
Y = 0.72
(
)
2
X − 26 + 5 = 0.36 X − 4.36
4
y la puntuación que se le predice a la persona g que obtiene 30 puntos en el
test X es:
Yˆ g = 6.44
Si se quiere estimar Y mediante un intervalo de confianza, teniendo en cuenta las relaciones (9.25) y (9.26) y para un valor de α = 0.05, se tiene que:
(
)
z α = 1.96 ; σ ε = 2 1− 0.722 = 1.39 ; I = Yˆ ± z α σ ε = 3.72; 9.16
que es un intervalo amplio debido al tamaño de la varianza del error de
estimación. Hay que señalar que la construcción de intervalos de confianza
como el dado en (9.25) exige que se suponga la normalidad y la homocedasticidad.
250
Principios de Psicometría
Pronósticos mediante una batería de predictores
En este caso se trata de hacer predicciones basándose en la información que aportan dos o más variables predictoras. Éste es un caso general del que el anterior,
en que se considera una sola variable predictora, es un caso particular.
Es fácil describir situaciones en las que sean varias las variables que hay que
utilizar para predecir adecuadamente el criterio. Por ejemplo, se puede plantear
predecir el éxito escolar utilizando como predictoras pruebas que evalúen inteligencia general, memoria y algunos rasgos de personalidad.
Si se supone que la relación es lineal y se denota por Y la variable criterio y
por X1, X2, …, Xn , a las variables predictoras, el modelo que las relaciona es:
Y = a + b1 X 1 +…+ bn X n
(9.27)
siendo f(Y, X1, X2, …, Xn) la función de probabilidad conjunta y la media condicionada de la variable Y sobre las Xi es:
(
m y (x 1 , … , x n ) = E Y X 1 = x 1 , … , X n = x n
)
(9.28)
siendo my la superficie de regresión de las medias condicionadas de Y con respecto a las Xi.
Al igual que en el caso de una variable, el ajuste se hace por mínimos cuadrados, de donde se deducen los valores de los parámetros {a, b1, …, bn}. La estimación de estos valores, así como el del coeficiente de correlación múltiple, se
hacen con los programas apropiados, que están implementados en todos los paquetes estadísticos, por ejemplo en el SPSS.
A los valores estimados normalizados b∗i se los denomina pesos en la regresión,
ya que sus valores indican cuál es la contribución de cada una de las variables Xi en la
predicción del criterio Y. El valor del error típico de medida aquí se calcula mediante:
s Y • X1 , …, X n = s Y 1 − ρ2Y • X1 , …, X n
donde
ρ$ 2Y • X1 , …, X n =
1
C′YX C−XX
C YX
s2Y
(9.29)
(9.30)
251
Capítulo 9. Validez: Evaluación
es el coeficiente de correlación múltiple entre los predictores y el criterio. Con C
se han denotado las matrices de varianzas y covarianzas entre las variables. El coeficiente (9.30) indica la proporción de varianza del criterio explicada por su regresión lineal con las variables predictoras. Este coeficiente se puede también estimar mediante los coeficientes de regresión normalizados (pesos) utilizando la
relación:
ρ YY$ = ρ Y • X1 , …, X n = b1∗ ρ1Y + b∗2 ρ2 Y + … + b∗n ρnY
(9.31)
donde ρiY (i = 1, 2, …, n) son las correlaciones de cada uno de los predictores
con el criterio.
Ejemplo 9.8
En la predicción de los valores en agresividad se ha hecho un estudio con
2400 escolares usando como predictoras las variables agresión física (X1), verbal (X2), horas diarias viendo televisión (X3), horas diarias de videojuegos (X4),
horas diarias haciendo deberes (X5) y horas semanales de lectura extraescolar
(X6), y se ha obtenido la siguiente ecuación de regresión:
Y = 1.39 + 0.45 X 1 + 0.37 X 2 + 0.22 X 3 + 0.27 X 4 − 0.17 X 5 − 0.20 X 6
dada con coeficientes no estandarizados. El valor del coeficiente de correlación
múltiple es ρ = 0.80. Se desea interpretar esos resultados.
Previamente se ha contrastado la hipótesis H0 : bi = 0 frente a la alternativa
de que esos coeficientes son diferentes de cero. En todos los casos se ha rechazado la hipótesis nula con α < 0.01.
En primer lugar, se observa que en la ecuación de regresión se han incluido todas las variables predictoras, ya que tras el contraste se ha comprobado
que los coeficientes son estadísticamente significativos. En el caso en que los
coeficientes de uno o más predictores no fueran significativos, esas variables
no se incluirían en la ecuación de regresión. Las variables que más aportan son
aquellas que tienen mayores coeficientes en valor absoluto. Las variables con
coeficientes negativos indican que se relacionan de forma opuesta con el criterio. Las variables agresión física, verbal, horas diarias dedicadas a ver televisión o a jugar con videojuegos se relacionan positivamente con los niveles globales de agresividad, en tanto que las horas dedicadas a los deberes y a la
lectura la disminuyen.
252
Principios de Psicometría
En cuanto a la interpretación del coeficiente de correlación múltiple, cuyo
valor es 0.80, indica que el 64% de la varianza de Y puede explicarse por su
regresión lineal con esos predictores, ya que ρ2Y • X , …, X = 0.64 .
1
6
Selección de las variables predictoras
En los procedimientos de inferencia mediante regresión, tal como se están exponiendo, implícitamente parece que se da por supuesto el conocimiento de cuáles
son las variables predictoras que hay que utilizar para un determinado criterio.
Esto en la práctica no es obvio, pues para un mismo criterio se puede considerar
un número k no pequeño de variables independientes que tengan influencia sobre
ese criterio y que pudieran ayudar a predecirlo.
En un intento de construir el modelo de predicción más completo y exacto posible, se puede pensar en incluir en ese modelo todas las variables que tengan relación con el criterio y que sea posible identificar. Esto usualmente no es realista, ni
desde el punto de vista teórico ni práctico. Entre otras razones, habría que considerar los costes de un estudio casi exhaustivo de ese tipo, el despliegue de medios
humanos y materiales, junto con problemas de índole puramente formal, como
pueden ser los problemas de colinealidad. La necesidad de restringir a un número
p < k el de todas las posibles variables pedictoras y que, a su vez, se obtenga el mejor
modelo predictor posible, ha dado lugar a que se generen diferentes procedimientos estadísticos de análisis que proporcionan la información necesaria para, en cada
caso, elegir las variables predictoras más adecuadas. En la literatura hay numerosas
obras (e.g., Darlington, 1990; Draper y Smith, 1981; Hocking, 1976) en las que se
describen distintos métodos que conducen a evaluar la precisión de la regresión y
cómo elegir un número determinado de predictores entre los k disponibles.
Entre los métodos propuestos están los procedimientos secuenciales, ya sea
porque se van incluyendo nuevas variables para mejorar las predicciones, ya sea porque se desea reducir la prueba y hay que prescindir de la aplicación de algunos de
los predictores. En cualquiera de los dos casos, con la adición o con la supresión de
las variables, hay que valorar en cada paso la calidad del modelo resultante.
La selección basada en regresiones parciales estudia las regresiones del criterio
con un conjunto de variables predictoras previamente elegidas. Se comienza calculando todas las regresiones simples del criterio con cada una de las variables
Capítulo 9. Validez: Evaluación
253
predictoras. Evidenciando cuál sería la mejor opción (por ejemplo, basándose en
los valores de ρ$2 (ecuación (9.30)) si solamente se pudiese elegir una de ellas. Si
ese ajuste no fuese adecuado porque el porcentaje de la varianza explicada por la
regresión fuese muy pequeño, entonces se procedería a hacer la regresión de Y
con todos los pares de variables, y así sucesivamente, estudiando en cada caso la
precisión del modelo, y si la ganancia justifica la adición de nuevas variables.
El método secuencial más extendido y que se considera más eficaz es el denominado regresión por pasos. Existen diferentes versiones y lo más común es que en
cada paso se seleccione el mejor conjunto de variables predictoras de un tamaño
determinado, sea (p – 1), teniendo en cuenta en el siguiente paso que el mejor
conjunto de tamaño p no contiene necesariamente al mejor subconjunto de tamaño (p – 1). Esto es, el que una variable sea idónea para que se incluya en una fase
de selección, no implica que lo sea en una fase posterior.
Los análisis de regresión, desde los más simples a los de mayor complejidad,
se llevan a cabo con la ayuda de paquetes estadísticos como el SPSS, donde vienen además implementados diferentes algoritmos de selección. Esto es relevante porque hay que reseñar nuevamente que, una vez decididos los predictores y
construido el modelo de regresión, se debe evaluar su calidad, mediante el conocimiento del coeficiente de regresión múltiple, contrastes usando el estadístico F
u otros procedimientos que vienen implementados en los programas. Por último,
señalar que en la validación en relación con el criterio, a los problemas ya mencionados en el Apartado 8.6, hay que añadir que los criterios pueden cambiar a
lo largo del tiempo y que, a efectos prácticos, hay que tenerlo muy en cuenta al
establecer sus relaciones con los predictores.
m9.4. Evaluación de la validez convergente y discriminantem
Los constructos psicológicos se definen desde unos supuestos teóricos en los que
se incluyen sus conexiones con otros constructos, lo que en la literatura se llama
red nomológica. Esto implica que las mediciones en un constructo estén fuertemente
relacionadas con las de unos determinados constructos y débilmente relacionadas con las de otros. Podemos dar como ejemplo (Ejemplo 9.9) las evidencias de
validez convergente (Tabla 9.3) que se han encontrado para un cuestionario de
agresividad, estableciendo relaciones entre las puntuaciones en ese cuestionario
con las de otros que miden diferentes aspectos de la agresividad, así como con
254
Principios de Psicometría
medidas de impulsividad (Wittmann et al., 2008; Santisteban y Alvarado, 2009).
Una parte que es crucial en el proceso de validación de una prueba es establecer
en qué grado se puede definir un patrón de asociaciones entre el rasgo que mide
esa prueba y otros rasgos. En la literatura se presentan diversos métodos, que conllevan mayor o menor complejidad, pero que se pueden utilizar para evaluar el
grado en que las medidas muestran asociaciones convergentes y discriminantes.
Los distintos procedimientos responden a diferencias conceptuales y a diferentes métodos estadísticos.
Ejemplo 9.9
En un estudio sobre agresividad realizado con 2208 escolares, se han estudiado las evidencias de validez convergente del cuestionario AQ-PA, estableciendo las correlaciones de los sujetos en ese cuestionario con las que obtienen en otros cuestionarios que proporcionan mediciones del mismo constructo
(agresividad) o de otro relacionado (impulsividad). Los cuestionarios han sido:
DIAS, que evalúa la agresión directa e indirecta, STAXI, que evalúa tres principales aspectos de ira (estado E, rasgo R y expresión AE) y EXPAGG, que evalúa la expresión de la agresividad. Todas las pruebas están adaptadas a la población española y a los grupos de edad que se estudian, preadolescentes y
adolescentes. La impulsividad se ha evaluado con la versión española (Recio
et al., 2004) de la escala de impulsividad de Barrat (BIS-11). Las correlaciones
entre esas variables se dan en la Tabla 9.3.
Tabla 9.3. Correlaciones* entre mediciones de agresividad
(AQ-PA, STAXI, DIAS, EXPAGG) e impulsividad (BIS)**.
STAXI
AQ-PA
STAXI
E
R
AE
E
R
AE
0.42
—
0.67
0.42
—
0.62
0.36
0.62
—
DIAS
EXPAGG
* Todas las correlaciones son significativas (p < 0.001).
**Datos tomados de Santisteban y Alvarado, 2009.
DIAS
EXPAGG
BIS
0.67
0.40
0.61
0.62
—
0.49
0.28
0.37
0.33
0.40
—
0.55
0.33
0.50
0.53
0.50
0.25
Capítulo 9. Validez: Evaluación
255
Los datos de la Tabla 9.3 evidencian la validez convergente de la escala
AQ-PA, pues muestran correlaciones significativas con mediciones de diferentes aspectos del mismo constructo, o sea, de la agresividad (con STAXI, DIAS y
EXPAGG), así como con uno relacionado como es la impulsividad (BIS-11).
Red nomológica y correlaciones
La red nomológica que rodea a un determinado constructo en algunos casos puede reducirse a unas pocas variables muy específicas y relevantes. Si se hipotetiza
acerca de las asociaciones de esas variables con el constructo de interés en términos de validez convergente y discriminante, de que se confirmen o no esas presunciones, los psicómetras ponen o no en duda la validez de la prueba.
Muchas investigaciones en psicología clínica, evolutiva, social y de las organizaciones suelen utilizar este método, focalizando el estudio en muy pocas variables o criterios externos que se consideran relevantes y poniendo el énfasis en la
cuantía de las correlaciones entre el constructo de interés y esos criterios. El problema surge cuando hay que considerar la validez predictiva de ese test y decidir
si se puede generalizar a otros estudios donde sea de interés la medida de ese constructo.
Comúnmente la generalización de la validez se hace utilizando muestras grandes y lo más heterogéneas posible. Sin embargo, en este tipo de estudios generalmente se utilizan muestras relativamente pequeñas. Entonces, para la generalización de los resultados se suelen llevar a cabo pequeños estudios, incluso a cargo
de diferentes investigadores. Si hay concordancia (correlaciones positivas y de
tamaño al menos moderado) entre los resultados de esos diferentes estudios se
realiza la generalización. Se entiende que estos estudios son tan similares en las
condiciones que se pueden considerar como réplicas. En el caso en que los coeficientes de validez de los diferentes estudios no sean similares, sino que cubran
un amplio rango de valores, entonces hay que examinar si, en efecto, esas diferencias se deben a los procedimientos.
La limitación de la red nomológica responde a una perspectiva tanto conceptual como pragmática, como en su día ya señalaran autores como Cronbach, Campbell o Scriben. No obstante, no siempre se pueden elegir unas pocas variables
relevantes sobre las que focalizar el estudio, sino que hay que estudiar las rela-
256
Principios de Psicometría
ciones del constructo con un número elevado de variables criterio. Por ejemplo,
en un estudio sobre perfeccionismo (Hill et al., 2004) se utilizan 23 variables criterio y los autores establecen la validez mediante un análisis lógico de las intercorrelaciones.
El método de Westen y Rosenthal
Otro de los métodos que se ha propuesto para evaluar la validez convergente y
discriminante es el propuesto por Westen y Rosenthal (2003), al que han denominado cuantificación de la validez de constructo (QCV, sus siglas en inglés). Este
procedimiento se basa en si existe o no concordancia entre unas predicciones que
se hacen a priori acerca de las correlaciones convergentes y discriminantes y las
que posteriormente se obtienen en situaciones reales.
Este procedimiento se puede resumir en tres pasos. En el primero los psicómetras enuncian cuáles son sus predicciones sobre las correlaciones convergentes y discriminantes. Esto requiere un análisis detallado de todas las variables y
aventurar un valor para las correlaciones entre cada uno de los constructos o de
las escalas que se van a relacionar. En el segundo paso se recogen todos los datos,
aplicando las pruebas pertinentes de todas y cada una de las escalas de las variables criterio que a priori se han considerado y se calculan las correlaciones entre
ambos conjuntos de correlaciones, el predicho y el calculado. El tercer paso consiste en valorar el ajuste entre lo hipotetizado y los resultados experimentales. Para
la valoración del ajuste entre los datos supuestos y los experimentales, los autores usan dos tipos de resultados, uno basado en el tamaño de los efectos que reflejan la cantidad de evidencia de validez convergente y discriminante y el otro es
que, adicionalmente, realizan un test estadístico de contraste. El lector interesado puede consultar estos procedimientos en la obra de Westen y Rosenthal, anteriormente citada.
Este método es objeto de críticas, pues presenta puntos débiles en la metodología del ajuste e incoherencias en algunas correlaciones, pero ninguno de los
métodos mencionados que usan correlaciones están exentos de subjetividad, sobre
todo en lo que se relaciona con las interpretaciones de la cuantía de los coeficientes. Una evaluación de la significación estadística del coeficiente de validez se
puede ver en Cohen (1992).
Capítulo 9. Validez: Evaluación
257
Matrices multirrasgo-multimétodo
La obtención de estas matrices y su interpretación es un método que se utiliza en
el estudio de la validez de constructo cuando se consideran dos o más rasgos que
se van a evaluar por dos o más métodos. Se trata de comprobar que las correlaciones entre los valores del mismo rasgo, obtenidos por diferentes métodos, son
superiores a las obtenidas entre diferentes rasgos, aun cuando las puntuaciones
que se correlacionan se hayan obtenido por el mismo método. Si las correlaciones entre las puntuaciones del mismo rasgo son altas, aun cuando se evalúen con
diferentes métodos, se tiene una buena validez convergente. Sin embargo, si las correlaciones entre diferentes rasgos son pequeñas, aunque se emplee el mismo método, se obtiene una buena validez discriminante.
Considérense p métodos con los que se evalúan k rasgos. Los datos obtenidos
de las observaciones se podrán disponer en una matriz p × k en que cada elemento Xij de la matriz indica el valor obtenido en el rasgo j evaluado por el método i.
Todas las intercorrelaciones posibles entre las variables resultantes de combinar rasgos con métodos se pueden disponer en una matriz de dimensiones
(p × k) × (p × k), a la que se la denomina matriz de validez, o matriz multirrasgo-multimétodo. La introducción de estas matrices por Campbell y Fiske (1959)
tuvo mucho éxito, pues es una forma de garantizar que las relaciones entre medidas del mismo constructo no se deben a artefactos derivados de la utilización de
un cierto método, como a veces se había detectado. En este método se pueden
observar cuatro tipos de correlaciones:
– Monorrasgo-monométodo: Son las obtenidas entre las medidas del mismo constructo obtenidas por el mismo método.
– Monorrasgo-heterométodo: Son las obtenidas entre las medidas del mismo constructo por diferentes métodos.
– Heterorrasgo-monométodo: Son las obtenidas entre las medidas de diferentes constructos evaluados por el mismo método.
– Heterorrasgo-heterométodo: Son las obtenidas entre las medidas de diferentes constructos evaluados por diferentes métodos.
Con el fin de ilustrar este método, Campbell y Fiske (1959) tomaron datos de
estudios de otros autores, comparando las intercorrelaciones de diferentes subtests con los que se evaluaban aspectos de inteligencia social, memoria, comprensión y vocabulario.
258
Principios de Psicometría
Tabla 9.4. Matriz de correlaciones multirrasgo-multimétodo.
Método 1
Rasgos A1
Método 1
Método 2
Método 3
Método 2
B1
C1
Método 3
A2
B2
C2
A1
B1
C1
.90
.20
.38
.89
.30
.76
A2
B2
C2
.67
.22
.11
.22
.77
.11
.09
.10
.56
.93
.18
.29
.94
.18
.74
A3
B3
C3
.66
.13
.11
.22
.68
.11
.11
.12
.55
.67
.13
.24
.42
.66
.12
.33
.34
.58
A3
B3
C3
.94
.17
.08
.92
.16
.80
En la Tabla 9.4 se presenta un ejemplo de una matriz completa (con los cuatro tipos de correlaciones) en donde se han considerado tres rasgos (constructos) A, B y C (e.g., comprensión, extraversión e inteligencia emocional), evaluados por tres métodos. Por simplicidad, se ha denotado con una letra el rasgo,
indicando su subíndice i (i = 1, 2, 3) el método de evaluación. La matriz de correlaciones es una matriz de 9 × 9 elementos y simétrica con respecto a la diagonal principal, ya que en la correlación lineal entre dos variables se da la simetría
(rXY = rYX). A partir de esa matriz, se puede deducir:
a) Que los términos de la diagonal principal (en negrita), son coeficientes
de fiabilidad de las pruebas que miden esos rasgos, ya que son las correlaciones entre medidas repetidas. Las fiabilidades de las pruebas que evalúan el rasgo A (0.90, 0.93 y 0.94), así como las del B (0.89, 0.94 y 0.92)
son elevadas, siendo menores las correspondientes al test C (0.76, 0.74
y 0.80).
b) Las correlaciones (subrayadas) entre los rasgos evaluados por distintos
métodos son los indicadores de la validez convergente. Los tests tendrán validez convergente si los valores de esas correlaciones son significativos, pues
indican la estabilidad en la medida del constructo, aunque se haya evalua-
Capítulo 9. Validez: Evaluación
259
do por diferentes métodos y, en cualquier caso, deben ser mayores que las
heterorrasgo-heterométodo. Éste es el caso de los constructos presentados en la tabla, en donde, rA1A2 = 0.67, rA1A3 = 0.66 y rA2A3 = 0.67 son
valores moderadamente altos, como también lo son los de las correlaciones monorrasgo-heterométodo para el constructo B (0.77, 0.68, 0.66) y
un poco menores para el C (0.56, 0.55, 0.58). También se observa que
estos valores son mayores que los de las correlaciones heterorrasgo-heterométodo.
c) Las evidencias de validez de la adecuada diferenciación entre los constructos
vienen dadas por la validez discriminante. Esta validez se evidencia cuando
las correlaciones entre las mediciones de los constructos son bajas, aun
cuando esos constructos se evalúen con los mismos métodos. Ejemplos
de esos valores en la Tabla 9.4 son rA1C1 = 0.38, rA3C3 = 0.08, rB2C2 = 0.18,
etc. Estas correlaciones deben ser menores que las obtenidas para el mismo rasgo por diferentes métodos.
d) En el caso en que se encuentre que las correlaciones que miden diferentes
rasgos con el mismo método (heterorrasgo-monométodo) sean sistemáticamente mayores que las correlaciones monorrasgo-heterométodo, hay
que pensar en la existencia de sesgos o de errores sistemáticos atribuibles
al método.
En consecuencia, el conjunto de los datos de la Tabla 9.4 muestran que las
pruebas que miden los tres constructos o rasgos tienen una adecuada validez convergente y discriminante. Las conclusiones acerca de las evidencias de validez convergente y discriminante utilizando este método se obtienen por simple inspección, como se ha detallado en los epígrafes anteriores. No obstante, desde que
Campbell y Fiske (1959) publicaron su trabajo, se han desarrollado nuevos procedimientos y se han propuesto diferentes técnicas, como las de los modelos de
las ecuaciones estructurales o las del análisis factorial (Widaman, 1985), que mejoran de forma sustancial el establecimiento de la validez, y aunque esos procedimientos van más allá de los objetivos de la discusión que aquí se plantea, el lector debe conocer que el tema no está cerrado y que los psicómetras siguen
construyendo sobre los cimientos del trabajo de Campbell y Fiske.
Los análisis de las matrices multirrasgo-multimétodo proveen de un método
muy adecuado para evaluar la validez de constructo, pues el análisis conjunto de
todos los patrones de correlacionales ayuda a la interpretación de las evidencias
260
Principios de Psicometría
Cuadro 9.3
En el Apartado 8.2 se hace referencia a las importantes aportaciones de Cronbach al establecimiento de la validez, así como la que en 1955 hacen Cronbach
y Meehl. Aun cuando ese trabajo supuso un gran avance conceptual, no aporta ningún método estadístico para que se pueda evaluar la validez de constructo, y el de Campbell y Fiske se puede considerar que extiende y formaliza
las propuestas de Cronbach y Meehl. Hay que hacer notar que en esa época
los investigadores interesados en la descomposición de tareas utilizaban comúnmente las técnicas de análisis factorial y la representación del constructo se
confundía completamente con el enfoque nomotético. Desde ese punto de vista, las componentes que surgen del análisis factorial se basan en las correlaciones entre tareas, cuyas mediciones incluyen múltiples influencias. El éxito
de la propuesta de Campbell y Fiske radica en que, al presentar un panel completo de correlaciones, se pueden disipar algunas ambigüedades que aparecen en la evaluación de la validez de constructo cuando la varianza de los rasgos y la de los métodos están entremezcladas.
de validez convergente y discriminante cuando las puntuaciones, y por ende las
correlaciones, están afectadas por las varianzas, tanto de los rasgos como de los
métodos. Éste es un tema en el que, como se ha dicho, se han desarrollado procedimientos más sofisticados para el análisis estadístico de los datos que los aquí
expuestos, y que en la actualidad siguen generando trabajos, tanto en los investigadores en medición como en los psicómetras. Sin embargo, si se toma en consideración la relevancia de estos métodos, el número de aplicaciones que se refleja en las publicaciones especializadas es mucho menor del esperable.
m9.5. Validez de la estructura interna del testm
La estructura interna de un test es la forma en la que se relacionan las distintas
partes de ese test. Si un test está diseñado para la medición de un determinado
constructo, las distintas partes del test, su estructura, deben reflejar los aspectos
básicos que teóricamente se ha considerado que constituyen ese constructo. La
definición del constructo y, en consecuencia, la estructura del test o del cuestionario, se sustentan tanto en aspectos conceptuales como en los resultados obte-
Capítulo 9. Validez: Evaluación
261
nidos en investigaciones previas. En el Cuadro 9.5 se expone un caso de cómo
una prueba ha ido evolucionando basándose en esas experiencias.
Las evidencias de validez de la estructura interna de un test se pueden considerar desde diferentes vertientes y todas ellas deben tener presencia en el proceso de validación, pues hay que verificar que puede haber partes del test (dimensiones) que, aun midiendo el mismo constructo, den cuenta de diferentes aspectos.
Además hay que confirmar que, en efecto, los ítems están asociados con cada una
de esas partes a las que se han asignado. Una de las fases fundamentales en la
construcción de un test es determinar su dimensionalidad, estableciendo cuantos
factores o dimensiones se considere que integran ese test. Si el estudio de la dimensionalidad revela que el test está compuesto por dos o más factores, identificando los ítems que los integran se pueden obtener las puntuaciones de las diferentes subescalas, pero el test completo debe ser una medida global del constructo
de interés.
Un test tendrá validez en su estructura interna si ese test refleja la estructura
del constructo que pretende medir. Las correlaciones entre los ítems del test y
entre los diferentes factores o subesclas son las que dan cuenta de la validez de
su estructura interna. En el procedimiento que se sigue para establecer estos patrones de correlaciones usualmente se hace uso de las técnicas del Análisis Factorial
(AF). El AF exploratorio se suele usar para establecer el número de factores que
componen el test. El AF confirmatorio se suele utilizar para corroborar en qué
medida determinados ítems corresponden a un determinado factor.
Cuadro 9.4
En la búsqueda de un cuestionario que midiera la agresividad se han desarrollado un número considerable de instrumentos, todos basados en una
definición de la agresión que incluye intenciones, expresiones y factores afectivos que la influencian. Uno de los más utilizados ha sido el inventario
de hostilidad de Buss y Durkee (1957), conocido con las siglas BDHI (BussDurkee Hostility Inventory).
El BDHI está compuesto por 66 ítems con un formato de respuesta verdadero-falso y se presenta dividido en siete subescalas. El punto más débil
de este cuestionario es que no utilizaron para su desarrollo métodos de análisis factorial, sino que los autores sólo se basaron en su validez aparente.
Atendiendo a las críticas que surgieron al respecto, Buss y Perry (1992), uti-
262
Principios de Psicometría
lizando métodos analíticos de análisis factorial, mejoraron considerablemente
el BDHI desarrollando el cuestionario conocido con las siglas AQ (Aggression Questionnaire).
En su evolución, el AQ pasó por diferentes etapas. Los autores primero
seleccionaron una muestra de 52 ítems, intentando aprehender seis dimensiones de agresión: agresión física, agresión verbal, ira, agresión indirecta,
resentimiento y suspicacia. Además, pasaron a un formato de respuesta de
tipo Likert, en lugar del formato de respuesta sí/no del BDHI. Los análisis factoriales exploratorios de esos ítems con rotación oblimin condujeron a un
cuestionario de 29 ítems distribuidos entre cuatro factores designados como
agresión física, agresión verbal, ira y hostilidad. Buss y Perry (1992) descartaron 23 ítems porque no cumplían los requisitos establecidos (saturación
igual o mayor que 0.35 en algún factor), llegando así a la versión final del AQ
que consta de 29 ítems en cuatro subescalas. Las dos primeras, agresión
física y verbal, responden a la componente comportamental, en tanto que la
ira es la reacción afectiva que acompaña a la agresión, siendo la hostilidad
la que representa la componente cognitiva.
Las técnicas de AF, por lo tanto, son las que se suelen utilizar en los estudios
de la validez de la estructura interna del test. Por una parte, identificando si el
número de factores es adecuado y que el test proporciona una medida global del
constructo que se estudia. Por otra, se evalúa la validez de las asociaciones entre
los diferentes factores (si los hay), poniéndose de manifiesto mediante el AF cómo
es ese patrón de asociaciones. Por último, en el estudio de la validez de la estructura interna del test también se debe evaluar la pertenencia o no de un determinado ítem a un determinado factor. Es decir, para establecer la validez se evalúa
en qué grado el ítem que está incluido en un factor está reflejando el aspecto particular de ese factor en el constructo y no el de otro factor.
Haciendo referencia a un caso concreto, como es el cuestionario AQ que se
describe en el Cuadro 9.6, se puede decir que además de tener la adecuada consistencia interna de las subescalas, ha mostrado tener una buena validez de su
estructura interna, como comprobó en primer lugar Harris (1997) y además se
ha probado que es un instrumento útil para estudiar perfiles agresivos, así como
en la predicción de conductas violentas. Otros autores han corroborado la validez de su estructura y su estabilidad en estudios transculturales. En la Figura 9.1
se da el patrón de asociaciones, tanto entre ítems como entre factores, obtenido
Capítulo 9. Validez: Evaluación
263
mediante AF confirmatorio para el cuestionario AQ en una versión en español
adaptada a adolescentes.
Para llevar a cabo los cálculos que conducen a concluir sobre la validez de la
estructura interna de un test, es necesario que se tenga algún dominio sobre las
técnicas de AF. Para validar la estructura tetra-factorial del cuestionario AQ-PA
se ha utilizado análisis factorial confirmatorio con estimadores de máxima vero-
Figura 9.1. Factores de pesos estandarizados y correlaciones múltiples de agresión
física (PA), agresión verbal (VA), ira (A) y hostilidad (H) en una muestra de adolescentes
(Santisteban et al., 2007).
264
Principios de Psicometría
similitud para los parámetros, usando el programa AMOS 5.0. Hay que señalar
que el investigador debe elegir adecuadamente el método para la estimación de
los parámetros y posteriormente hacer comprobaciones sobre la bondad de ese
ajuste a través de los índices pertinentes. Los índices más usuales en estos casos
son los que se denotan con las siglas, GFI (Goodness of Fit Index), AGFI (Adjusted Goodness of Fit Index) y RMSEA (Root Mean-Square Error of Approximation) que el lector interesado puede encontrar en la literatura especializada (e.g.,
Lawley y Maxwell, 1971; Mulaik, 1972; Gorsuch, 1983; Bryant y Yarnold, 1995;
Thompson, 2004). Entre los programas de software, se pueden usar los más generales como SPSS y SAS, u otros más específicos para estos propósitos entre los
que actualmente están EQS, AMOS y LISREL, siendo este último muy completo y de uso generalizado.
Puntos clave
3
3
3
3
3
3
3
3
3
Cada tipo de validez suele tener su propio método de evaluación. Las evidencias de la validez de contenido usualmente no se apoyan en índices, pero existe una sistemática para ponerlas de manifiesto.
Los coeficientes de validez se definen en términos de correlaciones y están acotados, tomando valores en el intervalo cerrado [0,1].
La fiabilidad de los tests influye directamente en su validez, que se ve atenuada
por los errores de medida.
La validez, al igual que la fiabilidad, varía con la longitud del test. La atenuación
y las modificaciones en la validez debidas a esas variaciones se pueden estudiar haciendo uso de la ecuación de Spearman-Brown.
La validez aumenta con la varianza de los valores muestrales.
La validez de los tests para predecir un criterio se evalúa por la calidad (exactitud) de las predicciones basadas en la información que aportan esos tests (variables predictoras).
La contribución de cada una de las variables predictoras al criterio se evalúa por
la cuantía en la que su varianza contribuye a la varianza total.
Las relaciones entre variables predictoras y criterio se establecen mediante regresión lineal, simple o múltiple, regresando la variable criterio sobre las predictoras.
Si las variables predictoras no están prefijadas de antemano, sino que hay que
elegir un subconjunto entre las disponibles, se utilizan técnicas como la regre-
Capítulo 9. Validez: Evaluación
3
3
3
3
3
3
3
265
sión por pasos, optimizando las soluciones (número de predictores y varianza
explicada) en cada paso.
El estudio de las evidencias de validez convergente y discriminante es importante incluirlo en el procedimiento empírico de validación de los tests.
Uno de los métodos para evaluar el grado de convergencia y de discriminación
entre tests es el de las matrices multimétodo-multirrasgo, que son muy útiles,
ya sea en su versión original o incluyendo las nuevas aportaciones de sus posteriores desarrollos.
En la evaluación de los coeficientes de validez (predictiva, convergente, discriminante) es necesario usar procedimientos de inferencia estadística para la
correcta interpretación de su cuantía y para asegurar la validez de las inferencias que se hagan con el test.
La estructura de un test se determina cuando se estudia su dimensionalidad, lo
que generalmente se lleva a cabo mediante las técnicas de análisis factorial.
La validación de la estructura interna del test es fundamental en la evaluación
de constructo, pues da cuenta de en qué grado coinciden el test y sus subescalas con la estructura definida para el constructo.
La validez de la estructura interna se analiza generalmente examinando los
patrones de correlación entre los ítems que integran el test, así como entre
las subescalas. La técnica más usual de llevar a cabo esos análisis son las
del análisis factorial, implementando el estudio con indicadores de la bondad
del ajuste.
Abordar en la práctica psicométrica la estimación y la evaluación de las evidencias de validez, que es de lo que trata este capítulo, requiere tener también conocimientos avanzados de estadística (análisis de la varianza, regresión múltiple,
análisis factorial, etc.), así como conocimiento y manejo del software correspondiente.
Actividades
r En el Ejemplo 9.1 el test con mayor validez empírica muestra la menor validez desatenuada. ¿Cómo se puede explicar esta aparente contradicción?
r En ese mismo Ejemplo 9.1, ¿se debe aceptar el test A3 como predictor sin
hacer más consideraciones? Obsérvese la cuantía de su fiabilidad.
r Las variaciones teóricas de la validez cuando se aumenta o se disminuye la
longitud se pueden representar gráficamente. Hágase la representación de
esas variaciones con los datos de la Tabla 9.2. Se recomienda expresar la
validez (en ordenadas) en función de k (en abscisas).
266
Principios de Psicometría
r Piense en algún criterio y en un predictor de los que pueda fácilmente obtener mediciones (por ejemplo, un estudiante puede administrar una prueba de razonamiento abstracto a sus compañeros para la predicción de sus
calificaciones en psicometría). Estudie la validez de las predicciones.
r Realice la práctica anterior considerando al menos la inclusión de otro predictor.
r Construya una matriz multimétodo-multirrasgo (a partir de sus propias
observaciones si le resulta posible) y discuta el significado de cada uno de
los valores o conjuntos de valores de esa matriz, en relación con los rasgos
que haya considerado y los métodos que haya propuesto.
r A partir de algún test (cuestionario o inventario) que contenga varias escalas y cuyo uso esté generalizado, discuta los aspectos más relevantes de la
validez de su estructura interna.
r Con los datos provenientes de la aplicación de un test que contenga varias
subescalas (si no dispone de los datos de un gran número de personas, puede simularlos), aplique las técnicas de análisis factorial para comprobar si
sus datos reconfirman la estructura interna de ese test. (Recuerde que la
identificación del modelo, la estimación de los parámetros, etc. puede realizarlos con LISREL). Discuta los resultados en relación con los supuestos teóricos sobre la estructura interna de ese test.
La validez
Coeficiente de validez y toma de decisiones
10
El coeficiente de validez, definido como coeficiente de correlación lineal
entre un predictor y un determinado criterio, no da suficiente información
para tomar decisiones en muchas de las situaciones de la vida real. Cuanto mayor sea el coeficiente, mayor será la relación entre el test y el criterio,
pero se les plantean todavía diversos interrogantes a quienes tienen que
tomar decisiones basándose en este coeficiente. Por ejemplo, en selección
de personal puede plantearse, entre otras cuestiones, cuál es la probabilidad de que los seleccionados tengan después un buen rendimiento, aunque el coeficiente de validez del test sea elevado y se haya elegido a aquellos aspirantes que tienen las puntuaciones más altas en ese test.
En este capítulo se va a tratar:
ã Una primera aproximación a cómo discernir si un test puede ser o
no útil para realizar un diagnóstico.
ã Distintos tipos de errores que se pueden cometer en la toma de decisiones.
ã Los conceptos de sensibilidad y especificidad de las pruebas, así
como algunas de sus aplicaciones al diagnóstico.
ã Algunos procedimientos en los que el coeficiente de validez se toma
como punto de partida para tomar decisiones en la vida real, hacer
predicciones y evaluar sus efectos.
m10.1. Detección, clasificación y diagnósticom
Las relaciones entre el test predictor y el criterio se utilizan a menudo para hacer clasificaciones y tomar decisiones. Por ejemplo, una determinada universidad tiene esta-
268
Principios de Psicometría
blecido que se admitirá a un estudiante sólo si supera el valor de corte. Esto quiere decir
que el criterio de admisión está dicotomizado. Situaciones similares son, por ejemplo, ser o no seleccionado para un puesto de trabajo, o si se posee o no un rasgo en
cierto grado, o cuando se toman decisiones de si un paciente presenta o no una determinada patología (admitido versus no admitido, éxito versus fracaso, patológico versus
no patológico, etc.). Lo que se está suponiendo es que se establecen dos categorías
y un valor de corte, de manera que aquellos que obtengan ese valor de corte o superior, se clasifican en una de las categorías y el resto en la otra. Si se utiliza un test (o
una batería de tests cuya puntuación total sea X) para hacer esas clasificaciones en
relación con un criterio, ese test será tanto mejor como predictor, cuanto mayor sea
el número de sujetos que se clasifiquen correctamente. Para N predicciones los resultados se pueden presentar en una tabla de contingencia 2 × 2, como en la 10.1.
Tabla 10.1. Tabla de contingencia.
Resultado predicho
mediante el test
Situación real
(criterio)
Total
éxito
fracaso
Total
éxito
fracaso
a
c
b
d
a+b
c+d
a+c
b+d
a+b+c+d=N
En las predicciones del test, como se observa en la Tabla 10.1, se pueden distinguir dos tipos de aciertos, en cuanto a que son coincidentes con las observaciones o situación real (criterio). Los aciertos son los casos “a” en los que se predice
correctamente que habrá éxito, a los que se denomina verdaderos positivos y también
los casos “d” en los que se predice correctamente que no habrá éxito, o sea, que
habrá fracaso y se los denomina verdaderos negativos. Por lo tanto, el número total de
predicciones que coinciden con el criterio es a + d, siendo c + b el número de las
que no coinciden. Es decir, a + d es el número de casos correctamente predichos
por el test, siendo c + b el número de errores que se han cometido en la predicción
de N casos. Como N variará de una ocasión a otra, parece razonable que se den
valores relativos de esas cantidades, a las que se denomina tasas.
Capítulo 10. Validez: Clasificación y diagnóstico
269
Se denomina tasa de aciertos al porcentaje de predicciones correctas, esto es, a
la relación (a + d)/N expresada en porcentajes, a la que suele denominarse eficacia del test. Para la interpretación de la tasa de aciertos, se introduce otro concepto y es el de tasa base. Se denomina así a la mejor tasa de aciertos que se haya obtenido mediante otro test u otros procedimientos alternativos. Si la tasa de aciertos
hallada con el test X que se está utilizando es alta, pero inferior a la tasa base,
entonces no se considera que ese test sea un buen predictor, aun cuando la tasa
base se haya establecido por la simple observación y contabilización de casos.
Esto suele suceder, por ejemplo, en la predicción de casos raros, en los que la tasa
base de aciertos suele ser muy alta y no es fácil encontrar un test que pueda superar esa tasa base. Por lo tanto, no toda la discusión cabe hacerla basándose sólo
en la tasa de aciertos, pues puede que esa información no sea suficiente para sustentar la toma de decisiones.
En la Tabla 10.1 se observa que se pueden cometer dos tipos de errores que
son distinguibles (los casos b y los c). Sin embargo, al calcular la tasa de aciertos,
y de forma similar la de errores, ambos tipos de errores se han considerado hasta ahora equivalentes, al menos implícitamente, pues no se ha hecho aún mención a sus posibles diferencias, ni distinción alguna entre ellos. Los casos b son
falsos negativos, pues el test les pronostica fracaso y sin embargo entran en la categoría de éxito en el criterio. Los casos c son falsos positivos, pues el test les pronostica éxito y sin embargo no pertenecen a esa categoría.
Examinando el significado de los dos tipos de errores es obvio que en la mayoría de las situaciones reales ambos tipos de errores no tienen la misma importancia y que hay situaciones en las que las consecuencias derivadas de un tipo determinado de error pueden ser graves. Por ejemplo, en el diagnóstico de enfermedades
o de ciertas patologías cuya detección conduce a la aplicación inmediata de una
determinada terapia. La comisión de errores como los c llevará a que, a individuos
que no padezcan la enfermedad, se les someta a la terapia, en tanto que otros que
la padecen (falsos negativos) estarán privados de ella. La gravedad de uno u otro
error habría que juzgarla en cada caso concreto y el experto debe tenerlo muy en
cuenta al fijar el punto o valor de corte para la toma de sus decisiones. También debe
conocer y tomar en consideración la precisión (fiabilidad) de las pruebas que está
administrando. Además, ese valor de corte no se debe dar nunca como definitivo,
sino que hay que revisarlo periódicamente a la vista de nuevas evidencias. Quienes
tienen que tomar este tipo de decisiones pueden también usar la teoría de la utilidad y otras técnicas específicas dirigidas a mejorar sus decisiones.
270
Principios de Psicometría
Ejemplo 10.1
Tras aplicar un test de agresividad a 200 personas y observar posteriormente su conducta, se obtienen los datos de la Tabla 10.2. ¿Cuál es la tasa de
aciertos?
Tabla 10.2. Datos obtenidos al aplicar el test.
Resultado predicho
mediante el test
Total
Agresivo
No agresivo
Situación real Agresivo
(criterio)
No agresivo
100
10
20
70
120
80
Total
110
90
200
Hay un total de 170 aciertos (los 100 casos positivos y los 70 negativos)
entre los 200 observados. Por lo tanto, la tasa de aciertos es del 85%, que parece relativamente alta. Entonces la siguiente pregunta a la que habría que responder es ¿se puede admitir en la práctica que ese test es un buen predictor?
Otra forma de enfocar este tema es abordarlo como el análisis de las medidas
de asociación entre dos variables, la del test predictor y la del criterio (Santisteban, 1999). Los análisis son similares aunque con una perspectiva a veces ligeramente distinta en el significado de los datos (e.g., diagnóstico positivo o negativo
frente a presencia o ausencia de factor de riesgo), que está ampliamente tratada
en epidemiología y ciencias de la salud, en especial en el diagnóstico clínico.
Sensibilidad y especificidad
El efecto que tiene en la práctica el uso de un test específico también se puede
evaluar analizando su sensibilidad y especificidad. Estos dos conceptos están asociados a la potencialidad del test en cuanto a realizar una correcta identificación
de los casos cuando éstos se deben asignar a una de dos categorías.
271
Capítulo 10. Validez: Clasificación y diagnóstico
La sensibilidad se define como la relación a/(a + b). Es la fracción de verdaderos positivos (FVP), que refiere el número de éxitos o positivos predichos acertadamente por el test en relación con el total de verdaderos positivos, es decir, en
relación con los verdaderos positivos predichos por el test más los “b” que el test
ha sido incapaz de predecir. Por lo tanto, la sensibilidad refleja la capacidad que
tiene el test para identificar correctamente los casos positivos.
La especificidad se define como la relación d/(c + d), que es complementaria
con la fracción de falsos positivos (FFP). A esta relación se la denomina fracción de
falsos negativos e indica el número de verdaderos negativos (fracasos) “d” en relación con el número total de casos negativos reales, tanto los que predice adecuadamente el test, “d”, como los que no predice, “c”. Por lo tanto, se llama especificidad
a la capacidad del test para identificar correctamente los fracasos o casos negativos.
En relación con estos datos se puede valorar el valor predictivo del test en
relación con el diagnóstico, tanto de casos positivos como de negativos.
A continuación se resumen las expresiones correspondientes a estas relaciones:
Sensibilidad =
a
a+b
Especificidad =
Eficacia =
(10.1)
d
c+d
(10.2)
a +d
a +b+c+d
(10.3)
Valor predictivo para casos positivos =
a
a +c
(10.4)
Valor predictivo para casos negativos =
d
b+d
(10.5)
Ejemplo 10.2
Supóngase que un test dirigido a detectar la presencia o no de una determinada patología se administra a 100 personas y que se obtienen los resultados que se dan en la Tabla 10.3. Las categorías se han etiquetado como Sí y
No, indicando la presencia o ausencia de la patología.
272
Principios de Psicometría
Tabla 10.3. Presencia y ausencia de patología observada y diagnosticada por el test.
Resultado predicho
mediante el test
Situación real
Sí
No
Total
Total
Sí
No
8
12
2
78
10
90
20
80
100
El número total de casos con patología son 10 y sin patología son 90, pudiéndose observar que:
–
–
–
–
–
los casos de verdaderos positivos son a = 8
los verdaderos negativos son d = 78
falsos positivos hay c = 12
falsos negativos hay b = 2
La sensibilidad o FVP, la especificidad y la eficacia son:
FVP = Sensibilidad =
a
8
=
= 0.80
a + b 10
1− FFP = Especificidad =
Eficacia =
d
78
=
= 0.87
c + d 90
a+d
86
=
= 0.86
a + b + c + d 100
La especificidad es complementaria a la fracción de falsos positivos (FFP),
que es el cociente entre c y (c + d). Por lo tanto FFP = 1 – especificidad = 0.13.
El valor predictivo del test en relación con su diagnóstico es:
Valor predictivo para casos positivos:
a
8
=
= 0.40
a + c 20
Valor predictivo para casos negativos:
d
78
=
= 0.975
b + d 80
Capítulo 10. Validez: Clasificación y diagnóstico
273
A la vista de estos resultados se puede decir que la especificidad de ese test
es mayor que su sensibilidad y que, por lo tanto, tiene un valor predictivo de
negativos mayor que de positivos. Otro valor que puede derivarse de estos datos
es una primera estimación de la tasa base, que podría fijarse en 10/100 = 0.10,
pues hay 10 casos (con patología) en los 100 estudiados.
Curvas ROC
La limitación fundamental del enfoque hasta ahora expuesto estriba en la exigencia del carácter dicotómico de la respuesta del test, que no permite estudiar
casos en los que las respuestas se dan como una variable continua o discreta multicategórica. Sin embargo, aunque la variable no sea dicotómica se puede dicotomizar utilizando un valor de corte (nivel de decisión o umbral) y estudiar las tasas
de éxito (FVP) frente a la de falsas alarmas (FFP) al variar ese punto de corte, o
umbral de detección. Este procedimiento es la base del análisis mediante las curvas ROC (Receiver Operating Characteristic Curves) que se desarrollaron para la
adecuada detección de señales de radar y posteriormente se aplicaron en psicofísica, siendo hoy en día muy utilizadas en diagnóstico clínico, y en general, en todas
aquellas situaciones en las que hay que clasificar como señales los resultados obtenidos con unas determinadas medidas físicas o con mediciones psicológicas (distinguiéndolas de todo aquello que las acompaña pero que no es señal, o sea, del
ruido). Esto representa que hay que discriminar entre los verdaderos positivos
(señales) y los falsos positivos (ruido).
Para entender el fundamento de las curvas ROC supóngase que en el criterio
(situación real) las probabilidades de tener éxito y fracaso están dadas por dos curvas normales como las de la Figura 10.1, en la que la media de la variable x es
superior para los éxitos que para los fracasos. Hay una zona de valores en que
ambas curvas se solapan y es donde se cometen errores. El problema es dónde
se pone el punto de corte para separar los éxitos de los fracasos optimizando el
resultado, pues si este valor está muy a la derecha bastantes éxitos se contabilizarán como fracasos. Si se pone muy a la izquierda, se estarán contando como éxitos algunos fracasos. La solución no está en igualar el número de errores de uno
u otro tipo, pues dependiendo de cada caso en particular hay que optimizar o la
FVP o la FFP.
274
Principios de Psicometría
Figura 10.1. Distribuciones hipotéticas de los resultados de aplicar un test a una
gran población. La variable X que evalúa la respuesta se supone que es continua.
Si se elige un valor, digamos x0, al que a partir de ahora llamaremos valor de
corte se tiene que:
La FVP o sensibilidad será el área bajo la curva de éxito a la derecha de ese
valor de corte (áreas sombreadas clara y oscura).
La FFP (1 – especificidad) será el área bajo la curva de fracasos a la derecha
de dicho valor de corte (área sombreada oscura).
Si se va cambiando el punto de corte, por ejemplo a la derecha de x0 tanto la FVP
como la FFP disminuyen, es decir, aumenta la especificidad. Si por el contrario el
punto de corte se sitúa a la izquierda de x0, por ejemplo en x1, la FVP aumenta (casi
a uno) y la FFP también aumenta, por lo que la especificidad disminuye.
La curva ROC se obtiene representando en ordenadas los valores de FVP y
en abscisas los de FFP para distintos valores de corte.
El valor de corte x0 de la Figura 10.1 se corresponde con el punto representado con un rombo en la Figura 10.2. Para otros valores de corte se obtienen otras
parejas de valores FVP, FFP, que como ya se ha dicho al representarlas, dan la
curva A de la Figura 10.2, a la que se denomina curva ROC. Por lo tanto, se puede decir que una curva ROC es la representación gráfica de la sensibilidad frente a la diferencia a uno de la especificidad, es decir, de la fracción de verdaderos
positivos frente a la de falsos positivos (FVP en ordenadas y FFP en abscisas).
En la Figura 10.2 se dan como ejemplo dos hipotéticas curvas ROC obtenidas al aplicar dos tests, en las que se han considerado todos los posibles valores
de corte. Estas curvas ROC proporcionan una representación de la exactitud
alcanzada por cada test, reflejando el compromiso entre sensibilidad y especifi-
Capítulo 10. Validez: Clasificación y diagnóstico
275
Figura 10.2. Curvas ROC de los tests A y B.
cidad. Si se modifica el valor de corte para aumentar la sensibilidad, sólo puede
hacerse a expensas de disminuir al mismo tiempo la especificidad. La diagonal
principal también representada en la Figura 10.2 corresponde a la siguiente igualdad: FVP = FFP, o sea, sensibilidad = 1 – especificidad para cualquier valor de
corte.
verdaderos positivos (a )
total positivos (a + b)
=
falsos positivos (c)
total negativos (c + d)
Esta igualdad solamente se cumple si a d = b c, es decir, si los aciertos y desaciertos (en relación con el total de éxitos y fracasos) son iguales, con independencia del valor de corte utilizado, es decir son aleatorios.
La exactitud del test aumentará a medida que la curva se aleja de la diagonal
hacia el vértice superior izquierdo. Si la discriminación fuese perfecta (100% de
sensibilidad y 100% de especificidad) la curva pasaría por ese punto (FFP = 0,
FVP = 1). Así la curva A indica que es preferible utilizar este test que el que conduce a la curva B. La cuestión crítica es definir en cada caso “el valor de corte”
276
Principios de Psicometría
más conveniente dependiendo del tipo de problema que se vaya a diagnosticar,
es decir, cuanto se puede aumentar la sensibilidad a costa de la especificidad. Por
otro lado, las curvas ROC dadas en la Figura 10.2 son ideales, y se alejan de los
casos reales por varias razones: las poblaciones en las que se determina el número de éxitos y fracasos son usualmente pequeñas, pudiendo o no representar adecuadamente a la población total, las distribuciones que hemos supuesto normales usualmente se desconocen y la variable X no es continua (por ejemplo, cuando
se usa una escala de Likert con 3 o 5 posibles alternativas para la respuesta). Estos
problemas se pueden abordar utilizando los paquetes de software libre o comercial. Por ejemplo, el software que proporciona el paquete SPSS para estos análisis, obtiene los pares de valores de los puntos de cada curva ROC, así como el
correspondiente gráfico. Esto permite hacer comparaciones rápidas entre diferentes curvas, ya que la capacidad predictiva de una curva se visualiza por su alejamiento de la diagonal principal.
m10.2. Interpretaciones y uso práctico del coeficiente de validezm
La correlación entre el test y la variable criterio se puede tomar como punto de
partida para la toma de decisiones en la vida real. Al respecto se han diseñado
varios procedimientos que utilizan el coeficiente de validez para tomar decisiones, hacer predicciones y evaluar sus efectos en la práctica. Entre ellos, expondremos brevemente dos de los más conocidos, el BESD y las tablas de TaylorRusell.
BESD
El BESD (de sus siglas en inglés, Binomial Effect Size Display) está diseñado para
ilustrar cuáles son las consecuencias que en la práctica puede tener tomar decisiones basadas en el coeficiente de validez. Ha sido descrito (Rosenthal y Rubin,
1979, 1982; Rosenthal, 1990; Rosenthal y Rosnow, 2008) como un método de
fácil comprensión y con el que, utilizando cálculos muy simples, se puede poner
de manifiesto el tamaño del efecto de una variable independiente sobre la tasa
de éxito, o de mejora en la variable criterio. Este efecto se expresa como un cambio desde un porcentaje (0.50 – ρ / 2) a otro porcentaje (0.50 + ρ / 2), donde
277
Capítulo 10. Validez: Clasificación y diagnóstico
ρ representa el coeficiente de correlación entre la variable dependiente (predictora) y la variable criterio.
El método se basa en la clasificación de los participantes en dos categorías,
tanto en el predictor (puntuaciones altas y bajas en el test) como en el criterio
(buena y mala ejecución en la tarea) y en la utilización del coeficiente de correlación entre el test y el criterio para estimar el número de personas que podrían estar
en cada una de esas categorías.
Este procedimiento se ha diseñado bajo el supuesto de que hay dos grupos
de igual tamaño y que la tasa de éxito es binomial con p = 0.50. Esto es, en un
grupo de 200 personas 100 obtienen puntuaciones altas o muy altas en el test y
las que obtienen las otras 100 personas son relativamente bajas. La pregunta es
¿cuántas personas que tienen puntuaciones altas y cuántas de las que tienen puntuaciones bajas tendrán una buena ejecución en el criterio? Para dar la respuesta,
el BESD usa el coeficiente de validez, φ, obtenido mediante la ecuación:
φ=
(a d) − (bc)
(a + b) (a + c) (c + d) (b + d)
(10.6)
donde a, b, c y d tienen el mismo significado que el dado en la Tabla 10.1.
El caso más desfavorable que se podría contemplar es cuando el coeficiente
de validez fuese cero, es decir, que no hubiese correlación entre el test y el criterio. En este caso, quien tenga que tomar las decisiones basándose en un test que
le lleva a obtener una información como la dada en la Tabla 10.4, lógicamente
desechará ese test pues ¿qué puede deducirse de esta tabla que sea diferente a clasificar a una persona en una categoría u otra por puro azar?
Tabla 10.4. Ejemplo de BESD con una correlación ρ = 0.
Puntuación
en el test
Ejecución en la tarea
Total
Buena
Pobre
Alta
Baja
50
50
50
50
100
100
Total
100
100
200
278
Principios de Psicometría
Por lo tanto, se supone que el coeficiente de validez ρ, o bien φ, son diferentes de cero, y el procedimiento que se sigue es el que se da en la Tabla 10.5.
Tabla 10.5. Tabla estándar de BESD.
Condiciones:
Puntuación en el test
Fracaso
Éxito
Total
Alta
Baja
100 (0.50 + φ/2)
100 (0.50 – φ/2)
100 (0.50 – φ/2)
100 (0.50 + φ/2)
100
100
Total
100
100
200
Las principales limitaciones del BESD provienen de que los grupos con puntuaciones altas y bajas (o grupos tratamiento y control cuando se trate de tests clínicos) deben ser de igual tamaño. Además, tampoco parece que se ajuste a la realidad considerar que la tasa de éxito sea del 50%, o sea, suponer que la mitad de
la muestra tendrá éxito en el criterio y la otra mitad no. Por ello, aunque es un procedimiento muy intuitivo, algunos autores han criticado su uso (Hsu, 2004). No
obstante, este método se utiliza en el cálculo del tamaño del efecto y es útil si no
se violan sus supuestos. Presentaremos un ejemplo para ilustrar cómo este método puede ser útil, siendo importante la información que aportan incluso coeficientes de validez relativamente bajos.
Ejemplo 10.3
¿Qué podría decidir el director de recursos humanos con respecto a la
contratación de personal para su empresa si la correlación entre el test que
ha utilizado en su empresa para la selección y el criterio es de ρ = 0.60? Aplicando el procedimiento de la Tabla 10.5, se obtienen los valores dados en la
Tabla 10.6:
Según este procedimiento, se predice que 80 personas con puntuaciones bajas en el test no tendrán éxito, y que 80 con altas puntuaciones sí lo
tendrán.
279
Capítulo 10. Validez: Clasificación y diagnóstico
Tabla 10.6. Resultados BESD con ρ = 0.60.
Puntuación
en el test
Ejecución en la tarea
Total
Buena
Pobre
Alta
Baja
80
20
20
80
100
100
Total
100
100
200
Si el director de recursos humanos decide contratar a aquellos que tuvieran altas puntuaciones, puede esperar que el 80% de ellos tendrán éxito en
el trabajo para el que se les contrata, lo que no parece un mal porcentaje,
incluso es muy bueno si se puede permitir, dependiendo de las posibilidades
de la empresa y del coste de hacer la selección definitiva después de un período de prueba o de entrenamiento. Si hubiese utilizado un test con mayor validez, ρ = 0.80 por ejemplo, el porcentaje de éxitos entre los seleccionados con
las mejores puntuaciones subiría al 90%. No obstante, el director de recursos humanos puede ser que sólo pueda contratar al 10% de los aspirantes,
y no al 50%. En este caso, sería más apropiado que acudiese a otro procedimiento, por ejemplo, que hiciese uso de las tablas de Taylor-Russell, aunque también en este método, tanto el predictor (test) como el criterio se tratan como variables dicotómicas.
Tablas de Taylor-Russell
En los párrafos anteriores se ha visto que, para aceptar que un test es válido para
la toma de decisiones en relación con un criterio dicotomizado, hay que evaluar
la tasa de aciertos que se obtiene con ese test en relación con la tasa base, si se
dispone de ella y que en muchos casos el coeficiente de validez de una prueba no
es suficiente para tomar decisiones en relación con un criterio. Para ilustrarlo,
situémonos en un caso de toma de decisiones en un proceso de selección de personal. En este contexto, quien tiene que tomar las decisiones, no solamente tendrá en cuenta el valor predictivo del test y su coeficiente de validez, sino también
el porcentaje de solicitantes que puede admitir y las evidencias obtenidas mediante la aplicación de otras pruebas (por otros analistas o por él mismo), o por su
propia experiencia desempeñando el cargo. Un método que aúna estas informa-
280
Principios de Psicometría
ciones lo proporcionan las tablas de Taylor-Russell (1939), que son tan útiles como
sencillas de manejar y que han sido un antecedente de estudios posteriores realizados desde el punto de vista de la teoría de la decisión. Estas tablas permiten
conocer la ganancia neta en la selección que es atribuible al test, teniendo en cuenta la tasa base y la razón de selección. Los valores que aparecen en estas tablas
indican la proporción de personas que tendrán éxito, si para la predicción se hace
uso de las pruebas.
En esas tablas se consideran distintos aspectos, cuya información hay que
tener disponible para usarlas. Hay que conocer:
– El coeficiente de validez.
– La razón de selección, que es la proporción de solicitantes que se debe aceptar o que se van a contratar, etc.
– La tasa base, que es la proporción de éxitos de la que se tiene conocimiento, habiéndose obtenido esa información por medios diferentes al uso de
ese test.
Al depender las proporciones estimadas de éxitos que dan las tablas de estos
tres indicadores, cualquier cambio en alguno de ellos alterará la eficacia con la que
se hacen esos pronósticos.
Las tablas de Taylor-Russell son de doble entrada y hay una tabla para cada
tasa base que se considera. Las entradas de cada una de estas tablas son, por un
lado, diferentes razones de selección (0.05, 0.10, 0.20, 0.30, 0.40, 0.50, 0.60, 0.70,
0.80, 0.90, 0.95) y por la otra 21 valores diferentes de validez, dados de cinco en
cinco centésimas y ordenados en orden creciente, desde el valor del coeficiente
ρ = 0.00 hasta el valor 1.00. En el cuerpo de la tabla, para una determinada tasa
base, se da la proporción de personas seleccionadas que se considera que tendrán
éxito, de acuerdo con esos pares de valores de entrada (el coeficiente de validez
de la prueba y la razón de selección).
La mejor forma de comprender su sentido y utilidad es haciendo uso de alguna de esas tablas. Por ello, con el fin de poder ilustrar tanto los datos de sus contenidos como su significado e interpretación, en la Tabla 10.7 se da una versión
simplificada de una de esas tablas. En la práctica se debe tener disponible no una
sola, sino todas las tablas. Un conjunto completo de ellas se pueden encontrar en
otras fuentes, además de las tablas originales, que se dan y se discuten en el artículo publicado por los autores (Taylor-Russell, 1939).
281
Capítulo 10. Validez: Clasificación y diagnóstico
Tabla 10.7. Valores de la proporción de éxitos esperados para algunos valores de la razón
de selección y del coeficiente de validez de la prueba, en el caso particular
de que sea 0.60 la tasa base.
Razón de selección
Validez
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.80
0.90
0.95
1.00
0.05
0.10
0.30
0.50
0.70
0.90
0.95
0.60
0.68
0.75
0.82
0.88
0.93
0.96
1.00
1.00
1.00
1.00
0.60
0.67
0.73
0.79
0.85
0.90
0.94
0.99
1.00
1.00
1.00
0.60
0.65
0.69
0.73
0.78
0.82
0.87
0.95
0.99
1.00
1.00
0.60
0.63
0.66
0.69
0.73
0.76
0.80
0.88
0.94
0.97
1.00
0.60
0.62
0.64
0.66
0.68
0.70
0.73
0.78
0.82
0.84
0.86
0.60
0.61
0.62
0.62
0.63
0.64
0.65
0.66
0.67
0.67
0.67
0.60
0.60
0.61
0.61
0.62
0.62
0.63
0.63
0.63
0.63
0.63
Si la validez del test es 0.80 y se seleccionan el 30% de los aspirantes se espera, según la Tabla 10.7, que el 95% de los seleccionados tengan éxito. Para una
tasa base y validez dadas, la discusión sobre la información que proporcionan las
tablas y la de su utilidad se centra en el porcentaje de personas que pueden admitirse, o contratarse, o sea, en la razón de selección. Si se va a admitir a la totalidad
de los aspirantes, entonces no es necesario aplicar prueba alguna, ni por supuesto estudiar su validez. Aún más, si se van a seleccionar el 95% de los aspirantes,
tampoco parece muy útil el uso del test, pues aun en el caso hipotético de que su
validez fuese perfecta, con una tasa base de 0.60, el máximo rendimiento que se
podría obtener es elevar el pronóstico del número de personas que tendrían éxito en un 3% (véanse los valores de la primera y última fila de la última columna).
Por lo tanto, quienes tengan la responsabilidad de hacer la selección deberán valorar los costes en tiempo, recursos, etc. que suponen aplicar el test en relación con
el aumento de la precisión en el pronóstico.
Examinando detenidamente cada una de las tablas de Taylor-Russell se puede observar que al ir aumentando el valor de la validez del test crece la precisión
282
Principios de Psicometría
en la predicción, y que a medida que crece la razón de selección, decrece la precisión de la predicción. Por lo tanto, cuando hay que hacer una selección para
algún propósito determinado o contratar para un trabajo a un número elevado
de personas, aunque la validez del test sea muy alta, las probabilidades de elegir a
personas cuyo rendimiento no sea adecuado también son altas. Por el contrario,
para una determinada tasa base, si la razón de selección es muy pequeña, un test,
aun teniendo una validez baja, puede mejorar sustancialmente el resultado del
proceso de decisión, ya que mediante ese test se seleccionará sólo a aquellos que
obtengan puntuaciones muy elevadas.
Cuadro 10.1
Según Cronbach, la validez no es el grado en que un test mide aquello que
se pretende medir, sino que la validez se refiere a las propiedades de las inferencias que se pueden hacer con ese test. O sea, que la validez se refiere a
la calidad de los juicios y de las decisiones que se toman basándose en las
puntuaciones de ese test. Así, si el test se usa para contratar personal para
un determinado trabajo, la validez del test se refiere al grado en que ese test
es útil para tener éxito con esa contratación.
En 1928, Hull dijo que con los tests psicológicos muy raramente se
podrían hacer predicciones sobre el éxito en el desarrollo de una tarea (no
se obtendría una correlación con el criterio mayor que 0.30). Con esto, lo
que vino a decir es que los tests no son útiles en la selección de personal,
porque no predicen bien el éxito o el buen rendimiento en aquellas tareas
para las que se les selecciona. En su artículo, Taylor y Russell (1939) le
contestaron a Hull que a veces los tests pueden ser muy útiles en la selección de personal, incluso cuando la correlación entre el test y el criterio no
sea muy alta. A su vez, le señalaron que a veces los tests no son muy útiles para esos propósitos, aun cuando la correlación entre el test y el criterio sea alta.
Decenas de años más tarde se puede afirmar que ese artículo ha sido
uno de los más famosos en el ámbito de la psicología industrial y de las organizaciones y que en ese contexto las tablas de Taylor-Russell han alcanzado cotas de popularidad muy altas en la toma de decisiones en relación con
la contratación y selección de personal.
Capítulo 10. Validez: Clasificación y diagnóstico
283
Ejemplo 10.4
Supóngase que con una tasa base de 0.60 y con un test cuya validez es de
0.40 se han contratado 120 personas de un grupo de 400 aspirantes. ¿Cuántos de esos contratados se espera que rindan bien en su trabajo?
En este caso, la razón de selección ha sido 120/400 = 0.30, y haciendo uso
de la Tabla 10.7 se observa un valor de probabilidad de 0.78. Luego se espera
que el 78% de los 120 contratados rinda bien en el trabajo, es decir, un número aproximado de 94 de ellos.
Ejemplo 10.5
En otra empresa se juzga que es absolutamente necesario que al menos el
90% de los nuevos contratados den un buen rendimiento. Se conoce que es
0.60 la tasa base en ese puesto de trabajo. Además, visto el número de solicitantes, sólo pueden admitir al 10%, aunque el director de personal, por necesidades del servicio, está negociando la posibilidad de que se pudiera llegar a contratar hasta el 30%, si ello fuese posible, en cuyo caso, se le pide subir las
exigencias y que al menos el 95% de los contratados diera un buen rendimiento. Para realizar la selección quieren ayudarse de un test. ¿Qué validez debe tener
ese test para que se ajuste a esos requerimientos en cada uno de los casos?
Si la razón de selección es 0.10, se observa en la Tabla 10.7 que la validez
de ese test debe ser igual o superior a 0.50. En el caso en que la razón de selección pudiese alcanzar el valor de 0.30, con un porcentaje de éxitos igual o superior al 95%, el valor exigible para la validez es de al menos 0.80.
Ejemplo 10.6
En un empleo en el que la tasa base es 0.60, se necesitan 40 personas que
sean buenas trabajadoras. Para la selección se va a administrar a 100 aspirantes un test cuya validez es 0.60. ¿A cuántos aspirantes habría que contratar para asegurarse ese número necesario de buenos trabajadores?
De acuerdo con la Tabla 10.7 habría que contratar a 50 aspirantes.
En la Tabla 10.7 se pueden observar algunos datos que respaldan la respuesta
que Taylor-Russell dieron a Hull (Cuadro 10.1) acerca de la relación entre la validez y la utilidad de los tests en selección. Si un director de personal debe con-
284
Principios de Psicometría
tratar al 95% de los aspirantes, se puede esperar que un 37% de ellos no den buen
rendimiento, aun cuando utilice para la selección un test con validez unidad. Sin
embargo, si sólo contratara al 10%, es de esperar que el 100% de ellos diera un
buen rendimiento, aun cuando la validez del test fuese algo inferior, por ejemplo, 0.90. Más aún, si con esa razón de selección quien tiene que tomar las decisiones usa un test cuya validez fuese mucho menor, por ejemplo sólo 0.40, todavía podría pronosticar un 85% en el porcentaje de éxitos. Las tablas de
Taylor-Russell se pueden aplicar a multitud de situaciones en las que el criterio
esté dicotomizado y se fije la razón de selección.
Ejemplo 10.7
Un terapeuta puede establecer dos categorías de pacientes, los que mejoran sustancialmente y los que no. Sabe que su tasa base es de 0.60, ya que en
su larga experiencia ha comprobado que alrededor del 60% de sus pacientes
mejoran sustancialmente con la terapia. La demanda en su clínica es muy alta
y no puede aceptar más que al 70% de los pacientes que lo solicitan. Si para
admitir a los nuevos pacientes aplicara un test cuya validez fuese ρ = 0.80,
entonces sería considerable el aumento de su proporción de éxitos, pues sería
de 0.78, es decir un aumento de 0.18 sobre la tasa base.
Considerando todas las posibilidades y las ventajas de su uso ¿por qué no se
utilizan con mayor profusión estas tablas en algunos ámbitos, por ejemplo, en clínica? Porque uno de los mayores problemas de estas tablas es que no distinguen
entre tipos de errores, como los que se han discutido a partir de la Tabla 10.1. Es
decir, la selección que se puede hacer utilizando las tablas son estimaciones de las
probabilidades de éxito de los seleccionados, pero nada se sabe de los no seleccionados ni de sus posibilidades de éxito.
m10.3. Análisis de la utilidadm
La validez, en el marco del análisis de la utilidad, se estudia en términos de coste
y beneficio. Esto es, ¿cuánto se gana usando el test? ¿Cuál es el coste de incluir la
aplicación de tests como parte del proceso de toma de decisiones?
285
Capítulo 10. Validez: Clasificación y diagnóstico
Utilicemos un ejemplo muy simple de clasificación que tiene en la práctica
consecuencias inmediatas. En una empresa hay que tomar decisiones sobre la
contratación de personal. Los aspirantes se entrevistan con el dueño de la empresa y con el director de personal, quienes acuerdan de forma independiente que
van a hacer la clasificación de los aspirantes en tres categorías: los que se contratarían directamente (categoría A), los que se rechazarían (categoría B) y los que
se contratarían o no después de un período de prueba (categoría C). Una vez realizada la clasificación, cuyos resultados se presentan como Ejemplo 10.8, lo que
en primer lugar hay que preguntarse es ¿cuál es el grado de coherencia, entre
ambos? Si sus opiniones no son concordantes ¿deberían afrontar algunos costes
y aplicar otras pruebas para tomar las decisiones?
Por lo tanto, el análisis de la utilidad en estos contextos está relacionado con
la forma de llevar a cabo los procesos de clasificación, que en la práctica se realizan por muchas vías. Formalmente se pueden abordar desde las técnicas estadísticas de análisis multivariante, como los análisis de cluster o el análisis discriminante
en el que se pueden incluir los costes asociados a una mala clasificación, o mediante fórmulas muy simples sobre la coherencia entre decisores (jueces), como el
coeficiente kappa.
Cuadro 10.2
El coeficiente kappa, κ, se genera para tratar de evaluar la coherencia entre
el diagnóstico que han emitido diferentes personas con los mismos datos, o
las calificaciones dadas por diferentes jueces, o las obtenidas por diferentes
métodos, etc. Es un coeficiente sencillo que puede ser negativo y cuyo límite superior es el valor uno. Se basa en el número total de casos analizados y
en las frecuencias con las que se dan las coincidencias entre jueces.
Parece lógico que cuando dos jueces analizan un número N de casos
la proporción (o la frecuencia relativa) de coincidencias entre ellos supere
aquella que podría esperarse por azar. Por lo tanto, si es N el número de
casos analizados, fc la frecuencia (absoluta) de coincidencias observadas
y f e la de coincidencias esperadas, el coeficiente kappa responde a la
expresión:
κ=
fc − fe
N − fe
(10.7)
286
Principios de Psicometría
Ejemplo 10.8
En el caso que nos ocupa, el empresario ha clasificado a 33, 45 y 42 personas respectivamente en las categorías A, B y C y el director de personal ha
asignado 41, 45 y 34 personas en cada una de esas categorías. Calcule el valor
del coeficiente kappa para estas clasificaciones.
Tabla 10.8. Distribución de la clasificación de 120 aspirantes en tres categorías
realizada por los dos jueces.
Director de personal
Totales
Empresario
A
B
C
Totales
A
B
C
15
10
16
8
25
12
10
10
14
33
45
42
41
45
34
120
La frecuencia total de coincidencias es fc= 15 + 25 + 14 = 54.
Las frecuencias esperadas para las casillas (A, A), (B, B) y (C, C) son
fAA =
(33)(41) = 11;
120
fBB =
(45)(45) = 17 ;
120
fCC =
(34)(42) = 12
120
por lo que fe = 11 + 17 + 12 = 40. Haciendo uso de la ecuación (10.7):
κ=
54 − 40
= 0.17
120 − 40
se obtiene un valor del coeficiente κ que indica que la concordancia entre ambos
jueces es muy débil, aunque para ser rigurosos se debería contrastar estadísticamente si ese valor es significativamente diferente de cero.
Aun cuando este método sólo proporciona información sobre la coherencia
entre jueces en cuanto al número de clasificados, en la literatura se pueden encontrar muchos otros índices obtenidos por diversos procedimientos estadísticos para
Capítulo 10. Validez: Clasificación y diagnóstico
287
evaluar el grado de acuerdo entre jueces u observadores. Los resultados del Ejemplo 10.8 pueden ser un buen argumento para valorar la utilidad de administrar
pruebas específicas que ayudarán a esos empresarios en su toma de decisiones.
La utilidad también se puede evaluar en relación con las decisiones derivadas
de las tablas de Taylor-Russell, como propusieron los propios autores. La cuestión clave aquí es cuál es la mejor estrategia para aumentar la utilidad, ya que la
tasa de éxitos se puede incrementar aumentando el coeficiente de validez, aumentando la tasa base y/o disminuyendo la razón de selección.
El estudio de la utilidad lo hacen expertos, basándose en un modelo de utilidad
y asignando valores monetarios a diferentes aspectos del proceso de toma de decisiones. Se estima, por una parte, el beneficio económico que conlleva tomar decisiones utilizando el test frente a no utilizarlo, pues el uso del test puede aumentar el
porcentaje de éxito entre los seleccionados. Por otra parte, se valora el coste añadido que conlleva utilizar tests en el proceso. Es decir, el coste en términos monetarios de su adquisición, administración, la valoración e interpretación de las puntuaciones, etc., para lo que se requiere también contratar personal especializado en esas
tareas, así como los costes en tiempo que lleva la realización de todo ese proceso.
Desde una perspectiva economicista, el empleador puede valorar la relación
coste-beneficio al utilizar unos u otros procedimientos en la toma de decisiones
y asumir o no los posibles riesgos de contratar un número mayor o menor de personas no idóneas para el puesto de trabajo.
Para el aspirante, los costes de la no distinción entre errores (falsos positivos
y falsos negativos), como sucede por ejemplo con el uso de las tablas de TaylorRussell, pueden ser muy elevados, pues puede verse rechazado para cursar estudios en una universidad o para un puesto de trabajo, aun teniendo las condiciones necesarias para acceder a ello.
En la teoría de la utilidad se pueden proponer diferentes estrategias. Una muy
simple es estimar las probabilidades p i de cada una de las n posibilidades o alternativas que se van a considerar (Σ p i = 1), asignarles un valor de utilidad esperada ui a cada una de ellas y calcular la utilidad esperada U como la suma:
U = ∑ pi u i
n
i=1
con lo que se pueden comparar valores bajo diferentes supuestos.
(10.8)
288
Principios de Psicometría
Ejemplo 10.9
Siguiendo la estrategia que se presenta en la Figura 10.3, se desea conocer
la utilidad esperada con los datos presentados en el Ejemplo 10.3 (Tabla 10.6).
Figura 10.3. Utilidades en una toma de decisión.
Se considerarán las proporciones de cada casilla como sus probabilidades
esperadas, siendo la utilidad esperada:
U = 0.80 + 0.20 (– 0.75) + 0.80 (0.90) + 0.20 (– 0.50) = 1.27
Obsérvese que para quienes toman la decisión los errores son distinguibles y
no se les asigna el mismo peso, considerando en este caso mayor el de los falsos
positivos que el de los falsos negativos, pero en otros supuestos podría ser al contrario, que fuese mucho más grave (mayor pérdida) rechazar a un idóneo (o diagnosticar como negativo a uno que sea positivo), que admitir a uno que no lo sea.
Las estrategias para calcular la utilidad esperada dependen de los objetivos, de
las posibilidades y de las condiciones concretas en las que se lleva a cabo la selección en cada caso. Por ejemplo, una estrategia de clasificación previa en tres categorías similar a la del Ejemplo 10.8, pero basándose en las puntuaciones de los aspirantes en pruebas específicas, requeriría que se actuara en dos fases y la aplicación
de al menos dos tests. Aquí se trataría de aplicar una prueba y fijar los puntos de
Capítulo 10. Validez: Clasificación y diagnóstico
289
corte con mucha rigurosidad. Decidir sobre aquellos que obtengan las puntuaciones extremas, aceptándolos en un caso y rechazándolos en el otro. A todos aquellos que estaban dudosos, se les aplica una nueva prueba, se fijan los valores de corte y se aceptan o rechazan de acuerdo con las puntuaciones en esa nueva prueba.
Esta forma secuencial de actuar puede estructurarse en dos o más pasos y suele ser
una estrategia común en la evaluación del rendimiento escolar y en empleos en los
que antes de la contratación se exige un tiempo de prueba o de aprendizaje.
Las estrategias en el planteamiento y los procedimientos para el cálculo de la
utilidad usando tests se basan en la teoría de la utilidad propuesta por Von Neumann y Morgenstern (1944) cuyo cuerpo teórico e implicaciones prácticas en el
caso de la toma de decisiones bajo riesgo constituyen por sí solas una disciplina
(para ver la axiomática y su tratamiento consúltense Von Neumann y Morgenstern, 1944; Luce y Raiffa, 1957; Fishburn, 1964, 1970). El breve apunte que se da
en este texto cumple dos objetivos, por un lado, dar a conocer una vertiente importante en las aplicaciones y por otro, poner una vez más de manifiesto que en la
toma de decisiones, aun haciendo uso de los tests psicométricos, no es sólo el
coeficiente de validez del test lo que se tiene en cuenta. De hecho, se pueden
encontrar en la literatura numerosos tratados (e.g., Cronbach y Gleser, 1965; Wiggins, 1988; Vance y Colella, 1990) sobre las implicaciones que tiene el uso de las
pruebas psicométricas en la toma de decisiones.
Los valores de la utilidad esperada no dan por sí mismos mayor información
si no se los compara con algún valor de referencia. Usualmente se usan para comparar diversos métodos o estrategias. El método de selección o el procedimiento
que produzca la mayor utilidad esperada es el que se considera el mejor.
Ejemplo 10.10
Se han considerado dos posibles métodos de selección, el método A con el
que se obtienen las probabilidades de 0.19, 0.10, 0.15 y 0.56 para verdaderos
positivos, falsos positivos, falsos negativos y verdaderos negativos respectivamente, y el método B con el que esas probabilidades son: 0.20, 0.18, 0.28 y 0.34.
Las utilidades de los diferentes resultados de la selección (verdaderos positivos,
falsos positivos, falsos negativos y verdaderos negativos) son, respectivamente,
1, – 0.40, – 0.20 y 0.30. Aplicando la expresión (10.8) se obtienen las siguientes
utilidades esperadas: uA = 0.288 y uB = 0.174, lo que llevaría a la elección del
método A, que es el que produce mayor utilidad esperada.
290
Principios de Psicometría
Usualmente la parte que entraña mayor dificultad es la asignación de las utilidades asociadas a las distintas posibilidades. Esta asignación no es una cuestión
que se pueda resolver directamente mediante algún procedimiento estadístico,
sino que es un problema que deben resolver conjuntamente los técnicos (psicómetras, estadísticos) y los profesionales de aquellos sectores que se van a ver
influenciados por los resultados de esas decisiones (psicólogos, educadores, empresarios, etc.), no debiéndose dejar estas asignaciones exclusivamente en manos de
aquellos que administran las pruebas.
Puntos clave
3
3
3
3
3
3
3
3
3
3
El que el coeficiente de validez entre un test y el criterio sea elevado, no siempre es suficiente para asegurarse el éxito en las predicciones.
La terminología usual para denominar a los casos en los que se confirman o no
las predicciones del test es verdaderos y falsos positivos y verdaderos y falsos
negativos.
A la capacidad de un test para identificar correctamente los verdaderos positivos
se le llama sensibilidad y se evalúa mediante la fracción de verdaderos positivos.
A la capacidad del test para identificar los verdaderos negativos se le denomina especificidad.
La eficacia del test se evalúa por el cociente entre el total de aciertos (verdaderos positivos más verdaderos negativos) y el total de casos clasificados.
Las curvas ROC se utilizan tratando de optimizar una solución en la que se busca un compromiso entre las tasas de falsos y verdaderos positivos.
El tamaño de los efectos asociados a algunos experimentos se puede calcular
mediante el método BESD, aunque sólo son útiles con datos presentados en
tablas 2 × 2 donde el coeficiente φ calculado con esos datos se emplea como
el índice del tamaño del efecto.
Las tablas de Taylor-Rusell pueden ser de mucha utilidad en algunos procesos
de selección de personal.
El coeficiente de validez no es el dato definitivo para realizar una buena elección
utilizando un test. La influencia de factores como la razón de selección y la tasa
base se puede comprobar usando las tablas de Taylor-Rusell.
La optimización de las decisiones requiere que en el estudio de los procesos de
decisión y de su validez se examinen los posibles problemas de clasificación y
coherencia entre los posibles decisores y el análisis de la utilidad esperada en
relación con las predicciones.
Capítulo 10. Validez: Clasificación y diagnóstico
291
Actividades
r Con los datos de la Tabla 10.2, calcule las diferentes tasas y comente si ese
test se puede considerar un buen predictor de la agresividad.
r Considerando algunas situaciones de la vida real, discuta la diferencia entre
tipos de errores y la importancia de sus consecuencias.
r En los casos que antes ha considerado ¿qué papel juega el test predictor y
su validez?
r Haga un supuesto donde considere que es útil aplicar el método BESD y
discuta los resultados. ¿Son diferentes esos resultados si utiliza un test de
validez conocida o el coeficiente φ construido a partir de los datos?
r Genere unos datos y construya curvas ROC para diferentes puntos de corte con ayuda del programa SPSS. Discuta los resultados.
r ¿Qué sucedería en el caso anterior si se fuese muy conservador en cuanto
a la prevención de falsos negativos?
r Del artículo How are we doing in soft psychology? (Rosenthal, 1990) coméntese, desde el punto de vista de la validez en las predicciones, los datos que
se dan acerca del efecto de un medicamento en enfermos de SIDA.
r Plantee una discusión sobre dos supuestos, uno en el que las tablas de
Taylor-Rusell resulten muy útiles para emitir un pronóstico y otro en el
que no lo sean.
r Escriba una breve reflexión sobre la información que proporcionan las
tablas de Taylor-Rusell en cuanto a la ganancia neta que en la selección
es atribuible al test, teniendo en cuenta la tasa base y la razón de selección.
r En la literatura se usan los cuadrantes de Taylor-Rusell para discutir los
efectos de las variaciones en la validez (no se dan en este texto). Esta actividad consiste en su búsqueda y lectura antes de realizar las tres actividades que siguen.
r La admisión en unos determinados estudios de una universidad se realiza
con un test. Imagine (genérelos) que tiene los datos de 200 aspirantes. Haga
un gráfico representando en abscisas las puntuaciones en el test (positivas
y negativas) y en ordenadas las del criterio (positivas y negativas). Fije ahora un valor de correlación (validez) entre ambas variables, marque diferen-
292
r
r
r
r
r
Principios de Psicometría
tes puntos (pares x, y) del plano y delimite el área. Estudie ahora las variaciones de esa área (elipse) con variaciones en el coeficiente de validez.
En relación con el ejercicio anterior, a medida que crece el coeficiente de
validez, ¿la elipse es más ancha o más estrecha?
Compare sus experiencias en los dos ejercicios anteriores con los diagramas que en la literatura suelen acompañar a las explicaciones de las tablas
de Taylor-Rusell (los cuadrantes de Taylor-Rusell).
Discuta por qué un test dirigido a la selección de personal puede no ser
útil, aun cuando tenga una validez muy alta, pudiendo sin embargo serlo
otro con menor coeficiente de validez.
Comente el artículo “La utilidad del análisis de la utilidad” mencionado en
este texto (Vance y Colella, 1990).
Usando los datos de la Tabla 10.6 (resultados obtenidos usando el método BESD), calcule y comente los valores de la utilidad esperada haciendo
distintos supuestos sobre los costes de una mala clasificación.
Teoría de la respuesta al ítem
Aspectos generales
11
En capítulos anteriores se ha tratado la teoría de los tests desde la perspectiva de la TCT. La teoría de la respuesta al ítem (TRI) es otro enfoque en la teoría de los tests que supera algunas limitaciones y resuelve
algunos problemas de medición que no se pueden abordar desde la TCT.
El núcleo de la TRI es que la probabilidad de dar una respuesta correcta a un ítem depende de la aptitud individual para resolver ese ítem y
de las características psicométricas de ese ítem, pudiéndose estimar el
nivel de aptitud del sujeto a partir de su respuesta al ítem. Ésta es una
diferencia esencial con la TCT, en la que las inferencias de los niveles
individuales en el rasgo siempre hay que hacerlas con referencia al denominado grupo normativo. Los modelos de la TRI son modelos no lineales que adoptan varias formas que permiten su aplicabilidad a distintos
tipos de tests. Estos modelos permiten conocer cómo se comporta de
forma individualizada cada uno de los ítems de un test, en lo que se
diferencian también de los de la TCT, que sólo permiten estudiar el
comportamiento del test completo o de determinados subconjuntos de
ítems.
En este capítulo se va a tratar:
ã Los orígenes y los objetivos de la TRI.
ã Los supuestos de unidimensionalidad e independencia local.
ã Qué es la curva característica del ítem.
ã Las principales diferencias con la TCT y las conexiones entre el
parámetro aptitud θ en la TRI y la puntuación verdadera V en la
TCT.
294
Principios de Psicometría
m11.1. Orígenes y objetivos de la teoría de la respuesta al ítemm
La TRI es relativamente más reciente que la TCT. Durante algunas décadas de
mediados del siglo XX se desarrolló gran parte del cuerpo teórico bajo denominaciones tales como teoría del rasgo latente, modelos de rasgo latente y modelos estructurales latentes, y de otras tales como teoría de la respuesta a los ítems y teoría de la curva característica del ítem. Esas denominaciones se han sustituido por la denominación genérica
de teoría de la respuesta al ítem (TRI), por la que algunos autores como Lord
(1980) mostraron sus preferencias, y que toda la comunidad científica ha admitido, pues se ha considerado que es la que mejor se ajusta al concepto y a los métodos de construcción de tests que patrocinan dichas teorías. No obstante, con independencia de lo que actualmente se entiende por latencia del rasgo, había cierta
justificación en que se utilizaran denominaciones tales como teoría del rasgo latente, pues una vez establecidas las bases teóricas e identificado el rasgo en términos
de variables observables, el modelo psicométrico especifica la relación entre las
puntuaciones empíricas de los sujetos y la característica o rasgo, que se supone que
es el responsable de dicha puntuación, pero que no es directamente medible, sino
a través de esas manifestaciones.
Una de las razones de la gran influencia y desarrollo de los modelos TRI es que
formalmente describen cuánta influencia tiene el rasgo individual en la obtención de
una determinada puntuación en cada uno de los ítems de un test. Se obtienen así
mediciones que no varían, ni en función de las características específicas del grupo
de personas al que se evalúa, ni del instrumento utilizado. Esta pretensión de invarianza es lo que impulsa la TRI, rompiendo el cerco que imponen los modelos TCT,
en los que las características del test se establecían a través de las características de
los sujetos evaluados, y viceversa. Esto obliga a que cuando un test que se ha construido con métodos TCT se quiere administrar a sujetos de una población que se
presuma que es diferente a la del grupo normativo en algún aspecto (e.g., en edad,
contexto cultural, grado de instrucción, nivel socio-económico, etc.), hay que volver
a estudiar las propiedades psicométricas del test, esto es, su fiabilidad y su validez.
Por ello, el hecho de que en la TRI se dé la invarianza de las puntuaciones, esto es,
que el nivel en el rasgo que se le estime a una persona no dependa directamente de
que se utilice un test u otro, ni de las características del grupo al que esa persona pertenece, es una de las razones que la hacen más atractiva en la construcción de tests.
En la TCT la puntuación en el test se obtiene mediante la suma, o suma ponderada, de las puntuaciones del sujeto en cada uno de los ítems del test. Gene-
Capítulo 11. TRI: Aspectos generales
295
ralmente, no se puede predecir cómo se respondió individualmente al ítem, a
menos que los ítems hayan sido administrados a individuos muy similares. Las
referencias en la predicción siempre quedan limitadas a las características del grupo normativo que vienen reflejadas en los parámetros estadísticos que describen el
test. Desarrollar modelos que permitan predecir las propiedades estadísticas y psicométricas de los tests cuando se apliquen a cualquier grupo de sujetos, así como
poder estimar el nivel individual de la aptitud del sujeto, sin tener necesariamente que hacer referencias al grupo normativo, es uno de los grandes logros de la
TRI. Esto da lugar a nuevas aplicaciones, incluso permite construir tests a la medida, pues a partir de la respuesta individual a unos pocos ítems, se puede elegir, de
entre un conjunto disponible de ítems, el que se le va a administrar a continuación. Después de repetir el procedimiento tantas veces como se considere pertinente, se puede predecir la aptitud o destreza del sujeto con la precisión deseada
y también se puede conocer la cuantía con que cada ítem del conjunto ha participado para medir cada nivel de aptitud.
Por lo tanto, la TRI proporciona modelos en los que, tanto los ítems como
los sujetos, se pueden describir separadamente mediante sus propios parámetros,
de tal manera que se puede predecir, en términos de probabilidad, la respuesta de
cualquier sujeto a cualquier ítem, aun cuando no se tengan los datos de cómo individuos similares hubieran resuelto ítems análogos. O sea, la probabilidad individual de acertar un ítem es independiente de cómo se distribuya la aptitud en la
población a la que pertenece. Las relaciones que explicitan cómo cada respuesta
depende del nivel o grado que se posee en el rasgo son funciones de respuesta al
ítem matemáticamente formalizadas.
Los orígenes de los modelos pueden encontrarse en Lawley (1943, 1944),
e incluso con anterioridad (Richardson, 1936), pero el primer estudio formal y la
introducción del término rasgo latente lo realizó Lazarsfeld en 1950 en su obra The
logical and mathematical foundation of latent structure analysis, aunque los métodos estadísticos desarrollados por Lazarsfeld y sus colaboradores difieren en muchos
aspectos de los que se han empleado posteriormente. La obra Probabilistic models
for some intelligence and attainment tests del matemático danés Rasch, publicada en
1960, marca un hito en la historia de estos modelos. Puede decirse que es el estudio del modelo de Rasch el que ha generado más investigación y del que se han
derivado un gran número de modelos, ofreciendo muchas posibilidades en diversas aplicaciones. Una de las figuras más representativas como estudioso y divulgador de la TRI ha sido Lord (1952, 1953a, 1953b, 1980), especialmente a raíz de
296
Principios de Psicometría
la publicación del libro Statistical theories of mental test scores (Lord y Novick, 1968),
en el que el tratamiento de los temas dedicados a la TRI corre a cargo de Birnbaum, quien hace una excelente contribución, tanto en la forma como en el contenido. No obstante, la TRI no se comienza a extender en diversos ámbitos hasta más de diez años después de esta publicación. La razón por la que esta teoría
tuvo escaso eco en su proyección hacia las aplicaciones en las décadas de los años
cincuenta y sesenta del siglo XX es la de su complejidad matemática, que conlleva la exigencia de métodos de cálculo y de análisis que no se han podido abordar
en intensidad hasta que ha ido creciendo la capacidad computacional de los ordenadores. A partir de entonces se han ido generando programas específicos y actualmente se dispone de una gran variedad de paquetes de software tales como BICAL,
BILOG, ConQUEST, LOGIST, MSPWIN, MULTILOG, PARSCALE y
XCALIBRA. Paralelamente han proliferado los trabajos científicos abordando
distintos aspectos, muy especialmente en la búsqueda de métodos que proporcionen la mayor precisión en la estimación de los parámetros y métodos de ajuste para distintos modelos, así como la divulgación de sus aplicaciones a distintas
áreas del ámbito psicológico y educativo. Mucha es por lo tanto la literatura científica que actualmente rodea a este tema, tanto desde la perspectiva teórica como
desde las aplicaciones, de las que ya Lord (1980) daba una relación, no exhaustiva, pero sí bastante completa, de la que citamos:
– Generar bancos de ítems, ya que se puede hacer la estimación de los parámetros invariantes que describen cada ítem de un test.
– Estimar las características estadísticas de un test para cualquier grupo específico.
– Determinar cómo varía la eficacia de un test a través de distintos niveles
de aptitud.
– Comparar la eficacia de diferentes métodos de puntuación del test.
– Seleccionar ítems para construir tests convencionales y/o rediseñarlos.
– Diseñar y evaluar tests individualizados: tests a la medida.
– Realizar estudios de equiparación entre pruebas y del sesgo de los ítems.
La TRI actualmente se aborda de forma diferenciada de otros modelos y técnicas con las que está conectada, como son los modelos de estructura latente,
a los que se ha hecho referencia en la introducción general a los modelos en el
Capítulo 1.
Capítulo 11. TRI: Aspectos generales
297
m11.2. Aspectos generalesm
La TRI se fundamenta en que las respuestas de los sujetos a los ítems dependen
del nivel individual en el rasgo θ, de la dificultad del ítem, y que de la respuesta al
ítem se puede inferir el nivel de aptitud del sujeto en el rasgo que se pone en juego al responder a ese ítem. Se han propuesto distintos tipos de modelos no lineales que permiten describir las relaciones entre los rasgos y las respuestas que se
dan a los ítems, en términos probabilísticos. Los modelos básicos que se han clasificado como modelos TRI son los modelos ojiva normal, los logísticos y el modelo de Rasch. Todos ellos tienen en común:
–
–
–
–
la unidimensionalidad (dimensionalidad del espacio del rasgo).
la independencia local de los ítems.
su identificación con la forma de su curva característica del ítem.
la relación entre la dificultad del ítem y el nivel estimado en el rasgo.
Dimensionalidad del espacio del rasgo
La dimensionalidad de una prueba se refiere al número de factores o dimensiones necesarios para dar debida cuenta del rasgo que se pretende evaluar mediante esa prueba. Si un solo factor es suficiente para explicarlo adecuadamente, entonces se dice que el rasgo es unidimensional y el modelo psicométrico con el que
se hace la medición también será unidimensional.
Una de las características que son comunes a todos los modelos TRI básicos
es la de la unidimensionalidad del rasgo. Implícitamente se está considerando la
unidimensionalidad cuando se establece que la respuesta depende del nivel individual en el rasgo y de la dificultad del ítem, pues se está suponiendo que un solo
rasgo da cuenta de la actuación del sujeto en el ítem. El que los modelos básicos
sean unidimensionales no es óbice para que en el contexto de la TRI se hayan
desarrollado modelos con más dimensiones. La TRI incluye tanto modelos unidimensionales como multidimensionales.
En principio, cualquier rasgo se puede suponer que está compuesto por un
cierto número k de componentes, factores o dimensiones, pudiéndose representar θ mediante el vector:
r
θ = ( θ1 , …, θi , …, θk )
298
Principios de Psicometría
Al representar θ mediante un vector de k componentes, se está considerando que cada una de esas componentes se corresponde con cada una de las dimensiones y que, por lo tanto, cada una de las θi se comporta como una variable aleatoria. Cada sujeto evaluado mediante la prueba obtendrá el vector de sus
puntuaciones en cada una de las componentes. Por lo tanto, el espacio de θ es
un espacio k-dimensional con k ≥ 1, siendo unidimensional cuando k = 1 y donde
cada una de las componentes θi podrá tomar distintos valores dentro de su rango de variación. Por ejemplo, si un sujeto, llamémosle MC, cumplimenta tres
ítems sobre razonamiento abstracto, sus respuestas a esos ítems dependerán de
la dificultad de cada uno de los ítems y del nivel que MC posea en ese rasgo. Por
lo tanto, se está suponiendo la unidimensionalidad del rasgo. Ahora bien, si a
MC se le va a evaluar su nivel de agresividad y para ello cumplimenta un cuestionario que da cuenta de cuatro factores o dimensiones de la agresividad (véanse Apartado 9.5 y Cuadro 9.6), entonces se obtendrán cuatro valores, uno por
cada una de las cuatro dimensiones consideradas: agresividad física, verbal, ira y
hostilidad, con independencia de cuántos elementos incluye el vector de puntuaciones en cada una de ellas, es decir, del número de ítems utilizados para la
evaluación de cada dimensión.
El espacio del rasgo estará completo cuando contenga todas las componentes necesarias para describirlo adecuadamente, dando por supuesto que sólo estarán incluidas las más relevantes, puesto que en la práctica no es posible recoger
todas y cada una de las dimensiones que en menor grado pudieran estar implicadas. El número de componentes que cumpla ese requisito es el que da la dimensión de ese espacio. Generalmente se asume que una sola aptitud o rasgo es necesario para explicar o dar cuenta de la actuación del individuo en el test. Cuando
se parte de este supuesto se generan los denominados modelos unidimensionales. Los
modelos que suponen la existencia de dos o más rasgos son modelos multidimensionales (Bock y Aitkin, 1981; Mulaik, 1972; Samejima, 1974; Whitely, 1980). Estos
modelos son menos frecuentes en la literatura por su mayor complejidad, ya que
implican la estimación de un número mayor de parámetros.
En la práctica, para determinar las dimensiones del rasgo se han propuesto
diversos métodos, aunque generalmente se hace uso de las técnicas del análisis
factorial, tanto exploratorio como confirmatorio, utilizando los datos de una muestra lo suficientemente amplia y asegurándose de que cada una de las dimensiones
que se supone a priori que componen el rasgo posee al menos un ítem que dé
cuenta de ella. En el proceso de construcción de las pruebas se deben verificar
Capítulo 11. TRI: Aspectos generales
299
los supuestos que se hayan hecho sobre la dimensionalidad. Lo más usual es que
se comprueben los de unidimensionalidad, con el fin de conocer en qué grado
influye en los resultados la violación de esos supuestos. Por lo tanto, la comprobación de la unidimensionalidad ha sido un tema muy estudiado y se han propuesto numerosos índices para dar cuenta de ella. El análisis factorial exploratorio es la técnica más utilizada, pues proporciona información sobre el porcentaje
de la varianza total que se puede explicar por uno solo de los factores. Un solo
factor difícilmente puede explicar toda la varianza, pero se puede comprobar si
lo hace en un porcentaje suficiente para considerar la unidimensionalidad, sobre
todo si el resto de la varianza se distribuye entre varios factores, sin que ninguno
de ellos detente un valor significativo. Ésta es una decisión en cierto modo subjetiva y se necesitan análisis rigurosos al respecto. Una solución entre las muchas
que se han propuesto consiste en comparar la varianza del primer factor con la
del segundo en importancia (Lumsden, 1961). Otra solución es hacer esa comparación, pero en lugar de calcular el cociente entre las componentes de la varianza, utilizar las raíces latentes obtenidas de la matriz de correlaciones tetracóricas
entre los ítems (Lord, 1980). A efectos prácticos conviene saber que para comprobar la robustez de los modelos TRI ante las violaciones de los supuestos de
unidimensionalidad se han realizado múltiples estudios experimentales y de simulación, comprobándose que estos modelos son bastante robustos, es decir, que
las soluciones son bastante estables no sólo cuando no se cumplan estrictamente esos supuestos, sino ante desviaciones moderadas.
Independencia local
La independencia local establece que, en cualquier grupo de sujetos, todos caracterizados por los mismos valores θ1, …, θk, o sea, por el mismo vector de aptitud, lasrdistribuciones condicionadas de las puntuaciones de los ítems a los valores de θ son todas mutuamente independientes. Es decir, la probabilidad de que
un sujeto responda correctamente a un ítem del test no está afectada por las respuestas dadas a otros elementos o ítems del test,r siempre y cuando se consideren
estas puntuaciones condicionadas a un cierto θ dado. Por lo tanto, la independencia local es una consecuencia inmediata de la elección de θ1, …, θk.
El supuesto de independencia local en estos modelos está en relación con lo
que en estadística se entiende como independencia estocástica, en donde se
300
Principios de Psicometría
demuestra que las variables X1, X2, …, Xn con función de probabilidad conjunta f(X1, X2, …, Xn ) son mutuamente independientes, si y sólo si:
f (X 1 , X 2 , …, X n ) = f1 (X 1 ) f2 (X 2 ) … fn (X )
donde f1(X1 ), f2(X2 ), …, fn(Xn ) son las correspondientes distribuciones marginales. Por consiguiente, para expresar formalmente la independencia local diremos que entre los ítems j = 1, 2, …, n se da la independencia local si para cualquier conjunto fijo de valores θ1, θ2, …, θk la distribución conjunta, f, de las
puntuaciones de los ítems Xj se puede expresar como producto de las distribuciones marginales correspondientes:
(
)
(
)
f X 1 , X 2 , …, X n θ = ∏ f j X j θ
n
j= 1
(11.1)
Si se considera la distribución de las puntuaciones del ítem 1, condicionada a
las del resto de los ítems, para un determinado valor de θ, se tiene que:
h 1 ( X 1 θ ; X 2 , …, X n ) = f1( X 1 θ)
(11.2)
que se obtendría como el cociente
f ( X 1 , X 2 , …, X n θ)
f ( X 2 , …, X n θ)
∏ f j( X j θ)
n
=
j=1
n
∏ f j( X j θ)
= f1( X 1 θ)
(11.3)
j=2
lo que demuestra que, bajo el supuesto de independencia local, la distribución h1
de X1 para valores fijos de θ no depende de las otras variables X2, …, Xn. Lo que
de forma análoga se puede afirmar para cualquier f j ( X j θ) .
La independencia local conlleva independencia entre ítems e independencia entre sujetos. La independencia entre ítems muestra que, para un nivel dado
de rasgo, cualquier par de ítems es localmente independiente, si las puntuaciones que el sujeto obtiene en ellos son independientes. Por lo tanto, la probabi-
Capítulo 11. TRI: Aspectos generales
301
lidad de que un sujeto conteste correctamente a ambos ítems es el producto de
las probabilidades de acierto en cada uno de ellos. La independencia local entre
sujetos presupone la independencia de las puntuaciones entre los sujetos que
responden al test, en que cada uno de los sujetos estará caracterizado por su
nivel en el rasgo θ. Así, si el sujeto A tiene una probabilidad pA = 0.3 de responder correctamente a un ítem y la del sujeto B es pB = 0.8 cuando responde
al mismo ítem, y si las respuestas de ambos sujetos son localmente independientes, la probabilidad de que ambos sujetos respondan acertadamente a ese
ítem es pA pB = (0.3) (0.8) = 0.24.
Si se produce el simple hecho de que responder a un ítem antes que a otro, o
que la respuesta dada a un ítem influya sobre la que se deba dar a otros ítems,
entonces, los ítems no son localmente independientes. Si el cambio de orden en
la administración de un conjunto de ítems influye en la ejecución del test, los ítems
no son localmente independientes. Si existen interferencias o influencias de cualquier tipo entre los sujetos respecto de las respuestas que dan a los ítems, entonces las puntuaciones de los individuos no son independientes. En cualquiera de
los casos de no independencia entre ítems o entre sujetos, la utilización de un
modelo TRI sería inapropiada. Estas circunstancias de no independencia no tienen relación ni tienen conexión alguna con cierta confusión que a veces se crea
al considerar que los ítems no pueden ser independientes porque miden el mismo rasgo. La independencia no es una cuestión de que todos los ítems estén
haciendo la medición de un mismo rasgo, sino de que dado un nivel del rasgo, la
probabilidad de respuesta correcta a un determinado ítem depende sólo del nivel
que se posee en ese rasgo (y de la dificultad del ítem), y no de cuántos ítems están
midiendo ese rasgo o de cuántos individuos están situados en ese mismo nivel.
Veamos algunas cuestiones relacionadas con la independencia.
Los modelos básicos TRI son modelos de respuesta dicotómica y, en general,
se sigue la notación de Lord, para ítems binarios, expresándose formalmente la
independencia local como sigue.
Ítems binarios
Para ítems binarios, en que se asigna el valor cero en el caso en que la respuesta
haya sido incorrecta y el valor uno si la respuesta es correcta, la hipótesis de independencia local para ítems g se traduce en que:
302
Principios de Psicometría
n
P( U 1 = u1 , …, U n = u n !) = ∏ P( U g = u g !)
(11.4)
g=1
donde Ug puede tomar los valores cero o uno.
La probabilidad, condicionada a un ! dado, de una respuesta correcta a un
ítem binario g, Pg (!) que denotaremos a veces simplemente por Pg es:
(
)
Pg = Pg (!) = Prob U g = 1 !
A esta función se la suele llamar función característica del ítem binario.
Las probabilidades teóricas en los distintos casos de respuesta a un solo ítem
binario, a un conjunto de ítems, o en la población son:
a) Para un solo ítem binario. La función de respuesta a un ítem binario para un
! dado, se puede expresar como:
u
1−u g
fg = (U g |!) = Pg g * Q g
, con Q g = 1 − Pg
(11.5)
&( P si U = 1
g
g
fg ( U g |!) = '
()Q g si U g = 0
b) Para
 un vector de respuesta: La probabilidad de un vector de respuesta
V = ( U1 , … , U n )% para un ! dado, se obtiene mediante la expresión:
n

u
1−u
P V ! = ∏ Pg g Q g g
( )
(11.6)
g=1
En el siguiente Ejemplo 11.1 puede verse cómo se aplica esta ecuación.
Ejemplo 11.1
En un cuestionario de siete ítems de respuesta dicotómica (se les asignan
los valores cero o uno, según sean incorrectas o correctas), las probabilidades
303
Capítulo 11. TRI: Aspectos generales
de acierto a cada uno de esos ítems para un nivel moderado de θ, sea θ = θ2,
son respectivamente:
(
P (U
)
(
)
(
) (
= 1 θ ) = P (U = 1 θ ) = 0.6 ; P (U = 1 θ ) = 0.5
)
P U1 = 1 θ2 = 0.9 ; P U2 = 1 θ2 = 0.8 ; P U3 = 1 θ2 = P U4 = 1 θ2 = 0.7 ;
5
2
6
2
7
2
Haciendo uso de la expresión (11.6) se pueden obtener las probabilidades
de los diferentes patrones de respuesta. La probabilidad de que con ese nivel
en el rasgo θ = θ2 se acierten todos los ítems, o sea, que se obtenga un patrón
de respuesta (1, 1, 1, 1, 1, 1, 1) es:
P (Ul = 1, …, U7 = 1θ = θ2) = (0.9) (0.8) (0.7)2 (0.6)2 (0.5) = 0.064
Si el vector de respuesta es (1, 1, 1, 0, 1, 0, 0), la probabilidad de este
patrón es:
(
)
( )( )( )( )( )( )( )
r
P V θ2 = P1 P2 P3 Q4 P5 Q6 Q7 = 0.9 0.8 0.7 0.3 0.6 0.4 0.5 = 0.018
Si la prueba estuviese compuesta solamente por las cuatro primeras cuestiones, la probabilidad de acertar las tres primeras y no la cuarta es:
(
)
( )( )( )( )
r
P V θ2 = P1 P2 P3 Q4 = 0.9 0.8 0.7 0.3 = 0.151
Si se cambia de nivel de aptitud, pasando a uno superior, sea éste θ = θ3,
y las probabilidades condicionadas a ese nivel son:
P (U1 = 1θ3) = P (U2 = 1θ3) = P (U3 = 1θ3) = 1; P (U4 = 1θ3) =0.9
P (U5 = 1θ3) = P (U6 = 1θ3) = 0.8; P (U7 = 1θ3) = 0.6
Aplicando (11.6) se obtiene que para este nivel en el rasgo la probabilidad
del patrón de respuesta (1, 1, 1, 1, 1, 1, 1) es P = 0.346, la del patrón (0, 0, 0, 0,
0, 0, 0) es P = 0 y la del patrón (1, 1, 1, 1, 0, 0, 0) es 0.014.
c) Para la población. Al considerar poblaciones, los procedimientos pueden
resultar más sofisticados, pues hay que sumar los patrones de respuesta
para los distintos niveles de θ. Algunas de esas expresiones se dan en el
Cuadro 11.1.
304
Principios de Psicometría
Un par de aplicaciones muy sencillas de los supuestos de independencia local
pueden verse en sendos ejemplos que se dan tras el cuadro, utilizando el primero de ellos para hacer algunas consideraciones sobre la pertinencia de estudiar
todos los patrones de respuesta.
Cuadro 11.1
Veamos algunas de las consecuencias que los supuestos de independencia
local tienen en las distribuciones de probabilidad.
1. Un resultado del supuesto de independencia local es que la distribución
sobre todos los sujetos con un nivel de aptitud θ viene dada por
( )
f X θ =
∑ ∏Pg g ⋅ Qg
n
∑up = x
1−ug
u
g=1
donde X = x es la puntuación del sujeto en el test, que puede tomar valores entre cero y n, ya que los ítems son binarios.
2. Si la distribución de rprobabilidad de θ es g(θ), entonces la distribución
de las respuestas P ( V ) para el total de n sujetos viene dada por la expresión:
r
P(V ) =
∫ Ω g (θ) ∏Pg g ⋅ Qg
r
n
g=1
u
1−ug
r
dθ
donde Ω es el espacio de integración k-dimensional correspondiente a
θ1, …, θk.
Así,
r observada una muestra, con el conocimiento que proporciona P ( V ) , se pueden hacer inferencias acerca de la distribución desconocida g(θ) de las variables inobservables θ, ya que Pg (θ) es conocida.
3. Un procedimiento que sugirió
Lazarsfeld fue estudiar todos los posibles
r
patrones de respuesta V . Sin embargo la viabilidad de este procedimiento es muy escasa, incluso con un número pequeño de ítems, pues
el número de patrones posibles que habría que estudiar es muy alto. El
número de todos los posibles patrones de respuesta con n ítems dicotómicos es 2n.
Capítulo 11. TRI: Aspectos generales
Ejemplo 11.2
Calcule el número de patrones de respuesta con tres, cuatro y un número mayor
de ítems que justifique por qué Lazarsfeld, después de proponer el estudio de todos
los patrones, buscó procedimientos que le ayudasen a resumir la información.
Con tres ítems binarios, todos los patrones posibles son:
{(000), (100), (010), (001), (110), (011), (101), (111)}
siendo su número total 23 = 8. Si el número de ítems fuese cuatro, el número
de patrones sería 24 = 16.
En general, para n ítems habría que contabilizar el número de patrones diferentes con un acierto, que es el de combinaciones,
n
 
1
el de patrones con dos aciertos
n
 
 2
y así sucesivamente. Por lo que el número total de patrones diferentes sería:
n n
n
n
n
  +   + …+   = (1+ 1) = 2
0 1
n
Si se considera que no es inusual encontrar tests con un número de ítems
n ≥ 25, el número de patrones a estudiar con n = 25 es de 225 = 33.554.432, que
muestra que el análisis de todos los patrones de respuesta sería demasiado
laborioso.
Ejemplo 11.3
En un test que satisface el supuesto de independencia local, dos personas
con el mismo nivel en el rasgo tienen una probabilidad 0.20 de acertar el ítem
uno y de 0.60 de acertar el ítem dos. ¿Cuál es la probabilidad de que ambas
den respuesta correcta al ítem 1? Si una de ellas lo acierta ¿cuál es la probabilidad de que lo acierte la otra? ¿Qué probabilidad tiene cada una de ellas de
acertar el primero y no el segundo?
La respuesta a la primera de las cuestiones es (0.20) (0.20) = 0.04. La probabilidad 0.20 da respuesta a la segunda cuestión, siendo una probabilidad de
(0.20) (0.40) = 0.08 la respuesta a la tercera cuestión.
305
306
Principios de Psicometría
La curva característica del ítem (CCI)
Se denomina curva característica del ítem (CCI) a la curva que representa la relación
funcional entre el rasgo (la variable θ) y la probabilidad P(θ) de acertar ese ítem.
La función P(θ) a la que representa la CCI es una función creciente de θ, es decir,
la probabilidad de acierto aumenta a medida que van aumentando los valores de θ.
Generalmente la gráfica de una CCI se obtiene representando en abscisas los
valores de θ (se está suponiendo que θ es una variable continua y unidimensional), que en principio pueden ser valores cualesquiera sobre la recta real (–∞, +∞)
y en ordenadas los valores de P(θ), que al ser una probabilidad, toma sus valores
en el intervalo cerrado [0, 1]. Las CCI, que a veces también reciben la denominación de funciones de respuesta al ítem, o a los ítems, suelen presentar una forma similar a la función que se representa en la Figura 11.1.
Figura 11.1. Representación de la curva característica de un ítem.
Como se muestra en la Figura 11.1, la probabilidad de que un sujeto g responda
correctamente a un determinado ítem sólo depende de la forma que tenga la CCI
de ese ítem y del nivel de aptitud del sujeto. Por lo tanto, esa probabilidad es independiente de la distribución de la aptitud en la población. La probabilidad de res-
Capítulo 11. TRI: Aspectos generales
307
puesta correcta a un ítem no depende de que haya mayor o menor número de sujetos que estén situados en un mismo nivel del rasgo. Esta propiedad de la invarianza
de las CCI y, en consecuencia, de los parámetros que las describen, es uno de los
principales atractivos de estos modelos. En la TRI todos los ítems presentan una
determinada CCI, que es la que liga las características de ese ítem con el rasgo θ
que se intenta evaluar. La forma de la función matemática que representa la CCI
es lo que suele distinguir a unos modelos de otros.
La forma de toda CCI dependerá por lo tanto del tipo de función y de los parámetros que incluya esa función, que son los parámetros que caracterizan al ítem.
En casi todos los modelos suelen estar presentes dos de esos parámetros, el que
representa la dificultad (cuyo índice se va a denotar por “b”, que lo incluyen todos
los modelos) y el que da cuenta del poder discriminante (cuyo índice se va a denotar “a”). El parámetro b tiene relación directa con la probabilidad de acertar el ítem,
de forma que para cualquier nivel del rasgo, siempre serán menores las probabilidades de acertar un ítem más difícil que uno más fácil. Por lo tanto, la dificultad se
expresa por la posición de la CCI sobre el continuo del rasgo. El parámetro a indica el poder de discriminación que tiene ese ítem, es decir, cuánto se diferencian las
probabilidades de acertar ese ítem en diferentes niveles de ese rasgo y en una curva,
como la dada en la Figura 11.1, se identifica por su pendiente cuando θ = b.
En los siguientes capítulos se darán detalles sobre los parámetros y se construirán las CCI de los modelos que se puede considerar que son los más básicos
y usuales. En general, todas las CCI son monótonas no decrecientes y presentan
variedad de formas. La estimación de sus parámetros y la evaluación de la bondad del ajuste del modelo a los datos observados son las tareas que han de abordarse para estimar la aptitud, que es el objetivo que se persigue.
Regresión y curvas características
La TRI trata el problema de la relación matemática entre los niveles que se poseen
en un determinado rasgo y las respuestas a un determinado ítem (o a un conjunto de ellos), que se da mediante una función probabilística P(θ). Sin embargo, la
variable θ no es directamente medible, por lo que también es un parámetro del
modelo que habrá que estimar. La teoría de la regresión ayuda en muchos casos
a realizar esta estimación y se utilizan curvas de regresión para obtener información acerca de las funciones de respuesta a los ítems o a los tests. La CCI se pue-
308
Principios de Psicometría
de definir como la curva que une las medias de la puntuación del ítem, condicionadas a los valores de la variable θ. O sea, se puede definir como la curva de regresión ítemθ. La curva característica del test (CCT) es la regresión de las puntuaciones globales en el test sobre la variable θ.
Al administrar un test a un conjunto de sujetos, se obtendrá una doble puntuación para cada uno de ellos, su puntuación en cada ítem particular, y su puntuación global en el test. En ese caso, se puede obtener la regresión ítemtest,
regresando las puntuaciones en el ítem sobre las puntuaciones globales en el test.
Si la respuesta es dicotómica (acierto versus error) la línea de regresión ítemtest
también se puede establecer en función de la proporción de respuestas correctas.
Todo esto ha llevado a que a veces se confunda la regresión ítemrasgo que es la
CCI, con la regresión ítemtest, que en principio no es una CCI, aunque en muchos
casos se confundan al utilizar los valores en el test como estimaciones suficientes de los niveles del rasgo.
Para ilustrar la regresión ítemtest, considérese un test que estuviese compuesto por un número suficiente de ítems homogéneos y que el espacio latente
completo es unidimensional. En ese caso, se puede representar la proporción de
sujetos que, dando respuesta correcta al ítem, obtienen en el test 1, 2, …, n puntos, como muestra el ejemplo de la Figura 11.2.
Figura 11.2. Curva de regresión ítemtest para una prueba de fluidez verbal
que resuelven 250 sujetos.
Capítulo 11. TRI: Aspectos generales
309
En ese gráfico se puede observar que la curva es monótona no decreciente.
Se pensó inicialmente que las curvas iosr (item-observed score regression) o curvas de
regresión ítemtest (Cuadro 11.2) supondrían una buena aproximación a las curvas características de los ítems, cuando los ítems son dicotómicos, ya que la proporción de respuestas correctas para un ítem del test coincide con la media de la
puntuación para ese ítem. Sin embargo, no es lo mismo hacer la regresión sobre
la puntuación total del test que sobre el rasgo, entre otras razones, porque el valor
esperado de la puntuación observada (la puntuación verdadera en la TCT), generalmente en estos modelos no es función lineal de la variable que mide el rasgo θ,
como mostró Lord (1963) y se indica en el Cuadro 11.2.
Cuadro 11.2
Hagamos unas anotaciones acerca de las posibles relaciones que se pueden
establecer entre las CCI y la regresión ítemtest. Cuando los ítems son dicotómicos, la proporción de respuestas correctas para un ítem coincide con la
media de la puntuación para ese ítem. La curva de la proporción de respuestas correctas como una función de la puntuación del test X es también la curva
de regresión ui sobre X, a la que se ha llamado curva iosr (Lord, 1980, pág. 27).
Para ítems dicotómicos se puede decir que, cualquier función de respuesta al
ítem se podría considerar que es una regresión ítemrasgo, si para hacer la
regresión sobre θ, los valores del rasgo se han dividido en categorías por algún
procedimiento lógico, de manera que se correspondan con una partición en
las puntuaciones del test. Esta interpretación la cuestionó Lord (1968, 1980),
que puso un ejemplo para mostrar que esto no es así. Para ello utilizó las curvas construidas a partir de las respuestas que daban 103,275 sujetos a un test
verbal y a otro de matemáticas, con las que mostró que las curvas de regresión ítemtest no son las funciones características.
Hacer la regresión de la puntuación del ítem sobre la puntuación total del
test no es lo mismo que hacerla sobre el rasgo θ. Aunque a menudo se ha
pensado en la regresión ítemtest como una buena aproximación a la CCI,
éste no es un procedimiento adecuado, sobre todo si se tiene en cuenta que
la escala de medida es peculiar para cada uno de los tests administrados.
Sujetos que pueden diferir en una unidad en sus puntuaciones sobre un test
X, pueden diferir más o menos que esa unidad en sus puntuaciones en otro
test diferente que mida el mismo rasgo. Por lo tanto, las curvas de regresión
ítemtest tendrían diferentes formas para diferentes tests, aun cuando todos
ellos midieran el mismo rasgo θ.
310
Principios de Psicometría
En la TRI, el valor esperado de la puntuación observada, al igual que en
la teoría clásica, es la puntuación verdadera, pero aquí, la puntuación verdadera, generalmente, no es una función lineal de la variable que mide el rasgo. Por lo tanto, el valor esperado de la puntuación observada no es igual al
valor del rasgo. Esta afirmación la puso de manifiesto Lord (1980, pág. 30) y
se puede resumir en lo siguiente.
La curva de regresión ítemtest para el ítem i se puede denotar por µiX.
Para cualquier sujeto, su puntuación X en el test es la suma de los aciertos
ui = 1, luego la media condicionada a un X dado es:
n
 n
X = E ∑ ui X  = ∑ µi X
 i=1
 i=1
Si se considera que todos los ítems son estadísticamente equivalentes,
µiX es la misma para todos los ítems y, por lo tanto, sumando para los n
ítems, se obtiene que:
∑ µi X = nµi X = X;
n
i=1
µi X =
X
n
Obteniéndose que la curva de regresión ítemtest (µiX) es una línea recta que pasa por el origen con pendiente igual a 1/n. Con ítems dicotómicos,
la curva iosr tendrá siempre pendiente 1/n, aun cuando el test no mida nada.
En consecuencia, no se puede tomar la puntuación observada como
valor del rasgo, pues esto se contradice con el supuesto de que la puntuación varía con el nivel del rasgo, y que la puntuación verdadera no suele ser
función lineal del rasgo.
m11.3. La puntuación verdadera y la escala de aptitudm
En la TCT se le llama puntuación verdadera V a lo que en la TRI se le está llamando rasgo θ, o también aptitud, pues este último término se acuñó en los principios de la TRI y se sigue manteniendo aun cuando la prueba no esté dirigida a
la medición de una aptitud, sino a la de una actitud, o de un rendimiento, etc. También en la TRI se ha definido la puntuación verdadera en un test de n ítems. Para
Capítulo 11. TRI: Aspectos generales
311
sujetos con un nivel en el rasgo θ = θj, su puntuación verdadera es la suma de las
Pi (θj ) en todos los ítems del test. O sea, para cualquier j es:
Vj = ∑ Pi ( θj )
n
i=1
siendo la curva característica del test la que representa a esa función en todo el
rango de θ.
Son muchas las similitudes, así como las diferencias, entre la puntuación verdadera y la aptitud. Una diferencia importante es que la puntuación verdadera está
definida en el intervalo [0, n], en tanto que la aptitud teóricamente puede tomar
valores desde –∞ a +∞. Además, la puntuación verdadera está definida para un
test particular, y variará con medidas no paralelas de la misma aptitud.
Se puede decir que en la TRI, al igual que en la TCT, el valor esperado de la
puntuación observada es la puntuación verdadera, pero generalmente en la TRI
la puntuación verdadera no es una función lineal del rasgo, así que, el valor esperado de la puntuación observada, no es igual al valor del rasgo θ, aunque los modelos TRI especifican las relaciones entre el rendimiento del sujeto en un ítem y la
aptitud, de manera que siempre es posible transformar ese rendimiento en un
valor de la escala de aptitud. En otras palabras, la puntuación verdadera V y la
aptitud θ son la misma cosa expresada sobre diferentes escalas de medición. La
diferencia más importante es que la escala de medida para V depende de los elementos del test, en tanto que la escala θ es independiente de los elementos del
test (Lord, 1980, pág. 46).
El lector puede preguntarse cómo se pone en relación el rendimiento del sujeto en el ítem y la aptitud, o sea, cómo se establece la escala de θ. Evidentemente
el establecimiento de la escala se lleva a cabo utilizando las respuestas que los sujetos dan a los ítems, que a su vez dependen de las características del modelo (dimensionalidad, forma funcional, etc.) y de las del ítem (dificultad, discriminación, etc.).
El paso intermedio entre las puntuaciones observadas y la construcción de la escala se realiza mediante los procesos de estimación de los parámetros y de ajuste del
modelo, considerando que además de los parámetros de los ítems, también θ es
un parámetro que hay que estimar a partir de los datos. La métrica de las escalas
de aptitud se elige de modo que las CCI tengan una forma matemática especificada y de que, sobre los datos aportados por los sujetos en la ejecución del test, se
les pueda ordenar en aptitud. Los valores particulares de θ sobre la escala se eli-
312
Principios de Psicometría
gen de modo que maximicen el acuerdo entre los datos de respuesta al ítem, las
predicciones de los datos del test derivadas de las CCI mejor ajustadas y las puntuaciones de la aptitud (niveles del rasgo) sobre la escala. Lord (1975a, 1975b) presenta orientaciones interesantes para determinar la escala de aptitud. Algunos aspectos de este tema tales como los valores de θ que preservan las propiedades
psicométricas de la prueba (transformaciones admisibles) se tratan en este texto
(Apartados 12.3 y 15.5). En general, de los modelos de la TRI se puede decir que:
a) Producen escalas de intervalo, que se tratarán en detalle en el Capítulo 15.
b) El origen y la unidad de medida son arbitrarios.
c) Toda transformación lineal de la escala de aptitud es admisible.
Puntos clave
3
3
3
3
3
3
3
3
3
El objetivo básico de la TRI es proporcionar mediciones que permitan hacer inferencias acerca de los rasgos, que no varíen, ni en función de las características
específicas del grupo de sujetos al que se evalúa, ni del instrumento utilizado.
Los modelos que se proponen en la TRI para establecer la relación del nivel del
rasgo con la probabilidad de acierto son no lineales.
En la TRI, la estimación e interpretación del valor del rasgo de un sujeto no depende de cómo se distribuye ese rasgo en su grupo (el grupo normativo en la
TCT).
La probabilidad de respuesta correcta a un ítem sólo depende del nivel en el rasgo del sujeto que responde y de la dificultad de ese ítem.
La TRI no se basa en los mismos supuestos, ni sustituye a la TCT, sino que provee de métodos que permiten responder a cuestiones y hacer aplicaciones que
no se pueden abordar desde la TCT.
Las relaciones entre el nivel en el rasgo y la probabilidad de acertar vienen dadas
por la curva característica de cada ítem (CCI)
Todos los modelos TRI comparten la exigencia de independencia local, la consideración de su dimensionalidad y basan sus mediciones en las funciones que
representan las CCI.
Los modelos básicos TRI son modelos unidimensionales y de respuesta dicotómica.
La independencia local implica que la probabilidad de que un sujeto acierte un
ítem es independiente de sus respuestas a otros ítems, aunque esos ítems sean
parte del mismo test, o midan el mismo rasgo.
Capítulo 11. TRI: Aspectos generales
3
3
3
3
3
3
3
313
La dimensionalidad se refiere al número de factores necesarios para representar el rasgo y que sea adecuada su medición. Las dimensiones de un rasgo se
suelen determinar haciendo uso de las técnicas de análisis factorial.
Las curvas iosr o curvas de regresión ítemtest no son CCI.
La denominación de rasgo es genérica, pero debido a razones históricas también se utiliza indistintamente el término aptitud, aunque la medición de ese rasgo concreto no sea una aptitud, sino una actitud, rendimiento, etc.
Una de las diferencias entre la puntuación verdadera V considerada en la TCT y
la aptitud θ en la TRI es que V está definida en el intervalo [0, n], en tanto que q
teóricamente puede tomar valores desde – ∞ a + ∞.
Otra de las diferencias entre V y θ es que la puntuación verdadera está definida para un test particular y variará con medidas no paralelas de la misma
aptitud.
La métrica de las escalas de aptitud se elige de modo que las CCI tengan una
forma matemática especificada y de que, sobre los datos aportados por los sujetos en la ejecución del test, se pueda ordenar a los sujetos en aptitud.
La aptitud θ, como la puntuación verdadera en la TCT, no es directamente observable o medible y en los modelos TRI se introduce como un parámetro más (el
denominado parámetro personal) que hay que estimar en el modelo.
Actividades
r Haga una búsqueda en la literatura de modelos TRI unidimensionales y
multidimensionales. Construya una tabla, dando en una primera columna
la referencia de cada modelo, en la segunda la descripción de sus parámetros y en una tercera las aplicaciones que haya podido encontrar.
r Se han ordenado por su dificultad 10 preguntas sobre contenidos de psicometría. Asigne unas hipotéticas probabilidades a cada una de las respuestas y calcule y discuta las probabilidades de no tener ningún acierto,
de acertar todas las cuestiones y las de los siguientes patrones: (1, 1, 1, 0,
1, 1, 0, 0, 0, 0) y (1, 1, 1, 0, 1, 1, 1, 1, 1, 0).
r Proponga seis ítems dicotómicos sobre actitudes frente al estudio de la psicometría. Pregunte a un grupo de compañeros y compruebe la independencia local de esos ítems.
r En la tabla adjunta se da la frecuencia (número de personas) que habiendo respondido correctamente al ítem 3 han obtenido la puntuación X en
314
Principios de Psicometría
un test de 7 ítems de respuesta dicotómica. Represente gráficamente la curva de regresión ítemtest.
Puntuación X 1
frecuencia
10
2
45
3
77
4
185
5
273
6
387
7
400
r En un modelo TRI las probabilidades de acertar un ítem i, para los niveles
de aptitud θ1, θ2, y θ3 son respectivamente:
(
)
(
)
(
)
p u i = 1 θ1 = 0.2 ; p u i = 1 θ2 = 0.5 ; p u i = 1 θ3 = 0.7
¿Cuál es la probabilidad de que tres sujetos con esos niveles de aptitud
los acierten? ¿Cuál es la probabilidad de cada uno de ellos? Si lo acierta el
que tiene un nivel θ1 ¿con qué probabilidad lo acertarán los otros dos?
Teoría de la respuesta al ítem
Modelos
12
En el capítulo anterior se ha dicho que la CCI es la curva que representa
la relación funcional entre los valores en el rasgo θ y la probabilidad P(θ)
de respuesta correcta. La forma de esa función, así como el número de
parámetros que se incluyen en ella, es lo que distingue formalmente a unos
modelos de otros. Los modelos más usuales son los que representan una
distribución normal acumulada (ojiva normal) o una distribución logística, dando lugar a distintos tipos de modelos al considerar uno, dos o tres
parámetros en esas distribuciones. Mención especial merece el modelo de
Rasch, aunque diversos autores lo clasifican como un modelo logístico de
un parámetro. Los modelos básicos de la teoría de la respuesta al ítem
(TRI) suponen la unidimensionalidad del rasgo y que las respuestas a los
ítems sean dicotómicas, aunque existen modelos TRI multidimensionales
y/o con respuestas politómicas. El problema técnico y computacional más
relevante, una vez elegido el modelo, es el de la estimación de sus parámetros y la comprobación de su ajuste a los datos. Los métodos más utilizados en TRI están basados en la estimación por máxima verosimilitud.
En este capítulo se va a tratar:
ã El modelo ojiva normal.
ã Los parámetros, índice de dificultad e índice de discriminación, y
cómo apreciarlos visualmente en las CCI.
ã Distintos tipos de modelos ojiva normal.
ã Los modelos logísticos de dos, tres y cuatro parámetros.
ã El modelo de Rasch.
ã Algunos de los modelos que no cumplen los supuestos básicos, pues
son multidimensionales o sus ítems no son dicotómicos.
316
Principios de Psicometría
ã Una mención a otros modelos probabilísticos que no se incluyen
en la TRI, en especial los modelos de Poisson utilizados por Rasch.
ã Una introducción a la estimación de los parámetros de los modelos,
incluyendo cuestiones básicas del método de máxima verosimilitud.
m12.1. Modelos ojiva normalm
El modelo ojiva normal propuesto por Lord (1968) se utiliza con ítems dicotómicos
que evalúan una sola variable. El modelo recibe esa denominación porque la función
de probabilidad de la curva característica del ítem corresponde a la función de distribución de una normal, o sea, a la curva de probabilidad acumulada de la función
de densidad de una distribución normal, como se muestra en las Figuras 12.1 y 12.2.
Figura 12.1. Distribución N(0,1).
Figura 12.2. Ojiva normal.
317
Capítulo 12. TRI: Modelos
Para conectar ambas gráficas téngase en cuenta que los valores de P(θ) para
todo θk en la Figura 12.2 se corresponden con los de la probabilidad acumulada
(área bajo la curva desde –∞ hasta zk = θk) en la Figura 12.1. El cálculo de esas
áreas no hay que realizarlo necesariamente, puesto que esos valores están tabulados.
Supuestos básicos del modelo:
1. El espacio de la variable latente es unidimensional.
2. Se da la independencia local entre ítems.
3. La métrica para θ se puede elegir de manera que la curva característica de
cada ítem i sea la ojiva normal:
Pi ( θ) = Pi ( θ ; a i , bi ) =
∫
Li (θ)
f ( z ) dz =
−∞
∫
Li (θ)
−∞
1 −2
e dz
2π
z2
(12.1)
donde Li(θ) = ai (θ – bi ), es una función lineal de θ, que incluye dos parámetros ai y bi que son parámetros característicos de cada uno de los ítems,
y f(z) es la función de densidad de la distribución normal, usualmente con
media 0 y desviación típica unidad, ya que se suele trabajar con las variables tipificadas.
En éste, como en todos los modelos TRI, θ es el parámetro asociado al sujeto o parámetro personal, siendo ai y bi parámetros específicos de cada ítem. En
el Apartado 12.2 se da una explicación más amplia sobre su interpretación en las
curvas CCI.
Tipos de modelos ojiva normal
Los modelos ojiva normal, dada su similitud y buenas aproximaciones a los
modelos logísticos que se exponen en el Apartado 12.3, son poco utilizados en
las aplicaciones, prefiriéndose estos últimos para estos fines. Los modelos ojiva normal se suelen estudiar más por su interés teórico que por su vertiente
aplicada.
Se suele conocer como modelo ojiva normal al dado en la ecuación (12.1) de
dos parámetros (ai y bi ). Si se asigna al parámetro ai de todos los ítems un mismo
318
Principios de Psicometría
valor, por ejemplo, la unidad, se tiene un modelo con un solo parámetro. La ecuación que representa la función Pi(θ) de la curva característica del ítem para el
modelo uniparamétrico tiene la forma de la ecuación (12.1) con a i = 1, o sea,
Li(θ) = θ – bi.
También se han propuesto modelos de tres y de cuatro parámetros. Un modelo de tres parámetros surge cuando se desea estudiar el efecto de la conjetura, o
sea, la probabilidad de aciertos por adivinación, o bien por simple azar, porque
no se conoce la respuesta. Este efecto se supone que se produce en los niveles
más bajos de la aptitud, por lo que para estudiarlo se introduce un parámetro c i
que proporciona la asíntota más baja para la curva Pi(θ). Un cuarto parámetro γi
se puede añadir para explicar las probabilidades de respuestas incorrectas de aquellos sujetos que tienen un alto nivel de aptitud. Las ecuaciones de los diversos
modelos ojiva normal se dan en la Tabla 12.1
Tabla 12.1. Funciones de las CCI para modelos ojiva normal de uno,
dos, tres y cuatro parámetros.
Modelos ojiva normal
Funciones de probabilidad de las CCI
∫ −∞
θ−bi
Un parámetro
Pi (θ ) =
Dos parámetros
Pi (θ ) =
Tres parámetros
Pi (θ ) = ci + (1− ci ) ∫ −∞i
Cuatro parámetros
Pi (θ ) = ci + ( γi − ci ) ∫ −∞i
f( z ) =
∫ −∞i
f( z ) dz
a ( θ−bi )
f( z ) dz
a ( θ−bi )
f( z ) dz
a ( θ−bi )
1
2π
e
−
z2
2
con variable z =
f( z ) dz
X −µ
σ
siendo
ai, bi, ci y γi los respectivos parámetros de los modelos.
319
Capítulo 12. TRI: Modelos
m12.2. Significado de los parámetros ai y bim
Para ilustrar cómo se interpretan en los gráficos de las CCI los parámetros de los
ítems en los modelos TRI se puede aprovechar la ventaja que supone para el lector estar familiarizado con la N(0,1) y que las probabilidades estén tabuladas. Así,
sin necesidad de integrar se puede conocer la probabilidad en cualquier punto o
el área contenida en cualquier intervalo de valores de la variable, aunque en la
actualidad es preferible realizar el cálculo con el computador.
Considérense, por ejemplo, siete ítems caracterizados por dos parámetros,
ai y bi, que toman los valores que se dan en la Tabla 12.2.
Tabla 12.2. Valores de los parámetros de siete ítems.
Ítems
1
2
3
4
5
6
7
ai
0
0.1
5
1
1
2
2
bi
1
1
1
1
2
1
2
Para cada uno de esos ítems i, se pueden calcular los valores de Pi(θ) haciendo uso de la expresión (12.1) con valores de la variable θ en el intervalo (–3, 3).
Justificamos esta elección para el rango de θ porque el área bajo la curva normal
para valores de z menores de –3 es despreciable (entre –∞ y – 2.58 es p = 0.005)
y a partir del valor z = 3, el aumento del área (la probabilidad) también es despreciable, pues es de cinco milésimas (entre 2.58 y +∞ es p = 0.005).
Las gráficas de las curvas características se obtienen representando en el eje
horizontal (abscisas) los valores de θ y en ordenadas los correspondientes valores de Pi(θ) obtenidos con cada uno de los modelos. En este ejemplo se usa la
expresión (12.1) con dos parámetros para los ítems de la Tabla 12.2.
Ítem 1
Supuesto que para este ítem, a1 = 0, entonces L1(θ) = a1 (θ – b1) tomará el
valor cero para valores cualesquiera de θ y b1.
320
Principios de Psicometría
P1 ( θ) =
∫− ∞ f ( z ) dz
0
y el valor que corresponde a esta integral es P1(θ) = 0.50, ya que la función de
densidad f(z) es la de la curva normal N(0,1). Esto sucederá sea cual fuere el valor
de θ, luego el gráfico para P1(θ) es una recta paralela al eje θ, con P1(θ) = 0.50,
constante para todo θ. Según la ecuación (12.1) y como se verá también con otros
modelos, siempre que ai = 0, el valor de P(θ) es una constante igual a 0.5 para
todo el rango de θ. O sea, que todas las CCI con ai = 0 son rectas paralelas al eje
de abscisas, como puede observarse en la Figura 12.3.
Ítem 2
Para este ítem se ha supuesto para ai un valor muy pequeño, distinto de cero
y para bi el mismo valor que en el ítem 1. Aquí el límite superior de la integral de
la expresión (12.1) es L2(θ) = 0.1 (θ – 1).
Los valores de P2 (θ) para cuatro valores de θ son:
(
)
(
)
P2 θ θ = −3 ≅ 0.345;
P2 θ θ = 1 = 0.50
P2 θ θ = −1 ≅ 0.421;
P2 θ θ = 3 ≅ 0.579
(
)
(
)
Otros valores de P2(θ) se dan en la Tabla 12.3. Se observa que en un rango de
θ muy amplio, entre los valores extremos [–3, +3], la función P2(θ) tiene una variación muy pequeña:
P2 (θ = 3) − P2 (θ = −3) = 0.234
Esto significa que, para los valores de ai pequeños (próximos a cero), se tiene casi la misma probabilidad de dar respuesta correcta al ítem con valores elevados de la aptitud que con valores bajos, o sea, el ítem no discrimina entre los
niveles de aptitud y las gráficas de esas funciones muestran pendientes muy
pequeñas.
Capítulo 12. TRI: Modelos
321
Ítem 3
Este ítem se diferencia de los dos anteriores sólo en el valor del parámetro ai
que en este caso (ai =5) toma un valor mucho mayor, en términos relativos. Esto
se pone gráficamente en evidencia en la Figura 12.3, porque la curva P3(θ) que
representa ese ítem tiene mucha pendiente en el entorno del valor θ = b = 1.
Figura 12.3. Representación gráfica de las CCI de los ítems con nulo o bajo poder
discriminante (ítems 1 y 2) y con alto poder discriminante (ítem 3).
Los ítems 1, 2 y 3 son ejemplos de casos extremos que se han presentado para
ilustrar que ai es un parámetro que indica la cualidad del ítem de dar información
sobre los valores de θ donde el ítem discrimina o no de forma efectiva, o sea, es
el poder discriminante del ítem. Al parámetro ai se le llama índice de discriminación.
Las puntuaciones de los ítems se restringen de forma que 0 ≤ ai ≤ ∞. Usualmente se supone que ai es finito y que la probabilidad de respuesta correcta crece a medida que θ crece.
Ítems 4, 5, 6 y 7
Estos cuatro ítems se usan para ejemplificar los casos en que los ítems tengan
el mismo valor en a y diferentes en b (los ítems 4 y 5 por un lado y los ítems 6 y
322
Principios de Psicometría
7 por otro) y los de aquellos que, teniendo el mismo valor de b, tengan diferentes valores del parámetro a (los ítems 5 y 7).
Los valores que ilustran las variaciones de las funciones Pi(θ) para valores de
θ seleccionados en el rango de θ ∈[–3, 3], se dan en la Tabla 12.3, y los gráficos
de las CCI de los siete ítems aquí considerados se dan en la Figura 12.4.
Tabla 12.3. Valores de probabilidad de las funciones Pi (θ ; ai, bi ) para seis ítems.
Ítems
Valores
de θ
–3.00
–2.00
–1.00
0.00
0.80
1.00
1.20
1.80
2.00
2.50
3.00
2
3
P(θ ; 0.1, 1) P(θ ; 5, 1)
0.345
0.382
0.421
0.460
0.492
0.500
0.508
0.532
0.540
0.559
0.579
0.000
0.000
0.000
0.000
0.159
0.500
0.840
1.000
1.000
1.000
1.000
4
P(θ ; 1, 1)
5
P(θ ; 1, 2)
6
P(θ ; 2, 1)
7
P(θ ; 2, 2)
0.000
0.001
0.023
0.159
0.421
0.500
0.579
0.788
0.841
0.933
0.977
0.000
0.000
0.001
0.023
0.115
0.159
0.212
0.421
0.500
0.692
0.841
0.000
0.000
0.000
0.023
0.345
0.500
0.655
0.945
0.977
0.999
1.000
0.000
0.000
0.000
0.000
0.008
0.029
0.055
0.345
0.500
0.841
0.977
En la Tabla 12.3 se puede comprobar nuevamente el efecto del índice de discriminación, al comparar los valores de las columnas correspondientes a los ítems
2, 3 y 4, como también se observa, aunque en menor medida, al comparar las de
los ítems 5 y 7.
Al comparar las probabilidades de los ítems 4 y 5, se puede comprobar que en
ambas columnas se obtienen los mismos valores, aunque con un desplazamiento
de los valores del ítem 5 hacia los valores más altos de θ (obsérvense por ejemplo
los valores de P4 y de P5 para valores enteros de θ). Esto es, para que la probabilidad de acertar el ítem sea la misma, por ejemplo, 0.42, el ítem 4 exige que el nivel
en el rasgo sea θ = 0.80, sin embargo hay que aumentar hasta θ = 1.80 para tener
esa misma probabilidad de acierto al resolver el ítem 5. También se observa que
P4(θ = 2) = P5(θ = 3), y habrá igualdad siempre que las diferencias entre los valo-
Capítulo 12. TRI: Modelos
323
res de θ en uno y otro test sean de una unidad, que es la diferencia entre b4 y b5.
Puesto que ambos ítems tienen el mismo poder discriminante, las diferencias se
deben a las diferencias en el parámetro b al que, por las razones expuestas, obviamente hay que asociar con la dificultad del ítem, es un índice de dificultad. En estos
ítems se puede observar que en todos los casos es Pi(θ) = 0.50 cuando θ = b.
En la Figura 12.4 se representan las CCI de los siete ítems (etiquetados como
P1, P2, ... , P7) cuyos parámetros ai y bi tienen los valores dados en la Tabla 12.2.
Figura 12.4. Representación de las CCI de siete ítems que difieren
en poder discriminante y/o en dificultad.
En esta figura se puede observar que, con valores elevados de ai, la variación
de P(θ) es muy grande para valores de θ en el entorno θ = b, siendo elevada la
pendiente de su CCI para esos valores de θ. También se puede observar la diferencia entre la pendiente de la CCI del ítem 3 y la del ítem 4, del que sólo difiere
en el valor del parámetro a. Por lo tanto, el poder discriminante de un ítem se puede visualizar observando la pendiente de su CCI para valores de θ = b.
Para ítems con los mismos valores de a, pero que varían en b (los ítems 4 y 5
y los ítems 6 y 7), las curvas CCI de los ítems con mayor valor en b están desplazadas hacia la parte positiva de la variable θ. Por lo tanto, para tener la misma probabilidad de acierto en uno y otro ítem es necesario poseer mayor valor en el rasgo para el ítem que tiene mayor valor de b. También en el gráfico se puede observar
que todas las curvas con igual valor en b se cortan en el punto en que
θ = b, es decir, estos ítems tienen la misma dificultad.
324
Principios de Psicometría
En definitiva, se puede concluir:
1) Que si es ai = 0, entonces Pi(θ) es una constante y por lo tanto no varía
con los valores de θ. Dar respuesta a cualquier ítem en el que ai = 0 no
da ninguna información acerca de la aptitud. Todos aquellos sujetos que
responden a ese ítem tienen la misma probabilidad de que su respuesta
sea correcta P(ui = 1) = 0.50, con independencia de cuál sea su nivel en
el rasgo θ.
2) Los ítems con valores de ai próximos a cero tienen CCI con muy poca pendiente, dando muy poca información acerca de θ.
3) Los valores elevados de ai producen CCI con mucha pendiente. Es decir,
la función Pi(θ) pasa de tomar un valor próximo a cero a un valor de casi
la unidad, en un intervalo muy estrecho de valores de θ, en el entorno de
valores θ = bi. Las CCI con las mayores pendientes representan a los ítems
con mayor índice de discriminación, que se traduce en mayor poder de
discriminación en valores de θ cercanos a bi, pero para valores de θ algo
alejadas del valor bi su poder de discriminación es casi nulo.
4) Las tres consideraciones anteriores llevan a concluir que ai es el parámetro
que da la cantidad de información que proporciona el ítem acerca de θ,
indicando el rango de los valores de θ donde el ítem discrimina de forma
efectiva. El parámetro ai es el índice de discriminación del ítem i y usualmente se
supone que ai es finito y mayor que cero.
5) Si se mantiene el valor de ai, y se varía bi (como sucede en los ítems P4(θ)
y P5(θ) de la Figura 12.4) las CCI son idénticas en cuanto a forma, pero
están desplazadas sobre el eje de θ. Este parámetro bi representa la dificultad, es el índice de dificultad del ítem i, pues son necesarios mayores valores de
θ para tener la misma probabilidad de acertar ese ítem que con otro de
menor valor en b. En ese sentido, para cada ítem i, bi da la posición o el
nivel de aptitud en el que un ítem discrimina con mayor efectividad. En
cuanto a sus valores, en principio se admite que –∞ < bi < ∞.
6) En todos los ítems P = 0.50 cuando θ = bi. Es decir, cuando el nivel en el
rasgo iguala al valor de la dificultad, se tiene una probabilidad 0.5 de acertar el ítem.
7) Cuando los valores del rasgo son superiores a la dificultad del ítem (θ > bi),
las probabilidades de acierto son superiores a 0.50 y se incrementan a medida que θ crece.
Capítulo 12. TRI: Modelos
325
8) Para valores en el rasgo menores a la dificultad del ítem (θ < bi ) las probabilidades de acierto son inferiores a 0.50.
9) Las CCI poseen un punto de inflexión en θ = bi. Es el punto de máxima
pendiente.
Las relaciones entre los parámetros de los ítems en la TRI con los parámetros
convencionales del análisis clásico son de interés. El lector puede encontrar referencias y una exposición en español en Santisteban (1990a, págs. 261-266).
m12.3. Modelos logísticosm
Una función muy similar a la que representa el modelo ojiva normal, y que posee
mayores ventajas desde el punto de vista de su tratamiento matemático en el área
de las aplicaciones, es la distribución logística.
La distribución logística se define como una función
y=
ex
1 + ex
=
1
1 + e− x
; −∞ < x < ∞
Figura 12.5. Representación de una curva logística.
(12.2)
326
Principios de Psicometría
En el contexto de la TRI, un modelo logístico viene dado por la función
Pi (θ) =
e
D L i (θ )
1+ e
D L i (θ )
=
−1

− D L i (θ ) 
= 1 + e
− D L i (θ ) 

1+ e
1
(12.3)
siendo D una constante y Li(θ) = ai (θ – bi ) donde ai y bi son los parámetros del
ítem i, con el significado que se ha explicitado anteriormente.
En general, las transformaciones admisibles del modelo son las transformaciones lineales. Es decir, que la probabilidad no varía si θ se multiplica por k y se
le suma un valor s, siempre y cuando se tenga en cuenta su efecto sobre los parámetros y simultáneamente se realicen en ellos las correspondientes transformaciones, como se explicitará en cada uno de los modelos.
En cuanto a las relaciones en la escala para θ, hay que considerar que:

DL θ 
1
e i( ) 

=
Q i (θ) = 1 − Pi (θ) = 1 −
D
L
D
θ
 1 + e i ( )  1 + e L i (θ)
(12.4)
por lo que la razón entre esas probabilidades viene dada por:
Pi ( θ)
= eD L i ( θ)
Q i ( θ)
(12.5)
Tomando logaritmos neperianos en esa expresión:
ln
Pi ( θ)
= D L i ( θ)
Q i ( θ)
(12.6)
y esto representa una escala logarítmica en la que a la unidad de esa escala se le
llama logit.
La unidad en esta escala se obtiene igualando a uno la expresión (12.6), por
lo que necesariamente una unidad logit corresponde a un valor de P i(θ)/Qi(θ)
de 2.718, ya que ln e = ln 2.718 = 1. Esta equivalencia entre las escalas per-
Capítulo 12. TRI: Modelos
327
mite hacer comparaciones entre valores de θ, como se verá en los Ejemplos
12.1 y 12.3.
La constante D sirve como factor de escalamiento. Para maximizar el acuerdo entre los modelos ojiva normal y logístico se toma D = 1.7. Este valor no
es arbitrario, ya que se comprueba que utilizando esta constante las funciones
normal y logística son muy próximas con variación uniforme en θ. Este factor reescala la distribución normal de la aptitud para seguir una distribución
logística.
Modelo logístico de dos parámetros
Birnbaum (1968) propuso un modelo en el que la CCI toma la forma de una distribución logística de dos parámetros, cuya ecuación viene dada por (12.3) con
Li (θ) = ai (θ – bi ), siendo por lo tanto:
Pi (θ) =
e
Da i (θ − b i )
1+ e
Da i (θ − b i )
=
1+ e
1
− Da i (θ − b i )
(12.7)
Son características del modelo:
1)
2)
3)
4)
Es unidimensional.
Se da el supuesto de independencia local.
Los ítems son dicotómicos.
La función de distribución de probabilidad es la dada en la expresión (12.7).
Siendo, por lo tanto,
−1

D a i (θ − b i ) 
Q i (θ) = 1 − Pi (θ) =
= 1+ e

DL θ
1+ e i ( ) 
1
(12.8)
5) Los parámetros ai y bi son los parámetros característicos del ítem (índices
de discriminación y de dificultad) y D es una constante.
6) Las curvas CCI son no decrecientes.
328
Principios de Psicometría
Figura 12.6. Curvas logísticas de tres ítems con diferentes índices de dificultad:
P1(a1 = 1, b1 = 0), P2(a2 = 1, b2 = 1) y P3(a3 = 4, b3 = 2).
7) Se define la dificultad del ítem de manera que es 0.50 la probabilidad de
responder correctamente al ítem i, cuando el nivel de aptitud θj iguala la
dificultad de ese ítem. En efecto si es θ = bi entonces se da la igualdad
(12.9):
Pi ( θ) =
e0
1 + e0
=
1
2
(12.9)
Cuando el valor en el rasgo sea superior al de la dificultad del ítem, la
probabilidad de respuesta correcta a ese ítem es p > 0.50, como se puede
observar en las representaciones de las CCI de tres ítems con índices de
dificultad b1 = 0, b2 = 1 y b3 = 2 (a1 = a2 = 1, a3 = 2) dadas en la Figura
12.6.
8) La probabilidad no varía si θ se multiplica por k y se le suma un valor s,
siempre y cuando al parámetro dificultad se le aplique la misma transformación y el índice de discriminación se divida por k. O sea, las transformaciones lineales de θ son admisibles si:
329
Capítulo 12. TRI: Modelos
θ∗ = k θ + s 

b∗ = k b + s

a ∗ = a k 
(12.10)
En cuanto a los logits, de acuerdo con la ecuación (12.6) en este modelo es:
ln
Pi ( θ)
= DL i ( θ) = Da i (θ − bi )
Q i ( θ)
lo que permite hacer comparaciones, pues la diferencia entre los logits en
dos niveles del rasgo θ1 y θ2, viene dada por:
ln
P ( θ ) Q i ( θ1 )
Pi ( θ1 )
P (θ )
− ln i 2 = ln i 1
=
Q i ( θ1 )
Q i ( θ2 )
Pi ( θ2 ) Q i ( θ2 )
= Da i (θ1 − bi ) − Da i (θ2 − bi ) = Da i (θ1 − θ2 )
(12.11)
igualándose las probabilidades para sujetos con los mismos valores en el
rasgo, como fácilmente se puede comprobar, pues si θ1 = θ2, el último término de la ecuación anterior es cero. Luego:
Pi ( θ1 ) Q i ( θ1 )
Pi ( θ2 ) Q i ( θ2 )
=e
Da i (θ1 − θ2 )
= e0 = 1
(12.12)
Dos características de este modelo que están relacionadas con el vector de respuesta se dan en el Cuadro 12.1.
Ejemplo 12.1
Compárense las probabilidades de acierto a un mismo ítem (ai = 2; bi = 1)
de dos personas que tienen 0.5 puntos de diferencia en sus niveles en el rasgo. Esta relación la da la ecuación (12.11) con θ1 – θ2 = 0.5.
330
Principios de Psicometría
Pi (θ1 ) Qi (θ1 )
1.7 (2)(0.5)
=e
= e1.7 = 5.5
Pi (θ2 ) Qi (θ2 )
luego la relación entre las probabilidades de acierto y error es 5.5 veces mayor
en quien tiene 0.50 puntos más en su nivel en el rasgo.
Cuadro 12.1
Añadimos aquí dos características del modelo que están relacionadas con
los vectores de respuesta y la información que proporcionan (véase también
el Capítulo 13).
(
)
r
′
9) La probabilidad de un determinado vector respuesta V = u1, … un para
un θ dado, se puede obtener haciendo uso de la expresión (11.6) y sustituyendo las Pg y Qg de esa ecuación por sus expresiones dadas en
(12.7) y (12.8).
r
10) Teniendo en cuenta la probabilidad de un cierto vector de respuesta V
toda la información útil acerca de θ contenida en un patrón de respuesta viene dada por la siguiente expresión de la puntuación:
n
r
X ( V ) = ∑ a i ui
i=1
(12.13)
Los valores de ui son cero o uno, ya que se ha supuesto que los ítems
son dicotómicos, y la expresión (12.13) no depende de los parámetros bi que
evalúan la dificultad. Esta relación se comprenderá mejor cuando se estudien las funciones de información, no obstante, si se acepta que la respuesta
correcta se pondera por el valor del ai de cada uno de los ítems, ese valor
de la puntuación total dependerá de si las respuestas correctas se han dado
a ítems con un gran poder discriminante.
Esta cuestión puede distraer la atención en cuanto a la exposición del
modelo. No obstante, si no se consideran ítems aislados, sino que se quieren comparar a los sujetos de acuerdo con sus puntuaciones cuando dan
respuesta a diferentes ítems, hay que tomar en consideración el papel del
índice de discriminación de esos ítems.
Considerése, por ejemplo, un test de cuatro ítems cuyos parámetros son
a1 = 1; a2 = 2; a3 = 1 y a4 = 2 y calcúlese mediante la ecuación (12.13) la puntuación ponderada de algunos de los posibles patrones de respuesta.
331
Capítulo 12. TRI: Modelos
r
r
Para un patrón de respuesta V = (0, 0, 0, 0) el valor de X ( V ) será 0.
Para
r otros patrones tales como (1,0,0,0)r o (0,0,1,0), los valores de
X ( V ) serán 1 en ambos casos. Valores de X ( V ) igual a 2 se obtendrán para
otros patrones tales como (0,1,0,0) o (1,0,1,0) or(0,0,0,1), etc. Los patrones
(0,1,1,1) y (1,1,1,1) conducirían a valores de X ( V ) iguales a 5 y 6, respectivamente.
Se observa con estos ejemplos que la puntuación no sólo depende
de cuántos ítems se han acertado, sino también de su mayor o menor índice de discriminación, que es el peso de la cantidad de información que cada
uno de esos ítems aporta a esa puntuación total, lo que permitirá ordenar a
los sujetos según su vector de respuesta.
Modelo logístico de tres parámetros
Otro modelo de tipo logístico es el propuesto por Lord (Lord y Novick, 1968;
Lord, 1980), que puede considerarse similar al anterior, añadiendo un tercer parámetro ci. La forma de la CCI para este modelo se da en la Figura 12.7 para un
ejemplo con ci = 0.2, y su expresión general viene dada por:
Pi ( θ) = c i + (1 − c i )
e Da i ( θ − bi )
1 + e Da i ( θ − bi )
(12.14)
donde D es una constante, ai y bi son parámetros cuyo significado es el mismo
que en el modelo de ojiva normal y ci es un tercer parámetro que representa la
asíntota más baja de la CCI.
La inclusión de este parámetro ci se realiza para intentar controlar o ajustar la
CCI en el extremo inferior del continuo de la aptitud cuando se considera que la
probabilidad de acertar por adivinación o conjetura puede ser un factor influyente
en el rendimiento en el test. Por tal motivo, se suele denominar a ese parámetro
como parámetro conjetura. La función Pi (θ) aproxima su mínimo a ci cuando θ
decrece.
332
Principios de Psicometría
Figura 12.7. Curva característica de un ítem en un modelo
de tres parámetros con ai = 1; bi = 0; ci = 0.20.
Ejemplo 12.2
Un ítem i sigue un modelo logístico de dos parámetros con ai = 1.5 y bi = 1:
a) ¿Cuál es la probabilidad que tienen de acertar ese ítem aquellos sujetos cuyo
nivel en el rasgo sea θj = 1? ¿Y la de aquellos cuyo nivel es θh = 1.5?
b) ¿Variarían esas dos probabilidades si la probabilidad de que se acierte ese
ítem por azar es 0.20?
Las probabilidades para esos niveles de θ (según la ecuación 12.7) son:
(
)
Pi θ = 1 =
(
e
(1.7) (1.5) (1 − 1)
1+ e
)
Pi θ = 1.50 =
(1.7) (1.5) (1−1)
e
=
e0
1+ e 0
(1.7) (1.5) (1.5 − 1)
(1.7) (1.5) (1.5 −1)
1+ e
=
= 0.50
e1.275
1+ e1.275
= 0.78
aunque para θ = 1 era innecesario el cálculo, ya que según (12.9), al ser θj = bi
la probabilidad es 0.50.
La probabilidad de acierto por azar no es despreciable, y habría que tomarla en consideración añadiendo un tercer parámetro. Estas probabilidades se
calculan mediante la expresión (12.14), obteniéndose:
333
Capítulo 12. TRI: Modelos
(
)
(
)
Pi θ = 1 = 0.20 + 1 − 0.20
(
)
(
e
(1.7) (1.5) (1 − 1)
1+ e
)
Pi θ = 1.50 = 0.20 + 1 − 0.20
(1.7) (1.5) (1−1)
e
= 0.60
(1.7) (1.5) (1.5 − 1)
(1.7) (1.5) (1.5 −1)
1+ e
= 0.20 + 0.80 0.78 = 0.82
(
)
=
probabilidades que son superiores a las que se obtienen si no se tiene en cuenta el efecto de los aciertos por azar.
Este modelo admite las mismas transformaciones que el modelo logístico de
dos parámetros dadas en (12.10). Es decir, una transformación lineal de θ conlleva la misma transformación de b y un cambio de escala en a, siendo en este
modelo el parámetro c = c*. Los logits también toman la forma de la ecuación
(12.11), pues:
ln
[Pi ( θ1 ) − c] Q i ( θ1 ) = Da θ − θ
(
)
[Pi ( θ2 ) − c] Q i ( θ2 ) i 1 2
(12.15)
luego las comparaciones entre diferentes niveles de θ dan el mismo resultado que
cuando no se incluye el parámetro c en la CCI.
Modelo logístico de cuatro parámetros
El modelo logístico de cuatro parámetros se propone para corregir el efecto de
aquellos casos en los que en altos niveles de aptitud hay una probabilidad no despreciable de que no se responda correctamente al ítem (Barton y Lord, 1981).
La función que corresponde a la CCI es:
Pi ( θ) = c i + ( γ i − c i )
e Da i ( θ − bi )
1 + e Da i ( θ − bi )
(12.16)
334
Principios de Psicometría
siendo γi el nuevo parámetro introducido, coincidiendo con el resto de los modelos en el significado de los parámetros ai, bi y ci.
Este modelo tiene escaso interés práctico, no habiendo recibido mucha atención por parte de los investigadores pues, generalmente, este efecto se produce
cuando el ítem no es correcto, o se ha enunciado de forma inadecuada. Por ejemplo, cuando la cuestión está formulada de manera que precisamente aquellos que
tienen mayor aptitud (mayor nivel en θ) ponen en juego ciertas estrategias o utilizan información que les lleva a no dar al ítem la respuesta considerada correcta. Por lo tanto, esto no es un problema del modelo, en cuanto a que haya que
introducir un nuevo parámetro para poder explicar un cierto resultado, sino que
es un problema de conocimiento del rasgo, del análisis de sus manifestaciones y
de la consecuente redacción del ítem. Esto no excluye que en alguna ocasión un
sujeto con alto nivel en el rasgo, por circunstancias especiales, no diera respuesta correcta a ese ítem, pero eso obviamente no justifica la inclusión de un nuevo
parámetro en el modelo.
En la Tabla 12.4 se resumen las funciones correspondientes a los modelos
logísticos de uno, dos, tres y cuatro parámetros, para mayor facilidad de uso por
el lector.
Tabla 12.4. Funciones de las CCI para modelos logísticos
de uno, dos, tres y cuatro parámetros.
Modelos logísticos
Un parámetro
Dos parámetros
Tres parámetros
Cuatro parámetros
Funciones de probabilidad de las CCI
()
−1

−D(θ − bi ) 
Pi θ = 1+ e


()
−1

−Da (θ − bi ) 
Pi θ = 1+ e i


()
(
)
−1

−Da (θ − bi ) 
Pi θ = ci + 1 − ci 1+ e i


()
(
)
−1

−Da (θ − bi ) 
Pi θ = ci + γi − ci 1+ e i


335
Capítulo 12. TRI: Modelos
m12.4. El modelo de Raschm
El modelo que junto a los modelos logísticos de dos y tres parámetros ha generado mayor número de trabajos, tanto teóricos como prácticos, ha sido el modelo de
Rasch. Este modelo (Rasch, 1960) fue desarrollado independientemente de los antes
citados y por otras vías. Birnbaum lo considera un caso particular de su modelo
logístico (Birnbaum, 1968, págs. 402-403 y 480). La CCI del modelo es asimilable
a una función logística de un parámetro en la que se supone que todos los elementos tienen el mismo poder discriminante y varían en términos de dificultad.
La función que describe la curva característica del modelo de Rasch es:
Pi (θ) =
e(
θ − bi )
1 + e(
θ − bi )
(12.17)
que también puede venir dada mediante la expresión:
Pi (θ) =
Da θ − b
e ( i)
1+ e
Da (θ − b i )
(12.18)
donde a es el poder discriminante común a todos los ítems, bi es la dificultad del
ítem i y D es una constante.
Figura 12.8. CCI en un modelo de Rasch para tres ítems con b1 = 0, b2 = 1, b3 = 2.
336
Principios de Psicometría
Al ser a constante, por convención se le asigna el valor uno. Bajo estos supuestos, las curvas características tendrán todas la misma pendiente. Se puede considerar que son curvas idénticas con traslaciones de amplitud bi – bk para los ítems
i, k, con dificultades bi y bk (bi > bk). En la Figura 12.8 se muestran las CCI de
tres ítems con distintos índices de dificultad.
Cuadro 12.2
Si se asume que el valor del poder discriminante de los ítems es común a
todos ellos, se puede admitir que α = 1 para todos los ítems. Si por simplicidad se considera además que D = 1, se obtiene la ecuación (12.17), en
donde haciendo el cambio de variable:
θ* = e θ ; b *i = eb i
se obtiene
Pi (θ ) =
=
e( θ−bi )
1+ e( θ−bi )
=
e θ / ebi
1+ (e θ / ebi )
=
 b * −1
θ * / b *i
θ*
=
= 1+ i 
1+ (θ * / b *i ) θ * + b *i  θ * 
que es como Rasch (1960) desarrolla su modelo para esta forma logística.
En cuanto a las transformaciones, el modelo admite cambios de origen (son
traslaciones o desplazamientos sobre el eje θ) que obligan a que se hagan los mismos cambios en el parámetro b. Es fácil comprobar que si es θ* = θ + s, entonces para que P(θ*) sea igual a P(θ) debe ser b* = b + s.
En cuanto a los cambios de escala en θ, esos cambios afectarían al índice de
discriminación, como se ha visto anteriormente. La transformación de ai dada
por las ecuaciones (12.10) en los modelos logísticos de dos parámetros no es teóricamente admisible en el modelo de Rasch, aunque en la práctica siempre es posi-
337
Capítulo 12. TRI: Modelos
ble llegar a un compromiso entre un posible cambio de escala kθ y la constante
1/k que multiplicaría al término Li (θ) = D (θ – b).
Con respecto a la métrica que permita hacer comparaciones, si se usan unidades logits teniendo en cuenta la forma del modelo de Rasch (12.17) y mediante la ecuación (12.6), se obtiene:
ln
Pi ( θ)
= L i ( θ) = θ − b i
Q i ( θ)
(12.19)
lo que permite establecer diferencias entre diferentes valores de θ, pues para dos
valores θ1 y θ2 se tiene que:
L i ( θ1 ) = θ1 − b i ; L i ( θ2 ) = θ2 − b i
y la relación:
ln
Pi ( θ1 ) Q i ( θ1 )
= (θ1 − bi ) − (θ2 − bi ) = θ1 − θ2
Pi ( θ2 ) Q i ( θ2 )
(12.20)
permite hacer esas comparaciones.
Ejemplo 12.3
Compare las probabilidades de acertar un ítem con dificultad bi para dos
sujetos con diferentes niveles en el rasgo. Esto es posible utilizando la escala
logit, pues haciendo uso de la relación (12.20) es:
C=
( ) ( ) = eθ − θ
Pi (θ2 ) Qi (θ2 )
Pi θ1 Qi θ1
1
2
pudiéndose calcular las relaciones entre sus probabilidades de acierto elevando el número e al valor de la diferencia entre niveles de aptitud. Así, si ambos
sujetos tienen el mismo nivel en el rasgo, el cociente es C = 1. Si la diferencia
es de una unidad (θ1 > θ2), entonces es C = e, etc.
338
Principios de Psicometría
El modelo de Rasch es el más simple en cuanto a su formulación, pues la probabilidad de respuesta correcta no depende más que de la dificultad del ítem, además de la capacidad del sujeto, que es su nivel en el rasgo. Esto se puede tomar
como una gran ventaja en relación a los otros métodos que incluyen un mayor
número de parámetros, y explica en parte el que muchos autores prefieran utilizarlo en lugar de los logísticos de dos y tres parámetros. No obstante, también se
puede considerar a priori que es el principal inconveniente que tiene el modelo de
Rasch, pues su simplicidad también obliga a hacer hipótesis muy fuertes para no
incluir los otros parámetros, siendo quizá más difícil reflejar situaciones reales que
con otros modelos. Se pueden encontrar muchos trabajos en los que se evidencia
que un modelo logístico de dos parámetros se ajusta mucho mejor que el modelo
de Rasch, y que solamente se producen resultados similares en la bondad del ajuste cuando el número de ítems que se utilizan para la construcción del test es grande. Sin embargo, también hay evidencias empíricas de que el modelo de Rasch es
bastante robusto ante violaciones del supuesto de que es constante el índice de
discriminación de los ítems y frente a las correcciones de aciertos por azar, comprobándose que las ganancias en las estimaciones son escasas si se utilizan modelos logísticos de dos y tres parámetros, que teóricamente se adaptan mejor a esas
circunstancias. Las preferencias por uno u otros modelos varían entre los autores,
aunque los objetivos de las pruebas, las características de los datos y la verificación
de que las desviaciones o la violación parcial de algunos de los supuestos no producen graves consecuencias es lo que en definitiva determina la elección de uno u
otro modelo. En la práctica, además de las anteriores consideraciones, hay que
tener en cuenta que cuantos más parámetros contenga un modelo, mayores tamaños de muestra se requieren para estimarlos, luego el modelo de Rasch tiene la ventaja de no requerir grandes tamaños de muestra para su ajuste, en tanto que los
logísticos de dos y tres parámetros requieren tamaños muestrales muy superiores.
En la literatura podemos remitirnos a trabajos como el de Andersen (1973),
quien examinó un subconjunto de ítems sobre aptitudes verbales para su ajuste
mediante un modelo de Rasch, y el modelo se rechazó porque no daba un buen
ajuste y porque se comprobó que los ítems poseían distinto poder discriminante.
No obstante, otros muchos autores que han empleado el modelo de Rasch para
propósitos similares lo han encontrado satisfactorio y existen muchos tests publicados que lo utilizan en esa época (e.g., Woodcock, 1974; Connolly et al., 1971;
Stegelmann, 1983), siendo cada vez mayor el número de autores que lo han considerado ventajoso frente a otros modelos más complicados y de similar preci-
Capítulo 12. TRI: Modelos
339
sión, desarrollándose así un gran número de modelos y de aplicaciones basados
en el modelo de Rasch. Desde que se dispuso de los primeros programas de software como BICAL (Wright y Panchapakesan, 1969; Wright y Stone, 1979) y
LOGIST (Wood et al., 1976), las computadoras han ido ganando en capacidad y
son muchos los programas y las aplicaciones que se pueden encontrar, tanto de
esos modelos básicos, como de otros mucho más sofisticados, que se han ido
generando a tenor de las investigaciones teóricas, muchas veces impulsadas por
las demandas de las aplicaciones.
Una diferencia adicional del modelo de Rasch con respecto a los otros dos
tipos de modelos logísticos, además de involucrar un menor número de parámetros, radica fundamentalmente en cómo se utilizan las puntuaciones para la obtención de la cantidad de información. Como se verá más adelante, las funciones de información ayudan a cuantificar la información que las puntuaciones observadas
proporcionan acerca del rasgo. El modelo de Rasch no necesita utilizar los pesos
diferenciales de los ítems para producir la puntuación total que dé la máxima cantidad de información acerca del rasgo, pues en el modelo de Rasch el número de
respuestas correctas es el mejor total que se puede usar para ese fin. Sin embargo, en los modelos logísticos de dos y tres parámetros no es así como se puede
obtener la mejor puntuación total, y es necesario utilizar pesos diferenciales para
los ítems, como ya se ha apuntado en el Cuadro 12.1.
m12.5. Otros modelosm
Los modelos TRI más básicos, y hasta ahora los más utilizados, suponen la unidimensionalidad, la independencia local y que los ítems sean dicotómicos (o que
se dicotomicen). Existen, sin embargo, otros modelos que contemplan la posibilidad de respuesta múltiple o politómica, así como de puntuaciones continuas y
modelos en los que se considera más de una dimensión para el rasgo.
Un modelo que admite m categorías para la respuesta lo introdujo Samejima
(1969). Es el modelo de respuesta graduada en el que, aunque utiliza para la respuesta
escalas categóricas tipo Likert, para establecer la forma probabilística del modelo se efectúa una cierta dicotomización. Bock (1972) y Samejima (1972) proponen los modelos de respuesta nominal para el caso de ítems con respuesta múltiple o
politómica. En estos modelos, también es fundamental la forma de la CCI, pero
aquí esa curva no es única para cada ítem, sino que cada opción de respuesta vie-
340
Principios de Psicometría
ne descrita por su propia curva característica, pasando a ser el modelo logístico
de dos parámetros un caso particular del modelo nominal con dos alternativas de
respuesta. Otro de los modelos introducidos por Samejima (1973), como un caso
límite del modelo anterior, es el modelo de respuesta continua, donde la respuesta viene dada sobre una escala continua. El modelo parece ser de utilidad en los estudios con datos provenientes de escalas de actitud y en psicología social.
La literatura especializada muestra que muchos otros modelos se han considerado y aplicado a problemas concretos. Gran parte de ellos se han generado
como generalizaciones del modelo de Rasch, destacando el denominado modelo
logístico lineal, desarrollado en su mayor parte en las escuelas del grupo europeo de
psicómetras, y que se viene utilizando fundamentalmente en el estudio de los procesos cognitivos. Una revisión de los modelos se puede ver en Van der Linden y
Hambleton (1997), y una exposición de los más relevantes en Santisteban y Alvarado (2001), aunque el continuo desarrollo de los modelos TRI obliga a hacer
periódicamente una revisión sobre las nuevas propuestas.
Aun cuando en la literatura al uso no se haga mención a ellos, hay otros modelos no lineales basados en distribuciones de probabilidad, son los modelos de error
binomial y los modelos de Poisson, que no se suelen tratar en la literatura dentro de
la TRI. Se incluyen en los modelos de la teoría fuerte de la puntuación verdadera, contraponiéndola a la TCT, que recibe la denominación de teoría débil de la puntuación
verdadera. Los modelos de error binomial fueron introducidos por Lord (1965) y
presuponen que la puntuación observada se corresponde con el número de respuestas correctas en un test, cuyos ítems son localmente independientes. Los
modelos de Poisson los introduce Rasch y son muy apropiados para tests basados en un gran número de ítems dicotómicos en los que la probabilidad de respuesta correcta (o incorrecta) sea pequeña. En el modelo de Rasch, los errores
estándar de medida se estiman separadamente para los diferentes niveles de aptitud y de dificultad de los tests. Rasch (1960) describe cómo se pueden obtener
estimadores de los errores estándar de las estimaciones de la aptitud y de la dificultad y desarrolla un modelo de Poisson para evaluar la rapidez lectora, que
toma como base para ilustrar cómo conseguir estimaciones suficientes de los
parámetros. Esta propiedad de la suficiencia para estimar el parámetro θ, ha sido
la piedra angular donde se apoyan los modelos TRI. Por ello, la aportación de
Rasch a la psicometría ha sido crucial. Remitimos al lector interesado a la obra
de Rasch (1960), y también se puede encontrar una exposición detallada en Santisteban (1984 y 1990a; págs. 237-254).
Capítulo 12. TRI: Modelos
341
En cuanto a la dimensionalidad, los modelos unidimensionales son los más
tratados en la literatura, pero con las posibilidades que ofrecen los computadores en cuanto a la rapidez y el manejo de gran volumen de datos, se han ido abriendo paso los modelos multidimensionales. Los modelos multidimensionales ojiva
normal, modelos multicomponentes y extensiones multidimensionales del modelo de Rasch, entre otros, los presentan diversos autores en el Capítulo III de Van
der Linden y Hambleton (1997). En español, aunque escuetamente, se tratan en
Santisteban y Alvarado (2001). Las extensiones del modelo de Rasch están entre
los modelos multidimensionales que se han generado con mayor número de aplicaciones prácticas en psicología, sociología y educación. La obra de Von Davier
y Carstensen (2007) es una recopilación de algunos de estos modelos.
m12.6. Estimación de los parámetros de los modelosm
La exposición de los modelos se ha hecho dando su forma funcional y especificando sus parámetros, pero nada se ha dicho de cómo se llega al conocimiento
del valor de esos parámetros, ya que la única información disponible, en principio, son los datos de las respuestas que los sujetos dan a uno o a varios ítems. El
paso de esa información al conocimiento del valor de los parámetros es la estimación, que es el problema más importante desde el punto de vista computacional y de la explicación del modelo. En un modelo, cuantas más propiedades se
quieren explicar sobre el hecho que representa, más parámetros hay que incluir
en su formulación. A los modelos TRI anteriormente expuestos se les denomina uniparamétricos si sus funciones características sólo incluyen como parámetro del ítem el índice de dificultad. Los modelos de dos parámetros, además del
índice de dificultad incluyen el índice de discriminación, y cuando se intenta explicar el comportamiento del acierto por conjetura, hay que incluir un parámetro
más. En todos estos modelos hay que realizar además la estimación de un parámetro adicional que es el parámetro θ y que es, en definitiva, en el que generalmente se está interesado.
En general, la estimación de parámetros es un problema de inferencia estadística, pues se trata de averiguar el valor de esos parámetros a través de la información que aportan las muestras. Estas muestras deben ser representativas de la
población que se estudia y la aproximación se hace utilizando los estadísticos. Un
estadístico es una función de las observaciones muestrales, y si se utiliza para reali-
342
Principios de Psicometría
zar estimaciones, entonces se le llama estimador. No todos los estadísticos son buenos estimadores, por lo que hay que conocer las propiedades de cada estimador
y elegir el más adecuado. Existen diferentes métodos, a los que genéricamente se
les llama métodos de estimación, que se utilizan para que esa aproximación se
realice con garantías y con la debida precisión. Los métodos de estimación son
de muy diversa índole (paramétricos, no paramétricos, de información completa, de información limitada, etc.) y dentro de cada grupo siempre se pueden encontrar diferentes tipos, atendiendo a diferentes problemas o a distintas formas de
hacer las aproximaciones.
La estimación de los parámetros de los modelos de TRI se fundamenta en los
métodos estadístico-matemáticos (e.g., de los momentos, de los mínimos cuadrados, de la máxima verosimilitud, bayesianos, etc.). Sin embargo, las exigencias
tanto computacionales como de interpretación han llevado a que se desarrollen
procedimientos y a que se genere una gran cantidad de software específico para
el tratamiento de la estimación de parámetros y del ajuste de gran variedad de
modelos TRI. En relación con los modelos que se presentan en este capítulo,
podemos decir que, tanto el modelo de Rasch como el logístico de dos parámetros, pueden estimarse adecuadamente con el software disponible en una variedad de programas, en tanto que en otros modelos, como el logístico de tres parámetros, no todos los programas son aconsejables, pues la presencia del parámetro
c puede generar algunos problemas en el proceso de estimación.
La gran importancia de la estimación en los modelos de TRI obliga a llamar
la atención del lector sobre este punto, aunque la extensión y la complejidad del
tema, aun en los casos más simples, excede las dimensiones de esta obra, remitiéndole a otras publicaciones (e.g., Baker, 1992; Van der Linden y Hambleton,
1997 en inglés, y Meliá y Santisteban, 2009 en español). No obstante, incluimos
una breve introducción sobre la estimación de máxima verosimilitud, pues ha sido
el método por excelencia que se utiliza en TRI.
La mayor parte de los métodos de estimación aplicados en TRI tienen su fundamento en la estimación de máxima verosimilitud, con muchas variaciones como
el de la máxima versosimilitud conjunta, o el de la estimación por máxima verosimilitud marginal. Los fundamentos del método pueden seguirse en cualquier manual
de estadística en el que se aborden estos temas. Una excelente referencia donde
todo el proceso está bien documentado, dando la forma concreta de las ecuaciones en derivadas, es la contribución de Birnbaum (en Lord y Novick, 1968), que
desarrolla el método para el modelo logístico de dos parámetros, haciéndolo Lord
Capítulo 12. TRI: Modelos
343
(1968, 1975a, 1975b, 1980) para el modelo de tres parámetros, aunque son muchos
los autores que ya desde sus inicios tratan el tema (Urry, 1974, Jensema, 1976; Wood
et al., 1976; Schmidt, 1977; Samejima, 1977; Reckase, 1979, etc.).
El método de máxima verosimilitud
El método de máxima verosimilitud se basa en la búsqueda de estimadores de los
parámetros desconocidos que maximicen la probabilidad de obtener los datos
disponibles en la muestra, o sea, aquellos que sean los más verosímiles, dada la
información que proporcionan las observaciones muestrales. La obtención de
esos valores máximamente creíbles (probables) para que sean los estimadores de
los parámetros, se suele lograr maximizando una función de los valores muestrales a la que se denomina función de verosimilitud.
En general, si es F(x) la función de distribución y f(x) la función de probabilidad
de una variable aleatoria X que depende de m parámetros desconocidos θ1, …, θm
que se quieren estimar con ayuda de la información que proporciona una muestra de
tamaño n, la función de verosimilitud viene dada por la ecuación
L (x; θ1 , …, θm ) = ∏ f ( x i , θk )
n
i=1
(12.21)
aunque usualmente, en lugar de utilizar la función de verosimilitud, se utiliza su
logaritmo, que al ser el logaritmo del producto es igual a la suma de los logaritmos, por lo que la función de verosimilitud toma la forma:
log ∏ f ( x i ; θ1 , …, θm ) = ∑ log f (x i ; θ1 , …, θm )
n
n
i=1
i=1
(12.22)
Los estimadores de máxima verosimilitud para los parámetros implicados,
θ1, …, θm, se obtienen resolviendo el sistema de ecuaciones que proporcionan
las derivadas de la función de verosimilitud con respecto a cada uno de los parámetros igualadas a cero, como se indica en la expresión (12.23). Esas soluciones
son los valores estimados de los parámetros, y para comprobar que maximizan la
función de verosimilitud, habría que obtener la segunda derivada. Por ello, para
utilizar este método, las funciones deben ser doblemente derivables.
344
Principios de Psicometría
∂ log L (x; θ1 , …, θm )
∂θk
= 0; k = 1, 2, …, m
(12.23)
En los modelos TRI las funciones de probabilidad son las P(θ), y al ser los
ítems dicotómicos, la función de verosimilitud para un vector de n componentes
responde a la expresión dada en (11.6), donde el parámetro θ es desconocido y
se desea estimar. La función de verosimilitud se puede expresar, por lo tanto, como:
(
)
[
] [Qi (θ)]
L u 1 , u 2 , …, u n θ = ∏ Pi (θ)
y su logaritmo, según (12.22) es:
(
)
n
i =1
ui
1− u i
[
(12.24)
]
log L u 1, u 2, …, u n θ = ∑ u i log Pi (θ) + (1 − u i ) log Q i (θ)
n
i =1
(12.25)
Para la obtención de los estimadores se deriva esta expresión, siendo los estimadores las soluciones de esas ecuaciones, como se ha indicado en (12.23). La
expresión (12.25) se simplifica cuando ui = 1 (acierto), pues sólo hay términos Pi,
y cuando es cero (error), pues sólo hay términos Qi.
El logaritmo de la función de verosimilitud, en principio, puede ser un logaritmo natural o tener cualquier base, pero lo usual es tomar logaritmos neperianos, sobre todo en los modelos TRI cuyas CCI incluyen funciones exponenciales con base e.
Ejemplo 12.4
Se va a estimar el parámetro θ de un sujeto j a partir de las respuestas que
da a n ítems binarios que siguen distribuciones logísticas con ai =1 y bi = 0. Para
realizar la estimación se utiliza el método de máxima verosimilitud, por lo que
se construye la función de verosimilitud como se indica en (12.24) y (12.25).
Al ser las funciones de probabilidad para todo ítem i de la forma:
Pi (θ ) =
eθ
1+ e
θ
[
= 1+ e − θ
]
−1
y Qi (θ ) = 1 −
eθ
1+ e
θ
=
1
1+ e θ
345
Capítulo 12. TRI: Modelos
la función de verosimilitud es:
n− x j
 θ j x j 
1 
e 

L u1, u2 , …, un θ j = ∏ Pi (θ ) Qi (θ ) =


θj 
θj

i=1
 1+ e   1+ e 
(
)
n
puesto que para un determinado patrón de respuestas, la puntuación total del
sujeto j, es:
x j = ∑ uij
n
i=1
El logaritmo neperiano de L es:
 θj 
 1 
e 
lnL u1, u2 , …, un θ j = x j ln
+ n − x j ln

θj 
θ

 1+ e j 
 1+ e 
(
)
(
)
Derivando con respecto a θj e igualando a cero, se obtiene que
(
∂ lnL ui θ j
∂θ j
)=
xj
1+ e
θj
−
(n − x j ) e
1+ e
θj
θj
=
x j − (n − x j ) e
1+ e
θj
θj
=0
de donde se deduce la solución
θˆ j = ln
xj
n − xj
Así, si un vector de respuesta tuviese, por ejemplo, doce componentes
(n = 12) y el sujeto j tuviese siete aciertos (xj = 7), el valor estimado para su nivel
del rasgo sería:
7
θˆ j = ln = 0.336
5
y para otro sujeto h que tuviese 9 aciertos se le estimaría un nivel (valor) en el rasgo:
9
θˆ h = ln = 1.099
3
Una explicación más completa en modelos TRI, dando las funciones de
verosimilitud para las respuestas a n ítems con las que se pueden obtener 2n
patrones diferentes y que cada uno de esos patrones se puede repetir un número r de veces en una muestra, se puede encontrar en Santisteban (1990a).
346
Principios de Psicometría
Métodos condicionales y no condicionales
Hasta ahora, para estimar θ se ha dado por supuesto que son conocidos los parámetros del ítem (ai, bi, ci, etc.). Esta estimación se llama estimación condicional, pues
se ha realizado la estimación de θ admitiendo que esos parámetros son conocidos y que, por lo tanto, la función de verosimilitud está condicionada sólo a los
valores de θj. En el Ejemplo 12.4 anteriormente expuesto se utilizan métodos
condicionales, pero lo usual es que no se tenga conocimiento previo de los índices de dificultad y de discriminación de cada ítem, salvo que se tomen de un
banco de ítems previamente construido donde los ítems están calibrados. Por
lo tanto, de los datos muestrales habrá que estimar, tanto θ como los parámetros de los ítems. A este modo de proceder se le llama estimación conjunta y habrá
que buscar el valor de los parámetros que maximicen el valor de la función de
verosimilitud que ahora, en lugar de ser una función
(
)
L u 1 , u 2 , …, u n θ
será una función
(
L u 1 , u 2 , …, u n θ; a , b, c
)
en el caso de un modelo de tres parámetros. Una exposición más detallada sobre
las funciones de verosimilitud se puede encontrar en Santisteban (1990a) y en
Lord y Novick (1968) o en Hambleton y Swaminathan (1985) para los modelos
logísticos.
Téngase en cuenta que si se quieren estimar simultáneamente los parámetros
de n ítems y de N sujetos, si los ítems son uniparamétricos, el número de parámetros que se deben estimar son n + N, o sea, el índice de dificultad de cada uno
de los ítems y el parámetro aptitud de cada uno de los sujetos. Si en cada ítem
hubiese que estimar dos parámetros, el número total de parámetros que habría
que estimar sería 2n + N, y así sucesivamente.
Con estos procedimientos analíticos (i.e., obteniendo la primera derivada, igualando a cero, etc.) no siempre se obtiene la solución óptima, por lo que adicionalmente, o en su defecto, se utilizan técnicas de aproximación. Son métodos
numéricos basados en algoritmos iterativos, como es el método de Newton-Raph-
347
Capítulo 12. TRI: Modelos
son, que partiendo de una primera estimación (generalmente obtenida por un
procedimiento analítico y a ser posible que fuera un estimador consistente) permiten a la función logaritmo de verosimilitud ir aproximándose a su máximo en
sucesivos pasos.
Casi todos los autores utilizan para la estimación de los parámetros de los
modelos el método de máxima verosimilitud, la diferencia fundamental está en si
se obtienen estimadores no condicionales de los parámetros. Una exposición muy
detallada y completa sobre diferentes métodos de máxima verosimilitud se puede encontrar en la obra de Meliá y Santisteban (2009) en la que los Capítulos 4, 5
y 6 se dedican al tratamiento de los métodos de máxima verosimilitud conjunta,
condicional y marginal respectivamente.
Cuadro 12.3
Las buenas propiedades de los estimadores de máxima verosimilitud, y muy
especialmente la suficiencia, justifican que este método sea el que más se
utilice y que en él se fundamenten muchos otros métodos para realizar la estimación de parámetros en TRI. Citemos aquí algunas de las propiedades que
poseen estos estimadores y que el lector puede corroborar en cualquiera de
los textos de estadística especializados en este tema. También puede encontrar información en Santisteban (1990a) y una discusión amplia sobre esas
propiedades y sus relaciones en Meliá y Santisteban (2009). Las propiedades
más relevantes de los estimadores de máxima verosimilitud es que son:
1.
2.
3.
4.
5.
6.
Insesgados (o asintóticamente insesgados)
Suficientes
Eficientes
Invariantes bajo transformación de los parámetros
Consistentes
Asintóticamente más eficientes y asintóticamente normales con media y
varianza dadas en la expresión (12.26):






1
θˆ → Nθ;
2
 ∂ ln f( x, θ )  

 n E ∂ θ  

 

(12.26)
348
Principios de Psicometría
donde n es el número de muestras y E el operador esperanza matemática.
A la expresión
 ∂ ln f( x, θ )  2
nE 
 = I (θ )
 ∂θ 
(12.27)
Fisher la llama cantidad de información contenida en la muestra de n observaciones. Luego la varianza del estimador es la inversa de la cantidad de
información de Fisher:
1
σ 2 (θˆ ) =
I (θ )
(12.28)
Este concepto se va a utilizar cuando en el próximo capítulo se traten las
funciones de información de los ítems y de los tests en el contexto de la TRI. El
conocimiento de esa varianza y, por lo tanto, del error típico de medida s
s = I (θ )−1/ 2 =
1
 ∂ ln f( x, θ ) 2
n E

∂θ


permite calcular los límites de los intervalos de confianza de amplitud 1 – α
para el parámetro θ, siendo estos intervalos tales que:
[
]
Prob θˆ − z α s ≤ θ ≤ θˆ + z α s = 1− α
(12.29)
Desde el punto de vista técnico, la estimación de los parámetros es fácilmente abordable con un conocimiento básico del software disponible (e.g., BILOG,
BILOG-MG, MULTILOG, PARSCALE, XCALIBRE).
Finalmente, indicar que además de los métodos paramétricos, como los
de máxima verosimilitud, también se han desarrollado métodos no paramétricos, siendo los más utilizados los que tienen como base la aproximación bayesiana. Esta aproximación bayesiana presenta un intento de incorporar toda la
información conocida a priori, relevante y válida, al proceso de hacer inferencias.
Capítulo 12. TRI: Modelos
349
Cuadro 12.4
La aproximación bayesiana se basa en el concepto de probabilidad condicionada y en el teorema de Bayes, que es imprescindible conocer para comprender la lógica de este procedimiento. Aquí, mediante el teorema de Bayes
se pone en relación una primera distribución de la aptitud f(θα ) con la función de respuesta a un cierto vector V. La probabilidad condicionada, expresada por f(θαV), indica la distribución posterior, o a posteriori, de θ, siendo
la función f(Vθα ) la distribución de probabilidad condicionada que indica la
verosimilitud de las observaciones.
De acuerdo con el teorema de Bayes, la distribución posterior se obtiene como producto de la verosimilitud por la distribución primera de θ:
f(θαV) ∝ L(Vθα ) f(θα )
donde L (Vθα ) expresa la función de verosimilitud, ya dada en la expresión
(12.21) o su equivalente (12.24) para ítems dicotómicos.
Un estudio completo del procedimiento en la utilización del método bayesiano para la estimación de los parámetros aptitud, cuando los parámetros
de los ítems son conocidos, lo dan Birnbaum (1969) y, posteriormente, Owen
(1975). En el caso en que deba realizarse la estimación conjunta de los parámetros de los ítems y de los parámetros de aptitud por procedimientos bayesianos, remitimos al lector a los trabajos de Swaninathan y Gifford (1982) o
a obras más recientes como la de Embretson y Reise (2000), y la de Baker
y Kim (2004).
Otro problema que hay que abordar inexcusablemente es verificar que el
modelo elegido se ajusta a los datos. Es decir, si el modelo refleja adecuadamente aquello que las puntuaciones representan. Para valorar el ajuste se han
propuesto varios índices, la mayoría de ellos basados en el estadístico χ2.
Los problemas de estimación y de la valoración del ajuste del modelo representan la fase final e ineludible, pues son garantía de que, tanto los ítems como los
tests, poseen las propiedades psicométricas necesarias para su uso.
350
Principios de Psicometría
Puntos clave
3
3
3
3
3
3
3
3
3
3
3
3
3
3
Los modelos TRI básicos son modelos no lineales, unidimensionales y de
ítems dicotómicos. Los diferentes modelos responden a la forma funcional
de la CCI.
Cada ítem tiene su propia CCI que da la probabilidad de acierto, Pi(θ), al ítem
para los diferentes valores de θ.
Un sujeto en un determinado nivel en un cierto rasgo θ puede tener distintas probabilidades de acierto a ítems con CCI diferentes, aun cuando esos ítems midan
el mismo rasgo.
Los modelos TRI básicos son los modelos unidimensionales ojiva normal, los
logísticos y el modelo de Rasch.
La forma funcional del modelo ojiva normal es la normal acumulada.
Los modelos logísticos reciben esa denominación porque sus curvas de probabilidad P(θ) son funciones logísticas. Los de dos y tres parámetros son los más
utilizados en las aplicaciones.
El modelo de Rasch ha sido crucial en el desarrollo de la TRI y está entre los
más utilizados en las aplicaciones. Es un modelo logístico de un parámetro que
supone que la probabilidad de acierto al ítem sólo depende de su dificultad y
del nivel del sujeto en el rasgo.
En todos los modelos, cuando la aptitud iguala a la dificultad, la probabilidad de
acertar el ítem es de 0.50 (salvo cuando hay que considerar en el modelo el acierto por azar). Esa probabilidad de acierto aumenta a medida que crecen los valores de θ.
Se consideran parámetros de los modelos los índices de dificultad y de discriminación (ai y bi), así como los que se incluyen para considerar la probabilidad
de acierto por azar (ci) y la de error en niveles altos de aptitud (γi).
La aptitud θ también es un parámetro del modelo, aunque no se contabiliza al
indicar si un modelo es uniparamétrico, biparamétrico, etc.
Casi todos los modelos TRI admiten transformaciones lineales del parámetro θ,
lo que obliga a hacer las pertinentes transformaciones en el resto de los parámetros para conservar la métrica.
Introducir una escala logarítmica (el neperiano del cociente entre las funciones
de probabilidad de acierto y error) permite hacer ciertas comparaciones entre
sujetos con diferentes valores en el parámetro θ.
Uno de los problemas básicos para el tratamiento de los modelos es la estimación de sus parámetros y la valoración de la bondad del ajuste del modelo a los
datos.
Los métodos de estimación más utilizados en TRI son los basados en la máxima verosimilitud (conjunta, condicional, marginal, etc.), que suelen acompañar-
Capítulo 12. TRI: Modelos
3
351
se de métodos numéricos de aproximación como el de Newton-Raphson, aunque también se utilizan otros métodos, teniendo mucha presencia en la literatura los métodos bayesianos.
En la actualidad hay programas específicos de software para verificar los supuestos de los modelos, estimar los parámetros y para evaluar la bondad del ajuste
de cada modelo a los datos.
Actividades
r Con la ayuda de las tablas de la distribución normal, calcule la probabilidad (área) contenida en los intervalos (–∞, –2.58); (–∞, –1.68); (–∞, 0);
(–∞, 1.68); (–∞, 2.58).
r Lleve a un gráfico esos valores. Al eje horizontal (abscisas ) los valores
–2.58, 1.68, 0, 1.68 y 2.58, y al vertical (ordenadas) los de las correspondientes áreas acumuladas. Una los puntos y discuta el significado, relacionándolo con un modelo ojiva normal.
r Represente gráficamente las CCI de tres ítems ojiva normal de uno, dos y
tres parámetros, cuyos valores son b1 = 2; a2 = 1.5, b2 = 1 y a3 = 1.5, b3 = 1,
c3 = 0.15.
r Represente las CCI de los tres ítems anteriores suponiendo que siguen
modelos logísticos.
r Discuta por qué para hacer comparaciones basadas en la puntuación de un
vector de respuesta, es importante tener en cuenta la información que aporta cada ítem a través de su índice de discriminación.
r Haga supuestos y especifique la función característica de dos ítems de diferente dificultad que sigan un modelo de Rasch. Represente gráficamente
sus curvas características y discuta las diferencias en las probabilidades de
acierto a ambos ítems en dos sujetos que difieren en una unidad en sus
niveles de aptitud.
r Calcule en los diferentes modelos el valor de P(θ) cuando la aptitud es igual
a la dificultad (θ = b). Discuta los resultados.
r Un vector de respuesta contiene cinco ítems que siguen un modelo de Rasch
con b = 1. Estime la aptitud de un sujeto que responde correctamente a
cuatro de esos ítems.
352
Principios de Psicometría
r Para un vector de respuesta de cinco ítems, construya la función de verosimilitud de un determinado patrón sabiendo que los ítems se ajustan a
modelos logísticos de dos parámetros.
r Haga una búsqueda del software existente para el tratamiento de distintos
modelos TRI y realice una clasificación de los programas en relación con
los modelos y sus utilidades.
Teoría de la respuesta al ítem
Funciones de información y aplicaciones
13
El diseño y construcción de tests es una de las aplicaciones inmediatas más
importantes de los modelos TRI. En términos generales se puede decir
que, una vez determinado el objetivo específico para el que se construye
el test, el mejor test de k ítems que se puede construir, a partir de un conjunto de n ítems disponibles, es aquel que proporcione la mayor cantidad
de información acerca del rasgo. La cuantificación de la cantidad de información de los tests se hace a través de las llamadas funciones de información, que denotaremos por I(θ). La función de información de un test se
obtiene sumando las funciones de información de todos sus ítems, por lo
que se dará en primer lugar la definición de la función de información de
un ítem, para pasar luego a la del test, su significado y su utilidad. La introducción del concepto de eficiencia relativa permitirá comparar las informaciones que proporcionan dos tests en diferentes puntos de θ.
En este capítulo se va a tratar:
ã El concepto de función de información del ítem.
ã La función de información del test y su relación con la cantidad de
información de Fisher.
ã Las funciones de información para diferentes modelos.
ã Ponderaciones y valores de máxima información.
ã Construcción, interpretación y aplicabilidad de las curvas de información.
ã El concepto de eficiencia relativa.
ã Qué es un banco de ítems, un test a la medida (tests adaptativos) y
el uso de las funciones de información en la construcción de tests.
354
Principios de Psicometría
m13.1. Funciones de informaciónm
La función de información de un test, I(θ), representa la máxima cantidad de información
que se puede obtener sobre el rasgo, a partir de las respuestas dadas a los ítems de ese
test, sea cual sea el método de puntuación utilizado. La información del test se obtiene sumando la información que proporciona cada uno de los ítems. El test no es igualmente informativo en todo el rango de θ, pues depende de la forma de las curvas
características de los ítems que lo componen. El punto más informativo de cada ítem
es aquel en el que el valor de θ iguala a su dificultad (θj = bi ). Para acceder a esos conceptos comencemos por la definición de la función de información del ítem.
Función de información del ítem
La función de información del ítem, que denotamos por I(θ; ui) para un ítem i dicotómico, con respuesta ui, se define mediante la expresión:
I ( θ, u i ) =
[Pi′(θ)]
2
Pi ( θ) Q i ( θ)
(13.1)
donde Pi(θ) es la función de respuesta al ítem (ojiva normal, logística, etc.) y
Qi(θ) = 1 – Pi(θ). Al ser el ítem dicotómico, el denominador de (13.1), Pi(θ) Q i(θ),
es la varianza. En el numerador, P'i(θ) es la primera derivada de Pi(θ) con respecto a θ, que se particulariza para todos los valores especificados del rango de θ.
Por lo tanto, la cantidad de información que proporciona un ítem no es la misma
en todo el rango de θ, sino que varía con los niveles de aptitud.
Cuadro 13.1
Birnbaum (1968) define la función de información de diferentes formas equivalentes. La que se presenta como definición 1, como el cociente entre la
pendiente de la curva de regresión de la puntuación X sobre la aptitud θ con
la varianza del estimador de la aptitud y una segunda en la que, en lugar de
usar directamente la varianza para la definición, lo hace a través de la ampli-
355
Capítulo 13. TRI: Funciones de información
tud del intervalo de confianza construido como se indica en el Cuadro 12.3.
Estas definiciones de la función de información son equivalentes a la expresión (13.1), pero están dadas en términos más generales, haciendo evidente la relación de la precisión de las estimaciones (dadas por la varianza, o
por su raíz cuadrada, que es el error típico de medida) con la información
que proporciona el ítem o el test a lo largo de todo el continuo del rasgo θ,
y no mediante un valor fijo del error típico de medida, como se hace en la
TCT. Así pues, estas definiciones de la información pueden ayudar a entender su significado, si se está familiarizado con los conceptos de los diferentes términos que entran en esas definiciones.
Definición 1
La función de información para una puntuación X es, por definición, la
razón entre el cuadrado de la pendiente de la regresión de X sobre θ y el cuadrado del error estándar de medida de X para un θ dado.
( )
I θ, X =
 d µ 2
 X θ
 dθ 


σ 2X
(13.2)
θ
siendo:
µX
θ
dµ X
σ 2X
= E ( X | θ ) la media de las puntuaciones X, condicionadas a θ. Por lo
tanto, es la curva representativa de las medias de la puntuación X condicionadas a cada uno de los valores de θ, o sea,
la curva de regresión de X sobre θ.
θ
dθ
θ
es la derivada primera con respecto a θ de la curva de regresión, o sea, su pendiente.
es la varianza de la puntuación X alrededor de la curva de
regresión, o sea, el cuadrado del error estándar de medida.
Definición 2
La función de información I (θ, X) para cualquier puntuación X es, por definición, inversamente proporcional al cuadrado de la longitud del intervalo de confianza asintótico para el estimador de θ calculado a partir de la puntuación X.
Esta deducción que hace Birnbaum se puede comprobar fácilmente que
coincide con la definición 1. La demostración se puede encontrar en Santisteban (1990a, pág. 298).
356
Principios de Psicometría
Si se tiene en cuenta que la pendiente de una curva en un punto es el valor de
la derivada de la función que representa a esa curva en ese punto, tanto la expresión (13.1) como la (13.2) indican que la función de información para un determinado ítem y un valor del rasgo θ = θk es el cuadrado de la pendiente de la curva de regresión (no lineal) en el punto θk, dividido por el cuadrado de la desviación
típica o error típico de medida.
Como se ha hecho patente en el capítulo anterior, la pendiente de la CCI es
pequeña cuando el valor del índice de discriminación ai es pequeño, como muestran las curvas P1 (pendiente cero) y P2 (escasa pendiente, la curva es casi horizontal) de la Figura 12.3. Intuitivamente se puede deducir que esos ítems dan poca
información, porque las probabilidades de acierto son muy similares para todos
los sujetos, aun cuando difieran mucho en aptitud. Sin embargo, en esa misma
figura se observa que el ítem P3 tiene mucha pendiente y discrimina mucho (da
mucha información acerca de la probabilidad de acierto) alrededor del punto
θ = 1. Es decir, las diferencias en probabilidad son muy grandes entre aquellos
sujetos que tienen valores en el rasgo superiores o inferiores al valor 1, pero no
demasiado alejados de ese valor θ = 1. Desde esta perspectiva, en la Figura 12.4
se pueden observar las diferencias entre los ítems, por ejemplo, que los ítems P4
y P6 dan bastante información en un amplio rango de θ.
La expresión (13.1) indica que el valor de la función de información depende
de dos fuentes de variación. Una es la pendiente de la curva en cada punto, que
cuanto mayor sea mayor información se obtendrá acerca de θ, la otra es el cuadrado del error estándar de medida, que cuanto menor sea, mayor será la información.
El cociente entre estos dos términos es deseable que sea lo mayor posible.
Cuadro 13.2
Para ilustrar el cálculo de la pendiente consideremos el caso de un modelo logístico de dos parámetros cuya CCI es la representada como P6 en la
Figura 12.4.
La derivada P´(θ) es:
P′(θ ) = Da i
eDai ( θ−bi )
1+ e
Da i ( θ−bi )
⋅
1+ e
1
Da i ( θ−bi )
= Da iPi (θ ) Qi (θ )
(13.3)
357
Capítulo 13. TRI: Funciones de información
Por lo tanto, para ese ítem en concreto
P′(θ ) = (1.7)( 2)
e(1.7 ) ( 2 ) ( θ−1)
1+ e
( 1.7 ) ( 2 ) ( θ−1)
⋅
1+ e
1
( 1.7 ) ( 2 ) ( θ−1)
Que para algunos valores de θ toma los siguientes valores:
θ
P' (θ)
–2.0
–1.0
0.0
0.8
1.0
1.2
1.8
2.0
3.0
0.000 0.004 0.106 0.759 0.850 0.759 0.197 0.106 0.004
El mayor valor para P' (θ) se obtiene cuando θ = 1. En este caso, ese valor
es próximo a la unidad, luego el ángulo α que forma la tangente a la curva en
ese punto con el eje horizontal es α = 44.8º (recuérdese que la pendiente es
igual a la tangente de ese ángulo y que tan α = 1 cuando α = 45º). Para valores
de θ extremos (positivos o negativos) P' (θ) → 0 y la pendiente es nula (α = 0º).
Función de información del test
La función de información de un test es la suma de las funciones de información
de todos los ítems que lo componen:
I ( θ) = ∑ I( θ, u i ) = ∑
n
i=1
n
[Pi′(θ)]
2
i=1 Pi ( θ) Q i ( θ)
(13.4)
Se demuestra en estadística matemática que, bajo ciertas condiciones de regularidad, un estimador de máxima verosimilitud θ$ de un parámetro θ, está distribuido asintóticamente según una distribución normal (como se ha indicado en el
Cuadro 12.3). Su varianza es igual a la inversa de la expresión a la que Fisher llamó cantidad de información (que es el cuadrado de la derivada del logaritmo de la
función de verosimilitud), también llamada información de Fisher y que se denota por I(θ).
358
Principios de Psicometría
1
Var ( θ$|θ) =
I ( θ)
(13.5)
Se comprueba (Lord, 1980, pág. 70), que si se dan las condiciones exigidas a
los modelos TRI (unidimensionalidad e independencia local) la varianza dada en
(13.5) responde a la siguiente expresión:
Var ( θ$|θ) =
[Pi′ ( θ)]
1
∑
n
2
(13.6)
i=1 Pi ( θ) Q i ( θ)
El denominador de la expresión (13.6) es por definición la función de información del test, dada en (13.4). Por lo tanto, la función de información de un test
es inversa a la varianza del estimador máximo verosímil (insesgado y consistente)
de la aptitud y se puede demostrar (de acuerdo con la desigualdad de Cramer-Rao)
que la función de información I(θ) de un test dado es la cota superior para la información que se puede obtener mediante cualquier método de puntuación del test.
La demostración de las anteriores aseveraciones excede a los propósitos de esta
obra. Sin embargo, es conveniente saber que es de esos resultados de los que
se desprende que la información proporcionada por el test venga dada por la suma
de las informaciones de cada ítem, con independencia de cuánta es la información que aporta cada uno de ellos.
m13.2. Las funciones de información en diferentes modelosm
Para obtener las ecuaciones de las funciones de información de los ítems, basta
con sustituir en (13.1) las expresiones correspondientes a cada uno de los modelos. Por ejemplo, para un modelo logístico de dos parámetros, la derivada P' (θ)
viene dada por (13.3), luego su función de información es:
I ( θ, u i ) = D2 a 2i
Pi2 ( θ) Q2i ( θ)
= D2 a 2i Pi ( θ) Q i ( θ)
Pi ( θ) Q i ( θ)
(13.7)
359
Capítulo 13. TRI: Funciones de información
esto indica que la información, para un nivel dado de la aptitud, es directamente
proporcional al cuadrado del índice de discriminación del ítem. La información
del test, compuesto por n ítems es:
I( θ) = ∑ I( θ, u i ) = ∑ D2 a 2i Pi ( θ) Q i ( θ)
n
n
i=1
i=1
(13.8)
De la expresión (13.7) se deduce que el ítem aporta la mayor cantidad de información cuando se maximiza Pi (θ) [1 – Pi (θ)] o sea, cuando Pi (θ) = 0.50, y esto
sucede cuando θ = bi siendo I ( θ, u i ) = D2 a 12 / 4 el valor máximo de la información. En el modelo de un parámetro, si se considera como caso particular del
modelo logístico biparamétrico en el que ai = 1, la mayor información se da también para θ = bi, siendo ese valor máximo I (θ, ui) = D2 / 4. De forma análoga
se pueden obtener las funciones de información de los ítems y de los tests para
los diferentes modelos.
Para el modelo logístico de tres parámetros, la función de información viene
dada por la expresión:
I ( θ,
u i ) = D2 a 2i
2
Q i ( θ)  Pi ( θ) − c i 


Pi ( θ)  1 − c i 
(13.9)
Birnbaum (1968, págs. 463-464) indica que la mayor cantidad de información se
obtiene cuando θ toma el valor:
θ = bi +
(
)
1

1
ln  1 + 1 + 8c i 
D ai  2

(13.10)
La información máxima (Lord, 1980, pág. 152) viene dada por la expresión:
I ( θ, u i ) =
D2 a 2i
8 (1 − c 2i )
[1 − 20 c − 8 c
i
2
i
+ (1 + 8 c i )3 / 2
]
(13.11)
360
Principios de Psicometría
Es evidente que cuando ci tiende a cero la información crece y tiende a coincidir con la del modelo de dos parámetros. Para
c i = 0; θ = bi +
(
)
1

1
ln  1 + 1 
D ai  2

que al ser ln1 = 0, indica que el máximo se alcanza en θ = bi y no en un nivel más
alto de la aptitud, como lo haría si se considerase en el modelo el parámetro conjetura o probabilidad de acierto por azar ci. Las expresiones de las funciones de
información para los modelos logísticos se dan en la Tabla 13.1.
Tabla 13.1. Funciones de información para tests con ítems logísticos.
I(θ)
Modelos
Un parámetro
∑D2 Pi (θ) Qi (θ)
Dos parámetros
∑D2 ai2 Pi (θ) Qi (θ)
Tres parámetros
∑D
n
i=1
n
i=1
n
i=1
2
a i2
2
Qi (θ )  Pi (θ ) − ci 


Pi (θ )  1− ci 
En resumen, en estos modelos se puede decir que la información:
a) Varía con los niveles de aptitud, por lo que, en principio, la información es
diferente en los diferentes puntos de la escala de θ.
b) Depende de la forma de la CCI. Cuanto mayor es la pendiente de la curva
en un punto, mayor es la información que aporta el ítem en ese punto.
c) Depende de la varianza de las estimaciones.
Capítulo 13. TRI: Funciones de información
361
d) Para los modelos logísticos de uno y dos parámetros, la máxima información se obtiene en aquellos valores de θ que igualan al nivel de dificultad,
o sea, cuando θ = bi .
e) De lo anterior se deduce que los valores máximos de la información se
alcanzan para θ = bi y esos valores son D2/4 y D2 a2i/4 para los modelos
de uno y dos parámetros, respectivamente.
f ) Para el modelo logístico de tres parámetros, la máxima información se
alcanza para el valor de θ dado por la ecuación (13.10), y el valor máximo
de la información se obtiene por la expresión dada en (13.11). Este valor
crece cuando ci decrece y coincide con la del modelo de dos parámetros
cuando ci es cero.
g) Las funciones de información del test se obtienen sumando las correspondientes funciones de información de cada uno de los ítems para todos
los valores de θ.
m13.3. Curvas de informaciónm
La función de información del test viene dada por la suma de las funciones de
información de todos los ítems que lo componen. En la Tabla 13.2 se da un ejemplo de los valores de la información (utilizando la ecuación (13.7) para diferentes
valores de θ) de seis ítems que siguen modelos logísticos de dos parámetros. En
la última columna de dicha tabla se dan los valores de la información del test formado por esos seis ítems.
Las funciones de información de los ítems se pueden representar gráficamente,
llevando al eje de abscisas los diferentes valores de θ y en ordenadas los de los
correspondientes I (θ, ui), para cada uno de los modelos. En la Figura 13.1 se
representan las funciones de información de los seis ítems de la Tabla 13.2. En
el mismo gráfico también se representa con trazos discontinuos la función de
información del test, calculada como suma de las informaciones que proporcionan esos seis ítems. La cantidad de información de cada ítem varía con el nivel de
aptitud θ, y con sus valores respectivos de a y de b. El ítem 1, por ejemplo, da bastante información para valores bajos de θ, pero su información es casi nula para
niveles altos de la aptitud. El ítem 6, por el contrario, suministra la mayor información en los niveles más altos de θ, siendo su información prácticamente nula
en los más bajos.
362
Principios de Psicometría
Tabla 13.2. Valores de Ii (θ ; ai , bi ) para seis ítems y el test total.
Ítems
Valores
de θ
–3.00
–2.00
–1.00
0.00
0.80
1.00
1.20
1.80
2.00
2.50
3.00
4.00
5.00
Total
1
2
I(θ ; 1.5, 0) I(θ ; 1, 1)
0.003
0.039
0.437
1.626
0.662
0.437
0.278
0.065
0.039
0.011
0.003
0.000
0.000
0.003
0.017
0.090
0.377
0.702
0.723
0.702
0.470
0.377
0.194
0.090
0.017
0.003
3
I(θ ; 2, 1)
0.000
0.000
0.013
0.361
2.580
2.890
2.580
0.670
0.361
0.070
0.013
0.000
0.000
4
5
6
I(θ ; 1, 2) I(θ ; 2, 2) I(θ ; 1.5, 2.5)
0.001
0.003
0.017
0.090
0.294
0.377
0.470
0.702
0.723
0.606
0.377
0.090
0.017
0.000
0.000
0.000
0.013
0.189
0.361
0.670
2.580
2.890
1.510
0.361
0.013
0.000
0.000
0.000
0.001
0.011
0.083
0.136
0.220
0.800
1.110
1.626
1.110
0.136
0.011
0.007
0.059
0.558
2.478
4.510
4.924
4.920
5.287
5.500
4.017
1.954
0.256
0.031
Figura 13.1. Funciones de información de los seis ítems dados en la Tabla 13.2
y la función de información total del test.
Capítulo 13. TRI: Funciones de información
363
Si se comparan las curvas de información con ítems que siguen el mismo modelo, teniendo el mismo valor de bi y diferentes valores de ai (por ejemplo las de los ítems
2 y 3) se observa que es mayor la información suministrada por el ítem con mayor
valor del parámetro a (los ítems 3 y 5). Esto es lógico, pues la ecuación (13.7) indica
que la información de un determinado ítem depende del cuadrado de su índice de
discriminación. Es decir, aquellos ítems con valores de a muy pequeños tendrán una
contribución muy escasa a la información total del test. Por lo tanto, cuando se construya un test que se desea que sus ítems sean homogéneos, debe buscarse que los diferentes ítems tengan índices de discriminación parecidos, pues de otra manera aquellos ítems con bajos valores de ai apenas contribuirán a la información total del test,
y si son muy elevados, sucederá lo contrario. En un test en el que, por ejemplo, dos
ítems que tengan el mismo valor de bi y la relación entre sus valores de ai sea 1:2, la
información del segundo ítem será el cuádruple que la del primero, y para un determinado valor del rasgo, θ = θj, se necesitarán cuatro ítems del primer tipo para tener
la misma información que el segundo ítem proporciona para ese nivel de aptitud.
Ponderaciones
Puesto que la función de información del test se obtiene sumando las funciones
de información de los ítems que lo componen y cada uno de ellos proporciona
distinta información, es muy importante al construir el test tener en cuenta con
qué peso contribuye cada ítem, para poder así maximizar la información total que
da el test. En un test con información
I ( θ) = ∑ I ( θ, u i )
i
si se ponderan los ítems y se denota por wi (i = 1, …, n) el peso de cada uno de
sus n ítems, la puntuación total X de ese test y la información que proporciona
vienen dadas por las expresiones:
n
2
∑ w i Pi′( θ)
n


i=1

X = ∑ w i u i ; I θ , ∑ w i u i  =
 i
 ∑ w 2i Pi ( θ) Q i ( θ)
i=1
i
(13.12)
364
Principios de Psicometría
Si para construir el test se eligen aquellos ítems que tengan pesos óptimos,
sean éstos wi*, la información I (θ, ∑ w* ui ) es la mayor información que se puede obtener con ese test, y eso se cumple para cualquiera que sea el método de
puntuación elegido para obtener X.
La TRI ofrece la forma de elegir pesos para los ítems que den una puntuación
total X para el test que conlleve la máxima cantidad de información acerca de θ
(la cantidad de información de Fisher). La contribución de cada ítem, para dar
una medida efectiva de la información del test, no depende de qué otros ítems se
han incluido en él.
Los pesos óptimos para los ítems vienen dados por la expresión siguiente:
w *i =
Pi′( θ)
Pi ( θ) Q i ( θ)
(13.13)
De donde se deducen (Cuadro 13.3) los pesos óptimos para los diferentes
modelos. En la Tabla 13. 3 se dan esos pesos para los modelos logísticos.
Tabla 13.3. Pesos óptimos para los modelos logísticos de uno, dos y tres parámetros.
Número de parámetros del modelo
Peso óptimo
w i* =
Pi′
Pi Qi
Uno
Dos
D
D ai
Tres
Da i
1+ ci e −Dai ( θ−bi )
Como puede observarse en la Tabla 13.3, los pesos óptimos de las puntuaciones de los ítems en los modelos logísticos de uno y dos parámetros son independientes del nivel de aptitud del sujeto, siendo este peso, o una constante en el
modelo de un parámetro, o proporcional al poder discriminante del ítem en
el modelo de dos parámetros. Los pesos óptimos para el modelo logístico de tres
parámetros dependen de θ, que en muchos casos puede ser una dificultad añadida, si es desconocido. Lord (1980, pág. 75) indica que para resolver este proble-
365
Capítulo 13. TRI: Funciones de información
ma se puede hacer una aproximación, que consiste en sustituir Pi(θ) por la proporción pi de respuestas correctas dadas al ítem, que coincide con el índice de
dificultad convencional.
Cuadro 13.3
Lord (1980, pág. 73) deriva la ecuación (13.12) utilizando la definición 1
de información que se ha dado en el Cuadro 13.1. La expresión de los
pesos óptimos dada en (13.13) se justifica porque, si se sustituyen estos
pesos en la función de información I (θ, ∑ wi ui) dada en (13.12) se obtiene que
()
I θ =

2
2
′
∑P i / Pi Qi 
i

∑ Pi Qi (Pi′ / Pi Qi )
[ Pi′(θ)]
=∑
2
P (θ ) Q (θ )
2
i
i
i
i
que es la función de información de Fisher, que alcanza la cota de Cramer-Rao,
siendo por lo tanto esa ponderación la que produce la máxima información.
La comprobación de que los pesos óptimos para los distintos modelos
son los dados en la Tabla 13.3 es inmediata:
Para una distribución logística de dos parámetros, basta con dividir la expresión de la derivada P´(θ), obtenida en la expresión en (13.3) por el producto Pi(θ) Qi(θ).
Si la función de respuesta al ítem es una distribución logística de tres
parámetros:
P'i (θ ) =
[
Da i Qi (θ ) Pi (θ ) − ci
1− ci
]
(13.14)
y los pesos óptimos para las puntuaciones de los ítems son:
w ∗i (θ ) =
[
D a i Pi (θ ) − ci
Pi (θ ) (1− ci )
] = D ai eDL
ci + e
i
DL i
=
D ai
1+ ci e − D L i
que cuando ci = 0, coincide con los de los logísticos de dos parámetros.
366
Principios de Psicometría
Hay que advertir que si se desea hacer uso de los pesos óptimos de los ítems
al construir un test, la puntuación total en ese test hay que obtenerla sumando la
de cada uno de los ítems, multiplicado por su correspondiente coeficiente de ponderación, como ya se indicó cuando se enunciaron las características del modelo
logístico de dos parámetros (Cuadro 12.2), donde se pueden ver algunos ejemplos. También conviene hacer notar que para el modelo de tres parámetros, de
acuerdo con la expresión dada en la Tabla 13.3, los pesos óptimos varían con los
diferentes valores de θ, ya que dependen de la pendiente de la curva de probabilidad, como ocurre con las funciones de información (Figura 13.2).
Figura 13.2. Variación de los pesos óptimos con la aptitud en el modelo
de tres parámetros para valores de ai = 2, bi = 1 y ci = 0.2.
Cuadro 13.4
Los pesos óptimos que se asignan a los ítems (mediante la ecuación 13.13)
para discriminar entre niveles de aptitud dependen del índice de discriminación
del ítem (en los modelos de dos y tres parámetros, siendo una constante en el
de un parámetro). Es conveniente añadir las siguientes consideraciones:
a) Los pesos óptimos de los ítems en los niveles más altos de θ son virtualmente independientes de la aptitud, pues en el modelo de tres parámetros (el único en que dependen de θ) el peso óptimo del ítem se puede considerar prácticamente constante a partir de un cierto nivel de aptitud
(Figura 13.2).
Capítulo 13. TRI: Funciones de información
367
b) A medida que disminuye la aptitud, los pesos óptimos decrecen en
este modelo de tres parámetros, llegando a ser prácticamente cero a
bajos valores de θ. Es decir, a bajos niveles de aptitud, cuando la conjetura es relativamente importante, los pesos óptimos son pequeños,
pudiendo incluso llegar a ser nulos, con lo que la influencia de este
ítem en la información total del test puede ser nula. Dicho de otra manera, los individuos con bajo nivel de aptitud suelen hacer conjeturas
acerca de los ítems difíciles que se les presentan y sus respuestas a
estos ítems son aleatorias, en cuyo caso la influencia de la probabilidad por conjetura es muy superior a la que aporta el índice de discriminación.
c) Por lo tanto, es conveniente utilizar ítems con un moderado poder discriminante para discriminar en niveles altos de aptitud, mientras que para discriminar a niveles bajos es conveniente utilizar ítems que sean fáciles.
Aplicabilidad
Las funciones de información son muy útiles en la construcción de tests, por
ejemplo, en el proceso de selección de los ítems que van a formar parte de un test,
se pueden ignorar aquellos que presenten poca información, que casi siempre se
debe a que el valor del error estándar de medida es elevado. Esta selección se puede realizar ítem a ítem, puesto que la contribución de cada ítem a la información
del test no depende del resto de los ítems que componen ese test. Esta posibilidad no existe en la TCT, donde los análisis hay que hacerlos sobre el test global
y donde, además, sólo se puede hacer uso del error típico de medida y no de la
curva de la función de información.
Usando las propiedades de las funciones de información se pueden diseñar
tests con un determinado perfil de información, por ejemplo, que den mucha
información en determinados valores de θ. Esto es, tests que discriminen mucho
en ciertos valores de rasgo. Puesto que la información que proporciona un ítem
no es uniforme a lo largo de θ, para conseguir el test con el perfil deseado y con
el menor coste posible, se deben elegir aquellos ítems que proporcionen la mayor
información en los puntos de interés.
368
Principios de Psicometría
Bancos de ítems
El análisis de los ítems, el conocimiento del punto donde dan la máxima información, la ponderación de las puntuaciones, la eficiencia relativa, etc. dan una idea
de la utilidad de la TRI en la construcción de tests. Entre muchas otras aplicaciones, de las que ya Lord (1980) da una extensa relación, está la construcción de
bancos de ítems. Un banco de ítems para la medición de un rasgo no es más que
una colección amplia de ítems calibrados para la medición de ese rasgo. Es decir,
tener disponible para la medición de ese rasgo un conjunto amplio de ítems de
los que se conocen sus características psicométricas.
Un determinado banco de ítems se puede utilizar al menos con dos objetivos,
aumentar el banco, o usarlo para la construcción de tests. En ambos casos, siempre hay que partir de un conjunto de ítems que estén calibrados. Para la ampliación del banco, hay que que generar nuevos ítems, utilizando la misma metodología que los que ya pertenencen al banco y proceder a establecer las conexiones
entre las métricas, para hacer la equiparación de las puntuaciones de los nuevos
ítems con los del banco. Para la construcción de bancos de ítems hay software
específico disponible (e.g., MICROCAT, RASCAL, ASCAL) que en algunos programas también permite la administración de los ítems del banco y el análisis de
los resultados. No obstante, la construcción de un banco de ítems no es tarea fácil
ni puede estar en manos de inexpertos. El uso de los bancos de ítems para la construcción de tests es evidente que supone un ahorro considerable en todo tipo de
costes, pues se pueden elegir de ese banco aquellos ítems que proporcionen mayor
información en algún valor del rasgo, o para un objetivo determinado, como la
elaboración de tests a la medida, o tests secuenciales, etc.
Tests adaptativos computarizados
Una aplicación importante, generalmente asociada con la TRI, es la construcción de
tests adaptativos computarizados, para los que se usan las siglas CAT (del inglés Computarized Adaptive Testing). Con este método lo que se trata en definitiva es de obtener información precisa y eficiente sobre los niveles de cada individuo en el rasgo.
Para iniciar el proceso hay que disponer de un conjunto muy amplio de ítems de los
que se conocen sus características psicométricas, información que se ha obtenido
haciendo uso de la TRI. Supóngase que se dispone de 300 ítems. El proceso comien-
Capítulo 13. TRI: Funciones de información
369
za cuando se le administran a un sujeto ítems con dificultad media, que se le presentan y a los que da respuesta en un computador. Recuérdese que la dificultad del
ítem está conectada con el nivel en el rasgo y que, en modelos TRI, el nivel de dificultad de un ítem es el nivel en el rasgo que se requiere para que sea 0.50 la probabilidad de dar respuesta correcta a ese ítem. El programa del computador adapta el
test al aparente nivel en el rasgo que va mostrando el sujeto con sus respuestas. Si el
sujeto comienza dando algunas respuestas correctas, entonces el computador busca en su base de datos y selecciona ítems cuya dificultad sea un poco mayor. Si por
el contrario, las respuestas no son correctas, entonces busca y presenta ítems cuya
dificultad sea un poco menor. Así se va iterando el proceso. El programa estima en
cada paso la aptitud del sujeto, reestimándola con cada respuesta correcta o incorrecta. El proceso termina cuando se han presentado un número de ítems suficientes para obtener una estimacion precisa y eficiente del nivel del sujeto en el rasgo.
El procedimiento actúa de forma individualizada, presentando diferentes ítems
a diferentes sujetos. Los que ya evidencian un alto nivel en el rasgo no precisan
resolver ítems fáciles y viceversa. Por lo tanto, aunque en la base de datos están
disponibles todos los ítems (los 300 de este supuesto), un programa CAT presenta a cada individuo sólo el número de ítems que se requiera en cada caso para
llegar a la estimación del rasgo. Este procedimiento se usa fundamentalmente en
tests de aptitud, de rendimiento y de conocimientos. Muchos de ellos los aplican
organismos oficiales, sobre todo en EEUU, y se pueden encontrar en algunas web
(véase, por ejemplo, en las referencias: ETS, 2008; o NCSBN, 2008). Una introdución asequible a una variedad de usos de la TRI orientada a los psicólogos está
en Embretson y Reise (2000).
m13.4. Eficiencia relativam
La eficiencia relativa de un test con puntuaciones Y, con respecto a otro de puntuaciones X, es la razón de sus funciones de información:
E R = E R ( Y, X) =
I ( θ, Y )
I ( θ, X )
(13.15)
siempre y cuando X e Y sean puntuaciones en tests referidos a la misma aptitud y que
los valores de las informaciones que se comparan se refieran al mismo punto θ = θj.
370
Principios de Psicometría
Cuadro 13.5
Algunos autores (Hambleton y Swaminathan, 1985) hacen algunas disquisiciones acerca del término eficiencia relativa. Si las funciones de información
se calculan sobre distintos modelos de tests con distintas fórmulas de puntuación, se obtiene la precisión relativa, reservando la denominación de eficiencia relativa para el caso de un mismo modelo de test en el que se comparan dos formas de puntuación.
La eficiencia relativa de las puntuaciones de dos tests varía con el nivel de aptitud, obteniéndose un valor de la ER para cada uno de los valores de θ. Por lo tanto, si se calcula cada uno de esos valores, se pueden representar gráficamente obteniéndose la curva de eficiencia, o función de eficiencia, que representa las variaciones de
la ER a lo largo de θ. Es de esperar que en algunos puntos la ER sea mayor para
X que para Y, y que en otros suceda lo contrario, pues la ER depende de los valores de las respectivas funciones de información en cada punto y, como se ha visto anteriormente, estas funciones varían a lo largo de θ. Por ejemplo, si la información de un test X en θ = – 1 es 3 y en θ = 1 es 6, siendo la información de un
test Y en esos puntos 1 y 12 respectivamente, el test X es tres veces más eficiente
que el Y en θ = – 1, y la eficiencia del test Y es el doble que la del test X en θ = 1.
Ejemplo 13.1
Supónganse dos tests que siguen un modelo logístico de dos parámetros:
un test X formado por dos ítems en los que a1 = 2, b1 = – 0.5 y a2 = 1, b2 = – 0.5
y un test Y formado por otros dos ítems con a1 = 0.9, b1 = 0 y a2 = 1.9, b2 = 1.
Se quieren calcular los valores de la información de ambos tests y su eficacia
relativa (tanto del test Y en relación con el test X, como la del test X en relación
con el test Y) en función de los valores del rasgo θ.
Los valores de la información para cada uno de los ítems y para ambos tests
pueden calcularse utilizando la ecuación (13.7) como ya se hizo para otros ítems
en el Apartado 13.3. Los resultados para algunos valores de θ se han recogido
en la Tabla 13.4 con el propósito de que el lector pueda comprobar de una manera fácil algunos de dichos resultados. En las dos últimas columnas de la misma
tabla se presentan también los valores de las eficiencias relativas en esos valores de θ.
371
Capítulo 13. TRI: Funciones de información
Tabla 13.4. Valores de información para los tests X e Y (IX e IY ) y eficiencias relativas (ER).
X
Y
ER
θ
I1
I2
IX
I1
I2
IY
IX / IY
IY / IX
–3.0
–2.5
–2.0
–1.5
–1.0
–0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0.001
0.006
0.035
0.181
0.755
1.445
0.755
0.181
0.035
0.006
0.001
0.000
0.000
0.007
0.017
0.040
0.090
0.194
0.377
0.606
0.722
0.606
0.377
0.194
0.090
0.040
0.008
0.023
0.075
0.271
0.949
1.822
1.361
0.903
0.641
0.383
0.195
0.090
0.040
0.000
0.000
0.000
0.002
0.009
0.043
0.201
0.760
1.373
0.760
0.201
0.043
0.009
0.026
0.054
0.111
0.216
0.381
0.564
0.650
0.564
0.381
0.216
0.111
0.054
0.026
0.026
0.054
0.111
0.218
0.390
0.607
0.851
1.324
1.754
0.976
0.312
0.097
0.035
0.308
0.426
0.676
1.243
2.433
3.002
1.599
0.682
0.365
0.392
0.625
0.928
1.143
3.250
2.348
1.480
0.804
0.411
0.333
0.625
1.466
2.736
2.548
1.600
1.078
0.875
En la Figura 13.3 se han representado los valores de la Tabla 13.4, más
todos aquellos resultantes del mismo cálculo con incrementos de 0.01 en los
valores de la variable θ, por lo que las funciones representadas parecen curvas continuas. En dicha figura se observa que el test X (línea de puntos IX) tiene un máximo de información en θ = – 0.44, presentándolo el test Y (línea de
trazos IY) en θ = 0.95. Por lo tanto, el test X presenta mayores valores de información que el test Y a bajos valores del rasgo y viceversa. Este resultado era
de esperar dados los valores de los parámetros a y b de los ítems que constituyen ambos tests.
Respecto a las eficiencias relativas, puede verse en la figura 13.3 que son
iguales a la unidad en varios valores del rasgo (–1.66, 0.27 y 2.62), debido a las
diferentes formas de las curvas de información para ambos tests. Sin embargo, el punto importante en que ambos tests tienen la misma eficiencia relativa
es el que está a θ = 0.27 (punto de cruce), pues los otros dos se dan en valores del rasgo en los que la información de cada test es cercana a cero. En este
caso de igual eficiencia, o cuando son diferentes, cualquier conclusión que quiera derivarse utilizando tan bajos valores de información es poco fiable en la práctica. En cuanto a cuáles son las diferencias en eficiencia entre ambos tests, en
la Figura 13.3 se observa que la eficacia relativa del test X en relación con el
test Y (curva continua gruesa), llamada en la figura ER(X,Y), es mayor que la unidad a bajos valores del rasgo y menor que a la unidad a valores altos del rasgo.
Lo contrario ocurre con la curva ER(Y, X) que representa la eficacia relativa del
372
Principios de Psicometría
test Y en relación con el test X (curva continua fina), dado que es el inverso de
la anterior. Por lo tanto, el test X es más eficiente que el Y en un rango aproximado de θ entre –1.66 y 0.27, siendo más eficiente el test Y que el X para valores θ mayores de 0.27 y menores que 2.62.
Figura 13.3. Valores de las funciones de información de los tests X (IX) e Y (IY) y de las
eficacias relativas (ER) calculadas en función del rasgo θ, utilizando el modelo logístico de
dos parámetros.
m13.5. La métrica y los valores de las funciones de informaciónm
Al calcular los valores de la función de información esos valores pueden ser muy
elevados o no, pero de ellos no se deriva directamente la cuantía de esa información, ya que para interpretarlos hay que tener en cuenta que dependen de la escala en que estén dados los valores de θ. La métrica de las funciones de información está condicionada por la métrica elegida para θ.
Teóricamente, θ puede tomar valores en todo el rango de los números reales
R, o sea, desde –∞ a +∞. Por ello, el obtener valores de la función de información, ya sean bajos o elevados, puede ser engañoso en cuanto a su valoración e
interpretación. Aun más, siempre es posible transformar un valor de la función
de información en otro cualquiera, haciendo la pertinente transformación de θ.
Capítulo 13. TRI: Funciones de información
373
Por lo tanto, los valores de la función de información hay que interpretarlos en
términos relativos y siempre en relación con la escala de θ, puesto que no hay cero
ni unidad común para esa escala.
Para cualquier transformación monótona de la escala de aptitud θ* = θ* (θ) se
demuestra (Lord, 1980, pág. 85) que I (θ*, x) = I(θ, x)/(dθ*/dθ)2. Es decir, que
cuando la métrica elegida para θ se transforma mediante una función monótona
θ* = θ*(θ), entonces la función de información para la métrica θ* es la original
dividida por el cuadrado de la derivada de la transformación. Por lo tanto, para
que en las aplicaciones sean correctas y válidas las consideraciones que anteriormente se han hecho acerca de los niveles de aptitud para los que se obtiene la
máxima información, en cada ítem y modelo, es necesario que previamente se
haya elegido convenientemente la métrica de θ.
Estas precisiones acerca de la métrica elegida para θ y de sus efectos sobre la
información no son necesarias en el caso del cálculo de la eficiencia relativa, pues
es fácil comprobar que la eficiencia relativa es invariante con respecto a transformaciones monótonas de θ. Esta propiedad de invarianza de la eficiencia relativa
es importante en la búsqueda de ciertas estrategias necesarias en la práctica de la
construcción de tests, pues son aplicables a la selección de ítems, evaluación de
tests, construcción de tests adaptativos o tests a la medida, etc., ya que permiten
hacer comparaciones con las debidas garantías en cuanto a que se preservan las
cualidades psicométricas.
m13.6. Resumen de los procedimientosm
De lo expuesto acerca de las funciones de información del ítem y del test, y especialmente del hecho de que la información de un test sea la suma de las funciones de información de los ítems que lo componen, se puede hacer un uso adecuado para construir tests que gocen de ciertas propiedades deseables.
La forma de proceder para la construcción del test puede ser la siguiente:
1. Proveerse de un conjunto de ítems dirigidos a evaluar un cierto rasgo y que
estén calibrados. Por lo tanto, que se conozcan sus curvas de información.
2. Decidir qué forma se desea que tenga la curva de información del test, de
acuerdo con el objetivo que se pretenda para su construcción. Es la curva de información objetivo.
374
Principios de Psicometría
3. Elegir los ítems con mayor información y con menor desviación típica.
4. Seleccionar los ítems con curvas de información que se ajusten mejor a
las áreas bajo la curva de información objetivo.
5. Calcular la información acumulada cada vez que se añade un nuevo ítem.
De esta manera, en cada momento del proceso se tiene conocimiento de
la curva de información para el conjunto de los ítems seleccionados.
6. Continuar el proceso hasta que el área bajo la curva de información objetivo esté ajustada con una aproximación satisfactoria.
7. Cuidar en el proceso los efectos que sobre la información tiene la métrica elegida para la escala de aptitud. Puesto que las funciones de información dependen de los niveles de la aptitud, y puesto que la métrica para θ
se elige arbitrariamente, es necesario tenerlo en cuenta en todo el proceso, y en especial en la interpretación.
8. Calcular la eficiencia relativa, para el análisis de los ítems y para la comparación de tests. Por ejemplo, cuando se quieran comparar, en términos
de sus funciones de información, dos tests que evalúen el mismo rasgo,
o cuando se quiera comparar un test consigo mismo al considerar o no
los pesos óptimos de las puntuaciones.
9. Construir la curva que represente la eficiencia relativa de los tests en cada
uno de los valores de θ. Es la llamada función de eficiencia relativa, que permite visualizar en qué puntos son igualmente eficientes (ER = 1), o cuando el test X es más eficiente que el test Y (ER < 1), y en aquellos en los
que fuera la de Y mayor que la de X (ER >1).
10. Tener en cuenta la aplicabilidad de la ER a múltiples propósitos en el diseño y construcción de tests. Esto se debe principalmente a la invarianza de
la ER con respecto a las transformaciones de θ y a que se puede aplicar a
cualquier sistema de puntuaciones en los tests y no solamente al caso de
ítems dicotómicos (Lord, 1980).
Puntos clave
3
La función de información de un ítem dicotómico se define como el cociente
entre el cuadrado de la derivada de la función de probabilidad [P´(θ)]2 y la varianza P(θ)Q(θ).
Capítulo 13. TRI: Funciones de información
3
3
3
3
3
3
3
3
3
3
3
3
3
375
La derivada P´(θ) es la pendiente de la CCI que toma valores diferentes para diferentes valores de θ. Por lo tanto, la información que proporciona el ítem varía
con los niveles de θ.
La información que proporciona el ítem está directamente relacionada con su
indice de discriminación.
La forma analítica de la función de información del ítem depende de la forma
analítica del modelo que se ajusta a ese ítem.
La función de información del test se obtiene sumando las funciones de información de los ítems para todos los valores de θ.
La función de información de un test es inversa a la varianza del estimador máximo verosímil de la aptitud y equivale a la información de Fisher para esa función
de probabilidad.
Se puede construir un test para un perfil de información predeterminado y con
el menor número posible de ítems si, conocidas sus funciones de información,
se eligen los ítems más adecuados para que su suma se ajuste al perfil.
Los ítems se pueden ponderar de forma que maximicen la información que proporcionan.
El disponer de un banco de ítems calibrados (se han estimado sus parámetros
y se conocen sus características psicométricas) es de gran ayuda en la construcción de tests, haciendo uso de sus funciones de información.
Los valores de la función de información dependen de la escala elegida para θ.
Por ello, hay que interpretarlos en términos relativos y en cada caso concreto.
El cociente entre las funciones de información de dos tests es un indicador de
la eficiencia relativa (ER) de uno con respecto al otro.
Puesto que la ER varía con los valores de θ, un test puede ser más eficiente que
otro sólo en ciertos valores de θ, siendo al contrario para otros valores de θ y
ser igualmente eficiente en otros.
La ER, al ser una magnitud relativa, no varía con transformaciones en la métrica de θ y es aplicable con cualquier sistema de puntuaciones.
La invarianza de la ER es muy importante, pues no sólo es un método para comparar la eficiencia de dos tests en diferentes valores del rasgo, sino que también
lo es para el diseño y la construcción de tipos específicos de tests, como los
tests adaptativos.
Actividades
r Calcule los valores y represente las curvas de información de los ítems cuyas
funciones de probabilidad se dan en la Tabla 12.2. Discuta acerca de la
información que contiene el test compuesto por esos seis ítems.
376
Principios de Psicometría
r Un test está formado por los ítems de la Tabla 13.2 más otro con a = 2.5
y con b = 2. Represente las funciones de información de cada uno de los
ítems y la del test.
r Si esos ítems pertenecieran a un banco y se quisiera construir un test cuya
información en θ = 1.5 fuese al menos igual a 4, ¿qué ítems se deberían
elegir? ¿Y cuáles se elegirían si a su vez se quiere que la información en
θ = 2 sea al menos igual a 5?
r Suponga que de los siete ítems de la segunda actividad, los cuatro primeros forman un test y los otros tres otro diferente. Calcule la eficiencia relativa de ambos tests.
r Discuta en el caso anterior en qué valores de θ sería un test más eficiente
que el otro, o si ambos serían igual de eficientes.
r Represente gráficamente las variaciones de la eficiencia relativa de un test
con ítems ponderados, con respecto a ese mismo test sin ponderaciones
de los ítems.
r Si tuviera que hacer un test secuencial con los ítems de la Tabla 13.2 ¿en
qué orden los aplicaría? Y si el test estuviese compuesto por esos ítems más
el séptimo añadido (a = 2.5 y b = 2) ¿cuál de los dos tests sería más eficiente? Justifique las respuestas.
r ¿Cuál es la amplitud del intervalo de confianza de θ para un ítem que se
ajusta a una función logística de dos parámetros, siendo a = 2 y b = 1? Para
resolverlo considere D = 1 y la información (definición 2) que se proporciona en el Cuadro 13.1.
r Busque en la bibliografía el significado que en física tienen los invariantes
y relaciónelo con lo que significa la invarianza de la eficiencia relativa y con
otros conceptos (e.g., invarianza de las puntuaciones, invarianza en las transformaciones, etc.) que se han tratado en este texto.
El sesgo en los tests
Sesgos y comportamiento diferencial
de los ítems
14
Los estudios en cualquier ámbito de la ciencia requieren que se minimicen los errores, pero su credibilidad se sostiene en la ausencia de sesgos,
tanto en sus planteamientos y en los métodos con que se abordan los problemas, como en la interpretación de las conclusiones. La generalización
del uso de los tests y su influencia en la toma de decisiones en muchos y
muy diversos ámbitos (educativos, empresariales, jurídicos, clínicos, etc.)
hace que la introducción de sesgos, favoreciendo o perjudicando a algún
grupo de población, tenga importantes implicaciones tanto económicas
como sociales e individuales. La validez del test implica ausencia de sesgos. Por ello, uno de los temas de investigación relevantes en psicometría
ha sido el estudio de la equidad y del sesgo de los tests. En las últimas décadas, con el uso de la TRI en la construcción de tests, han proliferado los
estudios sobre el funcionamiento diferencial de los ítems.
En este capítulo se va a tratar:
ã Qué es el sesgo y cuáles son las principales fuentes de sesgo en la
construcción de los tests.
ã Qué diferentes fuentes de sesgo pueden llevar a la no equidad en
la valoración de unos sujetos o de unos grupos con respecto a
otros.
ã Algunos métodos para detectar el sesgo en la medida del constructo, basados en la consistencia interna del test, en su dificultad o en
su estructura factorial.
ã Un método sencillo para detectar y evaluar el funcionamiento diferencial del ítem aplicando el método de Mantel-Haenszel a tablas
de contingencia.
378
Principios de Psicometría
ã Un método para detectar y evaluar el funcionamiento diferencial
del ítem basado en la TRI.
m14.1. El sesgo en los testsm
En la realización de un estudio, el término sesgo se utiliza para hacer referencia
a aquellos errores que no se pueden considerar aleatorios, pues aparecen sistemáticamente (ya sea en los diseños experimentales, en la elección de la muestra,
en la recogida de los datos, o incluso en el análisis o en las interpretaciones) y producen desviaciones que conducen a conclusiones que científicamente no deben
considerarse válidas. Las fuentes de sesgo en la construcción y en el uso de los
tests son múltiples y variadas. Factores de distinta naturaleza pueden producir sesgos en la construcción del test en cualquier fase del proceso, desde la generación
de un ítem hasta su estructura final, pasando por el formato de respuesta, la cooperación o la sinceridad de las personas que cumplimentan la prueba, etc. La validez de los resultados de los tests, en general, depende, entre otros muchos factores, de la ausencia de sesgos.
Un ítem estará sesgado cuando sujetos con el mismo valor en el rasgo no
tengan las mismas probabilidades de dar la respuesta correcta a ese ítem. Un
test estará sesgado cuando sujetos con el mismo valor en el rasgo no tengan la
misma probabilidad de obtener una determinada puntuación en ese test. O sea,
que un ítem o un test estarán sesgados cuando sujetos con el mismo nivel de
θ generen mediciones diferentes. El test o el ítem pueden estar sesgados a favor
de algún grupo social, o de edad, o de sexo, etc., pero como se ha dicho anteriormente, para que se hable de sesgo, esas diferencias no pueden ser accidentales, sino que tienen que ser sistemáticas. Los sesgos impiden la necesaria
equidad en la interpretación de las puntuaciones y tienen importantes consecuencias que abarcan desde lo personal a lo social. Las normas de 1999 (AERA,
APA & NCME, 1999) dedican una de las tres partes (Parte II) a tratar de la
equidad o imparcialidad en la administración y uso de los tests, haciendo mención explícita a los sesgos que pueden provenir de las diferencias culturales y
lingüísticas, así como de la no adecuación de las pruebas a los grupos con alguna discapacidad.
En el contexto de la psicometría, en la TCT se ha estudiado el sesgo desde
distintos puntos de vista y diferentes versiones en relación con el índice de difi-
Capítulo 14. El sesgo en los tests
379
cultad y utilizando usualmente el estadístico χ2 para la comparación de subpoblaciones (e.g., Angoff, 1982; Cleary y Hilton, 1968; Scheuneman, 1979). Con la
implantación de la TRI, se ha desechado la palabra sesgo para hablar de funcionamiento diferencial del ítem. Desde nuestro punto de vista, el concepto de sesgo es más general y más complejo (Santisteban, 1999) que la técnica que lleva a
comprobar si el comportamiento del ítem es diferente en diferentes grupos de la
población, que es a lo que se le denomina funcionamiento diferencial del ítem
(FDI). Esta terminología la introdujeron Hollan y Thayer (1988), aunque muchos
de los procedimientos incluidos bajo esa denominación ya eran conocidos como,
por ejemplo, el de comparar las CCI de los diferentes grupos, que detallaremos
más adelante (Rudner et al., 1980). Bajo la denominación de DIF se han incluido
muchos y muy diversos métodos, por ejemplo, unos están basados en los análisis de tablas de contingencia, otros en la regresión logística y otros en las características de los modelos TRI. El acrónimo de funcionamiento diferencial del ítem
en los textos en castellano aparece como FID y también como DIF, tomado del
inglés, aunque en el lenguaje hablado es este último “dif” el que por la sencillez
del vocablo se suele utilizar en ambos idiomas.
m14.2. Detección y estimación de sesgo en la evaluaciónm
del constructom
El sesgo en la evaluación del constructo está relacionado con el significado de las
puntuaciones. Se estará evaluando sesgadamente el constructo si las puntuaciones que se obtienen en el test pueden tener diferentes significados para diferentes grupos de la población. Por ejemplo, un test de aptitud mecánica que pueda
reflejar diferentes rasgos en hombres y en mujeres (Spencer et al., 1999) es un test
sesgado. Un estudio interesante sobre satisfacción y justicia distributiva en el que
se validan cuatro escalas es el de Howard (1999).
Hay varios procedimientos para evidenciar y estimar la existencia de sesgo en
la evaluación del constructo, ya sea evaluando su consistencia o su estructura interna, o el índice de discriminación, etc. También hay muchas formas de detectar
estos sesgos examinando el comportamiento individual de los ítems. Las técnicas que se han generado con este fin se agrupan bajo la denominación de funcionamiento diferencial de los ítems, y requieren un tratamiento algo extenso y
específico, aun dentro de las limitaciones de tamaño de esta obra.
380
Principios de Psicometría
Consistencia interna
La consistencia interna de un test, como ya se ha explicitado anteriormente, indica cómo se relacionan entre sí las distintas partes de un test. En el Capítulo 5 se
han tratado algunas de estas formas. En general, la consistencia interna de un test
se evalúa mediante el patrón de correlaciones entre los ítems o entre cada ítem y
la puntuación total en el test. Si se tienen dos grupos, por ejemplo, de diferente
género, debe examinarse la consistencia interna de ambos grupos de forma separada. Si en ambos se obtienen los mismos o similares patrones de correlación,
entonces se admite que es poco probable que exista sesgo en la medición del constructo a favor de uno u otro grupo. Si esos patrones correlacionales no son iguales o similares en ambos grupos, es muy probable que si se aplica ese test a ambos
grupos, se esté obteniendo una medición sesgada del constructo. Téngase en cuenta que la detección del sesgo no se hace observando las puntuaciones de ambos
grupos en el test, sino por las posibles diferencias en los patrones de correlación
que miden la consistencia interna en uno y otro grupo. Esto es, en uno de los grupos se pueden obtener sistemáticamente puntuaciones más bajas que en el otro,
pero esto no significa que haya sesgo a favor del otro grupo, sino simplemente
que los valores de ese grupo en ese constructo son menores.
Índices de discriminación
Otra forma de detectar sesgos en la medición del constructo es calcular el índice
de discriminación de cada ítem. Esta forma de detección es muy similar a la anterior, ya que la discriminación de un ítem evalúa el grado en que ese ítem puede
estar afectado por la consistencia interna del test. En este caso, se estiman separadamente los índices de discriminación de cada uno de los ítems en los grupos
que componen la población (por ejemplo, hombres y mujeres). Valores del índice de discriminación de un ítem iguales o similares en los diferentes grupos son
indicadores de que ese ítem no está sesgado.
Rango de dificultad
Una forma intuitiva y fácil de detectar sesgos en la medición del constructo en
varios grupos es ordenando los ítems del test según su dificultad. Si los ítems
Capítulo 14. El sesgo en los tests
381
mantienen el orden en los diferentes grupos, se considera que no están sesgados en la medición del constructo. Si uno o varios ítems aparecen entre los fáciles o muy fáciles en un grupo y entre los difíciles en otro grupo, hay que sospechar la existencia de sesgos. Formalmente, comoquiera que lo que se establece
entre los ítems es una relación de orden, para comparar los rangos, se debe utilizar una prueba no paramétrica, como el coeficiente de correlación por rangos
de Spearman, cuyo cálculo es fácil y los resultados se interpretan de forma similar a los coeficientes de correlación cuando se establece entre valores numéricos. En el caso de correlación entre rangos, no es el valor de la dificultad de cada
ítem lo que se utiliza en la correlación, sino el orden que ocupa según su valor.
Por lo tanto, se estima que no hay sesgo si los patrones de correlación entre los
grupos son muy similares, aun cuando el test pudiera resultar más difícil para
unos grupos que para otros.
Análisis factorial
Uno de los muchos usos que se puede dar al análisis factorial en psicología es para
la detección del sesgo en la evaluación de un constructo.
El análisis factorial sirve para evaluar la estructura interna de un test, descubriendo si esa estructura está compuesta por uno o más factores. Por ejemplo, en
el test de agresividad al que nos hemos referido en los Apartados 8.4, 8.7 y 9.5 de
esta obra (AQ de Buss & Perry) se han identificado cuatro factores: agresividad
física, verbal, ira y hostilidad. Si al realizar los análisis los ítems que entran a formar parte de cada uno de esos factores no fuesen los mismos para las muestras
de hombres que para las de mujeres, entonces habría sesgo en su estructura interna y el test no tendría validez. Cuando se hizo la adaptación de ese test a adolescentes y niños (Santisteban et al., 2007), fue necesario comprobar que se confirmaba su estructura de cuatro factores, para lo que se utilizaron las técnicas de
análisis factorial. Si se hubiese encontrado que en los niños o en los adolescentes
(aunque fuese en ambos géneros) en lugar de cuatro sólo se identifican dos factores, por ejemplo agresividad física y hostilidad, entonces el test AQ no sería válido para esas edades, al menos en lo referente a su estructura interna, y habría sesgo en las mediciones en esos grupos de edad en relación con las de los adultos,
si se utilizase ese test.
382
Principios de Psicometría
Funcionamiento diferencial de los ítems
Los métodos anteriormente expuestos para detectar sesgos en la medición de los
constructos son aproximaciones útiles y relativamente sencillas, pero su relevancia queda muy disminuida si se compara con los métodos de análisis que se han
generado en lo que se ha dado en llamar funcionamiento diferencial del ítem
(DIF). El estudio del DIF es sin duda el mejor procedimiento para evaluar posibles diferencias en el comportamiento de los ítems en diferentes grupos. Su teoría y sus técnicas nacen y se desarrollan vinculadas a los conceptos de la TRI, que
es la que permite el estudio individualizado de los ítems y la estimación de la aptitud de cada uno de los participantes en la prueba, con independencia de cómo
ha respondido el resto. No obstante, en la literatura sobre DIF se incluyen una
gran cantidad de métodos, como χ2, los de clase latente o el Mantel-Haenszel,
que están basados en tablas de contingencia, que trataremos más adelante, así
como los loglineales (Mellenbergh, 1982), o los basados en técnicas de regresión
logística (Swaminathan y Rogers, 1990). También se han realizado estudios para
comparar la eficacia de distintos procedimientos (e.g., entre Mantel-Haenszel y
los modelos loglineales) en la detección del comportamiento diferencial de los
ítems, estudiándose, entre otras características, la potencia de las pruebas y las
tasas de detección de ítems anómalos.
Los métodos de detección del sesgo en la TRI están basados en las características de la CCI del ítem, o del conjunto de los ítems que componen la prueba y
una de sus principales desventajas en relación con otros métodos es que éstos exigen tamaños de muestra mucho mayores para realizar los análisis. Un ítem de un
test que mide un determinado rasgo se dice que funciona diferencialmente cuando la probabilidad de acertar ese ítem es diferente para sujetos que supuestamente tienen el mismo nivel en ese rasgo que el test pretende medir. Cuando las comparaciones se hacen entre diferentes grupos, por ejemplo, hombres y mujeres, si
esas probabilidades son mayores en un grupo que en el otro en todos los niveles
del rasgo, entonces se dice que el DIF es uniforme. Si no es así, si las diferencias
están a favor de uno u otro grupo en diferentes valores del rasgo, entonces se dice
que el DIF es no uniforme. En la Figura 14.1 se presenta un ejemplo de DIF uniforme en el que el ítem está sesgado a favor de uno de los grupos (del grupo B).
Supóngase que el ítem corresponde a una prueba de rendimiento y que la
muestra B es una muestra de mujeres y que la A es de hombres, entonces diríamos que el ítem está sesgado a favor de las mujeres, pues para cada nivel de apti-
Capítulo 14. El sesgo en los tests
383
tud ellas tienen mayores probabilidades de acertar el ítem. Esto es, que para tener
la misma probabilidad de acierto en el ítem, los hombres tienen que tener mayor
valor en el rasgo que las mujeres. Ahora bien, si el rasgo que mide el ítem fuese
de otro tipo, por ejemplo intolerancia, el ítem estaría sesgado a favor de los hombres, pues para que se les considerase igualmente intolerantes que las mujeres,
necesitarían mayores valores en ese rasgo.
Figura 14.1. Ejemplo de DIF uniforme. A y B son las curvas características
del mismo ítem en dos grupos de población.
El DIF es no uniforme cuando las probabilidades de acierto de sujetos que tienen el mismo valor en el rasgo son mayores en un grupo B que en otro A para
algunos valores de θ, en tanto que para otros valores de θ, ocurre lo contrario. Es
decir, que las probabilidades de respuesta correcta de sujetos que tienen el mismo nivel en el rasgo son mayores o menores, no sólo dependiendo de si pertenecen a un grupo u otro (A o B) sino también de dónde esté situado su valor en
el rasgo. Por ejemplo, un cierto ítem que mida hostilidad, puede estar sesgado a
favor de las mujeres en los niveles altos de ese rasgo y a favor de los hombres en
los niveles bajos. En la Figura 14.2 se presenta un ejemplo de DIF no uniforme,
observándose que son mayores las probabilidades de acierto de los sujetos que
pertenecen al grupo B en el los valores de θ > – 0.40, siendo sin embargo más
bajas para θ < – 0.40. En el DIF no uniforme las curvas características de un ítem
obtenidas con diferentes grupos se cortan en un determinado punto θ = θk, en el
384
Principios de Psicometría
que cambia el sentido del sesgo. Si en el ejemplo de la Figura 14.2 la curva B correspondiese a mujeres y la A a hombres en relación con una prueba de matemáticas
para su admisión en una universidad, diríamos que el ítem está sesgado a favor
de las mujeres en los niveles medios y altos de la aptitud (a partir de θk = – 0.40)
y a favor de los hombres en los niveles bajos de aptitud, aunque los sesgos que se
presentan en la Figura 14.2 son moderados.
Figura 14.2. Ejemplo de DIF no uniforme.
m14.2. El método Mantel-Haenszel para estimar el DIFm
Se han propuesto muchos métodos para detectar el DIF, estando entre los más utilizados el que proponen Holland y Thayer (1988), al aplicar la medida de asociación de Mantel-Haenszel (1959) al estudio de este problema. Es un método en el
que los datos se disponen en tablas de contingencia y que está basado en el concepto de odds ratio, que se ha traducido como razón de ventajas o razón de plausibilidades. El uso de este método requiere la dicotomía en los ítems y que se disponga de los datos de cada uno de los sujetos, en cuanto a si han respondido correcta
o incorrectamente al ítem, así como de su puntuación total en el test. Las respuestas a cada ítem se suelen codificar como uno (acierto) y cero (error), por lo que la
puntuación total en una prueba de n ítems se obtiene como total de respuestas
correctas, tomando por lo tanto esa suma de aciertos valores entre cero y n.
385
Capítulo 14. El sesgo en los tests
La presencia de sesgo se trata de detectar viendo si todas las personas con
igual valor en el rasgo tienen la misma probabilidad de acertar el ítem. Por lo
tanto, para esta prueba, se consideran distintas categorías o estratos de la variable que se quiere controlar. Concretamente, se considera que la puntuación global se subdivide en k intervalos o clases de equivalencia (todas las personas
cuya puntuación total esté contenida en un determinado intervalo, pertenecen
a una misma clase). Además, hay que disponer de datos de sujetos que correspondan a dos grupos, a los que se les llama grupo de referencia y grupo focal,
que se corresponden con los que se denominan en epidemiología grupos de
controles y de casos, que es el contexto donde originalmente se propuso este método. Los datos se disponen como en la Tabla 14.1. El sesgo se detecta comparando ambos grupos a través de las diferentes categorías mediante las denominadas odds ratio.
El estimador de las odds ratio propuesto por Mantel-Haenszel, ajustado para
los efectos de la variable de estratificación, que en el caso de detección de DIF
son las categorías, viene dado por la ecuación (14.1).
Tabla 14.1. Tabla de datos para estimar el DIF.
Grupo
Categoría
Referencia
Focal
Total
1
Acierto
Error
Total
a1
b1
n11
c1
d1
n21
m11
m21
n1
2
Acierto
Error
Total
a2
b2
n12
c2
d2
n22
m12
m22
n2
…
…
…
…
…
Acierto
Error
Total
aj
bj
n1j
cj
dj
n2j
m1j
m2j
nj
…
…
…
…
…
k
Acierto
Error
Total
ak
bk
n1k
ck
dk
n2k
m1k
m2k
nk
j
386
Principios de Psicometría
(14.1)
donde a, b, c, d, m y n se corresponden con los datos que están en las casillas
según se han dispuesto en la Tabla 14.1.
La interpretación que se da a este cociente como medida de DIF es que valores de αMH iguales a la unidad indican que el ítem se comporta de la misma forma en ambos grupos, en el focal y en el de referencia. Valores mayores que uno
indican que las probabilidades de acierto son mayores en el grupo de referencia
que en el focal. En muchas ocasiones, se utiliza como indicador del DIF el logaritmo neperiano de αMH, al que se suele denotar por βMH. Si se hace esta transformación, para la interpretación del indicador hay que tener en cuenta que cuando es αMH = 1, el valor de βMH es igual a ln 1 = 0.
Significación estadística de los valores α MH
En la práctica, los valores que se obtienen para las odds ratio no suelen ser iguales a uno. Por lo tanto, una vez calculados estos valores, en particular αMH , la pregunta inmediata es cuál es la magnitud de las desviaciones al valor uno que puede ser admisible para considerar que no hay DIF. Para ello se propone contrastar
la hipótesis nula:
H0 : αMH = 1
frente a cualquiera de las siguientes alternativas, lo que supone un contraste bilateral o bien uno de los unilaterales siguientes:
H1: αMH ≠ 1
H1: αMH > 1
H1: αMH < 1
387
Capítulo 14. El sesgo en los tests
El test de contraste propuesto por Mantel-Haenszel es:
χ 2MH =
 k
k
 ∑aj − ∑E aj − 1
 j= 1
j= 1
( )
∑ Var (a j )
k
2
2

(14.2)
j= 1
que bajo H0 sigue aproximadamente una distribución χ2 con un grado de libertad.
El término 1/2 se introduce para la corrección por continuidad. Las expresiones E(aj) y Var(aj) indican, respectivamente, la media y la varianza condicional
de la j-ésima categoría o clase de puntuaciones, que se pueden calcular mediante
las expresiones:
( )
E aj =
n1j m1j
nj
( )
; Var a j =
(
)
n1j n 2 j m1j m 2 j
n2j n j − 1
(14.3)
Una forma sencilla de cálculo del estadístico de contraste, análoga a la anterior, viene dada por la expresión:
χ 2MH =
(
∑
k
j= 1
 k a d − b c 2
j j
∑ j j



n
j
 j= 1

a j + bj c j + d j a j + c j
)(
) ( ) (b j + d j )
n2j (n j − 1)
(14.4)
Para aceptar o rechazar H0 , los valores obtenidos mediante la expresión (14.2)
o la (14.4) hay que compararlos con los de la distribución χ2 teórica para comprobar si los valores del estadístico pertenecen a la zona de aceptación de la hipótesis nula cuya amplitud es 1 – α.
388
Principios de Psicometría
Ejemplo 14.1
En la Tabla 14.2 se dan las frecuencias de acierto a un mismo ítem de
los grupos de referencia y focal de dos categorías diferentes, una corresponde a adultos y la otra a niños. Se desea calcular si hay algún efecto
de asociación entre la probabilidad de dar la respuesta correcta y la pertenencia a una de las categorías, así como si ese ítem se comporta de diferente
manera (aumentando la probabilidad de acierto) en alguno de esos dos
grupos.
Tabla 14.2. Aciertos y errores en los grupos focal y de referencia
para dos grupos de edad*.
Niños
Adultos
Referencia
Focal
Referencia
Focal
15
43
58
31
88
119
128
14
142
73
8
81
Aciertos
Errores
Totales
Odds ratio
· = 0.99
OR
1
· = 1.00
OR
2
* Obsérvese que los datos de las dos categorías (grupos de edad) en esta tabla están dispuestos unos al lado de otros, en vez de unos debajo de otros, como en la Tabla 14.1.
El valor del indicador de sesgo se obtiene mediante la expresión (14.1).
αMH =
(15)(88) + (128)(8)
( )( ) + ( )( )
177
31 43
177
223 = 12.05 = 0.995
12.11
73 14
223
Puede comprobarse que este valor es la media de las odds ratio de cada
grupo. Por ello, muchas veces es conveniente tener información de las odds
ratio de cada uno de los grupos pues, si las diferencias entre ellos fuesen muy
grandes, al calcular αMH se pierde gran parte de la información relevante que
proporciona el conocimiento de esas diferencias.
En el caso que nos ocupa, calculado αMH hay que contrastar la hipótesis
H0 : αMH = 1 frente a la alternativa H0 : αMH ≠ 1.
389
Capítulo 14. El sesgo en los tests
El valor del estadístico de contraste, calculado usando la expresión (14.4) es:
 (15)(88) − (43)( 31) (128)(8) − (14 )(73) 2
+


177
223


2
χ =
= 0.0003
(58)(119)(46)(131) (142)(81)( 201)( 22)
+
(177)2 (176)
( 223)2 ( 222)
Este valor pertenece a la región de aceptación de H0 con probabilidad p > 0.99.
Luego se acepta que la prueba no se comporta de forma diferenciada a favor de
alguno de esos dos subgrupos de población categorizados en función de su edad.
Ejemplo 14.2
En una prueba de admisión se hace una reclamación porque se afirma que
la pregunta conlleva que el tipo de respuesta esté fuertemente influenciado por
el género de la persona que responde. A la vista de los resultados de la prueba (Tabla 14.3), ¿se debe aceptar esta reclamación?
Tabla 14.3. Aciertos y errores en los grupos focal y de referencia
para los dos géneros.
Masculino
Aciertos
Errores
Totales
Odds ratio
Femenino
Referencia
Focal
Referencia
Focal
21
18
39
30
50
80
19
10
29
70
80
150
· = 1.94
OR
1
· = 2.17
OR
2
El valor del indicador de sesgo calculado es αMH = 2.05, que es la media de
las odds ratio de cada grupo. El valor del estadístico de contraste calculado
mediante la ecuación (14.4) resulta ser χ2 = 6.25. Este valor pertenece a la región
de rechazo de H0, ya que para un valor crítico α = 0.02 y un grado de libertad
es χ2 = 5.41. Por lo tanto, se debe aceptar la reclamación, pues si se repitiera
el proceso un número muy grande de veces las diferencias entre ambos géneros serían significativas en más del 98% de los casos.
390
Principios de Psicometría
Cuadro 14.1
El concepto de odds ratio o razón de ventajas es un concepto central en las
medidas de asociación y es útil en la interpretación de coeficientes en regresión logística. Limitándose al caso particular de una tabla de contingencia
2 × 2, se presentan las odds ratio en un modelo de regresión con sólo dos
variables X e Y, ambas dicotómicas.
La forma de la ecuación que representa un modelo de regresión lineal
simple en el que se regresa la variable Y sobre la variable X es:
(
)
E Y X = β0 + β1 x
donde E (Y X) es la esperanza matemática, o media condicional de Y con
respecto a cada una de las modalidades de X, que a su vez es un valor de
probabilidad P(x), luego
(
) ()
0 ≤ E Y X =P x ≤1
siguiendo en este modelo P(x) la siguiente distribución de probabilidad:
()
eβ0 + β1 x
P x =
1+ e
β0 + β1 x
=
1
(
1+ e
− β0 + β1 x
)
que es una distribución logística de parámetros β0 y β1, cuyo logit es:
( )
g x = ln
( )
1− P ( x )
P x
= β0 + β1 x
Para una variable dicotómica, los correspondientes logits son:
( )
logit p1 = ln
( )
p1
= β0 + β1 x1
1 − p1
logit p 2 = ln
Luego:
ln
( )
(1− p2 )
p1 1 − p1
p2
p2
= β0 + β1 x 2
1 − p2
(
= β1 x1 − x 2
)
391
Capítulo 14. El sesgo en los tests
¶ ) al cociente:
denominándose odds ratio (OR
( )
(1− p2 )
p1 1 − p1
p2
siendo
¶ = e β 1 ( x1 − x 2 )
OR
Ejemplo 14.3
En la Tabla 14.4 se dan las frecuencias observadas del número de aciertos
y de errores en un ítem en una muestra de mujeres y en otra de hombres. Se
desea corroborar que esta prueba está sesgada a favor de uno de los grupos.
Tabla 14.4. Aciertos y errores en dos grupos.
Variable Y
Variable X
Mujeres
Hombres
Totales
Totales
Acierto
Error
30
8
38
10
48
58
40
56
96
Las probabilidades estimadas de acertar o no en cada muestra son:
pˆ 1 = 30 / 40; 1− pˆ 1 = 10 / 40; pˆ 2 = 8 / 56; 1− pˆ 2 = 48 / 56
¶ ) toma el valor en este caso:
La odds ratio (OR
(
)
¶ = pˆ 1 1 − pˆ 2 = 18
OR
pˆ 2 1 − pˆ 1
(
)
lo que indica que la probabilidad de acertar el ítem en el grupo de mujeres es
18 veces superior a la del grupo de los hombres.
392
Principios de Psicometría
El procedimiento Mantel-Haenszel está entre los más utilizados por su facilidad de cálculo e interpretación. Tiene la ventaja de que no sólo proporciona un
indicador de la cuantía del comportamiento diferencial del ítem (ecuación (14.1)),
sino que además proporciona el estadístico (ecuación (14.2) o (14.4)) mediante el
cual se puede contrastar si el valor obtenido es o no significativo para aceptar la
no existencia de DIF. Otra de las ventajas de este método es que se puede aplicar
con muestras pequeñas, mientras que la aplicación de otros métodos, como los
de la TRI, requiere un apreciable tamaño muestral.
m14.3. Estimación del DIF haciendo uso de las CCIm
En los modelos TRI, si un ítem que mide un cierto rasgo θ está calibrado, es de
esperar que ese ítem produzca las mismas mediciones para cualquier sujeto, con
independencia del grupo de población al que pertenezca. Por lo tanto, bajo esos
supuestos, los tests formados por ítems homogéneos para la medición de ese
rasgo, es de esperar que estén ausentes de sesgo. No obstante, como el sesgo
no es una cuestión teórica sino que en la práctica se pueden introducir sesgos
en cualquier fase de la construcción, de la administración o de la evaluación de
un test, es conveniente tener herramientas que ayuden a detectar la presencia
de esos sesgos. Sólo así se puede proceder a su análisis, a detectar sus posibles
fuentes y a tratar de eliminarlos o, al menos, saber que existen y valorar sus posibles consecuencias.
En la TRI la presencia de sesgo se detecta comparando las CCI estimadas para
los diferentes grupos. Siguiendo la nomenclatura anterior, a esos grupos se les
puede llamar grupo focal y de referencia. En la Figura 14.3 se muestra la ausencia de sesgo comparando dos grupos, aunque actúan de forma diferenciada en el
ítem.
En las Figuras 14.4 y 14.5 se muestran ítems sesgados. En la Figura 14.4 el
ítem que se representa está sesgado en todo el rango de θ a favor de uno de los
grupos (sesgo uniforme). En la Figura 14.5 el ítem representado también está sesgado, pero el signo del sesgo depende de si el valor de θ pertenece a los niveles
bajos o altos de la aptitud. Para dos sujetos con igual valor en el rasgo, si esos valores son bajos, el sujeto del grupo A tiene más probabilidad de acertar el ítem que
el del grupo B. Sin embargo, para valores del rasgo superiores a 0.4, es el del grupo B el que tiene mayor probabilidad de acertar el ítem.
Capítulo 14. El sesgo en los tests
Figura 14.3. Ítem insesgado. Las curvas inferiores representan las distribuciones
de las puntuaciones de los grupos A y B.
Figura 14.4. Ítem con un DIF desfavorable al grupo A en todo el rango de θ.
393
394
Principios de Psicometría
Figura 14.5. DIF desfavorable al grupo A en los niveles altos de θ
y al grupo B en los bajos.
En la literatura TRI se han propuesto diversos métodos para evaluar el sesgo,
entre los cuales citaremos los siguientes:
a) El cálculo del área entre las CCI de ambos grupos, que si hay sesgo no serán
coincidentes.
b) Comparar las diferencias entre las probabilidades en ambos grupos.
c) Comparar los parámetros (en principio invariantes) de los ítems.
d) Comprobar el ajuste al modelo elegido y evaluar la bondad del ajuste con
ambos grupos.
e) Comparar los modelos mediante el test de razón de verosimilitudes.
Un procedimiento para comparar las CCI consiste en calcular el área comprendida entre las CCI correspondientes a cada grupo sobre el rango de variación de θ. La idea que sustenta el procedimiento es que si no existe sesgo, la CCI
para cualquier subgrupo de población tiene que ser la misma, o con diferencias
tan pequeñas que puedan ser atribuibles a las fluctuaciones por azar. El área comprendida entre ambas curvas puede obtenerse mediante la ecuación (14.5):
Capítulo 14. El sesgo en los tests
Ds =
∫−∞
∞
PA ( θ) − PB ( θ) dθ
395
(14.5)
Un valor aproximado de esa área puede obtenerse mediante la expresión (14.6)
Ds ≈ ∑ PA ( θk ) − PB ( θk ) ∆θ
n
k=1
(14.6)
que corresponde a la suma de las áreas de todos los rectángulos con base ∆θ y
altura |PA(θ) – PB(θ)| en el rango de θ que sea de interés, por ejemplo, entre –3
y +3 con ∆θ = 0.10 (para más detalle véase Santisteban, 1990a, pág. 364). Tanto
en la ecuación (14.5) como en la (14.6) las diferencias se toman en valor absoluto ya que, por una parte, no tendría sentido hablar de áreas negativas y por otra,
en los casos en los que el sesgo fuese no uniforme, las diferencias serían positivas en un cierto rango de θ y negativas en el otro (como se puede observar, por
ejemplo en la Figura 14.5) dando un valor Ds inferior al real, o incluso nulo, falseando así el verdadero valor de la diferencia existente entre las áreas de ambas
curvas y por lo tanto del DIF.
Es evidente que para utilizar este método hay que haber estimado previamente
los parámetros característicos del ítem y las variaciones de θ en uno y otro grupo, teniendo en cuenta que ambas CCI deben estar representadas sobre el mismo continuo de la aptitud θ. Esto requiere que se trabaje con valores que estén
estandarizados, tanto para θ como para los coeficientes de dificultad, debiéndose tener en cuenta las condiciones para la invarianza de θ con respecto a transformaciones de la escala (Apartado 12.2).
Entre los problemas que plantea este método, y que no lo hacen muy aconsejable a pesar de su sencillez, es que considera la uniformidad en las áreas. Es
decir, que todas las áreas tienen el mismo peso, con independencia de dónde esté
situado el ∆θ correspondiente a cada uno de los rectángulos que contribuyen al
cálculo del área total. Otro aspecto que no se contempla y que tiene un gran efecto sobre el cálculo del área entre las curvas es si la probabilidad de aciertos por
azar (parámetro c) es diferente en uno u otro grupo. Además este método tampoco provee de algún criterio o prueba de significación que indique a partir de
qué valor esa área tiene un valor significativo para considerar que existe DIF.
Una de las formas de resolver estos problemas en los tests es hacer un análisis
individualizado de cada uno de los ítems del test y observar el comportamiento
396
Principios de Psicometría
de sus respectivas CCI en relación a la existencia de DIF. Otra de las propuestas (e.g., Camilli y Shepard, 1994) es calcular las diferencias en probabilidad entre
ambos grupos en determinados valores de θ. Para ello se considera uno de los
grupos como el grupo de referencia (generalmente al más amplio) y al otro el
grupo focal, con funciones de probabilidad P R (θ) y PF (θ), respectivamente.
El indicador del DIF viene dado por el valor medio de la diferencia entre las probabilidades en ambos grupos, para aquellos valores θ en los que al menos haya
un sujeto del grupo focal que lo posea. Para nF sujetos del grupo focal, cada uno
con su respectivo valor θj, la expresión (14.7) es un indicador de esa diferencia,
cuyo signo también indicará el sentido del sesgo, si el sesgo es uniforme.
nF
PR ( θj ) − PF ( θj )
j=1
nF
Dp = ∑
(14.7)
En el caso en que el sesgo no sea uniforme, o no se conozca de antemano
si lo es o no, las diferencias del numerador de la expresión (14.7) se deben tomar
en valor absoluto, o bien elevarlas al cuadrado. En estos casos, el signo de esas
diferencias en los distintos intervalos de θ hay que observarlo representando
las CCI de ambos grupos, al menos en aquellos intervalos que contienen los
valores θj.
Algunos métodos fundamentados en la misma lógica son los que se basan en
las comparaciones entre los vectores de los parámetros de los ítems, o bien en la
bondad de las estimaciones de los parámetros de los ítems, o bien en la bondad de
ajuste de los modelos. La comparación entre los vectores de los parámetros en uno
y otro grupo la propuso Lord (1980) basándose en las propiedades de las estimaciones de máxima verosimilitud de los parámetros. Si los vectores de parámetros
en uno y otro grupo son vA = (a1, b1, c1 )' y vB = (a2, b2, c2 )' las estimaciones de
máxima verosimilitud de los parámetros siguen (asintóticamente) distribuciones
normales multivariantes, con media el valor del parámetro y varianza (matriz de
varianzas y covarianzas) igual a la inversa de la cantidad de información de Fisher
(Cuadro 12.3). Para la detección de DIF, se contrasta la hipótesis nula H0 frente a
la alternativa H1:
H0 : vA= vB
H1: vA ≠ vB
397
Capítulo 14. El sesgo en los tests
El estadístico mediante el que se realiza el contraste de las diferencias entre
ambos grupos, con matrices de información IA e IB, es la forma cuadrática
Q = (vA – vB )' (IA–1 + IB–1) –1 (vA –vB)
que sigue una distribución χ2 con tantos grados de libertad como el número de
parámetros (de los ítems) que se comparan. En el caso particular del modelo de
Rasch ese estadístico es:
Q = ( b A − bB )
2
(
−1
−1
I A + IB
)
−1
valor que se compara, a un nivel α de significación, con el de la distribución χ2
con un grado de libertad. Este método no es aplicable cuando se realiza la
estimación simultánea de la aptitud y de los parámetros de los ítems, o sea de
(θ, ai, bi y ci), puesto que el método implica la distribución asintótica de la forma cuadrática que sirve como estadístico de contraste, y esta distribución asintótica de los parámetros de los ítems sólo es válida para un θ dado.
Un procedimiento basado directamente en la estimación de la bondad del ajuste del modelo a los datos lo propusieron Wright et al. (1976) y Linn y Harnish
(1981), quienes lo juzgan muy conveniente especialmente cuando se trata con
modelos logísticos de tres parámetros. Sin embargo, el método basado en la comparación de modelos que parece más prometedor es el que se basa en la razón de
sus verosimilitudes (Thissen et al., 1993) utilizando las ventajas de estos procedimientos para comparar los modelos, ya que es conocido el estadístico que sigue
el cociente de dos verosimilitudes. Si es RL esa razón entre las funciones de verosimilitud de ambos modelos, el estadístico de contraste es – 2 ln RL, que sigue
una distribución χ2 con m – h grados de libertad, siendo m el número de grados
de libertad del numerador y h los del denominador.
Las pretensiones de este texto no van más allá de hacer notar que todos estos
procedimientos parten de una idea común: si no hay sesgos en la medición de un
cierto rasgo θ, las CCI y, en general, los modelos tienen que coincidir en los diferentes subgrupos de la población. Sin embargo, a pesar de la sencillez de la premisa, la detección de sesgos no es inmediata, no ya la parte sustantiva del sesgo,
que haría necesaria la detección de la fuente o las fuentes que lo producen y su
explicación, sino también en la parte más técnica de su detección y evaluación.
398
Principios de Psicometría
Una explicación más detallada de las bases de algunos de los procedimientos TRI
se puede encontrar en Santisteban (1990a), aunque entre los métodos más eficaces con los que actualmente se cuenta están los Mantel-Haenszel entre los no
paramétricos, y los basados en la razón de verosimilitudes entre los paramétricos.
En cualquier caso, como a la literatura se van incorporando nuevos desarrollos,
se requiere que los especialistas hagan una revisión actualizada en el momento en
el que se vaya a proceder, no sólo para elegir el método más adecuado de acuerdo con sus objetivos y las características de sus datos, sino también en lo relacionado con la parte sustantiva del sesgo, que ha quedado relegada en comparación
con la más técnica, como se indica en AERA, APA & NCME (1999).
Los análisis del DIF, como hemos ido mencionando para otras cuestiones
referentes a los modelos TRI, cuentan con software adecuado, al menos para los
modelos dicotómicos y algunos politómicos (BILOG, PARSCALE, etc.). Los
estudios del DIF en modelos con ítems politómicos se han planteado en la mayoría de los casos como una extensión de los métodos utilizados en los modelos
dicotómicos y en la actualidad existen bastantes propuestas en la literatura especializada. Aunque su aparición es relativamente reciente y presentan algunos problemas específicos derivados del tipo de respuesta, se pueden encontrar buenos
resúmenes (e.g., Penfield y Lam, 2000) sobre diferentes técnicas de identificación
del DIF en estos modelos.
Puntos clave
3
3
3
3
El sesgo es cualquier desviación sistemática que distorsiona los resultados y
por lo tanto la validez de las conclusiones.
El uso masivo y la influencia de los tests en múltiples ámbitos científicos, industriales, clínicos, etc. debe forzar a los psicómetras a que extremen las precauciones para la no inclusión de sesgos en su construcción.
El uso de tests sesgados, además de invalidar las conclusiones que se derivan
de su aplicación, su falta de equidad puede tener consecuencias económicas,
sociales e individuales no deseadas.
En algunos ámbitos de la psicometría desde hace algunas décadas no se suele utilizar el vocablo sesgo, habiéndolo sustituido por el de funcionamiento diferencial del ítem (DIF, acrónimo de sus siglas en inglés). Ahora bien, el estudio del
sesgo va más allá de la mera comprobación de si el comportamiento del test es
diferente para diferentes grupos de población.
Capítulo 14. El sesgo en los tests
3
3
3
3
3
399
Bajo la denominación de estudios DIF se recoge una gran variedad de métodos
que se podrían agrupar en los derivados de las tablas de contingencia, los logísticos (loglineales y regresión logística), los basados en la razón de verosimilitudes y los basados en las propiedades de las CCI y de los modelos TRI.
Para el estudio del DIF, el procedimiento Mantel-Haenszel es de los más utilizados por su facilidad de cálculo e interpretación y porque se puede aplicar a muestras pequeñas, a diferencia de los métodos TRI que requieren tamaños grandes
de muestras.
Las comparaciones entre las curvas características de los ítems en diferentes
grupos pueden dar la medida del sesgo, así como información sobre si el sesgo es o no uniforme.
El sesgo en modelos TRI se puede detectar contrastando estadísticamente si
son iguales o diferentes los parámetros de los ítems en uno y otro grupo (generalmente entre el de referencia y el focal), o comprobando la bondad del ajuste.
Un método muy adecuado para la comparación de modelos con el fin de detectar sesgos se basa en el contraste basado en el cociente de las verosimilitudes
(la razón de verosimilitud) entre dos modelos.
Conocer muchos métodos para detectar el funcionamiento diferencial de los
ítems y de los tests no es suficiente, pues hay que entrar en la parte sustantiva,
en el análisis del sesgo. Hay que tener en cuenta que los problemas de sesgo
son problemas de validez, que afectan tanto a las mediciones como a las conclusiones que se deriven del uso de los tests.
Actividades
r Plantee una situación en la que intervengan un grupo de referencia (control) y uno focal (de casos) en dos grupos de población. Disponga los datos
de forma similar a los que se presentan en la Tabla 14.2 y calcule el estadístico Mantel-Haenszel y su significación estadística.
r Discuta el significado de las curvas de la Figura 14.3 explicitando por qué
el ítem no está sesgado a favor de ninguno de los dos grupos y cuáles son
las diferencias en las probabilidades de acierto en uno y otro grupo.
r Compare la Figura 14.4 con la 14.5 y discuta en dónde radican sus diferencias.
r En dos grupos de población con diferente etnia se observan diferencias en
sus probabilidades de acertar un ítem cuando los valores del rasgo están
entre θ = 0 y θ = 1.6. La diferencia máxima es de 0.20 y se da en el punto
400
Principios de Psicometría
θ = 0.80 disminuyendo aproximadamente en 0.05 al disminuir o aumentar
los niveles de θ en 0.20. ¿Se puede decir que el ítem está sesgado? ¿Hay
diferentes maneras de calcular el DIF? Si es así, calcule y compare esos
valores discutiendo su significado.
r Basándose en la literatura, haga una revisión sobre los métodos estadísticos de detección del DIF y de los métodos sustantivos.
r Discuta las diferencias entre DIF, equidad y sesgos y saque conclusiones
de la revisión que ha hecho como actividad en el punto anterior.
r Discuta por escrito y si es posible en un foro, las conexiones entre validez
y sesgo y las consecuencias que puede conllevar el uso de tests sesgados.
Medición y psicometría
Medición, escalas e interpretación
de las puntuaciones
15
La psicometría trata de las teorías, modelos, métodos, procedimientos y
herramientas que se utilizan en la medición psicológica. La medición no
es simplemente asignar números a las propiedades de los objetos. Las
magnitudes deben permitir operar matemáticamente con ellas, conservando su sentido y sus propiedades, ser resistentes a la manipulación
experimental, y que sea posible que se establezcan comparaciones y hacer
predicciones.
En este capítulo se va a tratar:
ã La conexión entre el concepto de lo métrico con la operación de
medir.
ã Las diferencias, si las hay, entre las denominadas medición directa
e indirecta.
ã La teoría de la medición como parte de los contenidos de la psicometría.
ã Las propiedades que deben poseer las representaciones numéricas
a las que se llama magnitudes.
ã Los tres problemas que clásicamente se han considerado en la medición: representación, unicidad y significación.
ã Tipos de escalas y normas.
ã Operaciones y transformaciones admisibles.
ã Algunos de los requisitos exigibles a las medidas psicométricas y a
las escalas para que, tanto las medidas como las escalas, posean la
validez necesaria.
402
Principios de Psicometría
m15.1. Psicología, psicometría y mediciónm
La teoría de la medida abarca casi todos los campos, desde el filosófico hasta el
matemático, dando explicación a multitud de aspectos de la vida diaria. En psicología se ha ido generando todo un cuerpo de conocimientos, generalmente en
el seno de la psicometría y muy especialmente en el de la psicología matemática,
desarrollándose en esos contextos la denominada teoría de la medición psicológica, que no es un tema fácil si se quiere abordar en profundidad. En este texto
no se intenta hacer una disertación sobre la teoría de la medición, que en el desarrollo de sus fundamentos lógicos y su axiomatización tiene un referente claro
en Hölder (1901). Sin embargo, se introducen las nociones y conceptos que pueden ayudar a entender el significado de los tests e interpretar la información que
proporcionan las medidas que con ellos se obtienen.
La cotidianidad en el uso de los instrumentos para la medición de los atributos físicos, al compararlos con los psicológicos, hace que surjan dudas de si estos
últimos son medibles y si hay instrumentos adecuados para hacerlo, ya que la
mayoría no son directamente medibles. Sin embargo, los tests son instrumentos
de medida que, al igual que los que se utilizan en el mundo físico, dan cuenta de
manifestaciones observables. En general, en el ámbito de lo físico y de lo psicológico la primera cuestión es si el atributo pertenece a los que se han dado en llamar cualitativos o a los cuantitativos. Los conceptos cualitativos son aquellos que son
comparativos o simplemente clasificatorios. Los conceptos cuantitativos son los
mensurables y/o métricos. La inclusión o clasificación de conceptos concretos en
una u otra clase es casi siempre un problema epistemológico, si bien es evidente
que en la naturaleza o en la realidad que se esté estudiando, existen propiedades
que indican que el fenómeno que se estudia haya que considerarlo esencialmente cualitativo, o bien, esencialmente cuantitativo. En cualquier caso, esa clasificación depende tanto de la naturaleza del fenómeno, como de la atribución de cualitativo o cuantitativo que le hace quien lo estudia, basándose en la estructura
conceptual desde la que aborda ese estudio e incluso de las necesidades o exigencias del experimentador. Al no ser ningún fenómeno estrictamente cualitativo o cuantitativo, per se, es responsabilidad de quien lo estudia el incluirlo en una
u otra clase (Santisteban, 2003). Las llamadas ciencias físicas no tienen dificultad
en considerarse cuantitativas y el concepto de medición en ellas es tan fundamental y está tan arraigado, que es difícil imaginar que pensaran prescindir de él.
La psicología y las ciencias sociales se han ido incorporando a las ciencias cuan-
Capítulo 15. Medición y psicometría
403
titativas y en la práctica, lo cuantitativo y/o lo medible se ha utilizado al menos
en dos vertientes diferentes. Por un lado se ha considerado en el mismo sentido
que las medidas físicas, cuando se trata de magnitudes como, por ejemplo, tiempos de respuesta. Por otro lado, se han desarrollado los tests con procedimientos
propios y peculiares que llevan al establecimiento de ciertos índices y a escalas de
medida, que no se pueden interpretar fuera de su contexto conceptual, como el
cociente de inteligencia (CI), las escalas de aptitud o las de actitudes, etc.
La psicometría no está exenta de los problemas estructurales que conlleva la
medición. De hecho, en los textos de psicometría es donde se han venido tratando
estos problemas, al menos los tres más clásicos: (1) el de la representación, que surge
ante la hipotética pregunta de si se pueden medir todos los atributos; (2) el de la unicidad, que tiene que responder a cómo se caracterizan las relaciones entre las escalas
numéricas y de cuánta libertad se dispone para la construcción de una escala que no
dé lugar a confusiones; y (3) el del significado, esto es, el de la interpretación correcta
de las escalas. Más adelante se tratan formalmente las escalas y cómo se construyen,
aunque nadie desconoce qué es una escala, pues ha recibido la calificación en un
examen, o le han evaluado su capacidad para recordar y ha sabido si sus niveles eran
medios, altos o bajos. En cuanto al significado, también es intuitivamente un concepto sencillo, pues se refiere a si las puntuaciones realmente reflejan aquello que se
mide y que, aunque se transformen a otra escala (por ejemplo sumándoles a todas
un valor), no pierdan ese significado.
Cuadro 15.1
Hay autores que cifran la eclosión de la teoría de la medición, entendida
como disciplina en psicología, en la primera mitad del siglo XX, pues la revista Psychometrika se funda en 1935, y muy poco después el Educational and
Psychological Measurement (1941) y el British Journal of Statistical Psychology (1947). Por lo tanto, cuando se invoca la teoría de la medición, hay que
tener presente la psicometría y su contribución, sin que por ello se deba considerar que todo el cuerpo teórico que conlleva e implica la teoría de la medición esté necesariamente contenido en ella. La psicometría, en su acepción
general de medición de las variables psicológicas, abarca un campo muy
amplio de estudio aunque en algunos ámbitos se hace un uso reduccionista del término, asimilándola al estudio de la teoría de los tests psicológicos.
En este aspecto, se puede decir que la teoría de los tests es la parte más
404
Principios de Psicometría
visible del gran iceberg que es la psicometría: medición, teorías, métodos,
técnicas y modelos.
La mayor parte de los modelos matemáticos que se desarrollan en psicología con anterioridad y a mediados del siglo XX tratan de hacer ciencia tomando sus bases cuantitativas en los números reales, ya que la introducción del
lenguaje cuantitativo que está relacionado con la medición es lo que comúnmente se considera como garantía, e incluso como piedra angular en el establecimiento del método científico. Como ya se ha expuesto en el Capítulo 1,
las publicaciones de los psicólogos de esa época incluyen mediciones y prolifera el establecimiento de escalas psicológicas. Esto ocurre muy especialmente en psicometría y en psicofísica, donde lo que se tiene en la mente es
una escala real-valuada como las que se usan en física para las medidas de
ciertos atributos, y que han sido tan fructíferas en el desarrollo científico. Este
intento, sin embargo, llevó en algunos campos de la psicología a conclusiones erróneas y a confusiones teóricas. Todo ello impulsó que se exploraran
otros dominios numéricos que dieran cuenta, de mejor manera, de las necesidades y características especiales que pudiera tener la medición en psicología, y para el establecimiento de teorías psicológicas, formalmente establecidas, formuladas en términos matemáticos, pero no necesariamente en
términos cuantitativos en un sentido tan restrictivo. Entonces es cuando comienzan a proliferar los estudios con una concepción más amplia del mundo de lo
numérico en que se contemplan los números reales desde una perspectiva
más general, y desde un punto de vista más abstracto, que la simple representación numérica de una medida o de un valor de escala. Es entonces cuando en psicología se da el paso adelante en cuanto a que la distinción estricta
entre lo cualitativo y lo cuantitativo pasa a ser un viejo principio filosófico, pues
ahora en su ámbito de estudio el concepto de cantidad se ve a la luz de otras
premisas y desde otras perspectivas donde lo cuantitativo, o el concepto de
cantidad, se puede recalificar desde el punto de vista de la teoría de la medición psicológica. Volviendo la mirada atrás se puede considerar que el paradigma de medición que publican Scott y Suppes en 1958, explicando el paradigma representacional de Von Helmholtz (1887/1977) de una forma general,
precisa y estructurada, es un pilar básico de la actual concepción de la teoría
matemática de la medición en psicología.
m15.2. Métrica y espacios métricosm
La conexión entre el concepto de lo métrico y la operación de medir ha inducido a
que en muchas ocasiones se haya afirmado, y así aparece en muchos textos, que
Capítulo 15. Medición y psicometría
405
medir es asignar números a las cosas, o bien, que medir es asignar números a las propiedades
de los objetos. Estas definiciones son incorrectas por imprecisas, pues la simple asignación de números no garantiza: que esos números representen las propiedades
específicas de los elementos que se quieren expresar, es decir sus magnitudes; que
sea su representación inequívoca; que permitan la manipulación experimental, así
como la comparación con otras mediciones o magnitudes. Esto es, las representaciones numéricas de las propiedades de los objetos o elementos, a lo que se llama magnitudes, deben ser resistentes a la manipulación experimental y ser susceptibles de operar matemáticamente con ellas, conservando tras esas operaciones
su sentido y propiedades, permitiendo además que se pueda hacer con ellas comparaciones y predicciones. Por lo tanto, para resolver el problema de la unicidad
es necesario que existan transformaciones admisibles para la transformación de
las puntuaciones. El conjunto de todas las transformaciones admisibles en el sistema numérico indica si se tiene o no unicidad de la medida y determina el tipo
de escala.
Ahora bien, para que se mantengan las propiedades y las comparaciones, se
tienen que mantener las distancias entre las puntuaciones que las representan.
Esto conlleva haber definido con anterioridad el espacio métrico, pues un espacio
métrico es un conjunto de elementos entre los que se ha definido una distancia
(o sea, una métrica) y que esta métrica permita hacer operaciones con los elementos, operaciones que tendrán en cada caso unas determinadas propiedades.
Por lo tanto, la medición aparece como consecuencia lógica de la metrización de
los espacios y habrá distintos tipos de espacios métricos dependiendo de las propiedades que cada espacio posea. La definición de la distancia, sus propiedades y
las operaciones que se puedan realizar con esa distancia es lo que determina la
estructura de ese espacio métrico.
m15.3. Medición, estructuras, representación y escalasm
La medición, como se ha dicho, aparece como consecuencia lógica de la metrización de los espacios. Por lo tanto, presupone que se puedan establecer condiciones de mensurabilidad. La medición se ha establecido, bien porque se quiere
llegar a cuantificar y relacionar de algún modo las características más simples de
los objetos (peso, longitud, color, …), bien para hacer universalmente comparables
esas características de los objetos, o bien para contrastar teorías y establecer leyes,
406
Principios de Psicometría
generando conocimiento científico, lo que en filosofía de la ciencia se ha llamado ciencia normal, frente a otras formas de hacer ciencia (Kuhn, 1961, 1962; Santisteban, 2003). A través de la medición, del cálculo de errores, de la estimación
de magnitudes, etc., se ha podido determinar en muchas ocasiones que una teoría establecida es falsa, como sucedió por ejemplo en astronomía, donde hubo
que desterrar la teoría geocéntrica mantenida durante más de dos milenios para
sustituirla por la heliocéntrica.
La medición, como proceso experimental y de utilidad, va unida al desarrollo
de la humanidad y no se le puede poner fecha de inicio. Sin embargo, sus fundamentos lógicos y su axiomatización tienen un referente claro en Hölder, 1901
(una traducción al idioma inglés se puede encontrar en Michell y Ernst, 1996). A
raíz de esa fecha son muchos los trabajos que se han ocupado del análisis lógico
del proceso de medición, de la justificación de los diversos procedimientos y del
significado y relevancia de sus resultados. Los problemas estructurales que la teoría de la medición conlleva, al menos teóricamente, son varios. Clásicamente se
han considerado estos tres: (1) el de la representación, (2) el de la unicidad y (3)
el de la significación.
El problema de la representación
Este problema surge ante la hipotética pregunta de si se pueden medir todos los
atributos. Es decir, si las relaciones que se observan en el sistema empírico (en el
mundo real) se pueden describir mediante sistemas formales (el sistema numérico). De forma general, se puede decir que el problema de la representación consiste en representar un sistema de relaciones empíricas por un sistema relacional
formal (el modelo), y si el modelo es numérico, la representación se llama medición.
Si en el sistema empírico A se establecen las relaciones R y en el sistema numérico B las relaciones S, se dice que el sistema empírico está representado por el numérico, si existe una función f de A en B (cada elemento a de A tiene una imagen única f (a) en B) tal que para cualesquiera elementos a, b en A, se dé la siguiente relación:
a R b ⇒ f(a) S f(b)
O sea, que si el sistema empírico está representado por el numérico, existe una
correspondencia f que aplica A en B, de modo que la relación R que se da entre
Capítulo 15. Medición y psicometría
407
elementos de A (sean a, b), implica que en B se dé la relación S entre f(a) y f(b),
que son las imágenes de a y de b respectivamente. Si la representación se da en
ambos sentidos, entonces se dice que existe isomorfismo, o que los dos sistemas
son isomorfos. Si en el sistema empírico se establecen un conjunto de preferencias,
y ese conjunto de preferencias se puede representar en el sistema formal, entonces se podrá construir una escala. La relación empírica preferido a ( f ) conllevaría
una representación numérica mayor que (>). Esto implica que la transitividad en la
relación empírica es condición necesaria para poder representarla en el sistema
numérico, concretamente por la relación mayor que en el sistema de los números
reales. Si es a f b f c, entonces f(a) > f(b) > f(c). Si por el contrario, fuese a ≺
b ≺ c entonces f(a) < f(b) < f(c).
Uno de los principales objetivos de la teoría de la medición es investigar las condiciones bajo las cuales se pueden construir diversas representaciones numéricas.
Un compendio de esos resultados lo da el llamado teorema de la representación.
El problema de la unicidad
El teorema de la representación resuelve el problema de construcción de escalas,
pero de él no se deriva que haya una única escala, pues los valores de la escala no están
determinados por el modelo de medida. Entonces, habrá que preguntarse ¿cómo se caracterizan las relaciones entre las diversas escalas numéricas de un teorema de representación? ¿De cuánta libertad se dispone para la construcción de una escala que
no dé lugar a confusiones?
En primer lugar, se establecen las relaciones entre los elementos. Si esa relación es simplemente una relación de preferencia (que se traduce en una relación
mayor, o igual a, en una escala numérica) se tiene una escala ordinal y se dice que la
escala es única salvo una transformación que preserve el orden. Cualquier transformación de la escala que preserve ese orden produce otra escala admisible. Así,
dos escalas admisibles cualesquiera están relacionadas por una transformación
que conserva el orden, esto es, por una transformación monótona. Si además de
establecerse un orden de preferencias estricto se pueden ordenar las diferencias
de manera que haya la misma distancia entre elementos consecutivos, se tiene una
escala de intervalo. En esta escala, para que una transformación sea admisible, no sólo
debe conservar el orden de los valores (en correspondencia con el de las preferencias), sino también las diferencias y el orden de las diferencias entre esos valo-
408
Principios de Psicometría
res. La única transformación que conserva la ordenación de los intervalos es una
transformación lineal. Bajo estas condiciones, una vez seleccionados dos valores
de la escala, el resto de los valores están unívocamente determinados.
Por lo tanto, la definición formal de transformación admisible es necesaria
para establecer el problema de la unicidad. Para los dos sistemas relacionales
anteriormente definidos, el empírico y el numérico, para cualquier objeto a ∈ A
existe un único valor de escala f (a) en B, donde las relaciones en la escala reflejan las relaciones entre los objetos. Una transformación de la escala en B se dice
admisible si el sistema numérico que se genera en B, al sustituir los valores de la
escala original por los de la escala transformada, representa también al sistema
empírico.
El problema del significado
El problema surge cuando se quieren interpretar correctamente las escalas. Esto
es, cuando se desea describir el significado de los números que representan las
características de una determinada población, o bien cuando se trata de hacer inferencias basadas en los valores de esa escala. El problema es especialmente grave
cuando se trata de justificar una asignación de números a objetos, o a las propiedades de los objetos, que no se derive de un teorema de representación establecido, y el problema es especialmente difícil cuando los enunciados que incluyen
valores numéricos no están soportados por un modelo explícito de medición,
como es el caso de algunos atributos psicológicos.
En la literatura se ha discutido mucho este problema y en términos no fácilmente comprensibles para cualquier lector. Por ejemplo, según Suppes y Zinnes
(1963), un enunciado que incluye valores numéricos es formalmente significativo solamente si su verdad o falsedad permanece invariante bajo todas las transformaciones de los valores de la escala. Es decir, hacen que la significación dependa de los modelos de medición que se utilizan para obtener los valores numéricos.
Éste es un problema difícil y que consideramos que está poco desarrollado en la
investigación psicológica. Nuestro punto de vista es que el problema de la significación se resuelve, por un lado, construyendo escalas cuya interpretación inicial
sea extremadamente clara y que las inferencias basadas en los valores de esa escala sean invariantes respecto a las transformaciones admisibles de la escala. Por
otro lado, y en cualquier caso, la significación de los resultados depende de la vali-
Capítulo 15. Medición y psicometría
409
dez de los supuestos subyacentes, aun cuando los números que se hayan asignado a los objetos o a sus propiedades no estén soportados por un modelo de medición bien definido.
m15.4. Medición directa e indirectam
La medición de los atributos psicológicos se clasifica en la que se ha llamado medición indirecta, para contraponerla a lo que se llama medición directa, si bien
muchas veces esta distinción no está realmente bien justificada. Se llama medición
directa a aquella que no depende de la medida de ninguna otra cantidad. El paradigma ya clásico de medición directa es la medida de la longitud. Sin embargo, la
medición de otras magnitudes tales como la temperatura, la densidad o la velocidad requiere que exista la posibilidad de medir otras magnitudes para que se logre
la de la que está en cuestión. Estas mediciones no sólo deben cumplir algunos
axiomas exigibles a la medida directa como es la transitividad, sino que además
conllevan la necesidad de que se definan ciertas leyes empíricas. Por ejemplo, la
medida de la temperatura mediante un termómetro implica una medida directa
de longitud, que es la altura que alcanza la columna de mercurio, pero también
requiere que se cumplan muchas otras condiciones, como por ejemplo, que el
coeficiente de dilatación del mercurio sea mucho mayor que el del vidrio, que
ambos coeficientes prácticamente no varíen dentro del intervalo de temperatura
medida, que el capilar por el que asciende el mercurio sea de un diámetro uniforme, que el descenso capilar sea despreciable, etc.
La opinión de que hay ambigüedad en que una cantidad se pueda medir o
no directamente no carece de sentido, pues aunque pudiera medirse directamente, muchas veces se prefiere hacerlo de forma indirecta porque la medición
suele ser más fácil e incluso mucho más precisa. Por ejemplo, es posible que
un grupo de expertos lleguen a un consenso en cuanto a que cierta persona es
más inteligente o más brillante que otra, incluso se puede establecer la asimetría y la transitividad. Esto es, si la persona a es más brillante que la persona b,
entonces, la b lo es menos que la a, y si la persona a es más brillante que la persona b y ésta lo es más que la c, entonces la persona a es más brillante que la c.
No obstante, hacer uso en la práctica de este juicio directo sería extremadamente arriesgado y, de hecho, no son éstas las mediciones de la inteligencia de
las que se hace uso. La medida de la inteligencia más común es la del CI, que
410
Principios de Psicometría
es una medida indirecta, pues para cada persona se obtiene como cociente entre
la edad mental y la cronológica. Este cociente, aun bajo su aparente simplicidad, es una medida doblemente indirecta, pues la medición de la edad mental
se obtiene tras la aplicación de tests, como ocurre con muchas otras medidas
psicométricas, que son mediciones inferidas de las puntuaciones en tests, asumiendo que todas esas medidas tienen todas las debidas garantías de precisión
y de validez.
Campbell (1957) dice que aunque las unidades de algunas magnitudes fuese
relativamente fácil medirlas directamente, es preferible definirlas en términos de
medición indirecta. Creemos que el problema no radica en que la medición sea
directa o indirecta, sino que lo fundamental es, por un lado, asegurarse en qué grado la medida indirecta mide aquello que se quiere medir, es decir, el problema de
la validez de la medición y, por otro, cuál es la precisión de esas medidas.
Cuadro 15.2
En la literatura psicológica hay multitud de trabajos que tratan de distinguir
qué clase de información conllevan y representan las magnitudes. Por ello,
se han propuesto distintas clasificaciones para designar los diferentes tipos
de mediciones, según el procedimiento mediante el que se han llevado a
cabo. Cuando para inferir números o leyes que representen unas propiedades hay que hacer uso de otras propiedades, a esa medida Campbell la ha
llamado medida o medición derivada. Es el caso de la medida de la densidad, que se obtiene mediante la razón de la medida de la masa y la del volumen. Cuando los números se pueden asignar de acuerdo con las leyes naturales que representan propiedades de los objetos, sin necesidad de que ello
presuponga la medición de ningunas otras variables, autores como Campbell (1957) y Kranz et al. (1971), en el ámbito de la literatura en psicología, lo
designan con el término de medición o medida fundamental. Se puede considerar y definir la medida fundamental como la construcción de escalas,
estableciendo una relación isomórfica entre un sistema relacional empírico
y un sistema relacional numérico, si bien, en el sentido en que también usan
el término Hempel (1952) y Suppes y Zinnes (1963), la medición derivada,
genera una nueva escala a partir de otras escalas dadas. Autores como Pfanzagl (1968) expresan sus dudas acerca de si es razonable considerar la medición derivada propiamente como medición, sugiriendo que el objetivo de la
ciencia debe ser construir escalas fundamentales para las propiedades de
los objetos, con formulación de leyes empíricas y significados independien-
Capítulo 15. Medición y psicometría
411
tes, en lugar de tratar de satisfacer las propiedades de las escalas derivadas.
Michell (1986, 1990) distingue entre teorías representacional, operacional y
clásica, señalando que en la teoría operacional no se requiere la existencia
de un sistema empírico y que la teoría clásica coincide con la representacional en cuanto a la existencia de una realidad objetiva, pero sólo considera
medibles los atributos cuantitativos.
En la teoría de la medición, una asignación consistente de los números
reales a los elementos de una estructura empírica se suele decir que es una
escala para dicha estructura. Con la aparición de la obra de Luce y Tukey en
1964, se acuña un nuevo término en la literatura psicológica, es el concepto de medición conjunta. Se llama medición conjunta a la forma de identificar la estructura aditiva de los atributos de forma indirecta, a través del establecimiento de relaciones de dos atributos con un tercero. Si lo ilustramos
con un ejemplo traído de la física, se llamaría medición conjunta a la forma
en que se establecen las diferencias en densidad, observando las diferencias en volumen manteniendo la masa constante, revelándose así la estructura aditiva oculta en el atributo densidad.
m15.5. Tipos de escalasm
Muchas de las estructuras empíricas que observamos en el mundo real presentan
un cierto orden natural y las escalas suelen reflejar ese orden, por lo que se las
denomina escalas ordenadas. Se han considerado diferentes tipos de escalas ordenadas, dependiendo de la estructura que se mida y de cómo se hace la medición
de esa estructura. Las escalas más comunes, enumeradas desde la más débil a la
más fuerte, en relación con las exigencias en las propiedades exigibles en la medición, son las conocidas como:
1) escalas ordinales
2) escalas de intervalo
3) escalas de razón
Entre las distintas clasificaciones que se han presentado en la literatura, muchas
de ellas son muy conocidas y ya clásicas como la de Stevens (1951), que distingue
entre escala nominal, ordinal, de intervalo y de razón. Es decir, añade a las dadas aquí
412
Principios de Psicometría
la denominada escala nominal, que no se ha incluido en la clasificación anterior porque no es propiamente una escala. Las escalas nominales se construyen, o bien denominando o nominando los diferentes objetos, o bien asignándoles un número para
distinguirlos, o bien haciéndolo con las clases de objetos, agrupados según unas determinadas características. En este último caso, los numerales servirán para identificar
las clases. Pero en el concepto de medición, como entendemos y usamos este término, no ha lugar para las escalas nominales, pues los números que se asignan deben
referirse al grado o a la cantidad relativa en que un objeto posee una cierta propiedad, pero no que ese número sea la propiedad del objeto en sí misma.
El punto de vista de Campell (1928) es que las escalas aparecen ligadas a la
medida, pues dice que la concepción de una magnitud es inseparable del orden de
las características que posee. Autores como Torgerson (1958), además de que consideran que ese orden debe existir y estar definido, indican que la escala puede
poseer un origen y las características de una distancia, por lo que proponen que se
distingan las escalas unidimensionales como se muestra en la Tabla 15.1.
Tabla 15.1. Clasificación de Torgerson para las escalas.
No distancia
Distancia
Origen no natural
Origen natural
Escala ordinal
Escala ordinal con origen natural
Escala de intervalo
Escala de razón
Una clasificación más compleja es la que propone Coombs (Coombs, 1952;
Coombs et al., 1954), que añade a las de Stevens una quinta escala a la que denomina escala parcialmente ordenada. Bajo la concepción de Coombs, se debe pensar
en las escalas considerando primero los objetos en sí mismos y después las distancias entre los objetos. Los objetos se pueden clasificar ordenándolos, o bien
parcialmente, o bien totalmente y las distancias entre los objetos también pueden
producir clasificaciones totales o parciales. Esto ha dado lugar a que lleguen a distinguirse entre once clases de escalas diferentes. Cada una de estas escalas se nombra con dos términos, el primero hace referencia al tipo de objeto y el segundo al
orden o a la distancia, por ejemplo, escala nominal parcialmente ordenada. Nueve de las once escalas de Coombs pertenecen a la jerarquía de las escalas de intervalo de Stevens.
Capítulo 15. Medición y psicometría
413
Escalas ordinales
Escalas ordinales son las que tratan con estructuras en las que, o bien sólo se
conoce el orden de los elementos, o bien sólo el orden de los elementos es relevante. Un conjunto A de elementos estará débilmente ordenado si entre esos elementos se establece la relación de preferencia o de indiferencia, que es una relación binaria y transitiva sobre A. Para dos elementos diferentes a y b de A, o el
elemento a se prefiere a b, o bien el b se prefiere a a. Si esas relaciones entre los
objetos se conservan en los números reales que los representan, entonces la relación a se prefiere a b (b ≺ a) se transforma en b < a y si a es indiferente a b (a ~ b), entonces es en el sistema numérico a = b.
Si es R el conjunto de los números reales, una función f : (A, ≺ ) → (R, ≤) es
una escala ordinal y A es escalable. Esas funciones f que preservan el orden son
monótonas.
Al ser las escalas ordinales muy débiles, son las que menos se han desarrollado en la teoría matemática, en comparación con las escalas de intervalo y las de
razón. Sin embargo, en psicología se les ha prestado atención y ha sido Droste
(1987) uno de los autores que más se ha ocupado del papel que juegan estas escalas en el contexto de la teoría de la medición.
Escalas de intervalo y de razón
Los tipos más importantes de escalas son las de intervalo y las de razón. Son escalas únicas sobre un grupo de transformaciones lineales unidimensionales. Esto
es, si se considera el grupo de transformaciones lineales (positivas) de los números reales en los números reales (de R en R), y si es x un elemento genérico del
sistema empírico, cuya imagen en el sistema numérico es f(x), se tiene una escala
de intervalo o de razón cuando el conjunto de todas las transformaciones admisibles f son de tal forma que:
f (x) = a x + b, con a ∈ R+, b ∈ R
La exigencia de que sea a > 0 lo que implica es que la escala tiene una relación
de orden empírica, que viene representada por el orden existente en R. Si fuese
a < 0, entonces no se preserva el orden.
414
Principios de Psicometría
En el caso en que sea b ≠ 0 (b ∈ R), se dice que la escala es una escala de intervalo, y si b = 0 entonces es una escala de razón.
Las escalas de intervalo y de razón implican la igualdad de intervalos. Esta
igualdad se da si diferencias equivalentes entre las magnitudes representan la misma cantidad de diferencia en la propiedad que se mide. Adicionalmente, las escalas de razón, admiten que la medida tenga cero absoluto.
El tipo de escala viene definido por el tipo de transformación admisible, esto
es, por el tipo de transformaciones que mantienen su correcta representación. La
escala de medida que se use predetermina el modelo de escalamiento. El tipo de
transformaciones admisibles de los valores de la escala que preservan la precisión
en las predicciones de ese modelo define el nivel de medida que se obtiene mediante la escala.
Cuadro 15.3
El escalamiento se puede hacer de estímulos, de sujetos o de respuestas y,
a su vez, cada uno de estos escalamientos se puede hacer atendiendo a un
solo atributo, o a más de uno, en cuyo caso se los denomina respectivamente
escalamiento unidimensional o multidimensional. Los métodos de escalamiento centrados en los estímulos se han desarrollado fundamentalmente en
el contexto de la psicofísica. Los métodos de escalamiento centrado en los
sujetos utilizan preferentemente la teoría de los tests para la medida de los
atributos y generalmente se busca el establecimiento de las diferencias individuales mediante la aplicación de algún modelo psicométrico para inferir el
nivel del rasgo que posee el sujeto. En la medición de las actitudes, se suelen escalar los sujetos utilizando también otras técnicas como la de diferencial semántico. Los métodos de escalamiento centrados en la respuesta distinguen entre respuesta categórica y respuesta comparativa. Para respuestas
categóricas el método más conocido es el escalograma de Guttman, y para
los métodos de respuesta comparativa el modelo de Coombs. Escalamientos clásicos como los de Guttman, así como otros centrados en el sujeto se
están viendo sustituidos por los que se están generando con modelos TRI no
paramétricos. Un ejemplo clásico de escalamiento en psicometría es el modelo de Thurstone (1925). Son realmente brillantes sus artículos sobre la unidad
de medida y el cero de la escala (Thurstone, 1925, 1927, 1928). Un estudio
detallado sobre la construcción de escalas de intervalo basadas sobre operaciones métricas, así como las basadas sobre distancias se puede encontrar en los capítulos 6 y 9 de la obra de Pfanzagl (1968).
Capítulo 15. Medición y psicometría
415
Transformaciones admisibles
Independientemente de la clasificación que se adopte para las escalas, una cuestión fundamental es que las transformaciones algebraicas no alteren aquello que
se representa. Esto es, se requiere la invarianza de las características de los objetos que la escala representa cuando se realicen transformaciones algebraicas. Por
ello, hay que tener en cuenta cuáles son las transformaciones admisibles para cada
tipo de escala. Considerando cómo se han definido las diferentes escalas y sus
propiedades, es fácil deducir que las transformaciones admisibles para cada una
de ellas son:
a) Escala ordinal: transformaciones monótonas
b) Escala de intervalo: transformaciones lineales de la forma g (x) = a f(x) + b
c) Escalas de razón: transformaciones de la forma g (x) = a f(x)
Un ejemplo sencillo de estas transformaciones se tiene si se pone en relación
la longitud de una circunferencia con su diámetro. Si se considera una escala ordinal, esta relación es monótona, siendo la longitud una función monótona del diámetro, pues considerando entre ellos sólo una relación ordinal, cuando el diámetro crece también lo hace su longitud. Ahora bien, la relación se puede considerar
una escala de razón, pues se mantiene la proporcionalidad entre las magnitudes
con cambios cualesquiera de la longitud y del diámetro, siendo el número π la
constante de proporcionalidad.
Si la transformación admisible para una escala es el producto por una constante, la representación será una escala proporcional. Si las transformaciones admisibles son las lineales del tipo g(x) = a f(x) + b, la representación es una escala de
intervalos, y si la transformación lineal es del tipo g (x) = f(x) + b, se tendrá una
escala de intervalos absolutos, en el sentido de que permanece constante la diferencia
entre los valores. Si las transformaciones admisibles son del tipo g(x) = a [f(x)]n,
entonces se generarán escalas de intervalos logarítmicos, ya que la relación entre ellas
es lineal, pues log g(x) = log a + n log f(x). Para transformaciones g (x) = [f(x)]n,
se generarán escalas de proporciones logarítmicas, caracterizadas por permanecer constante el cociente de los logaritmos de los valores, pues es n = [ log g(x) / log f(x)].
Algunas transformaciones admisibles de la variable aptitud se han presentado,
por ejemplo, en los Apartados 12.2 y 12.3.
416
Principios de Psicometría
Cuadro 15.3
Interés en la medición y controversias
Existe y ha existido cierta controversia, muy marcada en algunas épocas, no
solamente en relación con la naturaleza de la medición, sino también con el
interés e intensidad con el que la comunidad científica aborda el tema y la conexión de la realidad de los que en la práctica necesitan la medición para hacer
ciencia y el abordaje del tema desde la propia filosofía de la ciencia (Kranz
et al., 1971; Kyburg, 1984, Santisteban, 2003). Hay una gran dispersión en la
literatura, pues en economía, matemáticas, filosofía, física, psicología y estadística existen sistemas de axiomas y teoremas que intentan explicar cómo
algunos de los atributos de los objetos, de la esencia de ciertas cosas y los
sucesos se pueden representar numéricamente de forma razonable. Esos resultados son los que constituyen los fundamentos matemáticos de la medición y
podría esperarse que las discusiones sobre medición jugaran un importante
papel en los escritos sobre filosofía de la ciencia. En un debate sobre la influencia del método y/o los métodos en el desarrollo de la ciencia (Santisteban, 2003)
se puso de manifiesto la aparente disociación entre el desarrollo científico y el
de la filosofía de la ciencia al tratar estos temas, y se hacen puntualizaciones
acerca de la cuantificación, la medición, la búsqueda y el establecimiento de
estructuras, así como sobre la necesidad de la formalización.
Ellis (1968) y Koslow (1981) coinciden con Kyburg en que los problemas
de la medición no sólo no son suficientemente entendidos, sino que puede
que ni siquiera sean suficientemente apreciados. Ellis dice que tiene que remontarse a los años veinte para encontrar grandes trabajos que traten la medición
y que sean de naturaleza filosófica, refiriéndose concretamente a los trabajos
de Campbell (1920, 1928) y a los de Bridgman (1922), en tanto Koslow, algunos años después, aun compartiendo la opinión de Ellis, admite que la literatura sobre el tema está en auge entre sus contemporáneos y que en esos años
se había escrito más sobre medición que antes de mediados de los sesenta.
Entre los grandes autores clásicos sobre medición cita a Mach (1960) y a Von
Helmholtz (1887/1977). Autores como Kranz, Luce, Suppes, Tversky, Zinnes,
Pfanzagl y Nagel opinan que la medición es un tema perfectamente comprendido, pero que hay muchas cuestiones de fondo complejas y muchas
cuestiones técnicas, algunas de ellas de gran dificultad, que hay que explorar e investigar y a ello dedican obras muy relevantes, tanto por su extensión
como por su profundidad. En la literatura hay también una ingente cantidad
de trabajos, que se centran en problemas técnicos muy concretos, pero se
quedan en la parte técnica del problema, sin llegar a establecer los pertinentes axiomas que permitan la generalización de los resultados, para que se
cumplan al menos los teoremas de representación y de unicidad.
Capítulo 15. Medición y psicometría
417
La aportación de Rasch a la medición en psicología fue fundamental.
Sus primeras propuestas ya muestran que, la formulación en una familia de
distribuciones de Poisson, no sólo es suficiente para la construcción de
mediciones estables, sino que poder hacer uso de las propiedades multiplicativas de las leyes de Poisson es la solución matemática para tener funciones medibles en teoría de tests. Andrich (1995, 1996) confirma que en
el modelo de Rasch la separabilidad requiere la distribución de Poisson para
estimar medidas a partir de observaciones discretas y Bookstein (1996) también muestra la necesidad del uso de la distribución compuesta de Poisson, en cuanto a que se satisfacen los requisitos de divisibilidad, definidos
por Levy (1937) y por Kolmogorov (1950). En forma muy resumida se puede decir que la propuesta de Rasch implica, no sólo que se pueden obtener estimadores suficientes de los parámetros, sino que las mediciones que
se hacen cumplen los requisitos teóricamente exigibles de estabilidad, separabilidad e independencia muestral, así como el requisito de la aditividad
conjunta que, en teoría de la medición, es un requisito fundamental y decisivo. Un concepto que aparece en los años ochenta del siglo XX es el de
objetividad específica. En el modelo de Rasch se cumple el principio
de objetividad específica o equivalentemente, de independencia muestral.
Roskam (Roskam y Jansen, 1984) indica que la objetividad específica es
una condición metodológica básica para la definición y medición de constructos teóricos como la aptitud verbal o el control interno. La condición de
objetividad específica es de especial importancia para el estudio de las actitudes y de los rasgos de personalidad.
m15.6. Interpretación de las puntuaciones: escalas y normasm
Tipificar consiste en transformar las puntuaciones directas en otras puntuaciones más fácilmente interpretables. En el contexto de la TCT, cuando un test está
tipificado o estandarizado, la puntuación típica de un sujeto indica su posición relativa con respecto al grupo normativo, lo que permite comparar los resultados de
diferentes sujetos en un mismo test, o los de un sujeto en diferentes tests. Las
escalas en las que vienen dadas las puntuaciones de los tests son numerosas, por
ello, para una correcta interpretación de las puntuaciones obtenidas con esos tests
es imprescindible conocer el tipo de escala y sus características. En la TRI las interpretaciones se hacen por la posición del sujeto en la escala del rasgo.
418
Principios de Psicometría
Existen distintos tipos de transformaciones para realizar la tipificación de
las puntuaciones, o sea, transformaciones que permiten convertir las puntuaciones en datos comparables expresándolos en el mismo tipo de escala. La elección del tipo de transformación que da origen a la escala depende en gran medida del tipo de puntuación y de los objetivos de la prueba. Las transformaciones
pueden ser lineales o no lineales, como se ha puesto ya de manifiesto en diferentes apartados y concretamente al hablar de transformaciones admisibles
(Apartado 15.5). Las lineales tienen la ventaja de conservar la forma de las distribuciones de las puntuaciones y no modifican el tamaño de las correlaciones,
pues las correlaciones son invariantes ante cambios de origen y de escala, lo que
es de gran ayuda en el contexto de la TCT, que se basa esencialmente en un
modelo correlacional. En cualquier caso, todas las transformaciones deben ser
monótonas, por lo tanto, si las puntuaciones están ordenadas en orden creciente,
la transformación no altera ese orden. Es decir, como se ha explicitado en los
Apartados 15.3 y 15.5, si un sujeto tiene una puntuación directa a que es mayor
que la b obtenida por otro sujeto, entonces la transformación f debe conservar
ese orden de forma que f(a) > f(b). En aquellos contextos en los que las interpretaciones se hacen en relación con el grupo normativo, se dice que se hacen
interpretaciones referidas a la norma, diferenciándose de aquellas otras que se hacen
en relación con ciertos objetivos o criterios concretos, a las que se denomina
interpretaciones referidas al criterio. Aunque para ambos tipos de pruebas se siguen
procedimientos que no difieren en lo esencial, las pruebas con interpretaciones
referidas a la norma dan origen a escalas y en las referidas al criterio las interpretaciones se suelen hacer en relación a algún punto de corte, o sea, con una
división de los valores de la escala, usualmente en dos categorías exhaustivas y
excluyentes.
Hay interpretaciones que se basan en la dificultad del contenido. Estas interpretaciones se suelen utilizar en pruebas de rendimiento escolar, comparando la calificación del sujeto con la máxima calificación posible. En una prueba de respuestas
dicotómicas, la calificación X que se otorga a un sujeto es X = R / T, en donde
R es su número de respuestas correctas y T el total. Las puntuaciones se suelen
dar en porcentajes y usualmente no se utilizan como escalas, sino que se suelen
tratar dentro del grupo de las interpretaciones referidas al criterio.
Entre las numerosas escalas que se han construido, se citan a continuación
algunas de las más usuales.
Capítulo 15. Medición y psicometría
419
Escalas estandarizadas
La tipificación de puntuaciones consiste en una transformación lineal en la que a
todas ellas se les resta la media (cambio de origen) y esa diferencia se divide por
la desviación típica (cambio de escala). En el Apartado 1.6 se ha expuesto cómo
obtener puntuaciones tipificadas (estandarizadas) y las que dan origen a las escalas estandarizadas derivadas, o escalas tipificadas derivadas.
Entre las escalas derivadas tradicionalmente más utilizadas están las siguientes:
a) La de puntuaciones T, con media 50 y desviación típica 10:
T = 50 + 10 z.
b) Estaninos o eneatipos, con media 5 y desviación típica 2:
E = 5 + 2z.
c) AGCT (Army General Classification Test):
AGCT = 100 + 20 z.
d) CEEB (College Entrance Examination Board):
CEEB = 500 + 100 z.
e) Escalas CIS (Cociente Intelectual estándar). Todas estas escalas fijan la media
en 100, pero la desviación típica (la unidad de medida de la escala) se suele tomar de acuerdo con los objetivos del test. Los CI de Wechsler (que
se usa en escalas muy conocidas tales como WPPSI, WISC y WAIS) es
CI = 100 + 15 z. En la de Stanford-Binet es CI = 100 + 16 z.
Normas centiles
Las normas centiles dan la posición relativa del sujeto con respecto al grupo al
que pertenece. Una vez que se ordenan (generalmente en orden creciente) y se
tabulan las puntuaciones, observando su valor y su frecuencia, se calculan las frecuencias acumuladas, pudiéndose determinar así el porcentaje de sujetos que alcanzan un valor menor o igual a una puntuación dada y hacer divisiones o clases de
acuerdo con esos porcentajes.
420
Principios de Psicometría
En la Tabla 15.2 se presenta un ejemplo en el que se puede hacer una interpretación de los centiles, pues el 10% de los sujetos tienen puntuaciones iguales
o menores que 2, el 50% tienen puntuaciones iguales o menores que 5, en el 85%
sus puntuaciones son iguales o menores que 8, etc.
Tabla 15.2. Distribución de frecuencias absolutas y absolutas acumuladas de 100 sujetos.
Puntuación: Xi
0
1
2
3
4
5
6
7
8
9
10
Frecuencia: Ni
2
3
5
15
10
15
15
10
10
5
10
Frecuencias
acumuladas
2
5
10
25
35
50
65
75
85
90
100
Entre las clasificaciones centílicas más usuales están:
– Clasificación por la mediana: Este valor Me divide a la población en dos grupos, el 50% de los sujetos que tienen calificaciones superiores a Me y las
del otro 50% de los sujetos son iguales o inferiores. Esta clasificación es
muy pobre, pues discrimina muy poco entre los sujetos. En el ejemplo de
la Tabla 15.2 es Me = 5.
– Clasificación cuartílica: En este caso, la división se hace en cuatro grupos, separados por los valores de cada cuartil. Es decir, el 25% de los sujetos tienen
valores iguales o menores al del primer cuartil Q1, el segundo al 50% por lo
que Me = Q2, y el 75% del total de sujetos tendrán valores iguales o menores que la puntuación Q3. En la Tabla 15.2 es Q1 = 3, Q2= 5 y Q3 = 7 y sólo
los sujetos con puntuaciones 8, 9 y 10 pertenecen al cuarto cuartil.
– Clasificación decílica: Esta clasificación sigue el mismo criterio que las dos
anteriores, haciéndose aquí la clasificación dividiendo en 10 intervalos las
calificaciones, en correspondencia con una división de la frecuencia total
en 10 grupos de igual tamaño. En el ejemplo de la Tabla 15.2, el primer
decil es D1 = 2, con el 10% de la frecuencia acumulada, el D5 = Q2 = Me
y el noveno y último decil es D9 = 9.
– Clasificación percentílica: Los rangos percentílicos son los más utilizados. La
idea básica es la misma que la de cualquier norma centil estando aquí divi-
Capítulo 15. Medición y psicometría
421
dida la frecuencia acumulada en 100 grupos divididos por 99 valores. Así
el primer percentil P1 acumula el 1% de la frecuencia y el P99 al 99%. En
los datos de la Tabla 15.2 el P85 lo delimita el valor 8.
En cualquier escala centílica, al estar ordenadas las puntuaciones (los valores
de cualquier variable) en orden creciente y sus frecuencias acumuladas, se pueden
realizar las comparaciones entre sujetos conociendo a qué centil pertenecen. Ahora bien, al hacer esas comparaciones hay que tener en cuenta que las distancias
intercentílicas no son todas iguales (e.g., Figuras 15.1 y 15.2), pues dependerán de
la dispersión de las puntuaciones en el grupo. Estas distancias también variarán
entre diferentes grupos o con diferentes pruebas.
Figura 15.1. Relaciones entre diferentes rangos centílicos.
Escalas de puntuaciones normalizadas
En el caso en que las puntuaciones sigan distribuciones normales, o aproximadamente normales, las escalas anteriores se dice que están normalizadas. Muchas
de ellas se refieren a pruebas de rendimiento, generalmente en el ámbito educativo, en donde las distribuciones de las puntuaciones en la población suelen ser
aproximadamente normales. Cuando se tiene un conjunto de puntuaciones que
no se desvían sensiblemente de la normalidad, una forma fácil de realizar la normalización de esos datos es distribuirlos en una escala percentílica, y utilizando
las frecuencias acumuladas, asimilar los valores de los percentiles a los correspondientes en una distribución normal, haciendo posteriormente un suavizado
de la función resultante. Este proceso está implementado en los programas diseñados para realizar transformaciones que se pueden encontrar en los paquetes
estadísticos como el SPSS.
422
Principios de Psicometría
En muchas ocasiones las puntuaciones normalizadas z, que aproximadamente se distribuyen según una N(0,1) son incómodas de manejar y difíciles de interpretar, pues sus valores teóricamente van desde –∞ a +∞, aunque en la práctica
estén entre z = – 3 y z = 3. Por ello, se suelen utilizar escalas derivadas normalizadas en las que el rango de las puntuaciones va de 0 a 100 puntos. Es decir, el
punto z = 0 de la escala anterior es ahora T = 50 y un valor, z = – 2.5, ahora es
un valor T = 50 + 20 (–2.5) = 0, como puede deducirse también de las relaciones que anteriormente se han establecido (Apartado 1.6) entre las puntuaciones
z y las estandarizadas derivadas.
Los casos más comunes de escalas normalizadas son las escalas T y las de eneatipos, mencionadas anteriormente como escalas derivadas. Con el uso de la escala T
lo que se realiza es una evaluación del rango percentílico de la puntuación directa.
Los eneatipos o estaninos (de la contracción standard nine) son una variación de la
escala T con la diferencia de que esta escala está compuesta por nueve intervalos
de igual longitud que delimitan distintas áreas bajo la curva normal. Una modificación de los eneatipos son las denominadas escalas C que elabora Guilford introduciendo una unidad adicional en cada uno de los extremos de la escala de estaninos, con lo que tiene once intervalos en lugar de nueve. Otras calificaciones de rango
son similares a las C, con extremos abiertos, utilizadas en algunas pruebas de Catell,
las ITED (Iowa Test of Educational Development) que son calificaciones estándar normalizadas con media 15 y desviación típica 5. Un poco diferentes son las
denominadas puntuaciones jerárquicas percentuales, que se utilizan para indicar la posición del sujeto en una escala de 101 puntos en un rango de puntuaciones de cero a
100. Esta escala se construye en cada caso con las puntuaciones del grupo, de manera que si a y b son las puntuaciones directas más alta y más baja obtenidas en ese
grupo, entonces X = 100 (X – b) / (a – b), que viene dado en porcentajes.
Figura 15.2. Deciles bajo una distribución normal.
Capítulo 15. Medición y psicometría
423
Las normas que acompañan a los tests deben explicitar el tipo de escala y
deben ser claras, pues se establecen para facilitar la interpretación de las puntuaciones a los usuarios de los tests. Una revisión escueta y actualizada de los diferentes tipos de normas se puede consultar en Thorndike (2005).
Equiparación de puntuaciones
Las transformaciones en las puntuaciones se hacen cuando se trata de hacer la
equiparación entre tests. La equiparación consiste en el proceso que se lleva a
cabo para que dos pruebas se puedan considerar equivalentes. Las condiciones
para que realmente se dé la equivalencia entre tests son muy exigentes, pues ambas
pruebas deben medir el mismo rasgo, con las mismas dimensiones, que se hayan
construido los ítems con las mismas especificaciones, etc. Que exista equiparación entre dos tests X e Y implica que esos tests sean intercambiables en el sentido de que la aplicación de uno u otro no hará variar el nivel de aptitud que se
le estima al sujeto. Esto implica la invarianza de la puntuación verdadera cuando se igualan las puntuaciones. También implica el principio de simetría entre
los tests, es decir, que no importa cuál de ellos se ha utilizado como base o como
referencia.
En el contexto de la TCT, los métodos de equiparación son la equiparación
en media, la lineal y la equipercentílica. En la TRI se establecen las relaciones entre
los parámetros de los ítems y la puntuación verdadera estimada del sujeto en el
test. Para generar los datos con los que se va a llevar a cabo la equiparación se utilizan diferentes diseños: a) se administran ambos tests a una muestra; b) se utilizan
dos grupos o dos muestras equivalentes en cuanto a su tamaño, representatividad, etc.
y se administra el test X a una muestra y el Y a la otra; y el diseño c) en el que también se utilizan dos grupos o dos muestras, cumplimentando cada una uno de los
tests, además de un conjunto de ítems Z. Así un grupo cumplimenta nY + nZ
ítems y el otro nX + nZ, estableciéndose la equivalencia a partir de los datos obtenidos de los nZ ítems que al ser comunes a ambos grupos actúan como anclaje en
la relación entre X e Y. Este diseño tiene la ventaja adicional de que no es necesario que los dos grupos o las dos muestras sean equivalentes.
En la TCT, el método de equiparación de medias supone que la diferencia entre
las puntuaciones entre los tests se debe a la dificultad y que esa diferencia se mantiene a lo largo de todas las puntuaciones. Por lo tanto, si es d = Y − X ,
424
Principios de Psicometría
la equiparación se realiza mediante las relaciones: Ye = X + d (Ye es la puntuación equiparada a la X) y Xe = Y – d. Esta equiparación es muy simple, pero muy
poco realista, porque difícilmente se darán esas condiciones en las puntuaciones.
La equiparación lineal se basa en igualar las puntuaciones tipificadas, es decir, en
una transformación lineal de unas puntuaciones en otras, que es un procedimiento
similar al que se ha utilizado anteriormente para otras comparaciones. Esto es, si
se establece la igualdad:
Y−Y X−X
=
sY
sX
entonces, se equiparan las puntuaciones mediante cualquiera de las dos ecuaciones siguientes
Ye =
sY
(X − X) + Y
sX
s
Xe = X ( Y − Y ) + X
sY
Ejemplo 15.1
Si las medias y las desviaciones típicas de dos pruebas X e Y que se van a
equiparar son respectivamente X = 42 , sX = 6 ; Y = 48 sY = 8. La equiparación
de medias supone que para toda puntuación en el test X su correspondiente
(equiparada) en el test Y, y viceversa Xe = X + 6 ; Ye = Y – 6.
Si la equiparación tiene también en cuenta la variabilidad, la equiparación
es lineal, siendo:
Ye = (8/6) (X – 42) + 48 = (8/6) X – 8
Xe = (6/8) (Y – 48) + 42 = (6/8) Y + 6
La equiparación percentílica es la que más se utiliza y consiste en hacer que se
correspondan las puntuaciones percentílicas. Esto es, si la puntuación 42 es la que
corresponde al percentil 70 en el test X y la puntuación para ese percentil en el
Capítulo 15. Medición y psicometría
425
test Y es de 50 puntos, entonces, la puntuación 42 de X se equipara a la puntuación 50 del test Y. Para hacer estas comparaciones hay que tener en cuenta la no
equidistancia entre percentiles, pues las distancias en puntuación son diferentes
para un percentil y otro en el mismo test y en tests diferentes.
Los métodos para la equiparación de puntuaciones que se utilizan en la TRI
son variados y además se distingue cuando se hacen las calibraciones separadas
de cada uno de los tests, o cuando se hace conjunta. En el caso en que el diseño
sea de anclaje, se pueden calibrar los tests con (nX + nZ ) ítems y (nY + nZ ) ítems
separadamente, o bien tratar los datos como si todos los sujetos hubiesen resuelto los (nX + nY + nZ ) ítems, tratando los ítems no cumplimentados por alguno
de los grupos como datos faltantes, teniéndose en este caso todas las estimaciones en una escala común. (Una exposición detallada en español de algunos de
estos métodos se puede consultar en Santisteban, 1990a.) Los métodos más idóneos y que proporcionan las equiparaciones más precisas son los que se basan en
las CCI. Casi todos se basan en una primera estimación de las puntuaciones verdaderas de los sujetos en el test. Estas puntuaciones verdaderas se corresponden
con la suma de las Pi (θ) de todos los ítems del test. Así, para un nivel del rasgo
θ = θj , la puntuación verdadera estimada para ese nivel del rasgo en un test de
n ítems es:
Vj = ∑ Pi ( θj )
n
i=1
Las estimaciones de las puntuaciones en una misma escala, con diseños de
anclaje y análisis conjunto de los (nX + nY + nZ) se pueden obtener con el software que proporcionan programas como BILOG-MG o PARSCALE. La equiparación se realiza estableciendo relaciones lineales entre los parámetros de los
ítems, de ambos tests y los de anclaje. Estas equiparaciones suelen hacerse con
el índice de dificultad b, porque es más estable y porque, como se ha visto en el
Apartado 12.3, las transformaciones en b son idénticas a las de θ y viceversa,
cuando se realizan transformaciones admisibles para la escala, aunque también
se puede incluir el parámetro a. Es decir, la conexión entre las escalas original
y equiparada, siempre se podrá establecer mediante las relaciones θe = kθ + s;
be= kb +s y ae = a/k, teniendo en cuenta además que aunque el modelo incluye un tercer parámetro, el parámetro c, a ese parámetro no le afectan las transformaciones métricas señaladas.
426
Principios de Psicometría
La escala de aptitud θ en la TRI
La construcción de las escalas y la interpretación de los niveles de aptitud que en
la TCT se hace en relación con las del grupo normativo, en los procedimientos
TRI hay que realizarla al estimar los parámetros característicos de los ítems y del
rasgo θ. Los valores estimados para los niveles de θ se pueden transformar en
valores de una escala conveniente para la interpretación de los resultados. La escala, en principio, se elige de forma arbitraria y las transformaciones lineales de la
escala de aptitud, acompañadas de las correspondientes a los parámetros son
admisibles, pues no alteran ni la forma ni las características de las funciones
Pi (θ). Estas propiedades de invarianza se han comprobado para diferentes modelos en los Apartados 12.2 y 12.3.
La arbitrariedad en la elección de la escala y la invarianza de las CCI con respecto a las transformaciones lineales generan indeterminaciones que se deben eliminar en el proceso de estimación. El método más simple, al igual que en la TCT,
es tipificar la variable. En este caso, la indeterminación se puede eliminar eligiendo para las constantes k y s de las ecuaciones (12.10) valores con los que la media
y la desviación típica de la variable transformada θ* sean cero y uno respectivamente. De hecho, los programas de ordenador disponibles para el tratamiento de
estos modelos, como es el LOGIST, trabajan con los valores de la variable tipificada, con media cero y desviación típica unidad. La tipificación conduce a que se
obtengan valores de la variable decimales y que también pueden ser negativos, lo
que dificulta su interpretación. La forma que se sugiere para abordar el problema
es la misma que la que se ha propuesto para las escalas convencionales de puntuaciones. Consiste en construir escalas derivadas, buscando valores apropiados
para la media y la varianza que a ser posible proporcionen puntuaciones enteras
y positivas para la variable estimada. Una de las propuestas que se han hecho en
este contexto fue fijar la media en 200 y la desviación típica en 10 (o sea, k = 10
y s = 200), pero no ha resultado ser satisfactoria, por lo que se han propuesto para
estos modelos transformaciones logarítmicas y la utilización de los logits que tan
buen resultado han dado en las aplicaciones biométricas, especialmente en relación con las escalas dosis-respuesta.
Entre los autores que sugirieron la escala logarítmica están Rentz y Bashaw
(1977), que la propusieron al no obtener una escala interpretable cuando usaban
la transformación normalizada con media 200 y desviación típica 10, en el desarrollo del test de lectura NRS (National Reference Scale). Para estas transfor-
Capítulo 15. Medición y psicometría
427
maciones usualmente se han utilizado logaritmos neperianos, pero los resultados son generalizables a cualquier tipo de base logarítmica. La elección de la base
es arbitraria y se debe elegir aquella base logarítmica que en cada problema facilite la interpretación. Entre esas escalas están las Wθ de Woodcock (1978) y la
WITS de Wright (1977) que usan escalas logarítmicas de base 9 y 3 respectivamente. Una explicación en castellano más detallada de las transformaciones y de
estas escalas se puede ver en Santisteban (1990a, págs. 380-386). Sobre medición
y las transformaciones logarítmicas, por ejemplo, en modelos basados en el de
Rasch son de interés trabajos de autores como los ya mencionados Woodcock
(1999) y Wright (1999).
Puntos clave
3
3
3
3
3
3
3
3
3
3
Medir es más que asignar números a las propiedades de los objetos.
Los conceptos cualitativos son aquellos que son comparativos, o simplemente
clasificatorios. Los conceptos cuantitativos son los mensurales y/o métricos.
La medición aparece como consecuencia de la metrización. La medición se establece porque se quiere llegar a cuantificar y relacionar las características de los
objetos y/o para hacerlas universalmente comparables y/o para comparar teorías y establecer leyes.
En medición hay que resolver los problemas de la legitimidad de representar
mediante números las características de los objetos, así como la unicidad de
esa representación y su significado.
La medición de los atributos psicológicos es del tipo que se denomina medición
indirecta.
Se llama medición conjunta a la forma indirecta de identificar la estructura aditiva de los atributos.
La asignación consistente de los números reales a los elementos de una estructura empírica se suele decir que es una escala para dicha estructura.
En la literatura se han dado muchas clasificaciones para identificar tipos de escalas. En psicología una de las más clásicas es la de Stevens.
Es necesario que se mantengan las características de los objetos que la escala representa cuando en ella se realizan transformaciones algebraicas. Las
transformaciones que lo cumplen se dice que son admisibles para ese tipo de
escala.
La interpretación de las puntuaciones en los tests requiere que se conozcan el
tipo y las características de la escala en la que vienen dadas esas puntuaciones.
428
Principios de Psicometría
3
3
3
3
3
La interpretación de las puntuaciones a veces se hace en relación con una partición de esas puntuaciones (generalmente en dos clases) atendiendo a un determinado criterio.
La tipificación de las puntuaciones es un primer paso para poder compararlas
y para el posterior establecimiento de la escala.
El paso de puntuaciones directas a tipificadas y de ellas a otros valores estandarizados se hace mediante transformaciones lineales.
La normalización de la escala se puede hacer partiendo de una escala percentílica, siempre y cuando la distribución de las puntuaciones sea aproximadamente normal.
Tanto en la TCT como en la TRI las transformaciones lineales son admisibles,
sin embargo, las transformaciones más adecuadas en la TRI son las transformaciones logarítmicas.
Actividades
r Ponga seis ejemplos de atributos o cualidades de los objetos o de las personas que se puedan considerar esencialmente cualitativos, otros seis que
sean de naturaleza cuantitativa y trate de establecer condiciones para, si es
posible, pasarlos de una categoría a otra. Esto es, poder dar a los cualitativos tratamiento cuantitativo y viceversa.
r Comente la siguiente frase: “Todo lo que conlleva e implica la teoría de la
medición no está contemplado en la psicometría, pero las bases rigurosas
de la medición deben tener presencia en ella y en todos los ámbitos de la
psicología en los que se quieran desarrollar teorías formalmente construidas y con modelos experimentalmente contrastables”.
r Busque en la literatura los denominados axiomas de cantidad de Hölder (1905)
y coméntelos, distinguiendo entre los que sólo permiten establecer relaciones de orden y los que permiten algún tipo de operaciones entre magnitudes.
r Compare los axiomas de cantidad de Hölder con los fundamentos lógicos
de la medición dados por Campbell.
r Comente la importancia y el significado que en los tests tiene la definición
de representación que dan Suppes y Zinnes: “Es la relación homeomórfica establecida entre dos sistemas relacionales, el empírico y el numérico”.
Capítulo 15. Medición y psicometría
429
r Ponga un ejemplo, o búsquelo en la literatura psicométrica, de dos sistemas relacionales, uno empírico y otro numérico, que cumplan las condiciones de representación, unicidad y significación.
r Comente el problema de la unicidad en la construcción de escalas en los
tests psicológicos.
r Haga un supuesto de un test en el contexto de la TCT, tipifique sus puntuaciones, normalícelas y construya diferentes escalas derivadas.
r Haga supuestos sobre dos tests en el contexto de la TCT y haga una equiparación percentílica de las puntuaciones.
r Construya las curvas características de dos tests, estime las puntuaciones
verdaderas y trate de equiparar sus puntuaciones con el software adecuado.
r Compruebe que la eficiencia relativa de dos tests es invariante ante transformaciones monótonas de θ.
r Compruebe que utilizar en la relación logist Y (Y = ln (Pi (θ)/ (Qi (θ)) la
base logarítmica 2, es equivalente al escalamiento de la aptitud θ con logist
unidad y logaritmos neperianos multiplicados por 0.7.
Bibliografía
AERA, APA & NCME (1999). American Educational Research Association, American
Psychological Association, and National Council on Measurements in Education.
Standards for educational and psychological testing. Washington, D.C.: American Educational Research Association.
Alvarado, J. M. & Santisteban, C. (2006). La validez en la medición psicológica. Aula abierta.
Madrid: Ediciones UNED.
Amón, J. (1984). Estadística para psicólogos. Vol. 2 (3ª ed.). Madrid: Pirámide.
Anastasi, A. (1950). The concept of validity in the interpretation of test scores. Educational and
Psychological Measurement, 10, 67-78.
— (1954). Psychological testing. New York: MacMillan.
Anastasi, A. & Urbina, S. (1997). Psychological testing. (7ª ed.) Englewood Cliffs. NJ: Prentice-Hall.
Andersen, E. B. (1973). Conditional inference and models for measuring. Copenhagen: M. Forlag.
Andrich, D. (1995). Models for measurement: Precision and the non-dichotomization of graded
responses. Psychometrika, 60, 7-26.
— (1996). Measurement criteria for choosing among models for graded responses. En A. von Eye
& C. C. Clogg (ed.). Analysis of categorical variables in developmental research (págs. 3-35).
Orlando, Fl: Academic Press.
Angoff, W. H. (1982). Used of difficulty and discrimation indices for detecting item bias. En R.A.
Berk (ed.). Handbook of methods for detecting test bias. Baltimore, MD: The Johns Hopkins University Press.
APA (1954). American Psychological Association. Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin, 51, 201-238.
Baker, F. B. (1992). Item response theory: Parameter estimation techniques. New York, NY: Marcel Dekker.
432
Principios de Psicometría
Baker, F. B. & Kim, S. H. (2004). Item response theory: Parameter estimation techniques. (2ª ed.).
New York: Marcel Dekker.
Bartholomew, D. J., Steele, F., Moustaki, I. & Galbraith, J. I. (2002). The analysis and interpretation of multivariate data for social scientists. Boca Ratón: Chapman and Hall/CRC.
Barton, M. A. & Lord, F. M. (1981). An upper asymptote for the three parameter logistic itemresponse model. Research Bulletin, 8120, Princeton, NJ: Educational Testing Service.
Becker, K. A. (2003). History of the Stanford-Binet intelligence scales: Content and psychometrics.
(Stanford-Binet Intelligence Scales, Fifth Edition Assessment Service Bulletin No. 1).
Itasca, IL: Riverside Pub.
Binet, A. (1886). La psychologie du raisonnement: recherches exp¯rimentales par l’hypnotisme.
Paris, F. Alcan. (Traducida al inglés como The psychology of reasoning. Chicago, IL, Open
Court, 1896).
— (1887). On double consciousness: Experimental psychological studies (2007) Kessinger Pub.
— (1903). L’etude exp¯rimentale de l’Intelligence. Paris. Schleicher.
Binet, A. & F¯r¯, C. (1887). Le magn¯tisme animal. Paris: Felix Alcan.
Binet, A. & Henri, V. (1895). La psychologie individuelle. L’ann¯e Psychologique, 2, 411-463.
Binet, A. & Simon, T. H. (1905). Application de m¯thodes nouvelles au diagnostic du niveau intellectuel chez les enfants anormaux d’hospice et d’¯cole primaire. L’ann¯e Psychologique, 11,
191-244.
— (1908). Le d¯veloppement de l’intelligence chez l’enfant. L’ann¯e Psychologique, 14, 1-94.
(Traducida por E. S. Kite al inglés como The development of intelligence in children. 1916.
Vineland, NJ.: Publications of the Training School at Vineland).
— (1911). La mesure du d¯veloppment de l’intelligence chez les jeunes enfants. Paris: A. Coneslant.
Birnbaum, A. (1968). Some latent trait models and their use in inferring a examinee’s ability. En
F. M. Lord & M. Novick. Statistical theories of mental test scores (págs. 395-479). Menlo
Park, CA: Addison Wesley Pub.
— (1969). Statistical theory for logistic mental test models with a prior distribution of ability. Journal
of Mathematical Psychology, 6, 258-276.
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two
or more nominal categories. Psychometrika, 37, 29-51.
Bock, R. D. & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters:
an application of an EM algorithm. Psychometrika, 46, 443-459.
Bookstein, A. (1996). Informetric distributions. III. Ambiguity and randomness. Journal of the
American Society for Information Science, 48, 2-10.
Bibliografía
433
Borsboom, D., Mellenbergh, G. J. & Van Heerden, J. (2004). The concept of validity. Psychological Review, 111, 1061-1071.
Brennan, R. L. (2001). Generalizability theory (2ª ed.). New York: Springer-Verlag.
Bridgman, P. W. (1922). Dimensional Analysis. New Haven: Yale University Press.
Bryant, F. B. & Yarnold, P. R. (1995). Principal-components analysis and exploratory and confirmatory factor analysis. En L. G. Grimm & P. R. Yarnold, Reading and understanding multivariate analysis. (Capítulo 4). American Psychological Association Books.
Burt, C. (1955). Test reliability estimated by analysis of variance. British Journal of Statistical
Psychology, 8, 103-118.
Buss, A. H. & Durkee, A. (1957). An inventory for assessing different kinds of hostility. Journal
of Consulting Psychology, 21, 343-348.
Buss, A. H. & Perry, M. (1992). The aggression questionnaire. Journal of Personality and
Social Psychology, 63, 452-459.
Camilli, G. & Shepard, L. (1994). Methods for identifying biased test items (Measurement methods
for the social science. Series 4). Thousand Oaks: Sage.
Campbell, N. R. (1920/1957). Physics: The elements. London: Cambridge University Press.
(Reimpreso en 1957 como Foundations of Science. New York: Dover)
— (1928). An account of the principles of measurement and calculation. London: Logmans
Green.
Campbell, D. T. (1957). Factors relevants to the validity of experiments in social settings. Psychological Bulletin, 54, 297-312.
— (1960). Recommendations for APA test standards regarding construct, trait and discriminant
validity. American Psychologist, 15, 546-553.
Campbell, D. T. & Fiske, D. W. (1959). Convergent and discriminant validation by the multitraitmultimethod matrix. Psychological Bulletin, 56, 81-104.
Campbell, D. T. & Stanley, J. C. (1963). Experimental and quasi-experimental designs for research
and teaching. En N. L. Gage (ed.). Handbook of Research on Teaching. Chicago: Rand
McNally.
Carmines, E. G. & Zeller, R. A. (1979). Reliability and validity assessment. London:
Sage.
Clearly, T. A. & Hilton, T. L. (1968). An investigation of item bias. Educational and Psychological Measurement, 28, 61-75.
Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.
College Board (2006). SAT Reasoning Test. Utilizado el 12/01/2009 de http://www.collegeboard.com/student/testing/sat/about/SATI.html.
434
Principios de Psicometría
Connolly, A. J., Nachtman, W. & Pritchett, E. M. (1971). Key math diagnostic arithmetic test.
Circle Pines, MN.: American Guidance Service.
Coombs, C. H. (1952). A theory of psychological scaling. Engineering Research Bulletin, 34.
Ann Arbor: University of Michigan Press.
Coombs, C. H., Raiffa, H. & Thrall, R. M. (1954). Some views on mathematical models and
measurement theory. Psychological Review, 61, 132-144.
Croker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York. Holt,
Rinehart and Winston.
Cronbach L. J. (1949/1990). Essentials of psychological testing. (5ª ed.). New York. Harper
& Row.
— (1951). Coefficient alpha and the internal structure of tests. Psychometrika 16, 297-334.
— (1971). Test validation. En R. L. Thorndike (ed.). Educational measurement. (2ª ed.).
Washington: American Council of Education.
— (1975). Five decades of public controversy over mental testing. American Psychologist, 30, 1-14.
— (1989). Construct validation after thirty years. En R. L. Linn (ed.). Intelligence: Measurement,
theory and public policy. Urbana, IL.: University of Illinois Press, págs. 147-171.
Cronbach, L. J. & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological
Bulletin, 51, 281-302.
Cronbach, L. J., Rajaratnam, N. & Gleser, G. C. (1963). Theory of generalizability. A liberalization of the reliability theory. British Journal of Mathematical and Statistical Psychology, 16, 137- 173.
Cronbach, L. J. & Gleser, G. C (1965). Psychological tests and personnel decisions (2ª ed.). Champaign: University of Illinois Press.
Cronbach, L. J., Gleser, G. C., Nanda, H. & Rajaratnam, N. (1972). The dependability of
behavioral measurements: Theory of generalizability for scores and profiles. New York: John
Wiley.
Cronbach, L. J. & Shavelson, R. J. (2004). My current thoughts on coefficient alpha and succesor
procedures. Educational and Psychological Measurement, 64, 391-418.
Cureton, E. E. (1950). Validity, reliability and baloney. Educational and Psychological Measurement, 10, 94-96.
Darlington, R. B. (1990). Regression and linear models. New York: McGraw-Hill.
Deville, C. W. & Prometric, S. (1996). An empirical link of content and construct validity evidence. Applied Psychological Measurement, 20, 127-139.
Ding, C. S. & Hershberger, S. C. (2002). Assessing content validity and content equivalence using
structural equation modeling. Structural Equation Modeling, 9, 283-297.
Bibliografía
435
Draper, N. R. & Smith, H. (1981). Applied regression analysis (2ª ed.). New York: John Wiley.
Dressel, P. L. (1940). Some remarks on Kuder Richardson reliability coefficient. Psychometrika
5, 305-310.
Droste, M. (1987). Ordinal scales in the theory of measurement. Journal of Mathematical Psychology, 31, 60-82.
Ellis, B. (1968). Basic concepts of measurement. Cambridge: Cambridge University Press.
Embretson, S. E. (1983). Construct validity. Construct representation versus nomothetic span. Psychological Bulletin, 93, 179-197.
Embretson, S. E. & Reise, S. P. (2000). Item response theory for psychologists. Mahwah, N.J.:
Lawrence Erlbaum.
ETS, 2008. Página WEB del Educational Testing Service. Escriba CAT en http://search.ets.org.
Utilizada el 12/01/2009.
Fan, X. & Thompson, B. (2001). Confidence intervals for effect sizes. Confidence intervals about
score reliability coefficient, please: An EPM guideline editorial. Educational and Psychological Measurement, 61, 517-531.
Fechner, G. T. (1860). Elemente der psychophysik. Leipzig: Breitkopf und Hartel. Traducción inglesa por H. E. Adler. Elements of psychophysics. (1966). New York: Holt, Rinehart & Winston.
Feldt, L. S. (1990). The sampling theory for the intraclass reliability coefficient. Applied Measurement in Education, 3, 361-367.
Feldt, L. S., Woodruff, D. J. & Salih, F. A. (1987). Statistical Inference for coefficient alpha.
Applied Psychological Measurement, 11, 93-103.
Feldt, L. S. & Brennan, R. L. (1989). Reliability. En R.L. Linn (ed.). Educational measurement (3ª ed., págs. 105-146). Washington, DC: American Council on Education.
Ferguson, G. A. (1942). Item selection by the constant process. Psychometrika, 7, 19-29.
Fischer, G. H. & Molenaar, I. W. (1995). Rasch Models. Foundations, Recent Developments, and
Applications. New York: Springer-Verlag.
Fishburn, P. C. (1964). Decision and value theory. New York: John Wiley.
— (1970). Utility theory for decision making. New York: John Wiley.
Gleser, G. C., Cronbach, L. J. & Rajaratnam, N. (1965). Generalizability of scores influenced
by multiple source of variance. Psychometrika, 30, 395-418.
Gorsuch, R. L. (1983). Factor analysis (2ª ed.). Hillsdale, NJ: Lawrence Erlbaum. Orig ed.
1974.
Guilford, J. P. (1946). New standards for test evaluation. Educational and Psychological Measurement, 6, 427-439.
436
Principios de Psicometría
Gulliksen, H. (1936). The content reliability of a test. Psychometrika, 1, 189-194.
— (1950a). Theory of Mental Tests. New York: John Wiley (reeditado en 1987).
— (1950b). Intrinsic validity. American Psychologist, 5, 511-517.
Guttman, L. (1941). The quantification of a class attributes: A theory and method of scale construction. En P. Horst, P. Wallin, L. Guttman, F. B. Wallin, J. A. Clausen, R. Reed &
E. Rosenthal (eds.). The prediction of personal adjustment (págs. 319-348). New York:
Social Science Research Council.
— (1945). A basis for analyzing testretest reliability. Psychometrika, 10, 255-282.
— (1953). A special review of Harold Gulliksen’s theory of mental test. Psychometrika.
123-130.
Hambleton, R. K. & Swaminathan, H. (1985). Item response theory. Principles and applications.
Boston, MA: Kluwer-Nijhoff.
Harris, J. A. (1997). A further evaluation of the aggression questionnaire: Issues of validity and reliability. Behaviour Research and Therapy, 35, 1047-1053.
Heise, D. R. & Bohrnstedt, (1970). Validity, invalidity and reliability. En E. F. Borgatta &
G.W Bohrnstedt (eds.). Sociological methodology. San Francisco: Jossey Bass (págs. 104129).
Hempel, C. G. (1952). Fundamentals of concept formation in empirical science. International
Encyclopedia of Unified Science, Vol. II. Chicago: University Chicago Press.
Hill, R. W., Huelsman, T. J., Furr, R. M., Kibler, J., Vicente, B. B. & Kennedy, C. (2004).
A new measure of perfectionism: The perfectionism inventory (PI). Journal of Personality
Assessment, 82, 80-91.
Hocking, R. R. (1976). The analysis and selection of variables in linear regression. Biometrics,
32, 1-49.
Hölder, O. (1901). Die axiome der quantität und die lehre von mass. Berichte über die Verhandlugen der Königlich Säclisischen Gesellschaft der Wissenschaften zu Leipzig.
Mathematische-Physiscke Klasse, 53, 1-64.
Holland, W. P. & Thayer, D. T. (1988). Differential item performance and the Mantel-Haenszel
procedure. En H. Wainer & H.I. Braun (eds.). Test validity. Hillsdale, NJ.: Lawrence Erlbaum.
Howard, L. W. (1999). Validity evidence for measures of procedural/distributive justice and pay/benefit satisfaction. Journal of Business and Psychology, 14, 135-147.
Howell, D. C. (2002). Statistical methods for Psychology (5ª ed.) Belmont, CA: Duxbury
Press.
Hoyt, C. (1941). Test reliability estimated by analysis of variance. Psychometrika 6, 153-160.
Bibliografía
437
Hsu, L. M. (2004). Biases of success rate differences shown in binomial effect size displays. Psychological Methods, 9, 183-197.
Hull, C. L. (1928). Aptitude Testing. L.W. Terman (ed.). Yonkers-on-Hudson, N.Y: World
Book Co.
Jackson, R. W. & Ferguson, G. A. (1941). Studies on the reliability of test. Bulletin No. 12.
Department of Educational Research. University of Toronto.
Jarjoura, D. & Brennan, R. L. (1982). A variance components model for measurement procedures
associated with a table of specifications. Applied Psychological Measurement, 6, 161-171.
Jensema, C. J. (1976). A simple technique for estimating latent trait mental test parameters. Educational and Psychological Measurement, 36, 705-715.
Knott, M. & Bartholomew, D. J. (1999). Latent variable models and factor analysis (2ª ed.).
London: Edward Arnold.
Kolmogorov, A. N. (1950). Foundations of the theory of probability. New York: Chelsea Publishing.
Koslow, A. (1981). Quality and quantity: Some aspects of measurement. En Proceedings of the
Philosophy of Science Association, PSA, 1, 183-198.
Kranz, D. H., Luce, R. D., Suppes, P. & Tversky, A. (1971). Foundations of measurement.
Vol 1. New York: Academic Press.
Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160.
Kuhn, T. S. (1961). The function of measurement in modern Physical Science. Isis, 52, 161-193.
— (1962). The structure of scientific revolutions. Chicago: University Chicago Press.
Kyburg, H. E. (1984). Theory and measurement. Cambridge studies in phylosophy. London: Cambridge University Press.
Lawley, D. N. (1943). On problems connected with item selection and test construction. Proceeding
of the Royal Society of Edinburgh, 61, 273-287.
— (1944). The factorial analysis of multiple item tests. Proceedings of the Royal Society of
Edinburgh, 62A, 74-82.
Lawley, D. N. & Maxwell, A. E. (1971). Factor analysis as a statistical method. London: Butterworth & Co.
Lazarsfeld, P. F. (1950). The logical and mathematical foundation of latent structure analysis. En
S. A. Stoufer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star & J. A. Clausen
(eds.). Measurement and Prediction: Studies in Social Psychology in World War II, Vol. 4.
Princeton: Princeton University Press.
Levy, P. (1937). Théorie de l’addition des variables aléatoires (2ª ed. 1954). Paris: Gauthier-Villars.
438
Principios de Psicometría
Linn, R. L. & Harnish, D. L. (1981). Interactions between item content and groups membership on
achievment test items. Journal of Educational Measurement, 18, 109-118.
Loevinger, J. (1957). Objetive tests as instruments of psychological theory. Psychological Reports,
3, 635-694 (Monograph supplement 9).
Lord, F. M. (1952). A theory of test scores. Psychometric Monographs, 7.
— (1953a). The relation of test score to the trait underlying the test. Educational and Psychological Measurement, 13, 517-548.
— (1953b). An application of confidence intervals of maximum likelihood to the estimation of an
examinee’s ability. Psychometrika, 18, 57-76.
— (1963). Elementary models for measuring chance. In Harris, C. W. (ed.). Problems in measuring change (págs. 21-38). Madison: University of Wisconsin Press.
— (1965). A strong true-score theory, with applications. Psychometrika, 30, 239-270.
— (1968). An analysis of the verbal scholastic aptitude test using Birbaum’s three-parameter logistic model. Educational and Psychological Measurement, 28, 989-1020.
— (1975a). The ‘ability’ scale in item characteristic curve theory. Psychometrika, 40, 205-217.
— (1975b). Evaluation with artificial data of a procedure for estimating ability and item characteristic curve parameters. Research Bulletin, 75-133. Princeton, NJ: Educational Testing
Service.
— (1980). Applications of item response theory to practical testing problems. Hillsdale, New Jersey:
Lawwrence Erlbaum Associates.
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Menlo Park, CA:
AddisonWesley Publishing Company.
Loveland, E. H. (1952). Measurement of factors affecting test-retest reliability. Ph. D. Thesis.
University of Tennessee.
Luce, R. D. & Raiffa, H. (1957). Games and decisions. New York: John Wiley.
Luce, R. D. & Tukey, J. W. (1964). Simultaneous conjoint measurement: A new type of fundamental
measurement. Journal of Mathematical Psychology, 1, 1-27.
Lumsden, J. (1961). The construction of unidimensional tests. Psychological Bulletin, 58,
122-131.
Mach, E. (1960). The science of mechanics. La Salle: Open Court.
Mantel, N. & Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospective
studies of disease. Journal of National Cancer Institute, 22, 719-748.
Meliá, J. L. & Santisteban, C. (2009). Métodos de estimación en los modelos TRI. En prensa.
Mellenbergh, G. J. (1982). Contingency table models for assessing item bias. Journal of Educational Statistics, 7, 107-118.
Bibliografía
439
Messick, S. M. (1989/1993). Validity. En R. L. Linn (ed.). Educational measurement. 3ª ed.
New Yotk. MacMillan. págs. 13-103.
— (1995). Standards of validity and the validity of standards in performance assessment. Educational Measurement: Issues and Practice, 14, 5-8.
Michell, J. (1986). Measurement scales and statistics: A class of paradigms. Psychological Bulletin, 100, 398-407.
— (1990). An introduction to the logic of psychological measurement. Hillsdale: Erlbaum.
Michell, J. & Ernst, C. (1996). The axioms of quantity and the theory of measurement: translated from Part I of Otto Hölder’s German text “Die Axiome der Quantität und die Lehre vom
Mass”. Journal of Mathematical Psychology, 40, 235-252.
Mulaik, S. A. (1972). The foundation of factor analysis. New York. McGrawHill.
NCSBN, 2008. Página WEB del National Council of State Boards of Nursing. Escriba CAT
en la caja search de https://www.ncsbn.org y presione GO. Utilizado el 12/01/2009.
Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods. 5, 343-355.
Owen, R. A. (1975). Bayesian sequential procedure for quantal response in the context of adaptative mental testing. Journal of the American Statistical Association, 70, 351-356.
Pardo, A. & San Martín, R. (1994). Análisis de datos en psicología II. (2ª ed.: 1998) Madrid:
Pirámide.
Patton, J. H., Stanford, M. S. & Barratt, E. S. (1995). Factor structure of the Barratt impulsiveness scale. Journal of Clinical Psychology, 51, 768-774.
Payne, S. C., Youngcourt, S. S. & Beaubien, J. M. (2007). A meta-analytic examination of the
goal orientation nomological net. Journal of Applied Psychology, 92, 128-150.
Penfield, R. D. & Lam, T. C. M. (2000). Assessing differential item functioning in performance assessment: Review and recommendations. Educational Measurement: Issues and Practice, 19, 5-15.
Pfanzagl, J. (1968). Theory of measurement. New York: Wiley.
Popham, W. J. (1978). Criterion-referenced measurement. Englewood Cliffs. NJ: Prentice Hall.
— (1984). Specifying the domain of content of behaviour. En: R. A. Berk (ed.), A guide to
criterion-referenced test construction. Baltimore: Johns Hopkins University Press.
Raju, N. S. (1977). A generalization of coefficient alpha. Psychometrika, 42, 549-565.
Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Copenhagen,
Danish Institute for Educational Research. Chicago: MESA Press.
Recio, P., Santisteban, C. & Alvarado, J. M. (2004). Estructura factorial de una adaptación
española del test de impulsividad de Barratt. Revista de Metodología de las Ciencias del
Comportamiento, Suplemento 2004, 517-521.
440
Principios de Psicometría
Reckase, M. D. (1979). Unifactor latent trait models applied to multifactor tests: results and implications. Journal of Educational Statistics, 4, 207-230.
Rentz, R. R. & Bashaw, W. L. (1977). The national reference scale for reading: An application of
the Rasch model. Journal of Educational Measurement, 14, 161-179.
Richardson, M. W. (1936). The relationship between the difficulty and the differential validity of a
test. Psychometrika, 1, 33-49.
Richardson, M. W. & Kuder, G. F. (1939). The calculation of test reliability coefficients based on
the method of rational equivalence. Journal of Educational Psychology, 30, 681-687.
Rosenthal, R. (1990). How are we doing in soft Psychology? American Psychologist, 45, 775777.
Rosenthal, R. & Rubin, D. B. (1979). Comparing significance levels of independent studies. Psychological Bulletin. 86, 1165-1168.
— (1982). A simple, general purpose display of magnitude of experimental effect. Journal of Educational Psychology, 74, 166-169.
Rosenthal, R. & Rosnow, R. L. (2008). Essentials of behavioral research: Methods and data
analysis (3ª ed.). New York: McGraw-Hill.
Roskam , E. E. & Jansen, P. G. (1984). A new derivation of the Rasch model. En E. Degreef
& V. Buggenhaut (eds.). Trends in mathematical psychology (págs. 293-307). Ámsterdam:
North Holland.
Rudner, L. M., Getson, P. R. & Knight, D. L. (1980). Biased item detection techniques. Journal of Educational Statistics, 5, 213-233.
Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by splithalves. Harvard Educational Review, 9, 99-103.
— (1946). On the validity of educational tests. Harvard Educational Review, 16, 290-296.
Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores. Psychometric Monograph, No. 17.
— (1972). A general model for freeresponse data. Psychometric Monograph, No. 18.
— (1973). Homogeneous case of the continuous response model. Psychometrika, 38, 203219.
— (1974). Normal ogive model on the continuous response model in the multidimensional latent space.
Psychometrika, 39, 111-121.
— (1977). A method of estimating item characteristic functions using the maximum likelihood estiamte of ability. Psychometrika, 42, 163-191.
Santisteban, C. (1984). Los modelos del rasgo latente en la teoría de los tests. Madrid: Publicaciones DMCC.
— (1990a). Psicometría: Teoría y práctica en la construcción de tests. Madrid: Ediciones Norma.
Bibliografía
441
— (1990b). SENSIT-NN. Madrid: Ediciones Norma.
— (1999). Métodos epidemiológicos en Psicología de la salud, págs. 328-331. En: Manual de
Psicología de la Salud: Fundamentos, Metodología y Aplicaciones. M. A. Simón (ed.). Madrid:
Biblioteca Nueva.
— (2003). Los métodos y el progreso de la ciencia. Madrid: Ediciones UNED.
Santisteban, C. & Alvarado, J. M. (2001). Modelos Psicométricos. Madrid: Ediciones UNED.
Santisteban, C., Alvarado, J. M. & Recio, P. (2007). Evaluation of the Spanish version of the
Buss and Perry aggression questionnaire: Some personal and situational factors related to the
aggression scores of young subjects. Personality and Individual Differences, 42, 14531465.
Santisteban, C. & Alvarado, J. M. (2009). The aggression questionnaire for Spanish preadolescents
and adolescents. The Spanish Journal of Psychology, en prensa.
Scheuneman, J. A. (1979). A method of assessing bias in test items. Journal of Educational
Measurement, 16, 143-152.
Schmidt, F. L. (1977). The Urry method approximating the item parameters of latent trait theory.
Educational and Psychological Measurement, 37, 613-620.
Scott, D. & Suppes, P. (1958). Foundational aspects of theories of measurement. Journal of Symbolic Logic, 23, 113-128.
Shavelson, R. J. & Webb, N. M. (1991). Generalizability theory: A primer. Newbury Park,
CA: Sage.
Shavelson, R. J., Gao, X. & Baxter, G. P. (1995). On the content validity of performance assessments: Centrality of domain specification. En M. Birenbaum & F. Douchy (eds.). Alternatives in assessment of achievements, learning processes and prior knowledge. Boston: Kluwer
Academic Publishers, págs. 131-141.
Sireci, S. G. & Geisinger, K. F. (1992). Analyzing test content using cluster analysis and multidimensional scaling. Applied Psychological Measurement, 16, 17-31.
— (1995). Using subject matter experts to assess content representation: An MDS analysis. Applied
Psychological Measurement, 19, 241-255.
Spearman, C. (1904a). The proof and measurement of association between two things. American
Journal of Psychology, 15, 72-101.
— (1904b). General Intelligence objectively determined and measured. American Journal of
Psychology, 15, 201-293.
Spencer, S. J., Steele, C. M. & Quinn, D. M. (1999). Stereotype threat and women’s math performance. Journal of Experimental and Social Psychology, 35, 4-28.
Stanley, J. C. (1971). Reliability. En R. L. Thorndike (ed.). Educational Measurement (2ª edición), págs. 356-442. Washington D. C., American Council Education.
442
Principios de Psicometría
Stegelmann, W. (1983). Expanding the Rasch model to a general model having more than one dimension. Psychometrika, 48, 259-267.
Stern, W. (1912). The psychological methods of intelligence testing. Baltimore: Warwick and York.
Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103, 677-680.
— (1951). Mathematics, measurement, and psychophysics. En S. S. Stevens (ed.), Handbook of
experimental psychology (págs. 1-49). New York: Wiley.
Suppes, P. & Zinnes, J. L. (1963). Basic measurement theory. En R. D. Luce, R. R. Bush &
E. Galanter (eds.), Handbook of mathematical psychology, vol I. (págs. 3-76). New York:
Wiley.
Swaninathan, H. & Gifford, J. A. (1982). Bayesian estimation in the Rasch model. Journal of
Educational Statistics. 7, 175-191.
Swaminathan, H. & Rogers, H. J. (1990). Detecting differential item functioning using logistic
regression procedures. Journal of Educational measurement 27, 361-370.
Taylor, H. C. & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection. Discussion and tables. Journal of Applied Psychology, 23, 565-578.
Terman, L. M. (1916). The measurement of intelligence: An explanation of and a complete guide
for the use of the Stanford revision and extension of the Binet-Simon Intelligence Scale. Boston:
Houghton Mifflin.
Terman, L. M. & Merrill, M. A. (1937). Measuring intelligence: A guide to the administration of
the new revised Stanford-Binet tests of intelligence. Boston: Houghton Mifflin.
— (1973). Stanford-Binet intelligence scale: Manual for the third revision form L-M (1972 norm
tables by R. L. Thorndike). Boston: Houghton Mifflin.
Thissen, D., Steinberg, L. & Wainer, H. (1993). Detection of differential item functioning using
the parameters of item response models. En P. W. Holland & H. Wainer (eds.). Differential
item functioning (págs. 67-113). Hillsdale, NJ: Lawrence Erlbaum Associates.
Thompson, B. (2004). Exploratory and confirmatory factor analysis: Understanding concepts and
applications. Washington, DC: American Psychological Association.
Thorndike, R. L. (1947). Research problems and techniques. (Report nº 3 AAF Aviation Psychology Program Research Reports). Washington, D. C.: U.S. Government Printing
Office.
Thorndike, R. M. (2005). Measurement and evaluation in psychology and education (7a ed.) Upper
Saddle River, NJ: Pearson Education.
Thurstone, L. L. (1925). A method of scaling psychological and educational tests. Journal of Educational Psychology. 16, 433-451.
— (1927). The unit of measurement in educational scales. Journal of Educational Psychology. 18, 505-524.
Bibliografía
443
— (1928). The absolute zero in the measurement of intelligence. Psychological Review, 35, 175197.
Torgerson, W. S. (1958). Theory and methods of scaling. New York: Wiley.
Tucker, L. R. (1946). Maximum validity of a test with equivalent items. Psychometrika, 11,
1-13.
— (1961). Factor analysis of relevant judgments: An approach to content validity. Presentado en
Invitational Conference on testing problems, Princeton, NJ. Reimpreso en A. Anastasi.
(1966). Testing Problems in Perspective (págs. 577-586). Washington, D. C.: American
Council on Education.
Urry, V. W. (1974). Approximations to item parameters of mental test models and their uses. Educational and Psychological Measurement, 34, 253-269.
Van der Linden, W. J. & Hambleton, R. K. (1997). Handbook of modern item response theory. New York: Springer-Verlag.
Vance, R. J. & Colella, A. (1990). The utility of utility análisis. Human Performance, 3, 123-139.
Von Davier, M. & Carstensen, C. H. (2007). Multivariate and mixture distribution Rasch models: Extensions and applications. New York: Springer Science.
Von Helmholtz (1887/1977). Zählen und Messen erkenntnistheortisch betrachtet. Philosophische Aufsätze Eduard Zeller zu seinem fünfzigjährigen Doktorjubiläum gewidmet,
Fues’ Verlag, Leipzig (Traducción inglesa por M. F. Lowe). Numbering and measuring
from an epistemological viewpoint. En R. S. Cohen and Y. Elkana (eds.). Hermann von
Helmholtz epistemological writings. Dordrecht: Reidel.
Von Neumann, J. & Morgenstern, O. (1944). Theory of games and economic behaviour. Princeton: Princeton University Press.
Wechsler, D. (1939). The measurement of adult intelligence. Baltimore: Williams & Wilkins.
— (1997). WAIS-III Administration and scoring manual. The Psychological Corporation,
San Antonio, TX.
— (2003). Wechsler Intelligence Scale for Children–4th Edition (WISC-IV® ). San Antonio,
TX: Harcourt Assessment.
Westen, D. & Rosenthal, R. (2003). Quantifying construct validity: Two simple measures. Journal of Personality and Social Psychology, 84, 608-618.
Whitely, S. E. (1980). Multicomponent latent trait models for ability tests. Psychometrika, 45,
479-494.
Widaman, K. E. (1985). Hierarchically nested covariance structure models for multitrait-multimethod data. Applied Psychological Measurement, 9, 1-26.
Wiggins, J. S. (1988). Personality and prediction: Principles of personality assessment. Malabar,
FL: S. A. Krieger Pub (primera edición en 1973 en Reading, Ma: Addison-Wesley).
444
Principios de Psicometría
Winer, B. J. (1971). Statistical principles in experimental design. New York: MacGraw-Hill.
Winer, B. J., Brown, D. R. & Michels, K. M. (1991). Statistical principles in experimental design.
New York: MacGraw-Hill.
Wood, R. L., Wingersky, M. S. & Lord, F. M. (1976). LOGIST: A computer program for estimating examinee ability and item characteristic curve parameters. Research Memorandum 766. Princeton, N.J.: Educational Testing Service.
Wittmann, M., Arce, E. & Santisteban, C. (2008). How impulsiveness, trait anger, and extracurricular activities might affect aggresion in school children. Personality and Individual Differences, 45, 618-623.
Woodcock, R. W. (1974). Woodcock reading mastery test. Circle Pine: Minn. American Guidance Service.
— (1978). Development and standarization of the Woodcock-Johnson Psycho-Educational Battery.
Itasca, IL: Riverside.
— (1999). What can Rasch-based model scores convey about a person test performace? En S. E.
Embretson & S. L. Hershberger (ed.) The new rules of measurement (págs. 105-127).
Mahwah, NJ: Lawrence Erlbaum Associates.
Woodruff, D. J. & Feldt, L. S. (1986). Tests for equality of several alpha coefficients when their
sample estimates are dependent. Psychometrika, 51, 393-413.
Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of the Educational Measurement, 14, 97-116.
— (1999). Fundamental measurement for psychology. En S. E. Embretson & S. L. Hershberger
(ed.) The new rules of measurement (págs. 65-104). Mahwah, NJ: Lawrence Erlbaum
Associates.
Wright, B. D. & Panchapakesan, N. (1969). A procedure for sample free item analysis. Educational and Psychological Measurement, 29, 23-48.
Wright, B. D., Mead, R. J. & Draba, R. (1976). Detecting and correcting item bias with a logistic
response model. Research memorandum 22, Chicago: University Chicago, Statistic Laboratory.
Wright, B. D. & Stone, M. H. (1979). Best test design. Chicago: Mesa Press.
Índice de contenidos
Aditividad conjunta, 417
Agresividad (véase Cuestionarios)
Análisis
de la Varianza (ANOVA), 139, 145, 187,
189-190, 192, 195
efectos principales, 186, 190, 192, 193,
205
diferencial de los ítems (véase DIF)
Factorial (AF)
confirmatorio, 261, 263, 298
comunalidad, 141, 142
exploratorio, 261, 262, 298-299
valores propios, 141, 143, 145
Aptitud (véase Rasgo)
Atenuación corrección (véase Corrección por
atenuación)
BESD (Binomial Effect Size Display), 276-279
CI (Cociente de Inteligencia), 24, 419
Ciencia/s
de la salud, 270
estadística, 26, 416
filosofía de la, 406, 416
físicas, 402-403
normal, 406
psicométrica, 186
sociales, 45, 402
Clasificaciones centílicas
cuartílica, 420
decílica, 420
percentílica, 420-421, 423-424
por la mediana, 420
Coeficiente
alfa (α), 122-136, 145, 176-179
beta (β), 136-138
de alienación, 241-243
de correlación lineal, 26, 58, 62, 67-68, 72,
231, 239-240, 247, 258
de determinación, 79, 240-241, 243
de fiabilidad, 78-95, 100, 115, 117, 123125, 144-149, 173-174, 176
de generalizabilidad (véase Generalizabilidad)
de validez, 231-241, 243, 244, 256-259,
277-284, 289
de valor predictivo, 242-243
kappa (κ), 285-286
omega (Ω), 141-143
theta (θ), 143-144
Componentes de la varianza, 187-189, 190-195,
202-205
Construcción de tests (véase Tests)
Contrastes de hipótesis
de coeficientes alfa, 176-179
de coeficientes de correlación, 174
de igualdad de medias, 65, 69, 70, 164-173
de igualdad de varianzas, 71
Corrección
por atenuación, 233-234, 236
por continuidad, 387
446
Principios de Psicometría
Correlación/ones
coeficiente, 30, 58-59, 78-84, 173-177, 212,
219-220, 231-234, 239, 250-251, 276281
entre medidas paralelas, 61-64, 67, 173, 232
entre puntuación observada y error, 59, 64
desatenuadas, 234-235
Cota inferior de la fiabilidad (véase Fiabilidad)
Cualitativo, concepto de, 402, 404
Cuantitativo/cuantificar, 20, 26, 30, 46, 402405, 416
Cuestionarios
de agresividad, 220, 223, 254-255, 261-263
de impulsividad, 220, 254-255
de sensibilidad al ruido, 220
Curva
característica del test, 308, 311
CCI (Característica del Ítem) (véase también Modelos), 297, 306-310, 317,
319-325, 334-336, 339, 344
de eficiencia, 370, 372-374
de información, 361-367, 371, 373
iosr (Item-Observed Score Regression),
309-310
ROC (Receiver Operating Characteristic
Curves), 273-276
Decisión/ones
absolutas, 196-198, 200-203
estudios de, 27, 267-269, 273, 276-290
relativas, 196-203
DIF (Funcionamiento Diferencial de los Ítems)
método de Mantel-Haenszel, 382, 384-389,
392, 398
métodos de clase latente, 382
no uniforme, 382-384, 395-396
uniforme, 382-384, 392, 395-396
Diferencias
de medias (véase Contrastes)
individuales, 20, 22, 24, 25, 26, 28, 36, 39,
148, 185-187, 195-196, 214
Dimensiones/dimensionalidad, 44, 103-104,
141-143, 145, 261-262, 297-299, 341, 423
Diseño/s
anidados, 188, 204-205
cruzados, 188, 190-191, 193-195, 204-205
de dos facetas, 185, 193-195, 201-202, 204205
de una faceta, 188-193, 198-201
mixtos, 188
Distribución/ones de probabilidad
asimétrica, 33-34
bimodal, 34-35
binomial, 42, 45, 340
condicionales, 45, 346-347
logísticas (véase también Modelos logísticos)
marginales, 300
normal, 32-33, 38, 42, 70-71, 159-162, 165166, 171, 175, 316-320, 327, 357, 421422
normal acumulada (véase también Modelos ojiva normal)
Poisson, 42, 316, 340, 417
uniforme, 32
División del test en dos partes, 85-90
Eficiencia
función de, 370
relativa, 368, 369-374
Elemento, 23, 42, 90-92, 103-105, 108, 110116, 119, 123-124, 126, 130-131, 136-137,
146-147, 230, 236, 238-239, 244, 405-407,
411, 413
Equidad (véase Sesgo)
Equiparación de puntuaciones, 423-425
Error/es
aleatorios, 40, 60, 378
de predicción, 156, 158-159, 243
de medida, 40, 148, 156-157, 159-161, 164,
170, 223, 233, 239, 245, 250, 348, 355356, 367-368
de estimación, 156, 157-159, 241, 243, 249
relación entre, 156, 159
sistemáticos, 259
Escala
admisible, 407
Índice de contenidos
Binet-Simon, 25
centíl/centílica, 38, 419-420
continua, 340
de actitudes, 340
de aptitud/del rasgo, 39, 310-312, 360,
373-374, 403, 426-427
de Coombs, 412, 414
de estímulos, 20-21, 414
de Guttman, 27, 414
de intervalo, 187, 312, 407, 411-415
de intervalos absolutos, 415
de intervalos logarítmicos, 415
de Likert, 262, 276
de proporciones logarítmicas, 415
de puntuaciones, 21, 24, 37, 155, 171, 417429
de puntuaciones normalizadas, 38, 421422
de razón, 411-415
de Stevens, 27, 411-412
de Thurstone, 26, 414
de Torgerson, 412
derivada, 411-419, 422, 426
estandarizada/s, 37-38, 419
logarítmica, 326, 426-427
nominal, 411-412
ordenada, 411-412
ordinal, 45, 407, 411-413, 415
parcialmente ordenada, 412
real-valuada, 404
transformada/transformaciones de, 395,
403, 408, 413, 414, 415
Esperanza matemática, 29, 54, 56-57, 61, 106,
348, 390
Estabilidad
de las puntuaciones, 78, 83-84
en la medida del constructo, 258, 262
Estadística, 34, 54, 66, 164, 167-168, 174, 180,
189, 205, 299, 341-342, 347, 357, 416
Estadístico, 29, 31, 41, 60, 66, 69-71, 87, 165179, 244, 249, 341, 342, 349, 379, 387, 389,
392, 397
447
Estimación, métodos de
bayesiana, 348-349
condicionales/no condicionales, 346-349
conjunta, 342, 346-347, 349
marginal, 342, 347
de máxima verosimilitud, 342-345, 347349, 357, 358, 396
Estimador/es,
de máxima verosimilitud (máximo verosímil), 343, 347-348, 357-358, 396
propiedades de los, 347, 396
Estímulo físico, 20
Estructura tetrafactorial, 223
Estudios
D (de decisión), 184-188, 196-204
G (de generalización), 184-196
multifaceta, 201, 205
Faceta
fija, 188
aleatoria, 188, 199
Factor/es
ambientales, 22
de agresividad, 192, 195, 223, 261-263
de contexto, 22
de escalamiento, 327
de inteligencia (g y s), 26
de personalidad, 41
o dimensiones, 103, 141-142, 145, 257,
261-262, 297-298
rotación de, 143, 262
Fiabilidad, 122-149, 184-187, 199, 232-236
coeficiente (véase Coeficiente de fiabilidad)
concepto de, 58, 76-83
cota inferior, 123, 125-130, 145-146
consistencia interna (véase Coeficiente alfa)
y longitud, 103-118, 147-148
y variabilidad, 66, 71, 100-102, 116
Flanagan y Guttman, ecuación de, 90, 94-95,
130
fMRI (Imagen Funcional por Resonancia Magnética), 21
Formas paralelas, 63, 84-85, 105-107
448
Principios de Psicometría
Fracción de
falsos negativos/positivos, 269, 271-276,
287-290
verdaderos negativos/positivos, 268, 271274, 289-290
Función
característica del ítem binario, 302
característica del test, 308, 309, 311
de información del ítem, 353-357, 359,
367, 373, 374
de información del test, 353-354, 357-366,
371, 373, 375-376
de respuesta
para un ítem binario, 302
para un vector de respuesta, 302, 330331, 345
de verosimilitud, 342-349
Funcionamiento diferencial del ítem (véase DIF)
Generalizabilidad, teoría de la, 141, 183-207
Grupo normativo, 39-40, 124, 149, 166, 294295, 417-418, 426
Hipótesis
alternativa, 165, 173-174, 177-178
de nulidad de errores, 54
del modelo de Spearman, 54-59
nula, 69-71, 82, 165, 167, 170, 171, 173178, 251, 386-387, 396
Hoyt, ecuación de, 131-132
Independencia
entre ítems, 41, 300-301, 317
entre sujetos, 300-301
local, 297, 299-301, 304-305, 317, 327, 339
muestral, 417
Índice/s
AGFI (Adjusted Goodness of Fit Index),
264
de asimetría, 33-34
de dificultad, 323-324, 336, 341, 346, 365,
378, 425
de discriminación, 321-322, 324, 327-328,
330-331, 336, 338, 341, 346, 356, 359,
363, 366-367, 379-380
de fiabilidad, 78-80, 81-82, 86-90, 123-125,
129-137, 141-151, 233, 239
GFI (Goodness of Fit Index), 264
RMSEA (Root Mean Square Error of
Approximation), 264
Información
cantidad de, 324, 331, 339, 348, 354, 357,
359, 361, 364
cota superior de la, 358
de Fisher, 348, 357, 364-365, 396
funciones de, 339, 348, 354-367, 371-376
Interpretación de las puntuaciones
referidas a la norma, 418
referidas al criterio, 418
Intervalos de confianza, 159-164, 179, 248249, 348
Ítem/s
análisis diferencial de (véase DIF)
bancos de, 296, 367-368
curva característica del (véase Curva característica del ítem)
dicotómicos, 123, 130, 135, 309-310, 316,
327, 330, 339-340, 344, 349, 354, 374,
384
independencia de (véase Independencia)
función de información del (véase Función
de información del ítem)
peso óptimo (véase Ponderaciones de los
ítems/pesos óptimos)
redacción de los, 47, 48, 217
Kuder-Richardson, ecuaciones de, 123, 125,
145
Logits, 326, 329, 333, 337, 390, 426
Matrices, 80, 219, 220, 251, 257-259, 397
Medición
axiomas, 406, 409, 416
conjunta, 411
directa, 210, 409-411
estable, 417
indirecta, 409-411
problemas de la
representación, 403, 406-407
Índice de contenidos
significado, 403, 406, 408-409
unicidad, 403, 407-408
y experimentación, 19-20, 22
Medidas
congenéricas, 65
de
agresividad (véase Cuestionarios)
asimetría (véase Índice de)
correlación, 26, 29-30
covarianza, 29-30
dispersión: desviación típica, varianza, 29, 31-33
impulsividad (véase Cuestionarios)
tendencia central, media, mediana,
moda, 29, 31-33
físicas, 76, 78, 273
paralelas (véase también paralelismo)
correlación entre, 61-64, 67-68, 70-72,
78-81, 87-89, 100, 105-106, 125126, 169, 173
definición de, 60
tau-equivalentes, 64-65, 80
MEG (magnetoencefalografía), 21
Mensurable, 405 (véase también métrico)
Método/s
de estimación (véase Estimación)
de Mantel-Haenszel (véase DIF)
de Westen y Rosenthal, 256
psicofísicos, 20-21
Métrico/a, 45, 311, 317, 337, 368, 402-404,
405, 414, 425
en funciones de información, 372-373, 374
espacios métricos, 404-405
Modelos
de crédito parcial, 44
de error binomial, 42, 340
de Poisson, 42, 211, 340, 417
de Rasch, 43-44, 295, 297, 335-342, 397, 417
de respuesta continua, 340
de respuesta graduada, 44, 339
de respuesta nominal, 339-340
de Spearman, 22, 39-42, 54-61, 92, 153, 233
449
de Variables Latentes (LVM), 44-45
factorial simple, 41
LCM (de clases latentes), 45
lineales/no lineales, 38-45
logísticos, 43-44, 297, 317, 325-336, 338339, 340, 346, 356, 358-367, 397
logístico lineal, 340
LPM (de perfiles latentes), 45
LTM (de rasgo latente), 45
ojiva normal, 42, 297, 316-318, 325, 327,
331, 341, 354
multidimensionales, 44, 297-298, 341
TRI (de la Teoría de la Respuesta al Ítem),
39, 41-44, 211, 294-312, 316-349, 358361, 364-369
Multirrasgo-multimétodo, 257-259
Normas
centiles (véase Escalas)
del test, 21, 38, 47, 49, 213-216, 378, 418,
419, 423
Objetividad específica, 417
Odds ratio, 384-386, 388-391
Origen de la escala, 36, 38, 56-57, 155, 248,
310, 312, 336, 412, 414, 418-419
Paralelismo
condiciones, 60-61, 64, 80-81, 84-86, 88,
106, 107, 108, 117-118, 125-126, 130,
146-147, 149
comprobación, 65, 69, 72
Parámetros, 29, 43-44, 49, 66, 250, 264, 295,
296, 297, 317-320, 323, 325-327, 330-336,
338, 343, 346-349, 356, 358-361, 364-367,
370, 371, 390, 394-397, 417, 423, , 425, 426
PET (Tomografía de Emisión de Positrones), 21
Ponderaciones de los ítems/pesos óptimos,
363-374
Pronóstico mediante
regresión lineal simple, 154-156, 247, 248
lineal múltiple, 250-253
logística, 382, 390
por pasos, 253
450
Principios de Psicometría
regresiones parciales, 252
intervalos de confianza, 159-164, 248-249,
348
batería de predictores, 250-253
Psicofísica, 20, 273, 404, 414
Psicometría
antecedentes/definiciones y desarrollo de
la, 20-27, 402-404
Puntuación/ones
diferenciales, 154-155, 159, 248
directas, 37-38, 154-155, 159-160, 162, 171,
248, 417-418, 422
estandarizadas, 37-38, 419, 422
normalizadas, 38, 421-422
tipificadas, 36-37, 154-155, 160-162, 248,
419, 424
universo, 41, 184-185, 191
verdadera, 42, 54-72, 78, 80, 82, 153-159,
161-164, 185, 198, 211, 232-234, 309311, 423, 425
Rasgo/s
espacio del, 297-298, 317
latente/latencia del, 42, 44-45, 47, 294-295
multidimensional, 44
nivel en el, 36-39, 47, 294, 297, 303, 305,
311-312, 324, 329-334, 337-338, 369,
378, 382-383
unidimensional, 44, 297-299, 306, 327
Razón
de selección, 280-284, 287
de verosimilitudes, 394, 397-398
Red nomológica, 219, 224, 253, 255-256
Regresión (véase Pronóstico mediante)
Relación
predictor y criterio, 232-234, 243, 270
fiabilidad, longitud y varianza, 116-119
Respuesta
abierta, 28
categórica (véase también Likert), 28, 262,
276, 339, 414
cerrada, 28
comparativa, 414
continua, 273-274, 340
dicotómica, 28, 44, 46, 301, 302, 308, 418
formato de, 22, 261, 262, 378
funciones de (véase CCI)
multiple/multicategórica/politómica, 26,
44, 46, 273, 339
patrón de, 303-305, 330, 331, 345
tiempo de, 21, 221
vector de, 302, 303, 330-331, 345
Rulon, ecuación de, 91-95, 130
Selección de variables predictoras, 252-253
Sensibilidad del test, 270-276
Señal/ruido, 20, 192-199, 201, 273
Separabilidad, 417
Sesgo
en la evaluación del constructo, 379, 382
en los ítems, 296, 378-379, 382-389, 394,
396-398
en los tests, 378-379, 392, 394-398
equidad, 225, 378
Sistemas isomorfos, 407
Spearman-Brown, ecuación de, 104-115, 146149
Tablas de Taylor-Russell, 279-284, 287
Tasa base, 269, 273, 279-284, 287
Tasa de aciertos, 269-270, 279
Técnicas de imagen, 21
Teoría
de la generalizabilidad, 184-205
débil de las puntuaciones verdaderas, 185,
340
fuerte de las puntuaciones verdaderas, 340
TCT (Clásica de los Tests), 40, 41, 43, 45-47
TRI (de la Respuesta al Ítem), 42-47, 294305, 315-352 (véase también Modelos)
Test/s
Adaptativos Computarizados (CAT), 368
administración, 48-49, 301, 368, 369, 378,
392
construcción, 21, 23-24, 35-36, 42, 46-48,
67, 85, 90, 110, 213-214, 217, 225,
230-232, 294, 298, 378, 392
Índice de contenidos
compuestos, 22, 23, 80, 104, 107, 118
de Mantel-Haenszel (véase DIF)
de potencia, 28
de Stanford-Binet, 25, 419
de velocidad, 28, 145
eficacia del, 269, 271-272, 369-372
especificidad, 225, 270-276
paralelos, 66, 105, 107, 116, 118, 170
psicológicos, 20, 36, 213, 282, 403
psicométricos, 22, 39, 42, 103, 164, 289
referidos a la norma, 27-28
referidos al criterio, 27-28
sensibilidad (véase Sensibilidad del test)
test-retest, 83-84, 86, 88, 134, 145, 168
Transformación/ones
lineal, 38, 65, 328, 333, 390, 408, 413, 415,
419, 424, 426
admisibles, 38, 312, 326, 328-329, 336, 405,
407-408, 414-415, 418, 425
monótonas, 407, 415, 418
logarítmicas, 426-427
en los parámetros, 328-329, 333, 336, 347
Unidad de medida, 35-38, 155, 312, 414, 419
Unidimensionalidad del rasgo, 297-299
Universo
de generalización, 41, 185
de ítems, 184-188
de observaciones admisibles, 184
Utilidad, análisis de, 284-290
Validez
aparente, 217-218
coeficiente de, 230-231, 235, 256-259, 276284
acotaciones del, 239-240
concurrente, 212, 213, 222, 232
convergente, 218-219, 253-260
de constructo, 213-215, 220, 223-226, 256257, 259-260
451
de contenido, 213-218, 230-231, 236
de criterio, 211-213, 218-219, 246-253, 256,
268-270, 276-279, 282
de la estructura interna, 223, 260-263
definición de, 209-212, 231-232, 243
discriminante, 218-220, 253-260
empírica, 212-214, 233-236
en los procesos de respuesta, 221-222
factorial, 212-213
predictiva, 212-213, 232, 255
tipos, 211-215, 222-223
y fiabilidad, 232-240, 258
y longitud, 236-239
y representación muestral, 243-247
Valor
de corte, 197, 273-275
predictivo, 242-243, 271-273, 279
Valores propios, 143, 145
Variabilidad
atribuible al error, 66-68
de las puntuaciones, 28-34, 66-68, 100-103,
243
Variable latente, 45, 317
Variables métricas, 45
Variaciones de la fiabilidad, 105, 108, 144-147
Varianza
de las puntuaciones observadas y de las
verdaderas, 54-68, 82, 116-118, 153164
de los errores, 57, 59-65, 82, 93, 101-102,
116, 118, 147-148, 156-159, 198, 243
partición de la, 189-190
WAIS, 27, 419
Verosimilitud/es
máxima (véase Estimación de máxima verosimilitud)
razón de, 394, 396-398
WISC, 27, 419
Descargar
Colecciones de estudio