Fiabilidad de test

Anuncio
LA FIABILIDAD DE LOS TEST Y ESCALAS
Recordemos que la validez se refería al significado que podemos atribuir. Es decir, estar seguro de que se
mide lo que se dice medir, pero NO hay que entenderlo como una característica del instrumento. Con una
validez alta podemos garantizar el significado de las puntuaciones de los sujetos.
Por tanto si cambio de muestra puede cambiar mi fiabilidad y mi validez, porque cambio de sujetos. Hay que
intentar que las muestras sean heterogéneas.
CONCEPTOS PRELIMINARES DE FIABILIDAD.
La fiabilidad es una característica de los resultados, de unas puntuaciones obtenidas en una muestra
determinada. Un mismo instrumento puede medir bien a los sujetos de una muestra, con mucha precisión y
mal, con un margen de error grande, a los sujetos de otra muestra.
En principio la fiabilidad expresa el grado de precisión en la medida. Con una fiabilidad alta los sujetos en
ocasiones sucesivas quedaran ordenados de manera semejante. Ej. Si tiene una actitud favorable hacia la
homosexualidad no puede a veces ser desfavorable.
Otro concepto es el de consistencia o predictibilidad. Un test es fiable si sabemos de antemano como va a
contestar un sujeto, y lo sabemos porque lo hemos comprobado en muchas ocasiones.
Errores sistemáticos: son los que siempre ocurren. Ej. A cada sujeto se le dan dos puntos mas Están
relacionados con la validez.
Errores aleatorios: los que ocurren al azar. Relacionados con la fiabilidad.
ENFOQUES DE LA FIABILIDAD.
1. Como formas paralelas.
Son dos versiones del mismo test: los ítems son distintos pero se pretende medir lo mismo. Se espera que un
sujeto saque en ambos test las mismas puntuaciones verdaderas.
La puntuación empírica se divide en la puntuación verdadera y en los errores (modelo lineal de Spearman).
• Condiciones para que sean formas paralelas:
1ª Las puntuación empíricas pueden ser diferentes pero las verdaderas son siempre iguales.
2ª La dispersión de los errores o la varianza error debe ser la misma en ambos test.
• Indicador de equivalencia.
Puede ser un indicador de equivalencia entre los dos test: si la correlación es alta, las dos formas del mismo
test dan resultados parecidos, es decir, ambas son intercambiables. Si la correlación es baja, miden cosas
distintas.
• Confirmación adicional.
1
Una confirmación adicional para ver que son formas paralelas es comprobar si la correlación media Inter −
ítem dentro de cada forma es de magnitud similar y también la correlación de los ítems de una forma con los
de la otra versión.
2. Estabilidad Temporal (Test − Retest)
Los sujetos responden dos veces al mismo test dejando un intervalo de tiempo entre ambas.
Se refiere a que si el test se aplica hoy o dentro de un tiempo, siga siendo valido y fiable, es decir, que se
encuentre una relación entre lo que se obtiene hoy y lo que se obtiene mas adelante.
• Indicador de estabilidad.
Es un indicador de estabilidad o de no ambigüedad en la medida en que en ambas ocasiones los resultados son
parecidos.
3. Consistencia Interna.
Expresa hasta que punto las respuestas son suficientemente coherentes y relacionadas para concluir que todos
los ítems miden lo mismo y son sumables en una puntuación única que representa o mide un rasgo
(recordemos que estamos en la escala tipo Lickert y que para sumar ítems deben medir lo mismo).
Podemos hallarla de dos maneras:
• Procedimiento de las dos mitades: mediante a) la formula de Spearman Brown, b) Flanagan, c) de
Cronbach.
Es habitual dividir el test en ítems pares e impares, pero puede dividirse en dos mitades cualesquiera, teniendo
ambas el mismo numero de ítems.
Si emparejamos los ítems según contenido de manera que cada mitad del test conste de ítems muy parecidos,
obtendremos una estimación más alta de la fiabilidad.
Cuando la mitad de los ítems son positivos y la otra negativos es útil que las dos mitades estén compuestas
una por ítems positivos y otra por los negativos. Una correlación entre los dos subtest en torno a 0,50 o mayor
indica suficiente coherencia entre los dos tipos de ítems y no se manifiesta aquiescencia.
Se parte el test en dos mitades, y para decir que son formas paralelas tienen que tener: a) la misma media, b) la
misma varianza. Y si los correlaciono me dara la fiabilidad de una parte o de otra (son la misma) y con el
coeficiente de Spearman − Brown hallamos la fiabilidad del conjunto.
R12 = correlación entre las dos mitades del test
Esta formula calcula la fiabilidad de todo el test.
Supone que las dos mitades tienen medias y varianzas idénticas, por lo que sobreestima la fiabilidad.
• Procedimiento informativo de cada ítem: cuando parto el test en tantas partes como ítems hay.
Podemos usar el de Cronbach (para ítems continuos) y la Kuder−Richardson (para ítems
dicotómicos).
Son preferibles a los métodos de las dos mitades porque equivalen a la fiabilidad media que obtendríamos
2
dividiendo un test en todas sus posibles dos mitades.
SUPUESTOS DE LA TEORIA CLASICA
1º La media empírica es igual a la media verdadera mas los errores. X = V + E
2º La media de los errores tiene que ser 0, es decir aleatorios.
3º No tiene que haber relación entre la puntuación verdadera y los errores, porque sino serian sistemáticos.
4º La correlación entre los errores de dos test paralelos tiene que ser 0 porque sino serian sistemáticos.
COEFICIENTES DE CONSISTENCIA INTERNA
La varianza de las puntuaciones totales de un test es:
= Varianza total: expresa todo lo que hay de diferente en las puntuaciones totales. La varianza será mayor si
los sujetos difieren mucho entre si y estará asociada a mayor fiabilidad.
= Varianza verdadera: expresa lo que hay de diferente debido a que los sujetos son distintos en lo que
pretendemos medir, es decir, lo que hay de diferente debido a lo que los ítems tienen en común.
= Varianza debida a errores de medición: debida a que los ítems miden en parte cosas distintas. Puede haber
más fuentes de error pero controlamos la debida a falta de homogeneidad.
La fiabilidad es la proporción de varianza verdadera, es decir la fiabilidad es igual a la varianza debida a lo
que hay de coherente en las respuestas entre la varianza debida tanto a lo que hay de coherente como de no
coherente en las respuestas y su formula básica es:
REQUISITOS PARA UNA FIABILIDAD ALTA.
1º Tendremos una fiabilidad alta cuando haya diferencias en las respuestas a los ítems, es decir, cuando los
ítems discriminan. Si un ítem no esta relacionado con los demás puede ser que no este midiendo lo mismo y
que no sea discriminante.
2º Y también cuando las respuestas de los ítems estén relacionadas entre si, entonces habrá consistencia
interna. Esto es que los sujetos tienden a puntuar alto en todos o bajo en todos.
Con respuestas diferentes y además coherentes, los sujetos quedan más diversificados, mejor clasificados por
sus puntuaciones totales y esto se refleja en una mayor varianza.
La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a
través de sus respuestas en todos los ítems.
FORMULAS DE KUDER RICHARDSON 20 Y DE CRONBACH
Se trata de la misma formula, una expresada para ítems dicotómicos y otra para ítems continuos.
3
El denominador es la varianza de las puntuaciones totales del test.
El numerador es la varianza verdadera, o la suma de covarianzas de los ítems.
Si los ítems no discriminan sus desviaciones típicas serán pequeñas, bajara el numerador y bajara la fiabilidad.
Si las desviaciones típicas son grandes pero los ítems no están relacionados bajara la fiabilidad, porque esa no
relación entre los ítems hace que las puntuaciones totales estén menos diferenciadas.
Coeficiente de Cronbach.
K = numero de ítems
= suma de las varianzas de los ítems
= varianza de los totales.
Formula Kuder Richardson.
FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD.
Los coeficientes de fiabilidad tienden a aumentar cuando:
• La muestra es heterogenea: es más fácil clasificar a los sujetos cuando son distintos.
• La muestra es grande: es más probable que haya sujetos muy distintos.
• Las respuestas a los ítems son más de dos: mayor probabilidad de que las respuestas difieran mas,
de que se manifiesten las diferencias que de hecho existen.
• Cuando los ítems son muchos: hay más oportunidad de que los sujetos queden más diferenciados en
la puntuación total.
Si queremos aumentar la fiabilidad del test podemos aumentar el numero de ítems siempre que sean buenos y
relacionados. Pero la relación longitud − fiabilidad no es lineal (porque sino seria infinita), la relación que hay
entre ambas muestra un efecto techo.
En test cortos no muy fiables si aumentamos el numero de ítems aumentara mucho la fiabilidad, sin embargo
en test largos pasa lo contrario, la fiabilidad aumenta poco por el efecto techo.
Para aumentar los ítems existen unas formulas (Pág. 9)
• La formulación de los ítems es muy semejante: si hay diferencias entre los sujetos, aparecerán en
todos los ítems y subirán sus intercorrelaciones.
INTERPRETACION DE LOS COEFICIENTES DE CONSISTENCIA INTERNA.
• Expresa la proporción de varianza debida a lo que los ítems tienen de relacionado. Un coeficiente de
0,70 indica el 70% de la varianza se debe a lo que los ítems tienen en común, y un 30% se debe a
errores de medición.
4
• Son indicadores de homogeneidad de los ítems, de que todos midan lo mismo. La homogeneidad
conceptual se interpreta como descriptor del rasgo que suponemos presente en todos los ítems.
• Son una estimación del coeficiente de correlación que podemos esperar con un test similar, con el
mismo número y tipo de ítems. De un universo de posibles ítems hemos escogido una muestra de
ítems. Si la fiabilidad es alta, con otra muestra de ítems de la misma población de ítems obtendríamos
unos resultados semejantes.
• La fiabilidad nos dice si un test discrimina adecuadamente, si clasifica bien a los sujetos, si detecta
bien las diferencias en aquello que es común a todos lo ítems.
• La raíz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlación entre las
puntuaciones obtenidas y las puntuaciones verdaderas, a estos e le llama índice de precisión.
Una fiabilidad de 0,75 indicaría una correlación de 0,86 (=
). Este índice expresa el valor máximo que puede alcanzar el coeficiente de fiabilidad.
• El error típico es la oscilación probable de las puntuaciones si los sujetos hubieran respondido a una
serie de test paralelos. A mayor fiabilidad bajara la magnitud del error probable.
CUANDO UN COEFICIENTE DE FIABILIAD ES SUFICIENTEMENTE ALTO.
Tabla 3
Cuando baja la fiabilidad sube el error típico, que con una forma paralela del mismo test podría ser distinta.
Los valores del coeficiente de fiabilidad oscilan entre 0 y 1.
UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD.
1º En principio confirman que todos los ítems miden lo mismo y se utilizan como un control de calidad.
2º Permiten calcular el error típico de las puntuaciones individuales, es decir, entre que valores se encontrara
nuestra puntuación verdadera, entendiendo por ello la que tendríamos si pasásemos varios test.
3º Permiten estimar los coeficientes de correlación que hubiéramos obtenido entre dos variables si su
fiabilidad fuera perfecta (se denominan corregidos por atenuación).
Los coeficientes no dependen exclusivamente de la redacción de los ítems, de la complejidad o simplicidad de
la definición del rasgo que queremos medir y además influyen en la fiabilidad características de la muestra.
Por que un coeficiente alto no expresa necesariamente que los ítems son suficientemente homogéneos.
1º La consistencia interna expresa una relación de hecho, estadística, entre los ítems pero no supone
necesariamente una coherencia conceptual.
2º Una fiabilidad alta puede deberse a un numero grande de ítems que en ocasiones no se prestan a una
interpretación clara.
Una fiabilidad alta se puede conseguir con muchos ítems con relaciones bajas entre si y también con dos
bloques de ítems con claras correlaciones entre los ítems dentro de cada bloque, pero con poca o nula relación
con los ítems del otro bloque.
3º Puede deberse también a una concepción del rasgo muy limitada, con ítems de contenido casi idéntico.
5
Error típico de la medida.
Es de utilidad en interpretaciones individuales.
Viene a ser la desviación típica de las puntuaciones verdaderas, e indica el margen de error o variación de las
puntuaciones individuales.
El mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error típico cuando interese situar a casa
uno en su banda de posibles probables resultados.
El error típico se interpreta como cualquier desviación típica e indica la variabilidad probable de las
puntuaciones obtenidas, observadas
• Las puntuaciones verdaderas.
Es la media más probable que un sujeto hubiera obtenido si le hubiéramos medido repetidas veces en el
mismo rasgo.
Las puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media y
mayores cuando son inferiores a la media.
La puntuación verdadera exacta no la sabemos pero podemos estimar entre que limites se encuentra.
Correlación corregida por atenuación.
La correlación calculada entre dos variables queda siempre disminuida por los errores de medición, por su no
perfecta fiabilidad. Esta correlación corregida por atenuación es la que hubiéramos obtenido si hubiésemos
podido suprimir los errores de medición en las dos variables.
Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relación:
rxx y ryy son coeficientes de fiabilidad.
CUANDO TENEMOS COEFICIENTES DE FIABILIDAD BAJOS.
1º Puede ser debido a una inadecuada formulación de los ítems.
Puede que los sujetos entiendan los ítems de una manera distinta a como lo pretende el autor del instrumento.
La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos en las
respuestas; y si no entienden el significado previsto habrá que eliminarlos.
2º Homogeneidad de la muestra.
A veces la causa es que apenas hay diferencias entre los sujetos. Y si no hay diferencias tampoco habrá
relación clara y verificada entre las respuestas.
3º Definición compleja del rasgo medido.
Una fiabilidad baja con una muestra heterogenea puede significar una concepción del rasgo excesivamente
compleja.
6
Los rasgos definidos de manera compleja pueden tener ítems poco relacionados entre si.
4º Utilidad del error típico cuando la fiabilidad es baja.
Con coeficientes bajos siempre es conveniente utilizar el error típico, sobre todo cuando se trata de tomar
decisiones sobre sujetos.
FORMULAS QUE RELACIONAN FIABILIDAD CON NÚMERO DE ITEMS
• Si queremos saber en cuanto aumentara la fiabilidad si aumentamos el numero de ítems multiplicando
el numero de ítems inicial, tenemos la formula de Spearman − Brown :
rxx es el coeficiente de fiabilidad conocido.
Rxx´ es el nuevo coeficiente de fiabilidad estimado.
n es el numero de formas paralelas que alargo en el test inicial.
Ejemplo: tenemos un test inicial de 20 ítems con una fiabilidad de 0,42, y le vamos a añadir otros 20 ítems.
20 ítems − rxx´ = 0,42
40 ítems − rxy
NO podríamos hacer una regla de tres porque eso supondría una relación lineal, que ya hemos dicho que no
existe entre longitud del test y fiabilidad, pues sino aumentaría hasta el infinito.
En este ejemplo n (numero de formas paralelas) no es 20 porque eso supondría que tendríamos 400 ítems en
vez de 40. El test inicial de 20 ítems tiene 1 forma paralela, así que si ahora añado otros 20 ítems añado otra
forma paralela, n = 2. Cuando ya tenemos 40 ítems y 2 formas paralelas se le llama forma alargada del test.
• Si tenemos una fiabilidad conocida y queremos llegar a otra más alta, ¿en cuantos ítems tendríamos
que alargar el test?
rnn es la fiabilidad deseada.
r11 es la fiabilidad obtenida con el número original de ítems.
Ejemplo del ejercicio 7:
Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiríamos en la formula y
nos daría n = 3, 86 formas paralelas.
Ahora en este caso si se podría utilizar la regla de tres.
40 ítems − 1 forma paralela
X ítems − n − 1 = 2,86 formas paralelas
Y el resultado seria 115 ítems que vamos a añadir..
¡OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que
7
restarle la forma paralela que ya teníamos en el test inicial. Si no la restamos nos saldrían 154 ítems que son el
total, no los que hemos añadido (115).
Los casos que hemos visto siempre nos salen números redondos pero puede suceder que no lo sean, en
cualquier caso el procedimiento seria el mismo:
Inicial 15 ítems 1 forma paralela
Añado 10 ítems n − 1 = 0,66 (sale de una regla de tres)
Final 25 ítems n = 1,66 forma paralela.
TEMA V.− INTRODUCCION A LOS METODOS NO PARAMÉTRICOS:
Los métodos no paramétricos no suponen condiciones previas en la población. Se han hecho especialmente
populares como alternativa los métodos paramétricos cuando los datos no se ajustan a los supuestos teóricos
de dichos métodos. Son relativamente sencillos y especialmente aptos para muestras pequeñas.
I.− LOS SUPUESTOS DE LOS METODOS PARAMÉTRICOS:
• EN RELACION AL TIPO DE ESCALA O NIVEL DE MEDIDA:
Lo que supone es que la escala utilizada es de intervalo, es decir, que hay una unidad propiamente dicha
aunque el punto cero sea arbitrario.
El problema de la unidad esta relacionado con las escalas de medida. En principio, el nivel de medida
condiciona las operaciones matemáticas permisibles.
Los números pueden significar un criterio de clasificación:
En este caso no son números en sentido propio. Se trata de las denominadas escalas nominales. En estos
casos podemos contar cuantos elementos hay en cada categoría de clasificación, pero los números con los que
designamos los grupos no expresan necesariamente ni orden ni cantidad.
Los números pueden significar orden:
En este caso tenemos escalas ordinales. Podemos ordenar los sujetos u objetos de más a menos, pero no hay
una unidad en sentido propio.
Los números pueden significar cantidad o distancia:
Aquí disponemos de una unidad en sentido propio (4 es el doble que 2) se trata de las escalas de intervalo (y
que si tienen un punto cero absoluto se denominan escalas de razón). Cuando disponemos de una unidad
podemos hacer los operaciones aritméticas habituales.
Si se da una correspondencia suficiente entre los modelos matemáticos y los datos observados se denomina
isomorfismo.
El investigador Stevens planteó el problema de la utilización de métodos paramétricos con medidas que, en
sentido estricto, solo son ordinales y no disponen de una unidad.
• Justificación de la suposición de una unidad en los datos de que disponemos:
8
Las razones aducidas para actuar de este modo son de dos tipos:
• Unas consideraciones son de corte más teórico:
Suponemos que las escalas que utilizamos son de intervalo aunque imperfectas; las variables subyacentes o
rasgos los conceptualizamos como continuos y con distribución normal. No se trata de escalas literalmente de
intervalo pero se aproximan lo suficiente como para tratar los datos como si lo fueran.
• Otras razones son de tipo puramente experimental:
Los datos teóricamente ordinales funcionan bien como si se tratara de escalas de intervalo. Podemos suponer
en la practica que, por ejemplo, entre poco y algo hay la misma distancia que entre algo y bastante como si
hubiera una unidad, por lo que podemos asignar a esas respuestas números consecutivos.
Estas y parecidas razones hacen que el punto de vista dominante hoy día es que la distinción entre escalas
ordinales y de intervalo es irrelevante para determinar cual es el método de análisis apropiado para comprobar
hipótesis estadísticas. Así, las pruebas paramétricas se consideran legitimas con medidas ordinales.
• EN RELACION A LAS CARACTERISTICAS DE LAS POBLACIONES:
Se supone:
• Una distribución normal.
• Homogeneidad de varianzas.
Esta suficientemente probado que en la mayoría de las situaciones la violación de estos supuestos no afecta al
poder (de rechazar la hipótesis nula cuando es falsa) de las pruebas paramétricas.
II.− CUANDO ES PREFERIBLE UTILIZAR LOS METODOS NO PARAMETRICOS:
Los métodos no paramétricos son una alternativa preferible cuando se dan estas dos circunstancias:
• Cuando no se pueda presumir la normalidad en la población: cuando muestras pequeñas tienen
una distribución obviamente muy alejada de la distribución normal.
El supuesto de normalidad en la población se puede asegurar mejor cuidando la calidad del instrumento. Lo
que ocurre es que a veces la calidad del instrumento no es modificable o simplemente se trata de estudios
improvisados en los que no se puede o no interesa invertir tiempo en el instrumento.
• Con muestras pequeñas de tamaño claramente desigual y con varianzas obviamente muy
desiguales.
Independientemente de los problemas de los métodos paramétricos, esta bien demostrada la calidad de los
métodos no paramétricos.
Aun así, si los métodos alternativos paramétricos se pueden utilizar son en principio preferibles porque en
ellos se utiliza toda la información disponible (no solamente el orden). La perdida de información es mayor en
la medida en que aumenta el numero de sujetos.
III.− METODOS NO PARAMÉTRICOS MAS UTILIZADOS:
Los métodos no paramétricos podemos dividirlos en dos grandes grupos según se trate de datos nominales
9
(sujetos u observaciones clasificados en categorías) u ordinales (lo que conocemos y utilizamos de cada
observación es su rango o numero de orden).
1. − METODOS APROPIADOS PARA DATOS NOMINALES:
Clasificaciones:
• En esta categoría entran todas las variantes del ji cuadrado. Estos métodos deben utilizarse junto con los
coeficientes de asociación correspondientes (como el coeficiente , el coeficiente de contingencia,...etc)
Con frecuencia métodos que requieren métodos ordinales desembocan en la distribución de ji cuadrado (sobre
todo al aumentar el tamaño de la muestra) o simplemente se utiliza el orden para dicotomizar las puntuaciones
y aplicar después el ji cuadrado convencional (como en la prueba de la mediana).
• Para muestras independientes y muy pequeñas, que se pueden disponer en cuadros de 2x2, y en las que por
el bajo numero de sujetos el ji cuadrado convencional no es aplicable, tenemos la prueba exacta de
Fhiser.
• Para dos muestras relacionadas, también dispuestas en cuadros de 2x2, es muy útil la prueba de McNemar
para detectar cambios: los sujetos se clasifican según sus respuestas, 1 ó 0, antes y después. Lo que se
compara es la proporción de unos antes y después.
• Para muestras muy pequeñas divididas solo en dos categorías (equivale al contraste entre proporciones) es
muy útil la aplicación directa de la distribución binomial (solo requiere consultar tablas).
La distribución binomial es también aplicable a muestras grandes, pero en este caso la distribución pasa a ser
normal y estamos en el caso habitual de diferencias entre proporciones.
• Algunos métodos que requieren datos ordinales terminan en la distribución nominal, como la prueba de los
signos para verificar cambios; numero de sujetos con cambio positivo y numero de sujetos con cambio
negativo.
2. − METODOS ORDINALES EN LOS QUE SE UTILIZAN RANGOS:
En estos métodos se sustituye la puntuación directa por su rango o numero de orden y se opera con estos
rangos. Aunque es cierto que existen algunos de ellos en los que no se utilizan sino que se supone que la
variable es ordinal y continua.
Los métodos en los que se utilizan los rangos tienen en principio una ventaja obvia, y es que no se ven
afectados por sujetos con puntuaciones muy extremas y atípicas.
2.1. − Cuando Tenemos Solamente Dos Muestras:
• La U de Mann−Whitney para comparar dos muestras independientes: Es la alternativa más utilizada a la t
de Student para muestras independientes. Comprueba si dos distribuciones son distintas.
• La T de Wilcoxon para dos muestras relacionadas: Es también la alternativa ,más utilizada a la t de Student
para muestras relacionadas. Se utiliza para detectar cambios o en diseños de sujetos igualados.
Para comprobar cambios (muestras relacionadas) es también popular la prueba de los signos, que solo requiere
datos ordinales y no utilizan los rangos.
Otros métodos no paramétricos de interés suponen variables al menos ordinales y continuas aunque no se
utilicen los rangos, como sucede en:
10
• La prueba de Kolmogorov−Smirnov para una muestra o para dos muestras independientes: no se utilizan
rangos sino frecuencias acumuladas, pero se supone, al menos, una escala ordinal.
Cuando se trata de dos muestras lo que se detecta con estas pruebas es si las muestras tienen distribuciones
distintas.
Aplicada a una sola muestra, esta prueba es especialmente útil, como prueba de bondad de ajuste, para
verificar si la distribución observada se aparta de una distribución hipotética que suele ser la distribución
normal.
• La prueba de las rachas de Wald−Wolfowitz, semejante a la prueba de Kolmogorov−Smirnov, nos permite
determinar si las dos muestras pertenecen a poblaciones distintas en tendencia central o dispersión.
2.2 Cuando Tenemos Mas De Dos Muestras:
Cuando tenemos mas de dos muestras, estamos ante las alternativas no paramétricas al análisis de varianza.
Para mas de dos muestras independientes:
• La H de Kruskal−Wallis: es una alternativa al análisis de varianza más sencillo: Anova A−EF−CA.
Cuando el supuesto de homogeneidad de varianzas no es sostenible, permite poner a prueba la hipótesis de
que varias medias proceden de la misma población. Si hay rangos repetidos es más difícil rechazar la
hipótesis nula pero el mismo procedimiento incluye los ajustes necesarios.
• La prueba de Jonckheere comprueba si se da una tendencia significativa a aumentar de menos a mas, entre
varias muestras independientes.
Para mas de dos muestras relacionadas:
• La prueba de Friedman: Es también una alternativa no paramétrica del análisis de varianza convencional de
varias muestras relacionadas: Anova A−EF−MR.
En este análisis de varianza parametrico disponemos, como calculo complementario, de los coeficientes de
fiabilidad. De manera análoga, como complemento de la prueba de Friedman se puede utilizar el coeficiente
W de Kendall, denominado coeficiente de concordancia, porque suele utilizarse para comprobar el grado de
coincidencia entre varios evaluadores que ordenan a los mismos sujetos u objetos. A partir del valor de W se
puede calcular rápidamente el valor medio de la correlación entre las columnas y la fiabilidad de las filas
(sujetos) al ordenar a las columnas.
Este tipo de cálculos son de interés precisamente para verificar el grado de concordancia, unanimidad,... etc.
• Para mas de dos muestras relacionadas y cuando la variable dependiente es dicotómica contamos con la
prueba Q de Conchran (una extensión de la prueba de McNemar), que nos dice si las diferencias en las
condiciones (columnas) tiene un efecto significativo en las respuestas de los sujetos (filas).
• La prueba de tendencia L de Page, que puede considerarse como una extensión de la prueba de Friedman,
se utiliza para comprobar si en una serie de puntuaciones se da una tendencia a aumentar o disminuir.
IV.− LOS METODOS NO PARAMETRICOS MÁS COMUNES:
Si categorizamos las muestras según sean dos o más de dos, e independientes o relacionadas, los métodos no
paramétricos posiblemente mas utilizados son:
11
PSICOMETRIA:
I.− ANALISIS DE ITEMS EN LAS PRUEBAS OBJETIVAS:
1.− EL CONTEXTO: LAS PRUEBAS OBJETIVAS:
Al estudiar el análisis de ítems de las pruebas objetivas, hay que tener en cuenta todo el contexto.
Las pruebas objetivos (tipo−test) pueden ser muy cómodas fundamentalmente porque:
• Las pruebas objetivas se pueden corregir con lectura óptica, la tarea es mecánica, simple,...,etc.
• Con las pruebas objetivas es mas sencillo establecer criterios de clasifican y también pueden justificarse
mejor estos criterios.
En las pruebas objetivas la corrección sí es objetiva, pero tanto la formulación de las preguntas como donde se
pone el mínimo para el apto son decisiones subjetivas del autor.
Su frecuente mala calidad se debe sobre todo a:
• No es tan fácil redactar buenas preguntas objetivas.
• No es frecuente planificar estas pruebas aunque sea de manera muy elemental, puede por lo tanto haber mas
preguntas de lo que es fácil preguntar y no tanto de lo mas importante.
Una manera de mejorar la calidad de estas preguntas objetivas es analizarlas. Este tipo de pruebas se prestan a
hacer una serie de análisis de interés que pueden referirse:
• A toda la muestra.
• A cada pregunta en particular.
2.− UTILIDAD DEL ANALISIS DE LOS ITEMS:
Analizar las pruebas objetivas puede ser de interés porque:
• Sirve para ir mejorando su calidad: la información que nos dan este tipo de análisis nos permite ir
mejorando las pruebas sucesivas que vallamos haciendo.
• Esta información que puede ser muy especifica puede ayudar a caer en la cuenta de errores generalizados, a
entender puntos difíciles, a condicionar un estudio posterior de mas calidad,...,etc.
• También nos aportan datos que pueden influir indirectamente en nuestros criterios de calificación: podemos
descubrir preguntas ambiguas, con dos respuestas correctas o con la clave de corrección equivocada,...,etc.
• Por otra parte todos estos análisis son fácilmente programables, y si utilizamos una hoja de respuestas de
lectura óptica y un programa adecuado de ordenador casi sin darnos cuenta podemos acumular una
información muy útil.
1.− ANALISIS ESTADISTICOS CONVENCIONALES:
1.− ANALISIS REFERIDOS A TODA LA PRUEBA:
• EL COEFICIENTE DE FIABILIDAD:
Este coeficiente indica en que medida en pruebas semejantes los sujetos habrían quedado ordenados de
manera parecida. Dos factores influyen en la magnitud de este coeficiente.
12
• La homogeneidad de los ítems: En la medida en que los ítems midan lo mismo la fiabilidad será mayor;
con preguntas muy distintas y poco relacionadas la fiabilidad será menor.
• Homogeneidad de la muestra o diferencias entre los sujetos: Si los sujetos tienen resultados muy
parecidos la fiabilidad tenderá a bajar; no se puede clasificar u ordenar bien a sujetos muy semejantes.
Fundamentalmente la fiabilidad depende de las diferencias entre los sujetos por lo que se puede cuestionar la
fiabilidad de un test o de una prueba objetiva como indicador necesario de su calidad; si todos saben todo o
casi todo o casi nada.
Un coeficiente de fiabilidad alto es claramente deseable cuando las diferencias entre los sujetos son legitimas
y esperadas; y esto es lo que suele suceder en los test psicológicos.
No hay que olvidar que una fiabilidad alta no es sinónimo sin mas de calidad porque puede faltar lo que es
mas importante, la validez.
• EL ERROR TIPICO DE LAS PUNTUACIONES INDIVIDUALES:
El error típico se deriva del coeficiente de fiabilidad y viene a indicar el margen probable de oscilación de las
puntuaciones de unas ocasiones a otras en exámenes hipotéticamente semejantes. Puede servir para relativizar
los resultados individuales. Equivale a una desviación típica y se interpreta de manera semejante.
2.− ANALISIS DE CADA PREGUNTA O DE CADA ALTERNATIVA:
• LA CORRELACION ITEM−TOTAL O INDICE DE HOMOGENEIDAD CORREGIDO:
Se trata de un dato de cada e indica en que medida cada uno de ellos discrimina, es decir, diferencia a los que
saben mas de los que saben menos. Se trata de la correlación de cada pregunta con la suma de todas las
demás.
Lo que expresa esta correlación es en que medida el responder correctamente a un ítem está relacionado con
puntuar alto en todo el test.
• Una correlación positiva: quiere decir que puntuar bien en esa pregunta esta relacionado con puntuar
bien en el conjunto de la prueba.
• Una correlación próxima a 0: quiere decir que responder bien a eso pregunta no tiene que ver con
estar bien en el conjunto del test.
• Una correlación negativa: quiere decir que responder bien a esa pregunta esta relacionado con estar
mas bien mal en el conjunto de la prueba.
• LA CORRELACION DE CADA ALTERNATIVA CON EL TOTAL:
Es la correlación entre escoger cada una de las alternativas ( tanto la verdadera como las falsas) y el total del
test. Lo que podemos esperar es que el escoger una alternativa falsa correlacione negativamente con el total.
2.− ANALISIS DE LAS DIVERSAS ALTERNATIVAS: TABULACION DE LAS RESPUESTAS:
Este análisis, se limita a la mera tabulación de las respuestas. Se trata de organizar las respuestas de manera
que permitan una reflexión rápida.
El proceso es el siguiente:
• Se ordenan los sujetos de mas a menos según su puntuación total en la prueba y se seleccionan el 25% con
13
puntuación total mas alta (grupo superior) y el 25% con puntuación total mas baja (grupo inferior).
• Se tabulan las respuestas de estos dos grupos en cada ítem, de manera que se pueda ver cuantos de cada
grupo, superior e inferior, han escogido cada opción.
Cuadro 1
En el supuesto numerador tenemos el numero de alumnos del grupo superior que ha escogido cada opción, y
debajo el numero de alumnos del grupo inferior que ha escogido esa misma opción; la respuesta correcta esta
señalada con un asterisco.
3.− INDICES DE DIFICULTAD Y DISCRIMINACION:
1.− PARA CADA ITEM:
Estos índices no se calculan para toda la muestra sino para el 25% con una puntuación total mas alta en todo
el test y para el 25% con una puntuación total mas baja. El numero de sujetos entre ambos grupos es por lo
tanto el mismo; solo se analiza el 50% de la muestra. Este tipo de análisis es análogo al que se hace cuando se
construye una escala de actitudes.
SIMBOLOS UTILIZADOS:
N: Numero de sujetos en uno de los dos grupos (los
dos grupos tienen idéntico numero de sujetos).
N + N: Numero total de sujetos analizados.
AS: Numero de acertantes en el grupo superior
AI: Numero de acertantes en el grupo inferior.
• INDICE DE DIFICULTAD:
Indica la proporción de aciertos en la muestra de alumnos que estamos utilizando. Es la media de éste 50% de
sujetos analizados.
El término de dificultad se presta a equívocos: in índice mayor indica un pregunta mas fácil.
• Las preguntas que discriminan mucho tienden a ser de dificultad media (responden bien la mitad de
los sujetos analizados). Df = 0.50
(AS = N; AI = 0)
• INDICES DE DISCRIMINACION:
Los índices de discriminación expresan en que medida cada pregunta o ítem diferencia a los que mas saben de
los que menos saben
• Indice de discriminación 1:
Depende del grado de dificultad del ítem. Es la diferencia entre dos proporciones, los acertantes del grupo
superior menos los acertantes del grupo inferior.
Es el índice probablemente mas utilizado. Expresa hasta que punto la pregunta discrimina, establece
diferencias, contribuye a situar a un sujeto en el grupo superior e inferior.
• A mayor diferencia, en numero de acertantes entre los grupos superior e inferior, el ítem es mas
discriminante, contribuye mas a situar a un sujeto entre los primeros o entre los últimos.
14
• Equivale a una estimación de la correlación item−total y puede interpretarse de la misma manera.
• Los valores extremos que puede alcanzar son 0 y ± 1.
• Si todos responden correctamente (pregunta muy fácil), tendremos que: Dc1=0.
(AS = AI = N)
• Si todos se equivocan (pregunta muy difícil) tendremos que: Dc1=0.
(AS = AI = 0)
Es decir, las preguntas muy fáciles y muy difíciles no discriminan, no establecen diferencias; nos dicen que
todos saben o no saben una pregunta, pero no quien sabe mas y quien menos. Estas preguntas no contribuyen
a la fiabilidad del test, pero eso no quiere decir necesariamente que sean malas preguntas.
• Si todos y solos los del grupo superior responden correctamente, tendremos que: Dc1=1.
(AS = N; AI = 0)
• Si todos y solos los del grupo inferior responden correctamente, tendremos que: Dc1= −1.
(AS = 0; AI = N)
Las preguntas con discriminación negativa favorecen al grupo inferior y en principio deberían ser revisadas
(mal formuladas, ambiguas, error en la clave de corrección,...,etc.).
• Una limitación de este índice es que el valor máximo de 1 solo se alcanza cuando aciertan todos los del
grupo superior y se equivocan todos los del inferior.
• Puede haber preguntas que discriminen bien pero que sean difíciles y fallen algunos del grupo
superior.
• Puede ocurrir que discriminen bien pero que sean fáciles y las acierten algunos del grupo inferior.
Por estas razones algunos refieren al otro índice de discriminación.
• El indice maximo de dificultad cuando aciertan mas de la mitad es el que hubiera habido manteniendo el
mismo numero de aciertos y que ninguno del grupo superior hubiera fallado.
El valor maximo de discriminación manteniendo los 12 aciertos es que el hubieramos obtenido si AS = 10
(todos los del grupo superior aciertan) y los dos aciertos restantes se los dejamos al grupo inferior.
El indice maximo de discriminación cuando han acertado menos de la mitad es el que hubieramos obtenido si
todos los acertantes pertenecieran al grupo superior.
• Indice de discriminación 2.
Indica la proporcion de aciertos en el grupo superior con respecto al numero total de acertantes.
Es satisfactorio si es superior a o,50: mas de la mitad de los acertantes pertenecen al grupo que sabe mas.
• Este indice es independiente del grado de dificultad de la pregunta. Llega a 1 si todos los acertantes,
aunque sean pocos, pertenecen al grupo superior.
15
Nos dice cuanto discrimina el item, tanto si es facil como si es muy difícil.
1º Una pregunta muy facil, con N =10 en casa grupo. La aciertan 10 del superior y 9 del inferior.
• El Dc1 diria que apenas discrimina, que es muy facil.
• El Dc2 diria que aunque es muy facil, de fallar alguien esta pregunta pertenece al grupo de los que
menos saben.
2º Una pregunta muy difícil.
• El Dc1 dice que discrimina muy poco porque es muy difícil.
• El Dc2 dice que la discriminación es perfecta, que de saberla alguien, este perteneceria al grupo
superior.
Este indice es util para comparar la dificultad de varios test, sobre todo si tienen un numero distinto de ítems.
El numero de ítems es la diferencia maxima posible, la que habria entre un sujeto que hubiera respondido bien
a todos y el que no hubiera respondido a ninguno.
Valoración de estos indices.
Describen como ha funcionado una pregunta en una situación dada, pero no hacen juicios sobre la calidad de
la pregunta.
Las preguntas muy discriminantes nos indican donde falla los que tienen malos resultados sobre todo.
La discriminación supoen diferencias y el que haya diferencias no es necesariamente un buen resultado.
En examenes amplios la no discriminación puede indicar que no se detectan diferencias que de hecho existen.
En el conjunto del examen y para poder calificar con cierto matiz debe haber preguntas de dificultad media
que discriminen bien.
Las preguntas muy discriminantes (nunca seran las mas difíciles) son utiles en examenes de segunda
convocatoria, prescindiendo de lo muy facil y de lo muy difícil.
Para extrapolar los resultados harian falta muestras grandes, N=400, sin embargo los indices obtenidos con
grupos pequeños, si se mantiene constante el tipo de muestra, dan lo que se puede esperar en grupos similares.
Estos indices describen como han funcionado los ítems, y son utiles para evaluar las preguntas, sugerir que se
puede revisar pero malas preguntas pueden tener indicen que podrian considerarse optimos. Es peligroso
interpretar estos indices como indicadores automaticos de la calidad de una pregunta.
El analisis de las diversas alternativas, comprobando cuantos eligen cada una, es util para ir mejorando las
preguntas.
PSICOMETRIA:
I.− GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES:
¿POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?:
Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar
16
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestión, o ver donde se sitúa un sujeto en un
continuo de menos a mas.
A veces el medir actitudes con una sola pregunta es muy útil como medida complementaria de instrumentos
mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud
que van a ser sumados después como indicador de esta actitud o variable.
Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo:
• Con una serie de ítems describimos y medimos mejor constructos relativamente complejos. Una única
pregunta simplifica frecuentemente en exceso el concepto que vamos a medir.
• En conjunto una medida formada por varios ítems es mas valida, no solamente porque describen mejor un
constructo complejo, sino porque una única pregunta puede ser de hecho poco afortunada, o ser mal
entendida por muchos sujetos.
Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas
preciso y fundado sobre como cómo está una persona en un rasgo concreto.
Este tipo de razones tiene mas peso cuando se van a tomar decisiones sobre los sujetos o interesa un buen
diagnostico individual.
• Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada ítem en particular, merecen mas
confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de
ítems podemos calcular el coeficiente de fiabilidad.
• Una razón de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos
van a quedar mas nítidas, va a ser mas fácil clasificarlos y, en definitiva, va a aumentar la varianza.
Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y
consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitaremos aquí a tratar las denominadas escalas tipo Likert en las que
la suma de una serie de respuestas a ítems supuestamente homogéneos sitúa al sujeto en la variable medida.
1.− PROCESO DE CONSTRUCCION DE UNA ESCALA DE ACTITUDES:
El proceso se puede describir de varias maneras, pero básicamente se puede concretar en los pasos siguientes:
1.− DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR:
El primer paso es siempre clarificar el rasgo que se desea medir; una definición o explicación previa da
coherencia al resto del proceso. Puede ayudar el hacer previamente una descripción de la persona que
supuestamente tenga de manera clara la actitud que se desea medir.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en
diversos grados de abstracción, y pueden ser muy genéricos o muy específicos.
Puede ayudar también revisar otros instrumentos ya hechos.
2.− REDACCION DE LOS ITEMS:
Pueden redactarse de diversas maneras pero, en general, y tratándose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no estar de acuerdo.
17
• Los ítems deben tener las siguientes características:
• Deben ser relevantes: claramente relacionados con la actitud que se desea medir.
• Deben ser opiniones con las que se pueda estar o no estar de acuerdo.
• Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razón:
• Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusión en la
respuesta.
• Deben contener una única idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o
con otra. Una misma idea se puede formular de mas de una manera para comprobar después que
formulación es mas eficaz.
• Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos
estarán de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garantía
de que los ítems miden lo mismo si simultáneamente diferencian a los mismos sujetos.
• Cabe formular ítems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con ítems
muy similares se consiguen fácilmente coeficientes de fiabilidad altos, el constructo queda expresado de
una manera muy simple.
• Es preferible redactar los ítems en las dos direcciones positiva y negativa, es decir, que unas veces el estar
de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin
introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redacción
bipolar tiene varias ventajas:
• Obliga a una definición previa mas matizada del rasgo o constructo.
• Requiere una atención mayor por parte del que responde.
• Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemáticas.
• Si hay un numero aproximado de ítems positivos y negativos, y sumamos a cada sujeto sus
puntuaciones a los dos tipos de ítems, podemos calcular la correlación entre los dos totales parciales
como si se tratara de dos subescalas. Esta correlación debe alcanzar un valor de 0.50 o mas, y
mostrará en este caso una coherencia global en las respuestas.
• Comprobar la coherencia es prácticamente lo mismo que comprobar que no se da la aquiescencia o
tendencia a mostrar acuerdo casi con cualquier afirmación, incluso con afirmaciones que se
contradicen. Cuando se de esta aquiescencia suele deberse a la ambigüedad en la redacción o falta de
claridad de los ítems.
La irrelevancia o ambigüedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
ítems no discriminan. La no discriminación puede indicar también que un ítem no mide lo mismo que los
demás o que los sujetos lo entienden de otra manera. Si un ítem discrimina en sentido contrario puede haber
un error en la clave de corrección.
Sobre el numero inicial de ítems que deben redactarse: no hay un numero optimo, pero a mayor numero
inicial de ítems, mayor probabilidad de encontrar en el análisis un conjunto de ítems definitivos con una
fiabilidad suficiente. A mayor numero de ítems buenos también será mayor la fiabilidad.
3.− REDACCION Y NUMERO DE RESPUESTAS:
• Redacción de las respuestas:
Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido
del item, pero puede haber otras mas apropiadas como grado de interés, de importancia,...,etc.
18
Cuadro 1
Caben otros formatos en las respuestas como utilizar números especificando con palabras el significado de los
extremos (muy de acuerdo o muy en desacuerdo). O con letras. En general parece preferible el empleo de
letras o palabras, al menos si se juzga que los números pueden condicionar la respuesta.
Las repuestas en términos de frecuencia están muy avaladas por la investigación científica.
Cuadro 2
• Numero de respuestas:
El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de
respuestas en los ítems, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de
respuestas no supere la capacidad de discriminación de los que responden: el numero máximo se suele situar
entre seis y siete respuestas y el mínimo en tres.
• Numero par o impar de respuestas:
Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor.
El incluir un numero par de categorías tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos
categorías, de acuerdo y en desacuerdo, y se elimina además la posibilidad de que los sujetos se evadan
escogiendo la respuesta central.
4.− PREPARAR LA CLAVE DE CORRECCION:
Las respuestas se codifican siempre con números íntegros sucesivos. En principio es preferible evitar el 0 y
comenzar a partir de 1.
La clave en números debe hacerse de acuerdo con el sentido del ítem, de manera que la respuesta mas
favorable a la actitud tenga el numero mayor.
Cuadro 3
5.− PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES:
Además de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o
instrumentos que puedan estar ya hechos, y que los sujetos responderán al mismo tiempo, para recoger datos
adicionales. Estos nuevos datos o preguntas tienen que ver con la verificación de la validez del instrumento.
• El obtener datos adicionales de interés es importante por varias razones:
• Buscar mas datos hipotéticamente relacionados con lo que queremos medir contribuye a que nos hagamos
una idea mas clara del rasgo o actitud que nos interesa medir.
• Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un
considerable ahorro de tiempo y esfuerzo.
• Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al
proceso de construcción del instrumento, en el sentido de que nos pueden sugerir ideas validas como
criterio en la misma selección de los ítems, en la búsqueda de muestras determinadas,...,etc.
• El pensar en otros datos tiene que ver con la comprobación de la validez de nuestro instrumento y de los
datos que con él recojamos.
19
Comprobar la validez de un instrumento tiene que ver con la comprobación o confirmación del significado de
lo que medimos, y también de su utilidad.
Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
también con que otros rasgos puede estar relacionado ese rasgo, a que grupos puede diferenciar,...,etc.
Estos datos adicionales son básicamente de dos tipos:
• Datos cesales o sociológicos: Como edad, sexo, ocupación o curso, estado civil, etc. Estos datos servirán
para describir la muestra y para hacer análisis adicionales.
• Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o
escalas que pueden estar relacionados con la variable que estamos midiendo.
6.− OBTENER DATOS DE UNA MUESTRA:
Una vez preparada la versión inicial del instrumento, se recogen las respuestas de una muestra para poder
hacer los análisis correspondientes, sobre todo el análisis de ítems y el calculo de la fiabilidad; estos análisis
nos van a permitir dar forma al instrumento definitivo.
• El tipo de muestra elegido debe ser semejante al tipo de población con el que se va a utilizar después. A
mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.
• Sobre el numero de sujetos necesario; para que los análisis tengan suficiente consistencia y sean
extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por ítem inicial. Si se piensa
hacer después una análisis factorial debe haber unos 10 sujetos por ítem; en cualquier caso no deben ser
menos de 200.
7.− ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD:
En primer lugar y una vez obtenidos los datos calculamos:
• La media y la desviación típica de los totales: cada sujeto tiene un total que es la suma de todas sus
respuestas a los ítems.
• La media y la desviación de cada ítem.
A continuación llevaremos a cabo el análisis de ítems y calcularemos la fiabilidad.
• −análisis de ítems
Tenemos que comprobar si cada ítem mide lo mismo que los demás, y por tanto es sumable en una puntuación
total que supuestamente mide el rasgo y que es la que después interpretamos y utilizamos.
Lo que queremos comprobar es si las respuestas tienden a covariar, es decir, si los sujetos tienden a responder
de manera que podamos deducir que todos los ítems expresan el mismo rasgo. En definitiva comprobamos si
los ítems tienden a diferenciar a los sujetos, si discriminan adecuadamente.
Los procedimientos que podemos utilizar son dos:
1. Correlación ítem−total
Se trata de la correlación de cada ítem con la suma de todos los demás o correlación de cada ítem con el total
menos el ítem. Lo que deseamos comprobar es en que medida el puntuar alto en un ítem supone el hecho de
obtener un total alto en el resto de la escala.
20
Estos coeficientes deben ser al menos estadísticamente significativos o distintos de cero. Los ítems con una
mayor correlación con el total son los que tienen mas en común y por tanto podemos pensar que miden lo
mismo que los demás. Los ítems con correlaciones no significativas o muy bajas los eliminaremos de nuestra
escala.
Cuando se calcula la correlación con el total, hay una formula que convierte esta correlación ítem−total en la
correlación ítem−total menos ítem, que es la que nos interesa.
Hay programas de ordenador que dan rutinariamente para cada ítem la correlación ítem−total, pero hay que
tener presentes otras consideraciones:
• Es cuestionable seguir mecánicamente procedimientos automáticos; el constructor del
instrumento debe intervenir con sus propios criterios sobre lo que quiere medir y sobre las
características del instrumento.
• Esos programas nos dan la fiabilidad si suprimimos ítems de uno en uno, y normalmente no interesa ir
eliminando ítems así, sino en bloques escogidos con algún criterio.
• Es normal que varios subconjuntos de ítems tengan una fiabilidad idéntica o similar, por lo que habrá
que acudir a otros criterios en la selección definitiva de los ítems.
2. Contraste de medias en cada ítem de los dos grupos con puntuaciones mayores y menores en el total de
la escala.
El procedimiento anterior es muy laborioso si no se hace con ordenador; un procedimiento mas sencillo, y que
aporta una información semejante, es comparar en cada ítem el 25% con una puntuación total mas alta con el
25% con puntuación total mas baja. Para esto:
• Ordenamos a los sujetos de mas a menos, según el total obtenido en toda la escala, y seleccionamos dos
subgrupos: grupo superior ! el 25% con total mas alto, y grupo inferior ! el 25% con puntuación total mas
bajo. El 50% central no entra en este análisis.
• Calculamos la media y la desviación típica en cada ítem de cada uno de los dos grupos, superior e inferior.
• Contrastamos las medias de estos dos grupos mediante la T de student.
Lo que esperamos es que el grupo superior tenga una media significativamente mas alta en cada ítem que el
grupo inferior. Podremos concluir que los ítems que simultáneamente diferencian a los mismos sujetos están
midiendo lo mismo. Prescindiremos de los ítems que no discriminan y nos quedaremos con los mas
discriminantes; Siempre hay ítems mejores que otros en términos relativos. En la elección definitiva de los
ítems pueden intervenir además otros criterios.
Ej. de este procedimiento:
En este ejemplo:
• El ítem nº 1 discrimina bien, el valor de t nos muestra que la diferencia entre los grupos superior e
inferior, es muy superior a lo puramente aleatorio; este ítem habría que retenerlo.
• El ítem nº 2 discrimina poco, la diferencia no es significativa y habrá que eliminarlo de la escala
definitiva.
• El ítem nº 3 tiene discriminación negativa, los del grupo inferior superan a los del grupo superior;
claramente este ítem no es sumable con los demás, no mide lo mismo y hay que rechazarlo. En este
caso también puede suceder que este mal la clave de corrección.
Con cualquiera de los dos procedimientos obtenemos un dato sobre la calidad del ítem; ambos tipos de
información nos dicen si podemos considerar que el ítem discrimina adecuadamente y consecuentemente si
21
podemos considerar que mide lo mismo que los demás.
¿Cuál de los dos análisis es preferible? Los dos aportan información semejante; prácticamente con los dos se
llega a la misma selección de items.
• Comprobación de la fiabilidad y selección de los ítems definitivos
Después del análisis de ítems calculamos la fiabilidad (consistencia interna). La formula mas apropiada es el
coefiente de Cronbach.
k ! numero de ítems
2i ! suma de las varianzas de todos los ítems
2t ! varianza de las puntuaciones totales
Lo que vamos a hacer es calcular la fiabilidad con distintos subconjuntos de ítems para quedarnos finalmente
con la selección de ítems que mas nos convenza como versión definitiva de nuestro instrumento.
El proceso es el siguiente:
• En primer lugar calculamos la fiabilidad de la escala inicial con todos los ítems.
• en segundo lugar:
− eliminamos los ítems que con mas claridad no son discriminativos.
− recontamos a los sujetos su nueva puntuación total.
− volvemos a calcular la fiabilidad de la nueva versión de la escala mas reducida
• Vamos repitiendo el proceso del paso anterior, calculando la fiabilidad cada vez con menos ítems, hasta que
la fiabilidad empieza a bajar.
• Nos quedamos en principio con la versión de la escala que tiene una fiabilidad optima.
*Los ítems los vamos suprimiendo de uno en uno, o en pequeños bloques.
Para calcular estos coeficientes de fiabilidad necesitamos estos datos:
• En numero de ítems, que ira variando cada vez según vamos eliminando algunos.
• La varianza de cada ítem en toda la muestra, que debe estar calculada previamente; es suman las varianzas
de los ítems que componen cada versión de la escala pues la suma de las varianzas de los ítems entra en la
formula del coeficiente de fiabilidad.
• La varianza de los totales, a cada sujeto hay que recontarle su nueva puntuación según se van eliminando
ítems. Se estos nuevos totales se calcula la varianza.
Una manera de ir controlando el proceso es preparar un cuadro en el que se van viendo las sucesivas versiones
de la escala según se va calculando la fiabilidad con unos ítems y otros.
En la tabla vamos colocando los datos que intervienen en la formula (la media de los totales no es necesaria
para calcular la fiabilidad, pero conviene ponerla como dato descriptivo de interés)
El rigor metodológico no tiene que ser siempre el mismo, con tal de garantizar siempre un rigor suficiente.
22
Si pretendemos construir un instrumento de una calidad superior, el proceso no tiene que ser automático.
También tienen su lugar nuestras propias ideas sobre lo que queremos medir.
En principio deben eliminarse aquellos ítems que hacen que la fiabilidad sea menor, pero a veces eliminando
un ítem apenas baja la fiabilidad y si no lo eliminamos la escala puede quedar menos coherente con otros
criterios.
Otras veces entre los ítems que contribuyen a una mejor fiabilidad hay alguno que, una vez eliminados otros
previamente, puede tener poco sentido porque desequilibra el significado... y puede ser mejor eliminarlo
también. El que la fiabilidad varíe en el tercer decimal importa poco.
También puede suceder que con menos ítems obtengamos una fiabilidad igual o semejante que con un numero
mayor de ítems.
Como estamos tratando el análisis de ítems y de la fiabilidad como criterio de calidad, no debemos olvidar
que en general a mayor numero de ítems tendremos una mayor fiabilidad, y que con mas respuestas en los
ítems también aumenta la fiabilidad.
También se puede hacer el procedimiento inverso, y a veces es preferible. Se hace siguiendo estos pasos:
• Calculamos la fiabilidad con el subconjunto de ítems que más discriminan.
• Añadimos unos pocos ítems, los más discriminantes de los que nos quedan y volvemos a calcular la
fiabilidad.
• Damos la tarea por terminada cuando la fiabilidad empieza a bajar.
Con este procedimiento nos quedara una escala más breve.
Una alternativa mas sencilla al calculo del coeficiente es utilizar alguna de las formulas basadas en la
partición del test o la escala en dos mitades. Pero en principio, es preferible utilizar las formulas del
coeficiente .
• − OTRAS CONSIDERACIONES EN TORNO A LA ELECCIÓN DE LOS ITEMS DEFINITIVOS
Las soluciones automáticas que nos puede dar un programa de ordenador no son necesariamente las mejores.
El valor de t tiene que ser significativo y alto, pero además hay que tener en cuenta otros criterios en la
elección de los ítems.
• Equilibrio entre ítems positivos y negativos
Podemos incorporar un numero mas o menos igual de ítems positivos y negativos. Porque con ítems en las
dos direcciones se controlan mejor las respuestas aquiescentes, y además el constructo suele quedar mejor
expresado.
Si tenemos un numero de ítems aproximadamente idéntico en ambas direcciones, es útil calcular a cada sujeto
dos puntuaciones parciales sumando por separado ambos tipos de ítems, y calcular después la correlación
entre estas dos subescalas o totales parciales; si esta correlación es del orden de .50 tenemos una garantía
razonable de que ambos tipos de ítems miden lo mismo y que no esta operando la aquiescencia.
• Cuidar mas la representatividad del contenido de las formulaciones de los ítems
El la selección definitiva de los ítems podemos buscar una homogeneidad conceptual mas nítida. Quizás
veamos, por ejemplo, que al eliminar dos ítems que discriminan poco, nos sobra un tercer ítem que si
23
discrimina y que incluye la misma idea que los dos eliminados, pero el conjunto de la escala puede quedar
muy desequilibrado en cuanto al significado global. Todo esto puede depender de apreciaciones personales;
siempre hay que tener claro que es importante la interpretabilidad de los datos en función de un rasgo o
actitud bien definida.
• Incluir de manera equilibrada aspectos distintos (subescalas) del mismo rasgo general
También nos puede interesar que estén representadas con idéntico numero de ítems ideas que reflejan matices
distintos dentro de un rasgo general. En ocasiones un instrumento además de medir un rasgo general, se puede
subdividir en subescalas para medir por separado aspectos distintos.
En este caso tanto las subescalas como la escala formada por todos los ítems, deben tener una fiabilidad
aceptable. Este tipo de escalas suelen denominarse escalas factoriales.
• Incorporación de nuevos ítems
Cuando con pocos ítems, que en principio nos convencen porque expresan bien lo que deseamos medir, no
alcanzamos una fiabilidad adecuada, podemos acudir a las formulas que nos dicen cuantos ítems del mismo
estilo deberíamos añadir para alcanzar una fiabilidad determinada. También puede suceder que algunos de los
ítems eliminados en el análisis, simplemente estén mal formulados y haya que hacer una redacción nueva.
• Preparación de dos versiones, corta y larga, de la misma escala
Con frecuencia podemos observar que un numero reducido de ítems nos da una fiabilidad aceptable. Puede ser
interesante hacer dos versiones, una larga o normal y la otra breve, quizás con una fiabilidad menor, pero apta
para muchos de los usos de estos instrumentos.
• Explicación o redefinición del rasgo medido por nuestro instrumento
A veces, y a al vista de los ítems de la escala definitiva, habrá que redefinir lo que pretendemos medir o al
menos explicarlo adecuadamente aunque se mantenga el nombre del instrumento.
Los términos para designar los rasgos suelen ser muy genéricos, y de hecho instrumentos con el mismo
nombre pueden no coincidir en lo que miden, que debe ser definido con unos limites mas ajustados.
• − COMPROBACIÓN DE LA VALIDEZ Y OTROS ANÁLISIS POSTERIORES
Una vez que tenemos ya la versión definitiva de la escala, se hacen los demás análisis según los datos de que
dispongamos.
• Se pueden calcular datos descriptivos de las diversas submuestras si las hay.
• Podemos construir baremos o normas de interpretación.
• Se pueden comprobar diferencias entre grupos, correlaciones con otras variables... según los datos que
hayamos obtenido simultáneamente; o podemos pasar la escala a muestras nuevas obteniendo a la vez
otros datos que nos permitan hacer mas análisis.
• Podemos comprobar de manera mas especifica y planificada la validez del nuevo instrumento con los
datos obtenidos simultáneamente.
La confirmación de la validez mas que un calculo es un proceso.
Este es un resumen de lo que entendemos por validez y los modos de comprobarla:
24
Con los estudios de validación pretendemos dos finalidades:
• Confirmar el significado previsto de la variable (de la actitud o rasgo) que pretendemos medir.
• comprobar la utilidad practica del instrumento
• confirmación del significado pretendido (validez de constructo)
Los análisis pueden tener dos enfoques básicos, como son: 1º los estudios correlacionales y 2º las
comparaciones entre grupos.
Análisis correlacionales
Podemos distinguir tres estrategias basadas en estudios correlacionales.
1º. relación con otros modos de medir el mismo rango
Comprobamos la relación entre nuestro instrumento y otros modos de medir el mismo rasgo. Otros modos de
medir lo mismo pueden ser:
♦ Una pregunta amplia y sigue una descripción del modelo que supuestamente tiene el rasgo en
grado alto.
♦ Otro mini test de pocos ítems que mas o menos mida lo mismo, por Ej.
1. desde otra perspectiva
2. con un instrumento que mide el mismo rasgo pero construido con una técnica distinta
♦ Otra escala o test de otro autor y que supuestamente compruebe lo mismo.
♦ Si es posible, se puede comprobar la relación entre autoevaluacion y heteroevaluacion.
Estos nuevos instrumentos tienen un valor complementario, pueden ser muy breves y también pueden ser
simples preguntas.
2º. Comprobación de relaciones esperadas (positivas o negativas) con otros rasgos
podemos comprobar también la relación entre lo que mide nuestro instrumento y otros rasgos o características
distintas con las que esperamos que haya relación:
♦ Una lista de adjetivos o rasgos autodescriptivos que podrían equivaler a una serie de test de
personalidad; También se pueden sumar adjetivos que reflejen mas o menos el mismo rasgo.
♦ Test de personalidad
♦ Preguntas sueltas sobre diversos temas, otras actitudes, preferencias... que como hipótesis
puedan tener relación con la actitud medida.
3º. Comprobar que no existe relación donde no esperamos que la haya
Esta no relación nos ayuda a distinguir unos rasgos de otros, sobre todo cuando pertenecen al mismo ámbito
conceptual y es fácil confundirlos.
La no relación no hay que entenderla de manera literal; Puede tratarse de relaciones, incluso estadísticamente
significativas, pero menores que con otros rasgos, y de acuerdo con un razonamiento plausible.
25
Comparaciones entre grupos
Consiste en comparar grupos supuestamente distintos en aquello que estamos midiendo.
• Todas las comparaciones entre grupos equivalen a análisis correlacionales: nos da lo mismo por ejemplo,
preguntarnos si los niños superan a las niñas en la actitud A, que preguntarnos si el sexo esta relacionado o
tiene que ver con la actitud A. No solo hay una obvia relación conceptual entre las dos preguntas, sino que
mediante las formulas oportunas podemos transformar un valor de la t se Student en un coeficiente de
correlacion.
• Aun así nuestras preguntas espontáneas son unas veces en términos de relación, y otras en términos de
diferencias; Ambos enfoques nos ayudan a formular hipótesis que podemos intentar confirmar, y además
los procedimientos de análisis son en principio distintos aunque en ultima instancia aporten la misma
información.
• Al preparar nuestro instrumento de recogida de datos, debemos pensar que preguntas podemos hacer que
identifiquen a los sujetos según grupos de pertenencia o según características personales de interés que
permitan subdividir la muestra en subgrupos.
• El análisis estadístico será un contraste de medias, o análisis de varianza si las muestras son mas de dos.
• Confirmación de la utilidad del instrumento (validez predictiva)
En este caso verificamos, por ejemplo si existen correlaciones apreciables con determinados criterios, se trata
de validez predictiva en sentido amplio. Esta comprobación de la utilidad también aporta datos a la
comprobación del significado.
Se trata de calcular coeficientes de correlación entre el instrumento y determinados criterios. Estos son los
coeficientes que suelen denominarse coeficientes de validez.
PSICOMETRIA:
I.− GUIA PARA CONSTRUIR ESCALAS DE ACTITUDES:
¿POR QUE CONSTRUIMOS UNA ESCALA EN VEZ DE LIMITARNOS A UNA SOLA PREGUNTA?:
Construimos escalas de actitudes para medir determinados rasgos; entendiendo por medir, el apreciar
cuantitativamente si un sujeto tiene poco o mucho del rasgo en cuestión, o ver donde se sitúa un sujeto en un
continuo de menos a mas.
A veces el medir actitudes con una sola pregunta es muy útil como medida complementaria de instrumentos
mas complejos. Sin embargo, puede ser conveniente el disponer de varios indicadores de una misma actitud
que van a ser sumados después como indicador de esta actitud o variable.
Tenemos varias razones para construir escalas o disponer de varios indicadores del mismo rasgo:
• Con una serie de ítems describimos y medimos mejor constructos relativamente complejos. Una única
pregunta simplifica frecuentemente en exceso el concepto que vamos a medir.
• En conjunto una medida formada por varios ítems es mas valida, no solamente porque describen mejor un
constructo complejo, sino porque una única pregunta puede ser de hecho poco afortunada, o ser mal
entendida por muchos sujetos.
Una muestra relativamente amplia de preguntas constituye una mejor base para formarnos un juicio mas
preciso y fundado sobre como cómo está una persona en un rasgo concreto.
26
Este tipo de razones tiene mas peso cuando se vana tomar decisiones sobre los sujetos o interesa un buen
diagnostico individual.
• Aumenta la fiabilidad de la medida y se minimizan las limitaciones de cada ítem en particular, merecen mas
confianza varias preguntas que una sola. En un sentido mas psicometrico, si disponemos de una serie de
ítems podemos calcular el coeficiente de fiabilidad.
• Una razón de peso para sumar varios indicadores del mismo rasgo es que las diferencias entre los sujetos
van a quedar mas nítidas, va a ser mas fácil clasificarlos y, en definitiva, va a aumentar la varianza.
Diferenciamos mejor a las personas en un determinado rasgo si disponemos de varios indicadores y
consecuentemente detectaremos mejor las relaciones de ese rasgo con otras variables.
De los diversos tipos de escalas nos limitaremos aquí a tratar las denominadas escalas tipo Likert en las que
la suma de una serie de respuestas a ítems supuestamente homogéneos sitúa al sujeto en la variable medida.
1.− PROCESO DE CONSTRUCCION DE UNA ESCALA DE
ACTITUDES:
El proceso se puede describir de varias maneras, pero básicamente se puede concretar en los pasos siguientes:
1.− DEFINICION DE LA ACTITUD QUE SE DESEA MEDIR:
El primer paso es siempre clarificar el rasgo que se desea medir; una definición o explicación previa da
coherencia al resto del proceso. Puede ayudar el hacer previamente una descripción de la persona que
supuestamente tenga de manera clara la actitud que se desea medir.
No hay que olvidar que las actitudes, como cualquier otro rasgo que queramos medir, se pueden concebir en
diversos grados de abstracción, y pueden ser muy genéricos o muy específicos.
Puede ayudar también revisar otros instrumentos ya hechos.
2.− REDACCION DE LOS ITEMS:
Pueden redactarse de diversas maneras pero, en general, y tratándose de escalas de actitudes, suelen
formularse en forma de opiniones con las que se puede estar o no estar de acuerdo.
• Los ítems deben tener las siguientes características:
• Deben ser relevantes: claramente relacionados con la actitud que se desea medir.
• Deben ser opiniones con las que se pueda estar o no estar de acuerdo.
• Deben redactarse con claridad, de manera que todos los entiendan de la misma manera. Por esta razón:
• Hay que tener cuidado con expresiones como no, nunca, etc. que pueden crear confusión en la
respuesta.
• Deben contener una única idea, pues cuando hay mas de una idea se puede estar de acuerdo con una o
con otra. Una misma idea se puede formular de mas de una manera para comprobar después que
formulación es mas eficaz.
• Deben ser discriminantes, es decir, se deben redactar de tal manera que previsiblemente unos sujetos
estarán de acuerdo y otros no, o no tanto. Para medir debemos encontrar diferencias; tenemos mas garantía
de que los ítems miden lo mismo si simultáneamente diferencian a los mismos sujetos.
27
• Cabe formular ítems repetitivos, la misma idea dicha de diversas maneras. No obstante, aunque con ítems
muy similares se consiguen fácilmente coeficientes de fiabilidad altos, el constructo queda expresado de
una manera muy simple.
• Es preferible redactar los ítems en las dos direcciones positiva y negativa, es decir, que unas veces el estar
de acuerdo manifiesta una actitud favorable y otras manifieste una actitud desfavorable; eso si, sin
introducir palabras negativas como no o nunca que se prestan a confusiones al responder. Esta redacción
bipolar tiene varias ventajas:
• Obliga a una definición previa mas matizada del rasgo o constructo.
• Requiere una atención mayor por parte del que responde.
• Permite comprobar la coherencia de las respuestas, verificando si hay contradicciones sistemáticas.
• Si hay un numero aproximado de ítems positivos y negativos, y sumamos a cada sujeto sus
puntuaciones a los dos tipos de ítems, podemos calcular la correlación entre los dos totales parciales
como si se tratara de dos subescalas. Esta correlación debe alcanzar un valor de 0.50 o mas, y
mostrará en este caso una coherencia global en las respuestas.
• Comprobar la coherencia es prácticamente lo mismo que comprobar que no se da la aquiescencia o
tendencia a mostrar acuerdo casi con cualquier afirmación, incluso con afirmaciones que se
contradicen. Cuando se de esta aquiescencia suele deberse a la ambigüedad en la redacción o falta de
claridad de los ítems.
La irrelevancia o ambigüedad puede sospecharse cuando demasiados sujetos escogen la respuesta central o los
ítems no discriminan. La no discriminación puede indicar también que un ítem no mide lo mismo que los
demás o que los sujetos lo entienden de otra manera. Si un ítem discrimina en sentido contrario puede haber
un error en la clave de corrección.
Sobre el numero inicial de ítems que deben redactarse: no hay un numero optimo, pero a mayor numero
inicial de ítems, mayor probabilidad de encontrar en el análisis un conjunto de ítems definitivos con una
fiabilidad suficiente. A mayor numero de ítems buenos también será mayor la fiabilidad.
3.− REDACCION Y NUMERO DE RESPUESTAS:
• Redaccion de las respuestas:
Las respuestas mas habituales en las escalas de actitudes suelen expresar el grado de acuerdo con el contenido
del item, pero puede haber otras mas apropiadas como grado de interes, de imprtancia,...,etc.
Cuadro 1
Caben otros fomatos en las respuestas como utilizar numeros especificando con palabras el significado de los
extremos (muy de acuerdo o muy en desacuerdo). O con letras. En genreral parece preferible el empleo de
letras o palabras, al menos si se juzga que los numeros pueden condicionar la respuesta.
Las repuestas en terminos de fracuencia estan muy avaladas por la investigacion cientifica.
Cuadro 2
• Numero de respuestas:
El numero habitual de repuestas es de cinco. En general, aunque no sucede siempre, a mayor numero de
respuestas en los items, suele haber en toda la escala una mayor fiabilidad, con tal de que el numero de
28
respuestas no supere la capacidad de discriminacion de los que responden: el numero maximo se suele situar
entre seis y siete respuestas y el minimo en tres.
• Numero par o impar de rspuestas:
Lo mas claro es que son preferibles tres respuestas a dos, ya que la fiabilidad es casi siempre mayor.
El incluir un numero par de categorias tiene la ventaja de que siempre cabe la posibilidad de agruparlas en dos
categorias, de acuerdo y en desacuerdo, y se elimina ademas la posibilidad de que los sujetos se evadan
escogiendo la respuesta central.
4.− PREPARAR LA CLAVE DE CORRECCION:
Las respuestas se codifican siempre con numeros integros sucesivos. En principio es preferible evitar el 0 y
comnezar a partir de 1.
La clave en numeros debe hacerse de acuerdo con el snetido del item, de manera que la respuesta mas
favorable a la actitud tenga el numero mayor.
Cuadro 3
5.− PREPARAR PREGUNTAS O INSTRUMENTOS ADICIONALES:
Ademas de la escala que se esta construyendo se deben preparar otras preguntas, o incluso otras escalas o
instrumentos que puedan estar ya hechos, y quie los sujetos responderan al mismo tiempo, para recoger datos
adicionales. Estos nuevos datos o preguntas tienen que ver con la verificacion de la validez del instrumento.
• El obtener datos adicionales de interes es importante por varias razones:
• Buscar mas datos hipoteticamente relacionados con lo que queremos medir contribuye a que nos hagamos
una idea mas clara del rasgo o actitud que nos interesa medir.
• Recoger datos adicionales al mismo tiempo que se prueba el instrumento en una primera muestra supone un
considerable ahorro de tiempo y esfuerzo.
• Las relaciones que vamos encontrando con otras variables se pueden incorporar de alguna manera al
proceso de construccion del instrumento, en el sentido de que nos pueden sugerir ideas validas como
criterio en la misma selección de los items, en la busqueda de muestras determinadas,...,etc.
• El pensar en otros datos tiene que ver con la comprobacion de la validez de nuestro instrumento y de los
datos que con él recogamos.
Comprobar la validez de un instrumento tiene que ver con la comprobacion o confirmacion del significado de
lo que medimos, y tambien de su utilidad.
Es importante tener desde el principio una idea clara no solamente del rasgo que queremos medir, sino
tambien con que otros rasgos puede estar relacionado ese rasgo, a que grupos pùede diferenciar,...,etc.
Estos datos adicionales son basicamente de dos tipos:
• Datos cesales o sociologicos: Como edad, sexo, ocupacion o curso, estado civil, etc. Estos datos serviran
para describir la muestra y para hacer analisis adicionales.
• Datos de otro tipo: Como pueden ser preguntas relacionadas con lo que se pretende medir, u otros test o
escalas que pueden estar relacionados con la variable que estamos midiendo.
29
6.− OBTENER DATOS DE UNA MUESTRA:
Una vez preparada la version inicial del instrumento, se recogen las respuestas de una muestra para poder
hacer los analisis correspondientes, sobre todo el analisis de items y el calculo de la fiabilidad; estos analisis
nos van a permitir dar forma al instrumento definitivo.
• El tipo de muestra elegido debe ser semejante al tipo de poblacion con el que se va a utilizar despues. A
mayor heterogeneidad en la muestra obtendremos con mayor facilidad una fiabilidad alta.
• Sobre el numero de sujetos necesario; para que los analisis tengan suficiente consistencia y sean
extrapolables a muestras semejantes, conviene que haya al menos 5 sujetos por item inicial. Si se piensa
hacer despues una analisis factorial debe haber unos 10 sujetos por item; en cualquier caso no deben ser
menos de 200.
7.− ANALISIS DE ITEMS Y COMPROBACION DE LA FIABILIDAD:
En primer lugar y una vez obtenidos los datos calculamos:
• La media y la desviacion tipica de los totales: cada sujeto tiene un total que es la suma de todas sus
respuestas a los items.
• La media y la desviacion de cada item.
A continuacion llevaremos a cabo el analisis de items y calcularemos la fiabilidad.
EJERCICIO DE FIABILIDAD (tipo examen)
Media
Desviación
Hc
Ítem 1
2,42
0,99
− 0,20
Ítem 2
2,38
0,84
0,49
Ítem 3
2,74
1,09
0,32
Ítem 4
2,18
1,18
0,28
Ítem 2
Ítem 3
Ítem 4
0,71
0,52
0,48
1,18
0,25
1,40
Covarianzas entre ítems.
Ítem 1
Ítem 2
Ítem 3
Ítem 4
Ítem 1
0,97
−0,22
−0,14
−0,13
• ¿Se trata de una prueba de rendimiento óptimo?
No es una prueba de rendimiento óptimo porque las medias exceden a la unidad y en estas pruebas el rango es
entre 0 y 1. Y la desviación típica entre 0 y 0,5.
• ¿En que ítem los sujetos contestan de manera mas parecida?
El de la desviación típica más pequeña: ítem 2.
• Interpreta la media del ítem 3.
Si fuese una prueba de rendimiento óptimo tendríamos que decir que es el índice de dificultad.
30
Pero como es una prueba de rendimiento típico solo decimos que es la media mayor.
• ¿Hay algún ítem mal cuantificado?
Para esto miramos el Hc, que es el que relaciona el ítem con todos los demás.
El −0,20 del ítem 1 quiere decir que cuando todos puntúan alto, este puntúa bajo, con lo cual esta mal
cuantificado.
• ¿Cuál es el ítem que menos relaciona?
El ítem 1 (no por ser negativo sino por el numero) por ser el mas bajo, y luego también lo comprobamos en
las covarianzas.
• Eliminar el menos discriminativo y hallar la media del nuevo test.
Quitamos el ítem 2.
Para tener la media total, voy sacando la de la media del ítem 1, del ítem 3 y la del 4, y la suma de ambas es la
total.
La varianza seria:
S2 =
• Eliminar el ítem que menos contribuye a la consistencia interna y luego calcular el índice de consistencia
interna.
Eliminamos el ítem 1, por ser el Hc mas bajo.
Y como nos piden consistencia hallaríamos el de Cronbach.
=
k es el número de ítems.
se suman las varianzas del ítem 2, 3, 4 (los que NO quitamos).
0,71 =
Covarianza del 2−3 = 0,52
++
31
1,18 =
Covarianza del 2−4 = 0,48
++
1,40 =
Covarianza del 3−4 = 0,25
EJERCICIO 3
Rxx´=
es la fiabilidad por el procedimiento de las dos mitades para los 6 ítems.
Una correlación de 0,51 es moderadamente significativa, la coherencia entre ambas partes es moderada.
El 51% de las diferencias encontradas quedan explicadas por el verdadero nivel de rasgo.
EJERCICIO 4
se halla sumando el ítem 2, 3, 4 (X = X2 + X3 + X4 = 4, 7, 3, 5, 6, 11, 8, 4) de ahí se halla la varianza, que en
este caso es 6.
Interpretación: el 78% de las diferencias encontradas se explican por el verdadero nivel de rasgo.
O bien, el 78% de las diferencias encontradas se explican por lo que los sujetos tienen de común y además
distinguen las diferencias.
EJERCICIO 7
Si tenemos una fiabilidad de 0,70 y queremos llegar a una fiabilidad de 0,90, sustituiríamos en la formula y
nos daría n = 3, 86 formas paralelas.
rnn es la fiabilidad deseada.
r11 es la fiabilidad obtenida con el número original de ítems.
Ahora en este caso si se podría utilizar la regla de tres.
40 ítems − 1 forma paralela
X ítems − n − 1 = 2,86 formas paralelas
Y el resultado seria 115 ítems que vamos a añadir...
32
¡OJO!: no confundirnos al poner n = 3,86 que ha sido lo que nos ha dado en la formula, porque hay que
restarle la forma paralela que ya teníamos en el test inicial. Si no la restamos nos saldrían 154 ítems que son el
total, no los que hemos añadido (115).
EJERCICIO 9
N = 4 quiere decir que he añadido 3 formas paralelas a la inicial.
Cuando duplico el número de ítems incremento un 0,17 de fiabilidad.
La siguiente vez (de n =2 a n=3) incremento un 0,10.
La próxima vez (de n=3 a n=4) incremento un 0,12.
Esto nos indica que es incorrecto, porque la fiabilidad aumenta pero por el efecto techo no puede ser mayor
que la fiabilidad anterior.
El incremento debería ser 0,6, con una fiabilidad de 0,73.
A − EF − CA
• V.D: criminalidad operativizada en numero actos delictivos.
V.I: Tipos de ciudad, operativizada en 3 niveles: Centros Industriales, C. Comerciales, C. Políticos.
• Ho: no existen diferencias estadísticamente significativas en los promedios de criminalidad en función del
tipo de ciudad.
Cálculos previos.
A1
A2
A3
Media
6,625
5,5
3,5
Desviación
1,218
1,5
1,5
Varianza
1,484
2,25
2,25
meter todas las medias y hallar la desviación.
meter todos los datos y hallar la desviación.
Anova A − EF − CA
F
33
Origen de la
Variación
Suma de
cuadrados
Grados de
libertad
Cuadrados
medios
CM entre
CM dentro
(numerador de la (denominador de
varianza)
la varianza)
ENTRE
DENTRO
TOTAL.
40,08
47,872
87,936
2
21
23
(Varianza)
SC/GL
20,04
2,279
8,793
0,05= 3,47 Si nuestra F > F tablas R Ho p <
F2, 21
0,01 = 5,78
• DECISION
Con una F2, 21 = 8,793; p < 0,01 Rechazo Hipótesis Nula.
• CONCLUSION.
Existen diferencias estadísticamente significativas en los promedios de criminalidad en función del tipo de
ciudad.
2. INDICE DE ASOCIACION.
SCentre − (K −1) · SCdentro = 0,39
SCtotal + SCdentro
El 39 % de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad. Tiene una relevancia
grande.
0,001 Baja 0,06 Media 0,14 Grande
3. CONTRASTE DE TUKEY.
0,05 = 3,58
DHS =
q
0,01 = 4,64
DHS0,05 =
DHS0,01 =
34
M1 − M2
1,125
3,125
2
A1 − A2
A1 − A3
A2 − A3
P
P>0,05
P<0,01
P<0,05
NO
SI
SI
Rechazo si (M1−M2) > DHS
Existen diferencias estadísticamente significativas entre todos los promedios de los diferentes niveles de la
variable dependiente, menos en el del grupo A1 − A2, dándose las diferencias mas pronunciadas en función
de pertenecer al grupo A1 − A3.
4. CONCLUSION.
Con una F 2, 21 =8,793; P< 0,01 vemos que existen diferencias estadísticamente significativas en los
promedios de criminalidad en función del tipo de centro.
Mas en concreto esas diferencias se localizan entre los centros industrial y político (M1− M3 = 3,125 P< 0,01)
Centros industriales (M = 6,625) y centros industriales (M = 5,5) no difieren, a pesar de tener un índice de
criminalidad mas altamente significativo que el político.
Además un 39% de la variabilidad encontrada en la criminalidad es atribuible al tipo de ciudad, teniendo una
relevancia grande.
ANOVA AB − EF − CA
• V.D: conducta motora infantil, operativizada en muero de bolas metidas en una caja en 4 minutos.
V.I: privacion social; operativizada en 4 niveles: 10, 20, 40 y 60 minutos.
Magnitud del reforzador; operativizada en 2 niveles: con o sin esfuerzo.
Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora
infantil en funcion de la magnitud del reforzador.
Ho Factor B: no existen diferencias estadísticamente significativas en los promedios en la conducta motora
infantil en funcion del tiempo de privación social.
Ho Interaccion: no existen diferencias estadísticamente significativas en los promedios en la conducta motora
infantil en funcion de las distintas combinaciones entre privación social y magnitud del refuerzo.
Calculos Previos.
10
Con
media
3,25
Refuerzo
desviación
1,639
varianza
2,687
Sin
media
1,5
Refuerzo
desviación
0,5
varianza
0,25
35
min
20
min
40
min
60
min
4,5
1,118
1,25
3
0,707
0,5
7
1
1
5,5
0,5
0,25
8
0,707
0,5
9,75
0,433
0,1875
Mb1=2,375
Sb1 = 0,569
Mb2= 3,75
Sb2 = 0,2055
Mb3 = 6,25
Sb3 = 0,25
Mb4= 8,875
Sb4 = 0,137
Ma1= 5,687 S= 2,228 Ma2= 4,93 S = 3,1715
Ej. La Mb1 se halla metiendo las medias de la 1ª fila, se suman y se halla su media
La Ma2 se halla metiendo las medias de la 1ª columna y hallando su media.
La Sb1 se halla metiendo las desviaciones de la 1ª fila y hallando su desviación.
La Sa1 se halla metiendo las puntuaciones individuales (enunciado del ejercicio) de la 1ª columna (con
refuerzo) y hallando la desviación.
M factor A: 5, 3085 se meten las 2 medias de A y se halla la media.
S factor A: 0, 3785 se meten las 2 medias de A y se halla la desviacion.
S2 factor A: 0, 1432 se meten las 2 medias de A, se halla la desviación y se eleva.
M factor B: 5,3125 Se meten las 4 medias y se halla la media.
S factor B: 2,481 Se meten las 4 medias de B y se halla la desviación.
S2factor B: 6,16 Se meten las 4 medias de B, se halla la desviacion y se eleva.
Mtotal: 5,3125 meter todas las puntuaciones individuales y hallar la media.
Stotal: 2,7662 meter todas las puntuaciones y hallar la desviacion.
S2total: 7,6523 elevar al cuadrado la desviacion de los totales.
36
S2AxB: 6,824 se meten las 8 medias de cada celda (3,25, 4, 5, 7, 8, 1,5, 3, 5,5, 9,75) y se halla la varianza.
Meter la desviación de las celdas y luego hallar el sumatorio al cuadrado.
n = numero de puntuaciones en cada celda.
A: numero de niveles del factor A.
B: numero de niveles del factor B.
Anova AB − EF − CA
Suma de
cuadrados
Origen de la
Variación
Factor A
Factor B
Interacción
Error
TOTAL
Grados de
libertad
(numerador de la (denominador de
varianza)
la varianza)
4,5824
197,12
16,665
25,2128
244,87
3
1
3
24
31
Cuadrados
medios
F
CM entre
(Varianza)
SC/GL
1,527
197,12
5,555
0,8694
CM
dentro
4,087
59,52
4,99
P
(probabilidad)
>0,05 A
<0,01 R
<0,01 R
0,05 = 4,86 0,05 = 3,01
F1, 24 F3, 24
0,01 = 7,82 0,01 = 4,72
Existen diferencias estadísticamente significativas en la conducta motora infantil en funcion de la privación
social.
F1, 24 = 59, 52 p < 0,01
Sin embargo no existen diferencias estadísticamente significativas en la conducta motora infantil en funcion
del tiempo de privación social. F3, 24 = 4,087 p > 0,05
• INDICE DE ASOCIACION.
Se halla de los factores que hemos rechazado la Hipótesis Nula.
SCB − (B −1) · CMerror = 0,7986
SCtotal + CMerror
El 79,86% de la variabilidad encontrada en la conducta motora infantil esta asociada a la privacion social.
SCAB − (A −1) (B−1)· CMerror = 0,057
SCtotal + CMerror
37
El 5,7% de la variabilidad encontrada viene explicada por las diferentes combinaciones de reforzador y
privación social.
0,001 es bajo. 0,06 media 0,14 alta
Y el coeficiente eta es < 0,05 pequeña y < que 0,10 grande
• CONTRASTE DE TUKEY.
Hallamos el de factor B porque hemos rechazado Hipótesis Nula y tenemos varios niveles.
En el factor A no hace falta porque solo tenemos 2 niveles.
0,05 = 3,90
DHS =
q 4, 24
0,01 = 4,41
El 4 de la q se refiere a que hay 4 niveles en el factor B.
DHS0,05 =
DHS0,01 =
1−2
1−3
1−4
2−3
2−4
3−4
M1 − M2
1,375
3,875
6,5
2,5
5,125
2,625
P
P>0,05
P<0,01
P<0,01
P<0,05
P<0,01
p<0,01
NO
SI
SI
Si
Si
Si
Rechazo si (M1−M2) > DHS
Se encuentran diferencias estadisticamente significativas en todos menos en el de 10 y 20 minutos.
• GRAFICO DE LAS MEDIAS.
Se meten las medias de las celdillas.
En los primeros momentos (10 − 20 min) la conducta motora aumenta, mas si tiene refuerzo, pero llegado a
40 − 60 minutos los que tienen refuerzo disminuyen y los otros aumentan.
Si son líneas paralelas no hay interacción.
38
Si no son paralelas hay interacción.
Cuando las líneas se cruzan la interacción es NO ordinal−
Y cuando las líneas no paralelas no las veo cruzarse la interacción es ordinal.
• INTERPRETACION Y CONCLUSION.
Ho Factor A: no existen diferencias estadisticamente significativas en los promedios en la conducta motora
infantil en funcion de la magnitud del reforzador.
Ho Factor B: no existen diferencias estadísticamente significativas en los promedios en la conducta motora
infantil en funcion del tiempo de privación social.
Ho Interaccion: no existen diferencias estadísticamente significativas en los promedios en la conducta motora
infantil en funcion de las distintas combinaciones entre privación social y magnitud del refuerzo.
Decisiones.
F1, 24 = 59, 52 p < 0,01
Como se observa en los datos hemos rechazado la hipótesis nula relacionada con la privacion social, lo que
significa que existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del
tiempo de privación social. Tras hallar la diferencia honestamente significativa podemos afirmar que esas
diferencias estadísticamente significativas se dan entre todos los grupos, excepto en el de 10 − 20 minutos.
F3, 24 = 4,087 p > 0,05
Sin embargo hemos aceptado la hipótesis nula relacionada con la magnitud del refuerzo, lo que indica que no
existen diferencias estadísticamente significativas en la conducta motora infantil en funcion del tiempo de
privación social. Ademas al estar operativizada en dos niveles (con reforzador, sin reforzador) no ha sido
necesario realizar contrastes posteriores.
F3, 24 = 4,087 p > 0,05
De igual manera hemos rechazado la hipótesis nula de la interaccion, lo que quiere decir que existen
diferencias estadísticamente significativas en la conducta motora en funcion de las distintas combinaciones
entre magnitud del esfuerzo y privación social.
Mas concretamente podemos afirmar que el 79% de la variabilidad encontrada en la variable dependiente, que
en este caso es la conducta motora, viene explicada por el tiempo de privación social en que se mantiene al
niño (0,7986), siendo un porcentaje alto, porque excede al 14%. Y un 5,7% de dicha variabilidad por la
interaccion entre la privación social y la magnitud del refuerzo.
ANOVA A− EF− MR
Ho Filas: no existen diferencias estadísticamente significativas en los promedios de los alumnos.
Ho Columnas: no existen diferencias estadísticamente significativas en los promedios en la manera de evaluar
de los profesores.
Cálculos previos:
39
Columnas.
A
B
C
D
E
F
media
5,71
4,714
5,857
5,857
5,142
5,714
desviación
2,11
2,05
1,958
1,641
2,294
1,979
varianza
4,49
4,20
3,836
2,693
5,265
3,918
M columnas: 5,499
S m columnas: 0,426 se meten todas las medias y se halla la desviación.
S2 M columnas: 0,1817 hallar la desviación tipica de todas las medias y luego al cuadrado.
Filas.
El total de las filas es la suma de las puntuaciones de cada sujeto.
1
2
3
4
5
6
7
Media
2,833
5,5
7
2,83
6,83
5,166
7,66
Desviacion
0,687
0,957
0,816
1,343
1,572
1,213
0,94
Varianza
0,472
0,916
0,666
1,805
2,472
1,472
0,888
M filas: 5,402
S m filas: 1,811 se meten todas las medias y se halla la desviación.
S2 M filas: 3,281 se eleva al cuadrado la desviación.
M total: 5,404
S total: 2,127 meter todos los datos y hallar la desviación.
S2total:4,526 meter todos los datos y hallar la varianza.
Anova A − EF − MR
meto las medias de las columns al cuadrado y hallo el sumatorio.
meto las varianzas y hallo el sumatorio
meto las medias de las columnas, hallo la media y lo elevo al cuadradp.
40
aplico la formula
meto los totales de las filas y hallo la varianza
meto las medias de las columnas y hallo la varianza.
SCT =
Suma de
cuadrados
Origen de la
Variación
Grados de
libertad
(numerador de la (denominador de
varianza)
la varianza)
Cuadrados
medios
F
CM entre
(Varianza)
SC/GL
CM
dentro
P
(probabilidad)
Filas
(alumnos).
Columnas
(Profesores)
Interacción
Variabilidad
TOTAL.
137,802
6
22,967
15,428
< 0,01 R
7,6314
5
1,5263
0,88
> 0,05 A
44,6586
30
1,4886
190,092
41
0,05 = 2,53 0,05 = 2,42
F5, 30 F 6, 30
0,01 = 3,70 0,01 = 3,47
A la vista de los datos concluimos que no existen diferencias estadísticamente significativas entre los
profesores a la hora de clasificar a los candidatos. Hemos aceptado la hipótesis nula de las columnas.
F5, 30= 1,025 p > 0,05
Son los sujetos los que son diferentes entre si. Es decir existen diferencias estadísticamente significativas entre
los candidatos. Hemos rechazado la Ho de las filas; incluso con los grados de libertad mas conservadores (1,
n−1; 4,08, 7,31)
F 6, 30 = 15,428 p < 0,01
2. Calcula el coeficiente de fiabilidad que tenga mas sentido calcular de acuerdo con los resultados
obtenidos. Interpretación.
Cuando se rechaza la Ho de las Columnas es conveniente hallar el coeficiente de fiabilidad de las filas.
Y cuando se rechaza la Ho de las filas hay que hallar el coeficiente de fiabilidad de las columnas para ver en
que grado las columnas son consistentes.
41
Como hemos podido comprobar mediante el análisis de varianza no existen diferencias estadísticamente
significativas entre los profesores a la hora de clasificar a los candidatos.
A través del coeficiente fiabilidad y una vez cuantificado su grado de unanimidad, podemos afirmar que
tienen un grado de consistencia de en torno al 14%
Fiabilidad en los test y escalas.
54
X=V+E
r11=
r11=
=
Índice de precisión =
XV =
Rxx´=
42
AS − AI
Dc1=
N
AS + AI
Df=
N +N
AS + AI
Df=
N +N
Dc2=
Indice dificultad para todo el test =
Indice discriminacion para todo el test =
K 2i
= 1−
k −1 2t
43
Descargar