Teoría y Construcción de pruebas

Anuncio
Teoría y Construcción de pruebas
Profesor Mauricio González
Escuela de Psicología
Universidad de La Serena.
Este material consiste en apuntes de clases. No está corregido ni estructurado y sólo puede ser usado de base
o guía para el estudio. Para mayor información los alumnos deben estudiar los capítulos correspondientes de
los libros que a continuación se señalan.
Se agradecerá recibir sugerencias y comentarios.
Lewis Aiken (1996) “Test Psicológicos y evaluación”. 8º Edic. Edit. Prentice Hall
Cap. 1 y apéndice A (En biblioteca)
Fred Kerlinger (1988) “Investigación del Comportamiento” 3º Edic. Mc Graw Hill.
Cap 3, 25, 26, 27. (En biblioteca)
Anasstasi, A. y Urbina, S. (1998) . Test Psicológicos. México: Prentice Hall. Cap. 1
Magnusson (1998) Teoría y construcción de los test. México: Trillas
Capítulo 1
** Unidad I:
* Perspectiva Histórica y orígenes.
Las diferencias individuales en tiempos anteriores ( por ejemplo, en la Edad Media) no eran
importantes, como lo son ahora, debido al teocentrismo imperante en la época. Con un vuelco a una postura
antropocéntrica, las diferencias individuales o el interés por éstas, comienza a desarrollarse.
Varios son los autores que destacan, entre ellos Galton, quien mostró bastante interés por medir los
tiempos de reacción y agudeza sensorial, ya que pensaba que esto podía ser una medida de la inteligencia.
Cabe mencionar que el gran impulsor del desarrollo de los Test, fueron las guerras mundiales.
Discípulos de Galton, como Cattel, aporta un aspecto estadístico a los Test. Sin embargo a Binet
le interesó medir la adaptación al sistema escolar de los niños, donde a partir de este estudio surge el concepto
de Edad Mental, la cual se comparaba con respecto a la edad cronológica.
Posteriormente surge el concepto de coeficiente intelectual (CI) al establecer el coeficiente entre
Edad mental (EM) y Edad cronológica (EC) : EM/EC*100.
Importancia también tuvieron los test Alfa y Beta, ya que en tiempos de guerra fueron útiles para
seleccionar sujetos.
En casi 80 años desde el comienzo de la aplicación de Test, se puede hablar de una especialidad
Psicométrica, que se encarga exclusivamente de la aplicación y creación de test.
* Funciones
Los test en general se utilizan para medir características psicológicas de un sujeto o de un grupo de
sujetos. La Aplicación de test, pruebas o instrumentos de medición psicológicos se hace, fundamentalmente,
en el contexto de la investigación científica y de la evaluación conducente a un diagnóstico. En esta última,
puede hacerse en un contexto clínico, en selección de personas en el ámbito laboral, en educación con
diversos fines, desde la medición del rendimiento, la evaluación del nivel intelectual, la personalidad y
muchos otros constructos.
* Las Diferencias Individuales
En general se asume que los seres humanos son susceptibles de ser descritos por un conjunto de
características. Dichas características pueden ser separadas en aquellas que:
- son comunes para todos los seres vivos
- son comunes para todos los mamíferos
- son comunes para todos los seres humanos
- son comunes para todos los seres humanos de una clase (tipo)
- son propios y únicos de un solo individuo.
En general podría definirse como características psicológicas a aquellas cualidades o atributos que
entran en lo que se llaman:
- aspectos afectivos
- aspectos cognitivos
- aspectos conductuales.
En este sentido, interesa conocer los " grados " en que una persona difiere de otra, o los grados en
que difiere de algún valor estándar (promedio o norma) o algún perfil ideal.
Se supone que las diferencias individuales son medibles (discriminables) y que se fundamentan en la
existencia de una realidad objetiva subyacente.
* Aspectos Epistemológicos de la Medición de las Diferencias Individuales
La pregunta básica tiene que ver con el supuesto carácter objetivo de las características psicológicas,
por ejemplo, ¿qué es la inteligencia o la personalidad? ¿Existe en la realidad? ¿Cómo se puede demostrar su
existencia? ¿ Cómo hacer frente a las críticas que provienen desde el conductismo radical ?.
Además, están estrechamente vinculados el concepto de validez que se analizará más adelante.
El problema anterior también está vinculado al problema de la consistencia de las mediciones de una
característica como por ejemplo la inteligencia. Estas mediciones ¿son estables en el tiempo o van
cambiando? Si es estable como tradicionalmente se cree, ¿qué ocurre si las mediciones de inteligencia de
una persona cambian en el tiempo?. ¿Tiene que ver con una falla en la teoría que supone que la inteligencia
es estable o tiene que ver con una falla en el instrumento? ¿ Cómo saber si el error corresponde a uno u otro
aspecto?.
Lo anterior se puede analizar en el siguiente esquema:
- hay un plano ontológico
- hay un plano epistemológico
- hay un plano metodológico.
En términos muy generales se puede decir que el primero se refiere a lo real o verdadero y no
podemos decir en rigor nada sobre sus características y la posibilidad de que exista con independencia de los
observadores.
El segundo plano es el de " modelo o mapa " que se tiene sobre la " realidad”. Corresponde a la
teoría.
Hay discrepancias entre los distintos teóricos sobre la construcción de ese " mapa”. Algunos
sostienen que puede ser verdadero en cuanto puede representar fielmente la realidad. Otros afirman que puede
ser sólo " isomórfico " es decir tener una forma similar a la realidad o equivalente. Otros piensan que es un
esquema que básicamente mantiene cierta consistencia o correlaciones internas, pero no dice mucho acerca
de cómo es la realidad. Otros piensan que no tiene validez hacer la pregunta, porque al construir el modelo,
se construye la realidad.
No nos interesa discutir estas posturas, sólo debemos decir que para trabajar en medición se debe
aceptar algunos supuestos mínimos.
Existe un isomorfismo entre el modelo y la realidad, es decir, el modelo, teoría, constructo, es
semejante a la realidad.
Los supuestos estadísticos son válidos. En ese sentido los modelos y teorías con sus
constructos son probados empíricamente y si salen airosos de esa confrontación con los " hechos ", entonces
se acepta la validez del constructo.
Si los datos son consistentes entre medidas o entre distintas partes del test, entonces las mediciones
son confiables.
* Clasificación de Instrumentos ( Criterios )
1.- Si es estandarizado o no estandarizado: se refiere a que existen instrumentos que han sido hechos por
expertos en conocimientos teóricos de la variable a medir, expertos en estadísticas, quienes construyen
cuidadosamente un instrumento y luego lo aplican a un gran grupo de personas de las cuales obtienen normas
o estándares que sirven como referencias para posteriormente comparar los resultados obtenidos en la
aplicación a un sujeto (o varios) en particular. Para que la aplicación de un test estandarizado sea válida y
confiable se debe aplicar en condiciones estándar, que son las mismas que se utilizaron en la aplicación de
estandarización..
Los Test no estandarizados deben ser construidos con la mayor rigurosidad posible, pero los
puntajes obtenidos de sus aplicaciones no se pueden interpretar en términos generales. Su interpretación
dependerá de la cantidad de sujetos a los que se les aplicó y sólo se pueden comparar los sujetos evaluados
entre ellos. Si se aplica a un solo sujeto, los resultados sólo se pueden interpretar teóricamente y
cuantitativamente.
Para que un test sea de buena calidad no es requisito sustancial el que esté estandarizado.
2.- Individuales o Grupales: hay test que no pueden ser aplicados a grupos, sino que solamente de manera
individual. Los Test individuales son más demorosos y caros, pero se puede obtener más información. En
cambio, en los grupales, la información es más general aunque su aplicación es menos demorosa y más
económica.
3.- Velocidad / Poder: tiene que ver con el tiempo que se le da a la persona para responder. En las pruebas de
velocidad interesa más la rapidez de la persona en responder la tarea y por lo general los test consisten en un
gran numero de reactivos de baja complejidad con escaso tiempo límite. El poder quiere medir la capacidad
de la persona para resolver problemas complejos y los test constan de pocas preguntas de complejidad alta sin
tiempo límite.
4.- Objetivo/ No Objetivo: cuando es objetivo se tiene claro cómo se aplica, cómo se obtienen los puntajes y
el significado de los puntajes. Esto implica que los reactivos son estructurados y admiten un número limitado
de respuestas. Una prueba subjetiva tiene preguntas poco estructuradas y admiten muchas respuestas
posibles. Los puntajes se asignan según el criterio del evaluador y generalmente esa evaluación es cualitativa.
La interpretación depende del evaluador en muchos aspectos..
5.- Verbales/ No verbales/ de Ejecución: una prueba será verbal cuando los reactivos requieran del lenguaje
verbal. Su desventaja es que no se pueden aplicar a personas analfabetas, ciegos, mudos, o niños muy
pequeños.
Los no verbales son aquellos cuyos reactivos no interactúan por medio del lenguaje verbal.
En los de ejecución se requiere que el sujeto manipule un aparato u objetos específicos.
6.- Test cognitivo/ afectivo: un test cognitivo busca medir los productos de la actividad o procesos mentales.
Este tipo de test puede dividirse en aptitudes y logros. El primero pretende predecir el rendimiento futuro en
alguna actividad; el segundo busca medir conocimiento que se han adquirido.
Los test afectivos son los que miden aspectos de personalidad: actitudes, temperamento, etc.
También se puede hacer una pauta más amplia utilizando como criterio la forma en que se obtiene
la información:
a) observación conductual: por ejemplo medir a través de una pauta sin contacto directo con el sujeto y
evaluar conductas en un contexto.
b) pruebas de lápiz y papel
c) dibujos proyectivos
d) reportes de terceros
e) autorreportes
Todas estas clasificaciones no son excluyentes.
* Técnicas de Evaluación Objetivas: Instrumentos y Aparatos
Los instrumentos de evaluación objetiva se refiere a aquellos que registran mediciones de
características independientes del observador e incluso de acción conciente del evaluado; se refiere a aparatos
mecánicos de actividad fisiológica y neurofisiológica, por ejemplo el electroencéfalograma, el
electrocardiograma.
Los instrumentos objetivos en este contexto generalmente están estandarizados. Por otra parte el
carácter de objetivo se puede determinar basándose en dos dimensiones básicas:
- cada vez que se aplique por la misma persona o por distintas personas (a un mismo sujeto), se obtenga el
mismo resultado
- De preferencia tener un grupo de referencia normativo con el cual comparar los datos e interpretarlos.
La mayoría de los test conocidos son autoinformes, es decir, quien responde " informe sobre sí
mismo . Su característica principal es que los reactivos hacen preguntas referidas a ideas, pensamientos,
conductas o actitudes que la persona debe reconocer en si misma y referir el grado de acuerdo a desacuerdo o
de identificación con lo afirmado. Se refieren a todos aquellos instrumentos en los cuales el individuo
responde una serie de reactivos referidos a aspectos de su vida interna.
La mayoría de las pruebas de personalidad, intereses y actitudes utilizan este tipo de test.
Pueden ser objetivos o subjetivos, y pueden ser estandarizados o no estandarizados.
* Psicometría y profesión
Lo fundamental es que desde el origen del área con la creación de los primeros test, el campo se ha
desarrollados de manera explosiva.
En la actualidad hay profesionales dedicados ha construir test especializados. En el mercado se
venden un gran número de test y a la vez existen personas que se dedican exclusivamente a aplicarlos. Más
aún hay personas que se especializan en la aplicación de sólo un tipo de test.
En Chile el aparato legal está un poco ambiguo. Requiere de mayor regulación y de poner mucho
más cuidado en el plano ético por parte de los psicólogos y fundamentalmente por parte de otros
profesionales no psicólogos..
Dependiendo de la complejidad del instrumento, se espera que sea aplicado por un profesional o
psicólogo calificado.
Hay instrumentos que deben ser aplicados exclusivamente por psicólogos. La razón principal radica
en el complejo proceso de la interpretación y manejo de los resultados.
* Aspectos Éticos en la Aplicación del Test
Lo primero y más importante es el carácter de confidencialidad de la información obtenida por un
test. Además la persona a quien se le aplica el test, debe estar informada de manera veraz sobre los objetivos
del instrumento. En segundo lugar se encuentra el criterio del psicólogo para realizar ciertos diagnósticos,
que muchas veces pueden resultar determinantes para la vida de una persona, en base a los datos de un
instrumento, los tiene márgenes de error ciertas divergencias en la interpretación.
** Unidad II:
* Constructos, Variables y Definiciones Operacionales
Los términos concepto y constructo generalmente significan lo mismo. Sin embargo hay que hacer
notar una diferencia:
- Concepto: expresa una abstracción formada por generalizaciones sustraídas de casos particulares. Por
ejemplo: peso, altura , longitud, masa, etc., son conceptos utilizados en la física. Los conceptos empleados
para expresar la variedad de la conducta humana serían por ejemplo: agresividad, inteligencia, etc.
De un conjunto de objetos se extraen las características básicas para llegar a formar un concepto.
- Constructo: es un concepto, pero inventado o adoptado con un propósito o finalidad específica.
El concepto de inteligencia se puede diferenciar del constructo de inteligencia, puede significar más
o menos cosas que éste. Cuando queremos investigar científicamente acotamos un concepto para permitir su
manejo y a su vez dejar fuera otras variables que si bien están relacionadas, complejizan el manejo del
constructo.
El objetivo de un constructo es acercar el fenómeno a lo empírico, a la realidad, al posibilidad de
observarlo, estudiarlo y medirlo.
Variables: son constructos o propiedades estudiadas que no se refieren a un objeto en sí, sino que a una
característica de un objeto. Se refieren a propiedades de otros conceptos o constructos. Es una cualidad
susceptible de adquirir distintos valores.
En términos generales, la variable es un símbolo con valores numéricos asignados. Ejemplo: x, a, b.
Si x es una actitud, los valores que puede asumir son cualquiera de los puntajes en una escala de
actitud.
El rendimiento medido en una prueba puede tener un valor entre 1 y 7.
Los valores que pueda tener una variable, depende tanto de sus características intrínsecas, como del
nivel de medición y las escalas que se utilicen. Puede tener dos valores o puede tenerr infinitos valores.
Las variables son constructos y estos pueden ser definidos de manera constitutiva u operacional.
- Definición Constitutiva: define un constructo utilizando otros constructos, por ejemplo, definir ansiedad
como un miedo subjetivo.
Los constructos deben poseer un significado constitutivo para ser útiles en el desarrollo de teorías.
La ciencia se construye en base a constructos a comprobar empíricamente. Con las definiciones
constitutivas sólo se puede observar.
- Definición Operacional: proporciona significado a un constructo especificando las actividades u operaciones
necesarias para medirlos.
Es una especificación de las actividades que una persona deba realizar para medirlo. Por ejemplo,
inteligencia es lo que la prueba "x" de inteligencia mide. Correspondería decir: en esta situación acordemos
que inteligencia sea lo que la prueba de inteligencia "x" mide. O, el significado de la inteligencia en esta
investigación está expresado por las calificaciones en la prueba de inteligencia "x". Así, un niño es inteligente
si puede leer un cuento breve, si no puede leerlo, no es inteligente. O bien, si puede sumar, multiplicar, leer y
definir a lo menos diez de veinte objetos cotidianos.
* Fundamentos de la Medición
- Medición: asignación de valores numéricos a objetos o eventos de acuerdo con reglas.
La buena o mala medición va a depender de las reglas.
Teóricamente se puede medir cualquier cosa, el problema está en la consistencia de lo medido.
Un proceso de medición va a ser mejor, mientras más se acerque a la realidad.
Los problemas asociados a la asignación de valores depende del tipo de objeto o evento, donde se
miden atributos de una variable. Así tenemos que en ciencias naturales, se miden variables como longitud,
peso, volumen. En Psicología en cambio, se miden características individuales o grupales; inteligencia,
agresividad, etc.
Valor Numérico: es básicamente un símbolo: 1,2, 3; A,B,C; I,II,III.
No tiene un valor cuantitativo, a menos que se le otorgue tal significado.
Número: valor numérico, al cual se le ha dado un significado cuantitativo. En cambio un símbolo puede tener
valor cuantitativo o cualitativo.
En términos abstractos matemáticos, se habla de " mapear " los objetos de un conjunto dentro de los
elementos de otro conjunto, que a su vez es una función con reglas de correspondencia. Ejemplo:
Valores numéricos
1
2
Conjunto de objetos o eventos
A
B
C
D
E
F
G
H
I
J
- La regla: es una guía, un método, un mandato que indica un procedimiento a seguir.
Una regla matemática es una función.
* Isomorfismo entre Medición y Realidad
Para que una medición tenga sentido, debe tener correspondencia con la realidad.
Para que una regla sea útil, debe darse este isomorfismo entre medición y realidad.
El Isomorfismo se da cuando se mida de mejor manera la realidad. ¿ Cómo se mide mejor la
realidad? No hay una manera de estar seguro sobre lo que es la realidad y la posibilidad de acceder a ella ,
sólo podemos esperar que las técnicas matemáticas y estadísticas desarrolladas para dichos fines puedan
cumplir con sus objetivos . Esperamos que el encontrar alta consistencia entre las medidas, congruencia entre
medidas relacionadas, correlaciones fuertes y capacidad predictiva, estos supuestos de objetividad y de
aproximación a la realidad se cumplan.
Un buen proceso de medición, que tenga sentido y significado para las personas, debe tener una alta
correspondencia con la “realidad”, es decir debe haber claridad sobre los objetos que se están midiendo,
sobre los conjuntos numéricos con los que se asignan valores y además tener reglas de asignación adecuadas.
Lo que en último término se mide son las características o propiedades de los objetos o personas.
Estas mediciones se hacen a través de indicadores. Las cualidades psicológicas no pueden observarse
directamente; deben inferirse a partir de la observación de indicadores.
* Niveles de Medición y Escalas
El universo es el número total de sujetos a medir. Para que haya medición del universo, la variable
debe ser dividida a lo menos en dos valores posibles.
Ejemplo: universo: estudiantes de tercer año de psicología que están en esta asignatura.
El criterio sería hombres y mujeres, es decir es la partición del universo en dos subconjuntos,
excluyentes mutuamente y exhaustivos, y se asignan y se cuentan los sujetos. Se les puede asignar valores de
1 y 0.
Al asignar los casos de cada categoría, se está clasificando.
Hay tres conceptos a entender por separado:
a) Niveles de Medición
b) Escalas asociadas a los niveles de medición c) estadística adecuada a cada nivel.
* Niveles de medición: existen cuatro; nominal, ordinal, intervalo, de razón.
Una misma variable se puede medir de manera nominal u ordinal.
Las reglas usadas para asignar objetos definen el tipo de escala y el nivel de medición.
1.- Medición Nominal: es el nivel más bajo en calidad, los números asignados no poseen un valor numeral,
sólo nominal.
No pueden ser ordenados, ni sumados, ni promediados, sólo pueden ser contados.
Es asignar una categoría, por ejemplo: hombre/ mujer, si se les asigna un valor numérico solamente
descriptivo.
2.- Medición Ordinal: sugiere que los sujetos pueden tener un rango y ser ordenados en base a una propiedad
definida de manera operacional. El rango es el número que ocupa una variable entre un máximo y un mínimo.
Debe satisfacer la ley de la transitividad, es decir, si a es mayor que b , y b mayor que c, entonces a
es mayor que c.
Hay tres formas de ordenar :
- en base a una cualidad
- en base a propiedades o criterios combinados
- o por medio de un símbolo, que diga de manera abstracta que el uno está por encima del otro, o a la inversa.
La limitación de este nivel, es que no dice cual es la cantidad de distancia entre uno y otro. Los
rangos no indican valores absolutos.
3.- Medición de Intervalo: posee las características de los dos niveles anteriores, pero además los valores
asignados representan distancia iguales en la propiedad que se está midiendo. Al hablar de intervalo, se refiere
a la distancia arbitraria entre uno y otro, los cuales se pueden cuantificar.
La diferencia de la escala de intervalo con la escala de razón, es que la primera no tiene cero
absoluto, no tiene un valor de referencia que indique la ausencia del valor de la variable.
Se puede decir la distancia del intervalo en que están dos sujetos o valores, pero no si la distancia es
el doble o triple de la otra.
En psicología, en rigor, se puede llegar sólo hasta un nivel ordinal de medición, porque en las
características psicológicas no hay un cero absoluto. Este es arbitrario, por lo tanto, si en un test de
inteligencia asigno puntuaciones de 80 o 100, éstos son arbitrarios, y sólo se asume el isomorfismo con la
realidad.
4.- Medición de Razón : es el nivel más alto de medición y es el que prefieren los científicos.
Posee las características de los niveles anteriores, pero además posee un cero absoluto natural, que
tiene significado empírico.
Si un sujeto obtiene un valor 0, existe una base para decir, que él no tiene la cualidad medida.
Esto permite todas las operaciones aritméticas, por ejemplo aquí es posible decir que un alumno con
una puntuación de 8, en una escala de logro, tiene un nivel de logro dos veces mayor que otro que obtuvo 4.
Los niveles que mayormente se utilizan son el nominal y el ordinal; y muchas veces pueden
aproximarse bastante bien a mediciones de intervalo.
En el nivel nominal se pueden utilizar estadísticas de frecuencia, como por ejemplo la prueba del Chi
cuadrado (), porcentaje, y algunos coeficientes de correlación ( coeficiente de contingencia ).
Cuando no se encuentran otras formas de medir, casi siempre se puede hacer particiones de los
sujetos en dos grupos. Por ejemplo: sexo/ motivación por estudios de psicología; donde se hace una partición
de la motivación.
Hablando en forma estricta y básica, los puntajes en las pruebas de inteligencia, de aptitud y de
personalidad son ordinales.
Indican con mayor exactitud, no las cantidades de inteligencia, aptitud o de rasgos, sino la posición
de orden por rango. Por ejemplo, no es posible decir que un individuo tiene una inteligencia de 0, ya que
algún grado de inteligencia tendrá.
Sin un cero absoluto no es posible sumar las cantidades de inteligencia.
La falta de un cero real no es tan serio. Lo más serio es la falta de intervalos iguales.
Lo que más interesa es tener una medida de las distancias entre los valores que se aproximen lo más
posible a la realidad.
En general, se utilizan criterios flexibles y estadísticos r (coeficiente de correlación) t (t de student
para la diferencia de medias), F (para análisis de varianza en diseños factoriales) con medidas ordinales, se
consideran el punto medio entre valores positivos y negativos, como 0.
En la mayoría de las escalas ordinales usadas en Psicología, se pueden suponer intervalos iguales.
Mientras más se aproximen los valores a la linealidad es posible suponer con mayor certeza que
tienen intervalos iguales.
Descargar